TAILIEUCHUNG - Sử dụng Bert cho tóm tắt trích rút văn bản

Nội dung của bài viết giới thiệu một phương pháp tóm tắt trích rút các văn bản sử dụng BERT. Để làm điều này, các tác giả biểu diễn bài toán tóm tắt trích rút dưới dạng phân lớp nhị phân mức câu. Các câu sẽ được biểu diễn dưới dạng vector đặc trưng sử dụng BERT, sau đó được phân lớp để chọn ra những câu quan trọng làm bản tóm tắt thông qua thử nghiệm phương pháp trên 3 tập dữ liệu với 2 ngôn ngữ (Tiếng Anh và Tiếng Việt). | ISSN 2354-0575 SỬ DỤNG BERT CHO TÓM TẮT TRÍCH RÚT VĂN BẢN Đỗ Thị Thu Trang Trịnh Thị Nhị Ngô Thanh Huyền Trường Đại học Sư phạm Kỹ thuật Hưng Yên Ngày tòa soạn nhận được bài báo 03 03 2020 Ngày phản biện đánh giá và sửa chữa 15 05 2020 Ngày bài báo được duyệt đăng 18 06 2020 Tóm tắt Bài báo này giới thiệu một phương pháp tóm tắt trích rút các văn bản sử dụng BERT. Để làm điều này các tác giả biểu diễn bài toán tóm tắt trích rút dưới dạng phân lớp nhị phân mức câu. Các câu sẽ được biểu diễn dưới dạng vector đặc trưng sử dụng BERT sau đó được phân lớp để chọn ra những câu quan trọng làm bản tóm tắt. Chúng tôi thử nghiệm phương pháp trên 3 tập dữ liệu với 2 ngôn ngữ Tiếng Anh và Tiếng Việt . Kết quả thực nghiệm cho thấy phương pháp cho kết quả tốt so với các mô hình khác. Từ khóa Tóm tắt văn bản xử lý ngôn ngữ học máy học sâu học không giám sát. Chữ viết tắt định xem một câu có nên được đưa vào bản tóm tắt TT Chữ viết tắt Ý nghĩa hay không. Trong huấn luyện các phương pháp học NLP Natural Language Xử lý ngôn ngữ có giám sát sử dụng các đặc trưng được xác định Processing tự nhiên trước bằng tay trích xuất từ dữ liệu để huấn luyện L2R Learning to rank Học để xếp hạng mô hình sử dụng dự đoán các đầu vào chưa biết TF-IDF Term Frequency - Là một kỹ thuật 2-5 . Cách tiếp cận này phù hợp với dữ liệu được Inverse Document khai phá dữ liệu gán nhãn đúng và có các đặc trưng phù hợp. Tuy Frequency văn bản nhiên trên thực tế dữ liệu được gán nhãn thường MLP Multi-layer Perceptron nhiều không có sẵn và việc xác định các đặc trưng phù Perceptron lớp hợp cho một miền cụ thể cũng là một nhiệm vụ đầy thách thức. Điều này gợi ý cho hướng nghiên cứu 1. Giới thiệu thứ hai với các phương pháp học không giám sát 6- Tóm tắt văn bản tự động là một nhiệm vụ đầy 11 . Phương pháp này khác với phương pháp học có thách thức nhưng thú vị của xử lý ngôn ngữ tự nhiên giám sát ở chỗ chúng không cần huấn luyện dữ liệu NLP . Nhiệm vụ đặt ra là tạo ra một bản tóm tắt súc và do .

TÀI LIỆU LIÊN QUAN
TAILIEUCHUNG - Chia sẻ tài liệu không giới hạn
Địa chỉ : 444 Hoang Hoa Tham, Hanoi, Viet Nam
Website : tailieuchung.com
Email : tailieuchung20@gmail.com
Tailieuchung.com là thư viện tài liệu trực tuyến, nơi chia sẽ trao đổi hàng triệu tài liệu như luận văn đồ án, sách, giáo trình, đề thi.
Chúng tôi không chịu trách nhiệm liên quan đến các vấn đề bản quyền nội dung tài liệu được thành viên tự nguyện đăng tải lên, nếu phát hiện thấy tài liệu xấu hoặc tài liệu có bản quyền xin hãy email cho chúng tôi.
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.