TAILIEUCHUNG - Phương pháp tăng cường dữ liệu huấn luyện dịch máy thống kê cặp ngôn ngữ Việt-Anh bằng kỹ thuật Back-translation và lựa chọn thích nghi

Bài viết nghiên cứu, áp dụng BT để tăng chất lượng dữ liệu huấn luyện cho dịch máy thống kê cặp ngôn ngữ Việt-Anh (là cặp ngôn ngữ có nguồn dữ liệu hạn chế). Phương pháp đề xuất sử dụng ngôn ngữ trung gian cho BT là tiếng Đức. Các câu tiếng Anh ở dữ liệu huấn luyện ban đầu được dịch sang tiếng Đức sau đó dịch trở lại từ tiếng Đức sang tiếng Anh để tạo ra các câu tiếng Anh mới có nghĩa tương đương với các câu gốc. | Nghiên cứu khoa học công nghệ PHƯƠNG PHÁP TĂNG CƯỜNG DỮ LIỆU HUẤN LUYỆN DỊCH MÁY THỐNG KÊ CẶP NGÔN NGỮ VIỆT-ANH BẰNG KỸ THUẬT BACK - TRANSLATION VÀ LỰA CHỌN THÍCH NGHI Đặng Thanh Quyền1 Nguyễn Chí Thành1 Nguyễn Phương Thái2 Tóm tắt Dịch ngược Back-translation - BT đã được sử dụng rộng rãi và trở thành một trong những kỹ thuật tiêu chuẩn để tăng cường dữ liệu trong dịch máy bằng nơ-ron Neural Machine Translation - NMT . Việc sử dụng BT đã được chứng minh là có hiệu quả trong việc cải thiện hiệu suất dịch thuật đặc biệt đối với các trường hợp tài nguyên hạn chế. Hiện nay phần lớn các nghiên cứu liên quan đến BT chủ yếu tập trung vào các ngôn ngữ châu Âu chỉ một số ít nghiên cứu về dịch thuật ngôn ngữ ở các khu vực khác trên thế giới. Trong bài báo này chúng tôi nghiên cứu áp dụng BT để tăng chất lượng dữ liệu huấn luyện cho dịch máy thống kê cặp ngôn ngữ Việt-Anh là cặp ngôn ngữ có nguồn dữ liệu hạn chế . Phương pháp đề xuất sử dụng ngôn ngữ trung gian cho BT là tiếng Đức. Các câu tiếng Anh ở dữ liệu huấn luyện ban đầu được dịch sang tiếng Đức sau đó dịch trở lại từ tiếng Đức sang tiếng Anh để tạo ra các câu tiếng Anh mới có nghĩa tương đương với các câu gốc. Một số độ đo thích nghi được đề xuất để đánh giá tập câu tiếng Anh thu được lựa chọn các câu được đánh giá tốt để thêm vào dữ liệu huấn luyện ban đầu. Kết quả thử nghiệm trên hệ thống dịch máy thống kê MOSES với cặp ngôn ngữ Việt-Anh cho thấy nếu thêm toàn bộ câu được sinh ra bởi BT vào tập dữ liệu huấn luyện mà không áp dụng việc lựa chọn dữ liệu thì kết quả không tăng lên so với việc sử dụng dữ liệu huấn luyện ban đầu. Trong khi đó việc áp dụng các kỹ thuật lựa chọn dữ liệu thích nghi đạt được kết quả BLEU tăng lên với kết quả tốt nhất tăng thêm điểm BLEU. Từ khóa Back-translation Dịch máy thống kê Tăng cường dữ liệu. 1. ĐẶT VẤN ĐỀ Dữ liệu huấn luyện có vai trò quan trọng quyết định chất lượng các hệ thống học máy hệ thống học máy thực sự hiệu quả khi chúng ta có lượng dữ liệu đủ lớn để máy học tuy nhiên

TỪ KHÓA LIÊN QUAN
TAILIEUCHUNG - Chia sẻ tài liệu không giới hạn
Địa chỉ : 444 Hoang Hoa Tham, Hanoi, Viet Nam
Website : tailieuchung.com
Email : tailieuchung20@gmail.com
Tailieuchung.com là thư viện tài liệu trực tuyến, nơi chia sẽ trao đổi hàng triệu tài liệu như luận văn đồ án, sách, giáo trình, đề thi.
Chúng tôi không chịu trách nhiệm liên quan đến các vấn đề bản quyền nội dung tài liệu được thành viên tự nguyện đăng tải lên, nếu phát hiện thấy tài liệu xấu hoặc tài liệu có bản quyền xin hãy email cho chúng tôi.
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.