TAILIEUCHUNG - Thích ứng miền trong dịch máy nơ ron cho cặp ngôn ngữ Anh-Việt

Bài viết đề xuất một phương pháp thích ứng miền mới cho dịch máy nơ ron, áp dụng cho cặp ngôn ngữ Anh - Việt. Ý tưởng chính của bài báo là kết hợp dữ liệu đơn ngữ ngoài miền ở ngôn ngữ nguồn (tiếng Anh) với bản dịch của nó ở ngôn ngữ đích (tiếng Việt) để làm dữ liệu huấn luyện hệ dịch. | Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR Huế ngày 07-08 6 2019 DOI THÍCH ỨNG MIỀN TRONG DỊCH MÁY NƠ RON CHO CẶP NGÔN NGỮ ANH - VIỆT Phạm Nghĩa Luân1 Nguyễn Văn Vinh2 Nguyễn Huy Hoàng3 1 Trường Đại học Hải Phòng 2 Trường Đại học Công nghệ Đại học Quốc gia Hà Nội 3 Học viện Quản lý giáo dục luanpn@ vinhnv@ huyhoangpvn@ TÓM TẮT Dịch máy là một trong những hướng nghiên cứu quan trọng trong xử lý ngôn ngữ tự nhiên. Trong những năm gần đây dịch máy nơ ron đã và đang được nghiên cứu phổ biến hơn trong cộng đồng dịch máy vì hiện tại nó cho chất lượng dịch tốt hơn so với phương pháp dịch máy thống kê truyền thống. Tuy nhiên dịch máy nơ ron lại cần lượng lớn dữ liệu song ngữ để huấn luyện. Hệ dịch sẽ cho chất lượng bản dịch tốt hơn khi nó được thử nghiệm trong cùng miền với miền dữ liệu mà nó được huấn luyện ngược lại thì chất lượng bản dịch sẽ bị sụt giảm mức độ sụt giảm phụ thuộc vào mức độ khác biệt giữa dữ liệu miền huấn luyện và dữ liệu miền thử nghiệm. Hiện nay các kĩ thuật thích ứng miền cho dịch máy nơ ron đã được công bố chủ yếu được thực hiện trên một số cặp ngôn ngữ phổ biến giàu tài nguyên và chưa có nhiều nghiên cứu đã được công bố về thích ứng miền trong dịch máy nơ ron cho cặp ngôn ngữ Anh - Việt. Trong bài báo này chúng tôi đề xuất một phương pháp thích ứng miền mới cho dịch máy nơ ron áp dụng cho cặp ngôn ngữ Anh - Việt. Ý tưởng chính của bài báo là kết hợp dữ liệu đơn ngữ ngoài miền ở ngôn ngữ nguồn tiếng Anh với bản dịch của nó ở ngôn ngữ đích tiếng Việt để làm dữ liệu huấn luyện hệ dịch. Các thực nghiệm đã chứng minh rằng phương pháp chúng tôi đề xuất dễ thực hiện khai thác được những ưu điểm của dữ liệu đơn ngữ như luôn có sẵn chi phí xây dựng thấp và đặc biệt là chất lượng của hệ dịch được và tăng 2 21 điểm BLEU trong thử nghiệm của chúng tôi. Từ khóa Thích ứng miền dịch máy nơ ron dịch máy. I. GIỚI THIỆU Mục tiêu của dịch máy là nghiên cứu

TÀI LIỆU LIÊN QUAN
TỪ KHÓA LIÊN QUAN
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.