TAILIEUCHUNG - Xây dựng kho ngữ liệu du lịch song ngữ Việt-Anh gióng hàng mức câu cho dịch máy

Bài viết này trình bày việc xây dựng một kho ngữ liệu song ngữ Việt–Anh trong lĩnh vực du lịch và cải thiện một công cụ gióng hàng ở mức câu đã có cho văn bản song ngữ Việt–Anh, đạt được độ chính xác trên 90% cho các tập dữ liệu của chúng tôi. | Xây dựng kho ngữ liệu du lịch song ngữ Việt-Anh gióng hàng mức câu cho dịch máy Các công trình nghiên cứu phát triển Công nghệ Thông tin và Truyền thông Xây dựng kho ngữ liệu du lịch song ngữ Việt–Anh gióng hàng mức câu cho dịch máy Nguyễn Tiến Hà1 , Nguyễn Thị Minh Huyền2 , Nguyễn Minh Hải2 1 Trung tâm Giáo dục Thường xuyên tỉnh Phú Thọ 2 Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội Tác giả liên hệ: Nguyễn Tiến Hà, tienhapt@ Ngày nhận bài: 11/08/2017, ngày sửa chữa: 03/05/2018, ngày duyệt đăng: 25/07/2018 Xem sớm trực tuyến: 08/11/2018, định danh DOI: Biên tập lĩnh vực điều phối phản biện và quyết định nhận đăng: PGS. TS. Nguyễn Lê Minh Tóm tắt: Kho ngữ liệu song ngữ được gióng hàng mức câu là một dạng tài nguyên ngôn ngữ quan trọng được sử dụng trong nhiều ứng dụng của xử lý ngôn ngữ tự nhiên, như: nghiên cứu ngôn ngữ học so sánh, tìm kiếm thông tin xuyên ngữ, xây dựng từ điển song ngữ. Đặc biệt trong lĩnh vực dịch máy, chất lượng và độ lớn của kho ngữ liệu song ngữ có vai trò quyết định đến chất lượng dịch. Các hệ thống dịch máy hiện nay vẫn cần được cải tiến để xử lý nhiều hiện tượng ngôn ngữ. Các hệ thống dịch máy huấn luyện trên miền tổng quát thường có chất lượng kém khi ứng dụng vào văn bản trên miền hạn chế. Một giải pháp cho vấn đề này là kết hợp mô hình dịch trên miền tổng quát và miền hạn chế. Để làm được điều đó, việc xây dựng được kho ngữ liệu trên miền hạn chế là rất cần thiết. Bài báo này trình bày việc xây dựng một kho ngữ liệu song ngữ Việt–Anh trong lĩnh vực du lịch và cải thiện một công cụ gióng hàng ở mức câu đã có cho văn bản song ngữ Việt–Anh, đạt được độ chính xác trên 90% cho các tập dữ liệu của chúng tôi. Với sự trợ giúp của công cụ này, chúng tôi đã xây dựng được kho ngữ liệu song ngữ Việt–Anh miền du lịch có gióng hàng mức câu, cho phép huấn luyện mô hình dịch máy Việt–Anh tăng được khoảng 8, 79 điểm BLEU so với các mô hình được huấn luyện .

TỪ KHÓA LIÊN QUAN
TAILIEUCHUNG - Chia sẻ tài liệu không giới hạn
Địa chỉ : 444 Hoang Hoa Tham, Hanoi, Viet Nam
Website : tailieuchung.com
Email : tailieuchung20@gmail.com
Tailieuchung.com là thư viện tài liệu trực tuyến, nơi chia sẽ trao đổi hàng triệu tài liệu như luận văn đồ án, sách, giáo trình, đề thi.
Chúng tôi không chịu trách nhiệm liên quan đến các vấn đề bản quyền nội dung tài liệu được thành viên tự nguyện đăng tải lên, nếu phát hiện thấy tài liệu xấu hoặc tài liệu có bản quyền xin hãy email cho chúng tôi.
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.