TAILIEUCHUNG - Dịch máy thống kê pháp việt kết hợp thông tin gióng hàng phân đoạn ngữ

Bài báo đề xuất hướng tiếp cận dịch máy thống kê Pháp-Việt kết hợp thông tin phân đoạn ngữ cho cặp ngôn ngữ Pháp-Việt nhằm khắc phục hạn chế đối của hệ dịch với những câu dài. Tiến hành thử nghiệm mô hình hệ thống với kho ngữ liệu song ngữ Pháp-Việt gồm cặp câu và kết quả độ đo BLEU tăng gần 2% so với mô hình cơ sở. | Tạp chí Tin học và Điều khiển học, , (2013), 358–368 DỊCH MÁY THỐNG KÊ PHÁP-VIỆT KẾT HỢP THÔNG TIN GIÓNG HÀNG PHÂN ĐOẠN NGỮ LÊ NGỌC TẤN1 , LÊ NGỌC TIẾN1 , ĐINH ĐIỀN2 1 Khoa 2 Khoa Công nghệ Thông tin, Trường Đại học Công nghiệp Tp. HCM; letan, Công nghệ Thông tin, Trường Đại học Khoa học Tự nhiên ; ddien@ Tóm t t. Hiện nay, trong các mô hình dịch máy thống kê, mô hình dịch dựa trên ngữ được đánh giá cao nhất. Tuy nhiên, mô hình này vẫn còn thiếu sự tích hợp các tri thức ngôn ngữ ở mức cao hơn, như thông tin từ pháp, thông tin cú pháp và ngữ nghĩa. Điều này dẫn đến kết quả của phương pháp này vẫn còn bị hạn chế đối với bài toán câu dài. Chính vì vậy, việc sử dụng các thông tin hình thái như phân đoạn ngữ với mục đích giảm độ dài câu để cải tiến chất lượng dịch là một trong những hướng tiếp cận đầy tiềm năng trong những năm gần đây và qua đó, góp phần khử nhập nhằng trong gióng hàng từ trong bài toán câu dài. Bài báo đề xuất hướng tiếp cận dịch máy thống kê Pháp-Việt kết hợp thông tin phân đoạn ngữ cho cặp ngôn ngữ Pháp-Việt nhằm khắc phục hạn chế đối của hệ dịch với những câu dài. Tiến hành thử nghiệm mô hình hệ thống với kho ngữ liệu song ngữ Pháp-Việt gồm cặp câu và kết quả độ đo BLEU tăng gần 2% so với mô hình cơ sở. T khóa. Ngữ liệu song ngữ, dịch máy thống kê, gióng hàng phân đoạn ngữ. Abstract. Nowadays, among Statistical Machine Translation (SMT) models, the phrase-based SMT is highly appreciated, however, this model is still lacked of linguistics knowledge at a higher level such as morphological, syntactic and semantic information. Consequently, the results of this approach are still limited by the issue of long sentences. So, using morphological information from such as phrase chunking on the purpose of reducing the length of sentences to improve the translation quality is a promising approach. And thus, it contributes to disambiguate the chunk alignment in the long sentences. In this paper,

TỪ KHÓA LIÊN QUAN
TAILIEUCHUNG - Chia sẻ tài liệu không giới hạn
Địa chỉ : 444 Hoang Hoa Tham, Hanoi, Viet Nam
Website : tailieuchung.com
Email : tailieuchung20@gmail.com
Tailieuchung.com là thư viện tài liệu trực tuyến, nơi chia sẽ trao đổi hàng triệu tài liệu như luận văn đồ án, sách, giáo trình, đề thi.
Chúng tôi không chịu trách nhiệm liên quan đến các vấn đề bản quyền nội dung tài liệu được thành viên tự nguyện đăng tải lên, nếu phát hiện thấy tài liệu xấu hoặc tài liệu có bản quyền xin hãy email cho chúng tôi.
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.