TAILIEUCHUNG - Dịch máy thống kê pháp việt kết hợp thông tin gióng hàng phân đoạn ngữ
Bài báo đề xuất hướng tiếp cận dịch máy thống kê Pháp-Việt kết hợp thông tin phân đoạn ngữ cho cặp ngôn ngữ Pháp-Việt nhằm khắc phục hạn chế đối của hệ dịch với những câu dài. Tiến hành thử nghiệm mô hình hệ thống với kho ngữ liệu song ngữ Pháp-Việt gồm cặp câu và kết quả độ đo BLEU tăng gần 2% so với mô hình cơ sở. | Tạp chí Tin học và Điều khiển học, , (2013), 358–368 DỊCH MÁY THỐNG KÊ PHÁP-VIỆT KẾT HỢP THÔNG TIN GIÓNG HÀNG PHÂN ĐOẠN NGỮ LÊ NGỌC TẤN1 , LÊ NGỌC TIẾN1 , ĐINH ĐIỀN2 1 Khoa 2 Khoa Công nghệ Thông tin, Trường Đại học Công nghiệp Tp. HCM; letan, Công nghệ Thông tin, Trường Đại học Khoa học Tự nhiên ; ddien@ Tóm t t. Hiện nay, trong các mô hình dịch máy thống kê, mô hình dịch dựa trên ngữ được đánh giá cao nhất. Tuy nhiên, mô hình này vẫn còn thiếu sự tích hợp các tri thức ngôn ngữ ở mức cao hơn, như thông tin từ pháp, thông tin cú pháp và ngữ nghĩa. Điều này dẫn đến kết quả của phương pháp này vẫn còn bị hạn chế đối với bài toán câu dài. Chính vì vậy, việc sử dụng các thông tin hình thái như phân đoạn ngữ với mục đích giảm độ dài câu để cải tiến chất lượng dịch là một trong những hướng tiếp cận đầy tiềm năng trong những năm gần đây và qua đó, góp phần khử nhập nhằng trong gióng hàng từ trong bài toán câu dài. Bài báo đề xuất hướng tiếp cận dịch máy thống kê Pháp-Việt kết hợp thông tin phân đoạn ngữ cho cặp ngôn ngữ Pháp-Việt nhằm khắc phục hạn chế đối của hệ dịch với những câu dài. Tiến hành thử nghiệm mô hình hệ thống với kho ngữ liệu song ngữ Pháp-Việt gồm cặp câu và kết quả độ đo BLEU tăng gần 2% so với mô hình cơ sở. T khóa. Ngữ liệu song ngữ, dịch máy thống kê, gióng hàng phân đoạn ngữ. Abstract. Nowadays, among Statistical Machine Translation (SMT) models, the phrase-based SMT is highly appreciated, however, this model is still lacked of linguistics knowledge at a higher level such as morphological, syntactic and semantic information. Consequently, the results of this approach are still limited by the issue of long sentences. So, using morphological information from such as phrase chunking on the purpose of reducing the length of sentences to improve the translation quality is a promising approach. And thus, it contributes to disambiguate the chunk alignment in the long sentences. In this paper,
đang nạp các trang xem trước