TAILIEUCHUNG - Paraphrasing and Translation - part 7

Bleu của mô hình cho phép sự thay đổi trong bản dịch thô, và trong nhiều trường hợp là không thể phân biệt giữa bản dịch chất lượng khác nhau rõ ràng. Kể từ khi Bleu giao điểm tương tự như các bản dịch của chất lượng khác nhau, nó là hợp lý | . Implications for evaluating paraphrases 107 Appropriate uses for Bleu Bleu s model of allowable variation in translation is coarse and in many cases it is unable to distinguish between translations of obvious different quality. Since Bleu assigns similar scores to translations of different quality it is logical that a higher Bleu score may not necessarily be indicative of a genuine improvement in translation quality. Changes which fail to improve Bleu may be due to the fact that it is insensitive to such improvements. These comments do not apply solely to Bleu. Translation Error Rate Snover et al. 2006 Meteor Banerjee and Lavie 2005 Precision and Recall Melamed et al. 2003 and other such automatic metrics may also be affected to a greater or lesser degree because they are all quite rough measures of translation similarity and have inexact models of allowable variation in translation. What conclusions can we draw from this Should we give up on using Bleu entirely We think that the advantages of Bleu are still very strong automatic evaluation metrics are inexpensive and do allow many tasks to be performed that would otherwise be impossible. The important thing therefore is to recognize which uses of Bleu are appropriate and which uses are not. Appropriate uses for Bleu include tracking broad incremental changes to a single system comparing systems which employ similar translation strategies and using Bleu as an objective function to optimize the values of parameters such as feature weights in log linear translation models until a better metric has been proposed. Inappropriate uses for Bleu include comparing systems which employ radically different strategies trying to detect improvements for aspects of translation that are not modeled well by Bleu and monitoring improvements that occur infrequently within a test corpus. Implications for evaluating translation quality improvements due to paraphrasing Bleu s weakness are especially pertinent when we .

TAILIEUCHUNG - Chia sẻ tài liệu không giới hạn
Địa chỉ : 444 Hoang Hoa Tham, Hanoi, Viet Nam
Website : tailieuchung.com
Email : tailieuchung20@gmail.com
Tailieuchung.com là thư viện tài liệu trực tuyến, nơi chia sẽ trao đổi hàng triệu tài liệu như luận văn đồ án, sách, giáo trình, đề thi.
Chúng tôi không chịu trách nhiệm liên quan đến các vấn đề bản quyền nội dung tài liệu được thành viên tự nguyện đăng tải lên, nếu phát hiện thấy tài liệu xấu hoặc tài liệu có bản quyền xin hãy email cho chúng tôi.
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.