TAILIEUCHUNG - Khảo sát yếu tố ranh giới từ trong dịch thống kê Hoa-Việt

Trong bài báo này, chúng tôi sẽ tiến hành khảo sát ảnh hưởng của yếu tố ranh giới từ đến kết quả dịch thống kê Hoa-Việt. Kết quả thực nghiệm của bài báo sẽ làm cơ sở cho các hướng nghiên cứu cải tiến phân đoạn từ tiếp theo nhằm tăng hiệu suất dịch. | Science & Technology Development, Vol 18, 2015 Khảo sát yếu tố ranh giới từ trong dịch thống kê Hoa-Việt • Trần Thanh Phước Trường ðại học Tôn ðức Thắng • ðinh ðiền Trường ðại học Khoa học Tự nhiên, ðHQG-HCM ( Bài nhận ngày 04 tháng 03 năm 2015, nhận ñăng ngày 12 tháng 06 năm 2015) TÓM TẮT Trong các ngôn ngữ ñơn lập như tiếng Hoa và tiếng Việt, các từ không ñược phân biệt với nhau bởi khoảng trắng, một từ có thể bao gồm một hoặc nhiều từ chính tả. Việc có nên phân ñoạn từ hay không trước khi cho qua hệ thống huấn luyện và dịch là vấn ñề cần ñược xem xét. Trong bài báo này, chúng tôi sẽ tiến hành khảo sát ảnh hưởng của yếu tố ranh giới từ ñến kết quả dịch thống kê Hoa-Việt. Kết quả thực nghiệm của bài báo sẽ làm cơ sở cho các hướng nghiên cứu cải tiến phân ñoạn từ tiếp theo nhằm tăng hiệu suất dịch. Chúng tôi ñã khảo sát trên hai trường hợp sau: không phân ñoạn từ và phân ñoạn từ trên kho ngữ liệu và cặp câu. Dựa trên kết quả thực nghiệm, chúng tôi nhận thấy rằng: ngữ liệu chưa phân ñoạn từ hoặc ñược phân ñoạn từ ñều có những ưu và khuyết ñiểm riêng. Một hướng cải tiến mà bài báo ñề xuất là tích hợp các ưu ñiểm của hai phương pháp này vào hệ thống dịch máy. T khóa: Dịch thống kê, ranh giới từ, phân ñoạn từ, hình vị. GIỚI THIỆU Không giống với các ngôn ngữ phương Tây, ñiển hình là tiếng Anh, các từ trong tiếng Hoa và tiếng Việt không ñược phân biệt bởi khoảng trắng. Một câu tiếng Hoa bao gồm một dãy các từ chính tả, kể cả dấu câu, nằm liên tiếp với nhau và không có khoảng trắng giữa các từ chính tả này. Trong tiếng Việt, các từ chính tả ñược phân cách với nhau bởi một khoảng trắng, các dấu câu nằm liền sau từ chính tả. Do ñó, vấn ñề phân ñoạn từ luôn ñược giải quyết ñầu tiên trong bài toán dịch máy từ tiếng Hoa, Việt sang ngôn ngữ khác (chủ yếu là tiếng Anh). Một từ tiếng Hoa thường bao gồm nhiều hình vị có nghĩa, thường ñược chia thành ba trường hợp. Trường hợp một: nghĩa của các hình vị giống hoặc có liên quan ñến nghĩa của từ .

TÀI LIỆU LIÊN QUAN
TỪ KHÓA LIÊN QUAN
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.