Đang chuẩn bị nút TẢI XUỐNG, xin hãy chờ
Tải xuống
Vấn đề về ranh giới từ trong ngữ liệu song ngữ Anh-Việt tập trung giới thiệu ngữ liệu song ngữ việc dóng hàng từ trong song ngữ, nhu cầu xác định ranh giới từ cho bài toán dóng hàng từ; các quan điểm về ranh giới từ, đơn vị “tiếng” và “từ” trong tiếng Việt; một số điểm khác biệt về hình vị giữa tiếng Anh và tiếng Việt;. | VẤN ĐỀ VỀ RANH GIỚI TỪ TRONG NGỮ LIỆU SONG NGỮ ANH-VIỆT Đinh Điền Hồ Bảo Quốc Khoa CNTT ĐH Khoa học Tự nhiên - ĐHQG Tp.HCM ddien hbquoc @fit.hcmuns.edu.vn TÓM TẮT Để dịch máy theo phương pháp thống kê tra cứu xuyên ngôn ngữ nghiên cứu so sánh đối chiếu các điểm tương đồng và dị biệt giữa ngôn ngữ tiếng Anh và tiếng Việt chúng ta cần phải xây dựng được một kho ngữ liệu song ngữ Anh-Việt English-Vietnamese parallel corpus . Kho ngữ liệu này phải qua các xử lý như dóng hàng từ word alignment gán nhãn tự loại cú pháp ngữ nghĩa . Tuy nhiên trước khi tiến hành các xử lý tự động trên chúng ta nhất thiết phải xác định được các tiêu chí nhận diện ranh giới từ word boundary tiếng Anh cũng như tiếng Việt để làm cơ sở hình thái học cho các xử lý tự động đó. Trong bài báo này chúng tôi sẽ trình bày một số vấn đề liên quan đến việc xác định ranh giới từ tiếng Anh và tiếng Việt một cách tự động trong song ngữ Anh-Việt. Nội dung bài báo bao gồm 5 phần sau 1. Giới thiệu giới thiệu ngữ liệu song ngữ. Việc dóng hàng từ trong song ngữ. Nhu cầu xác định ranh giới từ cho bài toán dóng hàng từ. 2. Tổng quan các quan điểm về ranh giới từ. Đơn vị tiếng và từ trong tiếng Việt. 3. Một số điểm khác biệt về hình vị giữa tiếng Anh và tiếng Việt. 4. Đề nghị tiêu chí ranh giới từ trong song ngữ Anh-Việt nhằm phục vụ cho bài toán dóng hàng từ tự động. 5. Kết luận và hướng phát triển nhận xét khả năng ứng dụng và hướng phát triển trong tương lai. 1. GIỚI THIỆU 1.1 Giới thiệu về ngữ liệu song ngữ Thuật ngữ ngữ liệu được tạm dịch từ thuật ngữ tiếng Anh corpus có nghĩa là kho dữ liệu kho sưu tập tài liệu . theo Từ điển Anh-Việt ĐH Ngoại ngữ NXB GD-2000 trang 368 . Ngữ liệu ở đây có thể xem là những dữ liệu cứ liệu của ngôn ngữ tức là những chứng cứ thực tế sử dụng ngôn ngữ. Ngữ liệu song ngữ 1 dịch từ tiếng Anh là bilingual corpus hay parallel text hay bitext là ngữ liệu tồn tại dưới 2 ngôn ngữ và chúng là bản dịch của nhau. Trong dịch máy theo phương pháp thống kê Statistical Machine Translation tra