TAILIEUCHUNG - KHỬ BỎ NHẬP NHẰNG TRONG BÀI TOÁN TÁCH TỪ TIẾNG LÀO

Trong xử lý tự nhiên (XLNNTN), thường gặp bài toán tách từ trong phân loại văn bản tự động, hay phân tích, dịch thuật văn bản Do cách viết tiếng Lào không dùng dấu cách, hay ký hiệu phân biệt các từ trong câu, việc xác định ranh giới giữa các từ, cụm từ trở nên khó khăn hơn so với các ngôn ngữ có dấu cách từ rõ ràng như tiếng Anh, tiếng Việt | KHỬ BỎ NHẬP NHẰNG TRONG BÀI TOÁN TÁCH TỪ TIẾNG LÀO A DISAMBIGUATION METHOD FOR THE DOCUMENT SEGMENTATION OF THE LAO LANGUAGE Vilavong Souksan Phan Huy Khánh Trường Đại học Bách Khoa Dai hoc Champasak Lao phkhanh@ ssuchedu@yaho TÓM TẮT Trong xử lý tự nhiên XLNNTN thường gặp bài toán tách từ trong phân loại văn bản tự động hay phân tích dịch thuật văn bản. Do cách viết tiếng Lào không dùng dấu cách hay ký hiệu phân biệt các từ trong câu việc xác định ranh giới giữa các từ cụm từ trở nên khó khăn hơn so với các ngôn ngữ có dấu cách từ rõ ràng như tiếng Anh tiếng Việt. Hơn nữa hiện tượng nhập nhằng đa nghĩa trong các ngôn ngữ nói chung tiếng Lào nói riêng cũng đặt ra những vấn đề cần giải quyết. Trên cơ sở đánh giá các phương pháp tách từ trong xử lý Tin học tiếng Lào nội dung bài báo trình bày kết quả tìm hiểu các hiện tượng nhập nhằng trong tiếng Lào bằng cách đối sánh với các hiện tượng nhập nhằng trong tiếng Việt từ đó bài báo đề xuất giải pháp khử bỏ nhập nhằng trong tiến trình tách từ tiếng Lào để đạt được kết quả có độ chính xác tốt hơn so với các phương pháp tách từ tiếng Lào đã đề xuất trước đây. Từ khóa nhập nhằng phân loại văn bản tách từ xử lý ngôn ngữ tự nhiên xử lý tiếng Lào ABSTRACT In the field of natural language processing NLP there is a problem of words segmentation in a sentence that is often applied to the automatic classification of documents or in the analysis the translation of the text. As the writing of the Lao language does not use spaces or separation symbols of words the determination of boundaries between words in the sentences is more difficult than other languages such as English Vietnamese language. Moreover the phenomenon of ambiguity in natural language in general especially in Laos language also poses problems that need to be solved. At present on the basis of the research status estimation of information technology applications in Lao and evaluation methods generally used for separating from texts in the application

TỪ KHÓA LIÊN QUAN
TAILIEUCHUNG - Chia sẻ tài liệu không giới hạn
Địa chỉ : 444 Hoang Hoa Tham, Hanoi, Viet Nam
Website : tailieuchung.com
Email : tailieuchung20@gmail.com
Tailieuchung.com là thư viện tài liệu trực tuyến, nơi chia sẽ trao đổi hàng triệu tài liệu như luận văn đồ án, sách, giáo trình, đề thi.
Chúng tôi không chịu trách nhiệm liên quan đến các vấn đề bản quyền nội dung tài liệu được thành viên tự nguyện đăng tải lên, nếu phát hiện thấy tài liệu xấu hoặc tài liệu có bản quyền xin hãy email cho chúng tôi.
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.