TAILIEUCHUNG - Xây dựng mô hình và thuật toán hợp nhất dữ liệu từ điển phục vụ xử lý ngôn ngữ tự nhiên

Bài viết đề xuất giải pháp khai phá các nguồn dữ liệu từ điển đang tồn tại để xây dựng nguồn dữ liệu từ điển đồng nhất, có kích thước và số cặp ngôn ngữ lớn hơn nhằm phục vụ khai thác và sử dụng hiệu quả hơn. Giải pháp chúng tôi đề xuất trong phạm vi bài báo này dừng lại ở đề xuất mô hình toán học và thuật toán hợp nhất các từ điển để tạo nguồn dữ liệu từ điển lớn hơn về kích thước, đầy đủ hơn về nghĩa diễn giải và nhiều hơn về số cặp ngôn ngữ. | Huỳnh Công Pháp Cao Xuân Tuấn Nguyễn Văn Bình và Đinh Thị Mỹ Hạnh 215 Xây dựng mô hình và thuật toán hợp nhất dữ liệu từ điển phục vụ xử lý ngôn ngữ tự nhiên Huỳnh Công Pháp Cao Xuân Tuấn Nguyễn Văn Bình và Đinh Thị Mỹ Hạnh Khoa Công nghệ thông tin và Truyền thông Đại học Đà Nẵng hcphap@ nvbinh@ cxtuan@ dtmhanh@ Tóm tắt. Dữ liệu từ điển có vai trò quan trọng và được ứng dụng cho nhiều bài toán khác nhau trong lĩnh vực xử lý ngôn ngữ tự nhiên như dịch máy tìm kiếm tách từ gióng hàng. Tuy nhiên một trong những thực trạng hiện nay là các từ điển đang tồn tại rãi rác riêng biệt cấu trúc dữ liệu đa dạng kích thức nhỏ và số cặp ngôn ngữ hạn chế. Theo đó việc khai thác và sử dụng các từ điển hiện nay là chưa hiệu quả và còn gặp rất nhiều khó khăn. Người dùng có thể phải truy xuất nhiều từ điển đồng thời để có thể tra cứu cùng một từ hoặc tập hợp từ ở các lĩnh vực khác nhau. Trong bài báo này chúng tôi đề xuất giải pháp khai phá các nguồn dữ liệu từ điển đang tồn tại để xây dựng nguồn dữ liệu từ điển đồng nhất có kích thước và số cặp ngôn ngữ lớn hơn nhằm phục vụ khai thác và sử dụng hiệu quả hơn. Giải pháp chúng tôi đề xuất trong phạm vi bài báo này dừng lại ở đề xuất mô hình toán học và thuật toán hợp nhất các từ điển để tạo nguồn dữ liệu từ điển lớn hơn về kích thước đầy đủ hơn về nghĩa diễn giải và nhiều hơn về số cặp ngôn ngữ. Từ khóa Hợp nhất dữ liệu mô hình thuật toán hợp nhất dữ liệu từ điển đa ngữ hợp nhất từ điển khai phá dữ liệu văn bản. 1 Giới thiệu Dữ liệu luôn đóng vai trò quyết định đến chất lượng hoạt động của các công cụ và hệ thống xử lý ngôn ngữ tự nhiên. Dữ liệu trong lĩnh vực xử lý ngôn ngữ tự nhiên bao gồm các loại phổ biến như các kho ngữ liệu treebanks từ điển. Trong đó dữ liệu từ điển có vai trò rất quan trọng để phục vụ dịch tự động và phát triển các công cụ xử lý ngôn ngữ tự nhiên chẳng hạn như các công cụ hỗ trợ học tập tra cứu các công cụ tách từ dựa trên thuật toán maximum matching các công cụ gióng .

TỪ KHÓA LIÊN QUAN
TAILIEUCHUNG - Chia sẻ tài liệu không giới hạn
Địa chỉ : 444 Hoang Hoa Tham, Hanoi, Viet Nam
Website : tailieuchung.com
Email : tailieuchung20@gmail.com
Tailieuchung.com là thư viện tài liệu trực tuyến, nơi chia sẽ trao đổi hàng triệu tài liệu như luận văn đồ án, sách, giáo trình, đề thi.
Chúng tôi không chịu trách nhiệm liên quan đến các vấn đề bản quyền nội dung tài liệu được thành viên tự nguyện đăng tải lên, nếu phát hiện thấy tài liệu xấu hoặc tài liệu có bản quyền xin hãy email cho chúng tôi.
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.