TAILIEUCHUNG - Phương pháp đánh giá độ tương tự ngữ nghĩa giữa các văn bản tiếng Việt dựa trên mô hình Word2Vec
Đánh giá độ tương tự ngữ nghĩa giữa các văn bản được sử dụng trong nhiều ứng dụng như tìm kiếm thông tin, tóm tắt văn bản,và dịch máy. Với văn bản tiếng Việt, một trong các hướng tiếp cận là dựa trên việc so khớp từ bởi vì đơn giản, và dễ cài đặt. Bài viết trình bày việc tích hợp mô hình Word2Vec vào phương pháp trên nhằm bổ sung việc đánh giá ngữ nghĩa của các từ trong văn bản. | Phương pháp đánh giá độ tương tự ngữ nghĩa giữa các văn bản tiếng Việt dựa trên mô hình Word2Vec Nghiên cứu khoa học công nghệ PHƯƠNG PHÁP ĐÁNH GIÁ ĐỘ TƯƠNG TỰ NGỮ NGHĨA GIỮA CÁC VĂN BẢN TIẾNG VIỆT DỰA TRÊN MÔ HÌNH WORD2VEC Ngô Hữu Phúc1*, Phạm Văn Lai2, Vi Bảo Ngọc1, Nguyễn Chí Công1, Nguyễn Mạnh Trường3 Tóm tắt: Đánh giá độ tương tự ngữ nghĩa giữa các văn bản được sử dụng trong nhiều ứng dụng như tìm kiếm thông tin, tóm tắt văn bản,và dịch máy. Với văn bản tiếng Việt, một trong các hướng tiếp cận là dựa trên việc so khớp từ bởi vì đơn giản, và dễ cài đặt. Gần đây, một phương pháp đánh giá mới được phát triển dựa trên việc so khớp từ và khoảng cách Levenshtein giữa 2 xâu. Tuy nhiên, phương pháp này chưa quan tâm đến hiện tượng từ đồng nghĩa. Trong bài báo này, chúng tôi tích hợp mô hình Word2Vec vào phương pháp trên nhằm bổ sung việc đánh giá ngữ nghĩa của các từ trong văn bản. Kết quả thử nghiệm cho thấy độ chính xác trung bình của phương pháp đề xuất được nâng từ lên . Từ khóa: Xử lý ngôn ngữ tự nghiên; Học sâu; Độ tương tự ngữ nghĩa; Mô hình vector từ. 1. ĐẶT VẤN ĐỀ Đánh giá độ tương tự ngữ nghĩa giữa các văn bản đóng vai trò quan trọng trong phát triển các ứng dụng xử lý ngôn ngữ tự nhiên như: mô hình vector trong các bài toán tìm kiếm thông tin, phân lớp văn bản, dịch máy tự động, đánh giá tính chặt chẽ của văn bản, Trong một số trường hợp, phương pháp đánh giá độ tương tự giữa hai đoạn văn bản sử dụng việc so khớp từ đơn giản, dựa trên số đơn vị từ vựng xuất hiện ở cả hai đoạn văn bản đầu vào. Một số cải tiến với phương pháp đơn giản này đã được đề xuất để nâng cao hiệu quả đánh giá: xem xét đến gốc từ (stemming), loại bỏ các từ dừng, gán nhãn từ loại (part-of-speech tagging), so khớp tập con dài nhất, . Tuy nhiên, sử dụng độ tương tự từ vựng không phải lúc nào cũng xác định được độ tương tự ngữ nghĩa văn bản. Trong khi đó có rất nhiều phương pháp đánh giá độ tương tự ngữ nghĩa giữa .
đang nạp các trang xem trước