TAILIEUCHUNG - Tóm tắt văn bản tiếng Việt dựa trên bộ hệ số đặc trưng
Bài báo này đề xuất một tiếp cận mới trong tóm tắt văn bản tiếng Việt theo hướng trích rút dựa trên bộ hệ số của 8 đặc trưng quan trọng (vị trí câu, độ dài câu, trọng số TFxISF, xác suất thực từ, thực thể tên, thực thể số, độ tương tự với tiêu đề, câu trung tâm). Bộ hệ số đặc trưng này được xác định bằng phương pháp học máy sử dụng giải thuật tối ưu đàn kiến (ACO-Ant Colony Optimization) trên kho ngữ liệu huấn luyện. Mời các bạn tham khảo! | Túm tắt văn bản tiếng Việt dựa trờn bộ hệ số đặc trưng Nghiờn cứu khoa học cụng nghệ Tóm tắt văn bản tiếng việt Dựa TRên bộ hệ số đặc trưng NGUYỄN NHẬT AN*, NGUYỄN QUANG BẮC*, NGUYỄN ĐỨC HIẾU** Túm tắt: Túm tắt văn bản là quỏ trỡnh rỳt gọn văn bản mà vẫn giữ được những thụng tin quan trọng. Bài bỏo này đề xuất một tiếp cận mới trong túm tắt văn bản tiếng Việt theo hướng trớch rỳt dựa trờn bộ hệ số của 8 đặc trưng quan trọng (vị trớ cõu, độ dài cõu, trọng số TFxISF, xỏc suất thực từ, thực thể tờn, thực thể số, độ tương tự với tiờu đề, cõu trung tõm). Bộ hệ số đặc trưng này được xỏc định bằng phương phỏp học mỏy sử dụng giải thuật tối ưu đàn kiến (ACO-Ant Colony Optimization) trờn kho ngữ liệu huấn luyện. Thử nghiệm túm tắt văn bản theo hướng tiếp cận này cho thấy, văn bản túm tắt cú độ chớnh xỏc cao, cú thể ỏp dụng trong thực tế. Từ khúa: Túm tắt văn bản tiếng Việt, Đặc trưng văn bản, Hệ số đặc trưng văn bản, Giải thuật tối ưu đàn kiến. 1. ĐẶT VẤN ĐỀ Trong thời đại bựng nổ thụng tin điện tử, nhu cầu tự động tổng hợp thụng tin nổi bật từ kho văn bản điện tử khổng lồ đú trở nờn đặc biệt quan trọng và được sự quan tõm rộng rói. Túm tắt văn bản là quỏ trỡnh rỳt gọn văn bản mà vẫn giữ được những thụng tin quan trọng của văn bản. Kỹ thuật túm tắt văn bản được cỏc nhà nghiờn cứu phõn ra thành hai loại là: túm tắt văn bản là túm tắt rỳt trớch (Extraction Summarization) và túm tắt túm lược (Abstraction Summarization). Đối với túm tắt văn bản tiếng Việt, số lượng cỏc nghiờn cứu cũn chưa nhiều như cỏc ngụn ngữ khỏc như tiếng Anh, tiếng Nhật, tiếng Trung .
đang nạp các trang xem trước