TAILIEUCHUNG - Xác định các hệ số đặc trưng bằng giải thuật di truyền cho bài toán tóm tắt văn bản tiếng Việt
Bài báo này đề xuất một tiếp cận mới trong tóm tắt văn bản tiếng Việt theo hướng trích rút (Extraction Summarization) dựa trên các đặc trưng quan trọng như vị trí câu, độ dài câu, trọng số TFxISF, xác suất thực từ, độ tương tự với chủ đề, câu trung tâm. | Xỏc định cỏc hệ số đặc trưng bằng giải thuật di truyền cho bài toỏn túm tắt văn bản tiếng Việt Kỹ thuật điện tử & Khoa học mỏy tớnh Xác định các hệ số đặc trưng bằng giảI thuật di truyền cho bài toán tóm tắt văn bản tiếng việt NGUYỄN NHẬT AN*, NGUYỄN QUANG BẮC*, NGUYỄN ĐỨC HIẾU**, TRẦN NGỌC ANH** Túm tắt: Túm tắt văn bản là quỏ trỡnh rỳt gọn văn bản mà vẫn giữ được những thụng tin quan trọng. Bài bỏo này đề xuất một tiếp cận mới trong túm tắt văn bản tiếng Việt theo hướng trớch rỳt (Extraction Summarization) dựa trờn cỏc đặc trưng quan trọng như vị trớ cõu, độ dài cõu, trọng số TFxISF, xỏc suất thực từ, độ tương tự với chủ đề, cõu trung tõm. Đầu tiờn, chỳng tụi xỏc định tập đặc trưng quan trọng trong văn bản tiếng Việt. Bước tiếp theo sử dụng giải thuật di truyền để xỏc định hệ số cỏc đặc trưng từ kho ngữ liệu huấn luyện. Thử nghiệm túm tắt văn bản với cỏc hệ số thu được từ giải thuật di truyền cho thấy, văn bản túm tắt cú độ chớnh xỏc cao, cú thể ỏp dụng tốt trong thực tế. Từ khúa: Túm tắt văn bản tiếng Việt, Đặc trưng văn bản, Hệ số đặc trưng văn bản, Giải thuật di truyền. 1. ĐẶT VẤN ĐỀ Trong thời đại bựng nổ thụng tin điện tử, nhu cầu tự động tổng hợp thụng tin nổi bật từ kho văn bản điện tử khổng lồ đú trở nờn đặc biệt quan trọng và được sự quan tõm rộng rói. Túm tắt văn bản là quỏ trỡnh rỳt gọn văn bản mà vẫn giữ được những thụng tin quan trọng của văn bản. Kỹ thuật túm tắt văn bản được cỏc nhà nghiờn cứu phõn ra thành hai loại là: túm tắt văn bản là túm tắt rỳt trớch ES(Extraction Summarization) và túm tắt túm lược AS(Abstraction Summarization)[17]. Đối với túm tắt văn bản tiếng Việt, cỏc nghiờn cứu chủ yếu dựa theo hướng tiếp cận ES là thụng qua tớnh toỏn cỏc đặc trưng tần suất từ, vị trớ cõu, từ tiờu đề, độ tương tự. để chọn ra cỏc cõu quan trọng nhất theo tỉ lệ trớch .
đang nạp các trang xem trước