TAILIEUCHUNG - Tóm tắt văn bản báo mạng điện tử tiếng Việt sử dụng Textrank

Bài viết đề xuất mô hình tóm tắt tự động văn bản tiếng Việt thể loại báo mạng điện tử. Văn bản được biểu diễn dưới dạng đồ thị, mỗi đỉnh của đồ thị biểu diễn một câu trong văn bản, trọng số các cạnh nối giữa các đỉnh biểu diễn sự tương tự về ngữ nghĩa giữa hai câu (đỉnh). | Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR Nha Trang ngày 8-9 10 2020 DOI TÓM TẮT VĂN BẢN BÁO MẠNG ĐIỆN TỬ TIẾNG VIỆT SỬ DỤNG TEXTRANK Lê Ngọc Thắng1 3 Phạm Bảo Sơn2 Lê Quang Minh3 1 Văn phòng Bộ Công an 2 Đại học Quốc gia Hà Nội 3 Viện Công nghệ thông tin Đại học Quốc gia Hà Nội lengocthang@ sownpb@ quangminh@ TÓM TẮT Trong bài báo này chúng tôi đề xuất mô hình tóm tắt tự động văn bản tiếng Việt thể loại báo mạng điện tử. Văn bản được biểu diễn dưới dạng đồ thị mỗi đỉnh của đồ thị biểu diễn một câu trong văn bản trọng số các cạnh nối giữa các đỉnh biểu diễn sự tương tự về ngữ nghĩa giữa hai câu đỉnh . Độ quan trọng của câu được xác định qua thuật toán TextRank trong đó có bổ sung một số đặc trưng riêng của thể loại báo mạng điện tử. Hệ thống sẽ trích rút ra những câu quan trọng để đưa vào bản tóm tắt mặc định 30 số câu của văn bản . Để kiểm chứng mô hình đề xuất chúng tôi so sánh kết quả với kết quả tóm tắt của chuyên gia và kết quả của thuật toán TextRank cơ sở. Từ khóa Tóm tắt văn bản tiếng Việt báo mạng điện tử TextRank tags. I. GIỚI THIỆU Tóm tắt văn bản tự động đã được nghiên cứu từ những năm 1950 của thế kỷ XX. Theo quan điểm của các nhà nghiên cứu về tóm tắt văn bản thì bản tóm tắt là một bản rút gọn của một hay nhiều văn bản gốc thông qua việc lựa chọn và tổng quát hóa các khái niệm quan trọng. Theo 12 thì tóm tắt văn bản là quá trình trích lược chắt lọc những thông tin quan trọng nhất từ văn bản gốc để tạo ra một phiên bản giản lược sử dụng cho các mục đích hoặc nhiệm vụ khác nhau. Thông thường một văn bản tóm tắt có độ dài không quá nửa so với văn bản gốc. Có rất nhiều phương pháp tiếp cận về tóm tắt văn bản qua đó cũng có rất nhiều cách phân loại các hệ thống tóm tắt văn bản. Cách tiếp cận phân loại phổ biến nhất là theo kết quả output . Theo cách phân loại này có tóm tắt theo phương pháp trích rút Extract và tóm tắt theo phương pháp tóm lược

TỪ KHÓA LIÊN QUAN
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.