TAILIEUCHUNG - Rút trích từ khóa từ văn bản pháp luật Tiếng Việt bằng thuật toán TextRank

Nghiên cứu này trình bày kết quả của việc rút trích từ khóa tự động từ văn bản pháp luật Tiếng Việt sử dụng thuật toán TextRank. TextRank là phương pháp rút trích từ khóa không giám sát từ văn bản dựa vào việc xếp hạng trên đồ thị. Văn bản sẽ được biểu diễn thành dạng đồ thị, với các từ là đỉnh và mối quan hệ lân cận giữa các từ là cạnh. Sau đó, các đỉnh trên đồ thị sẽ được xếp hạng dựa trên mối quan hệ với các đỉnh khác trong đồ thị. Mời các bạn cùng tham khảo! | RÚT TRÍCH TỪ KHÓA TỪ VĂN BẢN PHÁP LUẬT TIẾNG VIỆT BẰNG THUẬT TOÁN TEXTRANK Lê Thị Ngọc Thơ Khoa Công nghệ Thông tin trường Đại học Công nghệ TP. Hồ Chí Minh HUTECH TÓM TẮT Trong nghiên cứu này chúng tôi trình bày kết quả của việc rút trích từ khóa tự động từ văn bản pháp luật Tiếng Việt sử dụng thuật toán TextRank. TextRank là phương pháp rút trích từ khóa không giám sát từ văn bản dựa vào việc xếp hạng trên đồ thị. Văn bản sẽ được biểu diễn thành dạng đồ thị với các từ là đỉnh và mối quan hệ lân cận giữa các từ là cạnh. Sau đó các đỉnh trên đồ thị sẽ được xếp hạng dựa trên mối quan hệ với các đỉnh khác trong đồ thị. Các từ ở đỉnh tương ứng có trọng số cao sẽ được trích ra và kết hợp với nhau thành từ khóa. Chúng tôi thực nghiệm thuật toán TextRank trên một chương của Luật Bảo hiểm Xã hội Việt Nam. Kết quả cao nhất thu được là khi rút trích từ khóa tự động. Chúng tôi nhận thấy đặc điểm của từ khóa trong văn bản Tiếng Việt khá dài và chứa nhiều từ khác ngoài danh từ và tính từ. Do đó một phương pháp khác cần được đề xuất để cải tiến hiệu suất của việc rút trích cụm từ khóa từ văn bản pháp luật Tiếng Việt. Từ khóa Rút trích thông tin TextRank tiếng Việt từ khóa văn bản pháp luật. 1. GIỚI THIỆU Văn bản pháp luật thường được xem là dạng văn bản khó đọc vì đặc trưng vốn có nhiều thuật ngữ cụm từ và câu được viết rất chặt chẽ nhằm diễn đạt các quy định của pháp luật. Các thuật ngữ trong văn bản pháp luật thường dài và câu trong văn bản pháp luật thường tham chiếu đến nội dung ở câu khác trong cùng văn bản hoặc đến văn bản pháp luật khác. Trong nghiên cứu này chúng tôi áp dụng các phương pháp trong Xử lý Ngôn ngữ Tự nhiên XLNNTN vào văn bản pháp luật Tiếng Việt nhằm hướng tới việc hỗ trợ cho người đọc có thể nhanh chóng nắm bắt được thông tin trong văn bản pháp luật. Cụ thể là chúng tôi tiến hành rút trích từ khóa trong văn bản pháp luật tiếng Việt. Nói cách khác đề tài này nhằm mục đích tìm phương pháp trích lọc những nội dung khái quát trong một văn bản pháp luật

TAILIEUCHUNG - Chia sẻ tài liệu không giới hạn
Địa chỉ : 444 Hoang Hoa Tham, Hanoi, Viet Nam
Website : tailieuchung.com
Email : tailieuchung20@gmail.com
Tailieuchung.com là thư viện tài liệu trực tuyến, nơi chia sẽ trao đổi hàng triệu tài liệu như luận văn đồ án, sách, giáo trình, đề thi.
Chúng tôi không chịu trách nhiệm liên quan đến các vấn đề bản quyền nội dung tài liệu được thành viên tự nguyện đăng tải lên, nếu phát hiện thấy tài liệu xấu hoặc tài liệu có bản quyền xin hãy email cho chúng tôi.
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.