TAILIEUCHUNG - Xác định đặc điểm tác giả bài viết diễn đàn tiếng Việt dựa trên âm tiết và vần

Trong bài viết này, điều tra sử dụng các âm tiết và vần điệu như các tính năng cho tác giả hồ sơ văn bản tiếng Việt. Chúng là một phần của từ, nhưng có ý nghĩa ít hơn nhiều so với từ, đặc biệt là vần điệu. Do đó, các tính năng này có thể được xem xét ít phụ thuộc vào miền hơn các từ nội dung. Thử nghiệm trên các tập dữ liệu bài viết diễn đàn bằng máy phương pháp học tập. | Các công trình nghiên cứu phát triển CNTT và Truyền thông Tập V-1, Số 17 (37), tháng 6/2017 Xác định đặc điểm tác giả bài viết diễn đàn tiếng Việt dựa trên âm tiết và vần Syllables and Rhymes for Author Profiling of Vietnamese Forum Posts Dƣơng Trần Đức, Phạm Bảo Sơn, Tân Hạnh Abstract: Author profiling is the task of identifying characteristics of the author just based on a text document. In the previous works, there are a number of linguistic features such as character-based, wordbased, grammar-based (often grouped as style-based), and content-based features (content words) have been exploited. The previous results showed that contentbased features often achieved better results than stylebased features. However, using content-based features is considered as a domain-specific approach, because the content words chosen often have meaning related to the studied domain. In this work, we investigate the use of syllables and rhymes as features for author profiling of Vietnamese text. They are parts of words, but have much less meaning than words, especially the rhymes. Therefore, these features can be considered much less domain-dependent than content words. We experimented on forum post datasets using machine learning approach. With improvement up to 8% compared with baseline results on style-based features, our method shows a new promising approach on author profiling. Keywords: Author Profiling, Machine Learning, Nature Language Processing I. GIỚI THIỆU Xác định đặc điểm tác giả văn bản (author profiling) là một nhánh nghiên cứu của phân tích tác giả văn bản. Phân tích tác giả văn bản còn có hai nhánh nghiên cứu khác là nhận diện tác giả (authorship attribution) và xác minh tác giả (author verification) [26]. Trong khi việc nhận diện tác giả hoặc xác minh tác giả tiến hành xác định hoặc kiểm chứng một tác giả cụ thể là người tạo nên văn bản và thường áp dụng cho các loại văn bản chính thống như bài báo, tiểu thuyết xác định đặc điểm tác giả văn bản thường .

TỪ KHÓA LIÊN QUAN
TAILIEUCHUNG - Chia sẻ tài liệu không giới hạn
Địa chỉ : 444 Hoang Hoa Tham, Hanoi, Viet Nam
Website : tailieuchung.com
Email : tailieuchung20@gmail.com
Tailieuchung.com là thư viện tài liệu trực tuyến, nơi chia sẽ trao đổi hàng triệu tài liệu như luận văn đồ án, sách, giáo trình, đề thi.
Chúng tôi không chịu trách nhiệm liên quan đến các vấn đề bản quyền nội dung tài liệu được thành viên tự nguyện đăng tải lên, nếu phát hiện thấy tài liệu xấu hoặc tài liệu có bản quyền xin hãy email cho chúng tôi.
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.