Đang chuẩn bị nút TẢI XUỐNG, xin hãy chờ
Tải xuống
Trong bài viết này, điều tra sử dụng các âm tiết và vần điệu như các tính năng cho tác giả hồ sơ văn bản tiếng Việt. Chúng là một phần của từ, nhưng có ý nghĩa ít hơn nhiều so với từ, đặc biệt là vần điệu. Do đó, các tính năng này có thể được xem xét ít phụ thuộc vào miền hơn các từ nội dung. Thử nghiệm trên các tập dữ liệu bài viết diễn đàn bằng máy phương pháp học tập. | Các công trình nghiên cứu phát triển CNTT và Truyền thông Tập V-1, Số 17 (37), tháng 6/2017 Xác định đặc điểm tác giả bài viết diễn đàn tiếng Việt dựa trên âm tiết và vần Syllables and Rhymes for Author Profiling of Vietnamese Forum Posts Dƣơng Trần Đức, Phạm Bảo Sơn, Tân Hạnh Abstract: Author profiling is the task of identifying characteristics of the author just based on a text document. In the previous works, there are a number of linguistic features such as character-based, wordbased, grammar-based (often grouped as style-based), and content-based features (content words) have been exploited. The previous results showed that contentbased features often achieved better results than stylebased features. However, using content-based features is considered as a domain-specific approach, because the content words chosen often have meaning related to the studied domain. In this work, we investigate the use of syllables and rhymes as features for author profiling of Vietnamese text. They are parts of words, but have much less meaning than words, especially the rhymes. Therefore, these features can be considered much less domain-dependent than content words. We experimented on forum post datasets using machine learning approach. With improvement up to 8% compared with baseline results on style-based features, our method shows a new promising approach on author profiling. Keywords: Author Profiling, Machine Learning, Nature Language Processing I. GIỚI THIỆU Xác định đặc điểm tác giả văn bản (author profiling) là một nhánh nghiên cứu của phân tích tác giả văn bản. Phân tích tác giả văn bản còn có hai nhánh nghiên cứu khác là nhận diện tác giả (authorship attribution) và xác minh tác giả (author verification) [26]. Trong khi việc nhận diện tác giả hoặc xác minh tác giả tiến hành xác định hoặc kiểm chứng một tác giả cụ thể là người tạo nên văn bản và thường áp dụng cho các loại văn bản chính thống như bài báo, tiểu thuyết v.v xác định đặc điểm tác giả văn bản thường .