TAILIEUCHUNG - Phân loại văn bản dựa trên kỹ thuật khai thác đồ thị con phổ biến

Bài viết "Phân loại văn bản dựa trên kỹ thuật khai thác đồ thị con phổ biến" đề xuất mô hình phân loại văn bản tiếng Việt dựa trên kỹ thuật khai thác đồ thị con phổ biến và sử dụng giải pháp máy học để thực hiện. Các kết quả thực nghiệm bước đầu đã khẳng định đúng đắn của đề xuất đồng thời gợi mở một hướng nghiên cứu mới cho bài toán phân loại văn bản tiếng Việt. Mời các bạn cùng tham khảo! | Phân loại văn bản dựa trên kỹ thuật khai thác đồ thị con phổ biến 1st ThS Hoàng Ngọc Dương 2nd ThS Phạm Ngọc Công Trường Sĩ quan Không quân Trường Sĩ quan Không quân Thành phố Nha Trang Khánh Hòa Thành phố Nha Trang Khánh Hòa Email congpham82@ Email hoangduongvtl@ Tóm tắt Phân loại văn bản là công việc phân tích nội dung thị văn bản được biểu diễn thành đồ thị vô hướng đơn giản của văn bản sau đó đưa ra quyết định văn bản này thuộc chủ đề và sử dụng thuật toán khai thác đồ thị con phổ biến bằng nào trong các loại văn bản đã biết chủ đề trước. Trong lĩnh vực thuật toán gSpan để xác định đặc trưng cho từng chủ đề. Sau khai thác dữ liệu các phương pháp tiếp cận chính như Naïve bước này là công việc vec tơ hóa đồ thị văn bản. Bước cuối Bayes máy vectơ hỗ trợ SVM Cây quyết định K láng giềng gần nhất k-NN mạng nơron Trong bài báo này chúng tôi cùng thực hiện là huấn luyện phân loại bằng SVM. đề xuất mô hình phân loại văn bản tiếng Việt dựa trên kỹ thuật A. Tiền xử lý văn bản khai thác đồ thị con phổ biến và sử dụng giải pháp máy học để thực hiện. Mô hình đề xuất được thực nghiệm trên một tập 2000 Việc đầu tiên hệ thống thực hiện là tách các từ trong văn các tài liệu văn bản tiếng Việt là các bài viết được tải xuống từ bản. Phương pháp tách từ sử dụng bộ thư viện tách từ các trang báo điện tử . Các kết quot JVnTextPro A Java-based Vietnamese Text Processing quả thực nghiệm bước đầu đã khẳng định đúng đắn của đề xuất Tool quot được phát triển bởi nhóm tác giả Cam-Tu Nguyen đồng thời gợi mở một hướng nghiên cứu mới cho bài toán phân Xuan-Hieu Phan and Thu-Trang Nguyen tại địa chỉ loại văn bản tiếng Việt. http . Đây là bộ thư viện mã Từ khóa Phân loại văn bản phân lớp văn bản đồ thị con nguồn mở trong java. Bước tiếp theo hệ thống sẽ tính tần phổ biến suất xuất hiện của các từ trong tập văn bản. Để giảm kích I. GIỚI THIỆU thước của đồ thị và thời gian tính toán đồ thị con phổ biến chỉ những từ có

TỪ KHÓA LIÊN QUAN
TAILIEUCHUNG - Chia sẻ tài liệu không giới hạn
Địa chỉ : 444 Hoang Hoa Tham, Hanoi, Viet Nam
Website : tailieuchung.com
Email : tailieuchung20@gmail.com
Tailieuchung.com là thư viện tài liệu trực tuyến, nơi chia sẽ trao đổi hàng triệu tài liệu như luận văn đồ án, sách, giáo trình, đề thi.
Chúng tôi không chịu trách nhiệm liên quan đến các vấn đề bản quyền nội dung tài liệu được thành viên tự nguyện đăng tải lên, nếu phát hiện thấy tài liệu xấu hoặc tài liệu có bản quyền xin hãy email cho chúng tôi.
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.