Đang chuẩn bị nút TẢI XUỐNG, xin hãy chờ
Tải xuống
Tạp chí Khoa học và Công nghệ Việt Nam số 8B năm 2018 với các bài viết: gom nhóm văn bản dựa trên mẫu hữu ích được đánh trọng phổ biến; nghiên cứu cấu trúc của màng điện cực polymer sử dụng cho pin nhiên liệu bằng phương pháp tán xạ tia X góc nhỏ và siêu nhỏ; điều chế chất xúc tác hệ Fenton dị thể La/Fe-Bentonite ứng dụng xử lý đỏ congo trong nước. | Tạp chí Khoa học và Công nghệ Việt Nam - Số 8B năm 2018 Khoa học Tự nhiên Gom nhóm văn bản dựa trên mẫu hữu ích được đánh trọng phổ biến Trần Thanh Trâm1, Võ Đình Bảy2* 1 Trường Đại học Công nghệ thông tin, Đại học Quốc gia TP Hồ Chí Minh 2 Khoa Công nghệ thông tin, Trường Đại học Công nghệ TP Hồ Chí Minh Ngày nhận bài 26/3/2018; ngày chuyển phản biện 30/3/2018; ngày nhận phản biện 22/4/2018; ngày chấp nhận đăng 27/4/2018 Tóm tắt: Gom nhóm văn bản là chủ đề quan trọng trong khai thác dữ liệu văn bản, và phương pháp hiệu quả để gom nhóm văn bản là dựa trên mẫu phổ biến. Đã có nhiều thuật toán được phát triển nhằm nâng cao độ chính xác cho bài toán gom nhóm văn bản dựa trên mẫu phổ biến, nhưng lại không quan tâm tới trọng số của từ trong văn bản. Trong bài báo này, các tác giả đề xuất một phương pháp mới để gom nhóm văn bản dựa vào mẫu hữu ích được đánh trọng phổ biến thông qua việc sử dụng TF (Term Frequency) cho mỗi từ trong văn bản. Trọng số của từ trên toàn bộ tập văn bản được tính dựa vào IDF (Inverse Document Frequency), sau đó sử dụng thuật toán MWIT-FWUI để khai thác các mẫu hữu ích phổ biến. Tiếp theo, tiến hành gom nhóm văn bản bằng thuật toán MC (Maximum Capturing). Kết quả thử nghiệm trên kho ngữ liệu gồm 1.600 văn bản (16 chủ đề) cho thấy, phương pháp mới đã cải thiện đáng kể độ chính xác của việc gom nhóm văn bản so với phương pháp dựa vào mẫu phổ biến. Từ khóa: cơ sở dữ liệu số lượng, gom nhóm văn bản, mẫu hữu ích được đánh trọng phổ biến, mẫu phổ biến, trọng số của từ. Chỉ số phân loại: 1.2 Đặt vấn đề gom nhóm cuối cùng; 2) Có khuynh hướng chọn nhóm ứng viên có số văn bản ít, trong khi độ phổ biến của những văn Hiện nay, các công trình nghiên cứu về bài toán gom bản đó lớn để gom thành 1 nhóm, dẫn tới kết quả một số nhóm văn bản tiếng Việt còn rất ít, hầu hết sử dụng các lớn các nhóm được gom chỉ có 1 văn bản; 3) Không thể giải phương pháp truyền thống như phương pháp gom nhóm đồ quyết được .