TAILIEUCHUNG - Xây dựng mô hình phân tán cho phân lớp khối lượng lớn văn bản theo chủ đề

Bài viết nghiên cứu và chọn một phương pháp tiếp cận truyền thống theo phương pháp SVM để từ đó đề xuất mô hình nhằm giải quyết nhu cầu xử lý khối lượng dữ liệu lớn hiện nay. Mời các bạn cùng tham khảo bài viết để nắm chi tiết hơn nội dung. | Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR 9 Cần Thơ ngày 4-5 8 2016 DOI XÂY DỰNG MÔ HÌNH PHÂN TÁN CHO PHÂN LỚP KHỐI LƯỢNG LỚN VĂN BẢN THEO CHỦ ĐỀ Nguyễn Hồ Duy Trí Nguyễn Trung Quân Nguyễn Văn Tiến Ngô Thanh Hùng Trường Đại học Công nghệ thông tin Đại học Quốc gia Thành phố Hồ Chí Minh trinhd@ 12520683@ tiennv@ hungnt@ TÓM TẮT Sự xuất hiện của các trang mạng xã hội đã làm cho số lượng người sử dụng và lượng thông tin trao đổi trên mạng internet trở nên rất lớn và không ngừng gia tăng. Phần lớn người sử dụng mạng xã hội blog thường bày tỏ một cách chân thật các kiến thức ý kiến quan điểm cảm xúc của chính mình. Việc phân tích chủ đề từ những trao đổi tài liệu trên mạng xã hội nhằm nắm bắt quản lý và trích xuất thông tin là vô cùng quan trọng và có ý nghĩa lớn trong giáo dục kinh tế chính trị xã hội tâm lý học. Tuy nhiên để có được những thông tin hữu ích chúng ta phải giải quyết các vấn đề phức tạp ở cả hai giai đoạn thu thập dữ liệu từ các trang mạng xã hội và phân tích thông tin từ nguồn dữ liệu lớn. Thông thường bài toán phân tích thông tin cụ thể là phân lớp bài viết theo chủ đề là bài toán xử lý phân loại văn bản truyền thống nhưng khi áp dụng cho dữ liệu mạng xã hội thì gặp phải khó khăn về dung lượng dữ liệu cần xử lý có thể lên đến hàng TeraByte ZettaByte. Để có thể lưu trữ và xử lý lượng dữ liệu này cần sử dụng các công nghệ tính toán phân tán Cluster Computing trong đó phổ biến nhất là mô hình MapReduce. Từ khóa text classification distributed model classification by topic big data spark. I. GIỚI THIỆU Phân lớp văn bản là một trong những bài toán cổ điển trong khai thác dữ liệu. Nội dung bài toán phân lớp chính là đi tìm chủ đề thích hợp tên nhãn lớp trong tập hữu hạn các chủ đề đã được xác định trước. Tiêu chí lựa chọn chủ đề phù hợp cho các văn bản dựa trên độ tương đồng về ngữ nghĩa giữa chúng với các văn bản trong tập ngữ liệu

TỪ KHÓA LIÊN QUAN
TAILIEUCHUNG - Chia sẻ tài liệu không giới hạn
Địa chỉ : 444 Hoang Hoa Tham, Hanoi, Viet Nam
Website : tailieuchung.com
Email : tailieuchung20@gmail.com
Tailieuchung.com là thư viện tài liệu trực tuyến, nơi chia sẽ trao đổi hàng triệu tài liệu như luận văn đồ án, sách, giáo trình, đề thi.
Chúng tôi không chịu trách nhiệm liên quan đến các vấn đề bản quyền nội dung tài liệu được thành viên tự nguyện đăng tải lên, nếu phát hiện thấy tài liệu xấu hoặc tài liệu có bản quyền xin hãy email cho chúng tôi.
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.