TAILIEUCHUNG - Áp dụng kỹ thuật phân cụm dữ liệu mờ trong khai phá dữ liệu Web
Bài viết này trình bày tổng quan về khai phá dữ liệu Web, các hướng tiếp cận phân cụm tài liệu Web. Qua đó, bài viết giới thiệu mô hình tiếp cận phân cụm tài liệu Web bằng kỹ thuật phân cụm dữ liệu mờ và trình bày cụ thể quá trình tìm kiếm và phân cụm tài liệu Web bằng kỹ thuật phân cụm dữ liệu mờ với thuật toán Fuzzy C-Means. | ÁP DỤNG KỸ THUẬT PHÂN CỤM DỮ LIỆU MỜ TRONG KHAI PHÁ DỮ LIỆU WEB Đỗ Quang Khôi1 Tóm tắt: World Wide Web là một kho dữ liệu khổng lồ, vì vậy việc khai phá Web để khám phá ra những thông tin, tri thức hữu ích mang một ý nghĩa hết sức quan trọng. Với mục đích đó, bài báo này trình bày tổng quan về khai phá dữ liệu Web, các hướng tiếp cận phân cụm tài liệu Web. Qua đó, bài báo giới thiệu mô hình tiếp cận phân cụm tài liệu Web bằng kỹ thuật phân cụm dữ liệu mờ và trình bày cụ thể quá trình tìm kiếm và phân cụm tài liệu Web bằng kỹ thuật phân cụm dữ liệu mờ với thuật toán Fuzzy C-Means. 1. Giới thiệu Các phương pháp phân tích dữ liệu truyền thống (dữ liệu rõ) tập trung phân tích một tập dữ liệu ban đầu thành các cụm dữ liệu có tính tự nhiên và mỗi đối tượng dữ liệu chỉ thuộc về một cụm dữ liệu, phương pháp này chỉ phù hợp với việc khám phá ra các cụm có mật độ cao và rời nhau, với đường biên giữa các cụm được xác định tốt. Tuy nhiên, trong thực tế, đường biên giữa các cụm có thể mờ, các cụm có thể chồng lên nhau, nghĩa là một số các đối tượng dữ liệu thuộc về nhiều cụm khác nhau. Do đó, các phương pháp phân cụm truyền thống không mô tả được dữ liệu thực. Vì vậy, người ta đã áp dụng lý thuyết tập mờ trong phân cụm dữ liệu (PCDL) để giải quyết cho trường hợp này. Cách thức kết hợp này được gọi là PCDL mờ (gọi tắt là phân cụm mờ). Hơn nữa, World Wide Web (WWW) là một kho thông tin khổng lồ với tiềm năng được coi là không có giới hạn. Để đáp ứng phần nào nhu cầu tìm kiếm và sử dụng nguồn tri thức này, người ta đã xây dựng các công cụ tìm kiếm và xử lý thông tin bằng cách áp dụng các kỹ thuật khai phá dữ liệu (KPDL) trong khai phá tài nguyên Web. Trong đó, PCDL Web là một bài toán điển hình trong khai phá tài nguyên Web. Hiện tại đã có một số thuật toán PCDL được sử dụng trong phân cụm tài liệu như các thuật toán phân cụm phân hoạch, các thuật toán phân cụm phân cấp, Tuy nhiên, trong thực tế nội dung của một trang Web có thể thuộc vào nhiều nhóm chủ đề khác nhau. Vì vậy, phân
đang nạp các trang xem trước