TAILIEUCHUNG - Khai phá dữ liệu - Chương 5: Gom cụm dữ liệu

Sự bùng nổ thông tin hiện nay do tác động của các siêu phương tiện và WWW. Các hệ thống truy vấn thông tin dựa trên việc phân nhóm, gom cụm (clustering) ra đời để làm tăng tốc độ tìm kiếm thông tin. Do sự biến động thường xuyên của thông tin nên các thuật toán clustering đang tồn tại không thể duy trì tốt các nhóm, cụm (cluster) trong một môi trường như thế. Vấn đề đặt ra là làm thế nào để cập nhật các cluster trong hệ thống mỗi khi thông tin được cập nhật thay vì phải thường xuyên. | Gom cụm dữ liệu Data Clustering Chương 5 5/14/2020 12:35:24 AM Sự bùng nổ thông tin hiện nay do tác động của các siêu phương tiện và WWW. Các hệ thống truy vấn thông tin dựa trên việc phân nhóm, gom cụm (clustering) ra đời để làm tăng tốc độ tìm kiếm thông tin. Do sự biến động thường xuyên của thông tin nên các thuật toán clustering đang tồn tại không thể duy trì tốt các nhóm, cụm (cluster) trong một môi trường như thế. Vấn đề đặt ra là làm thế nào để cập nhật các cluster trong hệ thống mỗi khi thông tin được cập nhật thay vì phải thường xuyên clustering lại toàn bộ dữ liệu? Giới thiệu 5/14/2020 12:35:24 AM Gom cụm (clustering) là quá trình nhóm tập đối tượng thành các cụm (cluster) có các đối tượng giống nhau. Cho CSDL D={t1,t2, ,tn} và số nguyên k, gom cụm là bài toán xác định ánh xạ f: Dg{1, ,k} sao cho mỗi ti được gán vào một cụm (lớp) Kj, 1 Dựa trên khoảng cách Giới thiệu Cách biểu diễn các cụm Phân chia bằng các đường ranh giới Các khối cầu Theo xác suất Hình cây 1 2 3 I1 I2 In Giới thiệu Mở đầu Gom cụm dữ liệu là hình thức học không giám sát, trong đó các mẫu học chưa được gán nhãn. Mục đích của gom cụm dữ liệu là tìm những mẫu đại diện hoăc gom cụm tương tự nhau (theo một tiêu chuẩn nào đó) thành các cụm Định nghĩa: Gom cụm là quá trình xây dựng một tập hợp từ một tập dữ liệu mẫu, các phần tử trong tập đã gom cụm tương tự nhau về một vài thuộc tính chọn trước. What Is Clustering? Group data into clusters Similar to one another within the same cluster Dissimilar to the objects in other clusters Unsupervised learning: no predefined classes Cluster 1 Cluster 2 Outliers Application Examples A stand-alone tool: explore data distribution A preprocessing step for other algorithms Pattern recognition, spatial data analysis, image processing, market research, WWW, Cluster documents Cluster web log data to .

TỪ KHÓA LIÊN QUAN
TAILIEUCHUNG - Chia sẻ tài liệu không giới hạn
Địa chỉ : 444 Hoang Hoa Tham, Hanoi, Viet Nam
Website : tailieuchung.com
Email : tailieuchung20@gmail.com
Tailieuchung.com là thư viện tài liệu trực tuyến, nơi chia sẽ trao đổi hàng triệu tài liệu như luận văn đồ án, sách, giáo trình, đề thi.
Chúng tôi không chịu trách nhiệm liên quan đến các vấn đề bản quyền nội dung tài liệu được thành viên tự nguyện đăng tải lên, nếu phát hiện thấy tài liệu xấu hoặc tài liệu có bản quyền xin hãy email cho chúng tôi.
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.