TAILIEUCHUNG - Áp dụng kỹ thuật phân cụm dữ liệu trong phân cụm kết quả tìm kiếm

Ngày nay, nhờ sự cải tiến không ngừng của các Search engine về cả chức năng tìm kiếm lẫn giao diện đã giúp cho người sử dụng dễ dàng hơn trong việc tìm kiếm thông tin trên web. Tuy nhiên, người sử dụng thường vẫn phải duyệt qua hàng trăm thậm chí hàng ngàn trang Web. | Áp dụng kỹ thuật phân cụm dữ liệu trong phân cụm kết quả tìm kiếm The Application of data clustering technique in the result classification data searching Vũ Đức Thi1 Hoàng Văn Dũng2 Abstract Nowadays searching information with big data is one of main subjects for data mining. In this paper we would like to introduce an approach to search and classify web documents by using data clustering technique we solve the mathematical problem according to three main phases search Web documents data preprocessing presenting data with vector models and cluster web documents. Từ khóa data mining phân cụm dữ liệu phân cụm Web. 1. Giới thiệu Ngày nay nhờ sự cải tiến không ngừng của các Search engine về cả chức năng tìm kiếm lẫn giao diện đã giúp cho người sử dụng dễ dàng hơn trong việc tìm kiếm thông tin trên web. Tuy nhiên người sử dụng thường vẫn phải duyệt qua hàng trăm thậm chí hàng ngàn trang Web mới có thể tìm kiếm được thứ mà họ cần. Theo tâm lý chung người dùng chỉ xem qua vài chục kết quả đầu tiên họ thiếu kiên nhẫn và không đủ thời gian để xem qua tất cả kết quả mà các search engine trả về. Nhằm giải quyết vấn đề này ta có thể nhóm các kết quả tìm kiếm thành các nhóm theo từng chủ đề khi đó người dùng có thể bỏ qua các nhóm mà họ không quan tâm để tìm đến nhóm chủ đề quan tâm. Điều này sẽ giúp cho người dùng thực hiện công việc tìm kiếm một cách hiệu quả hơn. Tuy nhiên vấn đề phân cụm tài liệu Web và chọn chủ đề thích hợp để nó có thể mô tả được nội dung của các trang là một vấn đề không đơn giản. Trong bài báo này ta sẽ xem xét khía cạnh sử dụng kỹ thuật phân cụm để phân nhóm tài liệu Web dựa trên kho dữ liệu đã được tìm kiếm và lưu trữ. 1 Viện CNTT Viện Khoa học - Công nghệ Việt Nam 2 Trường ĐH Quảng Bình 1 2. Hướng tiếp cận bằng kỹ thuật phân cụm Hiện nay để xác định mức độ quan trọng của một trang web chúng ta có nhiều cách đánh giá như PageRank HITS .Tuy nhiên các phương pháp đánh giá này chủ yếu đều dựa vào các liên kết để xác định trọng số cho các trang. Ta có .

TỪ KHÓA LIÊN QUAN
TAILIEUCHUNG - Chia sẻ tài liệu không giới hạn
Địa chỉ : 444 Hoang Hoa Tham, Hanoi, Viet Nam
Website : tailieuchung.com
Email : tailieuchung20@gmail.com
Tailieuchung.com là thư viện tài liệu trực tuyến, nơi chia sẽ trao đổi hàng triệu tài liệu như luận văn đồ án, sách, giáo trình, đề thi.
Chúng tôi không chịu trách nhiệm liên quan đến các vấn đề bản quyền nội dung tài liệu được thành viên tự nguyện đăng tải lên, nếu phát hiện thấy tài liệu xấu hoặc tài liệu có bản quyền xin hãy email cho chúng tôi.
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.