TAILIEUCHUNG - Bài giảng Khai phá dữ liệu web (PGS.TS. Hà Quang Thụy) - Chương 2. Khai phá sử dụng web và khai phá cấu trúc web
Chương 2: khai phá sử dụng web và khai phá cấu trúc web nhằm giúp các bạn sinh viên dễ dàng phân tích mẫu truy nhập web, khai phá xu hướng sử dụng web thành thạo hơn, mời các bạn tham khảo để biết thêm các cách khai phá web . | BÀI GiẢNG KHAI PHÁ DỮ LIỆU WEB CHƯƠNG 2. KHAI PHÁ SỬ DỤNG WEB VÀ KHAI PHÁ CẤU TRÚC WEB PGS. TS. HÀ QUANG THỤY HÀ NỘI 10-2010 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI Nội dung Khai phá sử dụng Web Khai phá cấu trúc web 1. Khai phá sử dụng Web Giới thiệu chung Phân tích mẫu truy nhập Web Mang tính thói quen có tính cộng đồng Khai phá mẫu truy nhập theo luật kết hợp Khai phá xu hướng sử dụng Cá nhân hóa Các hệ tư vấn . Giới thiệu chung Nguồn dữ liệu Các logfile (máy chủ, máy khách, máy trung gian) CSDL khách hàng Mô hình dữ liệu Thực thể: người sử dụng, khung nhìn trang web, file trang Web, trình duyệt, phục vụ web, phục vụ nội dung, phiên người sử dụng, phiên phục vụ, dãy các sự kiện liên quan (episode). Tiền xử lý dữ liệu Loại: cấu trúc, nội dung Bài toán: xử lý văn bản, rút gọn đặc trưng, mô hình dữ liệu. Phát hiện mẫu Mẫu quan hệ: thống kê, luật kết hợp, luật chuỗi, phân cụm, phân lớp, mô hình phụ thuộc Đại chúng và cá nhân hóa . Một quy trình khai phá sử dụng Web Quá trình khai phá sử dụng Web [Coo00] Input: Dữ liệu sử dụng Web Output: Các luật, mẫu, thống kê hấp dẫn Các bước chủ yếu: Tiền xử lý dữ liệu Khám phá mẫu Phân tích mẫu Sơ đồ ghi dữ liệu vào logfile Thông tin truy nhập người dùng Server tổ chức ghi nhận vào logfile Hỗ trợ quản lý điều hành Tài nguyên Khai phá dữ liệu, nâng cao hiệu năng hệ thống Server Web server log - - [16/Nov/2005:16:32:50 -0500] "GET HTTP/" 200 - - [16/Nov/2005:16:32:50 -0500] "GET / HTTP/" 200 - - [16/Nov/2005:16:32:50 -0500] "GET /jobs/ HTTP/" 200 Page contents Một dòng ví dụ trong weblog - - [16/Nov/2005:16:32:50 -0500] "GET /jobs/ HTTP/" 200 15140 "" "Mozilla/ (compatible; MSIE ; Windows NT ; SV1; .NET CLR )“ Địa chỉ của hotname - - Tên và login của người .
đang nạp các trang xem trước