TAILIEUCHUNG - Bài giảng Khai phá dữ liệu web (PGS.TS. Hà Quang Thụy) - Chương 7. Phân lớp web

Giới thiệu về phân lớp, phân lớp học giám sát, phân lớp học giám sát đến với chương này các bạn có thể nắm rõ các vấn đề mắc thắc cần giải quyết, một số bài tập ví dụ giúp các bạn thành thạo hơn với nội dung chương này. Mời các bạn tham khảo nhé! | BÀI GIẢNG KHAI PHÁ DỮ LIỆU WEB CHƯƠNG 7. PHÂN LỚP WEB PGS. TS. HÀ QUANG THỤY HÀ NỘI 10-2010 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI Nội dung Giới thiệu phân lớp Web Phân lớp học giám sát Phân lớp học bán giám sát Giới thiệu: Sơ đồ khai phá Web Thuật toán KPDL: phân lớp, phân cụm, tóm tắt Sử dụng các thuật toán KPDL chung (phân lớp, phân cụm ) Chọn các đặc trưng, chọn cách biểu diễn Web đóng vai trò quan trọng trong KPDL Web: Chương 4 và Chương 5. Các chương: phát biểu bài toán và một số thuật toán KPDL điển hình Bài toán phân lớp Web Đầu vào Tập tài liệu web D = {di} Tập các lớp C1, C2, , Ck mỗi tài liệu d thuộc một lớp Ci Tập ví dụ Dexam = D1+D2+ + Dk với Di={d Dexam: d thuộc Ci} Tập ví dụ Dexam đại diện cho tập D Đầu ra Mô hình phân lớp: ánh xạ từ D sang C Sử dụng mô hình d D \ Dexam : xác định lớp của tài liệu d Ví dụ Crawler hướng chủ đề: Chủ đề Lớp Phân lớp/phân cụm tập trang Web trả về “chủ đề/lớp Phân lớp: Quá trình hai pha Xây dựng mô hình: Tìm mô tả cho tập lớp đã có Cho trước tập lớp C = {C1, C2, , Ck} Cho ánh xạ (chưa biết) từ miền D sang tập lớp C Có tập ví dụ Dexam=D1+D2+ + Dk với Di={d Dexam: d Ci} Dexam được gọi là tập ví dụ mẫu. Xây dựng ánh xạ (mô hình) phân lớp trên: Dạy bộ phân lớp. Mô hình: Luật phân lớp, cây quyết định, công thức toán học Pha 1: Dạy bộ phân lớp Tách Dexam thành Dtrain (2/3) + Dtest (1/3). Dtrain và Dtest “tính đại diện” cho miền ứng dụng Dtrain : xây dựng mô hình phân lớp (xác định tham số mô hình) Dtest : đánh giá mô hình phân lớp (các độ đo hiệu quả) Chọn mô hình có chất lượng nhất Pha 2: Sử dụng bộ phân lớp d D \ Dexam : xác định lớp của d. Ví dụ phân lớp: Bài toán cho vay B Tid Refund Marital Status Taxable Income Cheat 1 No Single 75K No 2 Yes Married 50K No 3 No Single 75K No 4 No Married 150K Yes 5 No Single 40K No 6 No Married 80K Yes 7 No Single 75K No 8 Yes Married 50K No 9 Yes Married 50K No 10 No Married 150K Yes 11 No Single 40K No 12 No Married 150K Yes 13 No Married .

TỪ KHÓA LIÊN QUAN
TAILIEUCHUNG - Chia sẻ tài liệu không giới hạn
Địa chỉ : 444 Hoang Hoa Tham, Hanoi, Viet Nam
Website : tailieuchung.com
Email : tailieuchung20@gmail.com
Tailieuchung.com là thư viện tài liệu trực tuyến, nơi chia sẽ trao đổi hàng triệu tài liệu như luận văn đồ án, sách, giáo trình, đề thi.
Chúng tôi không chịu trách nhiệm liên quan đến các vấn đề bản quyền nội dung tài liệu được thành viên tự nguyện đăng tải lên, nếu phát hiện thấy tài liệu xấu hoặc tài liệu có bản quyền xin hãy email cho chúng tôi.
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.