TAILIEUCHUNG - Khai phá dữ liệu - Chương 4: Phân lớp dữ liệu

Có thể dùng phân lớp và dự đoán để xác lập mô hình/mẫu nhằm mô tả các lớp quan trọng hay dự đoán khuynh hướng dữ liệu trong tương lai. Phân lớp(classification) dự đoán các nhãn phân loại. Dự đoán (prediction) hàm giá trị liên tục. | Phân lớp dữ liệu (Data Classification) Chương 4: Nội dung Phân lớp và dự đoán? Quy nạp trên cây quyết định Phân lớp Bayes Các phương pháp phân lớp khác Phân lớp là gì ? Dự đoán là gì? Có thể dùng phân lớp và dự đoán để xác lập mô hình/mẫu nhằm mô tả các lớp quan trọng hay dự đoán khuynh hướng dữ liệu trong tương lai. Phân lớp(classification) dự đoán các nhãn phân loại. Dự đoán (prediction) hàm giá trị liên tục. Phân lớp dữ liệu là tiến trình có 2 bước Huấn luyện: Dữ liệu huấn luyện được phân tích bởi thuật tóan phân lớp ( có thuộc tính nhãn lớp) Phân lớp: Dữ liệu kiểm tra được dùng để ước lượng độ chính xác của bộ phân lớp. Nếu độ chính xác là chấp nhận được thì có thể dùng bộ phân lớp để phân lớp các mẫu dữ liệu mới. Phân lớp và Dự đoán Độ chính xác (accuracy) của bộ phân lớp trên tập kiểm tra cho trước là phần trăm của các mẫu trong tập kiểm tra được bộ phân lớp xếp lớp đúng Phân lớp và Dự đoán? Chuẩn bị dữ liệu Làm sách dữ liệu Nhiễu Thiếu giá trị Phân tích liên quan (chọn đặc trưng) Các thuộc tính không liên quan Các thuộc tính dư thừa Biến đổi dữ liệu So sánh các phương pháp phân lớp Độ chính xác của dự đoán: khả năng bộ phân lớp dự đoán đúng dữ liệu chưa thấy Tính bền vững: khả năng của bộ phân lớp thực hiện dự đoán đúng với dữ liệu có nhiễu hay thiếu giá trị Tính kích cỡ (scalability): khả năng tạo bộ phân lớp hiệu quả với số lượng dữ liệu lớn Khả năng diễn giải: bộ phân lớp cung cấp tri thức có thể hiểu được Cây quyết định Cây quyết định Cây quyết định là cấu trúc cây sao cho: Mỗi nút trong ứng với một phép kiểm tra trên một thuộc tính Mỗi nhánh biểu diễn kết quả phép kiểm tra Các nút lá biểu diễn các lớp hay các phân bố lớp Nút cao nhất trong cây là nút gốc. Cây quyết định Quy nạp trên cây quyết định 1. Chọn thuộc tính “tốt nhất” theo một độ đo chọn lựa cho trước 2. Mở rộng cây bằng cách thêm các nhánh mới cho từng giá trị thuộc tính 3. Sắp xếp các ví dụ học vào nút lá 4. Nếu các ví dụ được phân lớp rõ Thì Stop nguợc lại lặp lại các bước 1-4 cho các nút lá

TỪ KHÓA LIÊN QUAN
TÀI LIỆU MỚI ĐĂNG
TAILIEUCHUNG - Chia sẻ tài liệu không giới hạn
Địa chỉ : 444 Hoang Hoa Tham, Hanoi, Viet Nam
Website : tailieuchung.com
Email : tailieuchung20@gmail.com
Tailieuchung.com là thư viện tài liệu trực tuyến, nơi chia sẽ trao đổi hàng triệu tài liệu như luận văn đồ án, sách, giáo trình, đề thi.
Chúng tôi không chịu trách nhiệm liên quan đến các vấn đề bản quyền nội dung tài liệu được thành viên tự nguyện đăng tải lên, nếu phát hiện thấy tài liệu xấu hoặc tài liệu có bản quyền xin hãy email cho chúng tôi.
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.