TAILIEUCHUNG - Giải thuật rừng ngẫu nhiên với luật gán nhãn cục bộ cho phân lớp

Bài viết Giải thuật rừng ngẫu nhiên với luật gán nhãn cục bộ cho phân lớp đề xuất sử dụng luật gán nhãn cục bộ trong giải thuật rừng ngẫu nhiên để nâng cao hiệu quả phân lớp. Kết quả cho thấy phân loại tốt khi so sánh với rừng ngẫu nhiên của cây quyết định và máy học véctơ hỗ trợ dựa trên các tiêu chí Precision, Recall, F1, Accuracy. | Kỷ yếu Hội nghị Quốc gia lần thứ VIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 9-10/7/2015 GIẢI THUẬT RỪNG NGẪU NHIÊN VỚI LUẬT GÁN NHÃN CỤC BỘ CHO PHÂN LỚP Đỗ Thanh Nghị, Phạm Nguyên Khang, Nguyễn Hữu Hòa, Nguyễn Minh Trung Khoa CNTT-TT, Trường ĐHCT dtnghi@ TÓM TẮT - Trong bài viết này, chúng tôi đề xuất sử dụng luật gán nhãn cục bộ trong giải thuật rừng ngẫu nhiên để nâng cao hiệu quả phân lớp. Giải thuật rừng ngẫu nhiên của Breiman đề xuất là giải thuật phân lớp chính xác khi so sánh với các giải thuật học có giám sát hiện nay. Tuy nhiên, do sử dụng luật bình chọn số đông ở nút lá của cây quyết định làm dự báo của rừng ngẫu nhiên giảm hiệu quả. Để cải thiện kết quả dự báo của rừng ngẫu nhiên, chúng tôi đề xuất thay thế luật bình chọn số đông bởi luật gán nhãn cục bộ, k láng giềng. Kết quả thử nghiệm trên các tập dữ liệu gen từ website cho thấy rằng giải thuật rừng ngẫu nhiên sử dụng luật gán nhãn cục bộ do chúng tôi đề xuất cho kết quả phân loại tốt khi so sánh với rừng ngẫu nhiên của cây quyết định và máy học véctơ hỗ trợ dựa trên các tiêu chí Precision, Recall, F1, Accuracy. Từ khóa - Rừng ngẫu nhiên, cây quyết định, luật gán nhãn, luật cục bộ, k láng giềng, phân lớp dữ liệu nhiều chiều. I. GIỚI THIỆU Phân lớp dữ liệu hay học có giám sát là một trong bốn nhóm bài toán quan trọng của khám phá tri thức và khai mỏ dữ liệu [Han et al., 2011]. Phân lớp dữ liệu xây dựng mô hình phân lớp từ tập dữ liệu có nhãn (lớp) đã được định nghĩa trước, để thực hiện gán nhãn tự động cho từng phần tử dữ liệu mới đến. Phân lớp dữ liệu có số chiều lớn được biết là một trong 10 vấn đề khó của cộng đồng khai mỏ dữ liệu [Yang & Wu, 2006]. Mô hình học phân lớp thường cho kết quả tốt trong khi học nhưng lại cho kết quả rất thấp trong tập kiểm tra. Vấn đề khó khăn thường gặp chính là số chiều quá lớn và dữ liệu thường tách rời nhau trong không gian có số chiều lớn việc tìm mô hình phân lớp tốt có

TÀI LIỆU LIÊN QUAN
TỪ KHÓA LIÊN QUAN
TAILIEUCHUNG - Chia sẻ tài liệu không giới hạn
Địa chỉ : 444 Hoang Hoa Tham, Hanoi, Viet Nam
Website : tailieuchung.com
Email : tailieuchung20@gmail.com
Tailieuchung.com là thư viện tài liệu trực tuyến, nơi chia sẽ trao đổi hàng triệu tài liệu như luận văn đồ án, sách, giáo trình, đề thi.
Chúng tôi không chịu trách nhiệm liên quan đến các vấn đề bản quyền nội dung tài liệu được thành viên tự nguyện đăng tải lên, nếu phát hiện thấy tài liệu xấu hoặc tài liệu có bản quyền xin hãy email cho chúng tôi.
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.