TAILIEUCHUNG - RỪNG NGẪU NHIÊN CẢI TIẾN CHO PHÂN LOẠI DỮ LIỆU GIEN

Trong bài viết này, chúng tôi đề xuất giải thuật rừng ngẫu nhiên cải tiến cho phân lớp dữ liệu gien thường có rất ít các phần tử dữ liệu nhưng số chiều rất lớn và có nhiễu. Trong thực tế, giải thuật rừng ngẫu nhiên của Breiman thường được sử dụng cho phân lớp kiểu dữ liệu như dữ liệu gien. Tuy nhiên, do sử dụng luật bình chọn số đông ở nút lá của cây quyết định làm dự báo của rừng ngẫu nhiên bị giảm. Để cải thiện kết quả dự báo của rừng ngẫu nhiên, chúng tôi đề xuất thay thế. | Tạp chí Khoa học 2012 22b 9-17 Trường Đại học Cần Thơ RỪNG NGẪU NHIÊN CẢI TIẾN CHO PHÂN LOẠI DỮ LIỆU GIEN Huỳnh Phụng Toàn1 Nguyễn Vũ Lâm2 Nguyễn Minh Trung1 và Đỗ Thanh Nghị3 ABSTRACT Our investigation aims to propose random trees to classify gene data which have very small amount of samples in very high dimensions and noise. The random forest algorithm proposed by Breiman is usually suited for classifying very-high-dimensional datasets. However the classical majority rule of a decision tree degrades the classification accuracy of random forests. We have proposed to improve the classification performance of random forests by using in each leaf of the tree a local class labeling rule instead of the majority rule. The numerical test results on gene datasets from datasets krbd showed that that our proposal gives good classification results compared with classical random forests and support vector machine SVM in terms of Precision Recall F1 and Accuracy. Keywords Genes expression classification Decision trees Random forests k nearest neighbors Title Improved random forests for classifying gene data TÓM TẮT Trong bài viết này chúng tôi đề xuất giải thuật rừng ngâu nhiên cải tiến cho phân lớp dữ liệu gien thường có rất ít các phần tử dữ liệu nhưng số chiều rất lớn và có nhiêu. Trong thực tế giải thuật rừng ngâu nhiên của Breiman thường được sử dụng cho phân lớp kiểu dữ liệu như dữ liệu gien. Tuy nhiên do sử dụng luật bình chọn số đông ở nút lá của cây quyết định làm dự báo của rừng ngâu nhiên bị giảm. Đe cải thiện kết quả dự báo của rừng ngâu nhiên chúng tôi đề xuất thay thế luật bình chọn số đông bởi luật gán nhãn cục bộ. Kết quả thử nghiệm trên các tập dữ liệu gien từ site datasets krbd cho thấy rằng giải thuật rừng ngâu nhiên cải tiến do chúng tôi đề xuất cho kết quả phân loại tốt khi so sánh với rừng ngâu nhiên của cây quyết định và máy học véctơ hỗ trợ dựa trên các tiêu chí Precision Recall F1 Accuracy. Từ khóa .

TÀI LIỆU LIÊN QUAN
TAILIEUCHUNG - Chia sẻ tài liệu không giới hạn
Địa chỉ : 444 Hoang Hoa Tham, Hanoi, Viet Nam
Website : tailieuchung.com
Email : tailieuchung20@gmail.com
Tailieuchung.com là thư viện tài liệu trực tuyến, nơi chia sẽ trao đổi hàng triệu tài liệu như luận văn đồ án, sách, giáo trình, đề thi.
Chúng tôi không chịu trách nhiệm liên quan đến các vấn đề bản quyền nội dung tài liệu được thành viên tự nguyện đăng tải lên, nếu phát hiện thấy tài liệu xấu hoặc tài liệu có bản quyền xin hãy email cho chúng tôi.
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.