TAILIEUCHUNG - Báo cáo " Tối ưu hóa KPCA bằng GA để chọn các thuộc tính đặc trưng nhằm tăng hiệu quả phân lớp của thuật toán Random Forest "

Phân tích thành phần chính (PCA) là một phương pháp khá nổi tiếng và hiệu quả trong quá trình làm giảm số thuộc tính của tập dữ liệu đầu vào. Hiện nay phương pháp hàm nhân đã được dùng để tăng khả năng áp dụng PCA khi giải quyết các bài toán phi tuyến. Phương pháp này đã được Scholkhof và đồng nghiệp của ông đưa ra với tên gọi là KPCA. Trong bài báo này chúng tôi sẽ trình bày một cách tiếp cận mới dựa trên hàm nhân để có thể chọn ra những thuộc tính tốt nhất. | Tạp chí Khoa học ĐHQGHN Khoa học Tự nhiên và Công nghệ 25 2009 84-93 Tối ưu hóa KPCA bằng GA để chọn các thuộc tính đặc trưng nhằm tăng hiệu quả phân lớp của thuật toán Random Forest Nguyễn Hà Nam Khoa Công Nghệ Thông Tin Trường ĐH Công Nghệ ĐHQGHN 144 Xuân Thủy Hà Nội Việt Nam Nhận ngày 2 tháng 4 năm 2007 Tóm tắt. Phân tích thành phần chính PCA là một phương pháp khá nổi tiếng và hiệu quả trong quá trình làm giảm số thuộc tính của tập dữ liệu đầu vào. Hiện nay phương pháp hàm nhân đã được dùng để tăng khả năng áp dụng PCA khi giải quyết các bài toán phi tuyến. Phương pháp này đã được Scholkhof và đồng nghiệp của ông đưa ra với tên gọi là KPCA. Trong bài báo này chúng tôi sẽ trình bày một cách tiếp cận mới dựa trên hàm nhân để có thể chọn ra những thuộc tính tốt nhất để tăng khả năng phân lớp của thuật toán Random Forest RF . Chúng tôi đã sử dụng giải thuật di truyền để tìm ra hàm nhân tối ưu cho việc tìm ra cách chuyển đổi phi tuyến tốt nhất nhằm làm tăng khả năng phân lớp của RF. Cách tiếp cận của chúng tôi về cơ bản đã tăng khả năng phân lớp của giải thuật RF. Không chỉ tăng được khả năng phân lớp cho thuật toán RF phương pháp đề nghị còn cho thấy khả năng phân lớp tốt hơn một số phương pháp trích chọn đã được công bố. Từ khóa PCA Hàm nhân KPCA Random Forest trích chọn thuộc tính. 1. Giới thiệu Trong lĩnh vực nghiên cứu về khai phá dữ liệu nói chung cũng như trong nghiên cứu về các thuật toán phân lớp nói riêng vấn đề xử lý dữ liệu lớn ngày càng trở thành vấn đề cấp thiết và đóng vai trò chủ đạo trong việc giải quyết các bài toán thực tế. Phần lớn các thuật toán phân lớp đã phát triển chỉ có thể giải quyết được với một lượng số liệu giới hạn cũng như với một độ phức tạp dữ liệu biết trước. Trong khi đó lượng dữ liệu mà chúng ta thu thập được ngày càng trở nên phong phú và đa dạng nhờ sự phát triển mạnh mẽ của khoa học kỹ thuật. Mặc Tel 84-4-37547813. E-mail namnh@ dù rất nhiều kỹ thuật khai phá dữ liệu dựa trên một số nền tảng lý thuyết khác nhau đã .

TỪ KHÓA LIÊN QUAN
TÀI LIỆU MỚI ĐĂNG
TAILIEUCHUNG - Chia sẻ tài liệu không giới hạn
Địa chỉ : 444 Hoang Hoa Tham, Hanoi, Viet Nam
Website : tailieuchung.com
Email : tailieuchung20@gmail.com
Tailieuchung.com là thư viện tài liệu trực tuyến, nơi chia sẽ trao đổi hàng triệu tài liệu như luận văn đồ án, sách, giáo trình, đề thi.
Chúng tôi không chịu trách nhiệm liên quan đến các vấn đề bản quyền nội dung tài liệu được thành viên tự nguyện đăng tải lên, nếu phát hiện thấy tài liệu xấu hoặc tài liệu có bản quyền xin hãy email cho chúng tôi.
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.