TAILIEUCHUNG - Khai thác luật phân lớp kết hợp trên cơ sở dữ liệu mất cân bằng về lớp

Bài viết đề xuất một phương pháp biến đổi CSDL sao cho sự phân bố các lớp được cân bằng, sau đó khai thác luật phân lớp kết hợp dựa trên tập dữ liệu đã biến đổi. Để biến đổi dữ liệu, chúng tôi chia tập dữ liệu thành m tập con, mỗi tập con tương ứng với một giá trị của thuộc tính lớp. | Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR 9 Cần Thơ ngày 4-5 8 2016 DOI KHAI THÁC LUẬT PHÂN LỚP KẾT HỢP TRÊN CƠ SỞ DỮ LIỆU MẤT CÂN BẰNG VỀ LỚP Nguyễn Thị Thúy Loan1 Trần Thị Minh Thúy2 Giang Hào Côn1 1 Khoa Công nghệ thông tin Đại học Nguyễn Tất Thành 2 Khoa Công nghệ thông tin Trung cấp Kinh tế kỹ thuật Quận 12 nttloan@ ttmthuy@ ghcon@ TÓM TẮT Phân lớp dựa vào luật phân lớp kết hợp đã được chứng minh là tốt hơn các phương pháp phân lớp dựa vào luật hiện có như cây quyết định ILA . Tuy nhiên do dựa vào khai thác luật kết hợp nên chỉ những luật phổ biến có độ hỗ trợ cao được khai thác. Trong các cơ sở dữ liệu CSDL mất cân bằng về lớp mặc dù các lớp thiểu số cũng đóng vai trò quan trọng nhưng chúng sẽ không được khai thác khi dựa vào luật phân lớp kết hợp. Trong bài báo này chúng tôi đề xuất một phương pháp biến đổi CSDL sao cho sự phân bố các lớp được cân bằng sau đó khai thác luật phân lớp kết hợp dựa trên tập dữ liệu đã biến đổi. Để biến đổi dữ liệu chúng tôi chia tập dữ liệu thành m tập con mỗi tập con tương ứng với một giá trị của thuộc tính lớp. Với mỗi tập dữ liệu chúng tôi sử dụng K-means để gom chúng thành k nhóm k chính là số dòng dữ liệu của tập dữ liệu có ít dòng nhất . Với mỗi nhóm chúng tôi chọn dòng đại diện chính là dòng có khoảng cách gần với trọng tâm nhất. Sau khi gom nhóm chúng tôi tập hợp dữ liệu lại và sử dụng CAR-Miner để khai thác luật phân lớp. Kết quả thực nghiệm cho thấy phương pháp của chúng tôi thường có độ chính xác cao hơn so với phương pháp khai thác luật phân lớp từ toàn bộ cơ sở dữ liệu. Từ khoá Khai thác luật phân lớp kết hợp gom nhóm cơ sở dữ liệu mất cân bằng về lớp độ chính xác. I. GIỚI THIỆU Khai thác luật phân lớp kết hợp được đề xuất bởi Liu và các đồng sự vào năm 1998 2 . Thuật toán CBA cũng đã được đề xuất trong công trình này. Phương pháp này thường cho độ chính xác cao hơn so với các phương .

TỪ KHÓA LIÊN QUAN
TAILIEUCHUNG - Chia sẻ tài liệu không giới hạn
Địa chỉ : 444 Hoang Hoa Tham, Hanoi, Viet Nam
Website : tailieuchung.com
Email : tailieuchung20@gmail.com
Tailieuchung.com là thư viện tài liệu trực tuyến, nơi chia sẽ trao đổi hàng triệu tài liệu như luận văn đồ án, sách, giáo trình, đề thi.
Chúng tôi không chịu trách nhiệm liên quan đến các vấn đề bản quyền nội dung tài liệu được thành viên tự nguyện đăng tải lên, nếu phát hiện thấy tài liệu xấu hoặc tài liệu có bản quyền xin hãy email cho chúng tôi.
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.