TAILIEUCHUNG - Mô hình mới trên cây nén cho khai phá tập mục lợi ích cao
Bài viết Mô hình mới trên cây nén cho khai phá tập mục lợi ích cao đề xuất mô hình CWU (Candidate Weight Utility) trên cây tiền tố nén mẫu lợi ích. Xây dựng thuật toán CTU-PRO+ dựa trên thuật toán CTU-PRO và sử dụng mô hình bài viết đề xuất CWU. | Kỷ yếu Hội nghị Quốc gia lần thứ VIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 9-10/7/2015 DOI: MÔ HÌNH MỚI TRÊN CÂY NÉN CHO KHAI PHÁ TẬP MỤC LỢI ÍCH CAO Đậu Hải Phong1, Đoàn Văn Ban2, Đỗ Thị Mai Hường3 1 2 Khoa Toán và Tin học, Trường Đại học Thăng Long Phòng các hệ thống phần mềm tích hợp, Viện Công nghệ thông tin 3 Khoa Công nghệ thông tin, Học viện Kỹ thuật Quân sự phong4u@, dvban@, dohuong@ TÓM TẮT: Hiện nay, một trong những vấn đề được quan tâm trong khai phá dữ liệu là tìm kiếm tập lợi ích cao từ cơ sở dữ liệu lớn. Trong kỹ thuật tìm kiếm tập lợi ích cao thì cả giá trị lợi ích và số lượng khác nhau của từng phần tử trong giao dịch đều được xem xét. Một vấn đề khó khăn trong kỹ thuật này là số lượng các tập các ứng viên được sinh ra là rất lớn vì tập lợi ích cao không có tính chất đóng. Hầu hết các thuật toán khai phá tập lợi ích cao như: UP-Growth, Udepth, Two-Phase, PB, CTU-PRO, đều sử dụng mô hình TWU (Transactions Weight Utility) để tỉa tập ứng viên. Trong bài báo này chúng tôi đề xuất mô hình CWU (Candidate Weight Utility) trên cây tiền tố nén mẫu lợi ích. Xây dựng thuật toán CTU-PRO+ dựa trên thuật toán CTU-PRO và sử dụng mô hình chúng tôi đề xuất CWU. Kết quả thử nghiệm thuật toán CTU-PRO+ cho thấy thời gian thực hiện với các thuật toán Two-Phase, CTU-PRO cho kết quả tốt hơn Từ khóa: Khai phá dữ liệu, tập lợi ích, tập phổ biến, CWU, TWU I. GIỚI THIỆU Khai phá tập phổ biến là nhiệm vụ quan trọng trong khai phá tri thức và có ứng dụng rộng rãi trong kinh doanh, khoa học và các lĩnh vực khác. Mục tiêu của khai phá tập phổ biến là tìm ra các phần tử cùng xuất hiện với một tần suất lớn hơn một ngưỡng tối thiểu cho trước trong cơ sở dữ liệu giao dịch. Tuy nhiên, khai phá tập phổ biến vẫn tồn tại một số hạn chế như: các phần tử trong giao dịch có sự quan trọng ngang nhau và không xem xét số lượng của nó hay trọng lượng liên quan như giá hoặc lợi nhuận. Vì vậy, mô .
đang nạp các trang xem trước