TAILIEUCHUNG - Nâng cao hiệu quả khai phá tập hữu ích cao bằng giải pháp chiếu ngược P-set

Bài báo này đề xuất giải pháp chiếu ngược P-set để giảm số lượng giao dịch cần xét trong thuật toán EFIM và vì vậy, làm giảm thời gian khai phá HUI. Một thuật toán cải tiến từ EFIM (IEFIM - Improve EFficient high-utility Itemset Mining) dựa trên P-set cũng được đề nghị. Kết quả thực nghiệm cho thấy, thuật toán IEFIM làm giảm đáng kể số lượng giao dịch cần xét và thời gian thực thi trên các CSDL thưa. | Khoa học Tự nhiên Nâng cao hiệu quả khai phá tập hữu ích cao bằng giải pháp chiếu ngược P-set Võ Đình Bảy1*, Nguyễn Tấn Phúc2 1 Khoa Công nghệ thông tin, Trường Đại học Công nghệ TP Hồ Chí Minh 2 Trung tâm Ngoại ngữ - Tin học, Trường Đại học Khánh Hòa Ngày nhận bài 3/7/2017; ngày chuyển phản biện 7/7//2017; ngày nhận phản biện 4/8/2017; ngày chấp nhận đăng 10/8/2017 Tóm tắt: Trong khi khai phá tập phổ biến chỉ quan tâm đến sự xuất hiện của các mục trong giao dịch (nghĩa là chúng có hay không có trong các giao dịch) thì khai phá tập hữu ích cao (HUI - High utility itemset) lại quan tâm đến lợi nhuận thu được khi bán các tập mục cùng nhau. Đã có nhiều thuật toán được phát triển nhằm nâng cao hiệu quả khai phá HUI, trong đó EFIM (EFficient high-utility Itemset Mining) là thuật toán mới nhất áp dụng nhiều kỹ thuật để cải thiện tốc độ và không gian tìm kiếm. Tuy nhiên, EFIM vẫn còn tốn nhiều chi phí quét các dòng dữ liệu để xác định sự liên quan đến ứng viên đang xét làm giảm hiệu quả của thuật toán, đặc biệt là đối với cơ sở dữ liệu (CSDL) thưa. Bài báo này đề xuất giải pháp chiếu ngược P-set để giảm số lượng giao dịch cần xét trong thuật toán EFIM và vì vậy, làm giảm thời gian khai phá HUI. Một thuật toán cải tiến từ EFIM (IEFIM - Improve EFficient high-utility Itemset Mining) dựa trên P-set cũng được đề nghị. Kết quả thực nghiệm cho thấy, thuật toán IEFIM làm giảm đáng kể số lượng giao dịch cần xét và thời gian thực thi trên các CSDL thưa. Từ khóa: Khai phá dữ liệu, khai phá tập hữu ích cao, tỉa ứng viên. Chỉ số phân loại: Đặt vấn đề Khai phá tập phổ biến (FIM - Frequent Itemset Mining) được Agrawal giới thiệu vào năm 1993 khi phân tích mô hình dữ liệu siêu thị [1], làm cơ sở để mở rộng thành các bài toán khác trong lĩnh vực khai phá dữ liệu. Trong các nghiên cứu về thị trường, FIM trong CSDL giao dịch chính là tìm các tập (itemset) thường xuyên xuất hiện trong các giao dịch. Các thuật toán khai phá tập phổ biến thường áp dụng tính chất bao đóng giảm .

TỪ KHÓA LIÊN QUAN
TAILIEUCHUNG - Chia sẻ tài liệu không giới hạn
Địa chỉ : 444 Hoang Hoa Tham, Hanoi, Viet Nam
Website : tailieuchung.com
Email : tailieuchung20@gmail.com
Tailieuchung.com là thư viện tài liệu trực tuyến, nơi chia sẽ trao đổi hàng triệu tài liệu như luận văn đồ án, sách, giáo trình, đề thi.
Chúng tôi không chịu trách nhiệm liên quan đến các vấn đề bản quyền nội dung tài liệu được thành viên tự nguyện đăng tải lên, nếu phát hiện thấy tài liệu xấu hoặc tài liệu có bản quyền xin hãy email cho chúng tôi.
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.