TAILIEUCHUNG - Tạp chí Khoa học và Công nghệ Việt Nam - Số 11B năm 2017
Nội dung tạp chí Khoa học và Công nghệ Việt Nam - Số 11B năm 2017 với các bài viết: Nâng cao hiệu quả khai phá tập hữu ích cao bằng giải pháp chiếu ngược P-set; Đề xuất mô hình khuyến nghị cộng tác mới cho mạng đồng tác giả dựa trên chỉ số cộng tác và tương quan; Nghiên cứu tổng hợp Ni-Doped MIL-53(Fe) và khả năng hấp phụ Rhodamine B trong môi trường nước. | Tạp chí Khoa học và Công nghệ Việt Nam - Số 11B năm 2017 Khoa học Tự nhiên Nâng cao hiệu quả khai phá tập hữu ích cao bằng giải pháp chiếu ngược P-set Võ Đình Bảy1*, Nguyễn Tấn Phúc2 1 Khoa Công nghệ thông tin, Trường Đại học Công nghệ TP Hồ Chí Minh 2 Trung tâm Ngoại ngữ - Tin học, Trường Đại học Khánh Hòa Ngày nhận bài 3/7/2017; ngày chuyển phản biện 7/7//2017; ngày nhận phản biện 4/8/2017; ngày chấp nhận đăng 10/8/2017 Tóm tắt: Trong khi khai phá tập phổ biến chỉ quan tâm đến sự xuất hiện của các mục trong giao dịch (nghĩa là chúng có hay không có trong các giao dịch) thì khai phá tập hữu ích cao (HUI - High utility itemset) lại quan tâm đến lợi nhuận thu được khi bán các tập mục cùng nhau. Đã có nhiều thuật toán được phát triển nhằm nâng cao hiệu quả khai phá HUI, trong đó EFIM (EFficient high-utility Itemset Mining) là thuật toán mới nhất áp dụng nhiều kỹ thuật để cải thiện tốc độ và không gian tìm kiếm. Tuy nhiên, EFIM vẫn còn tốn nhiều chi phí quét các dòng dữ liệu để xác định sự liên quan đến ứng viên đang xét làm giảm hiệu quả của thuật toán, đặc biệt là đối với cơ sở dữ liệu (CSDL) thưa. Bài báo này đề xuất giải pháp chiếu ngược P-set để giảm số lượng giao dịch cần xét trong thuật toán EFIM và vì vậy, làm giảm thời gian khai phá HUI. Một thuật toán cải tiến từ EFIM (IEFIM - Improve EFficient high-utility Itemset Mining) dựa trên P-set cũng được đề nghị. Kết quả thực nghiệm cho thấy, thuật toán IEFIM làm giảm đáng kể số lượng giao dịch cần xét và thời gian thực thi trên các CSDL thưa. Từ khóa: Khai phá dữ liệu, khai phá tập hữu ích cao, tỉa ứng viên. Chỉ số phân loại: Đặt vấn đề Item a b c d e g Tid Giao dịch Số lượng Khai phá tập phổ biến (FIM - Frequent Itemset Mining) Utility 1 2 1 5 4 3 1 T1 {b,c,d,g} {1,2,1,1} được Agrawal giới thiệu vào năm 1993 khi phân tích mô hình dữ liệu siêu thị [1], làm cơ sở để mở rộng thành các bài (A) Bảng lợi nhuận. T2 {a,b,c,d,e} {4,1,3,1,1} toán khác trong lĩnh .
đang nạp các trang xem trước