Đang chuẩn bị nút TẢI XUỐNG, xin hãy chờ
Tải xuống
Bài viết sẽ phân tích ưu nhược điểm của các thuật toán và đề xuất một cải tiến cho thuật toán CMSPAM. Thuật toán cải tiến được đặt tên là CMSPAME cho hiệu quả tốt hơn đối với trường hợp dữ liệu thưa và vẫn giữ nguyên được hiệu năng như thuật toán CMSPAM trong các trường hợp khác. | Cải tiến thuật toán khai phá dữ liệu tuần tự CMSPAM cho trường hợp dữ liệu thưa CẢI TIẾN THUẬT TOÁN KHAI PHÁ DỮ LIỆU TUẦN TỰ CMSPAM CHO TRƯỜNG HỢP DỮ LIỆU THƯA Nguyễn Mạnh Sơn *, Đặng Ngọc Hùng+ * Khoa CNTT1 – Học Viện Công Nghệ Bưu Chính Viễn Thông Email: sonnm@ptit.edu.vn + Khoa CNTT1 – Học Viện Công Nghệ Bưu Chính Viễn Thông Email: hungdn@ptit.edu.vn Abstract — Khai phá mẫu tuần tự (SPM) nhiều lĩnh vực khác như phân tích DNA, tư được ứng dụng rộng rãi trong các bài toán vấn điều trị bệnh, dự báo thiên tai, phân tích thương mại điện tử và ra quyết định. Các mẫu truy cập website . thuật toán SPM tiêu biểu đã được áp dụng Phần lớn các thuật toán ban đầu cho bài trong nhiều hệ thống tư vấn, dự báo như GSP, SPAM, CMSPAM. Bài báo sẽ phân tích toán khai phá mẫu tuần tự đều dựa trên tính ưu nhược điểm của các thuật toán và đề xuất chất Apriori được sử dụng trong khai phá một cải tiến cho thuật toán CMSPAM. Thuật luật kết hợp ([1],[2],[3]). Tính chất này cho toán cải tiến được đặt tên là CMSPAME cho rằng: mọi mẫu con (sub-pattern) của một hiệu quả tốt hơn đối với trường hợp dữ liệu mẫu phổ biến (frequent pattern) cũng chính thưa và vẫn giữ nguyên được hiệu năng như là một mẫu phổ biến. Dựa trên tính chất này, thuật toán CMSPAM trong các trường hợp rất nhiều các thuật toán được đề xuất như: khác. AprioriAll, AprioriSome, DynamicSome (Agrawal và Srikan 1995), GSP (Skrikant và Keywords— Khai phá dữ liệu tuần tự, SPM, Agrawal 1996) với phương pháp định dạng cải tiến CMSPAM, thuật toán CMSPAME. bộ nhớ theo chiều ngang (horizontal database format) ([2],[3]). Tuy nhiên khi các I. GIỚI THIỆU CSDL ngày càng lớn, thì phương pháp định Bài toán khai phá mẫu tuần tự (Sequential dạng bộ nhớ theo chiều ngang tỏ ra thiếu Pattern Mining - SPM) được R. Agrawal và hiệu quả [3]. Các phương pháp định dạng bộ R. Srikant giới thiệu vào năm 1995 [1]. Cho nhớ theo chiều dọc (vertical database một tập các dãy tuần tự,