TAILIEUCHUNG - Cải tiến thuật toán khai phá dữ liệu tuần tự CMSPAM cho trường hợp dữ liệu thưa

Bài viết sẽ phân tích ưu nhược điểm của các thuật toán và đề xuất một cải tiến cho thuật toán CMSPAM. Thuật toán cải tiến được đặt tên là CMSPAME cho hiệu quả tốt hơn đối với trường hợp dữ liệu thưa và vẫn giữ nguyên được hiệu năng như thuật toán CMSPAM trong các trường hợp khác. | Cải tiến thuật toán khai phá dữ liệu tuần tự CMSPAM cho trường hợp dữ liệu thưa CẢI TIẾN THUẬT TOÁN KHAI PHÁ DỮ LIỆU TUẦN TỰ CMSPAM CHO TRƯỜNG HỢP DỮ LIỆU THƯA Nguyễn Mạnh Sơn *, Đặng Ngọc Hùng+ * Khoa CNTT1 – Học Viện Công Nghệ Bưu Chính Viễn Thông Email: sonnm@ + Khoa CNTT1 – Học Viện Công Nghệ Bưu Chính Viễn Thông Email: hungdn@ Abstract — Khai phá mẫu tuần tự (SPM) nhiều lĩnh vực khác như phân tích DNA, tư được ứng dụng rộng rãi trong các bài toán vấn điều trị bệnh, dự báo thiên tai, phân tích thương mại điện tử và ra quyết định. Các mẫu truy cập website . thuật toán SPM tiêu biểu đã được áp dụng Phần lớn các thuật toán ban đầu cho bài trong nhiều hệ thống tư vấn, dự báo như GSP, SPAM, CMSPAM. Bài báo sẽ phân tích toán khai phá mẫu tuần tự đều dựa trên tính ưu nhược điểm của các thuật toán và đề xuất chất Apriori được sử dụng trong khai phá một cải tiến cho thuật toán CMSPAM. Thuật luật kết hợp ([1],[2],[3]). Tính chất này cho toán cải tiến được đặt tên là CMSPAME cho rằng: mọi mẫu con (sub-pattern) của một hiệu quả tốt hơn đối với trường hợp dữ liệu mẫu phổ biến (frequent pattern) cũng chính thưa và vẫn giữ nguyên được hiệu năng như là một mẫu phổ biến. Dựa trên tính chất này, thuật toán CMSPAM trong các trường hợp rất nhiều các thuật toán được đề xuất như: khác. AprioriAll, AprioriSome, DynamicSome (Agrawal và Srikan 1995), GSP (Skrikant và Keywords— Khai phá dữ liệu tuần tự, SPM, Agrawal 1996) với phương pháp định dạng cải tiến CMSPAM, thuật toán CMSPAME. bộ nhớ theo chiều ngang (horizontal database format) ([2],[3]). Tuy nhiên khi các I. GIỚI THIỆU CSDL ngày càng lớn, thì phương pháp định Bài toán khai phá mẫu tuần tự (Sequential dạng bộ nhớ theo chiều ngang tỏ ra thiếu Pattern Mining - SPM) được R. Agrawal và hiệu quả [3]. Các phương pháp định dạng bộ R. Srikant giới thiệu vào năm 1995 [1]. Cho nhớ theo chiều dọc (vertical database một tập các dãy tuần tự,

TỪ KHÓA LIÊN QUAN
TAILIEUCHUNG - Chia sẻ tài liệu không giới hạn
Địa chỉ : 444 Hoang Hoa Tham, Hanoi, Viet Nam
Website : tailieuchung.com
Email : tailieuchung20@gmail.com
Tailieuchung.com là thư viện tài liệu trực tuyến, nơi chia sẽ trao đổi hàng triệu tài liệu như luận văn đồ án, sách, giáo trình, đề thi.
Chúng tôi không chịu trách nhiệm liên quan đến các vấn đề bản quyền nội dung tài liệu được thành viên tự nguyện đăng tải lên, nếu phát hiện thấy tài liệu xấu hoặc tài liệu có bản quyền xin hãy email cho chúng tôi.
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.