Đang chuẩn bị nút TẢI XUỐNG, xin hãy chờ
Tải xuống
Thời đại phát triển mạnh của internet, intranet, data warehouse, cùng với sự phát triển nhanh về công nghệ lưu trữ đã tạo điều kiện cho các doanh nghiệp, các tổ chức thu nhập và sở hữu được khối lượng thông tin khổng lồ. | NGUYỄN THU TRÀ CÔNG NGHỆ THÔNG TIN 2004-2006 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SỸ KHOA HỌC NGÀNH CÔNG NGHỆ THÔNG TIN NGHIÊN CỨU VÀ ÁP DỤNG MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU VỚI CƠ SỞ DỮ LIỆU NGÀNH THUẾ VIỆT NAM NGUYỄN THU TRÀ 2006 Hà Nội 2006 2 MỤC LỤC DANH MỤC CÁC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT.4 DANH MỤC CÁC BẢNG.5 DANH MỤC CÁC HÌNH VẼ.6 MỞ ĐẦU.8 CHƯƠNG 1. KHAI PHÁ DỮ LIỆU.12 1.1. Tổng quan khai phá dữ liệu.12 1.1.1 Dữ liệu.14 1.1.2 Dền xửlý dữ liệu.16 1.1.3 Mô hình khai phá dữ liệu.18 1.2. Các chức năng cơ bản khai phá dữ liệu.19 1.2.1 Phân lớp Classification .19 1.2.2 Hồi qui.31 1.2.3 Phân nhóm.34 1.2.4 Khai phá luật kết hợp.38 CHƯƠNG 2. MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU.46 2.1. Thuật toán khai phá luật kết hợp.46 2.1.1 Thuật toán Apriori.46 2.1.2 Thuật toán AprioriTid.49 2.1.3 Thuật toán AprioriHybrid.51 2.2. Cải tiến hiệu quả thuật toán Apriori.54 2.2.2 Phương pháp FP-tree.56 2.2.3 Thuật toán PHP.59 2.2.4 Thuật toán PCY.63 2.2.5 Thuật toán PCY nhiều chặng.65 2.3. Thuật toán phân lớp bằng học cây quyết định.67 2.3.1 Các định nghĩa.68 2.3.2 Thuật toán ID3.69 2.3.3 Các mở rộng của C4.5.70 CHƯƠNG 3. ÁP DỤNG KHAI PHÁ TRÊN CSDL NGÀNH THUẾ .72 3.1. CSDL ngành Thuế.72 3.2. Lựa chọn công cụ khai phá.73 3.2.1 Lựa chọn công cụ.73 3.2.2 Oracle Data Mining ODM . 76 3.2.3 DBMS_DATA_MINING.78 3.3. Mục tiêu khai thác thông tin của ngành Thuế.79 3 3.4. Thử nghiệm khai phá luật kết hợp.81 3.5. Phân lớp bằng học cây quyết định.91 3.5.1 Phân lớp ĐTNT dựa vào so sánh tỷ suất các năm.93 3.5.2 Phân lớp ĐTNT theo số liệu của một năm.96 CHƯƠNG 4. KẾT LUẬN.102 HƯỚNG NGHIÊN CỨU TIẾP THEO.103 TÀI LIỆU THAM KHẢO.104 PHỤ .