Đang chuẩn bị nút TẢI XUỐNG, xin hãy chờ
Tải xuống
Ngày nay, việc tìm kiếm thông tin nói chung cũng nhƣ thông tin văn bản nói riêng có vai trò rất quan trọng trong mọi lĩnh vực hoạt động của con ngƣời, nó trở đã thành một nhu cầu thiết yếu không thể thiếu. Với sự xuất hiện của internet thì khối lƣợng thông tin văn bản trên mạng ngày càng tăng, hình thành một kho văn bản khổng lồ, làm cho việc tìm kiếm những thông tin văn bản cần thiết, hữu ích thì ngày càng trở nên khó khăn hơn | ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN BÙI NGUYÊN KHỞI NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP PHÂN LỚP CẢI TIẾN ỨNG DỤNG VÀO HỆ TRUY TÌM VĂN BẢN Chuyên ngành KHOA HỌC MÁY TÍNH Mã số 60 48 01 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HƯỚNG DẪN KHOA HỌC TS. VŨ THANH NGUYÊN TP Hồ Chí Minh - 2009 -i- MỤC LỤC Trang MỤC LỤC.i DANH MỤC CÁC BẢNG.iii DANH MỤC CÁC HÌNH VẼ.iv MỞ ĐẦU.1 CHƯƠNG 1 TỔNG QUAN VỀ BÀI TOÁN PHÂN LỚP VĂN BẢN.4 1.1 Giới thiệu bài toán phân lớp văn bản.4 1.1.1 Phân lớp văn bản dựa trên cách tiếp cận hệ chuyên gia.4 1.1.2 Phân lớp văn bản dựa trên cách tiếp cận máy học.5 1.2 Phương pháp tách từ.8 1.2.1 Các đặc điểm của văn bản tiếng Việt.9 1.2.2 Phương pháp tách từ bằng cách xây dựng các ôtômát.10 1.3 Phương pháp biểu diễn văn bản.15 1.3.1 Các kỹ thuật trích chọn đặc trưng của văn bản.15 1.3.2 Phương pháp biểu diễn văn bản bằng mô hình không gian vector.18 1.4 Phương pháp đánh giá hiệu quả phân lớp.20 CHƯƠNG 2 CÁC PHƯƠNG PHÁP PHÂN LỚP VĂN BẢN PHỔ BIẾN.22 2.1 Thuật toán K-trung bình K-means .22 2.2 Thuật toán cây quyết định Decision tree .24 2.3 K-láng giềng gần nhất K-Nearest Neighbor .27 2.4 Support Vector Machines SVM .31 2.4.1 Giới thiệu.31 2.4.2 Bài toán và cách giải quyết.32 2.4.3 Hàm nhân Kernel.38 2.4.4 Thuật toán huấn luyện Sequential Minimal Optimization SMO .38 2.5 Đánh giá các thuật toán phân lớp văn bản phổ biến.39 CHƯƠNG 3 CÁC THUẬT TOÁN CẢI TIẾN DỰA TRÊN PHƯƠNG PHÁP PHÂN LỚP VĂN BẢN SUPPORT VECTOR MACHINES.42 -ii- 3.1 Fuzzy Support Vector Machines FSVM .42 3.1.1 Bài toán và cách giải quyết.42 3.1.2 Hàm thành viên.44 3.1.3 Thuật toán huấn luyện Kernel-Adatron.47 3.2 Support Vector Machines Nearest Neighbor SVM-NN .47 3.2.1 Ý tuởng của thuật toán SVM-NN.48 3.2.2 Thuật toán SVM-NN.48 3.3 Chiến luợc phân lớp đa lớp.51 3.3.1 Chiến luợc One-against-Rest OAR .51 3.3.2 Chiến luợc One-against-One OAO .53 3.3.3 Phân lớp đa lớp mờ Fuzzy OAO .57 3.4 Đánh giá các thuật toán phân lớp cải tiến.59 CHƯƠNG 4 TỔNG QUAN VỀ BÀI TOÁN TRUY TÌM