TAILIEUCHUNG - Bài giảng Xử lý ngôn ngữ tự nhiên: Phân lớp văn bản tiếng Việt theo hướng tiếp cận lexical chain - Lê Thanh Hương

Bài giảng Xử lý ngôn ngữ tự nhiên: Phân lớp văn bản tiếng Việt theo hướng tiếp cận lexical chain trình bày tổng quan về bài toán tổng quan về bài toán phân lớp văn bản, tiếp cận bài toán phân lớp tiếp cận bài toán phân lớp văn bản tiếng Việt theo hướng lexical chain. . | Bài giảng Xử lý ngôn ngữ tự nhiên: Phân lớp văn bản tiếng Việt theo hướng tiếp cận lexical chain - Lê Thanh Hương 4/21/2011 PHẦN I: PHÂN LỚP VĂN BẢN TIẾNG VIỆT THEO HƯỚNG TIẾP CẬN LEXICAL CHAIN TỔNG QUAN VỀ BÀI TOÁN PHÂN LỚP VĂN BẢN Các phương pháp biểu diễn văn bản Các phương pháp biểu diễn văn bản Mô hình tần số kết hợp TF x IDF Mô hình vector Xét: Văn bản = 1 vector n chiều + trọng số cho mỗi giá trị của nó Tập dữ liệu gồm m văn bản: D = {d1, d2, dm}. Mô hình vector thưa Mỗi văn bản biểu diễn dưới dạng ạ g mộtộ vector ggồm n thuậtậ sốố từ với ới ttrọng số ố khác khá 0 nhỏ hỏ hơn h rất ất nhiều hiề so với ới số ố từ có ó ngữ T = {t1, t2, tn}. trong Cơ sở dữ liệu fij là số lần xuất hiện của thuật ngữ ti trong văn bản dj m là số lượng văn bản hi là số văn bản mà thuật ngữ ti xuất hiện Gọi W = {wij } là ma trận trọng số, trong đó wij là giá trị trọng số của thuật ngữ ti trong văn bản dj Các phương pháp biểu diễn văn bản Các phương pháp biểu diễn văn bản (tt) Mô hình Lexical Chain: Ma trận trọng số TFxIDF được tính như sau: “Lexical Chain” là một khái niệm nhằm duy trì tính cố kết giữa các từ trong văn bản có mối liên quan với nhau về mặt ngữ nghĩa g ⎧ ⎛m⎞ Một số loại quan hệ về ngữ nghĩa giữa các từ: ⎪[1 + log( f ij )] log⎜⎜ ⎟⎟ nÕu hij ≥ 1 Lặp lại (Repeatation) wij = ⎨ ⎝ hi ⎠ Đồng nghĩa (synonyms ) ⎪ Trái nghĩa () ⎩0 nÕu ng−îc l¹i Bộ phận-Toàn thể (hypernyms, hyponyms ) Ví dụ : C1= {kinh tế, thương mại, lĩnh vực, vốn, thị trường} 1 4/21/2011 Các thuật toán giải quyết bài toán Phân lớp văn bản Thuật toán Cây quyết định Thuật toán cây quyết định. Cây quyết định gồm các nút quyết định, các nhánh và lá : Mỗi lá gắn với một nhãn lớp, Thuật toán k-NN. Mỗi nút quyết định mô tả một phép thử X nào đó, Thuật toán Lexical Chain. Mỗi nhánh của nút .

TAILIEUCHUNG - Chia sẻ tài liệu không giới hạn
Địa chỉ : 444 Hoang Hoa Tham, Hanoi, Viet Nam
Website : tailieuchung.com
Email : tailieuchung20@gmail.com
Tailieuchung.com là thư viện tài liệu trực tuyến, nơi chia sẽ trao đổi hàng triệu tài liệu như luận văn đồ án, sách, giáo trình, đề thi.
Chúng tôi không chịu trách nhiệm liên quan đến các vấn đề bản quyền nội dung tài liệu được thành viên tự nguyện đăng tải lên, nếu phát hiện thấy tài liệu xấu hoặc tài liệu có bản quyền xin hãy email cho chúng tôi.
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.