TAILIEUCHUNG - JVnTagger: Công cụ gán nhãn từ loại tiếng Việt dựa trên Conditional Random Fields và Maximum Entropy

Nội dung bài viết trình bày công cụ gán nhãn từ loại tiếng Việt dựa trên Conditional Random Fields và Maximum Entropy. Để hiểu rõ hơn, mời các bạn tham khảo chi tiết nội dung bài viết. | JVnTagger: Công cụ gán nhãn từ loại tiếng Việt dựa trên Conditional Random Fields và Maximum Entropy JVnTagger: Công cụ gán nhãn từ loại tiếng Việt dựa trên Conditional Random Fields và Maximum Entropy Sản phẩm nhánh Phụ trách: Phan Xuân Hiếu 1 1 Giới thiệu JVnTagger là công cụ gán nhãn từ loại tiếng Việt dựa trên Conditional Random Fields (Lafferty et al., 2001) và Maximum Entropy (Nigam et al., 1999). JVnTagger được xây dựng trong khuôn khổ đề tài cấp nhà nước VLSP với dữ liệu huấn luyện khoảng câu của Viet Treebank. Thử nghiệm với phương pháp 5-fold cross validation cho thấy kết quả gán nhãn với CRFs có thể đạt giá trị F1 lớn nhất là và Maxent đạt giá trị F1 lớn nhất là . 2 Mô tả JVnTagger Công cụ được cài đặt trên ngôn ngữ Java (phiên bản ). Để có thể thực thi được công cụ, chúng ta chỉ cần cài đặt Java Runtime Environment. Cấu trúc thư mục của JVnTagger: bin (lưu các file .classes đã được biên dịch) inputdir (lưu các file văn bản để thử nghiệm gán nhãn từ loại với JVnTagger) lib (lưu các thư viện cần dùng cho JVnTagger) (thư viện cần dung để tối ưu hóa hàm likelihood cho CRFs và Maxent) model (thư mục lưu các mô hình đã được huấn luyện của CRFs và Maxent. Mô hình của CRFs được sinh ra nhờ huấn luyện với công cụ FlexCRFs++. Mô hình của Maxent được sinh ra nhờ huấn luyện dùng trong JVnTagger). src (thư mục lưu mã nguồn của công cụ) Các packages trong JVnTagger Packages Mô tả jflexcrfs Lưu mã nguồn CRFs cho gán nhãn dữ liệu với mô hình đã được huấn luyện lưu trong model/crfs. Lưu ý định dạng mô hình phù hợp với định dạng mô tả trong FlexCRFs++1. Xem thêm phần 3 để biết thêm cơ sở lý thuyết của CRFs. gán nhãn câu với CRFs jmaxent Lưu mã nguồn Maximum Entropy. Xem thêm phần 1 2 để biết thêm cơ sở lý thuyết của Maxent. huấn luyện mô hình Maximum Entropy

TAILIEUCHUNG - Chia sẻ tài liệu không giới hạn
Địa chỉ : 444 Hoang Hoa Tham, Hanoi, Viet Nam
Website : tailieuchung.com
Email : tailieuchung20@gmail.com
Tailieuchung.com là thư viện tài liệu trực tuyến, nơi chia sẽ trao đổi hàng triệu tài liệu như luận văn đồ án, sách, giáo trình, đề thi.
Chúng tôi không chịu trách nhiệm liên quan đến các vấn đề bản quyền nội dung tài liệu được thành viên tự nguyện đăng tải lên, nếu phát hiện thấy tài liệu xấu hoặc tài liệu có bản quyền xin hãy email cho chúng tôi.
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.