TAILIEUCHUNG - Khai thác kho ngữ liệu chú giải cú pháp cho phân tích cú pháp tiếng Việt

Bài báo đã trình bày việc phát triển thuật toán trích rút tự động bộ luật của văn phạm PCFG (Probability Context Free Grammar) từ VietTreebank và thuật toán phân tích cú pháp tiếng Việt, xây dựng bộ phân tích cú pháp tiếng Việt trên văn phạm PCFG. Trong đó thuật toán phân tích cú pháp cho mỗi câu được phát triển từ thuật toán của Jurafsky and Martin. Mời các bạn tham khảo! | Khai thỏc kho ngữ liệu chỳ giải cỳ phỏp cho phõn tớch cỳ phỏp tiếng Việt Kỹ thuật điện tử & Khoa học máy tính Khai thác kho ngữ liệu chú giải cú pháp cho phân tích cú pháp tiếng Việt Phan thị Hà, hà HảI Nam Tóm tắt: Bài báo đã trình bày việc phát triển thuật toán trích rút tự động bộ luật của văn phạm PCFG (Probability Context Free Grammar) từ VietTreebank và thuật toán phân tích cú pháp tiếng Việt, xây dựng bộ phân tích cú pháp tiếng Việt trên văn phạm PCFG. Trong đó thuật toán phân tích cú pháp cho mỗi câu được phát triển từ thuật toán của Jurafsky and Martin [5]. Với cách tiếp cận cho tiếng Việt, một câu đầu vào đã được gán nhãn từ loại bằng công cụ có sẵn, trong khi đối với Jurafsky và Martin thì câu đầu vào là một chuỗi các từ chưa được gán nhãn từ loại, việc tách từ dựa vào khoảng trắng. Keywords: CFG, PCFG, CYK, PCYK, Treebank, Probability Context Free Grammar, Parser 1. Giới thiệu Phân tích cú pháp là bước quan trọng trong quá trính xử lý ngôn ngữ tự nhiên, với bộ phân tích cú pháp chất lượng cao sẽ giúp tăng tính hiệu quả của các hệ thống xử lý ngôn ngữ tự nhiên như dịch máy, tóm tắt văn bản, các hệ thống hỏi đáp . Đối với tiếng Việt, mọi bộ phân tích cú pháp đều cần bộ luật cú pháp tiếng Việt, hay còn gọi là văn phạm cho tiếng Việt, được biểu diễn bởi một hệ văn phạm hình thức cụ thể nào đó. Bộ luật này có thể thu thập từ một số kho ngữ liệu được xây dựng trong dự án , đó là kho ngữ liệu chú giải cú pháp (VietTreebank). Trong VietTreebank, nhóm các chuyên gia ngôn ngữ học đã thực hiện việc chú giải thông tin cú pháp cho một kho văn bản tiếng Việt theo định dạng chú giải thành phần và đã được mã hóa dưới dạng đặt ngoặc. Kho ngữ liệu được chia làm ba tập tương ứng với ba mức gán nhãn là tách từ, gán nhãn từ loại và gán nhãn cú pháp. Tập gán nhãn cú pháp gồm 10471 câu (225085 đơn vị từ vựng). Độ dài của các câu nằm trong khoảng từ 2 tới 105 từ, với độ dài trung bình là từ. Có

TAILIEUCHUNG - Chia sẻ tài liệu không giới hạn
Địa chỉ : 444 Hoang Hoa Tham, Hanoi, Viet Nam
Website : tailieuchung.com
Email : tailieuchung20@gmail.com
Tailieuchung.com là thư viện tài liệu trực tuyến, nơi chia sẽ trao đổi hàng triệu tài liệu như luận văn đồ án, sách, giáo trình, đề thi.
Chúng tôi không chịu trách nhiệm liên quan đến các vấn đề bản quyền nội dung tài liệu được thành viên tự nguyện đăng tải lên, nếu phát hiện thấy tài liệu xấu hoặc tài liệu có bản quyền xin hãy email cho chúng tôi.
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.