TAILIEUCHUNG - Các tiêu chí ngôn ngữ trong việc xây dựng kho ngữ liệu tiếng Việt

Bài viết trình bày các tiêu chí lấy mẫu ngôn ngữ trong việc xây dựng kho ngữ liệu cân bằng bao gồm: Lựa chọn văn bản, tính đại diện, tính cân bằng, chủ đề, kích thước và tính đồng nhất. Chúng tôi áp dụng các tiêu chí này vào việc xây dựng kho ngữ liệu tiếng Việt (Vietnamese Corpus – VnC ) với kích thước 100 triệu từ bao gồm 10 % văn bản nói và 90 % văn bản viết được thu thập chủ yếu từ năm 2000 đến nay. | Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR Nha Trang ngày 8-9 10 2020 DOI CÁC TIÊU CHÍ NGÔN NGỮ TRONG VIỆC XÂY DỰNG KHO NGỮ LIỆU TIẾNG VIỆT Võ Diệp Như Đinh Điền Trung tâm Ngôn ngữ học Tính toán Đại học Khoa học Tự nhiên ĐHQG TP. HCM vodiepnhu@ ddien@ TÓM TẮT Trong lĩnh vực xử lý ngôn ngữ tự nhiên việc sử dụng các mô hình máy học để phụ vụ giải quyết các bài toán càng chiếm ưu thế. Tuy nhiên để có được kết quả tốt cần có ngữ liệu huấn luyện đạt yêu cầu mang được tính đại diện cho ngôn ngữ. Vì thế kho ngữ liệu cần đảm bảo được tính đại diện tính cân bằng cụ thể là lấy mẫu ngôn ngữ có kích thước phù hợp theo các tiêu chí khi xây dựng kho ngữ liệu. Trong phạm vi bài báo chúng tôi trình bày các tiêu chí lấy mẫu ngôn ngữ trong việc xây dựng kho ngữ liệu cân bằng bao gồm lựa chọn văn bản tính đại diện tính cân bằng chủ đề kích thước và tính đồng nhất. Chúng tôi áp dụng các tiêu chí này vào việc xây dựng kho ngữ liệu tiếng Việt Vietnamese Corpus VnC với kích thước 100 triệu từ bao gồm 10 văn bản nói và 90 văn bản viết được thu thập chủ yếu từ năm 2000 đến nay. Từ khóa Kho ngữ liệu xây dựng kho ngữ liệu thu thập ngữ liệu ngôn ngữ học ngữ liệu. I. GIỚI THIỆU Việc sử dụng và khai thác các kho ngữ liệu đã mang lại nhiều kết quả ứng dụng hữu ích trong nhiều lĩnh vực từ nghiên cứu ngôn ngữ giảng dạy ngôn ngữ cho đến các lĩnh vực khác như kinh tế thương mại đời sống xã hội hay công tác điều tra . Đặc biệt là phải kể đến ứng dụng trong ngôn ngữ học - máy tính. Việc khai thác các kho ngữ liệu thực tế rút trích các quy luật ngôn ngữ theo nhiều phương pháp thống kê máy học để áp dụng những quy luật này vào các trường hợp tương tự nhằm giải quyết các bài toán trong thực tế. Tuy nhiên để kết quả có thể đạt được độ chính xác như mong muốn thể hiện được đặc trưng sử dụng ngôn ngữ của một cộng đồng người sử dụng trong một khoản thời gian nhất định thì những kho ngữ liệu cần

TỪ KHÓA LIÊN QUAN
TAILIEUCHUNG - Chia sẻ tài liệu không giới hạn
Địa chỉ : 444 Hoang Hoa Tham, Hanoi, Viet Nam
Website : tailieuchung.com
Email : tailieuchung20@gmail.com
Tailieuchung.com là thư viện tài liệu trực tuyến, nơi chia sẽ trao đổi hàng triệu tài liệu như luận văn đồ án, sách, giáo trình, đề thi.
Chúng tôi không chịu trách nhiệm liên quan đến các vấn đề bản quyền nội dung tài liệu được thành viên tự nguyện đăng tải lên, nếu phát hiện thấy tài liệu xấu hoặc tài liệu có bản quyền xin hãy email cho chúng tôi.
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.