TAILIEUCHUNG - Nghiên cứu từ vựng tiếng Việt với hệ thống Sketch Engine
Bài báo này sẽ giới thiệu hệ thống Sketch Engine và nghiên cứu triển khai hệ thống này cho tiếng Việt. Các tác giả cũng trình bày cách thức xây dựng kho ngữ liệu và tập các quan hệ ngữ pháp cơ bản tiếng Việt để phục vụ cho hệ thống truy vấn kho ngữ liệu trong Sketch Engine. | Tạp chí Tin học và Điều khiển học, , (2011), 206–217 NGHIÊN CỨU TỪ VỰNG TIẾNG VIỆT VỚI HỆ THỐNG SKETCH ENGINE PHAN THỊ HÀ1 , NGUYỄN THỊ MINH HUYỀN2 , LÊ HỒNG PHƯƠNG2 , ADAM KILGARRIFF3 , SIVA REDDY 4 1 3 Học viện Công nghệ Bưu chính Viễn thông 2 Đại học Quốc gia Hà Nội Lexicography MasterClass and ITRI, University of Brighton, UK 4 IIIT Hyderabad, India Tóm t t. Skech Engine là một hệ thống cho phép truy vấn kho ngữ liệu dựa vào tập quan hệ ngữ pháp của một ngôn ngữ nào đó, phục vụ cho việc nghiên cứu từ vựng học. Hệ thống này đã được sử dụng cho nghiên cứu từ vựng, đặc biệt là xây dựng từ điển của nhiều ngôn ngữ (Anh, Tiệp, Nhật, Trung, . . . ). Bài báo này sẽ giới thiệu hệ thống Sketch Engine và nghiên cứu triển khai hệ thống này cho tiếng Việt. Chúng tôi cũng trình bày cách thức xây dựng kho ngữ liệu và tập các quan hệ ngữ pháp cơ bản tiếng Việt để phục vụ cho hệ thống truy vấn kho ngữ liệu trong Sketch Engine. Abstract. The Sketch Engine is a corpus query system based on grammatical relations of a language. This system has been widely used in lexicography, particularly for building dictionaries of different languages such as English, Japanese, Chinese, etc. This paper presents an approach to apply the Sketch Engine to Vietnamese. A method for building corpus and fundamental grammatical relations for Vietnamese is proposed for the corpus query system in Sketch Engine. T khoá. Phác thảo từ, Sketch Engine, kho ngữ liệu, quan hệ ngữ pháp. Keywords. Word sketch, Sketch Engine, corpus, grammatical relation. 1. GIỚI THIỆU Sử dụng ngữ liệu văn bản để xây dựng từ điển là một phương pháp đã được áp dụng từ lâu. Khi chưa có máy tính, các nhà từ điển học sử dụng các tấm thẻ chỉ mục để lưu trữ thông tin sử dụng từ. Vào những năm 1980, cùng với dự án COBUILD (Collins Birmingham University International Language Database) nhằm xây dựng và phân tích kho văn bản tiếng Anh phục vụ việc xây dựng từ điển, Sinclair [13] đã nhìn thấy khả năng lưu trữ, sắp xếp, .
đang nạp các trang xem trước