TAILIEUCHUNG - Báo cáo khoa học: "Automatic Selectional Preference Acquisition for Latin verbs"

We present a system that automatically induces Selectional Preferences (SPs) for Latin verbs from two treebanks by using Latin WordNet. Our method overcomes some of the problems connected with data sparseness and the small size of the input corpora. We also suggest a way to evaluate the acquired SPs on unseen events extracted from other Latin corpora. | Automatic Selectional Preference Acquisition for Latin verbs Barbara McGillivray University of Pisa Italy Abstract We present a system that automatically induces Selectional Preferences SPs for Latin verbs from two treebanks by using Latin WordNet. Our method overcomes some of the problems connected with data sparseness and the small size of the input corpora. We also suggest a way to evaluate the acquired SPs on unseen events extracted from other Latin corpora. 1 Introduction Automatic acquisition of semantic information from corpora is a challenge for research on low-resourced languages especially when semantically annotated corpora are not available. Latin is definitely a high-resourced language for what concerns the number of available texts and traditional lexical resources such as dictionaries. Nevertheless it is a low-resourced language from a computational point of view McGillivray et al. 2009 . As far as NLP tools for Latin are concerned parsing experiments with machine learning techniques are ongoing Bamman and Crane 2008 Passarotti and Ruffolo forthcoming although more work is still needed in this direction especially given the small size of the training data. As a matter of fact only three syntactically annotated Latin corpora are available and still in progress the Latin Dependency Treebank LDT 53 000 tokens for classical Latin Bamman and Crane 2006 the Index Thomisticus Treebank IT-TB 54 000 tokens for Thomas Aquinas s works Passarotti 2007 and the PROIEL treebank approximately 100 000 tokens for the Bible Haug and J0ndal 2008 . In addition a Latin version of WordNet - Latin WordNet LWN Minozzi 2009 - is being compiled consisting of around 10 000 lemmas inserted in the multilingual structure of MultiWordNet Bentivogli et al. 2004 . The number and the size of these resources are small when compared with the corpora and the lexicons for modern languages e. g. English. Concerning semantic processing no semantically annotated .

TỪ KHÓA LIÊN QUAN
TAILIEUCHUNG - Chia sẻ tài liệu không giới hạn
Địa chỉ : 444 Hoang Hoa Tham, Hanoi, Viet Nam
Website : tailieuchung.com
Email : tailieuchung20@gmail.com
Tailieuchung.com là thư viện tài liệu trực tuyến, nơi chia sẽ trao đổi hàng triệu tài liệu như luận văn đồ án, sách, giáo trình, đề thi.
Chúng tôi không chịu trách nhiệm liên quan đến các vấn đề bản quyền nội dung tài liệu được thành viên tự nguyện đăng tải lên, nếu phát hiện thấy tài liệu xấu hoặc tài liệu có bản quyền xin hãy email cho chúng tôi.
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.