TAILIEUCHUNG - Báo cáo khoa học: "Combining Stochastic and Rule-Based Methods for Disambiguation in Agglutinative Languages"

En aquest article presentem els resultats de la combinaci6 de m~todes estoc/lstics i basats en regles aplicats a la desambiguaci6 morfosinthcfica de l'euskara. Els m6todes utilitzats per a la desambiguaci6 s6n: les Gramhtiques de Restrictions (CG) i l'etiquetador basat en HMM del projecte MULTEXT. E1 carhcter aglutinant de l'euskara fa necessari la utilitzaci6 d'un analitzador morfolbgic per assignar a cada paraula totes les seves interpretacions. Les regles de CG s'apliquen utilitzant la informaci6 morfol6gica completa i aquest proc6s redueix parcialment rambigtiitat dels textos. . | Combining Stochastic and Rule-Based Methods for Disambiguation in Agglutinative Languages Ezeiza N. Alegria I. Arriola . Urizar R. Aduriz I. Informatika Fakultatea UZEI 649 Donostia E-20080 Aldapeta 20. jibecran@ Donostia E-20009 http uzei@ Laburpena Artikulu honetan metodo estokastiko eta erregeletan oinarritutako metodoen arteko konbinaketa euskarari aplikatzearen emaitzak aurkeztuko erabilitako metodoak Murrizpen Gramatika CG eta MULTEXT proiektuak garatutako HMMn oinarritutako etiketatzailea dira. Euskara hizkuntza eranskaria izaki hitz bakoitzari dagozkion irakurketa guztiak esleitzeko analizatzaile morfologikoa beharrezkoa da. Ondoren CG erregelak informazio morfologiko guztiari aplikatzen zaizkio eta prozesu honek testuen anbiguotasuna gutxitzen du. Azkenik geratutako etiketen artean bakarra hautatzeko MULTEXT proiektuko tresnak erabiltzen dira. Metodo estokastikoa soilik erabiltzean errore-tasa 14 ingurukoa da baina etiketatzailearen doitasuna hitz ezezagunekin lexikoa aberastuz gero 2 hobe daitekeen arren. Metodo biak konbinatzen direnean berriz prozesu osoaren errore-tasa da. Ikasketarako corpusa nahikoa txikia dela HMM eredua lehenengo mailakoa eta euskararako Murrizpen Gramatika oraindik ere garapen prozesuan dagoela kontuan izanik gure ustez metodo konbinatu hau erabilita emaitza onak lor daitezke eta beste hizkuntza eranskarietarako bereziki egokia izan daiteke. Resum En aquest article presentem els resultats de la combinació de mètodes estocàstics i basats en regies aplicats a la desambiguació morfosintậctica de 1 euskara. Els mètodes utilitzats per a la desambiguacio S0n les Gramàtiques de Restrictions CG i 1 etiquetador basat en HMM del projecte MULTEXT. El caràcter aglutinant de 1 euskara fa necessari la utilitzacio d un analitzador morfo logic per assignar a cada paraula totes les seves interpretations. Les regies de CG s apliquen utilitzant la informacio morfologica completa

TAILIEUCHUNG - Chia sẻ tài liệu không giới hạn
Địa chỉ : 444 Hoang Hoa Tham, Hanoi, Viet Nam
Website : tailieuchung.com
Email : tailieuchung20@gmail.com
Tailieuchung.com là thư viện tài liệu trực tuyến, nơi chia sẽ trao đổi hàng triệu tài liệu như luận văn đồ án, sách, giáo trình, đề thi.
Chúng tôi không chịu trách nhiệm liên quan đến các vấn đề bản quyền nội dung tài liệu được thành viên tự nguyện đăng tải lên, nếu phát hiện thấy tài liệu xấu hoặc tài liệu có bản quyền xin hãy email cho chúng tôi.
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.