TAILIEUCHUNG - Trích nút thông tin tự động từ văn bản tiếng Việt

Bài báo đề xuất các hướng tiếp cận học bán giám sát trong việc xây dựng hệ thống trích nút thông tin tự động từ văn bản tiếng Việt. Với trích rút thực thể, mở rộng phương pháp của Liao bằng cách sử dụng các luật đồng tham chiếu về tên và các luật nhóm 2 để tìm các thực thể mới. | TÔp chẵ Tin hồc v iãu khiºn hồc, , (2012), 115 128 TR CH RểT THặNG TIN Tĩ ậNG Tỉ V N B N TI NG VI T∗ 1 1 2 SAM CHANRATHANY , L THANH HìèNG , NGUY N THANH THếY , 1 NGUY N HÚU THI N 1 Viằn Cổng nghằ Thổng tin v Truyãn thổng, Trữớng Ôi hồc BĂch khoa H Nởi 2 Trữớng Ôi Cổng nghằ, Ôi hồc Quốc gia H Nởi Túm t t. B i bĂo ã xuĐt cĂc hữợng tiáp cên hồc bĂn giĂm sĂt trong viằc xƠy dỹng hằ thống trẵch rút thổng tin tỹ ởng tứ vôn bÊn tiáng Viằt. Vợi trẵch rút thỹc thº, mð rởng phữỡng phĂp cừa Liao [7] bơng cĂch sỷ dửng cĂc luêt ỗng tham chiáu vã tản v cĂc luêt nhõm 2 º tẳm cĂc thỹc thº mợi. Thỷ nghiằm cho thĐy, hằ thống ã xuĐt cõ ở chẵnh xĂc cao hỡn hằ thống cừa Liao [7]. Vợi trẵch rút mối quan hằ cÊi tián h m nhƠn mực nổng SLK cừa Giuliano [6] bơng cĂch bờ sung thảm cĂc °c trững cho viằc biºu diạn cƠu bao gỗm tứ loÔi, loÔi thỹc thº, tứ iºn ởng tứ v thay ời kẵch cù cỷa số cừa h m nhƠn. Kát quÊ thỷ nghiằm cho thĐy phữỡng phĂp hồc cõ giĂm sĂt sỷ dửng SLK cÊi tián tốt hỡn phữỡng phĂp hồc cõ giĂm sĂt sỷ dửng SLK cừa Giuliano [6]. V khi Ăp dửng phữỡng phĂp hồc bĂn giĂm sĂt, hằ thống thu ữủc kát quÊ tốt hỡn hồc cõ giĂm sĂt. Abstract. This paper presents semi-supervised approaches to construct a Vietnamese information extraction system. Our approach in named entity extraction inherits the idea of Liao [7] and extends it by using proper name coreference rules to find new entities. The new entities are put into the training set to learn new context features for the extracting module. The experimental results show that our method achieves higher accuracy than Liaos [7]. In relation extraction, we improve the Shallow Linguistic Kernel (SLK) of Giuliano et [6] by modifying the window size of the kernel and using additional features to present sentences, including part of speech, another entity types, and a dictionary of compound verbs. Our experimental results also show that the supervised method using our SLK achieves higher accuracy than

TAILIEUCHUNG - Chia sẻ tài liệu không giới hạn
Địa chỉ : 444 Hoang Hoa Tham, Hanoi, Viet Nam
Website : tailieuchung.com
Email : tailieuchung20@gmail.com
Tailieuchung.com là thư viện tài liệu trực tuyến, nơi chia sẽ trao đổi hàng triệu tài liệu như luận văn đồ án, sách, giáo trình, đề thi.
Chúng tôi không chịu trách nhiệm liên quan đến các vấn đề bản quyền nội dung tài liệu được thành viên tự nguyện đăng tải lên, nếu phát hiện thấy tài liệu xấu hoặc tài liệu có bản quyền xin hãy email cho chúng tôi.
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.