TAILIEUCHUNG - Báo cáo khoa học: "An Open Source Toolkit for Tree/Forest-Based Statistical Machine Translation"

We describe Akamon, an open source toolkit for tree and forest-based statistical machine translation (Liu et al., 2006; Mi et al., 2008; Mi and Huang, 2008). Akamon implements all of the algorithms required for tree/forestto-string decoding using tree-to-string translation rules: multiple-thread forest-based decoding, n-gram language model integration, beam- and cube-pruning, k-best hypotheses extraction, and minimum error rate training. | Akamon An Open Source Toolkit for Tree Forest-Based Statistical Machine Translation Xianchao Wu Takuya Matsuzaki Jun ichi Tsujii t Baidu Inc. National Institute of Informatics 1 Microsoft Research Asia wuxianchao@ takuya-matsuzaki@ jtsujii@ Abstract We describe Akamon an open source toolkit for tree and forest-based statistical machine translation Liu et al. 2006 Mi et al. 2008 Mi and Huang 2008 . Akamon implements all of the algorithms required for tree forest-to-string decoding using tree-to-string translation rules multiple-thread forest-based decoding n-gram language model integration beam- and cube-pruning fc-best hypotheses extraction and minimum error rate training. In terms of tree-to-string translation rule extraction the toolkit implements the traditional maximum likelihood algorithm using PCFG trees Galley et al. 2004 and HPsG trees forests Wu et al. 2010 . 1 Introduction Syntax-based statistical machine translation SMT systems have achieved promising improvements in recent years. Depending on the type of input the systems are divided into two categories stringbased systems whose input is a string to be simultaneously parsed and translated by a synchronous grammar Wu 1997 Chiang 2005 Galley et al. 2006 Shen et al. 2008 and tree forest-based systems whose input is already a parse tree or a packed forest to be directly converted into a target tree or string Ding and Palmer 2005 Quirk et al. 2005 Liu et al. 2006 Huang et al. 2006 Mi et al. 2008 Mi and Huang 2008 Zhang et al. 2009 Wu et al. 2010 Wuet al. 2011a . Work done when all the authors were in The University of Tokyo. 127 Depending on whether or not parsers are explicitly used for obtaining linguistically annotated data during training the systems are also divided into two categories formally syntax-based systems that do not use additional parsers Wu 1997 Chiang 2005 Xiong et al. 2006 and linguistically syntax-based systems that use PCFG parsers Liu et al. 2006 Huang et

TAILIEUCHUNG - Chia sẻ tài liệu không giới hạn
Địa chỉ : 444 Hoang Hoa Tham, Hanoi, Viet Nam
Website : tailieuchung.com
Email : tailieuchung20@gmail.com
Tailieuchung.com là thư viện tài liệu trực tuyến, nơi chia sẽ trao đổi hàng triệu tài liệu như luận văn đồ án, sách, giáo trình, đề thi.
Chúng tôi không chịu trách nhiệm liên quan đến các vấn đề bản quyền nội dung tài liệu được thành viên tự nguyện đăng tải lên, nếu phát hiện thấy tài liệu xấu hoặc tài liệu có bản quyền xin hãy email cho chúng tôi.
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.