Kinh doanh - Marketing
Kinh tế quản lý
Biểu mẫu - Văn bản
Tài chính - Ngân hàng
Công nghệ thông tin
Tiếng anh ngoại ngữ
Kĩ thuật công nghệ
Khoa học tự nhiên
Khoa học xã hội
Văn hóa nghệ thuật
Sức khỏe - Y tế
Văn bản luật
Nông Lâm Ngư
Kỹ năng mềm
Luận văn - Báo cáo
Giải trí - Thư giãn
Tài liệu phổ thông
Văn mẫu
Tài liệu HOT
Tìm
Danh mục
Kinh doanh - Marketing
Kinh tế quản lý
Biểu mẫu - Văn bản
Tài chính - Ngân hàng
Công nghệ thông tin
Tiếng anh ngoại ngữ
Kĩ thuật công nghệ
Khoa học tự nhiên
Khoa học xã hội
Văn hóa nghệ thuật
Y tế sức khỏe
Văn bản luật
Nông lâm ngư
Kĩ năng mềm
Luận văn - Báo cáo
Giải trí - Thư giãn
Tài liệu phổ thông
Văn mẫu
Thông tin
Điều khoản sử dụng
Quy định bảo mật
Quy chế hoạt động
Chính sách bản quyền
0
Trang chủ
Luận Văn - Báo Cáo
Báo cáo khoa học
Báo cáo khoa học: "Statistical Machine Translation with Word- and Sentence-Aligned Parallel Corpora"
TAILIEUCHUNG - Báo cáo khoa học: "Statistical Machine Translation with Word- and Sentence-Aligned Parallel Corpora"
The parameters of statistical translation models are typically estimated from sentence-aligned parallel corpora. We show that significant improvements in the alignment and translation quality of such models can be achieved by additionally including wordaligned data during training. Incorporating wordlevel alignments into the parameter estimation of the IBM models reduces alignment error rate and increases the Bleu score when compared to training the same models only on sentence-aligned data. . | Statistical Machine Translation with Word- and Sentence-Aligned Parallel Corpora Chris Callison-Burch David Talbot Miles Osborne School on Informatics University of Edinburgh 2 Buccleuch Place Edinburgh EH8 9LW callison-burch@ Abstract The parameters of statistical translation models are typically estimated from sentence-aligned parallel corpora. We show that significant improvements in the alignment and translation quality of such models can be achieved by additionally including word-aligned data during training. Incorporating wordlevel alignments into the parameter estimation of the IBM models reduces alignment error rate and increases the Bleu score when compared to training the same models only on sentence-aligned data. On the Verbmobil data set we attain a 38 reduction in the alignment error rate and a higher Bleu score with half as many training examples. We discuss how varying the ratio of word-aligned to sentence-aligned data affects the expected performance gain. 1 Introduction Machine translation systems based on probabilistic translation models Brown et al. 1993 are generally trained using sentence-aligned parallel corpora. For many language pairs these exist in abundant quantities. However for new domains or uncommon language pairs extensive parallel corpora are often hard to come by. Two factors could increase the performance of statistical machine translation for new language pairs and domains a reduction in the cost of creating new training data and the development of more efficient methods for exploiting existing training data. Approaches such as harvesting parallel corpora from the web Resnik and Smith 2003 address the creation of data. We take the second complementary approach. We address the problem of efficiently exploiting existing parallel corpora by adding explicit word-level alignments between a number of the sentence pairs in the training corpus. We modify the standard parameter estimation procedure for IBM Models and HMM variants .
Ðài Trang
71
8
pdf
Báo lỗi
Trùng lắp nội dung
Văn hóa đồi trụy
Phản động
Bản quyền
File lỗi
Khác
Upload
Tải xuống
đang nạp các trang xem trước
Bấm vào đây để xem trước nội dung
Tải xuống
TÀI LIỆU LIÊN QUAN
Báo cáo khoa học: "N-gram-based Statistical Machine Translation versus Syntax Augmented Machine Translation: comparison and system combination"
9
95
0
Báo cáo khoa học: "A Discriminative Latent Variable Model for Statistical Machine Translation"
9
64
0
Báo cáo khoa học: "Mixing Multiple Translation Models in Statistical Machine Translation"
10
54
0
Báo cáo khoa học: "Translation Model Size Reduction for Hierarchical Phrase-based Statistical Machine Translation"
5
61
0
Báo cáo khoa học: "Translation Model Adaptation for Statistical Machine Translation with Monolingual Topic Information"
10
65
0
Báo cáo khoa học: "Name Translation in Statistical Machine Translation Learning When to Transliterate"
9
70
0
Báo cáo khoa học: "Perplexity Minimization for Translation Model Domain Adaptation in Statistical Machine Translation"
11
72
0
Báo cáo khoa học: "Improving Pronoun Translation for Statistical Machine Translation"
10
70
0
Adaptation in statistical machine translation for low resource domains in English-Vietnamese language
11
56
2
Dependency-based Pre-ordering For English-Vietnamese Statistical Machine Translation
14
84
2
TÀI LIỆU XEM NHIỀU
Một Case Về Hematology (1)
8
462292
61
Giới thiệu :Lập trình mã nguồn mở
14
24934
79
Tiểu luận: Tư tưởng Hồ Chí Minh về xây dựng nhà nước trong sạch vững mạnh
13
11287
542
Câu hỏi và đáp án bài tập tình huống Quản trị học
14
10511
466
Phân tích và làm rõ ý kiến sau: “Bài thơ Tự tình II vừa nói lên bi kịch duyên phận vừa cho thấy khát vọng sống, khát vọng hạnh phúc của Hồ Xuân Hương”
3
9791
108
Ebook Facts and Figures – Basic reading practice: Phần 1 – Đặng Tuấn Anh (Dịch)
249
8876
1160
Tiểu luận: Nội dung tư tưởng Hồ Chí Minh về đạo đức
16
8467
426
Mẫu đơn thông tin ứng viên ngân hàng VIB
8
8090
2279
Giáo trình Tư tưởng Hồ Chí Minh - Mạch Quang Thắng (Dành cho bậc ĐH - Không chuyên ngành Lý luận chính trị)
152
7473
1763
Đề tài: Dự án kinh doanh thời trang quần áo nữ
17
7189
268
TỪ KHÓA LIÊN QUAN
Báo cáo khoa học
Statistical Machine Translation
Word and Sentence Aligned Parallel Corpora
Chris Callison Burch David Talbot Miles Osborne
báo cáo khoa học
mô hình ngôn ngữ
xử lý ngôn ngữ tự nhiên
N gram based Statistical
Machine Translation versus Syntax Augmented Machine Translation
comparison and system combination
scientific reports
model language
process natural language
A Discriminative Latent Variable Model
A Discriminative Latent Variable Model for Statistical Machine Translation
báo cáo ngôn ngữ
Mixing Multiple Translation Models
SMT
ngôn ngữ tự nhiên
Translation Model Size Reduction
Hierarchical Phrase based
Translation Model Adaptation
Monolingual Topic Information
Name Translation
Learning When to Transliterate
Perplexity Minimization
Translation Model Domain Adaptation
Improving Pronoun Translation
Liane Guillou
Machine translation
Domain adaptation
The English Vietnamese language pair
Low resource domains
Khoa học máy tính
Tạp chí khoa học
Natural Language Processing
Phrase based Statistical Machine Translation
An Open Source Toolkit
Tree Forest Based Statistical Machine Translation
Xianchao Wu
A Ranking based Approach
Word Reordering
Nan Yang†
Mu Li
Private Access
Phrase Tables
Fast and Scalable Decoding
Language Model Look Ahead
A Comparative Study
Target Dependency Structures
Enhancing Statistical Machine Translation
Character Alignment
Ning Xi
Post ordering by Parsing
Japanese English Statistical Machine Translation
Isao Goto Masao Utiyama
Modified Distortion Matrices
Arianna Bisazza and Marcello Federico
Syntax to Morphology Mapping in Factored
Phrase Based Statistical Machine Translation from English to Turkish
Reyyan Yeniterzi
Error Detection
Linguistic Features
Improving Statistical Machine Translation
Monolingual Collocation
Zhanyi Liu
Bilingual Sense Similarity
Boxing Chen
George Foster and Roland Kuhn
Bucking the Trend
Large Scale Cost Focused Active Learning
Paraphrase Lattice
Takashi Onishi and Masao Utiyama
Filtering Syntactic Constraints
Hailong Cao and Eiichiro Sumita
TÀI LIỆU MỚI ĐĂNG
báo cáo hóa học:" Increased androgen receptor expression in serous carcinoma of the ovary is associated with an improved survival"
6
150
3
27-11-2024
ETHICAL CODE HANDBOOK: Demonstrate your commitment to high standards
7
140
1
27-11-2024
Lập trình Java cơ bản : Luồng và xử lý file part 8
5
133
1
27-11-2024
Data Mining Classification: Basic Concepts, Decision Trees, and Model Evaluation Lecture Notes for Chapter 4 Introduction to Data Mining
101
134
1
27-11-2024
Lịch sử Trung Quốc 5000 năm tập 3 part 2
54
140
1
27-11-2024
Báo cáo lâm nghiệp: "Assessment of the effects of below-zero temperatures on photosynthesis and chlorophyll a fluorescence in leaf discs of Eucalyptus globulu"
4
131
0
27-11-2024
Determini prounoun 1
6
132
0
27-11-2024
Báo cáo khoa học: "A rare coexistence of adrenal cavernous hemangioma with extramedullar hemopoietic tissue: a case report and brief review of the literature"
4
100
0
27-11-2024
Báo cáo khoa học: "Tongue carcinoma in an adult Down's syndrome patient: a case report"
4
125
0
27-11-2024
Giáo trình môn cầu đường
26
130
2
27-11-2024
TÀI LIỆU HOT
Mẫu đơn thông tin ứng viên ngân hàng VIB
8
8090
2279
Giáo trình Tư tưởng Hồ Chí Minh - Mạch Quang Thắng (Dành cho bậc ĐH - Không chuyên ngành Lý luận chính trị)
152
7473
1763
Ebook Chào con ba mẹ đã sẵn sàng
112
4364
1369
Ebook Tuyển tập đề bài và bài văn nghị luận xã hội: Phần 1
62
6156
1259
Ebook Facts and Figures – Basic reading practice: Phần 1 – Đặng Tuấn Anh (Dịch)
249
8876
1160
Giáo trình Văn hóa kinh doanh - PGS.TS. Dương Thị Liễu
561
3790
680
Giáo trình Sinh lí học trẻ em: Phần 1 - TS Lê Thanh Vân
122
3909
609
Giáo trình Pháp luật đại cương: Phần 1 - NXB ĐH Sư Phạm
274
4618
562
Tiểu luận: Tư tưởng Hồ Chí Minh về xây dựng nhà nước trong sạch vững mạnh
13
11287
542
Bài tập nhóm quản lý dự án: Dự án xây dựng quán cafe
35
4454
490
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.