Kinh doanh - Marketing
Kinh tế quản lý
Biểu mẫu - Văn bản
Tài chính - Ngân hàng
Công nghệ thông tin
Tiếng anh ngoại ngữ
Kĩ thuật công nghệ
Khoa học tự nhiên
Khoa học xã hội
Văn hóa nghệ thuật
Sức khỏe - Y tế
Văn bản luật
Nông Lâm Ngư
Kỹ năng mềm
Luận văn - Báo cáo
Giải trí - Thư giãn
Tài liệu phổ thông
Văn mẫu
Tài liệu HOT
Tìm
Danh mục
Kinh doanh - Marketing
Kinh tế quản lý
Biểu mẫu - Văn bản
Tài chính - Ngân hàng
Công nghệ thông tin
Tiếng anh ngoại ngữ
Kĩ thuật công nghệ
Khoa học tự nhiên
Khoa học xã hội
Văn hóa nghệ thuật
Y tế sức khỏe
Văn bản luật
Nông lâm ngư
Kĩ năng mềm
Luận văn - Báo cáo
Giải trí - Thư giãn
Tài liệu phổ thông
Văn mẫu
Thông tin
Điều khoản sử dụng
Quy định bảo mật
Quy chế hoạt động
Chính sách bản quyền
0
Trang chủ
Kỹ Thuật - Công Nghệ
Tự động hoá
Phương pháp tăng cường dữ liệu huấn luyện dịch máy thống kê cặp ngôn ngữ Việt-Anh bằng kỹ thuật Back-translation và lựa chọn thích nghi
TAILIEUCHUNG - Phương pháp tăng cường dữ liệu huấn luyện dịch máy thống kê cặp ngôn ngữ Việt-Anh bằng kỹ thuật Back-translation và lựa chọn thích nghi
Bài viết nghiên cứu, áp dụng BT để tăng chất lượng dữ liệu huấn luyện cho dịch máy thống kê cặp ngôn ngữ Việt-Anh (là cặp ngôn ngữ có nguồn dữ liệu hạn chế). Phương pháp đề xuất sử dụng ngôn ngữ trung gian cho BT là tiếng Đức. Các câu tiếng Anh ở dữ liệu huấn luyện ban đầu được dịch sang tiếng Đức sau đó dịch trở lại từ tiếng Đức sang tiếng Anh để tạo ra các câu tiếng Anh mới có nghĩa tương đương với các câu gốc. | Nghiên cứu khoa học công nghệ PHƯƠNG PHÁP TĂNG CƯỜNG DỮ LIỆU HUẤN LUYỆN DỊCH MÁY THỐNG KÊ CẶP NGÔN NGỮ VIỆT-ANH BẰNG KỸ THUẬT BACK - TRANSLATION VÀ LỰA CHỌN THÍCH NGHI Đặng Thanh Quyền1 Nguyễn Chí Thành1 Nguyễn Phương Thái2 Tóm tắt Dịch ngược Back-translation - BT đã được sử dụng rộng rãi và trở thành một trong những kỹ thuật tiêu chuẩn để tăng cường dữ liệu trong dịch máy bằng nơ-ron Neural Machine Translation - NMT . Việc sử dụng BT đã được chứng minh là có hiệu quả trong việc cải thiện hiệu suất dịch thuật đặc biệt đối với các trường hợp tài nguyên hạn chế. Hiện nay phần lớn các nghiên cứu liên quan đến BT chủ yếu tập trung vào các ngôn ngữ châu Âu chỉ một số ít nghiên cứu về dịch thuật ngôn ngữ ở các khu vực khác trên thế giới. Trong bài báo này chúng tôi nghiên cứu áp dụng BT để tăng chất lượng dữ liệu huấn luyện cho dịch máy thống kê cặp ngôn ngữ Việt-Anh là cặp ngôn ngữ có nguồn dữ liệu hạn chế . Phương pháp đề xuất sử dụng ngôn ngữ trung gian cho BT là tiếng Đức. Các câu tiếng Anh ở dữ liệu huấn luyện ban đầu được dịch sang tiếng Đức sau đó dịch trở lại từ tiếng Đức sang tiếng Anh để tạo ra các câu tiếng Anh mới có nghĩa tương đương với các câu gốc. Một số độ đo thích nghi được đề xuất để đánh giá tập câu tiếng Anh thu được lựa chọn các câu được đánh giá tốt để thêm vào dữ liệu huấn luyện ban đầu. Kết quả thử nghiệm trên hệ thống dịch máy thống kê MOSES với cặp ngôn ngữ Việt-Anh cho thấy nếu thêm toàn bộ câu được sinh ra bởi BT vào tập dữ liệu huấn luyện mà không áp dụng việc lựa chọn dữ liệu thì kết quả không tăng lên so với việc sử dụng dữ liệu huấn luyện ban đầu. Trong khi đó việc áp dụng các kỹ thuật lựa chọn dữ liệu thích nghi đạt được kết quả BLEU tăng lên với kết quả tốt nhất tăng thêm điểm BLEU. Từ khóa Back-translation Dịch máy thống kê Tăng cường dữ liệu. 1. ĐẶT VẤN ĐỀ Dữ liệu huấn luyện có vai trò quan trọng quyết định chất lượng các hệ thống học máy hệ thống học máy thực sự hiệu quả khi chúng ta có lượng dữ liệu đủ lớn để máy học tuy nhiên
Ngọc Cường
98
10
pdf
Báo lỗi
Trùng lắp nội dung
Văn hóa đồi trụy
Phản động
Bản quyền
File lỗi
Khác
Upload
Tải xuống
đang nạp các trang xem trước
Bấm vào đây để xem trước nội dung
Tải xuống
TÀI LIỆU LIÊN QUAN
Một cách tiếp cận tích hợp trí thức về ngôn ngữ vào hệ dịch máy thống kê
7
101
1
Cải tiến mô hình gióng hàng trong dịch máy thống kê cặp ngôn ngữ Việt-Anh với kỹ thuật chia nhỏ từ
8
79
3
Dịch tự động Việt - K’Ho sử dụng phương pháp dựa vào thống kê
10
87
0
Phương pháp tăng cường dữ liệu huấn luyện dịch máy thống kê cặp ngôn ngữ Việt-Anh bằng kỹ thuật Back-translation và lựa chọn thích nghi
10
70
2
Luận án Tiến sĩ Khoa học máy tính: Cải tiến chất lượng dịch máy thống kê Anh - Việt dựa vào đảo trật tự từ theo cây cú pháp phụ thuộc
146
161
4
Tóm tắt luận văn Thạc sĩ: Nghiên cứu về dịch thống kê dựa vào cụm từ và thử nghiệm với cặp ngôn ngữ Anh – Việt
22
93
1
Luận văn Thạc sĩ Khoa học Máy tính: Nghiên cứu về dịch thống kê dựa vào cụm từ và áp dụng cho dịch từ tiếng Việt sang tiếng Anh
60
39
3
Chương 2: Tổng quan
24
58
1
Luận văn:NGHIÊN CỨU GIẢI MÃ TRONG KỸ THUẬT DỊCH MÁY THỐNG KÊ
26
88
1
Ứng dụng văn phạm liên kết trong dịch máy Việt – Anh
13
84
2
TÀI LIỆU XEM NHIỀU
Một Case Về Hematology (1)
8
462340
61
Giới thiệu :Lập trình mã nguồn mở
14
26019
79
Tiểu luận: Tư tưởng Hồ Chí Minh về xây dựng nhà nước trong sạch vững mạnh
13
11345
542
Câu hỏi và đáp án bài tập tình huống Quản trị học
14
10550
466
Phân tích và làm rõ ý kiến sau: “Bài thơ Tự tình II vừa nói lên bi kịch duyên phận vừa cho thấy khát vọng sống, khát vọng hạnh phúc của Hồ Xuân Hương”
3
9841
108
Ebook Facts and Figures – Basic reading practice: Phần 1 – Đặng Tuấn Anh (Dịch)
249
8889
1161
Tiểu luận: Nội dung tư tưởng Hồ Chí Minh về đạo đức
16
8504
426
Mẫu đơn thông tin ứng viên ngân hàng VIB
8
8100
2279
Giáo trình Tư tưởng Hồ Chí Minh - Mạch Quang Thắng (Dành cho bậc ĐH - Không chuyên ngành Lý luận chính trị)
152
7735
1790
Đề tài: Dự án kinh doanh thời trang quần áo nữ
17
7263
268
TỪ KHÓA LIÊN QUAN
Tự động hoá
Dịch máy thống kê
Tăng cường dữ liệu
Hệ thống học máy
Dịch máy Việt Anh
Kỹ thuật dịch ngược
Mô hình dịch thống kê
Trí thức về ngôn ngữ
Mô hình dịch thống kê dựa vào cụm
Hệ dịch máy thống kê
Thông tin cú pháp
Thông tin ngữ nghĩa
Gióng hàng trong hệ thống dịch máy
Gióng hàng từ
Hệ thống dịch máy Việt Anh
Kỹ thuật BPE
Dịch tự động Việt K’Ho
Phương pháp dựa vào thống kê
Ứng dụng dịch tự động
Quá trình xử lý tài liệu của dịch tự động
Mô hình gióng hàng
Sơ đồ dịch máy thống kê
Luận án Tiến sĩ Khoa học máy tính
Luận án Tiến sĩ
Khoa học máy tính
Cải tiến chất lượng dịch máy
Chất lượng dịch máy
Máy thống kê
Cú pháp phụ thuộc
Luận văn thạc sĩ
Tóm tắt luận văn thạc sĩ
Luận văn khoa học máy tính
Nghiên cứu về dịch thống kê
Luận văn nghiên cứu dịch thống kê
Luận văn Thạc sĩ Khoa học Máy tính
Phương pháp dịch thống kê
Dịch tiếng Việt sang tiếng Anh
Hệ dịch máy tự động
Mô hình dịch máy
Chương 2 Tổng quan
Dịch máy thống kê dựa trê cú pháp
Chuyển đổi trật tự
KỸ THUẬT DỊCH MÁY THỐNG KÊ
luận văn
kỹ thuật điện
luận văn thạc sỹ
thiết kế hệ thống
Văn phạm liên kết
Dịch máy Việt – Anh
Dịch máy đa ngôn ngữ
Dịch máy dựa trên ví dụ
Mô hình ngôn ngữ Bloom Filter
Cải tiến dịch máy thống kê
Xử lý ngôn ngữ tự nhiên
Cái tiến dịch máy thống kê
Tối ưu bảng cụm từ
Xử lí ngôn ngữ tự nhiên
Cải tiến chất lượng dịch máy thống kê
Cây phân tích cú pháp phụ thuộc
Thông tin ngữ cảnh
Tổng công ty Dung dịch khoan
bộ máy kế toán
thống kê kinh tế
báo cáo thống kê kinh tế
thực trạng kinh tế
tài chính kinh tế
báo cáo
Bài viết về Công nghệ thông tin
Ngôn ngữ tự nhiên trong dịch máy
Dịch máy trên cơ sở cụm từ
Phương pháp dịch tự động
thương mại và dịch vụ Hoàng Dương
hệ thống kế toán
tổ chức kế toán
bài toán bỏ dấu
văn bản Tiếng Việt
lập trình hệ thống
xây dựng phần mềm
kỹ thuật lập trình
tích hợp tri thức ngôn ngữ
thự nghiệm và đánh giá
hình thái từ tiếng anh
thông tin biến cách của từ
công ty TNHH Dịch vụ Thương mại Đại Lâm
tổ chức bộ máy quản lý
Ngữ liệu song ngữ
Gióng hàng phân đoạn ngữ
Bilingual corpus
Statistical machine translation
Chunk alignment
Thích ứng miền
Dịch máy nơ ron
Dữ liệu huấn luyện hệ dịch
Hệ dịch cặp ngôn ngữ Anh Việt
Kỷ yếu hội nghị Quốc gia về Điện tử truyền thông
Phương pháp dịch từ mới
Dịch máy Hoa Việt
Dịch thống kê Hoa Việt
Ngữ liệu song ngữ Hoa Việt
Khai phá tri thức
Dịch máy Anh Việt
tTri thức song ngữ
Ngữ liệu song ngữ
Văn bản song ngữ
Dịch máy Việt–Anh
Dữ liệu song ngữ
Gióng hàng song ngữ
Kho văn bản du lịch
Khôi phục dấu tự động
Dịch máy dựa trên cú pháp
Suy diễn văn phạm
Văn phạm phi ngữ cảnh đồng bộ
Thuật toán phân tích cú pháp CKY
TÀI LIỆU MỚI ĐĂNG
THE ANTHROPOLOGY OF ONLINE COMMUNITIES BY Samuel M.Wilson and Leighton C. Peterson
19
225
4
26-12-2024
Quy Trình Canh Tác Cây Bông Vải
8
164
3
26-12-2024
Chương 10: Các phương pháp tính quá trình quá độ trong mạch điện tuyến tính
57
233
7
26-12-2024
BÀI GIẢNG Biến Đổi Năng Lượng Điện Cơ - TS. Hồ Phạm Huy
137
158
1
26-12-2024
Giáo án điện tử tiểu học môn lịch sử: Cách mạng mùa thu
39
164
1
26-12-2024
Valve Selection Handbook - Fourth Edition
337
145
2
26-12-2024
Sáng kiến kinh nghiệm môn mỹ thuật
5
173
1
26-12-2024
Lập trình Java cơ bản : Luồng và xử lý file part 8
5
140
1
26-12-2024
Determini prounoun 1
6
139
0
26-12-2024
NGUỒN GỐC CÂY KHOAI LANG
3
125
1
26-12-2024
TÀI LIỆU HOT
Mẫu đơn thông tin ứng viên ngân hàng VIB
8
8100
2279
Giáo trình Tư tưởng Hồ Chí Minh - Mạch Quang Thắng (Dành cho bậc ĐH - Không chuyên ngành Lý luận chính trị)
152
7735
1790
Ebook Chào con ba mẹ đã sẵn sàng
112
4406
1371
Ebook Tuyển tập đề bài và bài văn nghị luận xã hội: Phần 1
62
6283
1266
Ebook Facts and Figures – Basic reading practice: Phần 1 – Đặng Tuấn Anh (Dịch)
249
8889
1161
Giáo trình Văn hóa kinh doanh - PGS.TS. Dương Thị Liễu
561
3839
680
Giáo trình Sinh lí học trẻ em: Phần 1 - TS Lê Thanh Vân
122
3919
609
Giáo trình Pháp luật đại cương: Phần 1 - NXB ĐH Sư Phạm
274
4708
565
Tiểu luận: Tư tưởng Hồ Chí Minh về xây dựng nhà nước trong sạch vững mạnh
13
11345
542
Bài tập nhóm quản lý dự án: Dự án xây dựng quán cafe
35
4508
490
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.