Kinh doanh - Marketing
Kinh tế quản lý
Biểu mẫu - Văn bản
Tài chính - Ngân hàng
Công nghệ thông tin
Tiếng anh ngoại ngữ
Kĩ thuật công nghệ
Khoa học tự nhiên
Khoa học xã hội
Văn hóa nghệ thuật
Sức khỏe - Y tế
Văn bản luật
Nông Lâm Ngư
Kỹ năng mềm
Luận văn - Báo cáo
Giải trí - Thư giãn
Tài liệu phổ thông
Văn mẫu
Tài liệu HOT
Tìm
Danh mục
Kinh doanh - Marketing
Kinh tế quản lý
Biểu mẫu - Văn bản
Tài chính - Ngân hàng
Công nghệ thông tin
Tiếng anh ngoại ngữ
Kĩ thuật công nghệ
Khoa học tự nhiên
Khoa học xã hội
Văn hóa nghệ thuật
Y tế sức khỏe
Văn bản luật
Nông lâm ngư
Kĩ năng mềm
Luận văn - Báo cáo
Giải trí - Thư giãn
Tài liệu phổ thông
Văn mẫu
Thông tin
Điều khoản sử dụng
Quy định bảo mật
Quy chế hoạt động
Chính sách bản quyền
0
Trang chủ
Tiếng Anh - Ngoại Ngữ
Kỹ năng đọc tiếng Anh
Cải tiến mô hình gióng hàng trong dịch máy thống kê cặp ngôn ngữ Việt-Anh với kỹ thuật chia nhỏ từ
TAILIEUCHUNG - Cải tiến mô hình gióng hàng trong dịch máy thống kê cặp ngôn ngữ Việt-Anh với kỹ thuật chia nhỏ từ
Bài viết trình bày việc đề xuất việc áp dụng kỹ thuật chia nhỏ từ đối với các câu tiếng Anh trước khi đưa vào gióng hàng trong hệ thống dịch máy Việt-Anh; Đề xuất thuật toán tạo bảng gióng hàng từ A* từ bảng A trước khi xây dựng mô hình dịch, giúp giữ nguyên chất lượng mô hình ngôn ngữ trong hệ thống dịch máy. | Nghiên cứu khoa học công nghệ CẢI TIẾN MÔ HÌNH GIÓNG HÀNG TRONG DỊCH MÁY THỐNG KÊ CẶP NGÔN NGỮ VIỆT-ANH VỚI KỸ THUẬT CHIA NHỎ TỪ Đặng Thanh Quyền1 Nguyễn Chí Thành1 Nguyễn Phương Thái2 Tóm tắt Trong hệ thống dịch máy thống kê Statistical Machine Translation - SMT gióng hàng từ là một nhiệm vụ quan trọng và có ảnh hưởng lớn đến chất lượng hệ dịch. Hiện nay chưa có nghiên cứu nào sử dụng các kỹ thuật chia nhỏ từ cho hệ thống dịch máy thống kê cặp ngôn ngữ Việt-Anh. Trong bài báo này chúng tôi đề xuất một hướng tiếp cận sử dụng các kỹ thuật chia nhỏ từ vào hệ thống dịch máy thống kê nhằm nâng cao chất lượng gióng hàng từ từ đó nâng cao chất lượng hệ dịch cho cặp ngôn ngữ Việt-Anh. Ngoài việc áp dụng kỹ thuật chia nhỏ từ như một bước tiền xử lý chúng tôi còn đề xuất cải tiến mô hình gióng hàng từ để nâng cao chất lượng hệ dịch. Phương pháp đề xuất đã được cài đặt thử nghiệm với các kỹ thuật chia nhỏ từ khác nhau như BPE Wordpiece unigram và Morfessor kết quả thử nghiệm cho thấy việc áp dụng phương pháp đề xuất đều giúp tăng điểm BLEU so với kết quả baseline với kết quả cao nhất sử dụng kỹ thuật BPE giúp tăng điểm BLEU. Từ khóa Subword Gióng hàng từ Dịch máy thống kê. 1. ĐẶT VẤN ĐỀ Trong hệ thống dịch máy thống kê SMT việc gióng hàng từ trên một kho ngữ liệu song ngữ đã gióng hàng mức câu là một bước quan trọng và có ảnh hưởng lớn đến chất lượng hệ dịch 1 . Hiện nay các mô hình gióng hàng từ phổ biến nhất là các mô hình gióng hàng IBM 2 . Các mô hình này được áp dụng rộng rãi trong các hệ thống dịch máy thống kê. Các tham số của các mô hình IBM được ước tính bằng cách sử dụng nguyên lý hợp lý cực đại Maximum Likelihood tức là bằng cách đếm sự đồng xuất hiện của các từ trong văn bản song song. Các mô hình gióng hàng IBM đòi hỏi một lượng lớn dữ liệu song ngữ được gióng hàng mức câu và thường gặp vấn đề khi gióng hàng với các từ có tần suất xuất hiện ít từ hiếm - rare words . Đã có nhiều nghiên cứu nhằm tăng chất lượng gióng hàng từ cho dịch máy thống kê cho các cặp
Lâm Nhi
106
8
pdf
Báo lỗi
Trùng lắp nội dung
Văn hóa đồi trụy
Phản động
Bản quyền
File lỗi
Khác
Upload
Tải xuống
đang nạp các trang xem trước
Bấm vào đây để xem trước nội dung
Tải xuống
TÀI LIỆU LIÊN QUAN
Một cách tiếp cận tích hợp trí thức về ngôn ngữ vào hệ dịch máy thống kê
7
101
1
Cải tiến mô hình gióng hàng trong dịch máy thống kê cặp ngôn ngữ Việt-Anh với kỹ thuật chia nhỏ từ
8
79
3
Dịch tự động Việt - K’Ho sử dụng phương pháp dựa vào thống kê
10
87
0
Phương pháp tăng cường dữ liệu huấn luyện dịch máy thống kê cặp ngôn ngữ Việt-Anh bằng kỹ thuật Back-translation và lựa chọn thích nghi
10
70
2
Luận án Tiến sĩ Khoa học máy tính: Cải tiến chất lượng dịch máy thống kê Anh - Việt dựa vào đảo trật tự từ theo cây cú pháp phụ thuộc
146
161
4
Tóm tắt luận văn Thạc sĩ: Nghiên cứu về dịch thống kê dựa vào cụm từ và thử nghiệm với cặp ngôn ngữ Anh – Việt
22
93
1
Luận văn Thạc sĩ Khoa học Máy tính: Nghiên cứu về dịch thống kê dựa vào cụm từ và áp dụng cho dịch từ tiếng Việt sang tiếng Anh
60
39
3
Chương 2: Tổng quan
24
58
1
Luận văn:NGHIÊN CỨU GIẢI MÃ TRONG KỸ THUẬT DỊCH MÁY THỐNG KÊ
26
88
1
Ứng dụng văn phạm liên kết trong dịch máy Việt – Anh
13
84
2
TÀI LIỆU XEM NHIỀU
Một Case Về Hematology (1)
8
462336
61
Giới thiệu :Lập trình mã nguồn mở
14
25903
79
Tiểu luận: Tư tưởng Hồ Chí Minh về xây dựng nhà nước trong sạch vững mạnh
13
11335
542
Câu hỏi và đáp án bài tập tình huống Quản trị học
14
10542
466
Phân tích và làm rõ ý kiến sau: “Bài thơ Tự tình II vừa nói lên bi kịch duyên phận vừa cho thấy khát vọng sống, khát vọng hạnh phúc của Hồ Xuân Hương”
3
9834
108
Ebook Facts and Figures – Basic reading practice: Phần 1 – Đặng Tuấn Anh (Dịch)
249
8885
1161
Tiểu luận: Nội dung tư tưởng Hồ Chí Minh về đạo đức
16
8499
426
Mẫu đơn thông tin ứng viên ngân hàng VIB
8
8098
2279
Giáo trình Tư tưởng Hồ Chí Minh - Mạch Quang Thắng (Dành cho bậc ĐH - Không chuyên ngành Lý luận chính trị)
152
7709
1788
Đề tài: Dự án kinh doanh thời trang quần áo nữ
17
7239
268
TỪ KHÓA LIÊN QUAN
Kỹ năng đọc tiếng Anh
Dịch máy thống kê
Gióng hàng trong hệ thống dịch máy
Gióng hàng từ
Hệ thống dịch máy Việt Anh
Kỹ thuật BPE
Mô hình dịch thống kê
Trí thức về ngôn ngữ
Mô hình dịch thống kê dựa vào cụm
Hệ dịch máy thống kê
Thông tin cú pháp
Thông tin ngữ nghĩa
Dịch tự động Việt K’Ho
Phương pháp dựa vào thống kê
Ứng dụng dịch tự động
Quá trình xử lý tài liệu của dịch tự động
Mô hình gióng hàng
Sơ đồ dịch máy thống kê
Tăng cường dữ liệu
Hệ thống học máy
Dịch máy Việt Anh
Kỹ thuật dịch ngược
Luận án Tiến sĩ Khoa học máy tính
Luận án Tiến sĩ
Khoa học máy tính
Cải tiến chất lượng dịch máy
Chất lượng dịch máy
Máy thống kê
Cú pháp phụ thuộc
Luận văn thạc sĩ
Tóm tắt luận văn thạc sĩ
Luận văn khoa học máy tính
Nghiên cứu về dịch thống kê
Luận văn nghiên cứu dịch thống kê
Luận văn Thạc sĩ Khoa học Máy tính
Phương pháp dịch thống kê
Dịch tiếng Việt sang tiếng Anh
Hệ dịch máy tự động
Mô hình dịch máy
Chương 2 Tổng quan
Dịch máy thống kê dựa trê cú pháp
Chuyển đổi trật tự
KỸ THUẬT DỊCH MÁY THỐNG KÊ
luận văn
kỹ thuật điện
luận văn thạc sỹ
thiết kế hệ thống
Văn phạm liên kết
Dịch máy Việt – Anh
Dịch máy đa ngôn ngữ
Dịch máy dựa trên ví dụ
Mô hình ngôn ngữ Bloom Filter
Cải tiến dịch máy thống kê
Xử lý ngôn ngữ tự nhiên
Cái tiến dịch máy thống kê
Tối ưu bảng cụm từ
Xử lí ngôn ngữ tự nhiên
Cải tiến chất lượng dịch máy thống kê
Cây phân tích cú pháp phụ thuộc
Thông tin ngữ cảnh
Tổng công ty Dung dịch khoan
bộ máy kế toán
thống kê kinh tế
báo cáo thống kê kinh tế
thực trạng kinh tế
tài chính kinh tế
báo cáo
Bài viết về Công nghệ thông tin
Ngôn ngữ tự nhiên trong dịch máy
Dịch máy trên cơ sở cụm từ
Phương pháp dịch tự động
thương mại và dịch vụ Hoàng Dương
hệ thống kế toán
tổ chức kế toán
bài toán bỏ dấu
văn bản Tiếng Việt
lập trình hệ thống
xây dựng phần mềm
kỹ thuật lập trình
tích hợp tri thức ngôn ngữ
thự nghiệm và đánh giá
hình thái từ tiếng anh
thông tin biến cách của từ
công ty TNHH Dịch vụ Thương mại Đại Lâm
tổ chức bộ máy quản lý
Ngữ liệu song ngữ
Gióng hàng phân đoạn ngữ
Bilingual corpus
Statistical machine translation
Chunk alignment
Thích ứng miền
Dịch máy nơ ron
Dữ liệu huấn luyện hệ dịch
Hệ dịch cặp ngôn ngữ Anh Việt
Kỷ yếu hội nghị Quốc gia về Điện tử truyền thông
Phương pháp dịch từ mới
Dịch máy Hoa Việt
Dịch thống kê Hoa Việt
Ngữ liệu song ngữ Hoa Việt
Khai phá tri thức
Dịch máy Anh Việt
tTri thức song ngữ
Ngữ liệu song ngữ
Văn bản song ngữ
Dịch máy Việt–Anh
Dữ liệu song ngữ
Gióng hàng song ngữ
Kho văn bản du lịch
Khôi phục dấu tự động
Dịch máy dựa trên cú pháp
Suy diễn văn phạm
Văn phạm phi ngữ cảnh đồng bộ
Thuật toán phân tích cú pháp CKY
TÀI LIỆU MỚI ĐĂNG
Giáo án mầm non chương trình đổi mới: Gia đình vui nhộn
4
391
3
23-12-2024
báo cáo hóa học:" Quality of data collection in a large HIV observational clinic database in sub-Saharan Africa: implications for clinical research and audit of care"
7
153
4
23-12-2024
Sử dụng mô hình ARCH và GARCH để phân tích và dự báo về giá cổ phiếu trên thị trường chứng khoán
24
1072
2
23-12-2024
Bệnh sán lá gan trên gia súc và cách phòng trị
3
162
1
23-12-2024
Báo cáo nghiên cứu khoa học " Vai trò chính quyền địa phương trong phát triển kinh tế : khu chuyên doanh gốm sứ ( Trung Quốc ) và Bát Tràng ( Việt Nam )("
11
212
1
23-12-2024
Word Games with English 1
65
137
1
23-12-2024
báo cáo khoa học: "Malignant peripheral nerve sheath tumor arising from the greater omentum: Case report"
4
140
1
23-12-2024
OPEN SOURCE ERP REASONABLE TOOLS FOR MANUFACTURING SMEs?
1
148
1
23-12-2024
Data Mining Classification: Basic Concepts, Decision Trees, and Model Evaluation Lecture Notes for Chapter 4 Introduction to Data Mining
101
140
1
23-12-2024
ĐỀ LUYỆN THI ĐẠI HỌC MÔN: TIẾNG ANH - SỐ 3
4
128
1
23-12-2024
TÀI LIỆU HOT
Mẫu đơn thông tin ứng viên ngân hàng VIB
8
8098
2279
Giáo trình Tư tưởng Hồ Chí Minh - Mạch Quang Thắng (Dành cho bậc ĐH - Không chuyên ngành Lý luận chính trị)
152
7709
1788
Ebook Chào con ba mẹ đã sẵn sàng
112
4406
1371
Ebook Tuyển tập đề bài và bài văn nghị luận xã hội: Phần 1
62
6270
1266
Ebook Facts and Figures – Basic reading practice: Phần 1 – Đặng Tuấn Anh (Dịch)
249
8885
1161
Giáo trình Văn hóa kinh doanh - PGS.TS. Dương Thị Liễu
561
3835
680
Giáo trình Sinh lí học trẻ em: Phần 1 - TS Lê Thanh Vân
122
3917
609
Giáo trình Pháp luật đại cương: Phần 1 - NXB ĐH Sư Phạm
274
4699
565
Tiểu luận: Tư tưởng Hồ Chí Minh về xây dựng nhà nước trong sạch vững mạnh
13
11335
542
Bài tập nhóm quản lý dự án: Dự án xây dựng quán cafe
35
4500
490
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.