TAILIEUCHUNG - Báo cáo khoa học: "Learning to Find Translations and Transliterations on the Web"

In this paper, we present a new method for learning to finding translations and transliterations on the Web for a given term. The approach involves using a small set of terms and translations to obtain mixed-code snippets from a search engine, and automatically annotating the snippets with tags and features for training a conditional random field model. | Learning to Find Translations and Transliterations on the Web Joseph Z. Chang Department of Computer Science National Tsing Hua University 101 Kuangfu Road Hsinchu 300 Taiwan j Jason S. Chang Department of Computer Science National Tsing Hua University 101 Kuangfu Road Hsinchu 300 Taiwan j schang@ Jyh-Shing Roger Jang Department of Computer Science National Tsing Hua University 101 Kuangfu Road Hsinchu 300 Taiwan jang@ Abstract In this paper we present a new method for learning to finding translations and transliterations on the Web for a given term. The approach involves using a small set of terms and translations to obtain mixed-code snippets from a search engine and automatically annotating the snippets with tags and features for training a conditional random field model. At runtime the model is used to extracting translation candidates for a given term. Preliminary experiments and evaluation show our method cleanly combining various features resulting in a system that outperforms previous work. 1 Introduction The phrase translation problem is critical to machine translation cross-lingual information retrieval and multilingual terminology Bian and Chen 2000 Kupiec 1993 . Such systems typically use a parallel corpus. However the out of vocabulary problem OOV is hard to overcome even with a very large training corpus due to the Zipf nature of word distribution and ever growing new terminology and named entities. Luckily there are an abundant of webpages consisting mixed-code text typically written in one language but interspersed with some sentential or phrasal translations in another language. By retrieving and identifying such translation counterparts on the Web we can cope with the OOV problem. Consider the technical term named-entity recognition. The best places to find the Chinese translations for named-entity recognition are probably not some parallel corpus or dictionary but rather mixed-code webpages. The

Minh Thư 50 5 pdf

Upload

Bấm vào đây để xem trước nội dung

Tải xuống

TÀI LIỆU LIÊN QUAN

Learning Perl - Learning Perl -

6 79 0

Learning Perl - Mảng băm

4 78 0

Learning Perl - Các cấu trúc điều khiển khác

5 95 0

Learning Perl - Tước hiệu tệp và kiểm thử tệp

6 82 1

Learning Perl - Giới thiệu qua về Perl part 1

6 71 1

Learning Perl - Giới thiệu qua về Perl part 2

6 78 1

Learning Perl - Giới thiệu qua về Perl part 3

6 84 1

Learning Perl - Dữ liệu vô hướng part 1

5 70 0

Learning Perl - Dữ liệu vô hướng part 2

5 94 0

Learning Perl - Biểu thức chính qui part 1

5 73 0

TÀI LIỆU XEM NHIỀU

Một Case Về Hematology (1)

8 462307 61

Giới thiệu :Lập trình mã nguồn mở

14 25020 79

Tiểu luận: Tư tưởng Hồ Chí Minh về xây dựng nhà nước trong sạch vững mạnh

13 11301 542

Câu hỏi và đáp án bài tập tình huống Quản trị học

14 10515 466

Phân tích và làm rõ ý kiến sau: “Bài thơ Tự tình II vừa nói lên bi kịch duyên phận vừa cho thấy khát vọng sống, khát vọng hạnh phúc của Hồ Xuân Hương”

3 9800 108

Ebook Facts and Figures – Basic reading practice: Phần 1 – Đặng Tuấn Anh (Dịch)

249 8879 1161

Tiểu luận: Nội dung tư tưởng Hồ Chí Minh về đạo đức

16 8469 426

Mẫu đơn thông tin ứng viên ngân hàng VIB

8 8093 2279

Giáo trình Tư tưởng Hồ Chí Minh - Mạch Quang Thắng (Dành cho bậc ĐH - Không chuyên ngành Lý luận chính trị)

152 7505 1766

Đề tài: Dự án kinh doanh thời trang quần áo nữ

17 7200 268

TỪ KHÓA LIÊN QUAN

TÀI LIỆU MỚI ĐĂNG

Giáo án mầm non chương trình đổi mới: Gia đình vui nhộn

4 378 3 02-12-2024

Bảng màu theo chữ cái – V

11 156 2 02-12-2024

CHƯƠNG 2: RỦI RO THÂM HỤT TÀI KHÓA

28 153 1 02-12-2024

Sử dụng mô hình ARCH và GARCH để phân tích và dự báo về giá cổ phiếu trên thị trường chứng khoán

24 1068 2 02-12-2024

Báo cáo y học: "The Factors Influencing Depression Endpoints Research (FINDER) study: final results of Italian patients with depressio"

9 141 1 02-12-2024

Bệnh sán lá gan trên gia súc và cách phòng trị

3 158 1 02-12-2024

Báo cáo nghiên cứu khoa học " Vai trò chính quyền địa phương trong phát triển kinh tế : khu chuyên doanh gốm sứ ( Trung Quốc ) và Bát Tràng ( Việt Nam )("

11 208 1 02-12-2024

Báo cáo nghiên cứu khoa học " NÂNG QUAN HỆ KINH TẾ THƯƠNG MẠI VIỆT NAM - TRUNG QUỐC LÊN TẦM CAO THỜI ĐẠI "

8 162 1 02-12-2024

TRẮC NGHIỆM - CÁC BỆNH THIẾU DINH DƯỠNG THƯỜNG GẶP

32 202 2 02-12-2024

Determini prounoun 1

6 136 0 02-12-2024

TÀI LIỆU HOT

Mẫu đơn thông tin ứng viên ngân hàng VIB

8 8093 2279

Giáo trình Tư tưởng Hồ Chí Minh - Mạch Quang Thắng (Dành cho bậc ĐH - Không chuyên ngành Lý luận chính trị)

152 7505 1766

Ebook Chào con ba mẹ đã sẵn sàng

112 4370 1369

Ebook Tuyển tập đề bài và bài văn nghị luận xã hội: Phần 1

62 6171 1260

Ebook Facts and Figures – Basic reading practice: Phần 1 – Đặng Tuấn Anh (Dịch)

249 8879 1161

Giáo trình Văn hóa kinh doanh - PGS.TS. Dương Thị Liễu

561 3802 680

Giáo trình Sinh lí học trẻ em: Phần 1 - TS Lê Thanh Vân

122 3912 609

Giáo trình Pháp luật đại cương: Phần 1 - NXB ĐH Sư Phạm

274 4630 562

Tiểu luận: Tư tưởng Hồ Chí Minh về xây dựng nhà nước trong sạch vững mạnh

13 11301 542

Bài tập nhóm quản lý dự án: Dự án xây dựng quán cafe

35 4464 490