TAILIEUCHUNG - Word Segmentation for Vietnamese Text Categorization: An online corpus approach

Abstract—This paper extends a novel Vietnamese segmentation approach for text categorization. Instead of using annotated training corpus or lexicon which is still lack in Vietnam, we use statistic information extracted directly from a commercial search engine and genetic algorithm to find the most reasonable way of segmentation. The extracted information is document frequency of segmented words. We conduct many thorough experiments to find out the most appropriate mutual information formula in word segmentation step. Our experiment results on segmentation and categorization obtained from online news abstracts clearly show that our approach is very optimistic | 172 1 Word Segmentation for Vietnamese Text Categorization An online corpus approach Thanh V. Nguyen Hoang K. Tran Thanh . Nguyen and Hung Nguyen Abstract This paper extends a novel Vietnamese segmentation approach for text categorization. Instead of using annotated training corpus or lexicon which is still lack in Vietnam we use statistic information extracted directly from a commercial search engine and genetic algorithm to find the most reasonable way of segmentation. The extracted information is document frequency of segmented words. We conduct many thorough experiments to find out the most appropriate mutual information formula in word segmentation step. Our experiment results on segmentation and categorization obtained from online news abstracts clearly show that our approach is very optimistic. It achieves results in nearly 80 human judgment on segmentation and over 90 micro-averaging F in categorization. The processing time is less than one minute per document when enough statistic information was cached. Index Terms Genetic Algorithm Text Categorization Web Corpus Word Segmentation. I. Introduction It has clearly known that word segmentation is a major barrier in text categorization tasks for Asian languages such as Chinese Japanese Korean and Vietnamese. Although Vietnamese is written in extended Latin characters it shares some identical characteristics with the other phonographic southeast Asian languages. Asian languages are hard in determining word boundaries as well as have different phonetic grammatical and semantic features from Euro-Indian languages. Thus it is difficult in trying to fit Vietnamese into wide- and well-investigated approaches on Euro-Indian languages without acceptable Vietnamese word segmentation. Why is identifying word boundary in Vietnamese vital for Vietnamese text categorization According to 18 and our survey most of top-performing text categorization methods the Support Vector Machine 8 k-Nearest Neighbor 16 Linear Least .

Kim Thông 43 6 pdf

Upload

Bấm vào đây để xem trước nội dung

Tải xuống

TÀI LIỆU LIÊN QUAN

Từ triết học giáo dục đến triết lí giáo dục, lí thuyết giáo dục và công nghệ giáo dục

5 92 2

Luận văn Thạc sĩ Khoa học giáo dục: Tích hợp nội dung giáo dục truyền thống cách mạng trong dạy học môn giáo dục công dân tại Trung tâm giáo dục nghề nghiệp - giáo dục thường xuyên huyện Đại Từ, tỉnh Thái Nguyên

136 109 3

Tiểu luận: Tình hình chung của giáo dục đại học, giáo dục đại học ngoài công lập. Hãy phân tích về: Chương trình – Giáo trình

32 730 15

Giáo dục giới tính và tình dục toàn diện trong môn Giáo dục Kinh tế và Pháp luật cấp Trung học phổ thông (Chương trình Giáo dục phổ thông 2018)

6 77 1

Luận văn Thạc sĩ Khoa học chuyên ngành Quản lý giáo dục: Biện pháp quản lý công tác xã hội hoá giáo dục mầm non tỉnh Nam Định trong giai đoạn hiện nay

32 457 5

Quyết định số: 2091/QĐ-BGDĐT của Bộ giáo dục và đào tạo-Ban hành khung kế hoạch thời gian năm học 2010-2011 của giáo dục mầm non, giáo dục phổ thông và giáo dục thường xuyên

4 210 0

Đề tài: Kế thừa những tư tưởng giáo dục về giáo dục của Khổng Tử trong việc xây dựng nền giáo dục nước ta hiện nay

42 244 6

Module Giáo dục thường xuyên 26: Chương trình giáo dục pháp luật, văn hóa - xã hội, sức khỏe, môi trường, phát triển kinh tế trong chương trình giáo dục thường xuyên

21 309 0

Module Giáo dục thường xuyên 1: Giáo dục thường xuyên trong hệ thống giáo dục quốc dân - Thái Thị Xuân Đào

50 320 2

Thuyết trình giáo dục đại học: Giáo dục Hoa Kỳ

23 301 5

TÀI LIỆU XEM NHIỀU

Một Case Về Hematology (1)

8 462295 61

Giới thiệu :Lập trình mã nguồn mở

14 24942 79

Tiểu luận: Tư tưởng Hồ Chí Minh về xây dựng nhà nước trong sạch vững mạnh

13 11287 542

Câu hỏi và đáp án bài tập tình huống Quản trị học

14 10513 466

Phân tích và làm rõ ý kiến sau: “Bài thơ Tự tình II vừa nói lên bi kịch duyên phận vừa cho thấy khát vọng sống, khát vọng hạnh phúc của Hồ Xuân Hương”

3 9791 108

Ebook Facts and Figures – Basic reading practice: Phần 1 – Đặng Tuấn Anh (Dịch)

249 8876 1160

Tiểu luận: Nội dung tư tưởng Hồ Chí Minh về đạo đức

16 8467 426

Mẫu đơn thông tin ứng viên ngân hàng VIB

8 8090 2279

Giáo trình Tư tưởng Hồ Chí Minh - Mạch Quang Thắng (Dành cho bậc ĐH - Không chuyên ngành Lý luận chính trị)

152 7474 1763

Đề tài: Dự án kinh doanh thời trang quần áo nữ

17 7190 268

TỪ KHÓA LIÊN QUAN

TÀI LIỆU MỚI ĐĂNG

Báo cáo nghiên cứu khoa học " HÃY LÀM CHO HUẾ XANH HƠN VÀ ĐẸP HƠN "

6 169 3 27-11-2024

Sử dụng mô hình ARCH và GARCH để phân tích và dự báo về giá cổ phiếu trên thị trường chứng khoán

24 1065 2 27-11-2024

Báo cáo " Thẩm quyền quản lí nhà nước đối với hoạt động quảng cáo thực trạng và hướng hoàn thiện "

7 196 7 27-11-2024

Bệnh sán lá gan trên gia súc và cách phòng trị

3 157 1 27-11-2024

Determini prounoun 1

6 134 0 27-11-2024

CÂU HỎI TRẮC NGHIỆM HSLS NƯỚC TIỂU

9 168 0 27-11-2024

ĐỀ LUYỆN THI ĐẠI HỌC MÔN: TIẾNG ANH - SỐ 3

4 115 1 27-11-2024

Báo cáo khoa học: "A rare coexistence of adrenal cavernous hemangioma with extramedullar hemopoietic tissue: a case report and brief review of the literature"

4 101 0 27-11-2024

longman english 1

5 121 0 27-11-2024

Sinh thái học nông nghiệp : Sinh thái học và sự phát triển Nông nghiệp part 8

8 129 0 27-11-2024

TÀI LIỆU HOT

Mẫu đơn thông tin ứng viên ngân hàng VIB

8 8090 2279

Giáo trình Tư tưởng Hồ Chí Minh - Mạch Quang Thắng (Dành cho bậc ĐH - Không chuyên ngành Lý luận chính trị)

152 7474 1763

Ebook Chào con ba mẹ đã sẵn sàng

112 4366 1369

Ebook Tuyển tập đề bài và bài văn nghị luận xã hội: Phần 1

62 6158 1259

Ebook Facts and Figures – Basic reading practice: Phần 1 – Đặng Tuấn Anh (Dịch)

249 8876 1160

Giáo trình Văn hóa kinh doanh - PGS.TS. Dương Thị Liễu

561 3791 680

Giáo trình Sinh lí học trẻ em: Phần 1 - TS Lê Thanh Vân

122 3909 609

Giáo trình Pháp luật đại cương: Phần 1 - NXB ĐH Sư Phạm

274 4620 562

Tiểu luận: Tư tưởng Hồ Chí Minh về xây dựng nhà nước trong sạch vững mạnh

13 11287 542

Bài tập nhóm quản lý dự án: Dự án xây dựng quán cafe

35 4455 490