TAILIEUCHUNG - So sánh một số bộ phân lớp dùng cho nhận dạng phương ngữ tiếng Việt

Bài viết trình bày kết quả thử nghiệm nhận dạng phương ngữ tiếng Việt sử dụng công cụ Weka là tập hợp các thuật giải học máy dùng cho khai phá dữ liệu. Ngữ liệu dùng cho nhận dạng là các giọng Hà Nội, Huế, Thành phố Hồ Chí Minh đại diện cho phương ngữ của ba miền Bắc, Trung, Nam. Các bộ phân lớp SMO, lBK, Jrip, MultilayerPerceptron và PART đã được dùng cho thử nghiệm nhận dạng phương ngữ tiếng Việt. Kết quả thử nghiệm cho thấy tỷ lệ nhận dạng trung bình phương ngữ tiếng Việt cao nhất là 99,5% khi sử dụng bộ phân lớp MultilayerPerceptron. Việc đánh giá ảnh hưởng của tần số cơ bản đến hiệu năng nhận dạng cũng được thực hiện. Chỉ riêng thông tin tần số cơ bản đã cho phép kết quả nhận dạng phương ngữ đạt được 52,2%. | Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR 9 Cần Thơ ngày 4-5 8 2016 DOI SO SÁNH MỘT SỐ BỘ PHÂN LỚP DÙNG CHO NHẬN DẠNG PHƯƠNG NGỮ TIẾNG VIỆT Nguyễn Hồng Quang2 Phạm Ngọc Hưng1 2 Trịnh Văn Loan1 2 Phạm Quốc Hùng1 1 Khoa Công nghệ Thông tin Trường Đại học Sư phạm Kỹ thuật Hưng Yên 2 Viện Công nghệ Thông tin và Truyền thông Trường Đại học Bách khoa Hà Nội phamngochung@ loantv@ quangnh@ quochungvnu@ TÓM TẮT Tiếng Việt là ngôn ngữ có thanh điệu và có nhiều phương ngữ khác nhau. Ảnh hưởng của yếu tố phương ngữ tới các hệ thống nhận dạng tự động tiếng Việt nói là đáng kể. Có nhiều phương pháp khác nhau đã được nghiên cứu và áp dụng cho nhận dạng phương ngữ như GMM SVM. Bài báo trình bày kết quả thử nghiệm nhận dạng phương ngữ tiếng Việt sử dụng công cụ Weka là tập hợp các thuật giải học máy dùng cho khai phá dữ liệu. Ngữ liệu dùng cho nhận dạng là các giọng Hà Nội Huế Thành phố Hồ Chí Minh đại diện cho phương ngữ của ba miền Bắc Trung Nam. Các bộ phân lớp SMO lBK Jrip MultilayerPerceptron và PART đã được dùng cho thử nghiệm nhận dạng phương ngữ tiếng Việt. Kết quả thử nghiệm cho thấy tỷ lệ nhận dạng trung bình phương ngữ tiếng Việt cao nhất là 99 5 khi sử dụng bộ phân lớp MultilayerPerceptron. Việc đánh giá ảnh hưởng của tần số cơ bản đến hiệu năng nhận dạng cũng được thực hiện. Chỉ riêng thông tin tần số cơ bản đã cho phép kết quả nhận dạng phương ngữ đạt được 52 2 . Từ khóa SVM nhận dạng phương ngữ tiếng Việt Weka SMO lBK Jrip multilayer perceptron PART tần số cơ bản. I. GIỚI THIỆU Tiếng Việt là ngôn ngữ có thanh điệu và đa dạng về phương ngữ 1 . Các phương ngữ khác nhau về từ địa phương và phương thức phát âm. Nghiên cứu nhận dạng tự động phương ngữ đóng vai trò quan trọng trong hệ thống nhận dạng tiếng nói cho các ngôn ngữ trong đó có tiếng Việt 2 3 . Bài báo này sẽ trình bày các thử nghiệm nhận dạng phương ngữ tiếng Việt theo phương .

Thiện Tâm 67 5 pdf

Upload

Bấm vào đây để xem trước nội dung

Tải xuống

TÀI LIỆU LIÊN QUAN

Cải thiện hiệu năng hệ thống nhận dạng tiếng Việt với thông tin về phương ngữ

7 57 1

So sánh một số bộ phân lớp dùng cho nhận dạng phương ngữ tiếng Việt

5 45 1

Nhận dạng phương ngữ tiếng Việt trên hệ thống nhúng

6 51 1

Luận án Tiến sỹ Hệ thống thông tin: Nhận dạng tự động tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng việt theo phương thức phát âm

150 109 2

Ảnh hưởng của tần số cơ bản f0 và các biến thể của f0 đến nhận dạng phương ngữ tiếng Việt

6 36 1

So sánh hiệu năng một số phương pháp nhận dạng cảm xúc tiếng việt nói

7 86 1

Nhận dạng phương ngữ tiếng Việt sử dụng MFCC và tần số cơ bản

6 84 0

Luận án Tiến sĩ Hệ thống thông tin: Nhận dạng tự động tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng Việt theo phương thức phát âm

150 46 1

Luận án tiến sĩ Hệ thống thông tin: Tự động nhận dạng tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng Việt theo phương thức phát âm

150 111 1

Phát triển hệ thống nhận dạng phương ngữ vùng miền cho tiếng nói tiếng Việt

3 36 1

TÀI LIỆU XEM NHIỀU

Một Case Về Hematology (1)

8 461848 55

Giới thiệu :Lập trình mã nguồn mở

14 22529 57

Tiểu luận: Tư tưởng Hồ Chí Minh về xây dựng nhà nước trong sạch vững mạnh

13 10868 529

Câu hỏi và đáp án bài tập tình huống Quản trị học

14 10031 445

Phân tích và làm rõ ý kiến sau: “Bài thơ Tự tình II vừa nói lên bi kịch duyên phận vừa cho thấy khát vọng sống, khát vọng hạnh phúc của Hồ Xuân Hương”

3 9491 104

Ebook Facts and Figures – Basic reading practice: Phần 1 – Đặng Tuấn Anh (Dịch)

249 8245 1124

Tiểu luận: Nội dung tư tưởng Hồ Chí Minh về đạo đức

16 8207 423

Mẫu đơn thông tin ứng viên ngân hàng VIB

8 7860 2220

Đề tài: Dự án kinh doanh thời trang quần áo nữ

17 6649 253

Vật lý hạt cơ bản (1)

29 5756 85

TỪ KHÓA LIÊN QUAN

TÀI LIỆU MỚI ĐĂNG

Bơm máy nén quạt trong công nghệ part 1

20 248 2 20-04-2024

TƯƠNG QUAN GIỮA MÔ HỌC, GIẢI PHẪU VÀ HÌNH ẢNH CỦA CÁC KHỐI U PHẦN PHỤ

3 167 0 20-04-2024

MySQL Basics for Visual Learners PHẦN 9

15 183 0 20-04-2024

Posted prices versus bargaining in markets_7

23 154 0 20-04-2024

MySQL Database Usage & Administration PHẦN 7

37 154 0 20-04-2024

Hướng dẫn sử dụng Quickoffice cho Ipad và Iphone

13 150 0 20-04-2024

Giáo trình CẤU TRÚC DỮ LIỆU VÀ GIẢI THUẬT - Chương 1

5 123 0 20-04-2024

GIÁO TRÌNH MÁY ĐIỆN KHÍ CỤ ĐIỆN - PHẦN I MÁY ĐIỆN - CHƯƠNG 1

46 129 2 20-04-2024

New Trends and Developments in Automotive Industry Part 7

35 91 0 20-04-2024

MẪU CHỨNG CHỈ QUẢN LÝ VŨ KHÍ, VẬT LIỆU NỔ, CCHT

1 115 0 20-04-2024

TÀI LIỆU HOT

Mẫu đơn thông tin ứng viên ngân hàng VIB

8 7860 2220

Giáo trình Tư tưởng Hồ Chí Minh - Mạch Quang Thắng (Dành cho bậc ĐH - Không chuyên ngành Lý luận chính trị)

152 5613 1333

Ebook Chào con ba mẹ đã sẵn sàng

112 3752 1229

Ebook Tuyển tập đề bài và bài văn nghị luận xã hội: Phần 1

62 5256 1127

Ebook Facts and Figures – Basic reading practice: Phần 1 – Đặng Tuấn Anh (Dịch)

249 8245 1124

Giáo trình Văn hóa kinh doanh - PGS.TS. Dương Thị Liễu

561 3475 641

Tiểu luận: Tư tưởng Hồ Chí Minh về xây dựng nhà nước trong sạch vững mạnh

13 10868 529

Giáo trình Sinh lí học trẻ em: Phần 1 - TS Lê Thanh Vân

122 3670 524

Giáo trình Pháp luật đại cương: Phần 1 - NXB ĐH Sư Phạm

274 4031 513

Bài tập nhóm quản lý dự án: Dự án xây dựng quán cafe

35 4106 478