TAILIEUCHUNG - So sánh một số bộ phân lớp dùng cho nhận dạng phương ngữ tiếng Việt

Bài viết trình bày kết quả thử nghiệm nhận dạng phương ngữ tiếng Việt sử dụng công cụ Weka là tập hợp các thuật giải học máy dùng cho khai phá dữ liệu. Ngữ liệu dùng cho nhận dạng là các giọng Hà Nội, Huế, Thành phố Hồ Chí Minh đại diện cho phương ngữ của ba miền Bắc, Trung, Nam. Các bộ phân lớp SMO, lBK, Jrip, MultilayerPerceptron và PART đã được dùng cho thử nghiệm nhận dạng phương ngữ tiếng Việt. Kết quả thử nghiệm cho thấy tỷ lệ nhận dạng trung bình phương ngữ tiếng Việt cao nhất là 99,5% khi sử dụng bộ phân lớp MultilayerPerceptron. Việc đánh giá ảnh hưởng của tần số cơ bản đến hiệu năng nhận dạng cũng được thực hiện. Chỉ riêng thông tin tần số cơ bản đã cho phép kết quả nhận dạng phương ngữ đạt được 52,2%. | Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR 9 Cần Thơ ngày 4-5 8 2016 DOI SO SÁNH MỘT SỐ BỘ PHÂN LỚP DÙNG CHO NHẬN DẠNG PHƯƠNG NGỮ TIẾNG VIỆT Nguyễn Hồng Quang2 Phạm Ngọc Hưng1 2 Trịnh Văn Loan1 2 Phạm Quốc Hùng1 1 Khoa Công nghệ Thông tin Trường Đại học Sư phạm Kỹ thuật Hưng Yên 2 Viện Công nghệ Thông tin và Truyền thông Trường Đại học Bách khoa Hà Nội phamngochung@ loantv@ quangnh@ quochungvnu@ TÓM TẮT Tiếng Việt là ngôn ngữ có thanh điệu và có nhiều phương ngữ khác nhau. Ảnh hưởng của yếu tố phương ngữ tới các hệ thống nhận dạng tự động tiếng Việt nói là đáng kể. Có nhiều phương pháp khác nhau đã được nghiên cứu và áp dụng cho nhận dạng phương ngữ như GMM SVM. Bài báo trình bày kết quả thử nghiệm nhận dạng phương ngữ tiếng Việt sử dụng công cụ Weka là tập hợp các thuật giải học máy dùng cho khai phá dữ liệu. Ngữ liệu dùng cho nhận dạng là các giọng Hà Nội Huế Thành phố Hồ Chí Minh đại diện cho phương ngữ của ba miền Bắc Trung Nam. Các bộ phân lớp SMO lBK Jrip MultilayerPerceptron và PART đã được dùng cho thử nghiệm nhận dạng phương ngữ tiếng Việt. Kết quả thử nghiệm cho thấy tỷ lệ nhận dạng trung bình phương ngữ tiếng Việt cao nhất là 99 5 khi sử dụng bộ phân lớp MultilayerPerceptron. Việc đánh giá ảnh hưởng của tần số cơ bản đến hiệu năng nhận dạng cũng được thực hiện. Chỉ riêng thông tin tần số cơ bản đã cho phép kết quả nhận dạng phương ngữ đạt được 52 2 . Từ khóa SVM nhận dạng phương ngữ tiếng Việt Weka SMO lBK Jrip multilayer perceptron PART tần số cơ bản. I. GIỚI THIỆU Tiếng Việt là ngôn ngữ có thanh điệu và đa dạng về phương ngữ 1 . Các phương ngữ khác nhau về từ địa phương và phương thức phát âm. Nghiên cứu nhận dạng tự động phương ngữ đóng vai trò quan trọng trong hệ thống nhận dạng tiếng nói cho các ngôn ngữ trong đó có tiếng Việt 2 3 . Bài báo này sẽ trình bày các thử nghiệm nhận dạng phương ngữ tiếng Việt theo phương .

TỪ KHÓA LIÊN QUAN
TAILIEUCHUNG - Chia sẻ tài liệu không giới hạn
Địa chỉ : 444 Hoang Hoa Tham, Hanoi, Viet Nam
Website : tailieuchung.com
Email : tailieuchung20@gmail.com
Tailieuchung.com là thư viện tài liệu trực tuyến, nơi chia sẽ trao đổi hàng triệu tài liệu như luận văn đồ án, sách, giáo trình, đề thi.
Chúng tôi không chịu trách nhiệm liên quan đến các vấn đề bản quyền nội dung tài liệu được thành viên tự nguyện đăng tải lên, nếu phát hiện thấy tài liệu xấu hoặc tài liệu có bản quyền xin hãy email cho chúng tôi.
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.