TAILIEUCHUNG - Áp dụng bottle neck feature cho nhận dạng tiếng nói tiếng Việt

Bài báo trình bày việc áp dụng Bottle Neck Feature(BNF) - một dạng đặc trưng của tín hiệu tiếng nói được trích chọn thông qua mạng neural (Neural Network) - cho nhận dạng tiếng nói tiếng Việt. Nghiên cứu sử dụng mạng Multilayer Perceptron(MLP) năm lớp với kích thước của lớp ẩn thứ nhất khác nhau để trích chọn đặc trưng BNF từ hai loại dữ liệu đầu vào là Perceptual Linear Prediction(PLP) và Mel Frequency Cepstral Coeffcient(MFCC), nhằm đánh giá hiệu quả của mỗi loại đặc trưng sau khi được áp dụng BNF | Tạp chí Tin học và Điều khiển học, , (2013), 379–388 ÁP DỤNG BOTTLE NECK FEATURE CHO NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT NGUYỄN VĂN HUY1 , LƯƠNG CHI MAI2 , VŨ TẤT THẮNG2 1 Khoa Điện tử, trường ĐH Kỹ thuật Công nghiệp – Thái Nguyên; huynguyen@ 2 Viện Công nghệ Thông tin, Viện Hàn lâm Khoa học & Công nghệ Việt Nam; lcmai,vtthang@ Tóm t t. Bài báo trình bày việc áp dụng Bottle Neck Feature(BNF) - một dạng đặc trưng của tín hiệu tiếng nói được trích chọn thông qua mạng neural (Neural Network) - cho nhận dạng tiếng nói tiếng Việt. Nghiên cứu sử dụng mạng Multilayer Perceptron(MLP) năm lớp với kích thước của lớp ẩn thứ nhất khác nhau để trích chọn đặc trưng BNF từ hai loại dữ liệu đầu vào là Perceptual Linear Prediction(PLP) và Mel Frequency Cepstral Coeffcient(MFCC), nhằm đánh giá hiệu quả của mỗi loại đặc trưng sau khi được áp dụng BNF. Kết quả thử nghiệm chứng tỏ BNF hiệu quả với tiếng nói tiếng Việt, kết quả nhận dạng trên đặc trưng BNF tốt hơn so với hệ thống cơ sở (baseline system) trong khoảng từ 6% đến 7%, và đặc trưng MFCC cho kết quả tốt hơn PLP. T khóa. Bottle Neck Feature, nhận dạng tiếng Việt, mô hình makov ẩn. Abstract. In the paper, the basic idea of Bottle Neck Feature(BNF) and the process how to extract BNF are presented. In this study, we apply BNF for Vietnamese speech recognition with five layers MLP network of different sizes for the first hidden layer. Input features to extract BNF feature are Perceptual Linear Prediction(PLP) and Mel Frequency Cepstral Coeffcient(MFCC). The experiments are carried out on a data set of VOV(Voice of Vietnam).The results show that using BNF for Vietnamese speech recognition, a WER(Word Error Rate)is improved up to 6-7% comparing to the baseline system, and MFCC feature gives a better result than PLP feature. Key words. BNF, Bottle Neck Feature, Vietnamese speech recognition, HMM-GMM. 1. GIỚI THIỆU Phương pháp trích chọn các đặc trưng của tiếng nói sử dụng mạng neural đang trở .

TỪ KHÓA LIÊN QUAN
TAILIEUCHUNG - Chia sẻ tài liệu không giới hạn
Địa chỉ : 444 Hoang Hoa Tham, Hanoi, Viet Nam
Website : tailieuchung.com
Email : tailieuchung20@gmail.com
Tailieuchung.com là thư viện tài liệu trực tuyến, nơi chia sẽ trao đổi hàng triệu tài liệu như luận văn đồ án, sách, giáo trình, đề thi.
Chúng tôi không chịu trách nhiệm liên quan đến các vấn đề bản quyền nội dung tài liệu được thành viên tự nguyện đăng tải lên, nếu phát hiện thấy tài liệu xấu hoặc tài liệu có bản quyền xin hãy email cho chúng tôi.
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.