TAILIEUCHUNG - Nhận dạng tiếng nói bền vững sử dụng kỹ thuật thừa số hóa ma trận không âm kết hợp với kỹ thuật về độ không đảm bảo của các đặc trưng âm học

Trong hệ thống nhận dạng tiếng nói kỹ thuật thừa số hóa ma trận không âm có thể được sử dụng trong khâu tiền xử lý để loại bỏ nhiễu, nâng cao chất lượng tiếng nói cần nhận dạng và do đó có thể tăng chất lượng của hệ thống nhận dạng tiếng nói trong môi trường nhiễu. Tuy nhiên, tín hiệu sau khi nâng cao thường vẫn còn chứa một phần nhiễu. | Nhận dạng tiếng nói bền vững sử dụng kỹ thuật thừa số hóa ma trận không âm kết hợp với kỹ thuật về độ không đảm bảo của các đặc trưng âm học Kỹ thuật điều khiển & Điện tử NHẬN DẠNG TIẾNG NÓI BỀN VỮNG SỬ DỤNG KỸ THUẬT THỪA SỐ HÓA MA TRẬN KHÔNG ÂM KẾT HỢP VỚI KỸ THUẬT VỀ ĐỘ KHÔNG ĐẢM BẢO CỦA CÁC ĐẶC TRƯNG ÂM HỌC Nguyễn Hữu Bình1, Phạm Thị Ngọc Yến1,2, Nguyễn Quốc Cường1,2* Tóm tắt: Trong hệ thống nhận dạng tiếng nói kỹ thuật thừa số hóa ma trận không âm có thể được sử dụng trong khâu tiền xử lý để loại bỏ nhiễu, nâng cao chất lượng tiếng nói cần nhận dạng và do đó có thể tăng chất lượng của hệ thống nhận dạng tiếng nói trong môi trường nhiễu. Tuy nhiên, tín hiệu sau khi nâng cao thường vẫn còn chứa một phần nhiễu. Thông tin sai khác giữa tín hiệu nâng cao và tín hiệu sạch, hay gọi là độ không đảm bảo, có thể là thông tin hữu ích cho quá trình giải mã của hệ thống nhận dạng tiếng nói. Trong bài báo này, chúng tôi trình bày một phương pháp nâng cao chất lượng hệ thống nhận dạng tiếng nói dựa trên kỹ thuật thừa số hóa ma trận không âm kết hợp với kỹ thuật giải mã sử dụng thông tin về độ không đảm bảo của vec-tơ đặc trưng. Chúng tôi đã đánh giá phương pháp kết hợp này trong hệ thống nhận dạng tiếng nói tiếng Việt. Các kết quả cho thấy phương pháp kết hợp đã nâng cao độ chính xác của hệ thống nhận dạng hơn so với việc chỉ sử dụng kỹ thuật thừa số hóa ma trận không âm trong hệ thống nhận dạng tiếng nói. Từ khóa: Nhận dạng tiếng nói, Thừa số hóa ma trận không âm, Ước lượng độ không đảm bảo. 1. ĐẶT VẤN ĐỀ Nhận dạng tiếng nói tự động (ASR: Automatic Speech Recognition) là lĩnh vực thu hút sự quan tâm của nhiều nhà nghiên cứu trong các ứng dụng về tương tác người máy và dịch tiếng nói tự động. Kết quả nhận dạng trong môi trường không nhiễu đạt tỷ lệ khá cao, hơn 90%. Tuy nhiên, trong môi trường ứng dụng thực tế có nhiễu thì chất lượng nhận dạng giảm đáng kể do có sự sai khác giữa cơ sở dữ liệu dùng để huấn luyện

TỪ KHÓA LIÊN QUAN
TAILIEUCHUNG - Chia sẻ tài liệu không giới hạn
Địa chỉ : 444 Hoang Hoa Tham, Hanoi, Viet Nam
Website : tailieuchung.com
Email : tailieuchung20@gmail.com
Tailieuchung.com là thư viện tài liệu trực tuyến, nơi chia sẽ trao đổi hàng triệu tài liệu như luận văn đồ án, sách, giáo trình, đề thi.
Chúng tôi không chịu trách nhiệm liên quan đến các vấn đề bản quyền nội dung tài liệu được thành viên tự nguyện đăng tải lên, nếu phát hiện thấy tài liệu xấu hoặc tài liệu có bản quyền xin hãy email cho chúng tôi.
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.