TAILIEUCHUNG - Một cách tiếp cận sử dụng mô hình n-gram trong việc tự động phát hiện và sửa lỗi nhận dạng văn bản tiếng Việt

Bài viết trình bày những kết quả nghiên cứu trong việc nâng cao độ chính xác của nhận dạng văn bản tiếng Việt. Kết quả của nhận dạng văn bản từ hình ảnh thường không đạt được độ chính xác tuyệt đối, nhất là đối với các tài liệu có chất lượng hình ảnh đầu vào thấp. | Một cách tiếp cận sử dụng mô hình n-gram trong việc tự động phát hiện và sửa lỗi nhận dạng văn bản tiếng Việt Nghiên cứu khoa học công nghệ MỘT CÁCH TIẾP CẬN SỬ DỤNG MÔ HÌNH N-GRAM TRONG VIỆC TỰ ĐỘNG PHÁT HIỆN VÀ SỬA LỖI NHẬN DẠNG VĂN BẢNTIẾNG VIỆT Nguyễn Chí Thành1*, Thái Trung Kiên1, Hoàng Đình Thắng1, Nguyễn Thị Lan Phượng2 Tóm tắt: Trong bài báo này, chúng tôi trình bày những kết quả nghiên cứu trong việc nâng cao độ chính xác của nhận dạng văn bản tiếng Việt. Kết quả của nhận dạng văn bản từ hình ảnh thường không đạt được độ chính xác tuyệt đối, nhất là đối với các tài liệu có chất lượng hình ảnh đầu vào thấp. Do đó, việc tự động phát hiện và sửa lỗi nhận dạng văn bản là cần thiết, giúp giảm công sức hiệu đính của người dùng. Trong nghiên cứu này, chúng tôi đề xuất một thuật toán phát hiện và sửa lỗi nhận dạng văn bản tiếng Việt dựa trên mô hình n-gram. Kết quả thử nghiệm cho thấy việc áp dụng thuật toán này giúp nâng cao độ chính xác của nhận dạng. Từ khóa: Nhận dạng văn bản, Mô hình ngôn ngữ. 1. ĐẶT VẤN ĐỀ . Giới thiệu Nhận dạng văn bản trong tiếng Anh thường được nhắc đến với cái tên nhận dạng ký tự quang học (optical character recognition) và được viết tắt là OCR. Đây là lĩnh vực được ứng dụng rộng rãi trong việc số hóa các văn bản, tài liệu cũng như việc hỗ trợ nhập liệu tự động các nguồn dữ liệu in trên giấy như hộ chiếu, giấy chứng minh thư, hóa đơn, báo cáo tài chính, danh thiếp Các nghiên cứu về nhận dạng văn bản tiếng Anh cũng như tiếng Việt đã đạt được nhiều kết quả tốt, có độ chính xác cao đối với những nguồn ảnh văn bản rõ ràng. Tuy nhiên, với các văn bản, tài liệu do đã cũ hoặc do quá trình bảo quản không tốt bị mờ chữ, mất chữ thì độ chính xác của quá trình nhận dạng văn bản bị giảm đi đáng kể. Một số phần mềm có tính năng tự sửa lỗi nhận dạng, tuy nhiên, chủ yếu sửa lỗi ở mức ký tự, sửa lỗi chính tả dựa vào từ điển, không có khả năng sửa lỗi ở mức từ, ở mức ngữ cảnh. Do đó, khi gặp .

TỪ KHÓA LIÊN QUAN
TAILIEUCHUNG - Chia sẻ tài liệu không giới hạn
Địa chỉ : 444 Hoang Hoa Tham, Hanoi, Viet Nam
Website : tailieuchung.com
Email : tailieuchung20@gmail.com
Tailieuchung.com là thư viện tài liệu trực tuyến, nơi chia sẽ trao đổi hàng triệu tài liệu như luận văn đồ án, sách, giáo trình, đề thi.
Chúng tôi không chịu trách nhiệm liên quan đến các vấn đề bản quyền nội dung tài liệu được thành viên tự nguyện đăng tải lên, nếu phát hiện thấy tài liệu xấu hoặc tài liệu có bản quyền xin hãy email cho chúng tôi.
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.