TAILIEUCHUNG - Rút trích văn bản từ tập tin hình ảnh với Tesseract
Rút trích văn bản từ tập tin hình ảnh đang là một trong những bài toán quan trọng trong xử lý ảnh hiện nay. Trong bài báo này, chúng tôi bước đầu tìm hiểu các phương pháp trích lọc văn từ hình ảnh của một số công trình liên quan đồng thời cũng tìm hiểu, hiệu chỉnh công cụ mã nguồn mở Tesseract để thực hiện trích lọc văn bản tiếng Anh từ tập tin hình ảnh. Kết quả thử nghiệm bước đầu cho thấy công cụ này rút trích khá tốt các văn bản từ tập tin hình ảnh chứa văn bản được đánh máy. | RÚT TRÍCH VĂN BẢN TỪ TẬP TIN HÌNH ẢNH VỚI TESSERACT TRẦN THANH HÙNG ANH, LÊ THỊ MỸ QUY, TRẦN THANH PHƯỚC, DƯƠNG THỊ MỘNG THÙY 1,2 Lớp 02DHTHN- Khoa Công nghệ thông tin 3,4 Khoa Công nghệ thông tin – Trường ĐH Công nghiệp thực phẩm Tp HCM TÓM TẮT Rút trích văn bản từ tập tin hình ảnh đang là một trong những bài toán quan trọng trong xử l ảnh hiện nay. Trong bài báo này, chúng tôi bước đầu tìm hiểu các phương pháp trích lọc văn ý bản từ hình ảnh của một số công trình liên quan đồng thời cũng tìm hiểu, hiệu chỉnh công cụ mã nguồn mở Tesseract để thực hiện trích lọc văn bản tiếng Anh từ tập tin hình ảnh. Kết quả thử nghiệm bước đầu cho thấy công cụ này rút trích khá tốt các văn bản từ tập tin hình ảnh chứa văn bản được đánh máy. Từ khóa: Rút trích văn bản, tập tin hình ảnh, Tesseract. EXTRACTING TEXT FROM IMAGE FILES USING TESSERACT ABSTRACT Extracting text from the image file is one of the important problems in image processing. In this paper, we initially study the methods of text extracting from images from a number of related works. Besides, we also learn and adjust the Tesseract, an open source tool, to perform extracting English texts from the image file. Initial test results show that this tool quite extracted the text from the image file containing the typed text. Key words: Extracting text, image files, tesseract. 1. Giới thiệu Hiện nay, nhu cầu về việc rút trích từ ngữ từ hình ảnh đang ngày càng phát triển, bên cạnh sự gia tăng về nhu cầu là sự phát triển của công nghệ nhận dạng ký tự quang học (Optical Character Recognition) hay còn được gọi tắt là OCR. Đây là một công nghệ giúp chuyển đổi hình ảnh của chữ viết tay hoặc đánh máy thành các ký tự đã được mã hóa trong máy tính. Giả sử chúng ta cần chỉnh sửa một số tài liệu giấy như: Các bài viết trên tạp chí, tờ rơi, hoặc một tập tin PDF hình ảnh. Rõ ràng, chúng ta không thể sử dụng một máy quét để chuyển các tài liệu này thành tập tin văn bản để có thể chỉnh sửa (ví dụ như trình soạn thảo Microsoft Word). Tất
đang nạp các trang xem trước