RÚT TRÍCH VĂN BẢN TỪ TẬP TIN HÌNH ẢNH VỚI TESSERACT TRẦN THANH HÙNG ANH, LÊ THỊ MỸ QUY, TRẦN THANH PHƯỚC, DƯƠNG THỊ MỘNG THÙY 1,2 Lớp 02DHTHN- Khoa Công nghệ thông tin 3,4 Khoa Công nghệ thông tin – Trường ĐH Công nghiệp thực phẩm Tp HCM TÓM TẮT Rút trích văn từ tập tin hình ảnh toán quan trọng xử lý ảnh Trong báo này, bước đầu tìm hiểu phương pháp trích lọc văn từ hình ảnh số công trình liên quan đồng thời tìm hiểu, hiệu chỉnh công cụ mã nguồn mở Tesseract để thực trích lọc văn tiếng Anh từ tập tin hình ảnh Kết thử nghiệm bước đầu cho thấy công cụ rút trích tốt văn từ tập tin hình ảnh chứa văn đánh máy Từ khóa: Rút trích văn bản, tập tin hình ảnh, Tesseract EXTRACTING TEXT FROM IMAGE FILES USING TESSERACT ABSTRACT Extracting text from the image file is one of the important problems in image processing In this paper, we initially study the methods of text extracting from images from a number of related works Besides, we also learn and adjust the Tesseract, an open source tool, to perform extracting English texts from the image file Initial test results show that this tool quite extracted the text from the image file containing the typed text Key words: Extracting text, image files, tesseract Giới thiệu Hiện nay, nhu cầu việc rút trích từ ngữ từ hình ảnh ngày phát triển, bên cạnh gia tăng nhu cầu phát triển công nghệ nhận dạng ký tự quang học (Optical Character Recognition) hay gọi tắt OCR Đây công nghệ giúp chuyển đổi hình ảnh chữ viết tay đánh máy thành ký tự mã hóa máy tính Giả sử cần chỉnh sửa số tài liệu giấy như: Các viết tạp chí, tờ rơi, tập tin PDF hình ảnh Rõ ràng, sử dụng máy quét để chuyển tài liệu thành tập tin văn để chỉnh sửa (ví dụ trình soạn thảo Microsoft Word) Tất máy quét làm tạo hình ảnh chụp tài liệu Để giải nén sử dụng lại liệu từ tài liệu quét, hình ảnh máy ảnh hình ảnh tập tin PDF, cần phần mềm OCR Nó xuất kí tự hình ảnh, ghép 41 chúng thành từ sau ghép từ thành câu Nhờ vậy, truy cập chỉnh sửa nội dung tài liệu gốc Tương tự, tài liệu cổ bị hư hại theo thời gian việc viết tay hay đánh máy lại tài liệu tốn nhiều chi phí, thời gian không đảm bảo độ xác an toàn cho tài liệu Việc cần công nghệ lấy từ ngữ từ hình ảnh chụp Trong báo này, tìm hiểu, chỉnh sửa công cụ Tesseract để thực việc rút trích văn từ tập tin hình ảnh Bài báo trình bày sau: Phần 2, trình bày công trình liên quan đến việc rút trích văn Ở phần 3, trình bày công cụ Tesseract cách rút trích văn công cụ Phần thử nghiệm trình bày phần phần trình bày kết luận Công trình liên quan Có nhiều phương pháp để tạo phần mềm dạng OCR, độ xác phương pháp phụ thuộc vào công nghệ tạo nên phần mềm Các phương pháp đạt độ tin cậy hình ảnh có chất lượng tốt vừa Độ xác việc rút trích văn điều quan trọng Nhóm tác giả Kirill Safronov [1] cho số sai sót trình chuyển đổi thường không quan trọng trừ trường hợp rút trích số serial từ ảnh chụp, Để khắc phục tình trạng kết xuất không xác công nghệ OCR, nhiều công nghệ khác đời, tác giả A Vinutha M H [2] ứng dụng định hướng robot (Optical Character Recognition Based Auto Navigation of Robot) Việc định hướng robot dựa vào bảng tính hiệu cột mốc đánh dấu đường robot Định hướng tự động robot vùng lớn đòi hỏi nhiều bảng tín hiệu khác với mô hình nhận dạng Ngoài ra, hệ thống cho phép nhận diện vị trí tên riêng Bên cạnh việc cải thiện độ xác, cần có thay đổi kích thước thiết bị nhận dạng, tác giả Ali Ahmadi [3] đề cập nghiên cứu mình, tốc độ xử lý độ xác cao yêu cầu lớn thiết bị nhận dạng ký tự dạng nhỏ, ví dụ bút biết nhận dạng Nhưng dù có nhiều mặt hàng loại chào bán thị trường không đáp ứng nhu cầu sử dụng kích thước thiết bị Ngoài đa dạng cách thức nhận dạng, OCR đa dạng cách dùng, chia thành hai cách, dùng online dùng offline, tác giả Priya Sharma [4] có nhận xét hai cách dùng sau: (1) Nhận dạng offline: nhận dạng văn in giấy viết tay đòi hỏi trình scan mặt giấy mặt vật liệu có chữ Cách thường đòi hỏi người phải thực số thao tác phân loại, lưu trữ chỉnh sửa văn trước scan (2) Nhận dạng online: thường dùng cho nhận dạng chữ viết tay lưu trữ dạng kỹ thuật số, thông thường để scan dạng thường dùng loại bút đặc biệt thành công nghiên cứu gần mà có thiết bị khác thay Việc nhận dạng online nhằm giúp người giao tiếp với máy tính tốt cách viết tay thay gõ phím 42 Trong báo này, tìm hiểu công cụ OCR điển hình tảng quan trọng, Tesseract Rút trích văn từ tập tin hình ảnh với Tesseract 3.1 Giới thiệu Tesseract Tesseract công cụ OCR mã nguồn mở nghiên cứu phát triển HP giai đoạn 1984-1994 Nó biết phần mềm thêm vào cho dòng sản phẩm máy quét HP Trong giai đoạn này, sơ khai dùng để cải thiện chất lượng in Nó phát triển năm 1994 ngưng Sau cải thiện độ xác, HP đưa vào kiểm tra thường niên độ xác công cụ OCR thể vượt trội Kể từ năm 2006, cải thiện rộng rãi Google Tesseract hoạt động Linux, Windows (với VC + + Express Cygwin) Mac OSX Chúng ta tải địa http://code.google.com/p/tesseract-ocr 3.2 Cấu trúc Tesseract Hình Cấu trúc Tesseract Tạo ngưỡng thích nghi giúp loại bỏ yếu tố hình ảnh (ví dụ ánh sáng, bóng,…) giúp phân tích pixel thành ảnh nhị phân Nhận dạng tiến hành qua trình với hai lần nhận dạng Lần thứ nhất: nhận từ Mỗi từ có nghĩa đạt yêu cầu thông qua lưu vào liệu Lần thứ hai, phân loại thích ứng, công cụ nhận dạng lại từ không nhận dạng tốt lần trước 3.3 Xác định dòng từ 43 Xác định dòng Mục đích bước nhận dạng dòng hình ảnh bị nghiêng, giúp giảm thông tin nhận dạng ảnh nghiêng Các phận quan trọng trình lọc dãy màu (còn gọi blobs) xây dựng dòng Bước giúp loại bỏ văn có dropcap Thiết lập dòng sở Khi dòng văn tìm thấy, dòng sở thiết lập xác cách sử dụng đường có tên spline toàn phương (là dòng mà kết hợp từ nhiều đoạn) Nó giúp Tesseract xử lý trang có đường sở đường cong Các dòng sở thiết lập cách phân vùng blobs thành nhóm thay thích hợp liên tục đường sở thẳng ban đầu Một spline toàn phương thiết lập cho phân vùng dày đặc nhất, (giả định đường sở) hình có phương Spline có lợi tính toán ổn định, nhược điểm gián đoạn xảy nhiều phân đoạn spline yêu cầu Hình Ví dụ đường sở dạng cong Cắt nhỏ từ Tesseract xác định xem có ký tự dính với từ hay không Nếu có cắt nhỏ ký tự thành ký tự riêng lẻ Hình Ví dụ cắt ký tự bị dính Nhận dạng khoảng cách chữ số Xác định khoảng cách số chữ vấn đề phức tạp Tesseract giải vấn đề cách đo khoảng cách phạm vi hạn chế theo chiều dọc dòng sở dòng trung bình Nhận dạng từ Quá trình nhận dạng từ trình phân tích từ chia thành ký tự 44 Hình Quá trình nhận dạng từ Khi kết xuất từ mà không thỏa mãn nhu cầu Teseract cố gắng cải thiện kết cách cắt nhỏ từ có nghĩa không tốt Nếu việc cắt nhỏ không làm tăng chất lượng từ phục hồi lại từ trước Một số thử nghiệm Chúng tiến hành thử nghiệm ba loại hình ảnh: Hình chụp từ chữ viết tay (1), hình chụp từ chữ đánh máy (2) hình từ tập tin pdf (3) Hình chữ viết tay Hình Một ví dụ hình chứa chữ viết tay - Kết quả: JUDA$ PRIEST 775758 HOLA DIEGO 12312 387945 45 - Tỉ lệ sai: 1/33 chiếm 3,03% Hình chữ đánh máy Hình Một ví dụ hình chứa chữ đánh máy - Kết quả: ESTA67 ES767 UNA4567 PRU EBA5887 - Tỉ lệ sai: 1/28 chiếm 3,57% Hình ảnh tập tin.pdf Hình Một ví dụ hình dạng pdf - Kết quả: PREFACE This book is now In "5 mm edllmn Eden edmon has cormsponded In a d|f— teaenr phase rn me way camplllnt networks were used When the firs! edman ap peared in man networks weae an academic cum: Iy When me second edmorr appeared In 1933 networks were used by unlvcrslues and large businesses When lhe nrrrd ednmn appeared in 1995, compuler networks especially lhe Inrer-rrer, had become a duly reamy rar mrnmna cl penplc By lhe rrnrrnr edllmn in 2003 wu':— less nclwmks and mohllc compumeus had become commonplace for accessing rhe Web and me unerrrer Now, In [he mun edllkm, networks are about content 46 u1bullan(espeda.I|y videos using cum and pecuopccr networks) and mobile phones are small mmpulers on the xnrerner - Tỉ lệ sai 50% so với văn gốc Văn dài độ xác giảm dần Kết luận Trong viết này, giới thiệu công cụ OCR với mã nguồn mở - Tesseract Công cụ dùng để nhận dạng kí tự tập tin hình chuyển kí tự thành tập tin thành văn Bên cạnh ưu điểm vượt trội mình, Tesseract có số hạn chế nhầm lẫn chữ hoa chữ thường, nhầm lẫn kí tự có hình dáng tương tự, từ sai ngữ cảnh Hướng tiếp theo, tiếp tục nghiên cứu để nâng cao chất lượng cho toán rút trích văn tiếng Anh từ tập tin hình ảnh, đồng thời bắt đầu nghiên cứu rút trích văn cho tiếng Việt có dấu TÀI LIỆU THAM KHẢO Kirill Safronov: Optical Character Recognition Using Optimisation Algorithms Institute for Process Control and Robotics (IPR) University of Karlsruhe Karlsruhe, Germany (2007) Vinutha MH, Sweatha KN and Sreepriya Kurup: Optical Character Recognition Based Auto Navigation of Robot (2013) Ali Ahmadi, Yoshinori Shirakawa, Md.Anwarul Abedin, Kazuhiro Takemura, Kazuhiro Kamimura, Hans Jürgen Mattausch, and Tetsushi Koide: Real-time Character Reconition System Using Associative Memory Base Hardware, Japan Priya Sharm, Randhir Singh: Performance of English Character Recognition with and without Noise, India (2013) 47 ... tiếp với máy tính tốt cách viết tay thay gõ phím 42 Trong báo này, tìm hiểu công cụ OCR điển hình tảng quan trọng, Tesseract Rút trích văn từ tập tin hình ảnh với Tesseract 3.1 Giới thiệu Tesseract. .. cho tài liệu Việc cần công nghệ lấy từ ngữ từ hình ảnh chụp Trong báo này, tìm hiểu, chỉnh sửa công cụ Tesseract để thực việc rút trích văn từ tập tin hình ảnh Bài báo trình bày sau: Phần 2, trình... chất lượng từ phục hồi lại từ trước Một số thử nghiệm Chúng tiến hành thử nghiệm ba loại hình ảnh: Hình chụp từ chữ viết tay (1), hình chụp từ chữ đánh máy (2) hình từ tập tin pdf (3) Hình chữ