Trong bài báo này, chúng tôi bước đầu tìm hiểu các phương pháp trích lọc văn bản từ hình ảnh của một số công trình liên quan đồng thời cũng tìm hiểu, hiệu chỉnh công cụ mã nguồn mở Tesseract để thực hiện trích lọc văn bản tiếng Anh từ tập tin hình ảnh. Kết quả thử nghiệm bước đầu cho thấy công cụ này rút trích khá tốt các văn bản từ tập tin hình ảnh chứa văn bản được đánh máy.
TẠP CHÍ KHOA HỌC CƠNG NGHỆ RÚT TRÍCH VĂN B N T SỐ 02/2014 T P TIN HÌNH NH V I TESSERACT Khoa Công ngh Thông tin – Tr TR N THANH PHƯ C ng ðHCN Th c ph m Tp.HCM TĨM T T Rút trích văn từ tập tin hình ảnh mộ t toán quan trọng xử lý ảnh Trong báo này, chúng tơi bước đầu tìm hiểu phương pháp trích lọc văn từ hình ảnh số cơng trình liên quan đồng thời tìm hiểu, hiệu chỉnh công cụ mã nguồn mở Tesseract để thực trích lọc văn tiếng Anh từ tập tin hình ảnh Kết thử nghiệm bước đầu cho thấy cơng cụ rút trích tốt văn từ tập tin hình ảnh chứa văn đánh máy Từ khóa: Rút trích văn bản, tập tin hình ảnh, Tesseract EXTRACTING TEXT FROM IMAGE FILES USING TESSERACT ABSTRACT Extracting text from the image file is one of the important problems in image processing In this paper, we initially study the methods of text extracting from images from a number of related works Besides, we also learn and adjust the Tesseract, an open source tool, to perform extracting English texts from the image file Initial test results show that this tool quite extracted the text from the image file containing the typed text Key words: Extracting text, image files, tesseract Gi i thi u Hiện nay, nhu cầu việc rút trích từ ngữ từ hình ảnh ngày phát triển, bên cạnh gia tăng nhu cầu phát triển công nghệ nhận dạng ký tự quang học (Optical Character Recognition) hay gọ i tắt OCR Đây cơng nghệ giúp chuyển đổ i hình ảnh chữ viết tay đánh máy thành ký tự mã hóa máy tính Giả sử cần chỉnh sửa số tài liệu giấy như: Các viết tạp chí, tờ rơi, tập tin PDF hình ảnh Rõ ràng, khơng thể sử dụng máy quét để chuyển tài liệu thành tập tin văn để chỉnh sửa (ví dụ trình soạn thảo Microsoft Word) Tất máy qt làm tạo hình ảnh chụp tài liệu Để giải nén sử dụng lại liệu từ tài liệu quét, hình ảnh máy ảnh hình ảnh tập tin PDF, cần phần mềm OCR Nó xuất kí tự hình ảnh, ghép chúng thành từ sau ghép từ thành câu Nhờ vậy, truy cập chỉnh sửa nộ i dung tài liệu gốc 41 KHOA HỌC QUẢN LÝ Tương tự, tài liệu cổ bị hư hại theo thời gian việc viết tay hay đánh máy lại tài liệu tốn nhiều chi phí, thời gian khơng đảm bảo độ xác an toàn cho tài liệu Việc cần công nghệ lấy từ ngữ từ hình ảnh chụp Trong báo này, chúng tơi tìm hiểu, chỉnh sửa cơng cụ Tesseract để thực việc rút trích văn từ tập tin hình ảnh Bài báo trình bày sau: Phần 2, chúng tơi trình bày cơng trình liên quan đến việc rút trích văn Ở phần 3, chúng tơi trình bày cơng cụ Tesseract cách rút trích văn cơng cụ Phần thử nghiệm chúng tơi trình bày phần phần trình bày kết luận Cơng trình liên quan Có nhiều phương pháp để tạo phần mềm dạng OCR, độ xác phương pháp phụ thuộc vào công nghệ tạo nên phần mềm Các phương pháp đạt độ tin cậy hình ảnh có chất lượng tốt vừa Độ xác việc rút trích văn điều quan trọng Nhóm tác giả Kirill Safronov [1] cho số sai sót trình chuyển đổi thường khơng q quan trọng trừ trường hợp rút trích số serial từ ảnh chụp, Để khắc phục tình trạng kết xuất khơng xác cơng nghệ OCR, nhiều cơng nghệ khác đời, tác giả A Vinutha M H [2] ứng dụng định hướng robot (Optical Character Recognition Based Auto Navigation of Robot) Việc định hướng robot dựa vào bảng tính hiệu cột mốc đánh dấu đường robot Định hướng tự động robot vùng lớn đòi hỏ i nhiều bảng tín hiệu khác với mơ hình nhận dạng Ngồi ra, hệ thống cho phép nhận diện vị trí tên riêng Bên cạnh việc cải thiện độ xác, cần có thay đổ i kích thước thiết bị nhậ n dạng, tác giả Ali Ahmadi [3] đề cập nghiên cứu mình, tốc độ xử lý độ xác cao yêu cầu lớn thiết bị nhận dạng ký tự dạng nhỏ, ví dụ bút biết nhận dạng Nhưng dù có nhiều mặt hàng loại chào bán thị trường khơng đáp ứng nhu cầu sử dụng kích thước thiết bị Ngồi đa dạng cách thức nhận dạng, OCR đa dạng cách dùng, chia thành hai cách, dùng online dùng offline, tác giả Priya Sharma [4] có nhậ n xét hai cách dùng sau: (1) Nhận dạng offline: nhận dạng văn in giấ y viết tay đòi hỏ i trình scan mặt giấy mặt vật liệu có chữ Cách thường đòi hỏ i người phải thực số thao tác phân loại, lưu trữ chỉnh sửa văn trước scan (2) Nhận dạng online: thường dùng cho nhận dạng chữ viết tay lưu trữ dạng kỹ thuật số, thông thường để scan dạng thường dùng loại bút đặc biệt thành công nghiên cứu gần mà có thiết bị khác thay Việc nhận dạng online nhằm giúp người giao tiếp với máy tính tốt cách viết tay thay gõ phím Trong báo này, tìm hiểu cơng cụ OCR điển hình tảng quan trọng, Tesseract 42 TẠP CHÍ KHOA HỌC CƠNG NGHỆ SỐ 02/2014 Rút trích văn b n t t p tin hình nh v i Tesseract 3.1 Gi i thi u Tesseract Tesseract công cụ OCR mã nguồn mở nghiên cứu phát triển HP giai đoạn 1984-1994 Nó biết phần mềm thêm vào cho dòng sản phẩm máy quét HP Trong giai đoạn này, sơ khai dùng để cải thiện chất lượng in Nó phát triển năm 1994 ngưng Sau cải thiện độ xác, HP đưa vào kiểm tra thường niên độ xác cơng cụ OCR thể vượt trội Kể từ nă m 2006, cải thiện rộng rãi Google Tesseract hoạt động Linux, Windows (với VC + + Express Cygwin) Mac OSX Chúng ta tải địa http://code.google.com/p/tesseract-ocr 3.2 C u trúc c a Tesseract Hình 1 C u trúc c a Tesseract Tạo ngưỡng thích nghi giúp lo ại bỏ yếu tố hình ảnh (ví dụ ánh sáng, bóng,…) giúp phân tích pixel thành ảnh nhị phân Nhận dạng tiến hành qua trình với hai lần nhận dạng Lần thứ nhất: nhận từ Mỗi từ có nghĩa đạt yêu cầu thông qua lưu vào liệu Lần thứ hai, phân loại thích ứng, cơng cụ nhận dạng lại từ không nhận dạng tốt lần trước 3.3 Xác đ nh dòng t Xác định dòng Mục đích bước nhận dạng dòng hình ảnh bị nghiêng, giúp giảm thông tin nhận dạng ảnh nghiêng Các phận quan trọng trình 43 KHOA HỌC QUẢN LÝ lọc dãy màu (còn gọ i blobs) xây dựng dòng Bước giúp loại bỏ văn có drop-cap Thiết lập dòng sở Khi dòng văn tìm thấy, dòng sở thiết lập xác cách sử dụng đường có tên spline tồn phương (là dòng mà kết hợp từ nhiều đoạn) Nó giúp Tesseract xử lý trang có đường sở đường cong Các dòng sở thiết lập cách phân vùng blobs thành nhóm thay thích hợp liên tục đường sở thẳng ban đầu Một spline toàn phương thiết lập cho phân vùng dày đặc nhất, (giả định đường sở) hình có phương Spline có lợi tính tốn ổn định, nhược điểm gián đoạn xảy nhiều phân đoạn spline yêu cầu Hình Ví d v m t đư ng s d ng cong Cắt nhỏ từ Tesseract xác định xem có ký tự dính với từ hay khơng Nếu có cắt nhỏ ký tự thành ký tự riêng lẻ Hình Ví d v c t ký t b dính Nhận dạng khoảng cách chữ số Xác định khoảng cách số chữ vấn đề phức tạp Tesseract giải vấn đề cách đo khoảng cách phạm vi hạ n chế theo chiều dọc dòng sở dòng trung bình Nhận dạng từ Quá trình nhận dạng từ trình phân tích từ chia thành ký tự 44 TẠP CHÍ KHOA HỌC CƠNG NGHỆ SỐ 02/2014 Hình Quá trình nh n d ng t Khi kết xuất từ mà khơng thỏa mãn nhu cầu Teseract cố gắng i thiện kết cách cắt nhỏ từ có nghĩa khơng tốt Nếu việc cắt nhỏ khơng làm tăng chất lượng từ phục hồ i lại từ trước M t s th nghi m Chúng tiến hành thử nghiệm ba loại hình ảnh: Hình chụp từ chữ viết tay (1), hình chụp từ chữ đánh máy (2) hình từ tập tin pdf (3) Hình chữ viết tay Hình M t ví d v hình ch a ch vi t tay - Kết quả: JUDA$ PRIEST 775758 HOLA DIEGO 12312 387945 - Tỉ lệ sai: 1/33 chiếm 3,03% 45 KHOA HỌC QUẢN LÝ Hình chữ đánh máy Hình M t ví d v hình ch a ch ñánh máy - Kết quả: ESTA67 ES767 UNA4567 PRU EBA5887 - Tỉ lệ sai: 1/28 chiếm 3,57% Hình ảnh tập tin.pdf Hình M t ví d v hình d ng pdf - Kết quả: PREFACE This book is now In "5 mm edllmn Eden edmon has cormsponded In a d|f— teaenr phase rn me way camplllnt networks were used When the firs! edman ap peared in man networks weae an academic cum: Iy When me second edmorr appeared In 1933 networks were used by unlvcrslues and large businesses When lhe nrrrd ednmn appeared in 1995, compuler networks especially lhe Inrer-rrer, had become a duly reamy rar mrnmna cl penplc By lhe rrnrrnr edllmn in 2003 wu':— less nclwmks and mohllc compumeus had become commonplace for accessing rhe Web and me unerrrer Now, In [he mun edllkm, networks are about content u1bullan(espeda.I|y videos using cum and pecuopccr networks) and mobile phones are small mmpulers on the xnrerner 46 TẠP CHÍ KHOA HỌC CƠNG NGHỆ SỐ 02/2014 - Tỉ lệ sai 50% so với văn gốc Văn dài độ xác giả m dần K t lu n Trong viết này, giới thiệu công cụ OCR với mã nguồn mở Tesseract Cơng cụ dùng để nhận dạng kí tự tập tin hình chuyển kí tự thành tập tin thành văn Bên cạnh ưu điểm vượt trội mình, Tesseract có số hạn chế nhầm lẫn chữ hoa chữ thường, nhầm lẫn kí tự có hình dáng tương tự, từ sai ngữ cảnh Hướng tiếp theo, tiếp tục nghiên cứu để nâng cao chất lượng cho tốn rút trích văn tiếng Anh từ tập tin hình ảnh, đồng thời bắt đầu nghiên cứu rút trích văn cho tiếng Việt có dấu TÀI LI U THAM KH O Kirill Safronov: Optical Character Recognition Using Optimisation Algorithms Institute for Process Control and Robotics (IPR) University of Karlsruhe Karlsruhe, Germany (2007) Vinutha MH, Sweatha KN and Sreepriya Kurup: Optical Character Recognition Based Auto Navigation of Robot (2013) Ali Ahmadi, Yoshinori Shirakawa, Md.Anwarul Abedin, Kazuhiro Takemura, Kazuhiro Kamimura, Hans Jürgen Mattausch, and Tetsushi Koide: Real-time Character Reconition System Using Associative Memory Base Hardware, Japan Priya Sharm, Randhir Singh: Performance of English Character Recognition with and without Noise, India (2013) 47 ... tài liệu Việc cần cơng nghệ lấy từ ngữ từ hình ảnh chụp Trong báo này, chúng tơi tìm hiểu, chỉnh sửa cơng cụ Tesseract để thực việc rút trích văn từ tập tin hình ảnh Bài báo trình bày sau: Phần... hiểu cơng cụ OCR điển hình tảng quan trọng, Tesseract 42 TẠP CHÍ KHOA HỌC CƠNG NGHỆ SỐ 02/2014 Rút trích văn b n t t p tin hình nh v i Tesseract 3.1 Gi i thi u Tesseract Tesseract công cụ OCR... HỌC QUẢN LÝ Hình chữ đánh máy Hình M t ví d v hình ch a ch đánh máy - Kết quả: ESTA67 ES767 UNA4567 PRU EBA5887 - Tỉ lệ sai: 1/28 chiếm 3,57% Hình ảnh tập tin. pdf Hình M t ví d v hình d ng pdf