Besides, we also learn and adjust the Tesseract, an open source tool, to perform extracting English texts from the image file.. Initial test results show that this tool quite extracted[r]
(1)RÚT TRÍCH VĂN BN T8 T9P TIN HÌNH NH V;I TESSERACT
TRN THANH PHƯC TRN THANH PHƯC TRN THANH PHƯC TRN THANH PHƯC
Khoa Công ngh Thông tin – Trng ðHCN Thc phm Tp.HCM
TÓM T TÓM TTÓM T TÓM TTTTT
Rút trích văn từ tập tin hình ảnh tốn quan trọng
trong xử l ý ảnh Trong báo này, chúng tơi bước đầu tìm hiểu phương pháp
trích lọc văn từ hình ảnh số cơng trình liên quan đồng thời tìm hiểu, hiệu
chỉnh cơng cụ mã nguồn mở Tesseract để thực trích lọc văn tiếng Anh từ tập tin
hình ảnh Kết thử nghiệm bước đầu cho thấy cơng cụ rút trích tốt văn
từ tập tin hình ảnh chứa văn đánh máy
Từ khóa: Rút trích văn bản, tập tin hình ảnh, Tesseract
EXTRACTING TEXT FROM IMAGE FILES USING TESSERACT ABSTRACT
ABSTRACTABSTRACT ABSTRACT
Extracting text from the image file is one of the important problems in image processing In this paper, we initially study the methods of text extracting from images from a number of related works Besides, we also learn and adjust the Tesseract, an open source tool, to perform extracting English texts from the image file Initial test results show that this tool quite extracted the text from the image file containing the typed text
Key words: Extracting text, image files, tesseract 1
1 1
1 Gii thiuGii thiuGii thiu Gii thiu
Hiện nay, nhu cầu việc rút trích từ ngữ từ hình ảnh ngày phát triển, bên
cạnh gia tăng nhu cầu phát triển công nghệ nhận dạng ký tự quang học
(Optical Character Recognition) hay gọi tắt OCR Đây công nghệ giúp
chuyển đổi hình ảnh chữ viết tay đánh máy thành ký tựđã mã hóa
máy tính
Giả sử cần chỉnh sửa số tài liệu giấy như: Các viết tạp chí, tờ
rơi, tập tin PDF hình ảnh Rõ ràng, sử dụng máy quét để
chuyển tài liệu thành tập tin văn để chỉnh sửa (ví dụ trình soạn thảo
Microsoft Word) Tất máy qt làm tạo hình ảnh
chụp tài liệu Để giải nén sử dụng lại liệu từ tài liệu quét, hình ảnh máy ảnh hình ảnh tập tin PDF, cần phần mềm OCR Nó xuất kí
tự hình ảnh, ghép chúng thành từ sau ghép từ thành câu Nhờ vậy,
(2)Tương tự, tài liệu cổ bị hư hại theo thời gian việc viết tay hay đánh
máy lại tài liệu tốn nhiều chi phí, thời gian khơng đảm bảo độ
chính xác an toàn cho tài liệu Việc cần công nghệ lấy từ
ngữ từ hình ảnh chụp
Trong báo này, chúng tơi tìm hiểu, chỉnh sửa cơng cụ Tesseract để thực
việc rút trích văn từ tập tin hình ảnh Bài báo trình bày sau: Phần 2,
chúng tơi trình bày cơng trình liên quan đến việc rút trích văn Ở phần 3, chúng
tơi trình bày cơng cụ Tesseract cách rút trích văn cơng cụ Phần
thử nghiệm sẽđược chúng tơi trình bày phần phần trình bày kết luận 2
2 2
2 Cơng trình liên quanCơng trình liên quanCơng trình liên quan Cơng trình liên quan
Có nhiều phương pháp để tạo phần mềm dạng OCR, độ xác
phương pháp phụ thuộc vào công nghệ tạo nên phần mềm Các phương pháp đạt độ tin cậy hình ảnh có chất lượng tốt vừa
Độ xác việc rút trích văn điều quan trọng Nhóm tác giả Kirill
Safronov [1] cho số sai sót q trình chuyển đổi thường khơng q quan
trọng trừ trường hợp rút trích số serial từảnh chụp,
Để khắc phục tình trạng kết xuất khơng xác cơng nghệ OCR, nhiều
công nghệ khác đời, tác giả A Vinutha M H [2] ứng dụng định hướng robot
(Optical Character Recognition Based Auto Navigation of Robot) Việc định hướng
robot dựa vào bảng tính hiệu cột mốc đánh dấu đường robot Định hướng tự động robot vùng lớn đòi hỏi nhiều bảng tín hiệu khác
nhau với mơ hình nhận dạng Ngồi ra, hệ thống cịn cho phép nhận diện vị
trí tên riêng
Bên cạnh việc cải thiện độ xác, cần có thay đổi kích thước thiết bị nhận
dạng, tác giả Ali Ahmadi [3] đề cập nghiên cứu mình, tốc độ xử lý độ
chính xác cao yêu cầu lớn thiết bị nhận dạng ký tự dạng nhỏ, ví dụ
bút biết nhận dạng Nhưng dù có nhiều mặt hàng loại chào bán thị trường
nhưng khơng đáp ứng nhu cầu sử dụng kích thước thiết bị
Ngồi đa dạng cách thức nhận dạng, OCR đa dạng cách dùng, chia thành hai cách, dùng online dùng offline, tác giả Priya Sharma [4] có nhận
xét hai cách dùng sau: (1) Nhận dạng offline: nhận dạng văn in giấy
hoặc viết tay địi hỏi q trình scan mặt giấy mặt vật liệu có chữ
Cách thường địi hỏi người phải thực số thao tác phân loại, lưu trữ
và chỉnh sửa văn trước scan (2) Nhận dạng online: thường dùng cho
nhận dạng chữ viết tay lưu trữ dạng kỹ thuật số, thông thường để scan dạng
chúng ta thường dùng loại bút đặc biệt thành công nghiên cứu
gần mà có thiết bị khác thay Việc nhận dạng online nhằm giúp
người giao tiếp với máy tính tốt cách viết tay thay gõ phím
Trong báo này, tìm hiểu cơng cụ OCR điển hình
(3)3 3 3
3 Rút trích văn b6n t tBp tin hình 6nh vi Tesseract Rút trích văn b6n t tBp tin hình 6nh vi Tesseract Rút trích văn b6n t tBp tin hình 6nh vi Tesseract Rút trích văn b6n t tBp tin hình 6nh vi Tesseract 3.1 GiJi thi7u Tesseract
3.1 GiJi thi7u Tesseract 3.1 GiJi thi7u Tesseract 3.1 GiJi thi7u Tesseract
Tesseract công cụ OCR mã nguồn mởđược nghiên cứu phát triển HP
trong giai đoạn 1984-1994 Nó biết phần mềm thêm vào cho dòng sản
phẩm máy quét HP Trong giai đoạn này, sơ khai chỉđược dùng để
cải thiện chất lượng in Nó phát triển năm 1994 ngưng Sau
khi cải thiện độ xác, HP đưa vào kiểm tra thường niên độ
chính xác cơng cụ OCR thể vượt trội Kể từ năm
2006, cải thiện rộng rãi Google
Tesseract hoạt động Linux, Windows (với VC + + Express Cygwin)
Mac OSX Chúng ta tải địa chỉhttp://code.google.com/p/tesseract-ocr 3.2 C$u trúc c*a Tesseract
3.2 C$u trúc c*a Tesseract 3.2 C$u trúc c*a Tesseract 3.2 C$u trúc c*a Tesseract
Hình Hình Hình
Hình 1 C/u trúc cga Tesseract
Tạo ngưỡng thích nghi giúp loại bỏ yếu tố hình ảnh (ví dụ ánh sáng,
bóng,…) giúp phân tích pixel thành ảnh nhị phân
Nhận dạng tiến hành qua trình với hai lần nhận dạng Lần thứ nhất:
nhận từ Mỗi từ có nghĩa đạt yêu cầu thông qua lưu vào
dữ liệu Lần thứ hai, phân loại thích ứng, công cụ nhận dạng lại từ không
nhận dạng tốt lần trước 3.3
3.3 3.3
3.3 Xác đnh dịng tNXác ñnh dòng tNXác ñnh dòng tN Xác ñnh dịng tN Xác định dịng
Mục đích bước nhận dạng dòng hình ảnh bị nghiêng, giúp
(4)này lọc dãy màu (còn gọi blobs) xây dựng dòng Bước giúp loại bỏ
các văn có drop-cap Thiết lập dịng sở
Khi dịng văn tìm thấy, dịng sởđược thiết lập xác
cách sử dụng đường có tên spline tồn phương (là dịng mà kết hợp từ nhiều đoạn) Nó giúp Tesseract xử lý trang có đường sở đường cong
Các dòng sởđược thiết lập cách phân vùng blobs thành nhóm
thay thích hợp liên tục đường sở thẳng ban đầu Một spline toàn phương
thiết lập cho phân vùng dày đặc nhất, (giảđịnh đường sở) hình có phương
nhất Spline có lợi tính tốn ổn định, nhược điểm gián đoạn xảy
nhiều phân đoạn spline yêu cầu
Hình Hình Hình
Hình Ví d# v$ mt đư[ng s dZng cong
Cắt nhỏ từ
Tesseract xác định xem có ký tự dính với từ hay khơng Nếu
có cắt nhỏ ký tự thành ký tự riêng lẻ
Hình
Hình 3.Hình
Hình Ví d# v$ ct ký t> bf dính
Nhận dạng khoảng cách chữ số
Xác định khoảng cách số chữ vấn đề phức tạp
Tesseract giải vấn đề cách đo khoảng cách phạm vi hạn
chế theo chiều dọc dịng sở dịng trung bình Nhận dạng từ
Quá trình nhận dạng từ trình phân tích từđược chia thành ký
(5)Hình Hình Hình
Hình Quá trình nhBn dZng t
Khi kết xuất từ mà khơng thỏa mãn nhu cầu Teseract cố gắng cải
thiện kết cách cắt nhỏ từ có nghĩa không tốt Nếu việc cắt nhỏ
không làm tăng chất lượng từ phục hồi lại từ trước 4
4 4
4 Mt sN thh nghimMt sN thh nghimMt sN thh nghim Mt sN thh nghim
Chúng tiến hành thử nghiệm ba loại hình ảnh: Hình chụp từ chữ viết tay (1),
hình chụp từ chữđánh máy (2) hình từ tập tin pdf (3) Hình chữ viết tay
Hình
Hình 5.Hình
Hình Mt ví d# v$ hình cha ch@ vit tay
- Kết quả:
JUDA$ PRIEST
775758 HOLA DIEGO
(6)Hình chữđánh máy
Hình
Hình 6.Hình
Hình Mt ví d# v$ hình cha ch@ đánh máy
- Kết quả:
ESTA67 ES767 UNA4567 PRU EBA5887 - Tỉ lệ sai: 1/28 chiếm 3,57%
Hình ảnh tập tin.pdf
Hình Hình Hình
Hình Mt ví d# v$ hình dZng pdf
- Kết quả: PREFACE
This book is now In "5 mm edllmn Eden edmon has cormsponded In a d|f— teaenr phase rn me way camplllnt networks were used When the firs! edman ap peared in man networks weae an academic cum: Iy When me second edmorr appeared In 1933 networks were used by unlvcrslues and large businesses When lhe nrrrd ednmn appeared in 1995, compuler networks especially lhe Inrer-rrer, had
become a duly reamy rar mrnmna cl penplc By lhe rrnrrnr edllmn in 2003 wu':— less nclwmks and mohllc compumeus had become commonplace for accessing rhe Web and me unerrrer Now, In [he mun edllkm, networks are about content
(7)- Tỉ lệ sai 50% so với văn gốc Văn dài độ xác giảm
dần 5 5 5
5 Kt luBnKt luBnKt luBn Kt luBn
Trong viết này, giới thiệu công cụ OCR với mã nguồn mở -
Tesseract Cơng cụ dùng để nhận dạng kí tự tập tin hình chuyển kí tự thành
tập tin thành văn Bên cạnh ưu điểm vượt trội mình, Tesseract có
số hạn chế nhầm lẫn chữ hoa chữ thường, nhầm lẫn kí tự có
hình dáng tương tự, từ sai ngữ cảnh
Hướng tiếp theo, tiếp tục nghiên cứu để nâng cao chất lượng cho
tốn rút trích văn tiếng Anh từ tập tin hình ảnh, đồng thời bắt đầu nghiên cứu rút trích
văn cho tiếng Việt có dấu
TÀI LIU THAM KHO
1 Kirill Safronov: Optical Character Recognition Using Optimisation Algorithms Institute for Process Control and Robotics (IPR) University of Karlsruhe Karlsruhe, Germany (2007)
2 Vinutha MH, Sweatha KN and Sreepriya Kurup: Optical Character Recognition Based Auto Navigation of Robot (2013)
3 Ali Ahmadi, Yoshinori Shirakawa, Md.Anwarul Abedin, Kazuhiro Takemura, Kazuhiro Kamimura, Hans Jürgen Mattausch, and Tetsushi Koide: Real-time Character Reconition System Using Associative Memory Base Hardware, Japan