Rút trích văn bản từ tập tin hình ảnh tesseract

Besides, we also learn and adjust the Tesseract, an open source tool, to perform extracting English texts from the image file.. Initial test results show that this tool quite extracted[r]

(1)

RÚT TRÍCH VĂN BN T8 T9P TIN HÌNH NH V;I TESSERACT

TRN THANH PHƯC TRN THANH PHƯC TRN THANH PHƯC TRN THANH PHƯC

Khoa Công ngh Thông tin – Trng ðHCN Thc phm Tp.HCM

TÓM T TÓM TTÓM T TÓM TTTTT

Rút trích văn từ tập tin hình ảnh tốn quan trọng

trong xử l ý ảnh Trong báo này, chúng tơi bước đầu tìm hiểu phương pháp

trích lọc văn từ hình ảnh số cơng trình liên quan đồng thời tìm hiểu, hiệu

chỉnh cơng cụ mã nguồn mở Tesseract để thực trích lọc văn tiếng Anh từ tập tin

hình ảnh Kết thử nghiệm bước đầu cho thấy cơng cụ rút trích tốt văn

từ tập tin hình ảnh chứa văn đánh máy

Từ khóa: Rút trích văn bản, tập tin hình ảnh, Tesseract

EXTRACTING TEXT FROM IMAGE FILES USING TESSERACT ABSTRACT

ABSTRACTABSTRACT ABSTRACT

Extracting text from the image file is one of the important problems in image processing In this paper, we initially study the methods of text extracting from images from a number of related works Besides, we also learn and adjust the Tesseract, an open source tool, to perform extracting English texts from the image file Initial test results show that this tool quite extracted the text from the image file containing the typed text

Key words: Extracting text, image files, tesseract 1

1 1

1 Gii thiuGii thiuGii thiu Gii thiu

Hiện nay, nhu cầu việc rút trích từ ngữ từ hình ảnh ngày phát triển, bên

cạnh gia tăng nhu cầu phát triển công nghệ nhận dạng ký tự quang học

(Optical Character Recognition) hay gọi tắt OCR Đây công nghệ giúp

chuyển đổi hình ảnh chữ viết tay đánh máy thành ký tựđã mã hóa

máy tính

Giả sử cần chỉnh sửa số tài liệu giấy như: Các viết tạp chí, tờ

rơi, tập tin PDF hình ảnh Rõ ràng, sử dụng máy quét để

chuyển tài liệu thành tập tin văn để chỉnh sửa (ví dụ trình soạn thảo

Microsoft Word) Tất máy qt làm tạo hình ảnh

chụp tài liệu Để giải nén sử dụng lại liệu từ tài liệu quét, hình ảnh máy ảnh hình ảnh tập tin PDF, cần phần mềm OCR Nó xuất kí

tự hình ảnh, ghép chúng thành từ sau ghép từ thành câu Nhờ vậy,

(2)

Tương tự, tài liệu cổ bị hư hại theo thời gian việc viết tay hay đánh

máy lại tài liệu tốn nhiều chi phí, thời gian khơng đảm bảo độ

chính xác an toàn cho tài liệu Việc cần công nghệ lấy từ

ngữ từ hình ảnh chụp

Trong báo này, chúng tơi tìm hiểu, chỉnh sửa cơng cụ Tesseract để thực

việc rút trích văn từ tập tin hình ảnh Bài báo trình bày sau: Phần 2,

chúng tơi trình bày cơng trình liên quan đến việc rút trích văn Ở phần 3, chúng

tơi trình bày cơng cụ Tesseract cách rút trích văn cơng cụ Phần

thử nghiệm sẽđược chúng tơi trình bày phần phần trình bày kết luận 2

2 2

2 Cơng trình liên quanCơng trình liên quanCơng trình liên quan Cơng trình liên quan

Có nhiều phương pháp để tạo phần mềm dạng OCR, độ xác

phương pháp phụ thuộc vào công nghệ tạo nên phần mềm Các phương pháp đạt độ tin cậy hình ảnh có chất lượng tốt vừa

Độ xác việc rút trích văn điều quan trọng Nhóm tác giả Kirill

Safronov [1] cho số sai sót q trình chuyển đổi thường khơng q quan

trọng trừ trường hợp rút trích số serial từảnh chụp,

Để khắc phục tình trạng kết xuất khơng xác cơng nghệ OCR, nhiều

công nghệ khác đời, tác giả A Vinutha M H [2] ứng dụng định hướng robot

(Optical Character Recognition Based Auto Navigation of Robot) Việc định hướng

robot dựa vào bảng tính hiệu cột mốc đánh dấu đường robot Định hướng tự động robot vùng lớn đòi hỏi nhiều bảng tín hiệu khác

nhau với mơ hình nhận dạng Ngồi ra, hệ thống cịn cho phép nhận diện vị

trí tên riêng

Bên cạnh việc cải thiện độ xác, cần có thay đổi kích thước thiết bị nhận

dạng, tác giả Ali Ahmadi [3] đề cập nghiên cứu mình, tốc độ xử lý độ

chính xác cao yêu cầu lớn thiết bị nhận dạng ký tự dạng nhỏ, ví dụ

bút biết nhận dạng Nhưng dù có nhiều mặt hàng loại chào bán thị trường

nhưng khơng đáp ứng nhu cầu sử dụng kích thước thiết bị

Ngồi đa dạng cách thức nhận dạng, OCR đa dạng cách dùng, chia thành hai cách, dùng online dùng offline, tác giả Priya Sharma [4] có nhận

xét hai cách dùng sau: (1) Nhận dạng offline: nhận dạng văn in giấy

hoặc viết tay địi hỏi q trình scan mặt giấy mặt vật liệu có chữ

Cách thường địi hỏi người phải thực số thao tác phân loại, lưu trữ

và chỉnh sửa văn trước scan (2) Nhận dạng online: thường dùng cho

nhận dạng chữ viết tay lưu trữ dạng kỹ thuật số, thông thường để scan dạng

chúng ta thường dùng loại bút đặc biệt thành công nghiên cứu

gần mà có thiết bị khác thay Việc nhận dạng online nhằm giúp

người giao tiếp với máy tính tốt cách viết tay thay gõ phím

Trong báo này, tìm hiểu cơng cụ OCR điển hình

(3)

3 3 3

3 Rút trích văn b6n t tBp tin hình 6nh vi Tesseract Rút trích văn b6n t tBp tin hình 6nh vi Tesseract Rút trích văn b6n t tBp tin hình 6nh vi Tesseract Rút trích văn b6n t tBp tin hình 6nh vi Tesseract 3.1 GiJi thi7u Tesseract

3.1 GiJi thi7u Tesseract 3.1 GiJi thi7u Tesseract 3.1 GiJi thi7u Tesseract

Tesseract công cụ OCR mã nguồn mởđược nghiên cứu phát triển HP

trong giai đoạn 1984-1994 Nó biết phần mềm thêm vào cho dòng sản

phẩm máy quét HP Trong giai đoạn này, sơ khai chỉđược dùng để

cải thiện chất lượng in Nó phát triển năm 1994 ngưng Sau

khi cải thiện độ xác, HP đưa vào kiểm tra thường niên độ

chính xác cơng cụ OCR thể vượt trội Kể từ năm

2006, cải thiện rộng rãi Google

Tesseract hoạt động Linux, Windows (với VC + + Express Cygwin)

Mac OSX Chúng ta tải địa chỉhttp://code.google.com/p/tesseract-ocr 3.2 C$u trúc c*a Tesseract

3.2 C$u trúc c*a Tesseract 3.2 C$u trúc c*a Tesseract 3.2 C$u trúc c*a Tesseract

Hình Hình Hình

Hình 1 C/u trúc cga Tesseract

Tạo ngưỡng thích nghi giúp loại bỏ yếu tố hình ảnh (ví dụ ánh sáng,

bóng,…) giúp phân tích pixel thành ảnh nhị phân

Nhận dạng tiến hành qua trình với hai lần nhận dạng Lần thứ nhất:

nhận từ Mỗi từ có nghĩa đạt yêu cầu thông qua lưu vào

dữ liệu Lần thứ hai, phân loại thích ứng, công cụ nhận dạng lại từ không

nhận dạng tốt lần trước 3.3

3.3 3.3

3.3 Xác đnh dịng tNXác ñnh dòng tNXác ñnh dòng tN Xác ñnh dịng tN Xác định dịng

Mục đích bước nhận dạng dòng hình ảnh bị nghiêng, giúp

(4)

này lọc dãy màu (còn gọi blobs) xây dựng dòng Bước giúp loại bỏ

các văn có drop-cap Thiết lập dịng sở

Khi dịng văn tìm thấy, dịng sởđược thiết lập xác

cách sử dụng đường có tên spline tồn phương (là dịng mà kết hợp từ nhiều đoạn) Nó giúp Tesseract xử lý trang có đường sở đường cong

Các dòng sởđược thiết lập cách phân vùng blobs thành nhóm

thay thích hợp liên tục đường sở thẳng ban đầu Một spline toàn phương

thiết lập cho phân vùng dày đặc nhất, (giảđịnh đường sở) hình có phương

nhất Spline có lợi tính tốn ổn định, nhược điểm gián đoạn xảy

nhiều phân đoạn spline yêu cầu

Hình Hình Hình

Hình Ví d# v$ mt đư[ng s dZng cong

Cắt nhỏ từ

Tesseract xác định xem có ký tự dính với từ hay khơng Nếu

có cắt nhỏ ký tự thành ký tự riêng lẻ

Hình

Hình 3.Hình

Hình Ví d# v$ ct ký t> bf dính

Nhận dạng khoảng cách chữ số

Xác định khoảng cách số chữ vấn đề phức tạp

Tesseract giải vấn đề cách đo khoảng cách phạm vi hạn

chế theo chiều dọc dịng sở dịng trung bình Nhận dạng từ

Quá trình nhận dạng từ trình phân tích từđược chia thành ký

(5)

Hình Hình Hình

Hình Quá trình nhBn dZng t

Khi kết xuất từ mà khơng thỏa mãn nhu cầu Teseract cố gắng cải

thiện kết cách cắt nhỏ từ có nghĩa không tốt Nếu việc cắt nhỏ

không làm tăng chất lượng từ phục hồi lại từ trước 4

4 4

4 Mt sN thh nghimMt sN thh nghimMt sN thh nghim Mt sN thh nghim

Chúng tiến hành thử nghiệm ba loại hình ảnh: Hình chụp từ chữ viết tay (1),

hình chụp từ chữđánh máy (2) hình từ tập tin pdf (3) Hình chữ viết tay

Hình

Hình 5.Hình

Hình Mt ví d# v$ hình cha ch@ vit tay

- Kết quả:

JUDA$ PRIEST

775758 HOLA DIEGO

(6)

Hình chữđánh máy

Hình

Hình 6.Hình

Hình Mt ví d# v$ hình cha ch@ đánh máy

- Kết quả:

ESTA67 ES767 UNA4567 PRU EBA5887 - Tỉ lệ sai: 1/28 chiếm 3,57%

Hình ảnh tập tin.pdf

Hình Hình Hình

Hình Mt ví d# v$ hình dZng pdf

- Kết quả: PREFACE

This book is now In "5 mm edllmn Eden edmon has cormsponded In a d|f— teaenr phase rn me way camplllnt networks were used When the firs! edman ap peared in man networks weae an academic cum: Iy When me second edmorr appeared In 1933 networks were used by unlvcrslues and large businesses When lhe nrrrd ednmn appeared in 1995, compuler networks especially lhe Inrer-rrer, had

become a duly reamy rar mrnmna cl penplc By lhe rrnrrnr edllmn in 2003 wu':— less nclwmks and mohllc compumeus had become commonplace for accessing rhe Web and me unerrrer Now, In [he mun edllkm, networks are about content

(7)

- Tỉ lệ sai 50% so với văn gốc Văn dài độ xác giảm

dần 5 5 5

5 Kt luBnKt luBnKt luBn Kt luBn

Trong viết này, giới thiệu công cụ OCR với mã nguồn mở -

Tesseract Cơng cụ dùng để nhận dạng kí tự tập tin hình chuyển kí tự thành

tập tin thành văn Bên cạnh ưu điểm vượt trội mình, Tesseract có

số hạn chế nhầm lẫn chữ hoa chữ thường, nhầm lẫn kí tự có

hình dáng tương tự, từ sai ngữ cảnh

Hướng tiếp theo, tiếp tục nghiên cứu để nâng cao chất lượng cho

tốn rút trích văn tiếng Anh từ tập tin hình ảnh, đồng thời bắt đầu nghiên cứu rút trích

văn cho tiếng Việt có dấu

TÀI LIU THAM KHO

1 Kirill Safronov: Optical Character Recognition Using Optimisation Algorithms Institute for Process Control and Robotics (IPR) University of Karlsruhe Karlsruhe, Germany (2007)

2 Vinutha MH, Sweatha KN and Sreepriya Kurup: Optical Character Recognition Based Auto Navigation of Robot (2013)

3 Ali Ahmadi, Yoshinori Shirakawa, Md.Anwarul Abedin, Kazuhiro Takemura, Kazuhiro Kamimura, Hans Jürgen Mattausch, and Tetsushi Koide: Real-time Character Reconition System Using Associative Memory Base Hardware, Japan

Định dạng
Số trang	7
Dung lượng	451,35 KB