Kiến trúc và hoạt động

3 Chương : NHẬN DẠNG KÝ TỰ QUANG HỌC

3.2.2 Kiến trúc và hoạt động

Vì HP phát triển độc lập công nghệ phân tích bố cục trang và đã được sử dụng trong các sản phẩm, (và do đó không phát hành cho mã nguồn mở) nên Tesseract không cần có bộ phân tích bố cục trang. Tesseract do đó giả định đầu vào là một

ảnh màu hoặc ảnh mức xám với các vùng văn bản đa giác tùy chọn được xác định. Xử lý theo một quy trình đường ống từng bước truyền thống như trong hình 3.2 [9]. Đầu vào của bộ nhận dạng Tesseract là ảnh mức xám hoặc ảnh màu chứa các vùng văn bản.

Bước đầu tiên là phân ngưỡng thích ứng (adaptive threshold) để cho ra ảnh nhị

phân. Bộ nhận dạng Tesseract ban đầu chỉ nhận dạng ảnh nhị phân. Về sau, Tesseact được mở rộng để nhận dạng ảnh màu và ảnh mức xám. Vì vậy cần có bước phân ngưỡng này để chuyển ảnh màu hay ảnh mức xám sang dạng nhị phân.

Bước thứ hai là phân tích thành phần liên thông (hay còn gọi là phân tích bố

cục ảnh) với đầu vào là ảnh nhị phân và kết quả thu được là các đường bao ký tự

trong các vùng văn bản.

Bước thứ ba là tìm kiếm các hàng văn bản và các từ. Kết quả của bước thứ ba là các từ cùng với đường bao quanh các tương ứng.

Hình 3.2: Kiến trúc cơ bản của bộ nhận dạng Tesseract

Bước thứ tư là nhận dạng từ. Bước nhận dạng từđược xử lý qua 2 pha. Trong pha đầu tiên, Tesseract thực hiện nhận dạng mỗi từ trong một lượt. Các từ đạt yêu cầu được chuyển tới bộ phân lớp thích ứng như là dữ liệu huấn luyện. Bộ phân lớp thích ứng sau đó sẽ nhận dạng văn bản chính xác hơn ở phần sau của trang.

Vì bộ phân lớp thích ứng học được tri thức hữu ích sau khi nhận dạng phần trên của trang nên Tesseract cần có pha thứ hai để nhận dạng lại những từ chưa

được nhận dạng tốt ở pha nhận dạng thứ nhất.

Đầu ra cuối cùng của bộ nhận dạng Tesseract là dạng văn bản của các vùng

ảnh văn bản.

Chuyển đổi định dạng ảnh

Một số công cụ OCR miễn phí