Hình 3 .1 Ảnh thu nhận và ảnh mong muốn
Hình 3. 3 Mơ hình Tesseract tiếng Việt
Với mơ hình Tesseract OCR tiếng Việt tn theo từng bƣớc truyền thống xử lý đƣờng ống. Các bƣớc đó là:
- Ngƣỡng thích ứng (Adaptive Thresholding): Nó chuyển đổi hình ảnh thành
ảnh nhị phân.
- Phân tích thành phần đƣợc kết nối (connected component analysis): Nó
đƣợc sử dụng để trích xuất dàn ý nhân vật. Phƣơng pháp này là rất hữu ích vì nó áp dụng OCR cho hình ảnh với văn bản trắng và đen lai lịch. Tesseract có lẽ là đầu tiên để cung cấp loại xử lý này.
52
Hình 3. 4: Tiến trình tạo ra các blobs
Ở giai đoạn này, các phác thảo đƣợc tập hợp lại với nhau, hoàn toàn bằng cách lồng vào nhau, thành các Blobs .
Các khối đƣợc tổ chức thành các dòng văn bản. Dòng và các khu vực đƣợc phân tích cho một số cao độ hoặc văn bản tỷ lệ. Văn bản đƣợc chia thành các từ sử dụng khoảng trắng xác định và mờ các khoảng trắng.
53
- Tiến hành nhận dạng hai lần:
Trong lần nhận dạng từ đầu tiên (Recognize word (pass 1)), một nỗ
lực đƣợc thực hiện để lần lƣợt nhận ra từng từ. Mỗi từ đó là sự vƣợt qua thỏa đáng để thích nghi phân loại làm dữ liệu đào tạo. Sau đó, trình phân loại thích ứng có cơ hội để nhiều hơn nhận dạng chính xác văn bản từ dƣới xuống trang.
Trong lần nhận dạng từ thứ hai (Recognize word (pass 2)), sự thích
nghi trình phân loại chạy qua trang để nhận dạng những từ không đủ tốt đƣợc công nhận trong lần vƣợt qua đầu tiên. Một trận chung kết giai đoạn giải quyết các không gian mờ và kiểm tra các giả thuyết thay thế cho chiều cao x để định vị văn bản smallcap.
Sau khi đạt đƣợc kết quả của bƣớc một nhận dạng văn bản hình ảnh tiếng Ba Na qua mơ hình tesseract tiếng Việt. Ta phát hiện có rất nhiều kí tự bị thay đổi so với những kí tự dữ liệu ban đầu theo một hƣớng logic. Tƣ đây, tôi đã sử dụng thuật toán Heuristic để thực hiện sửa lỗi những kí tự đó.