Hình 3 .1 Ảnh thu nhận và ảnh mong muốn
Hình 3. 3 Mơ hình Tesseract tiếng Việt
Với mơ hình Tesseract OCR tiếng Việt tn theo từng bước truyền thống xử lý đường ống. Các bước đó là:
- Ngưỡng thích ứng (Adaptive Thresholding): Nó chuyển đổi hình ảnh thành ảnh
nhị phân.
- Phân tích thành phần được kết nối (connected component analysis): Nó được
sử dụng để trích xuất dàn ý nhân vật. Phương pháp này là rất hữu ích vì nó áp dụng OCR cho hình ảnh với văn bản trắng và đen lai lịch. Tesseract có lẽ là đầu tiên để cung cấp loại xử lý này.
34
Hình 3. 4: Tiến trình tạo ra các blobs
Ở giai đoạn này, các phác thảo được tập hợp lại với nhau, hoàn toàn bằng cách lồng vào nhau, thành các Blobs .
Các khối được tổ chức thành các dòng văn bản. Dịng và các khu vực được phân tích cho một số cao độ hoặc văn bản tỷ lệ. Văn bản được chia thành các từ sử dụng khoảng trắng xác định và mờ các khoảng trắng.
Hình 3. 5: Tiến trình nhận dạng ký tự
- Tiến hành nhận dạng hai lần:
• Trong lần nhận dạng từ đầu tiên (Recognize word (pass 1)), một nỗ lực
được thực hiện để lần lượt nhận ra từng từ. Mỗi từ đó là sự vượt qua thỏa đáng để thích nghi phân loại làm dữ liệu đào tạo. Sau đó, trình phân loại thích ứng có cơ hội để nhiều hơn nhận dạng chính xác văn bản từ dưới xuống trang.
• Trong lần nhận dạng từ thứ hai (Recognize word (pass 2)), sự thích nghi
trình phân loại chạy qua trang để nhận dạng những từ không đủ tốt được công nhận trong lần vượt qua đầu tiên. Một trận chung kết giai đoạn giải quyết các không gian mờ và kiểm tra các giả thuyết thay thế cho chiều cao x để định vị văn bản smallcap.
Sau khi đạt được kết quả của bước một nhận dạng văn bản hình ảnh tiếng Ba Na qua mơ hình tesseract tiếng Việt. Ta phát hiện có rất nhiều kí tự bị thay đổi so với những
35
kí tự dữ liệu ban đầu theo một hướng logic. Tư đây, tơi đã sử dụng thuật tốn Heuristic để thực hiện sửa lỗi những kí tự đó.