4.1.1. Tập mẫu thực nghiệm
Tesseract OCR engine có thể thực hiện OCR với nhiều định dạng tài liệu ảnh khác nhau chụp từ điện thoại như file .tiff , .jpg , .png. Việc thực nghiệm được tiến hành trên 51 ảnh name card, bao gồm 33 card tiếng Việt và 18 card, đa phần là card cũ đã qua sử dụng. Thiết bị chụp ảnh là camera 3.15MP trên điện thoại LG GT540, ảnh được chụp cẩn thận trong điều kiện ánh sáng bình thường. Do camera có độ phân giải bình thường, tầm nhìn nhỏ, bố cục name card phức tạp, nhiều vùng text có font chữ bé và đa dạng nên đã thực hiện việc chụp từng vùng text (chụp những phần thông tin riêng lẻ quan trọng như tên, địa chỉ, điện thoại) chứ không chụp toàn bộ card. Điều này giúp giảm thời gian xử lý cũng như tăng cường độ chính xác trong kết quả nhận dạng, loại bỏ những ký tự nhận dạng thừa từ những vùng ảnh không cần thiết.
4.1.2. Kết quả OCR
Hình ảnh các vùng ảnh trên name card tiêu biểu chụp từ điện thoại và kết quả OCR:
4.1.3. Nhận xét
Trong thực nghiệm chỉ thống kê và tính tỉ lệ lỗi từ trong kết quả OCR bằng cách tính số từ nhận dạng bị lỗi trên tổng số từ. Một từ gọi là bị lỗi khi có ít
nhất một ký tự trong từ bị nhận dạng sai. Do đó tỉ lệ lỗi ký tự (số ký tự nhận dạng lỗi trên tổng số ký tự) sẽ thấp hơn tỉ lệ lỗi từ.
Ví dụ với hình ảnh chụp được:
sẽ cho ra kết quả OCR sau :
CỐNG TYTNHH THƢƠNG MẠI KHÔNG GIỚI HẠN CHÁU Ả SANDY EMART 3'
Khi đó: tỉ lệ lỗi từ là 5/11 = 45,45% , tỉ lệ lỗi ký tự là 4/46= 8,69%.
Với bảng thống kê kết quả OCR ở trên, tuy có thể không đúng khi thực nghiệm trên tập ảnh khác nhưng vẫn có thể đưa ra một số nhận xét sau:
- Tesseract là một engine OCR tốt.
- Kết quả OCR trên tài liệu ảnh tiếng Anh thường tốt hơn tiếng Việt. Điều này có thể xuất phát từ một số nguyên nhân: Tesseract ban đầu được thiết kế với chỉ mục đích nhận dạng chữ tiếng Anh; chữ tiếng Anh đơn giản hơn chữ tiếng Việt; dữ liệu tập huấn cho tiếng Anh tốt hơn tiếng Việt. - Kết quả OCR trên vùng ảnh chứa số tốt hơn trên vùng ảnh chứa text.
Trong quá trình thực nghiệm, hệ thống đã thử với một số file ảnh ứng với một số ngôn ngữ khác. Kết quả cho thấy độ chính xác trên hệ ngôn ngữ Latinh tốt hơn đối với một số hệ ngôn ngữ khác như hệ chữ tượng hình (ví dụ như chữ Trung Quốc). Những ngôn ngữ có bộ chữ cái càng lớn, thời gian nhận dạng càng lâu, kết quả nhận dạng sẽ thấp nếu không tạo bộ dữ liệu đủ lớn và phong phú cho việc tập huấn.