3 Chương : NHẬN DẠNG KÝ TỰ QUANG HỌC
3.1.2 Một số công cụ OCR miễn phí
Hiện nay có rất nhiều Bộ nhận dạng ký tự quang học mã nguồn mở với độ
chính xác rất cao, do đó không cần phải viết lại Bộ nhận dạng ký tự quang học. Việc này vừa làm mất nhiều thời mà kết quả thu được khó có thể hơn bằng các Bộ
nhận dạng ký tự quang học mã nguồn mở vì các bộ nhận dạng này có một lịch sử
phát triển cũng rất dài và được phát triển bởi một cộng đồng rất đông đảo các lập trình viên có kinh nghiệm.
• Tesseract [8]: Được phát triển bởi công ty HP từ năm 1985 đến năm 1994
để ứng dụng vào máy scan trên máy tính để bàn. Tesseract có chất lượng ngang ngửa với ứng dụng Caere và XIS trong cuộc thử nghiệm của UNLV năm 1995. Tesseract trở thành mã nguồn mở vào năm 2005 và hiện đang
được phát triển dưới sự tài trợ của Google.
• GOCR10: là chương trình nhận dạng ký tự quang học được phát triển bởi Jörg Schulenburg từ năm 2002 theo giấy phép công cộng GNU (GNU Public License). Chương trình này chuyển đổi văn bản dưới dạng ảnh đã
được scan thành dạng văn bản thuần túy. GOCR có thể hoạt động trên
8 http://www.nuance.com/for-business/by-product/omnipage/index.htm 9 http://ocrnow.com 10 http://jocr.sourceforge.net
nhiều nền tảng khác nhau, điều này giúp cho việc chuyển mã sang các hệ điều hành khác nhau được dễ dàng. GOCR có thể mở nhiều định dạng ảnh khác nhau và chất lượng nhận dạng của nó ngày càng được cải tiến.
• Java OCR11: là bộ nhận dạng ký tự quang học dựa trên thuật toán nhận dạng bình phương trung bình. Công cụ này bao gồm các tiện ích để theo vết và rút trích ký tự.
• SimpleOCR12: Đây là phần mềm OCR khá mạnh dùng cho máy quét. Phần mềm này khá phổ biến trên tế giới với hàng trăm ngàn người dùng. Ta có thể tùy chọn những vùng trong ảnh quét để chương trình bỏ qua không xử lí cùng với nhiều tùy chọn hữu ích khác. Chương trình cũng có khả năng nhận dạng chữ viết tay và học từ mới. SimpleOCR cũng cung cấp bộ SDK cho các nhà phát triển để họ sử dụng trong các chương trình của riêng họ. Nếu bạn có máy quét, SimpleOCR là một công cụ rất mạnh để nhận dạng kí tự
quang học thay cho việc đánh máy nhàm chán.
• VietOCR13: Đây là một chương trình nguồn mở Java/.NET, hỗ trợ nhận dạng cho các dạng ảnh TIFF, JPEG, GIF, PNG, và BMP. Chương trình này cũng sử dụng bộ nhận dạng Tesseract.
Tuy nhiên, vấn đề không chỉ nằm ở chất lượng OCR. Điều quan trọng nhất là
ảnh quét của bạn phải có chất lượng đủ tốt, khoảng 300 dpi trở lên thì việc nhận dạng mới chính xác được. Việc nhận dạng chữ Việt thường xảy ra lỗi do các chữ
tương tự nhau, thiếu dấu hay lầm giữa chữ hoa và chữ thường. Vì vậy đòi hỏi ta phải chỉnh sửa tài liệu sau khi nhận dạng để có kết quả tốt nhất.
Trong các Bộ nhận dạng ký tự quang học mã nguồn mở hiện có, Tesseract là bộ nhận dạng ký tự quang học có độ chính xác cao nhất và được quan tâm phát triển
11 http://javaocr.sourceforge.net 12 http://simpleocr.sourceforge.net 13 http://vietocr.sourceforge.net/usage_vi.html
bởi cộng đồng mã nguồn mở nhất. Điều quan trọng nhất là có nhiều thông tin và tài liệu tham khảo về bộ nhận dạng này, việc này giúp cho việc nghiên cứu được thuận lợi hơn. Còn các bộ nhận dạng khác chỉ được giới thiệu một cách chung chung, chưa có những tài liệu đáng tin cậy về cấu trúc, thuật toán cũng như độ chính xác của chúng.
Vì vậy, luận văn này sẽ tập trung nghiên cứu những đặc tính cơ bản của Tesseract, đi sâu vào tìm hiểu mã nguồn của Tesseract và cách để chuyển mã của bộ
nhận dạng này sang hệđiều hành Symbian để có thể thực thi được trên điện thoại di
động sử dụng hệđiều hành Symbian.