Một số công cụ OCR miễn phí

3 Chương : NHẬN DẠNG KÝ TỰ QUANG HỌC

3.1.2 Một số công cụ OCR miễn phí

Hiện nay có rất nhiều Bộ nhận dạng ký tự quang học mã nguồn mở với độ

chính xác rất cao, do đó không cần phải viết lại Bộ nhận dạng ký tự quang học. Việc này vừa làm mất nhiều thời mà kết quả thu được khó có thể hơn bằng các Bộ

nhận dạng ký tự quang học mã nguồn mở vì các bộ nhận dạng này có một lịch sử

phát triển cũng rất dài và được phát triển bởi một cộng đồng rất đông đảo các lập trình viên có kinh nghiệm.

• Tesseract [8]: Được phát triển bởi công ty HP từ năm 1985 đến năm 1994

để ứng dụng vào máy scan trên máy tính để bàn. Tesseract có chất lượng ngang ngửa với ứng dụng Caere và XIS trong cuộc thử nghiệm của UNLV năm 1995. Tesseract trở thành mã nguồn mở vào năm 2005 và hiện đang

được phát triển dưới sự tài trợ của Google.

• GOCR10: là chương trình nhận dạng ký tự quang học được phát triển bởi Jörg Schulenburg từ năm 2002 theo giấy phép công cộng GNU (GNU Public License). Chương trình này chuyển đổi văn bản dưới dạng ảnh đã

được scan thành dạng văn bản thuần túy. GOCR có thể hoạt động trên

8 http://www.nuance.com/for-business/by-product/omnipage/index.htm 9 http://ocrnow.com 10 http://jocr.sourceforge.net

nhiều nền tảng khác nhau, điều này giúp cho việc chuyển mã sang các hệ điều hành khác nhau được dễ dàng. GOCR có thể mở nhiều định dạng ảnh khác nhau và chất lượng nhận dạng của nó ngày càng được cải tiến.

• Java OCR11: là bộ nhận dạng ký tự quang học dựa trên thuật toán nhận dạng bình phương trung bình. Công cụ này bao gồm các tiện ích để theo vết và rút trích ký tự.

• SimpleOCR12: Đây là phần mềm OCR khá mạnh dùng cho máy quét. Phần mềm này khá phổ biến trên tế giới với hàng trăm ngàn người dùng. Ta có thể tùy chọn những vùng trong ảnh quét để chương trình bỏ qua không xử lí cùng với nhiều tùy chọn hữu ích khác. Chương trình cũng có khả năng nhận dạng chữ viết tay và học từ mới. SimpleOCR cũng cung cấp bộ SDK cho các nhà phát triển để họ sử dụng trong các chương trình của riêng họ. Nếu bạn có máy quét, SimpleOCR là một công cụ rất mạnh để nhận dạng kí tự

quang học thay cho việc đánh máy nhàm chán.

• VietOCR13: Đây là một chương trình nguồn mở Java/.NET, hỗ trợ nhận dạng cho các dạng ảnh TIFF, JPEG, GIF, PNG, và BMP. Chương trình này cũng sử dụng bộ nhận dạng Tesseract.

Tuy nhiên, vấn đề không chỉ nằm ở chất lượng OCR. Điều quan trọng nhất là

ảnh quét của bạn phải có chất lượng đủ tốt, khoảng 300 dpi trở lên thì việc nhận dạng mới chính xác được. Việc nhận dạng chữ Việt thường xảy ra lỗi do các chữ

tương tự nhau, thiếu dấu hay lầm giữa chữ hoa và chữ thường. Vì vậy đòi hỏi ta phải chỉnh sửa tài liệu sau khi nhận dạng để có kết quả tốt nhất.

Trong các Bộ nhận dạng ký tự quang học mã nguồn mở hiện có, Tesseract là bộ nhận dạng ký tự quang học có độ chính xác cao nhất và được quan tâm phát triển

11 http://javaocr.sourceforge.net 12 http://simpleocr.sourceforge.net 13 http://vietocr.sourceforge.net/usage_vi.html

bởi cộng đồng mã nguồn mở nhất. Điều quan trọng nhất là có nhiều thông tin và tài liệu tham khảo về bộ nhận dạng này, việc này giúp cho việc nghiên cứu được thuận lợi hơn. Còn các bộ nhận dạng khác chỉ được giới thiệu một cách chung chung, chưa có những tài liệu đáng tin cậy về cấu trúc, thuật toán cũng như độ chính xác của chúng.

Vì vậy, luận văn này sẽ tập trung nghiên cứu những đặc tính cơ bản của Tesseract, đi sâu vào tìm hiểu mã nguồn của Tesseract và cách để chuyển mã của bộ

nhận dạng này sang hệđiều hành Symbian để có thể thực thi được trên điện thoại di

động sử dụng hệđiều hành Symbian.

Chuyển đổi định dạng ảnh

Kiến trúc và hoạt động