Hiện nay, rất nhiều phần mềm mã nguồn mỡ dùng công nghệ nhận dạng ký tự quang học hay nhận dạng chữ in, chữ đánh máy cho phép trích xuất và chuyển đổi tài liệu dạng ảnh (ảnh từ máy quét, máy ảnh, tập tin PDF dạng ảnh…) thành các tài liệu có thể biên tập (dạng tập tin text, Word…) - hỗ trợ việc số hóa tài liệu tiếngViệt (nhận dạng văn bản tiếng Việt). Tùy vào độ phức tạp của văn bản: định dạng chữ hoa, chữ thường, chữ in nghiêng, khung bảng, biểu mẫu…, chất lương ảnh, và tùy vào công nghệ nhận dạng riêng biệt của mỗi nhà phát triển sẽ có mức độ nhận dạng văn bản chính xác khác nhau.
TOCR
TOCR phiên bản 3.2 bao gồm một độ chính xác cao đa ngôn ngữ OCR Engine và một chương trình Viewer (được viết bằng VB 5) để dùng để hổ trợ. TOCR phân tích được 2 loại ảnh bitmap và TIF. Nó có sẵn API miễn phí như là tiêu chuẩn với cả hai phiên bản đầy đủ và dùng thử. Nó đã được tích hợp vào hàng ngàn ứng dụng của bên thứ ba trên toàn thế giới để mang lại tính nhất quán,độ chính xác cao và các giải pháp thương mại.
Hình 2.13 TOCR
Sau nhiều lần nâng cấp, phiên bản mới của VietOCR đã có thêm nhiều tính năng đáng giá như: hỗ trợ chế độ quét tích hợp, nhận dạng ký tự tiếng Việt trên nhiều dạng ảnh (bmp, jpg, tiff, png), hỗ trợ các tài liệu ảnh nhiều trang và cơ chế xử lý hậu kỳ, giúp khắc phục một số lỗi về ngữ nghĩa, chính tả sau khi xử lý
Hình 2.14 VietOCR .
VietOCR bao gồm hai phiên bản: phiên bản GUI Form chạy trên Windows (hỗ trợ cả 32/64bit) và phiên bản Swing GUI (sử dụng Java) có thể hoạt động trên nhiều hệ điều hành khác nhau như: Windows, Linux,… VietOCR có thể sử dụng như một trình nhận dạng ký tự quang học độc lập (xử lý các file ảnh, dữ liệu sẵn có) hoặc kết hợp với chức năng quét để xử lý các tài liệu được nạp từ bên ngoài.
Teseract-OCR
Tesseract OCR là một dự án mã nguồn mở về OCR của Google. Theo đánh giá của ISRI Annual Tests năm 1995 thì công nghệ (engine) này tốt hàng thứ 3 sau công nghệ của Caere (Omnipage) và EDT ImageReader, trên cả Recognita OCR.
Tesseract được phát triển bởi Hewlett-Packard từ 1985 đến 1995. Người đã phát triển công nghệ này là Ray Smith, một chuyên gia về nhận dạng chữ quang học. Ray Smith làm cho HP cả chục năm, sau đó 7 năm choCaere/Scansoft/Nuance trong việc phát triển công nghệ cho Omnipage.
Hiện tại Ray Smith là nhân viên phần mềm tại Google (theraysmith tại Tesseract OCR). Đó là lý do Google đã công bố mã nguồn của Tesseract tháng 8/2006 sau khi Tesseract được chuyển giao từ ISRI (HP chuyển cho ISRI năm 2005).
Tesseract-OCR là chương trình cho phép phân tích một ảnh dữ liệu (doccument image: ảnh scan từ các quyển sách, trang bìa có nhiều chữ …) thành một file text chứa các chữ xuất hiện trên ảnh với độ chính xác rất cao > 90%.
Tên Ngôn ngữ
Hệ điều hành Loại file đầu vào
Kết quả DEMO
Website
1.TOCR C# Window ảnh loại TIF
(ảnh trắng đen + sạch) Chính xác 100% http://www.transym.co m/download-sample- source-code.htm 2.VietOC R java Window ảnh JPG,JPEG,TI F >80% http://vietocr.sourceforg e.net/usage_vi.html 3.Tessera c t-OCR C++ Window, unbuntu ảnh TIFF >90% http://code.google.com/ p/tesseract-ocr/
4.GOCR Linux, Mac
OSX, Windows,OS2, http://www.gocr.de 5.OCR opus C# Window, Linux http://code.google.com/ p/ocropus/ Bảng 2.3: Tổng hợp các phần mềm mã nguồn mở OCR.
Chương 3: GIỚI THIỆU MODULE MINI PC RASPBERRY PI