Các bài toán nhận dạng được nghiên cứu nhiều nhất hiện nay bao gồm nhận dạng các mẫu hình học (vân tay, mặt người, hình khối,…), nhận dạng tiếng nói và nhận dạng chữ viết. Chúng được áp dụng vào nhiều lĩnh vự như y học, dự báo thời tiết, dự báo cháy rừng, điều khiển robot, ... Trong các bài toán nhận dạng này, nhận dạng chữ viết là bài toán đang được ứng dụng phổ biến nhất hiện naỵ
Nhận dạng chữ viết bao gồm hai kiểu chính là nhận dạng chữ in và nhận dạng chữ viết taỵ Cho đến nay bài toán nhận dạng chữ in đã được giải quyết khá trọn vẹn với sự ra đời của nhiều hệ thống nhận dạng đạt tới độ chính xác gần như
tuyệt đốị Trên thế giới hiện nay có nhiều chương trình nhận dạng chữ viết (chữ in và viết tay) bằng các thứ tiếng Anh, Nga… như các hệ OMNIPAGE, READ- WRITE, WORD-SCAN,... Tiêu biểu có hệ nhận dạng chữ in dựa trên mô hình mạng nơron bốn lớp của J. Wang và J.S.N. Jean [14] đạt tới tỷ lệ chính xác 99.75%.
Ở Việt Nam hiện đã có sản phẩm VNDOCR của Viện Công nghệ thông tin nhận dạng chữ in tiếng Việt với độ chính xác tới 99%, có khả năng nhận dạng trực tiếp các loại tài liệu được quét qua máy quét, không cần lưu trữ dưới dạng tệp ảnh trung gian. Các trang tài liệu có thể được quét và lưu trữ dưới dạng tệp tin nhiều trang. Kết quả nhận dạng được lưu trữ sang định dạng của Microsoft Word, Excel... phục vụ rất tốt nhu cầu số hóa dữ liệụ Hệ như WORC của công ty 3C, VIET-IN của công ty SEATIC, Image Scon của Trung Tâm Tự động hoá thiết kế. Ngoài ra, còn có một dự án OCR Tiếng Việt có tên VietOCR, được phát triển dựa trên nền tảng mã nguồn mở tesseract-ocr do Google tài trợ. VietOCR có khả năng nhận dạng chữ Việt rất tốt. Đây là một chương trình nguồn mở Java/.NET, hỗ trợ nhận dạng cho các dạng ảnh PDF, TIFF, JPEG, GIF, PNG, và BMP. ABBYY - một hãng công nghệ hàng đầu trên thế giới về lĩnh vực nhận dạng ký tự quang học đã tiến hành nghiên cứu và triển khai công nghệ nhận dạng Tiếng Việt vào tháng 4 năm 2009.
Với công nghệ này độ chính xác trong việc nhận dạng tài liệu chữ in tiếng Việt lên tới hơn 99% (cứ nhận dạng 100 ký tự thì có chưa đến 1 ký tự sai). Công nghệ của ABBYY chấp nhận hầu hết các định dạng ảnh đầu vào như: PDF, TIFF, JPEG, GIF, PNG, BMP, PCX, DCX, DjVụ.. Kết quả nhận dạng được lưu trữ dưới các định dạng MS Word, MS Excel, HTML, TXT, XML, PDF, PDF 2 lớp, trong đó định dạng PDF 2 lớp là một định dạng hoàn hảo cho việc lưu trữ và khai thác tài liệụ Với định dạng này, người đọc có thểđọc trung thực ảnh gốc nhờ lớp ảnh bên trên, các công cụ tìm kiếm có thể tìm kiểm toàn văn trên văn bản nhờ lớp text nhận dạng
được bên dướị Người sử dụng có thể thử nghiệm công nghệ nhận dạng của ABBYY (miễn phí) tại trang web: www.sohoạcom.vn.
Cả free-ocr.com dùng bộ máy (engine) nhận dạng chữ in Tesseract (Tesseract OCR engine) - bộ máy OCR này được phát triển bởi HP Labs trong giai
đoạn 1985-1995 và bây giờ là Google (http://codẹgooglẹcom/p/tesseract-ocr). Free-ocr.com là dịch vụ miễn phí, hỗ trợ các định dạng ảnh thông dụng JPG, GIF, TIFF, BMP với dung lượng mỗi tập tin tải lên tối đa 2MB. Dịch vụ này cho phép trong mỗi giờ bạn chỉ có thể thực hiện 10 lần nhận dạng và trích xuất đoạn văn bản từảnh.
Phần mềm nhận dạng chữ viết tay tiếng Việt của Huỳnh Hữu Lộc và Lưu Quốc Hải, Khoa Khoa học và Kỹ thuật máy tính Trường ĐH Bách khoa (ĐH Quốc gia TPHCM), độ chính xác là 84%, tốc độ nhận dạng 1.000 ký tự/giây, hiện nay công trình đã đạt được kết quảở giai đoạn nhận dạng từng ký tự riêng lẻ.
Việc nhận dạng chữ in bằng tay, chữ thảo bằng tay, và thậm chí những phiên bản đánh máy được in ra của vài chữ (đặc biệt là những chữ có số chữ cái lớn), vẫn còn là một đề tài của các nghiên cứụ
Các hệ thống nhận dạng chữ viết tay đã đạt được những thành công lớn về
Newton đi tiên phong trong công nghệ nàỵ Những giải thuật sử dụng trong những thiết bị này sử dụng những ưu điểm rằng thứ tự, tốc độ, và hướng của những đoạn dòng đơn lẻđã được biết trước. Tương tự, người dùng có thểđược yêu cầu sử dụng chỉ một vài loại kiểu chữ nhất định. Những phương pháp này không thể dùng được trong phần mềm scan tài liệu giấy, do đó sự nhận dạng chính xác văn bản in bằng tay vẫn là một vấn đề lớn đang được bỏ ngỏ. Với mức chính xác từ 80% đến 90%, những chữ in bằng tay sạch sẽ có thểđược nhận ra, nhưng độ chính xác đó vẫn tạo ra hàng tá lỗi mỗi trang, khiến cho công nghệ đó chỉ hiệu quả trong vài trường hợp nào đó. Sựđa dạng của nhận dạng ký tự quang học (Optical Character Recognition, viết tắt là OCR) hiện nay được biết đến trong công nghiệp là ICR, (Intelligent Character Recognition - Nhận dạng Ký tự Thông minh). là sự phát triển ở mức cao hơn của công nghệ nhận dạng chữ in. Đối tượng nhận dạng của công nghệ ICR không chỉ là chữ in mà còn bao gồm cả chữ viết taỵ Công nghệ nhận dạng chữ viết tay thường được dùng trong việc nhận dạng thông tin từ các tài liệu dạng biểu mẫụ Trên các tài liệu dạng này, một số thông tin được điền bằng tay tại các vị trí cốđịnh (tờ khai mở tài khoản ngân hàng, tờ khai hải quan, phiếu đăng ký…).
Việc nhận dạng chữ in bằng tay, chữ thảo bằng tay, và thậm chí những phiên bản đánh máy được in ra của vài chữ (đặc biệt là những chữ có số chữ cái lớn), vẫn còn là một đề tài của các nghiên cứụ
Nhận dạng chữ viết tay là một lĩnh vực nghiên cứu sôi nổi, với tỷ lệ nhận dạng thậm chí còn thấp hơn cả văn bản in bằng taỵ Tỷ lệ nhận dạng cao hơn của những bản viết tay chung chung hầu như là không thể nếu không sử dụng thông tin về ngữ pháp và văn cảnh. Ví dụ như, nhận dạng cả một chữ từ một cuốn từđiển thì dễ hơn là việc cố gắng lấy ra những ký tự rời rạc từđoạn đó. Đọc dòng Tổng cộng của một tờ séc (luôn luôn được viết bằng số) là một ví dụ trong đó sử dụng những từ điển nhỏ hơn có thể tăng tỷ lệ nhận dạng rất nhiềụ Kiến thức về ngữ pháp của một ngôn ngữ được scan cũng có thể giúp xác định một từ có thể là động từ hay danh từ, ví dụ như vậy, sẽ cho phép độ chính xác cao hơn. Hình dạng của chữ viết
tay bản thân nó đã không chứa đủ thông tin về để nhận dạng chính xác (hơn 98%) tất cả những đoạn chữ viết tay [15].
Nhận dạng chữ viết tay đang là vấn đề thách thức lớn đối với các nhà nghiên cứu, bài toàn này chưa thể giải quyết trọn vẹn được vì nó phụ thuộc quá nhiều vào người viết và sự biến đổi quá đa dạng trong cách viết và trạng thái tinh thần của từng người viết. Cho đến nay, bài toán nhận dạng chữ viết tay cũng đã có một số kết quả khả quan, chủ yếu tập trung trên các tập dữ liệu chữ số viết tay như USPS và MNIST, một số kết quả khác mở rộng đối với các chữ hệ La tinh, Hy lạp.... Đặc biệt
đối với việc nhận dạng chữ viết tay tiếng Việt lại càng gặp nhiều khó khăn hơn do bộ ký tự tiếng Việt có nhiều ký tự có hình dáng rất giống nhau, chỉ khác nhau chút ít về phần dấụ Do đó có rất ít kết quả nghiên cứu về nhận dạng chữ viết tay tiếng Việt và các kết quả nghiên cứu chủ yếu cũng chỉ tập trung vào chữ viết tay trực tuyến . Bài toán tôi đặt ra ởđây là xây dựng một mô hình nhận dạng ký tự Việt viết tay rời rạc trực tuyến. Bộ ký tự tiếng Việt bao gồm tập ký tự không dấu {A, B, C, D, Đ, E, G, H, I, K, L, M, N, O, P, Q, R, S, T, U, V,X, Y} và các ký tự có dấu {Ă, Â, À, Ả, Ã, Á, Ạ, Ằ, Ẳ, Ẵ, Ắ, Ặ, Ầ, Ẩ, Ẫ, Ấ, Ậ, Ê, È, Ẻ, Ẽ, É, Ẹ, Ề, Ể, Ễ, Ế, Ệ, Ì, Ỉ, Ĩ, Í, Ị, Ô,
Ơ, Ò, Ỏ, Õ, Ó, Ọ, Ồ, Ổ, Ỗ, Ố, Ộ, Ờ, Ở, Ỡ, Ớ, Ợ, Ư, Ù, Ủ, Ũ, Ú, Ụ, Ừ, Ử, Ữ, Ứ, Ự,
Ỳ, Ỷ, Ỹ, Ý, Ỵ}.
Nhận dạng chữ viết tay được chia thành hai lớp bài toán lớn là nhận dạng chữ viết tay trực tuyến (online) và nhận dạng chữ viết tay ngoại tuyến (offline). Trong nhận dạng chữ viết tay ngoại tuyến, dữ liệu đầu vào được cho dưới dạng các
ảnh được quét từ các giấy tờ, văn bản. Ngược lại nhận dạng chữ viết tay trực tuyến là nhận dạng các chữ trên màn hình ngay khi nó được viết.
Hình 3.1 Mô hình chung trong nhận dạng chữ viết Trong đó:
♦ Tiền xử lý: là quá trình chuẩn hóa dữ liệu vào, gồm các công việc như xử lý nhiễu, chuẩn hóa kích thước dữ liệu, …
♦ Trích chọn đặc trưng: là quá trình tìm ra các thông tin hữu ích và đặc trưng nhất cho mẫu đầu vào để sử dụng cho quá trình nhận dạng.
♦ Nhận dạng: là quá trình sử dụng một mô hình nhận dạng cụ thể với một thuật toán cụ thểđể trả lời mẫu đầu vào là chữ nàọ
♦ Hậu xử lý: là quá trình xử lý kết quả cho phù hợp với từng ứng dụng cụ thể [3]