Nhận dạng ký tự dựa trên ngữ cảnh

Một trong những phương pháp hữu hiệu để cải thiện tính chính xác và nâng cao hiệu suất của công nghệ OCR là việc áp dụng một thứ tự từ điển trong mỗi ngôn ngữ để nhận định và phân biệt giữa những ký tự ghép lại thành từ (word) là có nghĩa hay không có nghĩa. Người ta lập một hệ các nhãn để lần lượt thay thế cho các ký tự trong quá trình tạo thành một từ nào đó. Những kết hợp của các ký tự mà tạo thành một từ không có ý nghĩa (theo cách là từ này chưa hoặc không tồn tại trong từ điển trước đó) thì được loại bỏ. Thực tế cho thấy có thể gán nhãn đúng cho các ký tự ngay cả khi không thiết lập một hệ thống danh sách các nhãn ban đầu cho các ký tự. Trong trường hợp này thì đơn giản chỉ thực hiện việc nhóm tất cả các ký tự trong các tài liệu có hình dạng tương tự nhau. Theo đó, một hệ thống từ điển với kích thước nhỏ sẽ được sử

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

dụng để thay thế các biểu tượng trong mỗi nhóm với một ký tự duy nhất.

Như vậy, cách thức xử lý này căn cứ vào ngữ nghĩa của từ trong từ điển để khắc phục một số lỗi mà chính bản thân OCR chưa thể khắc phục được. Người ta lắp ráp các ký tự để hình thành nên các từ trên cơ sở trích chọn những thông tin của các ký tự khác nhau được phát hiện trong một từ nhờ vào sự có nghĩa của từ đó. Việc đánh giá xem một từ là có nghĩa hay không thì cách tốt nhất là so khớp từ đó với các từ đã có trong từ điển hoặc tập các từ vựng của một ngôn ngữ đặc thù nào đó. Như đã trình bày trong phần 1.5, rằng chữ u rất giống với chữ v nên trong quá trình nhận dạng đặc trưng rất khó để phân biệt được hai chữ này. Giả sử bài toán nhận dạng yêu cầu nhận ra ký tự x là ký tự gì khi nó đã được phân bổ nằm trong một dãy nhãn ký tự gồm các ký tự

qxeen. Theo đó, việc nhận dạng dựa trên ngữ cảnh có ứng dụng từ điển Tiếng

Anh sẽ xác định rằng ký tự x là ký tự u chứ không phải ký tự v bởi vì về quy tắc từ vựng trong Anh ngữ thì chỉ có gần như duy nhất ký tự u là đi liền sau ký tự q và cũng trong từ điển tiếng Anh không có từ qveen mà lại có từ queen

(Ngô Quốc Tạo - 2007).

Đã có những nghiên cứu một cách hệ thống kết quả nhận dạng thu được từ OCR trên Tiếng Anh. Một báo cáo đầy đủ kết quả từ những sản phẩm OCR trên tài liệu được in bằng máy được công bố bởi trường đại học Nevada [11]. Với những tài liệu đạt tiêu chuẩn, kết quả nhận dạng chính xác từ 99.13% tới 99.77%. Với những tài liệu có chất lượng kém, độ chính xác của nhận dạng cũng đạt từ 89.34% tới 97.01%. Kết quả nhận dạng giảm đi đối với những tài liệu chất lượng kém chủ yếu là do các nét ký tự bị đứt và các ký tự liền kề nối liền nét. Thời gian gần đây, phương pháp OCR nhận dạng ảnh trong tài liệu phức tạp cũng được Wilson [4] công bố một báo cáo toàn diện trong việc sử dụng và đánh giá phương pháp OCR cho những ứng dụng xử lý biểu mẫu.

Nhận dạng ký tự quang học (OCR)

Giới thiệu thuật toán T-Recs