Nhận dạng ký tự dựa trên ngữ cảnh

Một phần của tài liệu Nghiên cứu giải pháp tách bảng - tách ảnh trong phân tích trang tài liệu (Trang 29)

Phương pháp xử lý này sử dụng ý nghĩa của các từ để sửa lại những lỗi để lại của OCR. Phương pháp này sử dụng thông tin từ các ký tự khác nhau được nhận dạng trong một từ và dựa vào ý nghĩa của từ khi lắp ghép ký tự vào từ. Thông thường một từ có nghĩa hay không sẽ dựa vào từ điển hay từ vựng của ngôn ngữ đó. Giả sử giữa hai từ u v rất khó phân biệt khi nhận dạng, chẳng hạn một trong hai từ này xuất hiện tại vị trí thứ hai (tính từ trái sang phải) của từ qXeen. Kỹ thuật xử lý dựa trên ngữ cảnh sẽ xác định ký tự u là thích hợp trong trường hợp này vì trong từ điển từ qveen không có trong từ điển Tiếng Anh. Chúng ta cũng có thể áp dụng quy tắc ký tự đi theo sau ký tự q chỉ có u.

Đã có những nghiên cứu một cách hệ thống kết quả nhận dạng thu được từ OCR trên Tiếng Anh. Một báo cáo đầy đủ kết quả từ những sản phẩm OCR trên tài liệu được in bằng máy được công bố bởi trường đại học Nevada [11]. Với những tài liệu đạt tiêu chuẩn, kết quả nhận dạng chính xác từ 99.13% tới 99.77%. Với những tài liệu có chất lượng kém, độ chính xác của nhận dạng cũng đạt từ 89.34% tới 97.01%. Kết quả nhận dạng giảm đi đối với những tài liệu chất lượng kém chủ yếu là do các nét ký tự bị đứt và các ký tự liền kề nối liền nét. Thời gian gần đây, phương pháp OCR nhận dạng ảnh trong tài liệu phức tạp cũng được công bố [12]. Wilson [13] đã công bố một báo cáo toàn diện trong việc sử dụng và đánh giá phương pháp OCR cho những ứng dụng xử lý biểu mẫu.

Đã có rất nhiều tài liệu nghiên cứu mô tả phương pháp nhận dạng OCR. OCR được coi là nghiên cứu quan trọng nhất trong lĩnh vực nhận dạng. Trong khi các nghiên cứu phương pháp OCR trên ký tự La mã đã giảm dần thì nghiên cứu OCR trên các loại ký tự không phải La mã tiếp tục là vấn đề được quan tâm nhiều đến. Để theo dõi các vấn đề mới nhất hay các phương pháp mới người đọc nên theo dõi các hội thảo

về nhận dạng như Hội thảo quốc tế về Phân tích tài liệu và Nhận dạng và Hội thảo quốc tế về nhận dạng chữ viết tay.

Một phần của tài liệu Nghiên cứu giải pháp tách bảng - tách ảnh trong phân tích trang tài liệu (Trang 29)

Tải bản đầy đủ (PDF)

(79 trang)