2 CÁC PHƯƠNG PHÁP TIẾP CẬN BÀI TOÁN
2.2 Phương pháp nhận dạng từng từ Word Based OCR
2.2.7 Kết hợp CTC + Attention
hàm chi phí CTC hoàn toàn có thể kết hợp cùng với cơ chế tập trung để mô hình sau quá trình huấn luyện có được những điểm mạnh mà 2 phương pháp mang lại, từ đó cho kết quả tốt hơn.
Hình 2.12: Kiến trúc mô hình ocr kết hợp CTC + Attention [65]
2.2.8 Các kết quả tiêu biểu
Các tập dữ liệu được dùng để đánh giá bao gồm: IC03 [58], IC13 [59],
IIIT5k[60],SVT[61]. Trong công bố của Baoguang Shi [55], mục 3.3, bảng 2 đã cho thấy kết quả khả quan của mô hình CRNN. Trong trường hợp các dự
đoán bị ràng buộc bởi một tập từ vựng (lexicon), mô hình CRNN cho kết quả vượt qua hầu hết các mô hình tốt nhất hiện tại. Nhìn chung, kết quả của CRNN vượt qua bộ đọc chữ tốt nhất tính đến thời điểm bài báo được công bố [62]. Ngoài ra, cũng ở mục 3.3, bảng 3, tác giả đã đưa ra một số thuộc tính của các phương pháp trước, bao gồm tính huấn luyện đầu cuối (E2E Trainhay End to end training), tính sử dụng đặc trưng tích chập (Conv Ftrs) để phân biệt với các đặc trưng được tạo bằng phương pháp thủ công, tính sử dụng gán nhãn ký tự (CharGT-Free) để phân biệt với các phương pháp cần sử dụng nhãn của từng ký tự thay vì từ, tính không ràng buộc (Unconstrained) để phân biệt các phương pháp bị ràng buộc bởi một tập các từ được biết trước (hay còn gọi là từ điển). Đáng chú ý là mô hình CRNN thỏa mãn cả 4 thuộc tính và có số lượng tham số mô hình ít hơn hẳn so với các mô hình được sử dụng.
2.2.9 Đánh giá hướng tiếp cận
2.2.9.1 Điểm mạnh
• Sử dụng phương pháp học sâu, các đặc trưng được tự động trích xuất thay vì sử dụng phương pháp thủ công.
• Có thể huấn luyện đầu cuối, không như các phương pháp OCR trước đó, việc huấn luyện bị tách thành nhiều giai đoạn.
• Không cần gán nhán cho từng ký tự.
• Độ chính xác nhận diện từ vẫn tốt trong trường hợp bị ràng buộc bởi tập từ vựng cho trước.
• Số lượng tham số mô hình tương đối nhỏ, chiếm ít dung lượng bộ nhớ (mô hình CRNN 8.3 triệu tham số chiếm khoảng 30 MB RAM).
2.2.9.2 Điểm yếu
• Chưa có đánh giá về khả năng nhận diện các loại chữ phi latinh, chẳng hạn như tiếng Nhật, tiếng Hàn, ...
• Chưa có đánh giá về khả năng nhận diện các loại từ bị biến đổi về mặt hình dạng như chữ trên biển quảng cáo, băng rôn,...
• Mô hình khó xử lý trong trường hợp chữ viết tay khi mà rất khó tách các từ bằng xử lý ảnh dẫn đến sai số nhiều.
• Mô hình cũng chưa quan tâm đến ngữ nghĩa của câu, vì chỉ dự đoán trên từng từ, dẫn đến trong các trường hợp ảnh bị mờ, mô hình bị giảm độ chính xác đi rất nhiều.