2 CÁC PHƯƠNG PHÁP TIẾP CẬN BÀI TOÁN
2.3 Phương pháp nhận dạng từng câ u Sentence Based OCR
Based OCR
2.3.1 Tổng quan hướng tiếp cận
Phương pháp tiếp cận theo Phương pháp nhận dạng từng câu - Sentence Based OCR là một cải tiến khá nổi trội từ phương pháp Phương pháp nhận dạng từng từ - Word Based OCR, điểm khác biệt duy nhất là thay vì thực hiện phân tách từ và nhận dạng từ, phương pháp này thực hiện phân tách theo câu và nhận dạng theo câu.
2.3.2 Xử lý ảnh
Để xử lí ảnh cho hướng tiếp cận này, ta có thể áp dụng các phương pháp đã nêu ra ở mục 2.1.2 và mục 2.2.2.
Hình 2.13: Luồng xử lý Phương pháp nhận dạng từng câu - Sentence BasedOCR OCR
2.3.3 Mô hình Sentence Based OCR
Về bản chất mô hình Word Based và Sentence Based dùng chung 1 loại model, chỉ khác nhau về cách xử lý (tách theo từ và tách theo dòng). Nếu dữ liệu đầu vào của mô hình WB-OCR là 1 từ thì dữ liệu đầu vào của mô hình SB-OCR là 1 câu (bao gồm 1 chuỗi các từ).
2.3.4 CRNN
Đối với hướng tiếp cận Word Based OCR, tác giả Baoguang Shi đã sử dụng mô hình CRNN [55] và đạt được kết quả rất khả quan. Mô hình CRNN được thiết kế để phục vụ cho các bài toán nhận diện vật thể dạng chuỗi trong ảnh, đặc biệt phù hợp với các bài toán OCR (do đối tượng nhận diện thường là một chuỗi các ký tự). CRNN là viết tắt của Convolutional Recurrent Neural Network, hay mạng nơ-ron hồi quy tích chập. Sở dĩ có tên như vậy vì mô hình là sự kết hợp giữa mạng nơ-ron tích chập CNN và mạng nơ-ron hồi quy RNN. Đồi vật các vật thể dạng chuỗi, CRNN có lợi thế hơn các mô hình mạng tích
chập thuần túy ở các điểm:
• Mô hình có thể học trực tiếp từ nhãn của chuỗi (các từ), không cần đến các nhãn ở mức độ thấp hơn (các ký tự).
• Có khả năng học các biểu diễn có ích tương tự như mạng CNN, chỉ sử dụng dữ liệu ảnh mà không cần đến việc tạo các đặc trưng thủ công hay các bước tiền xử lý (ví dụ như nhị phân hóa, địa phương hóa, phân vùng ngữ nghĩa, ...).
• Có khả năng tạo ra một chuỗi các dự đoán giống với mạng RNN.
• Không bị ràng buộc bởi độ dài của vật thể, chỉ yêu cầu chuẩn hóa chiều cao trong cả quá trình huấn luyện và kiểm thử.
• Mô hình cho kết quả tốt hơn các phương pháp trước ([56], [57]) đối với dữ liệu chữ đặt trong bối cảnh thực tế (scene texts).
• CRNN có lượng tham số mô hình ít hơn một mô hình CNN tiêu chuẩn, giúp tiết kiệm bộ nhớ cho các tác vụ khác.
Kiến trúc cụ thể của mô hình CRNN như sau: Mô hình được tạo nên từ 3 thành phần chính: các lớp tích chập, các lớp hồi quy và lớp phiên mã. Ở tầng đáy của mô hình, lớp tích chập tự động trích xuất chuỗi các đặc trưng từ ảnh đầu vào. Xếp trên lớp tích chập là các lớp hồi quy, với đầu vào là chuỗi các đặc trưng ở tầng dưới. Lớp phiên mã được đặt ở tầng cao nhất, có nhiệm vụ biên dịch đầu ra ở lớp hồi quy thành chuỗi dự đoán cho ảnh đầu vào. Mặc dù được cấu tạo bởi các loại mạng khác nhau (CNN và RNN), mô hình vẫn có thể được huấn luyện với 1 hàm chi phí duy nhất.
Hình 2.14: Kiến trúc mô hình CRNN [55]
2.3.5 CNN + RNN + CTC Loss
Giống với đa số các mô hình học sâu được sử dụng trong bài toán OCR, mô hình CRNN được huấn luyện sử dụng hàm chi phí CTC 1.5.
2.3.6 CNN + RNN + Attention
Để cải thiện khả năng dự đoán 1 từ (chuỗi ký tự), bộ giải mã dựa trên cơ chế tập trung 1.6 cũng có thể được sử dụng.
2.3.7 Kết hợp CTC + Attention
hàm chi phí CTC hoàn toàn có thể kết hợp cùng với cơ chế tập trung để mô hình sau quá trình huấn luyện có được những điểm mạnh mà 2 phương pháp mang lại, từ đó cho kết quả tốt hơn.
Hình 2.15: Kiến trúc mô hình ocr kết hợp CTC + Attention [65]
2.3.8 Đánh giá hướng tiếp cận
2.3.8.1 Điểm mạnh
Điểm mạnh của mô hình là khả năng học phân tích ngữ nghĩa của mô hình Bi-LSTM và attn, từ đó cho phép mô hình dự đoán tốt hơn ở cấp độ câu, chứ không chỉ cấp độ từ như trước. Thuật toán dự đoán cũng sẽ nhanh hơn do không xử lý nhiều mô hình như trước. Ngoài ra mô hình còn tốt hơn do nhận diện được dòng chữ, từ đó biết được hướng đọc của văn bản.
2.3.8.2 Điểm yếu
Điểm yếu của mô hình này là khó học hơn mô hình tiếp cận theo từ, đòi hỏi nhiều dữ liệu và đa dạng ngữ nghĩa hơn. Ngoài ra mô hình còn vẫn đang bị phụ thuộc vào mô hình bóc tách dòng chữ (Text Detection) dẫn đến việc kết quả có thể bị sai.