Nếu muốn máy tính nhận dạng văn bản, NN là một lựa chọn tốt hơn tất cả các cách tiếp cận khác tại thời điểm hiện tại, Sử dụng NN ở đây là bao gồm CNN để trích xuất các đặc trưng chuỗi và sử dụng RNN để thu được thông tin qua đặc trưng chuỗi đó.
Nhận dạng chuỗi ký tự trên ảnh được nghiên cứu từ lâu, mạng CRNN giải quyết vấn đề nhận dạng các ký tự trên bức ảnh, bài toán này là một trong những thách thức và rất quan trọng trong nhận dạng chuỗi các ký tự trên các hình ảnh. bài toán này khác nhiều so với bài toán nhận dạng đối tượng tổng quát, bài toán nhận dạng chuỗi thường yêu cầu hệ thống dự đoán một chuỗi của các nhãn, thay vì một nhãn đơn lẻ. Vậy có thể xem nhận dạng đối tượng là một phần của bài toán nhận dạng chuỗi, một trong những thuộc tính chuỗi đó là độ dài chuỗi thay đổi khác nhau. Như từ "ok" có độ dài là 2 kí tự nhưng từ " congratulation " có độ dài lên tới mười lăm kí tự như vậy nhưng kiến trúc mạng nổi tiếng như Deep Convolution Neural Networks (DCNN) không thể áp dụng trực tiếp cho bài toán này
Vì đầu vào của mạng trên có chiều của đầu vào và đầu ra cố định. Trong khi đó nhãn của chuỗi có độ dài thay đổi. Do vậy, mô hình Recurrent neural networks (RNN) ra đời, nhằm giải quyết bài toán có tính chất chuỗi. Một trong nhưng lợi thế của RNN đó là không cần biết vị trí chính xác của các phần tử của chuỗi trong ảnh trong lúc đào tạo cũng như kiểm tra. Nhưng ở bước tiền xửa lý phải chuyển ảnh đầu vào có kích thước chiều cao cố định. Như vậy sự kết hợp của DCNN [8] và RNN tạo nên cấu trúc CRNN [9], Vậy nên mạng CRNN [9] có những lợi thế hơn các cấu trúc khác đó là:
• Có thể học trực tiếp chuỗi mà không cần chính xác vị trí của các phần tử trong chuỗi.
38 • Trích xuất trực tiếp đặc trưng từ ảnh không yêu cầu xử lý thủ công cũng như
tiền xử lý.
• Có tính chất của RNN có thể sinh ra một chuỗi của các đối tượng.
• Không bị ràng buộc bởi độ dài của chuỗi, chỉ yêu cầu chuẩn hóa về chiều cao trong cả hai quá trình đào tạo và kiểm tra.
• Cần ít tham số hơn mạng DCNN [8] tiêu chuẩn, tiêu tốn bộ nhớ ít hơn.