Trong mô hình CRNN, thành phần các tầng tích chập được xây dựng bằng cách lay các tang tích chập và tang gộp cực đại (max-pooling) từ một mô hình CNN tiêu chuẩn (các tang kết nói đầy đủ bị loại bỏ). Thành phan này được sử dung dé trích xuất một biểu diễn đặc trưng tuần tự từ một ảnh đầu vào.
Trước khi được đưa vào mạng, tất cả các ảnh cần được thu nhỏ về cùng một chiều cao. Sau đó, một chuỗi các vector đặc trưng được trích xuất từ các bản đồ đặc trưng được tạo ra bởi thành phan các tang tích chập, đây là đầu vào cho các tang hồi tiếp.
Cụ thể, mỗi vector đặc trưng của một chuỗi đặc trưng được tạo ra từ trái sang phải trên các bản đồ đặc trưng theo cột. Điều này có nghĩa là vector đặc trưng thứ i
là sự kết hợp của các cột thứ 1 của tất cả các bản đồ. Chiều rộng của mỗi cột trong cài đặt của chúng tôi được có định thành một pixel đơn.
Vì các tầng tích chập, gộp cực đại và hàm kích hoạt từng phần tử hoạt động trên các vùng cục bộ, chúng không thay đổi theo tịnh tiến. Do đó, mỗi cột của các bản đồ đặc trưng tương ứng với một vùng hình chữ nhật của ảnh gốc (được gọi là trường tiếp nhận), và các vùng hình chữ nhật này có thứ tự giống với các cột tương ứng của chúng trên các bản đồ đặc trưng từ trái sang phải.
47
Receptive field
Hình 25. Mỗi vector trong chuỗi đặc trưng được liên kết với một trường tiếp nhận và có
thé được coi là mô tả của ảnh cho vùng do.
3.1.3. Sequence Labeling
Một mang lưới thần kinh hồi tiếp hai chiều sâu được xây dựng trên đỉnh của các tầng tích chập, đóng vai trò là các tầng hồi tiếp. Các tầng hồi tiếp dự đoán phân phối nhãn yt cho mỗi khung hình xt trong chuỗi đặc trưng x = xI, ..., xT. Các tầng hồi tiếp sở hữu những ưu điểm ba mặt:
Thứ nhất, RNN có khả năng nắm bắt thông tin ngữ cảnh mạnh mẽ trong một chuỗi. Sử dụng các dau hiệu ngữ cảnh đề nhận dạng chuỗi dựa trên hình ảnh ôn định
và hữu ích hơn so với xử lý từng ký tự độc lập. Lay vi dụ về nhận dang văn ban trong cảnh, các ký tự rộng có thé đòi hỏi nhiều khung hình liên tiếp dé mô ta đầy đủ (tham khảo Hình 26). Bên cạnh đó, một số ký tự mơ hồ dé phân biệt hơn khi quan sát ngữ cảnh của chúng, vi dụ: dé dàng nhận ra “il” hơn bằng cách đối chiếu chiều cao của
các ký tự hơn là nhận ra từng ký tự riêng biệt.
Thứ hai, RNN có thê truyền ngược sai số về đầu vào, tức là tầng tích chập, cho phép huấn luyện đồng thời các tang hôi tiếp và các tầng tích chập trong một mang thống nhất.
Thứ ba, RNN có thé vận hành trên các chuỗi có độ dài bất kỳ, duyệt từ đầu
đên cuôi.
48
Một đơn vị RNN truyền thống có một tang an kết nối với chính nó nằm giữa các tầng đầu vào và đầu ra của nó. Mỗi lần nhận được một khung hình xt trong chuỗi,
nó cập nhật trạng thái bên trong ht của nó bằng một hàm phi tuyến sử dụng cả đầu vào hiện tại xt va trang thái trước đó ht-1 làm đầu vào: ht = g(xt, ht-1). Sau đó, dự đoán yt được đưa ra dựa trên ht. Bằng cách này, các ngữ cảnh trước đó {xt0}t0<t được năm bắt và sử dụng cho việc dự đoán. Tuy nhiên, đơn vị RNN truyền thống gặp phải vấn đề tiêu biến gradient [7], hạn chế phạm vi ngữ cảnh mà nó có thê lưu trữ và tạo gánh nặng cho quá trình huấn luyện. Long-Short Term Memory [18, 11] (LSTM)
là một loại don vi RNN được thiết kế đặc biệt dé giải quyết van đề này.
Một LSTM (minh hoa trong Hình 25) bao gồm một tế bào bộ nhớ và ba công nhân, cụ thé là công đầu vào, công đầu ra và công quên. Về mặt khái niệm, tế bào bộ nhớ lưu trữ các ngữ cảnh trong quá khứ, còn công đầu vào và đầu ra cho phép tế bào lưu trữ ngữ cảnh trong một khoảng thời gian dài. Đồng thời, bộ nhớ trong tế bào có thé được xóa bởi công quên. Thiết kế đặc biệt của LSTM cho phép nó nắm bắt các phụ thuộc tầm xa, thường xảy ra trong các chuỗi dựa trên hình ảnh.
3.2. Mô hình ASTER
STAR-Net là một mô hình Scene Text Recognition (STR) được phát triển bởi nhóm nghiên cứu của Đại học Quốc gia Singapore (NUS) và Đại học Công nghệ Nanyang (NTU). Mô hình được xuất bản trong bài báo "STAR-Net: Scene Text
Recognition with Spatial Attention and Rotation Invariant Transformer" tại Hội nghị
Quốc tế về Máy học và Trí tuệ nhân tạo (ICML) năm 2023.
49