2 CÁC PHƯƠNG PHÁP TIẾP CẬN BÀI TOÁN
1.14 Kiến trúc của mô hình mạng nơ-ron chú ý Nguồn: [4]
Mô hình cho độ chính xác 84,2% trên tập dữ liệu French Street Name Signs (FSNS) [45] và trở thành mô hình có độ chính xác cao nhất tính đến thời điểm bài báo được công bố (mô hình tốt nhất trước đó đạt độ chính xác 72.46%). Mục này sẽ tập trung mô tả cơ chế chú ý được đưa ra trong bài báo.
1.6.2 Cơ chế chú ý trong OCR
Trước đây, các phương pháp sử dụng cơ chế chú ý ([6] - [11]) trong OCR dự đoán trọng số chú ý dựa trên trạng thái hiện tại của mạng RNN:
at,i,j =VaTtanh(Wsst+Wf fi,j,:) (1.6.1)
αt =so f tmaxi,j(at) (1.6.2) Trong đó:
Va =véc-tơ được tham số hóa, có thể được điều chỉnh trong quá trình huấn luyện.
tanh =hàmtanh.
st =trạng thái ẩn của mạng RNN tại thời điểmt.
fi,j,c =đặc trưng của ảnh đầu vào, là kết quả sau khi đưa ảnh qua mạng trích xuất đặc trưng CNN.i là chỉ số hàng, j là chỉ số cột,clà số lượng kênh (chiều sâu).
Ws,Wf =các ten-sơ được tham số hóa, có thể được điều chỉnh trong quá trình huấn luyện.
so f tmaxi,j=hàmso f tmax.
αt =trọng số chú ý tại thời điểmt.
Công thức này sẽ được sử dụng làm cơ sở để xây dựng phương pháp tập trung được đề xuất trong bài báo.
Việc tính trọng số chú ý từ phương trình 1.6.1 có thể làm mất tính tuần tự của điểm ảnh. Để giúp cho mô hình có thêm thông tin về vị trí, đặc trưng fi,j,:
1.15). Cụ thể, đầu vào của hàmtanh sẽ được chuyển thành:
Wsst+Wf1fi,j,:+Wf2ei+Wf3ej (1.6.3) Trong đó:
ei =mã hóa 0-1 của tọa độ i.
ej =mã hóa 0-1 của tọa độ j.
Ws,Wfk =các ten-sơ được tham số hóa, có thể được điều chỉnh trong quá trình huấn luyện.