Cơ sở lý thuyế t Lớp nơ-ron chú ý Attention Layer- 123docz.net

Layer

1.6.1 Tổng quát

Trước đây, các mô hình OCR thường tập trung vào trích xuất ký tự từ các loại tài liệu, văn bản được thu từ máy quét ảnh (scanner) và cho độ chính xác cao. Tuy nhiên, khi các mô hình trên được sử dụng để trích xuất ký tự từ ảnh chụp thực tế như biển hiệu, biển số xe, áp phích, ... thì độ chính xác giảm một cách rõ rệt. Ảnh chụp thực tế bị biến dạng; ký tự bị che, mờ ,nhòe hoặc bị sắp xếp lộn xộn là những vấn đề đang tồn tại mà các mô hình OCR cần xử lý.

Zbigniew Wojna [4] đã đưa ra một mô hình OCR có khả năng tập trung vào những phần chứa thông tin quan trọng, khắc phục tính lộn xộn của ký tự trong ảnh chụp thực tế. Mô hình được cấu thành từ mạng CNN và RNN, kết hợp với cơ chế tập trung được đề xuất bởi tác giả (Hình 1.14). Ảnh đầu vào được cắt và thay đổi kích thước để tạo ra bốn ảnh khác nhau (thông tin ký tự trên ảnh không thay đổi). Từng ảnh được đưa vào cùng một mạng CNN để trích xuất đặc trưng, sau đó được tổng hợp lại thành một đặc trưng lớn, ký hiệu là f. Cuối cùng f được nhân với các trọng số chú ýαt tạo ra đặc trưngut

Hình 1.14: Kiến trúc của mô hình mạng nơ-ron chú ý. Nguồn: [4]Mô hình cho độ chính xác 84,2% trên tập dữ liệu French Street Name Mô hình cho độ chính xác 84,2% trên tập dữ liệu French Street Name Signs (FSNS) [45] và trở thành mô hình có độ chính xác cao nhất tính đến thời điểm bài báo được công bố (mô hình tốt nhất trước đó đạt độ chính xác 72.46%). Mục này sẽ tập trung mô tả cơ chế chú ý được đưa ra trong bài báo.

1.6.2 Cơ chế chú ý trong OCR

Trước đây, các phương pháp sử dụng cơ chế chú ý ([6] - [11]) trong OCR dự đoán trọng số chú ý dựa trên trạng thái hiện tại của mạng RNN:

at,i,j =VaTtanh(Wsst+Wf fi,j,:) (1.6.1)

αt =so f tmaxi,j(at) (1.6.2) Trong đó:

Va =véc-tơ được tham số hóa, có thể được điều chỉnh trong quá trình huấn luyện.

tanh =hàmtanh.

st =trạng thái ẩn của mạng RNN tại thời điểmt.

fi,j,c =đặc trưng của ảnh đầu vào, là kết quả sau khi đưa ảnh qua mạng trích xuất đặc trưng CNN.i là chỉ số hàng, j là chỉ số cột,clà số lượng kênh (chiều sâu).

Ws,Wf =các ten-sơ được tham số hóa, có thể được điều chỉnh trong quá trình huấn luyện.

so f tmaxi,j=hàmso f tmax.

αt =trọng số chú ý tại thời điểmt.

Công thức này sẽ được sử dụng làm cơ sở để xây dựng phương pháp tập trung được đề xuất trong bài báo.

Việc tính trọng số chú ý từ phương trình 1.6.1 có thể làm mất tính tuần tự của điểm ảnh. Để giúp cho mô hình có thêm thông tin về vị trí, đặc trưng fi,j,:

1.15). Cụ thể, đầu vào của hàmtanh sẽ được chuyển thành:

Wsst+Wf1fi,j,:+Wf2ei+Wf3ej (1.6.3) Trong đó:

ei =mã hóa 0-1 của tọa độ i.

ej =mã hóa 0-1 của tọa độ j.

Ws,Wfk =các ten-sơ được tham số hóa, có thể được điều chỉnh trong quá trình huấn luyện.

Hình 1.15: Gộp tọa độ của điểm ảnh vào đặc trưng. Nguồn: [4]

Cơ sở lý thuyế t Lớp nơ-ron chú ý Attention Layer

Lớp tổng hợp Pooling Layer (PL) Nguồn: [85]

Kiến trúc mạng RN N Nguồn: [85]