2 CÁC PHƯƠNG PHÁP TIẾP CẬN BÀI TOÁN
2.25 Kiến trúc tổng thể của kiến trúc FOTS [?]
Kiến trúc này được cấu tạo bởi bốn thành phần chính: Mạng tích chập, RoIRotate, cùng các nhánh phát hiện ký tự và nhận diện ký tự. Kiến trúc tổng thể được thể hiện ở trong hình 2.25. Trong đó mạng tích chập có nhiệm vụ trích xuất các thông tin có ích từ ảnh đầu vào. Nhánh phát hiện ký tự lấy đầu vào là các thông tin được trích xuất từ mạng tích chập, sau đó sẽ dự đoán trên từng pixel ảnh xem có thuộc vùng ký tự hay không cùng với khoảng cách tới các cạnh và góc xoay của vùng chứa ký tự. Kiến trúc RoIRotate sau đó sẽ áp dụng các biến đổi trên vùng đặc trưng cần quan tâm được xác định bởi đầu ra của mạng tích chập và đầu ra của nhánh xác định vị trí ký tự. Hình ?? miêu tả sự thay đổi của vùng ảnh sau khi được biến đổi qua kiến trúc RoIRotate. Ta thấy rằng, kiến trúc RoIRotate sẽ biến đổi vùng ảnh có tỷ lệ bất kỳ thành một tỷ lệ duy nhất. Cuối cùng, vùng đặc trưng cần quan tâm từ đầu ra của kiến trúc RoIRotate được đi qua nhánh nhận diện ký tự để xác định các ký tự có trong vùng ảnh tương ứng. Kiến trúc của nhánh nhận diện ký tự là các kiến trúc tương với kiến trúc Mạng bộ nhớ dài ngắn - Long Short Term Memory để có thể phân tích vùng đặc trưng đầu vào thành chuỗi các ký tự.
Hàm mất mát của kiến trúc này là phép tổ hợp tuyến tính từ hàm mất mát của nhánh xác định vị trí ký tự và nhánh nhận diện ký tựL=Ldetect+λLrecog