2 Nền tảng và các cơng trình liên quan
2.18 Kết nối tắt của Resnet
Việc có thể thêm kết nối tắt khiến cho gradient khi lan truyền ngược lại không bị mất đi giúp bảo tồn thơng tin. Vì vậy Resnet là một kiến trúc an tồn cho giải pháp tăng độ chính xác bằng cách tăng số lượng tầng.
Text Recognition
Trong các lớp Element GUI chúng ta có label là nhãn chứa từ ngữ hoặc các button có ghi chữ ở trên. Trong nhiều trường hợp các element này khơng có đường bao xung quanh rõ nên việc phân đoạn ảnh cho các element có chữ này sẽ trở nên khó khăn. Vì vậy ta cần phải phát hiện chữ song song với phát hiện các element.
Khi thực hiện nhận dạng chữ trong GUI, một khó khăn mà nhóm gặp phải là vị trí các chữ cũng như định dạng là không đồng nhất giữa các ảnh và background của các chữ khá là phức tạp. Đây là một trường hợp của scene text hay là text trong ngữ cảnh tự nhiên khác với document text có cấu trúc rõ ràng. Cho nên đối với bài tốn này khó áp dụng các giải pháp đã sử dụng cho các bài toán quen thuộc như nhận diện chữ trong văn bản, CMND, etc. Để giải quyết bài tốn nhóm đã tìm hiểu các giải thuật chun dành cho việc nhận diện scene text.
transform)[14] hay giải thuật biến đổi bề rộng nét chữ. Giải thuật dựa trên việc mỗi chữ thường có bề rộng nét thay đổi rất ít để phát hiện và nhóm các kí tự lại với nhau. Một ưu điểm của giải thuật là thực hiện rất nhanh, không tốn thời gian huấn luyện và không phụ thuộc vào ngơn ngữ cần nhận diện(hình 2.19).