Dự đoán phân loại mỗi lớp cho mỗi điểm ảnh và dự đoán liên kết giữa các điểm ảnh, hai ngưỡng riêng biệt này có thể được áp dụng tách rời nhau. Những điểm ảnh được dự đốn là văn bản, sau đó chúng được nhóm lại thành từng nhóm với nhau bằng cách sử dụng liên kết. Mỗi nhóm như vậy là một thể hiện của văn bản, từ đó áp dụng lên toàn bộ điểm ảnh khác, sẽ thu được phân khúc (Segmentation).
Trích xuất hộp giới hạn (Bounding Boxes)
Sau khi phân khúc được văn bản, văn bản được chia thành các nhóm khác nhau dựa vào ngưỡng liên kết, bước trích xuất hộp giới hạn gần như dễ xác định, có thể dùng minAreaRect trong thư viện openCV. Đây cũng là sự khác biệt chính giữa Pixellink và những phương pháp khác sử dụng hồi quy hộp giới hạn. Ở đây hội giới hạn được suy ra trực tiếp phân khúc (Segmentation)
Sử dụng bộ lọc sau khi phân khúc (Segmentation)
Do đầu vào gồm nhiều nhiễu nên dự đốn nhầm là khơng thể tránh khỏi, mà hộp giới hạn được xác định thông qua điểm số liên kết giữa các điểm ảnh, nên cần phải bỏ đi những dữ thừa, cách đơn giản có thể bỏ là dựa vào độ cao, chiều dài, hoặc diện tích của hộp giới hạn.
3.3 Tối ưu
3.3.1 Tính tốn vùng chính xác
cực, nếu tồn tại giao nhau giữa các vùng chính xác khác sẽ xem như là những điểm ảnh
được gán nhãn tiêu cực. Một điểm ảnh và một trong tám điểm kề nó, nếu chung cùng trong một hộp thì giá trị liên kết giữa chúng mang giá trị dương.
3.3.2 Hàm mất mát
Trong mỗi bài toán học sâu, định nghĩa hàm mất mát là một vấn đề rất quan trọng, nó ảnh hưởng đến kết quả của mơ hình rất nhiều, sau đây tơi xin trình bày tóm tắt về hàm mất mát của mơ hình Pixellink.
Mất mát trong quá trình đào tạo là tổng của mất mát trên điểm ảnh và mất mát trên liên kết.
= ��
pixel + �link PT4.6
Trong đó, �link chỉ tính tốn trên điểm ảnh mang giá trị tích cực, vì nhiệm vụ phân loại đóng vai trị quan trọng hơn so với liên kết giữa các điểm ảnh, thực tế thì � được chọn là 2.0
3.3.2.1 Mất mát trên điểm ảnh
Kích thước hộp có kích thước khác nhau, ở ví dụ dưới đây khu vực của “Manchester” lớn hơn tổng tổng tất cả nhưng hộp khác