Nếu tính tốn chi phí trên điểm ảnh mà gán tất các điểm ảnh cùng một trọng số, thì điều này không công bằng với các hộp nhỏ và sẽ ảnh hưởng đến hiệu suất của mơ
hình. Như vậy, để giải quyết vấn đề này thì việc gán trọng số cho mỗi điểm ảnh được áp dụng như một bài toán phân tách, đề xuất sử dụng Instance- Balanced
Cross- Entropy Loss. Sau đây tôi sẽ đi vào chi tiết của đề xuất này:
Giả sử rằng trong một bức ảnh có hộp, thì tất cả các giá trị điểm ảnh bên trong mỗi hộp được gán bằng nhau, đối với hộp thứ i có diện tích là Si thì tất cả các điểm ảnh trong hộp thứ được gán là �� = �� � � trong đó: � � �� = � , � = ∑ �� , �{1, … , �} PT 4.7 �
Dễ nhận thấy rằng những điểm ảnh nằm trong các hộp có diện tích nhỏ thì được gán với trọng số cao hơn.
Cịn giá trị mỗi điểm ảnh không nằm trong hộp áp dụng Online Hard Example Mining (OHEM) [7], để đi vào chi tiết OHEM [7], r * S điểm ảnh không nằm trong hộp được chọn, bằng cách gán tất cả giá trị điểm ảnh không nằm trong hộp bằng một. Và tỉ lệ diện tích của phần ngồi hộp so với phần hộp được gán bằng
r = 3 như là một con số chung cho thực tế. Từ những giả thiết trên chúng ta sẽ thu
được một ma trận trọng số kí hiệu là W . Vậy mất mát của nhiệm vụ phân loại các điểm ảnh được định nghĩa:
1
��� �� � =
(1 + �)� �� ������� ��4.8
Trong đó �_______________ là ma trận Cross-Entropy đựa trên dự đoán text/non-text 3.3.2.2 Mất mát trên các liên kết
Phần trên đã trình bày về mất mát trên điểm ảnh, hay là mất mát do quá trình phân loại mỗi điểm ảnh. Sau đây tơi sẽ trình bày về thành phần mất mát thứ hai của Pixellink [5] đó là mất mát trên các liên kết, để phân tách được tầng nhóm điểm ảnh với nhau, cần dựa vào tính liên kết giưa các điểm ảnh đó, tương tự Pixellink cũng vậy, dựa vào liên kết giữa các hàng xóm và đưa ra quyết định nhóm các điểm ảnh
Mất mát liên kết được tách thành hai thành phần, mất mát liên kết của các điểm ảnh nằm trong hộp và các điểm ảnh nằm ngoài các hộp, được định nghĩa như sau:
�������� = � �������������� PT4.9
�������� = �������������PT4.10
Trong đó, ������� là ma trận Cross-Entropy của dự đoán liên kết, và
� ������� , �������� tương ứng là ma trận trọng số liên kết giưa các điểm ảnh trong hộp và điểm ảnh ngồi hộp, ma trận này được tính tốn từ W . Chi tiết hơn, đối với hàng xóm thứ k của điểm ảnh (i,j ) được tính như sau:
���� ���� ( , , � ) = (,(,(,(,(,(,(,(,(,(,(,(,(,(,(,) ∗ (�����(, , � ) = 1), PT 4.11 ��������(,,,,,,,,,,,,,,,,,,,,,,,,,,,,,, ) = �(,,,,,,,,,,,,,,,) ∗ ((((((((((((((( ����(i,j,k) = 0)
PT.4.12 Trong đó ����� là ma trận nhãn của liên kết
Vậy mất mát của liên kết được tính như sau
�����
= ((((((((((((((( ��������
������ + ��������
����
P 4.13
Và là tổng trung bình của tất cả các điểm trên ma trận 3.4 Chuẩn bị dữ liệu và đào tạo
3.4.1 Chuẩn bị dữ liệu
Chuẩn bị dữ liệu là bước cực kì quan trọng, nó quyết đinh rất lớn đến kết qủa thu được, dữ liệu càng đa dạng và tổng qt thì mơ hình có tính tổng qt hóa cao, sẽ dự đốn tốt cho những dữ liệu tương lai. Một phần vì thời gian, cũng như dữ liệu thật là có hạn, nên q trình gán nhãn dữ liệu mất rất nhiều thời gian cũng như là bị hạn chế của dữ liệu thật, bên cạnh đó có nhưng bước tiền xử lý, áp dụng xử lý ảnh để bỏ nhiễu cũng như làm giàu dữ liệu, bằng cách xoay ảnh với các góc khác
nhau như 0, � 2 , �, 3 � 2
trích tầng vùng trên bức ảnh với các vùng có diện tích tỉ lệ từ 0.1 đến 1.
Dữ liệu để train với Pixellink được chia thành hai phần đó là dữ liệu tự gán nhãn và dữ liệu được sinh ra.
3.4.2 Dữ liệu thật:
Từ các ảnh, sử dụng công cụ là phần mềm LabelImg để xác định hộp cho các chuỗi, phần mềm này ứng với mỗi ảnh sẽ sinh ra một tệp có định dạng *.xml tương ứng, từ tệp *.xml mình chuyển về định dạng mong muốn đầu vào của mạng và lưu dưới tệp định dạng .txt
Chú ý: Nếu quá trình xác định hộp cho dữ liệu thật mà nội dung của hộp đó khơng thể xác định bằng mắt thường thì được xem là nhiễu, khi đó nội dung đó được gán nhãn là ###, để q trình đào tạo ở mạng lúc tính tốn mất mát sẽ xem nhưng hộp đó có chi phí bằng 0, sẽ khơng ảnh hưởng đến quá trình cập nhật trên các bộ tham số của mơ hình. Dưới đây là hình ảnh minh họa của quá trình xác định hộp cũng như gán nhãn cho hộp