2.2. Tiếp cận dựa trên đề xuất vùng, phân lớp và hồi quy H
3.2.1. Chi tiết mô hình
YOLO sử dụng các lớp tích chập (CNN), khiến nó trở thành một mạng kết nối toàn phan (fully convolutional network FCN). Trong YOLOv3 ta có một kiến trúc sâu hơn về trích xuất đặc trưng gọi là Darknet-53. Giống như tên gọi, nó bao gồm 53 lớp tích chập (CNN), mỗi lớp tích chập với trượt
11
(stride) là 2 được sử dụng để hạ mẫu (downsampling) các biểu đồ đặc trưng. Điều này giúp tránh khỏi mat mát của những đặc trưng cấp thấp thường bị ảnh
hưởng bởi gộp lại (pooling).
Type Filters Size Output
Convolutional 32 3x3 256 x 256 Convolutional 64 3x3/2 128 x 128
Convolutional 128 3x3/2 64x64 Convolutional 64 1x1
2x| Convolutional 128 3x3
Residual 64 x 64
Convolutional 256 3x3/2 32x32 Convolutional 128 1x1
8x} Convolutional 256 3 x 3
Residual 32 x 32
Convolutional 512 3x3/2 16x16 Convolutional 256 1x1
8x} Convolutional 512 3x3
Residual 16x 16
Convolutional 512 1x1 4x| Convolutional 1024 3 x3
Residual 8x8
Avgpool Global
Connected 1000
Softmax
Hình 3.2: kiến trúc Dartnet-53[6] .
Trong YOLO dự đoán mỗi ô của mạng đặc trưng cho một đối tượng qua việc một trong những vùng chứa của đối tượng rơi vào trường tiếp nhận của ô đó trong bài toán này là vùng chứa văn bản. điều này chính là cách YOLO được huấn luyện, nơi nào chỉ một vùng chứa chịu trách nhiệm cho nhận
diện bât kì vật thê nào, trong bài toán này là vùng chứa văn bản. Đâu tiên,
12
chúng ta phải xác minh 6 nào mà vùng chứa đó thuộc vê, đê làm được điêu này, chúng ta chia ảnh đâu vào thành các ô với kích thước băng với kích thước
của bản đô đặc trưng cuôi cùng. Sau đó, ô chứa trung tâm của khung chịu trách
nhiệm cho dự đoán đối tượng.
Mô hình này sử dụng khung neo (Anchor Box) dé đưa ra dự đoán các vùng chứa, việc dự đoán các khung neo (Anchor box) này sẽ dễ dàng hơn nhiều so với dự đoán các tọa độ dé tăng độ chính xác. Các khung neo này là
sự sắp xếp độ ưu tiên vùng chứa, sử dụng thuật toán gom cụm Kmean dé đưa
ra các lựa chọn khung neo tốt nhất cho mạng, việc này tạo ra IoU tốt hơn (Intersection over Union). Chúng ta sẽ dự đoán độ rộng và chiều cao của khung
từ cụm trung tâm, tọa độ điểm trung tâm của vùng chứa liên quan tới vị trí của phần lọc đã được dự đoán.
Đầu tiên của các điểm đối tượng đại diện cho khả năng mà đối tượng
được bao bên trong vùng chứa. Nó nên gần 1 cho 6 ở tâm vùng chứa. Điểm đối tượng này được tính qua hàm sigmoid và nó được xem như là một xác xuất. YOLOv3 dự đoán thông qua ba thang đo khác nhau, lớp nhận diện được
sử dụng tại bản đồ đặc trưng của ba kích cỡ khác nhau, có độ trượt là 32, 16,
8. Điều này có nghĩa là, với đầu vào 416x416, chúng ta dự đoán ở 13x13, 26x26 và 52x52. Khi mà giảm độ lớn của hình ảnh đầu vào đến lớp nhận diện đầu tiên, cái mà được sử dụng cho bản đồ đặc trưng với độ trượt là 32. Có định dạng kích trước bản đồ đặc trưng. Một nhận diện khác là sử dụng lớp với độ trượt là 16. Lay mẫu (Upsampling) tương tự sẽ được sử dụng lại và kết qua nhận diện cuối cùng được tạo với lớp có độ trượt là 8. Điều này giúp cho việc nhận diện các đối tượng nhỏ tốt hơn, lấy mẫu (Upsampling) có thé giúp mạng học làm mịn đặc trưng đây là phương tiện dé nhận diện những vật thé nhỏ.
Tiép theo ta so sánh các điêm đôi tượng nêu điêm đôi tượng dưới một
ngưỡng nào đó sẽ bị loại vùng dự đoán đó. Sau đó dùng Non-maximum
Supperesion (NMS) dé xóa các nhận diện trùng nhau.
13
e Loại bỏ các khung có điểm thấp (có nghĩa là khung không tự tin về
việc phát hiện của mình).
e Lựa chọn chỉ một khung khi nhiều khung chồng lên nhau với mỗi
cái khác và nhận diện cùng một vật thé (NMS).
3.2.2. Ly do chọn YOLOv3
Ưu điểm mà YOLO mang lại đó là chỉ sử dụng thông tin toàn bộ bức
ảnh một lân và dự đoán toàn bộ các khung vật thê chứa các đôi tượng.
YOLOv3 dự đoán độ tự tin của vùng chứa (có chứa vật thể cần tìm hay
không) sử dung logistic regression, YOLOv3 sử dụng các logistic classifier
thay vi softmax cho việc classify đối tượng. Việc nay cho hiệu quả tốt hơn néu
các đối tượng loại trừ lẫn nhau, tức là có thể đối tượng cùng thuộc nhiều loại
khác nhau. Ví dụ với bài toán trong khóa luận này ta cần phát hiện đối tượng
là văn bản, văn bản trong bong bóng thoại cũng là văn bản mà văn bản không
trong bong bóng thoại cũng là văn bản vì thế nên sử dụng softmax trong trường
hợp này là không phù hợp.
Sử dụng khung xương mạng mới là Darknet-53: Khung mô hình được
thiết kế lại cùng với việc thêm các khối (residual block) với khung xương này
ta có thé dat được 1 mô hình tong quát hóa dữ liệu tốt hơn va đó là mục tiêu ta
đang hướng tới.
YOLOv3 sử dụng kiến trúc FPN (Feature Pyramid Networks) dé đưa
ra các dự đoán từ nhiều tỉ lệ khác nhau của biéu đồ đặc trưng việc này giúp
mô hình tận dụng các biểu đồ đặc trưng với độ đặc trưng khác nhau cho việc
dự đoán kết hợp với các liên kết giữa các lớp dự đoán. Mô hình lấy mẫu (Upsampling) các lớp dự đoán ở các tầng sau và sau đó sẽ nối với các lớp dự đoán ở các tầng trước đó phương pháp này giúp tăng độ chính xác khi dự đoán các vật thé nhỏ và trong | trang truyện thì có rất nhiều những vùng chứa văn
bản nhỏ trong đó.
14
3.3. Các kỹ thuật sử dụng trong mô hình
3.3.1. Batch Normalization
Kĩ thuật Batch Normalization được đưa vào sau tất cả các lớp tích chập của mô hình. Kĩ thuật này không những giảm được thời gian huấn luyện, mà còn có tác dụng tăng tính tổng quát (generalize) cho mạng, việc này giúp tăng
độ chính xác và mạng cũng sẽ không cần sử dung dropout dé tăng tính tổng
quát.