Chi tiết mô hình - Tiếp cận dựa trên đề xuất vùng,- 123docz.net

2.2. Tiếp cận dựa trên đề xuất vùng, phân lớp và hồi quy H

3.2.1. Chi tiết mô hình

YOLO sử dụng các lớp tích chập (CNN), khiến nó trở thành một mạng kết nối toàn phan (fully convolutional network FCN). Trong YOLOv3 ta có một kiến trúc sâu hơn về trích xuất đặc trưng gọi là Darknet-53. Giống như tên gọi, nó bao gồm 53 lớp tích chập (CNN), mỗi lớp tích chập với trượt

(stride) là 2 được sử dụng để hạ mẫu (downsampling) các biểu đồ đặc trưng. Điều này giúp tránh khỏi mat mát của những đặc trưng cấp thấp thường bị ảnh

hưởng bởi gộp lại (pooling).

Type Filters Size Output

Convolutional 32 3x3 256 x 256 Convolutional 64 3x3/2 128 x 128

Convolutional 128 3x3/2 64x64 Convolutional 64 1x1

2x| Convolutional 128 3x3

Residual 64 x 64

Convolutional 256 3x3/2 32x32 Convolutional 128 1x1

8x} Convolutional 256 3 x 3

Residual 32 x 32

Convolutional 512 3x3/2 16x16 Convolutional 256 1x1

8x} Convolutional 512 3x3

Residual 16x 16

Convolutional 512 1x1 4x| Convolutional 1024 3 x3

Residual 8x8

Avgpool Global

Connected 1000

Softmax

Hình 3.2: kiến trúc Dartnet-53[6] .

Trong YOLO dự đoán mỗi ô của mạng đặc trưng cho một đối tượng qua việc một trong những vùng chứa của đối tượng rơi vào trường tiếp nhận của ô đó trong bài toán này là vùng chứa văn bản. điều này chính là cách YOLO được huấn luyện, nơi nào chỉ một vùng chứa chịu trách nhiệm cho nhận

diện bât kì vật thê nào, trong bài toán này là vùng chứa văn bản. Đâu tiên,

chúng ta phải xác minh 6 nào mà vùng chứa đó thuộc vê, đê làm được điêu này, chúng ta chia ảnh đâu vào thành các ô với kích thước băng với kích thước

của bản đô đặc trưng cuôi cùng. Sau đó, ô chứa trung tâm của khung chịu trách

nhiệm cho dự đoán đối tượng.

Mô hình này sử dụng khung neo (Anchor Box) dé đưa ra dự đoán các vùng chứa, việc dự đoán các khung neo (Anchor box) này sẽ dễ dàng hơn nhiều so với dự đoán các tọa độ dé tăng độ chính xác. Các khung neo này là

sự sắp xếp độ ưu tiên vùng chứa, sử dụng thuật toán gom cụm Kmean dé đưa

ra các lựa chọn khung neo tốt nhất cho mạng, việc này tạo ra IoU tốt hơn (Intersection over Union). Chúng ta sẽ dự đoán độ rộng và chiều cao của khung

từ cụm trung tâm, tọa độ điểm trung tâm của vùng chứa liên quan tới vị trí của phần lọc đã được dự đoán.

Đầu tiên của các điểm đối tượng đại diện cho khả năng mà đối tượng

được bao bên trong vùng chứa. Nó nên gần 1 cho 6 ở tâm vùng chứa. Điểm đối tượng này được tính qua hàm sigmoid và nó được xem như là một xác xuất. YOLOv3 dự đoán thông qua ba thang đo khác nhau, lớp nhận diện được

sử dụng tại bản đồ đặc trưng của ba kích cỡ khác nhau, có độ trượt là 32, 16,

8. Điều này có nghĩa là, với đầu vào 416x416, chúng ta dự đoán ở 13x13, 26x26 và 52x52. Khi mà giảm độ lớn của hình ảnh đầu vào đến lớp nhận diện đầu tiên, cái mà được sử dụng cho bản đồ đặc trưng với độ trượt là 32. Có định dạng kích trước bản đồ đặc trưng. Một nhận diện khác là sử dụng lớp với độ trượt là 16. Lay mẫu (Upsampling) tương tự sẽ được sử dụng lại và kết qua nhận diện cuối cùng được tạo với lớp có độ trượt là 8. Điều này giúp cho việc nhận diện các đối tượng nhỏ tốt hơn, lấy mẫu (Upsampling) có thé giúp mạng học làm mịn đặc trưng đây là phương tiện dé nhận diện những vật thé nhỏ.

Tiép theo ta so sánh các điêm đôi tượng nêu điêm đôi tượng dưới một

ngưỡng nào đó sẽ bị loại vùng dự đoán đó. Sau đó dùng Non-maximum

Supperesion (NMS) dé xóa các nhận diện trùng nhau.

e Loại bỏ các khung có điểm thấp (có nghĩa là khung không tự tin về

việc phát hiện của mình).

e Lựa chọn chỉ một khung khi nhiều khung chồng lên nhau với mỗi

cái khác và nhận diện cùng một vật thé (NMS).

3.2.2. Ly do chọn YOLOv3

Ưu điểm mà YOLO mang lại đó là chỉ sử dụng thông tin toàn bộ bức

ảnh một lân và dự đoán toàn bộ các khung vật thê chứa các đôi tượng.

YOLOv3 dự đoán độ tự tin của vùng chứa (có chứa vật thể cần tìm hay

không) sử dung logistic regression, YOLOv3 sử dụng các logistic classifier

thay vi softmax cho việc classify đối tượng. Việc nay cho hiệu quả tốt hơn néu

các đối tượng loại trừ lẫn nhau, tức là có thể đối tượng cùng thuộc nhiều loại

khác nhau. Ví dụ với bài toán trong khóa luận này ta cần phát hiện đối tượng

là văn bản, văn bản trong bong bóng thoại cũng là văn bản mà văn bản không

trong bong bóng thoại cũng là văn bản vì thế nên sử dụng softmax trong trường

hợp này là không phù hợp.

Sử dụng khung xương mạng mới là Darknet-53: Khung mô hình được

thiết kế lại cùng với việc thêm các khối (residual block) với khung xương này

ta có thé dat được 1 mô hình tong quát hóa dữ liệu tốt hơn va đó là mục tiêu ta

đang hướng tới.

YOLOv3 sử dụng kiến trúc FPN (Feature Pyramid Networks) dé đưa

ra các dự đoán từ nhiều tỉ lệ khác nhau của biéu đồ đặc trưng việc này giúp

mô hình tận dụng các biểu đồ đặc trưng với độ đặc trưng khác nhau cho việc

dự đoán kết hợp với các liên kết giữa các lớp dự đoán. Mô hình lấy mẫu (Upsampling) các lớp dự đoán ở các tầng sau và sau đó sẽ nối với các lớp dự đoán ở các tầng trước đó phương pháp này giúp tăng độ chính xác khi dự đoán các vật thé nhỏ và trong | trang truyện thì có rất nhiều những vùng chứa văn

bản nhỏ trong đó.

3.3. Các kỹ thuật sử dụng trong mô hình

3.3.1. Batch Normalization

Kĩ thuật Batch Normalization được đưa vào sau tất cả các lớp tích chập của mô hình. Kĩ thuật này không những giảm được thời gian huấn luyện, mà còn có tác dụng tăng tính tổng quát (generalize) cho mạng, việc này giúp tăng

độ chính xác và mạng cũng sẽ không cần sử dung dropout dé tăng tính tổng

quát.