Phương thức hoạt động

Cấu trúc mạng học sâu YOLOv4 có backbone được xây dựng trên mạng CSPDarknet- 53 là sự kết hợp của CSPNet với Darnet-53. Darknet-53 gồm 53 lớp tích chập và 24 lớp kết nối dư (residual) hay shortcut. Cùng với bản thân YOLOv4 có 53 lớp tích chập (giữ từ YOLOv3) nên YOLOv4 có tổng cộng 106 lớp.

Hình 2.28.Cấu trúc Darknet-53

Mạng Darknet-53 đóng vai trò là bộ phận phân tích ra feature map (bản đồ đặc trưng trừu tượng) của hình ảnh đầu vào trong khi thu nhỏ dần kích thước của ảnh. Có thể nói là qua đó mạng đã phân tách được dữ liệu đặc trưng của vật nhỏ khi hình ảnh kích thước còn lớn và cả của vật to khi đã thu gọn kích thước của ảnh.

Tiếp đó, việc dự đoán đối tượng được thực hiện bằng việc sử dụng một loạt các lớp tích chập có kích thước 1x1 và 3x3, cuối cùng là lớp có tích chập kích thước 1x1. Nên đầu ra dự đoán có kích thước bằng với kích thước feature map trước đó. Nhưng ở đây bản đồ dự đoán được diễn giải ở mỗi ô và chỉ dự đoán với số lượng khung cố định.

Mô hình nhận diện đối tượng của YOLO chia hình ảnh thành một lưới (S dòng, S cột) như đã trình bày ở phần Head của mạng YOLOv4, mỗi ô lưới dự đoán các bounding box B (khung giới hạn), độ tin cậy của các bounding box và xác suất lớp C tương ứng. Kết quả được mã hóa dưới dạng tensor [2] (Hình 3.3)

Điều mà ta mong muốn là với mỗi ô của đặc tính trừu tượng sẽ dự đoán đối tượng

thông qua một trong những hộp giới hạn nếu điểm giữa của vật nằm trong vùng của ô đặc tính trừu tượng đó. Để xác định được ô nào ta sẽ chia nhỏ dữ liệu hình ảnh đầu vào bằng với kích thước của bản đồ đặc trưng trừu tượng của lớp cuối cùng. Nên với mỗi ô lưới:

 Dự đoán B boundary box (khung giới hạn) và mỗi khung có một confidence score (điểm số đo độ tin cậy).

 Nó phát hiện chỉ 1 đối tượng bất kể số lượng boundary box B.  Dự đoán C xác suất có điều kiện của lớp.

Ví dụ ta có ảnh đầu vào hình sau có kích cỡ 416x416 như hình 2.21 ở phía dưới đây.

Hình 2.30. Ví dụ ảnh đầu vào

Sau đó, chính ô màu vàng (trong ảnh 2.22) nơi mà chứa điểm chính giữa màu cam của hộp giới hạn dán nhãn màu cam (trong hình 2.21) của đối tượng sẽ được chọn trở thành ô phụ trách việc dự đoán đối tượng. Tại mỗi ô đặc tính trừu tượng này có thể sử dụng đến ba hộp giới hạn.

Hình 2.31. Các thuộc tính của hộp giới hạn dự đoán của YOLOv4

Đặc tính trừu tượng của mạng có (B x (5 + C)) đầu vào. Trong đó B là số lượng hộp giới hạn mà mỗi ô có thể dự đoán. Mỗi hộp dự đoán có 5 + C đặc tính bao gồm tọa độ lệch

so với điểm giữa, kích thước, điểm số đánh giá có phải vật hay không và C là độ tự tin của các lớp đối tượng trong mỗi hộp dự đoán.

Độ lệch của hai hộp dãn nhãn và hộp anchor ở đây chính là độ lệch giữa hai điểm chính giữa của hai hộp theo như hình 2.23 dưới đây. Hộp màu đỏ, tâm màu đỏ là của hộp dán nhãn và hộp màu vàng và tâm màu vàng là của hộp anchor tại ô cùng chứa tâm màu đỏ. Ta sẽ tính được độ sai lệch và của hộp anchor(anchor box) so với hộp gán nhãn đó

(bounding box).

Hình 2.32. Vị trí của hộp dán nhãn và hộp anchor

Kết quả của hộp giới hạn dự đoán được tính theo công thức dưới đây:

(9) (10) (11) (12) Trong đó:

 , , , lần lượt là tọa độ điểm chính giữa x, y, chiều dài và chiều cao của hộp giới hạn dự đoán.

 , , , là kết quả tọa độ của hộp giới hạn đầu ra của mạng.

 , là tọa độ điểm chính giữa của hộp giới hạn gốc (hộp giới hạn đã được gán nhãn).

 , là kích thước của hộp giới hạn định trước anchor box của hộp.

Mạng YOLOv4 không dự đoán chính xác vị trí tọa độ điểm chính giữa của hộp giới hạn mà chỉ dự đoán độ lệch so với tọa độ của hộp dán nhãn của ô dự đoán đối tượng, và chuẩn hóa kích thước của ô từ bản đồ đặc trưng trừu tượng thành giá trị từ 0 đến 1 bằng hàm kích hoạt sigmoid. Ví dụ trong hình 2.23 ở trên, dự đoán điểm chính giữa cho ra kết quả cuối của hộp dự đoán là (0.6, 0.7) tức là trong ảnh đặc tính trừu tượng 13x13 tọa độ của điểm đó sẽ là ở (7.8, 9.1). Kích thước của hộp giới hạn được dự đoán bằng với kết quả đầu ra của mạng ( ) [5], rồi nhân với kích thước của anchor box.

Cuối cùng, ta có công thức sau để đánh giá độ chính xác trung bình của tọa độ vị trí dự đoán so với gái trị dán nhãn thực của dữ liệu ảnh đầu vào qua hai công thức: Precision được định nghĩa là tỉ lệ số điểm true positive trong số những điểm được phân loại là positive. Recall được định nghĩa là tỉ lệ số điểm true positive trong số những điểm thực sự là positive.

Hình 2.33. Cách xác định độ chính xác theo vùng chồng chéo IoU và confident point của YOLOv4

Trong hình 2.24 thể hiện các ô màu đỏ là các hộp giới hạn dự đoán và các ô màu xanh là hộp giới hạn được dán nhãn. Trong đó True positive khi có giá trị Iou lớn hơn ngưỡng 0.5

và độ tự tin lớn hơn ngưỡng conf_thres. False positive khi IoU dưới ngưỡng nhưng độ tự tin lại lớn hơn ngưỡng, còn False negative là cả hai giá trị IoU và độ tự tin đều nhỏ hơn ngưỡng đặt. Precision cao đồng nghĩa với việc độ chính xác của các ô giới tìm được đối tượng là cao. Recall cao đồng nghĩa với việc True Positive Rate cao, tức tỉ lệ bỏ sót các ô ground- truth là thấp.

Mạng phát nhận dạng một bước

Quá trình nhận dạng của YOLO