Khái qt về mơ hình dị tìm đối tượng YOLO

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu cải tiến kỹ thuật phát hiện và thay thế đối tượng trong video (Trang 52 - 54)

CHƯƠNG 2 PHÁT HIỆN ĐỐI TƯỢNG TRONG VIDEO

2.1.1. Khái qt về mơ hình dị tìm đối tượng YOLO

Năm 2016, Redmon và các cộng sự đã đề xuất mơ hình dị tìm đối tượng đầu-cuối YOLO [68]. Đây là mơ hình dị tìm đối tượng một trạng thái, thống nhất toàn bộ các thành phần riêng biệt trong q trình dị tìm đối tượng vào một mạng nơron duy nhất. YOLO sử dụng đặc trưng từ tồn bộ bức ảnh để dự đốn bounding box cho tất cả các lớp đối tượng.

Hình 2.1. Ý tưởng chính của mơ hình YOLO

Ý tưởng chính của mơ hình YOLO được biễu diễn trong hình 2.1. Ảnh đầu vào sẽ được chia thành một lưới gồm 𝑆𝑥𝑆 ô vuông (grid cell), dự đoán B bounding box và C xác suất phân lớp cho mỗi grid cell. Mỗi bounding box trong cell thứ i chứa 5 thành phần dự đoán: 𝑥, 𝑦, 𝑤, ℎ và chỉ số đối tượng (Confidence score). Trong đó, các giá trị 𝑤 và ℎ biểu diễn kích thước chiều ngang và chiều dọc tương đối của bounding box so với kích thước tồn bộ bức ảnh. Các giá trị (𝑥, 𝑦) biểu diễn tọa độ tương đối của tâm đối tượng so với viền

grid cell. Confidence score phản ánh độ tin cậy tồn tại đối tượng chứa bên trong bounding box, và được định nghĩa theo công thức sau:

Confidence score = Pr(𝑜𝑏𝑗) ∗ 𝐼𝑜𝑈𝑝𝑟𝑒𝑑𝑡𝑟𝑢𝑡ℎ (2.1)

Hình 2.2. Cách tính IoU

Trong phương trình (2.1), Pr(𝑜𝑏𝑗) có giá trị trong khoảng [0,1] là xác xuất đối tượng rơi vào trong ô hiện tại. 𝐼𝑜𝑈𝑝𝑟𝑒𝑑𝑡𝑟𝑢𝑡ℎ (Intersection Over Union -

IoU) là tỉ lệ trùng khớp của bounding box dự đoán so với hộp bao thực tế

(ground-truth box) (được minh họa trong hình 2.2). Tỷ lệ IoU càng cao thì độ so khớp càng tốt.

Kết quả dự đoán đưa ra rất nhiều bounding box, các bounding box với chỉ số đối tượng bé hơn một ngưỡng xác định trước sẽ bị loại bỏ. Sau đó, thuật tốn loại bỏ điểm khơng cực đại (Non-Maxima Suppression - NMS) [61] được sử dụng để loại bỏ các bounding box không cần thiết.

Để cải tiến độ chính xác dự đốn của mơ hình YOLO, Redmon và các cộng sự đã đề xuất một phiên bản YOLOv2 vào năm 2017 [69]. Kiến trúc mạng Darknet-19 cải tiến bằng cách loại bỏ các tầng kết nối đầy đủ của mạng Darknet-19 nguyên bản để thay thế cho kiến trúc mạng VGG-16 trong phiên bản YOLO. Đồng thời chuẩn hóa cụm (batch normalization-BN) [37] được áp dụng cho từng tầng. Bên cạnh đó, sử dụng ý tưởng cơ chế hộp neo (anchor box) của mạng dị tìm đối tượng CNN nhanh dựa trên đề xuất vùng (Faster R-CNN), giải thuật phân cụm k-means được sử dụng để xác định các hộp neo này. So với YOLO, YOLOv2 có sự cải thiện lớn cả về độ chính xác và tốc độ dị tìm đối tượng.

YOLOv3 [70] tiếp tục được phát triển với một số cải tiến từ YOLOv2 nhằm gia tăng độ chính xác trong dị tìm đối tượng đặc biệt với các đối tượng nhỏ. Cải tiến cốt lõi là sử dụng kiến trúc mạng dạng hình tháp đặc trưng, biến thể của kiến trúc Darknet-53, gồm 106 tầng nhân chập đầy đủ để nhận dạng đối tượng ở ba mức tỷ lệ khác nhau. Trong đó tầng 13x13 chịu trách nhiệm dị tìm đối tượng lớn, trong khi tầng 52x52 dị tìm đối tượng nhỏ và 26x26 dị tìm các đối tượng vừa. Ngồi ra cịn một số cải tiến nhỏ khác như: sử dụng bộ phân lớp logistic thay cho softmax tạo ra phân lớp đa tỷ lệ, sử dụng 9 anchor box với 3 anchor box cho mỗi tỷ lệ. Do sử dụng kiến trúc mạng lớn, phân lớp 3 tầng nên độ chính xác trong dị tìm các đối tượng nhỏ được cải thiện nhưng tốc độ thực thi lại giảm đi đáng kể.

Bên cạnh đó, họ YOLO là mơ hình dị tìm đối tượng tổng qt, ứng dụng thích hợp cho các trường hợp mà các đối tượng dị tìm có sự đa dạng, phức tạp về hình thể và sự khác biệt giữa các lớp đối tượng là tương đối lớn như lớp người, con vật, đồ vật. Tuy nhiên, với các đối tượng quảng cáo không quá phức tạp về cấu trúc. Hơn nữa, sự khác biệt giữa các lớp đối tượng quảng cáo không q lớn. Do đó, để dị tìm đối tượng quảng cáo tốt hơn, luận án đã cải tiến mơ hình YOLOv3 thành mơ hình YOLO-Adv, dị tìm đối tượng quảng cáo qua các frame của video đạt được hiệu năng tốt trên cả tập dữ liệu kiểm thử và một số tập dữ liệu tương tự khác.

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu cải tiến kỹ thuật phát hiện và thay thế đối tượng trong video (Trang 52 - 54)

Tải bản đầy đủ (PDF)

(138 trang)