Vị trí của hộp dán nhãn và hộp anchor

Kết quả của hộp giới hạn dự đoán được tính theo công thức dưới đây:

𝑏𝑥 = 𝜎(𝑡𝑥) + 𝑐𝑥 (9) 𝑏𝑦 = 𝜎(𝑡𝑦) + 𝑐𝑦 (10) 𝑏𝑤 = 𝑝𝑤𝑒𝑡𝑤 (11)

𝑏ℎ = 𝑝ℎ𝑒𝑡ℎ (12)

Trong đó:

 𝑏𝑥, 𝑏𝑦, 𝑏𝑤, 𝑏ℎ lần lượt là tọa độ điểm chính giữa x, y, chiều dài và chiều cao của hộp giới hạn dự đoán.

 𝑡𝑥, 𝑡𝑦, 𝑡𝑤, 𝑡ℎ là kết quả tọa độ của hộp giới hạn đầu ra của mạng.

 𝑐𝑥, 𝑐𝑦 là tọa độ điểm chính giữa của hộp giới hạn gốc (hộp giới hạn đã được gán nhãn).

 𝑝𝑤, 𝑏ℎlà kích thước của hộp giới hạn định trước anchor box của hộp. Mạng YOLOv4 không dự đoán chính xác vị trí tọa độ điểm chính giữa của hộp giới hạn mà chỉ dự đoán độ lệch so với tọa độ của hộp gán nhãn của ô dự đoán đối tượng, và chuẩn hóa kích thước của ô từ bản đồ đặc trưng trừu tượng thành giá trị từ 0 đến 1 bằng hàm kích hoạt sigmoid. Ví dụ trong hình 2.17 ở trên, dự đoán điểm chính giữa cho ra kết quả cuối của hộp dự đoán là (0.6, 0.7) tức là trong ảnh đặc tính trừu

Đỗ Đình Nam – D17HTTT1 24 tượng 13x13 tọa độ của điểm đó sẽ là ở (7.8, 9.1). Kích thước của hộp giới hạn được dự đoán bằng 𝑒𝑡𝑜 với 𝑡𝑜 kết quả đầu ra của mạng (𝑡𝑤, 𝑡ℎ ) [5], rồi nhân với kích thước của anchor box.

2.4. THEO DÕI ĐỐI TƯỢNG: OBJECT TRACKING – DEEPSORT 2.4.1. Tổng quan Object Tracking 2.4.1. Tổng quan Object Tracking

2.4.1.1. Khái niệm

Object Tracking là bài toán theo dõi một hoặc nhiều đối tượng chuyển động theo thời gian thực trong một video. Hiểu một cách đơn giản, nó là bài toán ở mức độ cao hơn nhận dạng vật thể, khi đối tượng được xử lý không đơn giản là một hình ảnh mà là một chuỗi các hình ảnh, video.

Khác với việc nhận dạng vật thể, việc theo dõi bên cạnh xác định các bounding box, còn quan tâm đến khá nhiều yếu tố hoặc nhiễu khác nhau:

 ID của mỗi đối tượng cần được đảm bảo luôn không đổi qua các khung hình(frame)

 Khi đối tượng bị che khuất hoặc biến mất sau 1 vài khung hình (frame), hệ thống vẫn cần đảm bảo nhận diện lại được đúng ID khi đối tượng xuất hiện.  Các vấn đề liên quan đến tốc độ xử lý để đảm bảo hiệu năng theo thời gian

thực và tính ứng dụng cao.

2.4.1.2. Phân loại

Object Tracking có thể chia thành 2 cách tiếp cận chính:  Single Object Tracking

Tập trung vào việc theo dõi một đối tượng duy nhất trong toán bộ video. Để biết cần theo dõi đối tượng nào, việc cung cấp một bounding box từ ban đầu là việc bắt buộc phải có.

Đỗ Đình Nam – D17HTTT1 25 Hướng tới các ứng dụng có tính mở rộng cao hơn. Bài toán cố gắng phát hiện đồng thời theo dõi tất cả các đối tượng trong tầm nhìn, kể cả các đối tượng mới xuất hiện trong video. Nên Multiple Object Tracking (theo dõi nhiều vật thể) sẽ khó hơn Single Object Tracking (theo dõi một vật thể).

2.4.2. Các vấn đề đáng quan tâm trong Theo dõi đối tượng (Object Tracking)

2.4.2.1. Multiple Object Tracking

Phương pháp Multiple Object Tracking cố gắng hướng đến việc theo dõi tất cả các đối tượng xuất hiện trong khung hình bằng việc phát hiện và gắn định danh cho từng đối tượng. Bên cạnh đó, các mã định danh đã gán cho 1 đối tượng cần đảm bảo nhất quán qua từng frame. Những vấn đề mà ta cần quan tâm:

 Phát hiện tất cả các đối tượng: Đây vẫn luôn là vấn đề được quan tâm nhất trong object detection và có rất nhiều nghiên cứu hướng đến để cải thiện vấn đề này. Ngay từ ban đầu, việc đảm bảo độ chính xác của quá trình nhận dạng rất quan trọng.

 Đối tượng bị che khuất 1 phần hoặc toàn bộ: Khi một ID được gán cho 1 đối tượng, ID cần được đảm bảo nhất quán trong suốt video, tuy nhiên, khi một đối tượng bị che khuất, ID gán cho vật sẽ biến mất và rất có thể khi nhận dạng lại ID của vật không còn giống với lúc đầu.

 Đối tượng ra khỏi phạm vi của khung hình và xuất hiện lại: khi ấy chỉ số ID của đối tượng sẽ bị thay đổi. Cần giải quyết tốt vấn đề ReID (nhận dạng lại đối tượng) kể cả việc che khuất hay biến mất để giảm sai số khi thay đổi ID vật thể.

2.4.2.2. Realtime Object Tracking

Realtime Object Tracking (nhận dạng đối tượng theo thời gian thực) lại quan tâm nhiều hơn đến tốc độ xử lý. Khi realtime cần đảm bảo tốc độ đưa ra output là nhanh hơn hoạc ít nhất là bằng tốc độ đưa vào input.

Đỗ Đình Nam – D17HTTT1 26 Trong thực tế, nếu việc xử lý từng frame chỉ khiến video có độ trễ 1s so với tốc độ bình thường của nó, việc xử lý này cũng có thể chấp nhận rằng đó là realtime. Tuy nhiên, ngay khi chấp nhận việc có độ trễ, việc đảm bảo tính realtime vẫn luôn là một vấn đề nan giải. Chúng ta cũng có thể bỏ qua một vài frame không xử lý cho đến khi frame hiện tại xử lý xong, sau đó tiếp tục xử lý các frame sau – pha xử lý này vẫn sẽ đem lại cảm giác video đang chạy realtime. Nhưng đánh đổi là tính chính xác lại giảm xuống. Hiện nay, rất nhiều nhà nghiên cứu vẫn luôn tìm kiếm những phương pháp đủ nhanh để hướng tới realtime trong xử lý.

2.4.3. Deep SORT

Deep SORT được nhóm tác giả phát triển để khắc phục vấn đề ID của vật thể bị thay đổi quá lớn qua các khung hình. Hướng giải quyết của Deep SORT dựa trên việc sử dụng deep learning để trích rút đặc trưng của đối tượng nhằm cải thiện độ chính xác, sử dụng bộ lọc Kalman để dự đoán trạng thái của đối tượng hiện tại dựa vào các track trong quá khứ và update lại các detection sau khi đã được liên kết với các track trước đó. Ngoài ra, chiến lược mới có tên Matching Cascade giúp việc liên kết các đối tượng sau khi đã biến mất một thời gian được hiệu quả hơn.

2.4.3.1. Ý tưởng

Trong multiple object tracking, có 2 yếu tố ảnh hưởng trực tiếp đến performance của việc theo dõi:

 Data Association: Quan tâm đến vấn đề liên kết dữ liệu, cụ thể là tiêu chí để đánh giá nhằm liên kết một nhận dạng mới với các track đã được lưu từ trước.

 Track Life Cycle Management: quan tâm đến việc quản lý vòng đời của một track đã được lưu trữ. Khi nào thì khởi tạo track, khi nào thì ngưng theo dõi và xóa track ra khỏi bộ nhớ, ..

Trong deep SORT, nhóm tác giả giải quyết vấn đề data association dựa trên IOU, khoảng cách của detection và track (xét tính tương quan trong không gian vector) và

Đỗ Đình Nam – D17HTTT1 27 khoảng cách cosine giữa 2 vector đặc trưng được trích xuất từ detection và track. Khi mà 2 vector đặc trưng của cùng một đối tượng sẽ giống nhau hơn là đặc trưng của 2 đối tượng khác nhau.

2.4.3.2. Bộ trích xuất đặc trưng

Nhằm phát triển một bộ trích xuất đặc trưng cho mỗi detection (bounding box), tác giả đã phát triển một kiến trúc mạng có tên Wide Residual Network, huấn luyện riêng trên các bộ dữ liệu lớn về định danh người như: Market 1501, MARS, ..

2.4.3.2.1. Wide Residual Network (WRN)

Các mạng nơ-ron thông thường, để đạt được hiệu năng cao, thường cố gắng phát triển theo hướng tăng độ sâu của mạng. Đây là hướng đi chung để có thể tạo ra một bộ trích xuất đặc trưng hiệu quả. Tuy nhiên đó cũng mang đến nhược điểm đó là thời gian huấn luyện và thời gian xử lý lớn, đây là điều đi hoàn toàn ngược lại với mục tiêu của deep SORT. Do đó, thay vì sử dụng các mạng học sâu (Deep Neural Network), nhóm tác giả lựa chọn các mạng nông (Shallow Neural Network), ở đây là Wide Residual Network (WRN).

Kiến trúc của WRN được giới thiệu với số lớp rất nhỏ (16 lớp) nhưng đạt được hiệu năng vượt trội hơn các kiến trúc nhiều lớp khác. Đặc biệt thời gian huấn luyện và xử lý cũng tăng hơn rất nhiều.

Vị trí của hộp dán nhãn và hộp anchor

Mạng phát hiện nhận dạng một bước

THEO DÕI ĐỐI TƯỢNG: OBJECT TRACKING – DEEPSORT