3.3 .b Deformable ROI Pooling
3 So sánh kết quả với các mơ hình hiện tại
Kết quả đánh giá định lượng được tính bằng các thước đo cho bài toán theo dấu nhiều đối tượng để đánh giá như multi-object tracking accuracy (MOTA), multi-object tracking precision (MOTP), Identity F1-score (IDF1), ideneity switch(IDs), most tracking (MT) và Most Lost (ML). Đây là các chỉ số chính được dùng trong trong MOT challenge [15] và được hầu hết các bài bài báo sử dụng để đánh giá cho bài toán theo dấu nhiều người đi bộ.
Kết quả đánh giá của mơ hình đề xuất trên được trình bày trong bảng 3. Chúng ta sẽ tiến hành so sánh mơ hình đề xuất với các mơ hình tốt nhất ở thời điểm khảo sát sử dụng hướng tiếp cận joint detection and tracking (JDT). Như đã trình bày trong bảng 3, kết quả sẽ được đánh giá trên tập dữ liệu testset của MOT17 và MOT20 và ghi nhận lại kết
Bảng 3: Kết quả theo dấu các đối tượng 2D trên tập MOT17, MOT20 testset của các mơ hình Dataset Model Pre-train data MOTA IDF1 IDs MT ML
MOT17 TubeTK[17] - 63.0 58.6 4127 31.2% 19.9% CTracker[18] - 66.6 57.4 5529 32.2% 24.2% CenterTrack[11] - 69.1 63.9 3555 36.4% 21.5% FairMOT[2] - 69.8 69.9 3995 39.4% 28.1% CSTrack[3] x 70.6 71.6 2465 37.5% 18.7% FairMOT[2] x 73.7 72.3 3303 43.2% 17.3% Ours - 70.2 70.3 4452 40.0% 18.3% MOT20 FairMOT[2] x 61.8 67.3 5243 68.8% 7.3% Ours - 64.3 66.9 5093 59.6% 8.5%
quả một cách khách quan từ máy chủ MOT challenge. Xét trên tập MOT17, bởi vì những hạn chế về thiết bị, máy móc huấn luyện nên tơi chỉ sử dụng tập dữ liệu MOT17 cho q trình huấn luyện và khơng sử dụng thêm tập dữ liệu khác cho quá trình này.
Đầu tiên, tơi sẽ so sánh kết quả mơ hình đề xuất với TubeTK [17], CTracker [3], CenterTrack [11] và FairMOT [2]. Kết quả mơ hình ACSMOT được đề xuất có kết quả tốt hơn các mơ hình kể trên với IDF1 tăng từ 0.4 đến 12.9% and MOTA tăng từ 0.4 đến 7.2. Tiếp theo, tơi đánh giá mơ hình này với các mơ hình CSTrack[3] sử dụng tập test MOT17 and FairMOT[2] trên cả hai tập test MOT17 and MOT20. Các mơ hình này sẽ được huấn luyện với tập dữ liệu bổ sung. Như đã trình bày trong bảng 3, mơ hình tốt nhất là FairMOT và mơ hình đề xuất chỉ kém hơn CSTrack 0.4 MOTA trên tập test MOT17. Tuy nhiên, trên tập test MOT20, tập dữ liệu với đám đông người đi bộ, chúng ta được kết quả khả quan hơn với sự tăng 2.5 MOTA và giảm đi 150 IDs. Từ các kết quả trên, cho thấy sự ảnh hưởng tích cực của các mơ dun attention trong q trình theo dấu người đi bộ, việc cải tiến đã tăng được độ chính xác trong q trình nhận diện và theo dấu người đi bộ được chính xác hơn.