Kết quả theo dấu mơ hình ACSMOT

Một phần của tài liệu Theo dấu người đi bộ sử dụng công nghệ học sâu (Trang 36)

3.3 .b Deformable ROI Pooling

17 Kết quả theo dấu mơ hình ACSMOT

Hình 17 thể hiện được kết quả theo dấu của mơ hình đề xuất ACSMOT nhận diện tốt với nhiều kích cỡ của đối tượng người đi bộ. Trường hợp trịn hình 17 cho thấy mơ hình nhận diện tốt trong trường hợp các đối tượng người đi bộ có kích thước nhỏ trong ảnh.

1.2 Vật cản

Hình 19 minh họa hạn chế của mơ hình đề xuất trong trường hợp có vật cản trong quá trình nhận diện. Việc khơng nhận diện trong quá trình nhận diện sẽ ảnh hưởng đến quá

Hình 18: Minh họa quá trình theo dấu trường hợp vật cản trình theo dấu.

2 Đánh giá định lượngTrong phần này, tôi sẽ trình bày về: Trong phần này, tơi sẽ trình bày về:

• Giới thiệu về các chỉ số đánh giá

• Sự sự ảnh hưởng của các mô đun CAM (Channel Attention Module) và SAM (Spatial Attention Module)

• So sánh mơ hình với các mơ hình thực tế trong các thành phần của mơ hình đề xuất

2.1 Các chỉ số đánh giá

1. Multi-Object Tracking Accuracy (MOTA): Được giới thiệu từ MOTChallenge. Đây là một metric đánh giá độ chính xác của q trình tracking và detection. Được tổng hợp từ FN, FP, and IDS.

M OT A= 1− F P +F N +IDs

T (19)

. Trong đó:

• FP (False Positive): tổng số lần xuất hiện một đối tượng được phát hiện mặc dù khơng có đối tượng nào tồn tại.

• FN (False Negative): tổng số lần mà đối tượng hiện có khơng được phát hiện.

• IDs (ID Switches): tổng số lần 1 đối tượng bị gán cho 1 ID mới trong suốt q trình tracking video.

• T: số lượng grouth-truth

2. Multi-Object Tracking Precision (MOTP): Đánh giá precision của quá trình tracking. Xác định bằng trung bình mức độ overlap của các case detect và xác định đúng id với prediction. M OT P = P i,tIoUt,i T P (20) , trong đó:

• IoU là phần giao nhau giữa detection và ground-truth

• TP: là các trường hợp xác định đúng id với prediction.

3. Identity F1 Score (IDF1): Tỉ lệ các detection đúng id trên số lượng ground-truth và các detection đã xác định.

4. Identity switch (IDs): Số lần switch ID, số lần thay đổi ID trong suốt quá trình tracking của đối tượng

5. Most Track (MT): Số các đối tượng được track thường xuyên. Tỉ lệ predict đúng hơn 80% so với các ground-truth của object

6. Most Lost (ML): Số các đối tượng ít tracking thành cơng. Tỉ lệ predict đúng ít hơn 20% so với các ground-truth của object

2.2 Thí nghiệm ảnh hưởng của CAM

Bảng 1: Ảnh hưởng của mô đun CAM trong framework NUM Dataset CAM IDF1 IDs MT ML

1 MOT16 82.5 560 317 30

2 x 82.5 602 323 27

3 MOT17 69.8 436 144 47

4 x 71.1 411 149 57

Phần này sẽ trình bày thí nghiệm mơ đun CAM vào đầu Re-ID trong mơ hình đề xuất và khơng dùng mơ đun CAM như mơ hình FairMOT [2]. Kết quả được trình bày như bảng 1. Trong đó, thí nghiệm NUM 1 và NUM 2 sử dụng tập training MOT17 cho quá trình huấn luyện và tập training MOT16 cho quá trình đánh giá và thí nghiệm NUM 3 và NUM4 thì sẽ chia tập train MOT17 thành hai phần một phần để huấn luyện, một phần đề đánh giá. Cách chia tập dữ liệu để đám bảo quá các tập dữ liệu không bị chồng lấp vào nhau.

Như kết quả của bảng 1, ta thấy có sự cải thiện đáng kể tăng 1.3% IDF1 ở thí nghiệm NUM 4 sử dụng mô đun CAM so với NUM 3 khơng dùng mơ đun CAM. Với thí nghiệm NUM 1 và NUM 2, việc dùng mô đun CAM sẽ giữ được chỉ số IDF1 nhưng sẽ cải thiện chỉ số MT (tăng 1.9%) và ML(giảm 10%).

Thí nghiệm ảnh hưởng của SAM trong Detection Head và Feature Extractor

Bảng 2: Ảnh hưởng của mô đun SAM trong framework

N U M SAM CAM MO T A ID F 1 ID s Fe at ur e Ex tr ac ti on D et ec ti on H ea d R eI D H ea d 1 x 82.8 82.5 602 2 x x 83.0 81.2 542 3 x x 82.6 80.5 573 4 x x x 82.1 80.6 675

Bảng 2 sẽ minh họa sự không ảnh hưởng của mô dun SAM khi đặt vào Detection Head. Thí nghiệm sẽ đặt mơ đun SAM vào trong các thành phần của mơ hình như Detection Head (thí nghiệm NUM 3 và NUM 4) và Feature Extraction (NUM 2 và NUM 4). Dữ liệu huấn luyện là tập train MOT17 và đánh giá là tập train MOT16 cho cả bốn thí nghiệm. Kết quả chỉ ra rằng thí nghiệm NUM 3 và NUM 4 gây ra việc giảm IDF1(∼ 1.9−2.0),

MOTA (∼ 0.2−0.7) so với thí nghiệm NUM 1, khơng sử dụng mơ đun SAM. Ngồi ra

việc sử dụng mô đun SAM trong Feature Extraction cũng cải thiện MOTA (+0.2) và giảm ID switch (10%) so với thí nghiệm NUM 1.

3 So sánh kết quả với các mơ hình hiện tại

Kết quả đánh giá định lượng được tính bằng các thước đo cho bài toán theo dấu nhiều đối tượng để đánh giá như multi-object tracking accuracy (MOTA), multi-object tracking precision (MOTP), Identity F1-score (IDF1), ideneity switch(IDs), most tracking (MT) và Most Lost (ML). Đây là các chỉ số chính được dùng trong trong MOT challenge [15] và được hầu hết các bài bài báo sử dụng để đánh giá cho bài toán theo dấu nhiều người đi bộ.

Kết quả đánh giá của mơ hình đề xuất trên được trình bày trong bảng 3. Chúng ta sẽ tiến hành so sánh mơ hình đề xuất với các mơ hình tốt nhất ở thời điểm khảo sát sử dụng hướng tiếp cận joint detection and tracking (JDT). Như đã trình bày trong bảng 3, kết quả sẽ được đánh giá trên tập dữ liệu testset của MOT17 và MOT20 và ghi nhận lại kết

Bảng 3: Kết quả theo dấu các đối tượng 2D trên tập MOT17, MOT20 testset của các mơ hình Dataset Model Pre-train data MOTA IDF1 IDs MT ML

MOT17 TubeTK[17] - 63.0 58.6 4127 31.2% 19.9% CTracker[18] - 66.6 57.4 5529 32.2% 24.2% CenterTrack[11] - 69.1 63.9 3555 36.4% 21.5% FairMOT[2] - 69.8 69.9 3995 39.4% 28.1% CSTrack[3] x 70.6 71.6 2465 37.5% 18.7% FairMOT[2] x 73.7 72.3 3303 43.2% 17.3% Ours - 70.2 70.3 4452 40.0% 18.3% MOT20 FairMOT[2] x 61.8 67.3 5243 68.8% 7.3% Ours - 64.3 66.9 5093 59.6% 8.5%

quả một cách khách quan từ máy chủ MOT challenge. Xét trên tập MOT17, bởi vì những hạn chế về thiết bị, máy móc huấn luyện nên tơi chỉ sử dụng tập dữ liệu MOT17 cho quá trình huấn luyện và không sử dụng thêm tập dữ liệu khác cho quá trình này.

Đầu tiên, tơi sẽ so sánh kết quả mơ hình đề xuất với TubeTK [17], CTracker [3], CenterTrack [11] và FairMOT [2]. Kết quả mơ hình ACSMOT được đề xuất có kết quả tốt hơn các mơ hình kể trên với IDF1 tăng từ 0.4 đến 12.9% and MOTA tăng từ 0.4 đến 7.2. Tiếp theo, tơi đánh giá mơ hình này với các mơ hình CSTrack[3] sử dụng tập test MOT17 and FairMOT[2] trên cả hai tập test MOT17 and MOT20. Các mơ hình này sẽ được huấn luyện với tập dữ liệu bổ sung. Như đã trình bày trong bảng 3, mơ hình tốt nhất là FairMOT và mơ hình đề xuất chỉ kém hơn CSTrack 0.4 MOTA trên tập test MOT17. Tuy nhiên, trên tập test MOT20, tập dữ liệu với đám đông người đi bộ, chúng ta được kết quả khả quan hơn với sự tăng 2.5 MOTA và giảm đi 150 IDs. Từ các kết quả trên, cho thấy sự ảnh hưởng tích cực của các mơ dun attention trong q trình theo dấu người đi bộ, việc cải tiến đã tăng được độ chính xác trong q trình nhận diện và theo dấu người đi bộ được chính xác hơn.

Chương 7 Tổng kết

1 Kết luận

Trong luận văn của mình, tơi đã đề xuất phương pháp cải tiến mơ hình theo dấu người đi bộ sử dụng công nghệ học sâu sử dụng các mô đun attention như Channel Attention Module và Spatial Attention Module từ mơ hình FairMOT gốc ban đầu. Kết quả đạt được từ mơ hình để xuất có kết quả cải thiện so với các mơ hình cùng hướng tiếp cận Joint- Tracking-and-Detection và cùng một mơi trường thí nghiệm. Qua đó, cho thấy tính hiệu quả của đề xuất của tơi trong luận văn này.

2 Đánh giá ưu, nhược điểm

2.1 Ưu điểm

• Mơ hình có sự cải tiến về chất lượng nhận diện và theo dấu đối tượng người đi bộ. Xử lý tốt trong việc nhận diện các đối tượng người đi bộ với kích thước nhỏ.

• Mơ hình kế thừa được điểm mạnh của mơ hình gốc FairMOT về việc xử lý, theo dấu người đi bộ trực tuyến.

• Mơ hình end-to-end và kết hợp huấn luyện cả hai task trong cùng một mơ hình, giảm thời gian huấn luyện

2.2 Nhược điểm

• Mơ hình vẫn gặp các vấn đề như không nhận diện và theo dấu các đối tượng bị che khuất;

• Kết quả theo dấu sẽ bị nhầm lẫn khi số lượng đối tượng người đi bộ quá nhiều. 3 Hướng phát triển trong tương lai

Trong tương lai, mơ hình có thể được phát triển theo hướng giải quyết những vấn đề hiện tại trong luận văn này:

• Tăng dữ liệu huấn luyện: trong luận văn này, tập dữ liệu đề xuất chỉ huấn luyện trên tập data MOT và chưa sử dụng các tập dữ liệu bên ngoài Caltech Pedestrian, CityPersons[19], CUHK-SYSU[20], PRW[21], ETHZ[22]. Việc đa dạng tập dữ liệu huấn luyện có thể cải thiện kết quả của mơ hình.

• Tìm hiểu về các mơ đun attention khác để ứng dụng vào bải toán. Nhằm mục đich tăng cường khả năng học, kết quả theo dấu người đi bộ, cũng như những chứng minh về sự ảnh hưởng tích cực của các mơ đun attention trong luận văn này. Nên việc cải tiến các mơ đun attention trong mơ hình đề xuất sẽ là một hướng tiếp cận trong tương lại.

• Cải tiến nhận diện và theo dẫu các đối tượng bị vật cản che chắn. Đây là một hạn chế của mơ hình hiện tại, khi q trình theo dẫu sẽ sai khi đối tượng khơng nhận diện được do bị vật cản.

Lời kết

Trong quá trình thực hiện luận văn, tơi đã được học hỏi, tìm hiểu rất nhiều kiến thức chuyên ngành, kiến thức liên quan đến bài toán theo dấu người đi bộ sử dụng công nghệ học sâu. Ngồi ra, q trình thực hiện nghiên cứu xác định tập dữ liệu, xây dựng mơ hình, tiến hành thí nghiệm đánh giá cũng cho tơi nhiều bài học q giá. Những vấn đề, kiến thức và kinh nghiệm trong quá trình này sẽ là những động lực cho tôi để không ngừng học hỏi và tiếp tục phát triển trên cong đường sự nghiệp phía trước.

Tơi xin chân thành cảm ơn quý thầy cô của trường đại học Bách Khoa Thành Phố Hồ Chí Mình và đặc biệt là Tiến Sĩ Nguyễn Đức Dũng. Một người thầy nhiệt huyết đã truyền cảm hứng và tận tụy hướng dẫn, hỗ trợ tơi hết mình trong q trình thực hiện luận văn này. Chân thành cảm ơn thầy.

Danh sách các cơng trình khoa học

1. D.M. Chuong and N.D. Dung, "Attention mechanics for improving online Multi- Object Tracking" inProceedings of 2022 Asia Conference on Algorithms, Computing and Machine Learning (CACML 2022), Shanghai, China, 2022, pp 201-206.

Minh Chuong Dang

Department of Computer Science Ho Chi Minh City University of Technology

Ho Chi Minh City, Vietnam 1870356@hcmut.edu.vn

Duc Dung Nguyen

Department of Computer Science Ho Chi Minh City University of Technology

Ho Chi Minh City, Vietnam nddung@hcmut.edu.vn

Abstract—In recent years, FairMOT is a known online one-

shot model for tracking pedestrians with a focus on fairness between detection and re-identification (re-ID) tasks with remarkable performance. In this paper, we integrate some attention modules with more relating-object information to improve the performance of FairMOT. Firstly, we propose a spatial attention module which is the proper combination between deformable convolution and key-content factors to im- prove detection accuracy. Furthermore, we introduce a channel attention module in re-ID branch that can enhance efficient tracking capability. Our experimental evaluation shows that our extensions increase IDF1 and MOTA in tracking challenges MOT17, MOT20 with provided training data only.

Keywords-multi-object tracking, channel attention, spatial

attention

I. INTRODUCTION

Pedestrians are a sensitive subject in traffic because they receive little insurance. Nowadays, pedestrian tracking is a topic of particular interest in the field of autonomous vehicles and multi-object tracking with pedestrians has re- ceived a lot of attention. MOT (Multi-object tracking) is a multi-task of detection and association, which estimates the location and scale of objects to predict object trajectories in a video sequence. In recently, there are two main cutting- edge modern approaches: tracking-by-detection and joint- detection-and-tracking.

There are many early works such as [1], [2], [3] address the MOT problems by tracking-by-detection (TBD). The TBD method separate MOT into two step: detection step, in which objects are detected from frames; association step to tracking that objects. Trackers in this approach using deep learning model as detectors to extract bounding-box for target objects. After that, the association step used Kalman- filter and Hungarian algorithm as the simple and fast method. Most of the state of the art performance follows the tracking- by-detection method. However, with this ”detection first, association second” method, we cannot share the learning process between the two steps. Joint-detection-and-tracking appears to combine two learning processing. The recent success of JDT approach in multi-object tracking [4], [5], [6] solves the disavandtage of TBD approach. In JDT, detection and association shared a backbone network and network had end-to-end optimization.

Although tracking-by-detection approach achieves effi- ciency accuracy, joint-detection-and-tracking is a proper approach for real-time speed tracking. Besides, the attention mechanism is also getting attention because it improves the performance of computer vision tasks including autonomous driving. We use attention modules and tracker with JDT to increase accuracy while ensuring a real-time tracker.

In this paper, we present a network, ACSMOT (Atten- tional Channel Spatial Multi-Object Tracking), that fol- lows the joint-dectection-and-tracking approach and atten- tion module. FairMOT [4] is chosen for real-time tracking as a baseline model. This baseline use input as frames to extract features for detection and re-ID using a multi-scale encoder-decoder backbone. We show that our model can apply effectively the attention module for spatial and channel features. Due to these attention modules, our approach gets better performance than the baseline model with provided training data only.

In order to demonstrate the effective of our nework .We did experiments on the MOT17 and MOT20 between the origin FairMOT and our proposal. The results show the improvement of our design in both model design attention module design.

II. RELATED WORK

Deep Learning in MOT. It consists of two approachs which are Tracking-by-detection (TBD) and Joint-detection- and-tracking (JDT). TBD treat MOT task as detection and re-ID as two independent tasks. Firstly, they use a CNN- base backbone to detect bounding-box from frames, partic- ularly Faster-RCNN [1], Yolov3 [7]. Then, the input of the previous step is feed to the association network to extract re-ID feature. In the development of the deep learning era, Intersection over Union (IoU), Kalman Filter and Hungarian algorithm are used to predict trajectory, which estimates localization bounding-box in the next frame. JDT is an end- to-end model in which joint detection and association tasks in a single model. As known as one-shot learning, this approach attracts researchers. For example, Track-RCNN [8] build a re-ID head in Mask RCNN and learn bounding box and re-ID embedding feature in end-to-end model. An other example, DEFT [6], FairMOT [4], JDT [5] are

Attention mechanism. It can allow the neural network to

focus heavily on the related components with the input of the problem. This mechanism has been archived success in computer vision problems such as object detection and semantic segmentation [10], [11], [12], [13]. Recently, an analysis of the effect of spatial attention mechanism and chanel attetion mechanism in deep learning [14], [15]. This analysis shows that it is possible to combine the deformable convolution network [16] with the statistical information related to the local neighborhood of the target pixel and achieve the best accuracy and speed trade-off in attention designs. Moreover, attention mechanisms are also mentioned in the MOT task such as CSTrack [17], where CSTrack proposed a novel cross-correlation network to improve the cooperation in the learning process of 2 tasks detection and re-ID. Spatial attention and channel attention are also suggested to improve tracking with multi-scale.

III. ACSMOT

Figure 1: Architecture of ACSMOT. ACSMOT includes three components: Feature Extractor (A), Detection Head (B) and Re-ID Head (C). Images are input to Feature Extractor to extract feature map. Then, that feature map is fed to Detection Head and Re-ID Head to get bounding box and its identity embedding

We inherited the primary design of FairMOT [4], which aims to be a framework that provides fairness for both de- tection and association tasks while maintaining accuracy and speed. Our model is built according to the Joint-detection- and-Tracking approach with the combination of two task detection and re-ID in the one-shot model, as illustrated

Một phần của tài liệu Theo dấu người đi bộ sử dụng công nghệ học sâu (Trang 36)

Tải bản đầy đủ (PDF)

(54 trang)