1. Trang chủ
  2. » Luận Văn - Báo Cáo

Theo dấu người đi bộ sử dụng công nghệ học sâu

54 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẶNG MINH CHƯƠNG THEO DẤU NGƯỜI ĐI BỘ SỬ DỤNG CÔNG NGHỆ HỌC SÂU Chuyên ngành: Khoa học máy tính Mã số: 8480101 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng 07 năm 2022 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG - HCM Cán hướng dẫn khoa học : TS Nguyễn Đức Dũng Cán chấm nhận xét : TS Trần Tuấn Anh Cán chấm nhận xét : PGS TS Nguyễn Tuấn Đăng Luận văn thạc sĩ bảo vệ Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 21 tháng 07 năm 2022 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: TS Phạm Hoàng Anh - Chủ tịch TS Nguyễn Tiến Thịnh - Thư ký TS Trần Tuấn Anh - Phản biện PGS TS Nguyễn Tuấn Đăng - Phản biện TS Trần Thanh Tùng - Ủy viên Xác nhận Chủ tịch Hội đồng đánh giá LV Trưởng Khoa quản lý chuyên ngành sau luận văn sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH i I H C QU C GIA TP.HCM NG I H C BÁCH KHOA TR C NG HÒA XÃ H I CH NGH A VI T NAM c l p - T - H nh phúc NHI M V LU N V N TH C S H tên h c viên: ng Minh Ch ng MSHV: 1870356 Ngày, tháng, n m sinh: 29/09/1995 N i sinh: V nh Long Chuyên ngành: Khoa h c máy tính Mã s : 8480101 I TÊN TÀI: Theo d u ng i b s d ng công ngh h c sâu Pedestrian tracking with deep learning II NHI M V VÀ N I DUNG: Nghiên c u thi t k mơ hình h c sâu có kh n ng theo d u ng Hi n th c, ki m th đánh giá mơ hình Có báo khoa h c III NGÀY GIAO NHI M V : 06/09/2021 IV NGÀY HOÀN THÀNH NHI M V : 22/05/2022 V CÁN B H NG D N: TS Nguy n i b c D ng Tp HCM, ngày tháng n m 20 CÁN B H NG D N (H tên ch ký) TR CH NHI M B MÔN ÀO T O (H tên ch ký) NG KHOA KHOA H C VÀ K THU T MÁY TÍNH (H tên ch ký) ii Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính Lời cảm ơn Trong q trình thực luận văn thạc sĩ này, nhận dẫn từ tận tình từ Tiến sĩ Nguyễn Đức Dũng Tơi xin tỏ lịng biết ơn đến thầy hướng dẫn, góp ý cho tơi thời gian vừa qua Tôi xin chân thành cảm ơn quý thầy cô khoa Khoa học Kỹ thuật Máy tính, q thầy trường đại học Bách Khoa thành phố Hồ Chí Minh Cảm ơn quý thầy cô truyền đạt kiến thức năm học tập trường Với hành trang kiến thức học tập được, kinh nghiệm quí giá tích lũy điểm tựa để phát triển thân tương lại Một lần nữa, xin chân thành cảm ơn quý thầy kính chúc q thầy sức khỏe thành cơng nghiệp Hồ Chí Minh, ngày 06 tháng 06 năm 2022 Học viên thực Đặng Minh Chương iii Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính Tóm tắt luận văn Trong luận văn này, nghiên cứu đề xuất mơ hình học sâu ACSMOT để giải tốn theo dấu người Mơ hình đề xuất cải tiến mơ hình FairMOT cách sử dụng mô đun attention để tăng cường khả học đặc trưng mơ hình Nội dung luận văn gồm có 06 chương Chương giới thiệu đề tài nghiên cứu, mục tiêu, ý nghĩa tính cấp thiết đề tài Chương tơi thảo luận cơng trình nghiên cứu bật năm gần sở để tơi định hướng cho luận văn Chương trình bày chi tiết mơ hình ACSMOT đề xuất để giải toán theo dấu người sử dụng công nghệ học sâu Chương trình bày trình thực đề tài, chuẩn bị liệu huấn luyện mơ hình Phần đánh giá kết thí nghiệm trình bày cụ thể chương 5, từ có nhìn khách quan kết mơ hình đề xuất Chương nêu lên ưu khuyết điểm mơ hình định hướng phát triển tương lai iv Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính Thesis outline In this thesis, I researched and proposed ACSMOT, a deep learning model to solve the pedestrian tracking problem The proposed model was improved from the FairMOT model by using attention module to enhance the model’s learnability The content of the master thesis consists of chapters Chapter will introduce the research topic, objective, and urgency of the problem In chapter 2, I will discuss the related outstanding works in recent years, which is the knowledge for me to choose the approach in my master thesis Chapter will illustrate the detail of the proposed model to solve the human tracking problem using deep learning Chapter will show model implementation, data preparation, and the training models process Evaluation of experimental results will be presented in detail in Chapter 5, from which an objective view of the results will be provided of the proposed model Chapter will highlight the advantages and disadvantages of the model and the definition future development direction v Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính Lời cam đoan Tơi xin cam đoan cơng trình nghiên cứu riêng cá nhân hướng dẫn thầy Tiến sĩ Nguyễn Đức Dũng chưa công bố trước Các số liệu ghi nhận thu thập từ kết thực tế Trong q trình nghiên cứu, tơi có tham khảo tài liệu thu thập từ nhiều nguồn khác ghi rõ phần tài liệu tham khảo Nếu phát có gian lận nào, tơi xin hoàn toàn chịu trách nhiệm nội dung luận văn hồn tồn chịu xử lý theo quy định nhà trường Hồ Chí Minh, ngày 06 tháng 06 năm 2022 Học viên thực Đặng Minh Chương vi Mục lục Nhiệm vụ luận văn ii Lời cảm ơn iii Mục lục vii Danh sách hình vẽ ix Danh sách bảng Chương Giới thiệu Giới thiệu đề tài Mục tiêu đề tài Phạm vi đề tài Quá trình thực x 1 2 Chương Cơng trình liên quan Towards Real-Time Multi-Object Tracking[1] Mơ hình học sâu FairMOT [2] CSTrack[3] Tiểu kết JDT 3 Chương Kiến thức tảng Mạng neural nhân tạo ANN 1.1 Mơ hình neural ANN cách thức hoạt động 2.1 ANN nhiều lớp 2.2 Các hàm kích hoạt thường dùng Mạng neural tích chập CNN 3.1 Nguyên nhân cảm hứng cho đời CNN 3.2 Kiến trúc CNN 3.2.a Lớp Convolution (Convolutional Layer) 3.2.b Lớp Pooling (Pooling Layer) 3.2.c Lớp Fully-connected (Fully-connected Layer) 3.3 Deformable Convolutional Neural Network [4] 3.3.a Deformable Convolution 3.3.b Deformable ROI Pooling 8 9 10 10 12 12 13 15 15 15 16 Chương Mơ hình đề xuất Tổng quan Attentional Channel Spatial Multi-Object Tracking 17 17 17 vii Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính 17 19 19 20 21 Chương Hiện thực Chuẩn bị liệu Huấn luyện Kết thí nghiệm 3.1 Thí nghiệm số epoch 22 22 23 23 23 Chương Đánh giá Đánh giá định tính 1.1 Người với kích thước khác 1.2 Vật cản Đánh giá định lượng 2.1 Các số đánh giá 2.2 Thí nghiệm ảnh hưởng CAM So sánh kết với mơ hình Các kết tham khảo 25 25 25 25 26 26 27 28 29 31 31 31 31 31 31 Danh sách công trình khoa học Attention Channel Spatial MOT Paper 34 34 Tài liệu tham khảo 41 2.1 Feature Extractor 2.2 Đầu Detection Đầu Re-ID Hàm lỗi Tiểu kết Chương Tổng kết Kết luận Đánh giá ưu, nhược điểm 2.1 Ưu điểm 2.2 Nhược điểm Hướng phát triển tương lai viii Danh sách hình vẽ 10 11 12 13 14 15 16 17 18 19 Kiến trúc mơ hình JDT Kiến trúc mơ hình FairMOT: Encoder-Decoder network mạng sở dùng để học đặc trưng ảnh layer với độ phân giải khác Detection nhánh nhận diện đối tượng khả thi ảnh Nhánh Re-ID dùng để định danh đối tượng đề xuất Kiến trúc mơ hình Cross-Corelation network Mơ hình neural McCulloch Pitts Mơ hình ANN ANN nhiều lớp Lớp Convolution Ví dụ thực tế lớp Convolution Ví dụ minh họa lớp Pooling sử dụng Max Pooling Average Pooling có filter 2x2 bước dịch chuyển Ví dụ minh họa deformable convolutional neural network Kiến trúc mơ hình ACSMOT network Feature Extractor (a) Structure of Feature Extractor (b) Up-sampling with spatial spatial attention module (SAM) (c) Spatial attention module (SAM) ReID Head (a) Structure of Re-ID Head with CAM (b) Channel attention module (CAM) Minh họa tập liệu huấn luyện Training Loss mơ hình ACSMOT q trình huấn luyện Training Loss chi tiết thành phần mơ hình ACSMOT q trình huấn luyện Kết theo dấu mơ hình ACSMOT Minh hoạ trường hợp bị vật cản Minh họa trình theo dấu đối tượng người ix 10 11 13 14 15 16 18 19 19 22 23 24 25 26 30 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính Bảng 3: Kết theo dấu đối tượng 2D tập MOT17, MOT20 testset mô hình Dataset MOT17 MOT20 Model TubeTK[17] CTracker[18] CenterTrack[11] FairMOT[2] CSTrack[3] FairMOT[2] Ours FairMOT[2] Ours Pre-train data x x x - MOTA IDF1 IDs MT ML 63.0 58.6 4127 31.2% 19.9% 66.6 57.4 5529 32.2% 24.2% 69.1 63.9 3555 36.4% 21.5% 69.8 69.9 3995 39.4% 28.1% 70.6 71.6 2465 37.5% 18.7% 73.7 72.3 3303 43.2% 17.3% 70.2 70.3 4452 40.0% 18.3% 61.8 67.3 5243 68.8% 7.3% 64.3 66.9 5093 59.6% 8.5% cách khách quan từ máy chủ MOT challenge Xét tập MOT17, hạn chế thiết bị, máy móc huấn luyện nên tơi sử dụng tập liệu MOT17 cho trình huấn luyện không sử dụng thêm tập liệu khác cho q trình Đầu tiên, tơi so sánh kết mơ hình đề xuất với TubeTK [17], CTracker [3], CenterTrack [11] FairMOT [2] Kết mơ hình ACSMOT đề xuất có kết tốt mơ hình kể với IDF1 tăng từ 0.4 đến 12.9% and MOTA tăng từ 0.4 đến 7.2 Tiếp theo, đánh giá mơ hình với mơ hình CSTrack[3] sử dụng tập test MOT17 and FairMOT[2] hai tập test MOT17 and MOT20 Các mơ hình huấn luyện với tập liệu bổ sung Như trình bày bảng 3, mơ hình tốt FairMOT mơ hình đề xuất CSTrack 0.4 MOTA tập test MOT17 Tuy nhiên, tập test MOT20, tập liệu với đám đông người bộ, kết khả quan với tăng 2.5 MOTA giảm 150 IDs Từ kết trên, cho thấy ảnh hưởng tích cực mơ dun attention q trình theo dấu người bộ, việc cải tiến tăng độ xác q trình nhận diện theo dấu người xác Các kết tham khảo Theo dấu người sử dụng công nghệ học sâu Trang 29/43 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính Hình 19: Minh họa q trình theo dấu đối tượng người Theo dấu người sử dụng công nghệ học sâu Trang 30/43 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính Chương Tổng kết Kết luận Trong luận văn mình, tơi đề xuất phương pháp cải tiến mơ hình theo dấu người sử dụng công nghệ học sâu sử dụng mô đun attention Channel Attention Module Spatial Attention Module từ mơ hình FairMOT gốc ban đầu Kết đạt từ mơ hình để xuất có kết cải thiện so với mơ hình hướng tiếp cận JointTracking-and-Detection mơi trường thí nghiệm Qua đó, cho thấy tính hiệu đề xuất luận văn 2.1 Đánh giá ưu, nhược điểm Ưu điểm • Mơ hình có cải tiến chất lượng nhận diện theo dấu đối tượng người Xử lý tốt việc nhận diện đối tượng người với kích thước nhỏ • Mơ hình kế thừa điểm mạnh mơ hình gốc FairMOT việc xử lý, theo dấu người trực tuyến • Mơ hình end-to-end kết hợp huấn luyện hai task mơ hình, giảm thời gian huấn luyện 2.2 Nhược điểm • Mơ hình gặp vấn đề không nhận diện theo dấu đối tượng bị che khuất; • Kết theo dấu bị nhầm lẫn số lượng đối tượng người nhiều Hướng phát triển tương lai Trong tương lai, mơ hình phát triển theo hướng giải vấn đề luận văn này: • Tăng liệu huấn luyện: luận văn này, tập liệu đề xuất huấn luyện tập data MOT chưa sử dụng tập liệu bên Caltech Pedestrian, CityPersons[19], CUHK-SYSU[20], PRW[21], ETHZ[22] Việc đa dạng tập liệu huấn luyện cải thiện kết mơ hình • Tìm hiểu mô đun attention khác để ứng dụng vào bải toán Nhằm mục đich tăng cường khả học, kết theo dấu người bộ, chứng minh ảnh hưởng tích cực mô đun attention luận văn Nên việc cải tiến mơ đun attention mơ hình đề xuất hướng tiếp cận tương lại Theo dấu người sử dụng công nghệ học sâu Trang 31/43 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính • Cải tiến nhận diện theo đối tượng bị vật cản che chắn Đây hạn chế mơ hình tại, q trình theo sai đối tượng không nhận diện bị vật cản Theo dấu người sử dụng công nghệ học sâu Trang 32/43 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính Lời kết Trong q trình thực luận văn, tơi học hỏi, tìm hiểu nhiều kiến thức chuyên ngành, kiến thức liên quan đến toán theo dấu người sử dụng công nghệ học sâu Ngồi ra, q trình thực nghiên cứu xác định tập liệu, xây dựng mơ hình, tiến hành thí nghiệm đánh giá cho tơi nhiều học quí giá Những vấn đề, kiến thức kinh nghiệm trình động lực cho để không ngừng học hỏi tiếp tục phát triển cong đường nghiệp phía trước Tơi xin chân thành cảm ơn quý thầy cô trường đại học Bách Khoa Thành Phố Hồ Chí Mình đặc biệt Tiến Sĩ Nguyễn Đức Dũng Một người thầy nhiệt huyết truyền cảm hứng tận tụy hướng dẫn, hỗ trợ tơi q trình thực luận văn Chân thành cảm ơn thầy Theo dấu người sử dụng công nghệ học sâu Trang 33/43 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính Danh sách cơng trình khoa học D.M Chuong and N.D Dung, "Attention mechanics for improving online MultiObject Tracking" in Proceedings of 2022 Asia Conference on Algorithms, Computing and Machine Learning (CACML 2022), Shanghai, China, 2022, pp 201-206 Theo dấu người sử dụng công nghệ học sâu Trang 34/43 Attention mechanics for improving online Multi-Object Tracking Minh Chuong Dang Department of Computer Science Ho Chi Minh City University of Technology Ho Chi Minh City, Vietnam 1870356@hcmut.edu.vn Abstract—In recent years, FairMOT is a known online oneshot model for tracking pedestrians with a focus on fairness between detection and re-identification (re-ID) tasks with remarkable performance In this paper, we integrate some attention modules with more relating-object information to improve the performance of FairMOT Firstly, we propose a spatial attention module which is the proper combination between deformable convolution and key-content factors to improve detection accuracy Furthermore, we introduce a channel attention module in re-ID branch that can enhance efficient tracking capability Our experimental evaluation shows that our extensions increase IDF1 and MOTA in tracking challenges MOT17, MOT20 with provided training data only Keywords-multi-object tracking, channel attention, spatial attention I INTRODUCTION Pedestrians are a sensitive subject in traffic because they receive little insurance Nowadays, pedestrian tracking is a topic of particular interest in the field of autonomous vehicles and multi-object tracking with pedestrians has received a lot of attention MOT (Multi-object tracking) is a multi-task of detection and association, which estimates the location and scale of objects to predict object trajectories in a video sequence In recently, there are two main cuttingedge modern approaches: tracking-by-detection and jointdetection-and-tracking There are many early works such as [1], [2], [3] address the MOT problems by tracking-by-detection (TBD) The TBD method separate MOT into two step: detection step, in which objects are detected from frames; association step to tracking that objects Trackers in this approach using deep learning model as detectors to extract bounding-box for target objects After that, the association step used Kalmanfilter and Hungarian algorithm as the simple and fast method Most of the state of the art performance follows the trackingby-detection method However, with this ”detection first, association second” method, we cannot share the learning process between the two steps Joint-detection-and-tracking appears to combine two learning processing The recent success of JDT approach in multi-object tracking [4], [5], [6] solves the disavandtage of TBD approach In JDT, detection and association shared a backbone network and network had end-to-end optimization Duc Dung Nguyen Department of Computer Science Ho Chi Minh City University of Technology Ho Chi Minh City, Vietnam nddung@hcmut.edu.vn Although tracking-by-detection approach achieves efficiency accuracy, joint-detection-and-tracking is a proper approach for real-time speed tracking Besides, the attention mechanism is also getting attention because it improves the performance of computer vision tasks including autonomous driving We use attention modules and tracker with JDT to increase accuracy while ensuring a real-time tracker In this paper, we present a network, ACSMOT (Attentional Channel Spatial Multi-Object Tracking), that follows the joint-dectection-and-tracking approach and attention module FairMOT [4] is chosen for real-time tracking as a baseline model This baseline use input as frames to extract features for detection and re-ID using a multi-scale encoder-decoder backbone We show that our model can apply effectively the attention module for spatial and channel features Due to these attention modules, our approach gets better performance than the baseline model with provided training data only In order to demonstrate the effective of our nework We did experiments on the MOT17 and MOT20 between the origin FairMOT and our proposal The results show the improvement of our design in both model design attention module design II RELATED WORK Deep Learning in MOT It consists of two approachs which are Tracking-by-detection (TBD) and Joint-detectionand-tracking (JDT) TBD treat MOT task as detection and re-ID as two independent tasks Firstly, they use a CNNbase backbone to detect bounding-box from frames, particularly Faster-RCNN [1], Yolov3 [7] Then, the input of the previous step is feed to the association network to extract re-ID feature In the development of the deep learning era, Intersection over Union (IoU), Kalman Filter and Hungarian algorithm are used to predict trajectory, which estimates localization bounding-box in the next frame JDT is an endto-end model in which joint detection and association tasks in a single model As known as one-shot learning, this approach attracts researchers For example, Track-RCNN [8] build a re-ID head in Mask RCNN and learn bounding box and re-ID embedding feature in end-to-end model An other example, DEFT [6], FairMOT [4], JDT [5] are similar approach with joint-detection-and-tracking They use a backbone network which origins from DLA-34 or HRNet [9] to extract features from frames and pass them to detection and re-ID head Attention mechanism It can allow the neural network to focus heavily on the related components with the input of the problem This mechanism has been archived success in computer vision problems such as object detection and semantic segmentation [10], [11], [12], [13] Recently, an analysis of the effect of spatial attention mechanism and chanel attetion mechanism in deep learning [14], [15] This analysis shows that it is possible to combine the deformable convolution network [16] with the statistical information related to the local neighborhood of the target pixel and achieve the best accuracy and speed trade-off in attention designs Moreover, attention mechanisms are also mentioned in the MOT task such as CSTrack [17], where CSTrack proposed a novel cross-correlation network to improve the cooperation in the learning process of tasks detection and re-ID Spatial attention and channel attention are also suggested to improve tracking with multi-scale III ACSMOT Figure 1: Architecture of ACSMOT ACSMOT includes three components: Feature Extractor (A), Detection Head (B) and Re-ID Head (C) Images are input to Feature Extractor to extract feature map Then, that feature map is fed to Detection Head and Re-ID Head to get bounding box and its identity embedding We inherited the primary design of FairMOT [4], which aims to be a framework that provides fairness for both detection and association tasks while maintaining accuracy and speed Our model is built according to the Joint-detectionand-Tracking approach with the combination of two task detection and re-ID in the one-shot model, as illustrated in Fig.1, to ensure real-time in the inference process In this section, we will present the technical design of our proposals A Feature Extractor In this model, we propose to extend the model of FairMOT [4] with attention modules To improve the model results, we propose to enhance the Feature Extractor, which is a critical step because the output of this module will be the input for both the head re-ID and the detection task The architecture of Feature Extractor is shown in the following Fig.2a We enrich the learning of spatial representation by using a spatial attention module, this idea was inspired by the analysis of the effect of spatial attention on convolution network models of [17], [13] Due to extending the appearance feature learning of the original image, we add a spatial attention module (SAM) combined with a deformable convolution [16] in the DLA-34 [18] backbone The SAM improves the process of extracting appearance features with local neighborhoods of the target pixel, to achieve the best accuracy-efficiency trade-off for computer vision tasks Our combination retains the advantages that the DLA-34 offers with its ability to represent objects with different scales Therefore, the feature extraction module with spatial attention improves the performance and achieves the original expectations Different from the backbone of origin FairMOT [4], we propose a spatial attention module in DCN [16], which is intended to further extend spatial representational learning with the local neighborhood of target pixels This will address the problem of background noise that confuses detection This improvement is implemented through up sampling steps in Feature Extractor, shown in the following Fig2b We will represent the feature from the DCNs as F ∈ RC×H×W , where C will be the values 64, 128, 256 The outputs of the DCN will be passed through the spatial attention module (SAN) illustrated in Fig 2c to extract 2D spatial attention map Ms ∈ R1×H×W as illustrated in Fig2b These Fs final feature outputs will be the result of upsampling steps in the DLA-34 backbone and Fs is process as follows: Fs = F ⊗ Ms ⊕ F (1) where ⊗ denoted element-wise multiplication and ⊕ denoted element-wise addition The output of Feature Extractor is passed in for both detection and re-ID In the following, we will talk about spatial attention module (SAM) Spatial Attention Module (SAM) we first let F go through both average pooling and max-pooling to get statistical information related to local neighborhood pixels and s ∈ R1×H×W , F s ∈ R1×H×W , respectively the output is Favg max s and F s s 2×W ×H Then we will concatenate Favg max to Fpool ∈ R Finally, a × convolution operation will be used to generate the spatial attention feature map Ms The convolution with the filter size of 5x5 denotes f 5×5 In short, the spatial attention is computed as: Ms = σ( f 5×5 [MaxPool(F), AvgPool(F)]) s s = σ( f 5×5 [Fmax , Favg ]) = s σ(Fpool ) where σ denotes the sigmoid activate function (2) (b) (c) (a) Figure 2: Feature Extractor (a) Structure of Feature Extractor (b) Up-sampling with spatial spatial attention module (SAM) (c) Spatial attention module (SAM) center map Box offset and size heads are used to calculate the exact position of the object relative to the detected object center map heatmap head coordinates C Re-ID branch (a) (b) Figure 3: ReID Head (a) Structure of Re-ID Head with CAM (b) Channel attention module (CAM) B Detection branch We build a detection branch like in previous work FairMOT combined with an anchor-free method, this branch will take in feature map extracted from the previous single frame Then, they will pass in three heads to estimate heatmap, object center offset and the object size of the bounding box of the object Specifically, at each head feature map will be passed × convolution followed by × convolution to get the desired results A heatmap head is used to calculate the location of the object’s center To determine the ground truth, during the learning process we will calculate the center map from the image with size H ×W , in which the value of the center of the object will be assigned a value of in the On the other hand, we also use another channel attention module to improve the identity embedding feature for the re-ID branch This attention module is inspired by CSTrack [17], it uses a Spatial - Channel Attention Module to enhance the representation of the object in the re-ID head Meanwhile, spatial attention module appearance learning with suppress background noise and channel attention module focuses more on ID embedding improve The Re-ID branch will receive the feature maps from the previous output and proceed to extract the identity embeddings for the objects as illustrated in Fig3a During training, the re-Id branch learns identity embeddings to classify as objects of the ground truth We denotes image size is Himage ×Wimage , and output of Feature Extractor as E ∈ RC×H×W , where H = ⌊Himage /4⌋ and W = ⌊Wimage /4⌋ To achieve final output, we pass the feature map E through Channel Attention Module (CAM) illustrated in Fig 3b to obtain feature map with attention Ec ∈ R256×1×1 Ec = E ⊗ Mc ⊕ E (3) where Mc ∈ 256 × × is channel attention feature map, ⊗ denotes element-wise multiplication and ⊕ denoted elementwise addition Channel Attention Module (CAM).We use × convolution layer f 3×3 to convert feature map from feature extractor into 256 channels E ′ ∈ R256×H×W and a channel attention (CAM) module built followed The CAM is built Table I: Effects of CAM with our framework NUM Dataset CAM MOT16 x MOT17 x IDF1 82.5 82.5 69.8 71.1 IDs 560 602 436 411 MT 317 323 144 149 ML 30 27 47 57 Table II: Effect of SAM in our framework IDs x x IDF1 x MOTA Detection Head x CAM ReID Head Feature Extraction NUM SAM x x x x 82.8 83.0 82.6 82.1 82.5 81.2 80.5 80.6 602 542 573 675 by passing E ′ through average-pooling and max-pooling c andE c 256×1×1 Each pooling operations into two Eavg max ∈ R output will be processed by a shared multi-perception layer (MLP) network, which will receive the pool passed through a 1x1 convolution and a fully connected layer Output will finally combine by element-wise summation to get Mc ∈ R256x1x1 The above A 1D channel attention map is calculated as follows: E ′ = f 5×5 (E) Mc object in the tracking challenge, which records in many sequences including indoor and outdoor senses In addition, the recent MOT20 covers crowds with many pedestrians MOT16/MOT17 have seven sequences for training and seven sequences for testing while only four training sequence and four test sequences in MOT20 We evaluate the experiment with a train dataset of MOT16 with ground-truth or MOT17 and MOT20 test dataset with MOT challenge server Following to MOT challenge benchmarks, we use metrics as multiobject tracking accuracy (MOTA), multiobject tracking precision (MOTP), identity F1 score (IDF1), identity switch (IDs), Most Tracking (MT), Most Lost (ML) to evaluate our methods Implement Settings: Our method is implemented by Pytorch, which is a common open-source machine learning framework recently We use DLA-34 as the backbone for feature extraction and we design our framework as JDT [5] structure as FairMOT [4] We train our model with a train MOT17/MOT20 dataset with 30 epoch and batch size is We use Adam Optimizer with an initial learning rate 10−4 and decay to 10−5 at epoch 20 The input image is enriched by the augmentation data technique with scaling, rotation, color jittering methods In the training step, we use Google Colab Pro, which is a popular hosted Jupyter Notebook service, with NVIDIA P100 or Tesla T4 GPUs and 25GB RAM This step takes 10 hours with MOT17 dataset and 20 hours with MOT20 dataset B Ablation Studies = σ(MLP(AvgPool(E ′ )) ⊕ MLP(MaxPool(E ′ ))) (4) c c )) )) ⊕ MLP(Emax = σ(MLP(Eavg c c = σ( f c(γ(Eavg )) ⊕ f c(γ(Emax )))) where σ denotes the sigmoid activateion function, γ denotes the relu activate function and fc is a share-weight fully connected layer Finally, we apply a convolution layer with 128 kernels to extract the identity embedding feature EreID ∈ R128×H×W for each location of the heatmap.The re-ID loss definition and training method are the same as the definition of JDT [5] and FairMOT [4] IV EXPERIMENT In this section, we will introduce datasets and implementation details in IV-A, The ablation study is presented shortly in IV-B Finally, we will evaluate the output from our model with the-state-of-the-art in IV-C A Dataset and Implement Settings MOT: In our experiment, we only use provided datasets from MOT challenge [22] Particularly, they are MOT16/MOT17 and MOT20 [23] which have been annotated with high accuracy, strictly following a well-defined protocol The MOT datasets choose pedestrians as a primary In this session, we study the effect of each attention modules CAM and SAM with components of our tracking model Effect of CAM: Firstly, we experiment with CAM module In Table I, we show a comparison between our proposal with CAM in Re-ID head and FairMOT [4] We use full MOT17 training data set for the training step and MOT16 training data for the validation step (NUM vs NUM 2) In addition, we separate MOT17 train data into a firsthalf for training and another half for validation (NUM3 vs NUM4), which is sure that nothing is overlapping and fair in comparison The new change derives to a better improvement, NUM4 archives 1.3 increase point compare to NUM3 Move to NUM2 vs NUM1, our equipment keep IDF1 and improve ML (+1.9%) and ML (-10%) This demonstration suggests that CAM baseline tracking results SAM in the Detection Head v.s Feature Extractor: In this illustration, we will demonstrate the ineffectiveness of SAM when set to Detection Head in Table II We will put SAM in our framework of components: Detection Head (NUM3, NUM4) and Feature Extractor (NUM2, NUM4) respectively We use the training MOT17 dataset for the training step and evaluated results with the training MOT16 dataset in all experiments The results show that NUM3 and NUM4 cause the decrease in performance IDF1(∼ 1.9 − Table III: Results of 2D object tracking on the MOT17, MOT20 test set Dataset MOT17 MOT20 Model TubeTK[19] CTracker[20] CenterTrack[21] FairMOT[4] CSTrack[17] FairMOT[4] Ours FairMOT[4] Ours Pre-train data x x x - 2.0), MOTA (∼ 0.2 − 0.7) compared to baseline (NUM1), which does not use SAM in the model Moreover, we also replace components using SAM from Detection Head to Feature Extract, particularly, we only use SAM in the Feature Extractor We gain relative improvements with the increase of the MOTA (+0.2), and the reduction of ID (10%) compared to baseline NUM1 C Benchmark Evaluation We will compare the proposed model with the state-ofthe-art using joint detection and tracking approachs in Table III We will evaluate the results on the test dataset of the MOT17 and MOT20 challenge, the results are provided by the MOT challenge server As shown in Table III, we divide our comparison into categories First, we compare our method with other methods like TubeTK[19], CTracker[20], CenterTrack[21], FairMOT[4], we use only provided training data on MOT17 challenge without extra training dataset Our method improves tracking and detection results with IDF1 +0.4 ∼ 12.9% and MOTA +0.4 ∼ 7.2% compared to other JDE approaches Secondly, we also compare our model with other methods using the extra training dataset including in CSTrack [17] on the MOT17 test set and FairMOT [4] on both MOT17 and MOT20 test sets Although the best result belongs to FairMOT and our method is slightly worse than CSTrack on the MOT17 test set, we have the better performance on the MOT20 challenge (+2.5% MOTA and -150 IDs) V DISCUSSION AND CONCLUSION We have presented the attention mechanisms and their positive influence in improving performance in the direction of the joint detection and tracking (JDT) approach In it, we used CAM in the feature extractor component to increase spatial representation about the related local neighborhood of target pixels, as well as used CAM to enrich identity embedding features We used our method to achieve performance improvements on MOT challenges compared to the state-of-the-art methods using the JDT approach with only provided training data ACKNOWLEDGMENTS This research is supported by Ho Chi Minh City University of Technology (HCMUT), VNU-HCM MOTA 63.0 66.6 69.1 69.8 70.6 73.7 70.2 61.8 64.3 IDF1 58.6 57.4 63.9 69.9 71.6 72.3 70.3 67.3 66.9 IDs 4127 5529 3555 3995 2465 3303 4452 5243 5093 MT 31.2% 32.2% 36.4% 39.4% 37.5% 43.2% 40.0% 68.8% 59.6% ML 19.9% 24.2% 21.5% 28.1% 18.7% 17.3% 18.3% 7.3% 8.5% R EFERENCES [1] B Shuai, A G Berneshawi, X Li, D Modolo, and J Tighe, “Siammot: Siamese multi-object tracking,” CoRR, vol abs/2105.11595, 2021 [2] T Yin, X Zhou, and P Krăahenbăuhl, Center-based 3d object detection and tracking, CoRR, vol abs/2006.11275, 2020 [3] A Kim, A Osep, and L Leal-Taix´e, “Eagermot: 3d multi-object tracking via sensor fusion,” CoRR, vol abs/2104.14682, 2021 [4] Y Zhang, C Wang, X Wang, W Zeng, and W Liu, “A simple baseline for multi-object tracking,” CoRR, vol abs/2004.01888, 2020 [5] Z Wang, L Zheng, Y Liu, and S Wang, “Towards real-time multi-object tracking,” CoRR, vol abs/1909.12605, 2019 [6] M Chaabane, P Zhang, J R Beveridge, and S O’Hara, “DEFT: detection embeddings for tracking,” CoRR, vol abs/2102.02267, 2021 [7] N Wojke, A Bewley, and D Paulus, “Simple online and realtime tracking with a deep association metric,” CoRR, vol abs/1703.07402, 2017 [8] P Voigtlaender, M Krause, A Osep, J Luiten, B B G Sekar, A Geiger, and B Leibe, “MOTS: multi-object tracking and segmentation,” CoRR, vol abs/1902.03604, 2019 [9] B Cheng, B Xiao, J Wang, H Shi, T S Huang, and L Zhang, “Bottom-up higher-resolution networks for multiperson pose estimation,” CoRR, vol abs/1908.10357, 2019 [10] J Gu, H Hu, L Wang, Y Wei, and J Dai, “Learning region features for object detection,” CoRR, vol abs/1803.07066, 2018 [11] J Fu, J Liu, H Tian, Z Fang, and H Lu, “Dual attention network for scene segmentation,” CoRR, vol abs/1809.02983, 2018 [12] H Hu, J Gu, Z Zhang, J Dai, and Y Wei, “Relation networks for object detection,” CoRR, vol abs/1711.11575, 2017 [13] H Zhao, Y Zhang, S Liu, J Shi, C C Loy, D Lin, and J Jia, “Psanet: Point-wise spatial attention network for scene parsing,” in Proceedings of the European Conference on Computer Vision (ECCV), September 2018 [14] X Zhu, D Cheng, Z Zhang, S Lin, and J Dai, “An empirical study of spatial attention mechanisms in deep networks,” CoRR, vol abs/1904.05873, 2019 [15] S Woo, J Park, J Lee, and I S Kweon, “CBAM: convolutional block attention module,” CoRR, vol abs/1807.06521, 2018 [16] J Dai, H Qi, Y Xiong, Y Li, G Zhang, H Hu, and Y Wei, “Deformable convolutional networks,” CoRR, vol abs/1703.06211, 2017 [17] C Liang, Z Zhang, Y Lu, X Zhou, B Li, X Ye, and J Zou, “Rethinking the competition between detection and reid in multi-object tracking,” CoRR, vol abs/2010.12138, 2020 [18] F Yu, D Wang, and T Darrell, “Deep layer aggregation,” CoRR, vol abs/1707.06484, 2017 [19] B Pang, Y Li, Y Zhang, M Li, and C Lu, “Tubetk: Adopting tubes to track multi-object in a one-step training model,” CoRR, vol abs/2006.05683, 2020 [20] J Peng, C Wang, F Wan, Y Wu, Y Wang, Y Tai, C Wang, J Li, F Huang, and Y Fu, “Chained-tracker: Chaining paired attentive regression results for end-to-end joint multipleobject detection and tracking,” CoRR, vol abs/2007.14557, 2020 [21] X Zhou, V Koltun, and P Krăahenbăuhl, Tracking objects as points,” CoRR, vol abs/2004.01177, 2020 [22] A Milan, L Leal-Taix´e, I D Reid, S Roth, and K Schindler, “MOT16: A benchmark for multi-object tracking,” CoRR, vol abs/1603.00831, 2016 [23] P Dendorfer, H Rezatofighi, A Milan, J Shi, D Cremers, I D Reid, S Roth, K Schindler, and L Leal-Taix´e, “MOT20: A benchmark for multi object tracking in crowded scenes,” CoRR, vol abs/2003.09003, 2020 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính Tài liệu tham khảo [1] Z Wang, L Zheng, Y Liu, Y Li, and S Wang, “Towards real-time multi-object tracking,” (Berlin, Heidelberg), p 107–122, Springer-Verlag, 2020 [2] Y Zhang, C Wang, X Wang, W Zeng, and W Liu, “Fairmot: On the fairness of detection and re-identification in multiple object tracking,” International Journal of Computer Vision, vol 129, pp 3069–3087, 2021 [3] C Liang, Z Zhang, X Zhou, B Li, S Zhu, and W Hu, “Rethinking the competition between detection and reid in multiobject tracking,” IEEE Transactions on Image Processing, vol 31, pp 3182–3196, 2022 [4] J Dai, H Qi, Y Xiong, Y Li, G Zhang, H Hu, and Y Wei, “Deformable convolutional networks,” in 2017 IEEE International Conference on Computer Vision (ICCV), pp 764–773, 2017 [5] B Shuai, A Berneshawi, X Li, D Modolo, and J Tighe, “Siammot: Siamese multiobject tracking,” in 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp 12367–12377, 2021 [6] T Yin, X Zhou, and P Krăahenbă uhl, Center-based 3d object detection and tracking, in 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp 11779–11788, 2021 [7] A Kim, A Oˇsep, and L Leal-Taixé, “Eagermot: 3d multi-object tracking via sensor fusion,” in 2021 IEEE International Conference on Robotics and Automation (ICRA), pp 11315–11321, 2021 [8] M Chaabane, P Zhang, J R Beveridge, and S O’Hara, “DEFT: Detection Embeddings for Tracking,” arXiv e-prints, p arXiv:2102.02267, Feb 2021 [9] T.-Y Lin, P Dollár, R Girshick, K He, B Hariharan, and S Belongie, “Feature pyramid networks for object detection,” in 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp 936–944, 2017 [10] K He, X Zhang, S Ren, and J Sun, “Deep residual learning for image recognition,” in 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp 770–778, 2016 [11] X Zhou, D Wang, and P Krăahenbă uhl, Objects as Points, arXiv e-prints, p arXiv:1904.07850, Apr 2019 [12] X Li, K Wang, W Wang, and Y Li, “A multiple object tracking method using kalman filter,” in The 2010 IEEE International Conference on Information and Automation, pp 1862–1866, 2010 Theo dấu người sử dụng công nghệ học sâu Trang 41/43 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính [13] F Yu, D Wang, E Shelhamer, and T Darrell, “Deep layer aggregation,” in 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp 2403–2412, 2018 [14] A Paszke, S Gross, F Massa, A Lerer, J Bradbury, G Chanan, T Killeen, Z Lin, N Gimelshein, L Antiga, A Desmaison, A Kopf, E Yang, Z DeVito, M Raison, A Tejani, S Chilamkurthy, B Steiner, L Fang, J Bai, and S Chintala, “Pytorch: An imperative style, high-performance deep learning library,” in Advances in Neural Information Processing Systems (H Wallach, H Larochelle, A Beygelzimer, F d'AlchéBuc, E Fox, and R Garnett, eds.), vol 32, Curran Associates, Inc., 2019 [15] A Milan, L Leal-Taixe, I Reid, S Roth, and K Schindler, “MOT16: A Benchmark for Multi-Object Tracking,” arXiv e-prints, p arXiv:1603.00831, Mar 2016 [16] P Dendorfer, H Rezatofighi, A Milan, J Shi, D Cremers, I Reid, S Roth, K Schindler, and L Leal-Taixé, “MOT20: A benchmark for multi object tracking in crowded scenes,” arXiv e-prints, p arXiv:2003.09003, Mar 2020 [17] B Pang, Y Li, Y Zhang, M Li, and C Lu, “Tubetk: Adopting tubes to track multiobject in a one-step training model,” in 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp 6307–6317, 2020 [18] J Peng, C Wang, F Wan, Y Wu, Y Wang, Y Tai, C Wang, J Li, F Huang, and Y Fu, “Chained-tracker: Chaining paired attentive regression results for endto-end joint multiple-object detection and tracking,” in Proceedings of the European Conference on Computer Vision, 2020 [19] P Dollar, C Wojek, B Schiele, and P Perona, “Pedestrian detection: A benchmark,” in 2009 IEEE Conference on Computer Vision and Pattern Recognition, pp 304–311, 2009 [20] T Xiao, S Li, B Wang, L Lin, and X Wang, “Joint detection and identification feature learning for person search,” in 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp 3376–3385, 2017 [21] L Zheng, H Zhang, S Sun, M Chandraker, Y Yang, and Q Tian, “Person reidentification in the wild,” in 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp 3346–3355, 2017 [22] J Li, X Liang, S Shen, T Xu, J Feng, and S Yan, “Scale-aware fast r-cnn for pedestrian detection,” IEEE Transactions on Multimedia, vol 20, no 4, pp 985–996, 2018 Theo dấu người sử dụng công nghệ học sâu Trang 42/43 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính LÝ LỊCH TRÍCH NGANG Họ tên Ngày, tháng, năm sinh: Nơi sinh: Địa liên lạc: Đặng Minh Chương 29/09/1995 Vĩnh Long Tân Thiềng, Tân An Hội, Mang Thít, Vĩnh Long, Tỉnh Vĩnh Long Quá trình đào tạo 2013 - 2017 2018 - 2022 Sinh viên Đại Học Bách Khoa TPHCM Học viên cao học Đại Học Bách Khoa TPHCM Q trình cơng tác 2017 - 2018 2018 - 2022 Thực tập Inifinity Blockchain Labs Chuyên viên phân tích liệu FPT Telecom Theo dấu người sử dụng công nghệ học sâu Trang 43/43 ... mại sử dụng Đối tượng phân tích chủ yếu người bộ, theo dấu người sử dụng nhũng kết phân vùng người để cải thiện kết theo dấu Chúng ta tập trung chủ yếu vào người người đối tượng lý tưởng đi? ??n... • Sử dụng attention cho spatial để giảm noise background nhằm tăng phân biệt đối tượng • Sử dụng attention cho channel để tăng khả theo dấu người mô hình Theo dấu người sử dụng cơng nghệ học sâu. .. đến Theo dấu người sử dụng công nghệ học sâu Trang 25/43 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học Kỹ Thuật Máy Tính Hình 18: Minh họa trình theo dấu trường hợp vật cản trình theo dấu

Ngày đăng: 13/10/2022, 08:21

Xem thêm:

HÌNH ẢNH LIÊN QUAN

Mơ hình JDT[1] được tác giả đề xuất như một cách kết hợp hai tác vụ: học các đặc trưng ngoại hình của đối tượng và liên kết dữ liệu (data association) từ các đặc trưng đó với định danh của đối tượng - Theo dấu người đi bộ sử dụng công nghệ học sâu
h ình JDT[1] được tác giả đề xuất như một cách kết hợp hai tác vụ: học các đặc trưng ngoại hình của đối tượng và liên kết dữ liệu (data association) từ các đặc trưng đó với định danh của đối tượng (Trang 14)
2. Số lượng đặc trưng: để phân biệt được các vật thể thì các mơ hình thường sử dụng nhiều lớp làm tăng số lượng đặc trưng, trong khi số lượng đối tượng cần theo dấu thì lại có hạn - Theo dấu người đi bộ sử dụng công nghệ học sâu
2. Số lượng đặc trưng: để phân biệt được các vật thể thì các mơ hình thường sử dụng nhiều lớp làm tăng số lượng đặc trưng, trong khi số lượng đối tượng cần theo dấu thì lại có hạn (Trang 16)
Hình 3: Kiến trúc mơ hình Cross-Corelation network 4 Tiểu kết - Theo dấu người đi bộ sử dụng công nghệ học sâu
Hình 3 Kiến trúc mơ hình Cross-Corelation network 4 Tiểu kết (Trang 18)
• Mạng neural tích chậ p- Convolution Neural Network (CNN) và các mơ hình thực tế. - Theo dấu người đi bộ sử dụng công nghệ học sâu
ng neural tích chậ p- Convolution Neural Network (CNN) và các mơ hình thực tế (Trang 19)
Hình 5: Mơ hình ANN cơ bản - Theo dấu người đi bộ sử dụng công nghệ học sâu
Hình 5 Mơ hình ANN cơ bản (Trang 21)
Hình 6: ANN nhiều lớp - Theo dấu người đi bộ sử dụng công nghệ học sâu
Hình 6 ANN nhiều lớp (Trang 22)
Hình 7: Lớp Convolution - Theo dấu người đi bộ sử dụng công nghệ học sâu
Hình 7 Lớp Convolution (Trang 24)
Hình 8: Ví dụ thực tế lớp Convolution - Theo dấu người đi bộ sử dụng công nghệ học sâu
Hình 8 Ví dụ thực tế lớp Convolution (Trang 25)
Hình 9: Ví dụ minh họa lớp Pooling sử dụng Max Pooling và Average Pooling có filter 2x2 và bước dịch chuyển bằng 2 - Theo dấu người đi bộ sử dụng công nghệ học sâu
Hình 9 Ví dụ minh họa lớp Pooling sử dụng Max Pooling và Average Pooling có filter 2x2 và bước dịch chuyển bằng 2 (Trang 26)
Hình 10: Ví dụ minh họa deformable convolutional neural network - Theo dấu người đi bộ sử dụng công nghệ học sâu
Hình 10 Ví dụ minh họa deformable convolutional neural network (Trang 27)
Hình 11: Kiến trúc mơ hình ACSMOT network - Theo dấu người đi bộ sử dụng công nghệ học sâu
Hình 11 Kiến trúc mơ hình ACSMOT network (Trang 29)
Hình 12: Feature Extractor. (a) Structure of Feature Extractor. (b) Up-sampling with spatial spatial attention module (SAM) - Theo dấu người đi bộ sử dụng công nghệ học sâu
Hình 12 Feature Extractor. (a) Structure of Feature Extractor. (b) Up-sampling with spatial spatial attention module (SAM) (Trang 30)
Hình 13: ReID Head. (a) Structure of Re-ID Head with CAM. (b) Channel attention module (CAM) - Theo dấu người đi bộ sử dụng công nghệ học sâu
Hình 13 ReID Head. (a) Structure of Re-ID Head with CAM. (b) Channel attention module (CAM) (Trang 30)
Hình 14: Một số ảnh minh họa cho dữ liệu huấn luyện - Theo dấu người đi bộ sử dụng công nghệ học sâu
Hình 14 Một số ảnh minh họa cho dữ liệu huấn luyện (Trang 33)
Mơ hình được huấn luyện trên tập dữ liệu train-set của MOT17 và MOT20 với 30 epcho và batch size là 8 - Theo dấu người đi bộ sử dụng công nghệ học sâu
h ình được huấn luyện trên tập dữ liệu train-set của MOT17 và MOT20 với 30 epcho và batch size là 8 (Trang 34)
Hình 16: Training Loss chi tiết của các thành phần của mơ hình ACSMOT trong q trình huấn luyện - Theo dấu người đi bộ sử dụng công nghệ học sâu
Hình 16 Training Loss chi tiết của các thành phần của mơ hình ACSMOT trong q trình huấn luyện (Trang 35)
Trong chương này, tơi sẽ trình bày về kết quả thí nghiệm và đánh giá về mơ hình đề xuất - Theo dấu người đi bộ sử dụng công nghệ học sâu
rong chương này, tơi sẽ trình bày về kết quả thí nghiệm và đánh giá về mơ hình đề xuất (Trang 36)
Hình 18: Minh họa quá trình theo dấu trường hợp vật cản trình theo dấu. - Theo dấu người đi bộ sử dụng công nghệ học sâu
Hình 18 Minh họa quá trình theo dấu trường hợp vật cản trình theo dấu (Trang 37)
Bảng 1: Ảnh hưởng của mô đun CAM trong framework NUM Dataset CAM IDF1 IDs MT ML - Theo dấu người đi bộ sử dụng công nghệ học sâu
Bảng 1 Ảnh hưởng của mô đun CAM trong framework NUM Dataset CAM IDF1 IDs MT ML (Trang 38)
Như kết quả của bảng 1, ta thấy có sự cải thiện đáng kể tăng 1.3% IDF1 ở thí nghiệm NUM 4 sử dụng mô đun CAM so với NUM 3 không dùng mơ đun CAM - Theo dấu người đi bộ sử dụng công nghệ học sâu
h ư kết quả của bảng 1, ta thấy có sự cải thiện đáng kể tăng 1.3% IDF1 ở thí nghiệm NUM 4 sử dụng mô đun CAM so với NUM 3 không dùng mơ đun CAM (Trang 39)
Bảng 3: Kết quả theo dấu các đối tượng 2D trên tập MOT17, MOT20 testset của các mơ hình DatasetModelPre-train data MOTA IDF1IDsMTML - Theo dấu người đi bộ sử dụng công nghệ học sâu
Bảng 3 Kết quả theo dấu các đối tượng 2D trên tập MOT17, MOT20 testset của các mơ hình DatasetModelPre-train data MOTA IDF1IDsMTML (Trang 40)
Hình 19: Minh họa quá trình theo dấu đối tượng người đi bộ - Theo dấu người đi bộ sử dụng công nghệ học sâu
Hình 19 Minh họa quá trình theo dấu đối tượng người đi bộ (Trang 41)

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w