Hình 4-7: Hình ảnh trực quan kết quả của phương pháp FairMOT Hình từ trên xuống lần lượt là các khung hình 1, 50 và 100...- -.- Ăn SH HH ng ng kg 48 Hình 4-8: Hình ảnh trực quan kết quả
Trang 1ĐẠI HỌC QUỐC GIA TP HÒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN
NGÔ MINH PHÚ
KHÓA LUẬN TÓT NGHIỆP PHÁT HIỆN VÀ THEO VÉT XE MÁY TRONG KHÔNG ẢNH
Detection and tracking of motorcycles in aerial image
CU NHÂN CONG NGHỆ THONG TIN
TP HO CHi MINH, 2022
ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
Trang 2TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN
NGÔ MINH PHÚ - 18521243
KHÓA LUẬN TÓT NGHIỆP PHÁT HIỆN VÀ THEO VÉT XE MÁY TRONG KHÔNG ẢNH
Detection and tracking of motorcycles in aerial image
CU NHAN CONG NGHE THONG TIN
GIANG VIEN HUONG DAN ThS VO DUY NGUYEN
TS NGUYEN TAN TRAN MINH KHANG
TP HO CHi MINH, 2022
Trang 3THONG TIN HỘI DONG CHAM KHÓA LUẬN TOT NGHIỆP
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số
ce beee eee eeeeeeeeeen ees ngay của Hiệu trưởng Trường Dai học Công
nghệ Thông tin.
Trang 4LOI CAM ON
Để hoàn thành được khóa luận tốt nghiệp này, bên cạnh những cô gắng va nỗ lực không ngừng của tôi, không thé không kể đến sự hỗ trợ, giúp đỡ của quý Thay
Cô Trường Dai học Công nghệ Thông tin DHQG-HCM Tôi xin được gửi lời cảm ơn
sâu sắc và chân thành nhất đến TS Nguyễn Tan Tran Minh Khang và ThS Võ Duy
Nguyên, giảng viên hướng dẫn của tôi Các Thầy đã tận tình hướng dẫn, chỉ bảo chúng tôi từ những ngày đầu học lập trình và tiếp tục nghiên cứu về máy học, thị giác
máy tính.
Bên cạnh đó, tôi cũng chân thành cảm ơn tập thể nhóm nghiên cứu
UIT-Together đã hỗ trợ và đồng hành hỗ trợ chúng tôi trong suất quá trình nghiên cứu tại
Trường DHCNTT Chân thành cảm ơn Phòng thí nghiệm Truyền thông Da phương tiện (MMLab) của Trường đã tạo điều kiện về cơ sở vật chất, máy tính và tài nguyên
để tôi có thể tiến hành các thực nghiệm Hầu hếu các kết quả thực nghiệm, được tiến
hành trên máy tinh của phòng thí nghiệm MMLab.
Tôi cũng xin gửi lời cảm ơn đến quý Thầy Cô khoa Khoa học và Kỹ thuật
Thông tin đã tận tình giảng dạy, truyền đạt những kiến thức quý báu cho tôi trong những năm tháng học tập và tạo điều kiện cho tôi hoàn thành tốt công việc nghiên
cứu khoa học và khóa luận này.
Trong quá trình thực hiện, mặc dù đã nỗ lực tìm hiểu, nghiên cứu, thực nghiệm
và bước đầu đã đạt được một số kết quả đáng khích lệ, nhưng do kiến thức và kinh
nghiệm còn nhiều hạn chế, không thẻ tránh khỏi những thiếu sót, tôi rất mong nhận được sự góp ý từ quý Thầy Cô đề chỉnh sửa và hoàn thiện đề tài.
Chân thành cam ơn.
Ngô Minh Phú
Trang 5TOM TAT KHÓA LUẬN.
Chương 1 TONG QUAN 2222222222 22222222223111222211122211122111 c2 re 2
2.1.3 Theo dõi dựa trên phát hiện và không dựa trên phát hiện đối tượng 8
2.2 Các phương pháp phát hiện đối tượng -c£2vcccz++tcczx+ 9
2.2.1 YOLOV3 St 11g 9 2.2.2 @009 00 0
2.2.3 PP-YOLOE Sàn Hước 2
2.3 Các phương pháp theo dõi đối tượng cccccccccccvcreeeerrrrrer 5
2.3.1 DeepSORT HH HH HH Hư 5
2.3.2 FairMOT St n1 re 7 2.3.3 ByteTTacK HH HH HH HH TH trệt 9 2.3.4 OC-SORT à cà che 21
Trang 6Chương 3 XÂY DỰNG BO DU LIEU PHÁT HIEN VA THEO DOI DOI TƯỢNG
TRONG KHONG ANH lạ 24
i oe ae G0: 0 t: | cre 24
3.1.1 VisDrone-MOT2021 sccessesssesssesssesssessesssesssesseessecssesssesseessesssecanesseeeses 24
3.2 Thu thập và tiền xử li o cceccecceeccccseessesssesssessesssecssesssessesssesssessesssesssesseeeseessess 25
3.2.1 Thu thập dit liệu -©¿+2+2EE+2EE£EEEEEEEEEEEEEEE71.221211 21 25
3.2.2 Tiền xử lý dit liệu - +52 SE+EE+EE+EEEEEEEEEEEEEEE1211215 211111111 xe 253.3 Quy tắc gán nhãn dữ liệu - 2 £+S+E+EE£EE£EESEEEEEEEE2E2121 21212 25
3.4 Quy trình gan nhãn dữ liỆU 5 233221332113 5E EEEksrrsrserere 26
4.1.2 Dữ liệu thực nghiỆm - - - G11 HH kg như, 34
4.2 DO do danh gid năOOỒ 35
4.3 Thực nghiệm và đánh gIá - - c3 3211191131111 re 37
4.3.1 Kết quả thực nghiệm -¿- 2 252 t+E£SEEEEEEEEEEEEEEEEEEEEEEEErkrrkerree 374.3.2 Phân tích kết quả thực nghiệm - ¿2-2 2 £+S++££+E££Ee£Eerxerxsrxee 42
4.3.3 Ứng dụng minh họa 2-2 St+EE+EEEEEEEEEEEEEEEEEEEEEEEEEEkerkerreee 52
Chương 5 KẾT LUẬN VÀ HƯỚNG PHAT TRIÉN -¿ 5¿©55z-: 56
5.1 Kết luận - ch tt S111 11E11511111111111111111111E11111111E11 E1 TxcE 56
Trang 75.2 Hướng phát triển.
TÀI LIỆU THAM KHẢO
PHU LUC A — HƯỚNG DẪN CÀI ĐẶTT -¿-2- 2+E+EE+EE+E+EEEEEEEzEEEErErkererrrrs
Trang 8DANH MỤC HÌNH
Hình 1-1: Anh minh họa đầu vào - đầu ra của bài tốn - ¿2 cecs+x+x+zeresxez 2
Hình 2-IMinh hoa Single Object Tracking . - 5+5 + ss**++seeeeereeereess 7 Hình 2-2: Minh họa Multile Object 'TracIng - xxx re 8
Hình 2-3: Kiến trúc mang Darknet-53 [2] - 5 + kg key 9
Hình 2-4: Minh họa hộp giới hạn được dự đốn ở 3 kích thước khác nhau trong
Hình 2-5: Khác nhau giữa Couple Head trong kiến trúc YOLOv3 và Decoupled Headtrong YOLOX được các tác giả để xuất [4}] 5:5: EkSESEEEEEESEEEEEEEEeErkrkrrerrree 11
Hình 2-6: Minh hoa sự khác nhau giữa Single positive va Multiple Positives 12
Hình 2-7: Kiến trúc mơ hình của PP-YOLOE ¿- 2¿+¿©++2+++£x+z++rx+srxz 13Hình 2-8: Kiến trúc của RepResBlock và CSPRepResStage . - 14Hình 2-9: Kiến trúc tổng quan của DeepSORIT -¿- 2-2 2 z+s££kezkezxerszrszsez 16Hình 2-10: Minh họa kiến trúc của FairMOT [14] - ¿s+s+ccs+x+zeEze+zerzezxee 18
Hình 2-11: Mã giả mơ tả thuật tốn BYTE [I6 ] - 555555 *++<c+seexssesssess 19
Hình 2-12: Minh họa về phương pháp của liên kết mọi hộp phát hiện 20Hình 2-13: Minh họa trực quan về phương pháp OC-SORT -:¿ 5+ 22
Hình 2-14: Minh họa về cách Observation-centric Online Smoothing hoạt động 22
Hình 3-1: Quy trình gan nhãn UTT-DroneMỌT” «5+ +-ss++scxsseeeesesrsers 26
Hình 3-2: Minh họa về bối cảnh đa dang của bộ dữ liệu UIT-DroneMOT 32Hình 3-3: Che khuất các đối tượng (các đối tượng che khuất nhau, bĩng cây, gĩc độ
Trang 9Hình 4-4: Hình ảnh trực quan kết quả của phương pháp DeepSORT sử dụng mô hìnhDetector là YOLOv3 và mô hình Re-ID là Resnet (Hình từ trên xuống lần lượt là các
khung hình 1, 50 và Ũ) - 1xx v9 ng TT Hà HH HH gà 44
Hình 4-5: Hình ảnh trực quan kết quả của phương pháp ByteTrack sử dụng mô hình
Detector là YOLOX (Hình từ trên xuống lần lượt là các khung hình 1, 50 và 100).
Hình 4-6: Hình ảnh trực quan kết quả của phương pháp OC-SORT sử dụng mô hìnhDetector là YOLOX (Hình từ trên xuống lần lượt là các khung hình 1, 50 và 100)
Hình 4-7: Hình ảnh trực quan kết quả của phương pháp FairMOT (Hình từ trên xuống
lần lượt là các khung hình 1, 50 và 100) - -.- Ăn SH HH ng ng kg 48
Hình 4-8: Hình ảnh trực quan kết quả của phương pháp DeepSORT sử dụng mô hìnhDetector là YOLOv3 và mô hình Re-ID là Resnet (Hình từ trên xuống lần lượt là các
Hình 4-13: Kiến trúc hệ thống phát hiện và theo vết xe máy trong không anh 53
Hình 4-14: Chức năng tải lên hình ảnh trên ứng dung web - « <+<+2 53 Hình 4-15: Man hình lịch sử anh dự đoán trên ứng dung web - 54
Hình 4-16: Màn hình tải về file dự đoán kết quả trên ứng dung web - 54
Hình 4-17: Minh họa quá trình xử lý trên ứng dụng web cccscs+sssss 55
Trang 10được tô màu Ỏ - - - E22 111861122301 811119530 11111 1kg 1n ky 38
Bảng 4-2: Kết quả thực nghiệm trên bộ dữ liệu VisDrone-MOT2021 Kết quả tốt nhất
60x82 =a 39
Bảng 4-3: Kết quả thực nghiệm huấn luyện trên bộ đữ liệu UIT-DroneMOT nhưngđánh giá trên bộ dữ liệu VisDrone-MOT2021 Kết quả tốt nhất được tô màu đỏ .40
Bảng 4-4: Kết quả thực nghiệm huấn luyện trên bộ dữ liệu VisDrone-MOT2021
nhưng đánh giá trên bộ dữ liệu UIT-DroneMOT Kết quả tốt nhất được tô màu đỏ
Trang 11DANH MỤC TỪ VIET TAT
STT | Từ viết tắt Ý nghĩa
01 AP Average Precision
02 CNN Convolutional Neural Network
03 FPN Feature Pyramid Network
04 loU Intersection over Union
05 MOTA Multiple object tracking Accuracy
06 NMS Non Maximum Suppression
07 MOTP Multiple object tracking Preciscion
08 SORT Simple Online Realtime Object Tracking
09 OC-SORT Observation-Centric SORT
10 SOTA State-of-the-Art
12 UAV Unmanned aerial vehicle (drone)
14 UAVDT Unmanned Aerial Vehicle Benchmark Object
Detection and Tracking
15 YOLO You Only Look Once
16 ML Mostly Lost trajectories
17 IDs ID switches
18 MT Mostly Tracked trajectories
Trang 12TÓM TAT KHÓA LUẬN
Phát hiện và theo dõi phương tiện giao thông trong không ảnh là một bài toán
trong lĩnh vực Thị giác máy tính Đây đang là một bài toán nhận được nhiều sự quantâm trên toàn thế giới, trong giới nghiên cứu khoa học bởi UAV đang ngày được chútrọng trong nhiều lĩnh vực quân sự cũng như dân sự Việc sử dụng hình ảnh thu được
từ camera của UAV giúp tránh được các hạn chế của camera thông thường
Trong nghiên cứu này, tôi nghiên cứu phương pháp phát hiện đối tượng the-art: DeepSORT, FairMOT (2021), ByteTrack (2022), OC-SORT (2022) Đồng
state-of-thời khảo sát chạy thực nghiệm các phương pháp này cho nhiệm vụ phát hiện và theo
dõi xe máy trong không ảnh Bộ dữ liệu chúng tôi thực nghiệm là UIT-DroneMOT',
bộ dữ liệu này chứ nhiều thách thức mới so với các bộ dữ liệu không ảnh khác đã
được công bố với những đối tượng phổ biến trong giao thông Việt Nam bao gồm:
Pedestrian, Motorbike, Car, Bus, Van, Truck, Bicycle Tuy nhiên, trong khóa luận
này chúng tôi chỉ thực hiện chạy trên lớp đối tượng Motorbike Thông qua kết quảthực nghiệm, tôi đưa ra đánh giá đầy đủ, chỉ tiết về các phương pháp thực hiện
† https://uit-together.github.io/datasets/
Trang 13Chương 1 TONG QUAN
Nội dung chương này sẽ trình bày động lực nghiên cứu, phát biểu về bài toán, các
thách thức gặp phải, mục tiêu — phạm vi và những đóng góp chính trong khóa luận.
1.1 Động lực nghiên cứu
Ngày nay, với sự phát triển nhanh chóng của Deep Learning trong lĩnh vực pháthiện đối tượng, con người đã sở hữu những ứng dụng hữu ích được sử dụng rộng rãi
trong đời sống hằng ngày có thé kế đến như giám sát, cứu hộ, theo dõi giao thông, tự
động hóa phương tiện giao thông Hình ảnh, video trong những ứng dụng này thường
được thu nhận qua các thiết bị điện tử như camera, máy ảnh và đặc biệt là các thiết bị
bay không người lái (UAVs) Các tài nguyên hình ảnh này là công cụ hữu ích giúp
lưu trữ và trích xuất thông tin quan trọng Tuy nhiên, đây chỉ là nguồn dit liệu thô ma
máy tính không thé hiểu ngữ cảnh và theo dõi các đối tượng được trong khi việc theodõi, giám sát các đôi tượng trong ảnh bằng phương pháp thủ công tốn rất nhiều nhân
lực, thời gian và chi phí
Vì lý do trên, các thuật toán phát hiện đối tượng và theo dõi đối tượng đã liêntiếp được đề xuất Tuy nhiên, phần lớn các thuật toán theo dõi được nghiên cứu chủyếu tập trung vào theo dõi người đi bộ, nhưng ở nước ta thành phần tham gia giaothông trọng yếu vẫn là xe máy Điều này đã thôi thúc chúng tôi thực hiện tìm hiểu,thử nghiệm, nghiên cứu đề tài “Phát hiện và theo vết xe máy trong không ảnh”
1.2 Phát biểu bài toán
Trang 14Sau làn sóng đại dich COVID19 nhiều chính phủ, doanh nghiệp đã day mạnh
trong công việc phát triển công nghệ, tự động hóa, đồng thời chủ động trong việc tiếp
cận các công nghệ tương lai dé tránh giảm hiệu suất sản xuất cũng như lao động
Trong những năm gần lại đây ngành công nghiệp máy bay không người lái đã pháttriển nhanh chóng và được sử dụng rộng rãi trong một số ứng dụng và liên tục làmtăng sự quan tâm của thị trường toàn cầu cũng như các nhà nghiên cứu Các ứng dụngkhác nhau từ giải trí đến các hoạt động quân sự Các ứng dụng này có thê thay thếcông việc của con người ở những nơi khó tiếp cận, việc phát hiện và theo đõi phương
tiện từ các camera trên không đã trở thành một khía cạnh quan trọng trong các nhiệm
vu cứu hộ, cứu nạn và theo dõi giám sát Hệ thống này ngày càng phổ biến do khảnăng hoạt động linh hoạt phù hợp với các địa hình rộng, đồi núi phức tạp ở nước ta
và các loại địa hình không có cấu trúc Hơn nữa, khả năng đi chuyển của máy baykhông người lái còn cung cấp phạm vi phủ sóng rộng, độ phân giải không gian cao
và góc quay cơ động hơn so với các camera cô định ở mặt đất Phát hiện và theo dõi
xe máy từ ảnh được ghi lại từ Drone là một bài toán thách thức việc nghiên cứu và
giải quyết tốt các van dé này sẽ là cơ sở cho bài toán lớn hon trong không ảnh
e Đầu vào: Video hoặc chuỗi hình anh được chụp từ drone
e Đâu ra: Xác định các hộp giới hạn va id của đôi tượng.
1.3 Các thách thức
Thông qua việc tham khảo, khảo sát về các bài toán phát hiện và theo dõi đốitượng trong không ảnh, chúng tôi nhận thấy thách thức của bài toán tương đối đáng
kê, đên từ nhiêu yêu tô khác nhau.
Một số thách thức bên ngoài như điều kiện thời tiết xấu có thé ảnh hưởng trực
tiếp đến chất lượng hình ảnh như mưa, ánh sáng phân bổ không đều, các góc quaykhác nhau cho ra hình dạng của vật thé khác nhau, các khu vực địa hình mang đặc
thù riêng Ngoài ra, sự rung lắc của UAVs trong quá trình thu thập dữ liệu có thé
làm chất lượng ảnh giảm sút hoặc bị nhòe, bị mờ
Trang 15Thách thức đến từ bên trong như sự đa dạng về bối cảnh, phân bó đối tượng
giao thông không đồng đều, độ giãn cách khác nhau giữa các loại đối tượng, sự đa
dang trong hình thái, màu sắc của các đối tượng và các đối tượng có thé che khuất
lân nhau.
Ngoài những thách thức về dữ liệu, bài toán còn gặp những khó khăn về mặt
kỹ thuật khi chưa có quá nhiều phương pháp phát hiện và theo dõi đối tượng hiệu quảtrong không ảnh Nhận thấy sự vượt trội của hướng tiếp cận học sâu từ khảo sát,chúng tôi quyết định chọn các phương pháp phát hiện đối tượng SOTA gồm:
DeepSORT, FairMOT[1], ByteTrack [2], OC-SORT [3] dé tiến hành thực nghiệm và
đánh giá trên bộ dữ liệu Tuy nhiên, mỗi phương pháp có những đặc trưng khác nhau
về kiến trúc dẫn tới sự khác biệt về điểm mạnh và điểm yếu Hon nữa, sự tinh chỉnhcác thông số cho từng mô hình cũng sẽ ảnh hưởng đến kết quả đạt được trong quátrình thực nghiệm Việc này đặt ra yêu cầu nghiên cứu sâu nhằm tìm ra phương phápmang lại kết quả tốt nhất đáp ứng được các thách thức của bài toán
1.4 Mục tiêu và phạm vỉ nghiên cứu
Trong phạm vi nghiên cứu, mục tiêu chính của khóa luận là:
e Tìm hiểu tổng quan về các bài toán Phát hiện va theo dõi đối tượng trong
không ảnh.
e Khao sát các bộ dữ liệu cho bài toán tương tự đã được công bố trên thé
giới Đồng thời, tìm hiểu các kỹ thuật, phương pháp học sâu tiên tiến, cókết quả khả quan trên các bộ dữ liệu này
e_ Xây dựng bộ dữ liệu phát hiện và theo dõi đối tượng trong không ảnh
e Nghiên cứu và tiến hành thực nghiệm phương pháp phát hiện đối tượng
học sâu (DeepSort, FairMOT, ByteTrack, OC-SORT) trên bộ dữ liệu đã
được xây dựng.
e Nghiên cứu, so sánh và đánh giá đựa trên kết quả thực nghiệm
e Lựa chọn một model cho kết quả tốt dé xây dựng ứng dung demo
e Tổng hợp kết quả, phân tích đánh giá kết quả từ mô hình và viết báo cáo
Trang 161.5 Đóng góp khóa luận
Giới thiệu bài toán Phát hiện và theo dõi đối tượng trong không ảnh, trìnhbày tình hình nghiên cứu đã có trên thế giới, phân tích xu hướng phát triểncủa bài toán sử dụng các phương pháp phát hiện đối tượng dựa trên học
sâu.
Trình bày kết quả khảo sát các bộ dữ liệu có cùng ngữ cảnh đã được công
bố trên thế giới và quy trình xây dựng bộ dit liệu không ảnh
UIT-DroneMOT.
Trinh bay các phương pháp phát hiện và theo dõi đối tượng trong không
ảnh dựa trên học sâu bao gồm các phương pháp DeepSort, FairMOT,
ByteTrack, OC-SORT Thực hiện huấn luyện các phương pháp trên bộ ditliệu đã xây dựng dé đánh giá chi tiết về bộ dữ liệu cũng như kết quả của
các mô hình.
Kết quả mô hình nghiên cứu được sử dụng và phát triển thành ứng dụng
phát hiện đối tượng trên nền tảng web
1.6 Cấu trúc báo cáo khóa luận
Chương 1: Tổng quan đề tài
o Giới thiệu về nội dung đề tài bao gồm động lực nghiên cứu, phát
biéu bài toán, mục tiêu, phạm vi của nghiên cứu và những đóng góp
chính trong khóa luận.
Chương 2: Các công trình nghiên cứu liên quan.
o Trình bày tổng quan về Thị giác máy tính, khảo sát các hướng
nghiên cứu trên thế giới, hướng tiếp cận bài toán phát hiện và theodõi đối tượng dựa trên học sâu
Chương 3: Bộ dữ liệu UIT-DroneMOT.
o Trình bày về tổng quan về bộ dit liệu UIT-DroneMOT, phân tích bộ
dữ liệu xây dựng được, khảo sát các bộ dt liệu tương tự.
Chương 4: Thực nghiệm và đánh giá.
o Trình bày quá trình cài đặt thực nghiệm, các thông số chỉ tiết,
phương pháp đánh giá, phân tích và so sánh kết quả
Chương 5: Kết luận và hướng phát triển
Trang 17o Tổng kết các kết quả quan trọng đã đạt được trong đề tai, hạn chế
và hướng phát triên của đê tài trong tương lai cho các nghiên cứu cải tiên hơn.
Trang 18Chương2 CÁC NGHIÊN CỨU LIÊN QUAN
Trong chương này, chúng tôi sẽ trình bày hướng tiếp cận đối với bài toán Phát hiện
và theo dõi đối tượng trong không ảnh Thông qua quá trình nghiên cứu, chúng tôinhận thấy các phương pháp Phát hiện và theo dõi đối tượng trong ảnh dựa trên học
sâu có khả năng được áp dụng cho bài toán “Phát hiện và theo dõi đối tượng trongkhông ảnh” Vì vậy, chương 2 sẽ giới thiệu các phương pháp phát hiện và theo đối
tượng trong ảnh dựa trên học sâu.
2.1 Object Tracking
Theo dõi đối tượng (Object tracking) là bài toán theo dõi một hoặc nhiều đốitượng chuyên động theo thời gian trong một video Hiểu một cách đơn giản nhất, nó
là bài toán ở mức độ cao hơn so với phát hiện đối tượng, khi đối tượng được xử lí
không đơn giản là một hình ảnh mà là một chuỗi các hình ảnh hoặc video.
2.1.1 Single Object Tracking (SOT)
Single Object Tracking tập trung vào việc theo dõi một đối tượng duy nhấttrong toàn bộ video Và tất nhiên, dé biết được cần theo dõi đối tượng nào, việc cungcấp một hộp giới hạn từ ban đầu là việc bắt buộc phải có
Hình 2-1Minh họa Single Object Tracking ?
2.1.2 Mutiple Object Tracking (MOT)
Mutliple Object Tracking hướng tới các ứng dụng có tính mở rộng cao hơn.
Bài toán cô gắng phát hiện đồng thời theo dõi tất cả các đối tượng trong tầm nhìn, kê
? https://viblo.asia/p/sort-deep-sort-mot-goc-nhin-ve-object-tracking-phan-1-Az45bPooZxY
Trang 19cả các đối tượng mới xuất hiện trong video Vì điều này, MOT thường là những bài
toán khó hơn SOT và nhận được rât nhiêu sự quan tâm của giới nghiên cứu.
2.1.2.1 Online-Offline Multi-Object Tracking
2.1.3.
Online Tracking: Khi xử li video, chỉ sử dung khung hình hiện tai và khung
hình ngay trước đó dé theo dõi Cách xử lí này có thé sẽ làm giảm độ chínhxác của thuật toán, tuy nhiên nó lại phản ảnh đúng cách vấn đề được xử lítrong thực tế, khi mà tính real-time là cần thiết
Offline Tracking: Các phương pháp offline sử dung các phát hiện từ toàn
bộ chuỗi khung, sau đó tiến hành tối ưu hóa toàn cục, chứa các phươngpháp dựa trên đô thị và phương pháp phân cấp Các phương pháp trước đâysây dựng MOT như một mô hình đồ thị, có thể tối ưu hóa bằng cách sửdụng đường đi ngắn nhất, dòng chi phí tối thiểu và phân tích bảng phụ,
trong khi các phương pháp sau này xây dựng quỹ đạo dựa trên hierarchical
manner.
Theo dõi dựa trên phát hiện và không dựa trên phát hiện đối tượng
e Loại thuật toán theo dõi trong đó trình phát hiện đối tượng phát hiện các đối
tượng trong khung và sau đó thực hiện liên kết dữ liệu giữa các khung để tạoquỹ đạo từ đó theo dõi đối tượng
e Các loại thuật toán này giúp theo dõi nhiều đối tượng và theo dõi các đối tượng
mới được giới thiệu trong khung Quan trọng nhất, chúng giúp theo dõi cácđối tượng ngay cả khi phát hiện đối tượng không thành công
Trang 20e Loại thuật toán theo dõi trong đó tọa độ của đối tượng được khởi tạo thủ công
và sau đó đối tượng được theo dõi trong các khung tiếp theo Loại này chủ yêuđược sử dụng trong các thuật toán thị giác máy tính truyền thống như
BOOSTING, MIL, KCF, CSRT, GOTURN, )
2.2 Các phương pháp phát hiện đối tượng
2.2.1 YOLOv3
YOLOv3 là một trong những công cụ dò tìm được sử dụng rộng rãi nhất trongngành do hạn chế về tài nguyên tính toán và không đủ phần mềm hỗ trợ trong các
ứng dụng thực tế khác nhau Một số điểm mạnh của YOLOv3 như:
YOLOv3 bao gôm những cải tiên so với các phiên bản trước về toc độ, độ chính xác và các lớp tính năng.
Residual 128 x 128
Convolutional 128 3x3/2 64x64
Convolutional 64 1x1 Convolutional 128 3x3
Convolutional 512 3x3
Residual 16 x 16
Convolutional 1024 3x3/2 8x8 Convolutional 512 1x1
Convolutional 1024 3x3
Residual 8x8 Avgpool Global
Connected 1000 Softmax
Hình 2-3: Kiến trúc mạng Darknet-53 [3]
Xương sống mới Darknet-53 là một mô hình mạng Neural Convolution sửdụng 53 lớp phức hợp dé rút trích đặc trưng (feature extractor backbone) Hình 2.3
3 https://learnopencv.com/understanding-multiple-object-tracking-using-deepsort/
Trang 21Với câu trúc mạnh mẽ đó, DarkNet53 có tôc độ cao hơn nhiêu so với các xương sông
khác như ResNet-101 hay ResNet-152.
YOLOv3 dự đoán độ tin cậy của hộp giới han (có chứa vật hay không) sử dụng
Logistic Regression.
YOLOv3 cho phép gan nhiều lớp cho một đối tượng so với một lớp cho một
đối tượng ở các phiên bản trước YOLO trước (sử dụng softmax cho logistic classify)
Dự đoán ở nhiều kích thước: YOLOv3 sử dụng kiến trúc Feature Pyramid
Networks (FPN) dé đưa ra các dự đoán từ nhiều kích thước khác nhau của bản đồ đặctrưng Việc này giúp giải quyết van dé trong việc nhận diện các vật thé có kích thước
nhỏ, điều mà YOLOv2 chưa thé làm tot.
Hình 2-4: Minh hoa hộp giới hạn được dự đoán ở 3 kích thước khác nhau trong
YOLOv3.
2.2.2 YOLOX
Những năm gan đây, đã có nhiều tiến bộ trong nghiên cứu bai toán phát hiện
đối tượng Một số kỹ thuật đã được đưa ra trước đó như anchor based được sử dụng
từ YOLOv2, coupled head thậm chí đã được sử dụng tất cả trong các phiên bản tiền
nhiệm Tuy nhiên, khi nhìn nhận lại các vấn đề này tác giả đã có góc nhìn khác khi
10
Trang 22sử dụng anchor free, coupled head thay cho lần lượt anchor based và decoupled head
đã cho hiệu suất đáng kể
2.2.2.I Anchor free
Kỹ thuật sử dụng anchor based được áp dụng từ YOLOv2 đến YOLOR Kỹthuật này yêu cầu quá trình xác định những anchor tối ưu cho việc huấn luyện Những
anchor này tùy thuộc vào miền của dif liệu và thiếu tính tổng quát
Anchor Free YOLOX giúp giảm dự đoán cho từng vị trí từ 3 xuống 1 và dựđoán trực tiếp bốn giá trị của hộp giới hạn
Phiên bản không có neo chỉ chọn MỘT mẫu dương tính, là vị trí trung tâm củatừng đối tượng và nó làm giảm đáng kề số lượng tham số thiết kế
2.2.2.2 Decoupled head
Một van đề với coupled head là sự xung đột giữa việc phân loại và hồi quy, việc su
dụng đầu ghép có thể làm ảnh hưởng đến độ chính xác cũng như hiệu suất của mô
hình Do đó trong phương pháp YOLOX, các tác giả đã đề xuất kiến trúc đầu tách rời
(decoupled head) với các hoạt động phân loại và hồi quy được tách biệt nhau Điều
này làm tăng tốc độ hội tụ trong YOLOX
1
Hình 2-5: Khác nhau giữa Couple Head trong kiến trúc YOLOv3 và Decoupled
Head trong YOLOX được các tác giả đê xuât [4].
lãi
Trang 23Đối với mối cấp của tính năng tính ăng FPN [30], trước tiên áp dụng lớp chuyền
đổi (conv layer) 1x1 dé giảm kênh tính năng xuống 256 va sau đó thêm hai nhánh
song song với hai lớp chuyên đồi (conv layer) 3x3 cho mỗi nhiệm vụ phân loại và hồi
quy riêng biệt Nhánh IoU được thêm vào nhánh hồi quy
2.2.2.3 Multiple positive
Dé phù hợp với quy tac gán của YOLOv3, phiên ban không có mỏ neo của
YOLOX chỉ chọn một mẫu tích cực ở vị trí trung tâm cho mỗi đối tượng, có nghĩa là
bỏ qua các dự đoán chất lượng cao khác Tuy nhiên, tối ưu hóa các dự đoán chất
lượng cao đó cũng có thể mang lại các gradient có lợi và có khả năng làm giảm bớt
sự mat cân bang cực độ của việc lây mẫu tích cực hay tiêu cực trong quá trình huấnluyện Các tác giả đề xuất chỉ định khu vực 3x3 ở trung tâm là các vị trí tích cực,chiến lược này còn gọi là “Center sampling” trong FCOS
Single postitive Multiple positives
Hình 2-6: Minh hoa su khác nhau giữa Single positive va Multiple Positives
2.2.3 PP-YOLOE
Mô hình phát hiện đối tượng một giai đoạn rat phô biến trong các ứng dụngthời gian thực do sự cân bằng giữa tốc độ và độ chính xác tuyét voi Kiến trúc nỗi bậtnhất trong số các mô hình một giai đoạn là chuỗi bài YOLO Ké từ các mô hình pháthiện đối tượng thuộc dòng YOLO đã trải qua những thay đổi to lớn về cấu trúc mạng,
12
Trang 24gán nhãn, Hiện tại, YOLOX đang đạt được sự cân bằng tối ưu giữa tốc độ và độ
chính xác.
YOLOX giới thiệu phương pháp không neo tiên tiến được trang bị gán nhãn
động dé cải thiện hiệu suất của trình phát hiện, vượt trội đáng ké so với YOLOv5 [5]
về độ chính xác Lấy cảm hứng từ YOLOX, Xin Huang cùng các cộng sự đã tối ưuhóa và đưa ra phương pháp PP-YOLOv2 [6] PP-YOLOv2 là máy dò một tang hiệusuất cao Dựa trên PP-YOLOv2, tác giả tiếp tục đề xuất một phiên ban cải tiến củaYOLO có tên là PP-YOLOE PP-YOLOE vượt trội so với YOLOv5 và YOLOX vềtốc độ và sự đánh đổi về độ chính xác PP-YOLOE tránh sử dụng các toán tử nhưDeformable Convolutional Networks [7, 8] và Matrix NMS [9] để được hỗ trợ tốttrên các phần cứng khác nhau Hơn nữa, PP-YOLOE có thé dé dàng mở rộng thànhmột loạt các mô hình cho các phần cứng khác nhau với sức mạnh tính toán khác nhau.Những đặc điểm này thúc đây hơn nữa việc áp dụng PP-YOLOE trong nhiều tìnhhuống thực tế hơn
Hình 2-7: Kiến trúc mô hình của PP-YOLOE
Neo miễn phí (Anchor free) Như đã đề cập ở trên, PP-YOLOv2 chỉ định các
sự thật cơ bản theo cách dựa trên mỏ neo Tuy nhiên, cơ chế neo giới thiệu một sốsiêu tham số và phụ thuộc vào thiết kế thủ công có thé không khái quát hóa tốt trên
các bộ dữ liệu khác Vì lý do trên, tác giả giới thiệu phương pháp không neo trong
PP-YOLOv2 Dựa trên FCOS [13], xếp một điểm neo trên mỗi pIxel, tác giả đặt giớihạn trên và dưới cho ba đầu phát hiện dé gan gia tri thuc cho ban đồ tính năng tương
ứng Sau đó, tâm của hộp giới hạn được tính toán dé chon pixel gần nhất làm mẫu
13
Trang 25dương tính Theo chuỗi YOLO, một vectơ 4D (x, y, w, h) được dự đoán cho hồi quy.
Sửa đổi này làm cho mô hình nhanh hơn một chút với việc mất 0,3 AP so với
PP-YOLOv2 Mặc dù các giới hạn trên va dưới được đặt cân thận theo kích thước neo
của PP-YOLOv2, nhưng vẫn có một số mâu thuẫn nhỏ trong kết qua gan giữa cách
dựa trên neo và không có neo, điêu này có thé dan đên độ chính xác giảm di một chút.
Kết nối còn lại (Residual connections) dé giải quyết vấn đề biến mất độ dốc
và cũng có thé được coi là một cách tiếp cận tập hợp mô hình Kết nối dày đặc (Denseconnections) tổng hợp các tính năng trung gian với các trường tiếp nhận đa dạng, chothấy hiệu suất tốt trong tác vụ phát hiện đối tượng CSPNet [10] sử dụng các kết nối
dày đặc giữa các giai đoạn để giảm gánh nặng tính toán mà không làm giảm độ chính
xác, vốn pho biến trong số các trình phát hiện đối tượng hiệu quả như YOLOv5,YOLOX, VoVNet [11] và TreeNet [12] cũng cho thấy hiệu suất vượt trội trong việcphát hiện đối tượng Lấy cảm hứng từ những tác phâm này, tác giả đề xuất mộtRepResBlock bằng cách kết hợp các kết nối còn sót lại và các kết nối day đặc, được
sử dụng trong xương sông và cô cua chúng tôi.
(a) Simplified (b) RepResBlock (c) RepResBlock (d) CSPRepResStage
TreeBlock during training during
inference
Hình 2-8: Kiến trúc của RepResBlock và CSPRepResStage
Đầu tiên, tác giả đơn giản hóa TreeBlock ban đầu (Hình 2.8(b)) Sau đó, chúngtôi thay thế thao tác ghép nối bằng thao tác thêm theo từng phan tử (Hình 2.8(b))
Trong giai đoạn suy luận, chúng ta có thể tái tham số hóa RepResBlock thành khối
dư cơ bản (Hình 2.8(c)) được sử dụng bởi ResNet-34 trong RepVGG.
14
Trang 26Tác giả sử dụng RepResBlock được đề xuất dé xây dựng xương sống và cô.
Tương tự như ResNet, xương sống có tên là CSPRepResNet, chứa một thân bao gồm
ba lớp tích chập và bốn giai đoạn tiếp theo được xếp chồng lên nhau bởi RepResBlock
như trong Hình 2.8(d) Trong mỗi giai đoạn, các kết nối từng phan của giai đoạn chéođược sử dụng dé tránh nhiều tham số và gánh nặng tính toán do nhiều lớp tích chập
3x3 mang lại Lớp ESE (Effective Squeeze and Extraction) cũng được sử dụng dé ápđặt sự chú ý của kênh trong mỗi CSPRepResStage trong khi xây dựng xương sống
Ở cổ tác giả xây dựng với RepResBlock và CSPRepResStage dựa trên PP-YOLOv2.Khác với xương sống, lối tắt trong lớp RepResBlock và ESE trong CSPRepResStage
được loại bỏ ở cô.
2.3 Các phương pháp theo dõi đối tượng
2.3.1 DeepSORT
2.3.1.1 Simple Online Realtime Tracking (SORT)
Simple Online Realtime Object Tracking (SORT), một thuật toán thuộc dạng
Tracking-by-detection (hay Detection based Tracking) là một cách tiếp cận dé theo
dõi đối tượng trong đó các phương pháp thé sơ như bộ loc Kalman và thuật toánHungary được sử dụng đề theo dõi các đối tượng SORT được tạo thành từ 4 thành
phần chính như sau:
Phát hiện (Detection): Đây là bước đầu tiên trong mô hình Trong bước này,một bộ phát hiện đối tượng sẽ phát hiện các đối tượng trong khung sẽ được theo dõi.Những phát hiện này sau đó được chuyên sang bước tiếp theo Một số công cụ được
thường xuyên sử dụng Faster-RCNN, YOLO,
Ước tính (Estimation): Trong bước này, sẽ truyền phát hiện từ khung hiện tạisang khung tiếp theo đang ước tính vị trí của mục tiêu trong khung tiếp theo bằngcách sử dụng mô hình vận tốc không đổi Khi phát hiện được liên kết với mục tiêu,
hộp giới hạn được phát hiện được sử dụng dé cập nhật trạng thái mục tiêu nơi các
thành phần vận tốc được giải quyết tối ưu thông qua khung bộ lọc Kalman
15
Trang 27Liên kết dữ liệu (Data association): Bây giờ chúng ta có hộp giới hạn đích và
hộp giới hạn được phát hiện Vì vậy, một ma trận chi phí được tính là khoảng cách
giữa các điểm giao nhau (IOU) giữa mỗi lần phát hiện và tất cả các hộp giới hạn được
dự đoán từ các mục tiêu hiện có Và được giải tối ưu bằng thuật toán Hungary NếuIOU của phát hiện và mục tiêu nhỏ hon một giá tri ngưỡng nhất định được gọi là IOUmin thì nhiệm vụ đó bị từ chối Kỹ thuật này giải quyết van đề che lấp và giúp duy trì
các ID.
Tao và xóa nhận dạng theo dõi (Creation and Deletion of Track Identities):
Mô hình này chịu trách nhiệm tao và xóa ID Danh tính duy nhất được tạo và hủy
theo IOU tối thiêu Nếu sự trùng lặp của phát hiện và mục tiêu nhỏ hơn IOU tối thiểu
thì điều đó biểu thị đối tượng không bị theo dõi Các rãnh sẽ bị cham dứt nếu chúngkhông được phát hiện cho các khung TLost, bạn có thể chỉ định số lượng khung choTLost Nếu một đối tượng xuất hiện lại, quá trình theo dõi sẽ hoàn toàn tiếp tục dưới
một danh tính mới.
Các đối tượng có thể được theo dõi thành công bằng thuật toán SORT đánh
bại nhiều thuật toán hiện đại nhất lúc đó Máy dò cung cấp cho chúng tôi khả năng
phát hiện, bộ lọc Kalman cung cấp dấu vết và thuật toán Hungary thực hiện liên kết
dữ liệu.
2.3.1.2 DeepSORT
beep SORT in anes Deep Leaming
Input Video Sequence
name.
J
Hình 2-9: Kiến trúc tổng quan của DeepSORT
16
Trang 28Mặc dù SORT đạt được hiệu suất tổng thé tốt về accuracy và precision trong
theo dõi, hiệu quả của bộ lọc Kalman, nhưng nó trả về số lượng chuyền đổi nhận dạng
(ID switches) tương đối cao và có sự thiếu sót trong việc theo dõi các chồng lấp và
các quan điểm khác nhau, các tác giả của DeepSORT đã giới thiệu một thước đokhoảng cách khác dựa trên “appearance” của đối tượng Vì vậy, một trình phân loạiđược xây dựng dựa trên tập dữ liệu được dao tạo một cách tỉ mỉ cho đến khi đạt được
độ chính xác khá cao.
Appearance feature sẽ mô tả tất cả các đặc trưng của một ảnh cho trước.DeepSORT sẽ tận dụng đối ứng phân tầng tương tự như SORT để ưu tiên hơn chonhững đối tượng được quan sát thấy thường xuyên hơn
Mahalanobis distance cung cấp thông tin về những vị trí đối tượng có thê có
dựa trên chuyền động của tượng, hữu dụng đối với dự đoán trong thời gian ngắn Mặt
khác, cosine distance xem xét thông tin về appearance hữu dụng đối với việc phụchồi định danh sau một khoảng thời gian bị mất dấu của đối tượng
DeepSORT giúp giảm tình trạng ID Switches và che lấp, từ đó giảm tỷ lệ
dương tính giả.
2.3.2 FairMOT
FairMOT đã được giới thiệu đề giải quyết vấn đề xác định lại (Re-ID) Hầu
hết các trình theo dõi đa đối tượng Deep Learning không gặp sự cố với tác vụ phát
hiện, nhưng lại gặp sự cố với tác vụ xác định lại
Độ chính xác của theo dõi đối tượng bị ảnh hưởng bởi ID switches bởi vì tác
vụ xác định lại không được quan tâm đúng mực so với tác vụ phát hiện đối tượng
Điều nay còn được gọi là 'hiệu ứng xếp tang’
Việc phát hiện và theo dõi đối tượng phụ thuộc quá nhiều vào độ chính xác
của tác vụ phát hiện đối tượng
ROI-Aling feature sử dụng cho tác vụ phát hiện đối tượng cũng được sử dụng
cho tác vụ xác định lại, tuy nhiên 2 tác vụ lại hoàn toàn khác nhau và cân những đặc
17
Trang 29trưng khác nhau Xác định lại cần những đặc trưng ở cấp độ thấp (low-level) dé phânloại giữa các đối tượng trong cùng một lớp Trong khi đó tác vụ phát hiện yêu cầu
những đặc trưng trừu tượng và ở các lớp sâu hon (deeper layer) dé dự đoán vị trí và
lớp của đối tượng Tuy nhiên, một máy đò đối tượng cần phân biệt giữa các lớp khác
nhau.
1/4
2.3.2.1 Nhánh phát hiện đối trợng (Detection)
Nhánh phát hiện được xây dựng trên nền của Anchor free CenterNet Ba headssong song được thêm vào DLA-34 [15] dé dự đoán heatmaps, object center offsets
va bounding box sizes.
e Heatmap dùng dé dự đoán vi tri điểm trung tâm của các đối tượng
e Box offset head nhằm mục đích định vi vị trí các đối tượng chính xác hơn
e Box size head ước tính chiều cao và rộng của của hộp mục tiêu tại mỗi vị
trí.
2.3.2.2 Nhánh xác định lại (Re-ID)
Nhánh Re-ID nhắm đến việc khởi tạo các đặc trưng nhằm phân biệt các đối
tượng Mô hình học các tính năng nhận dạng lại thông qua tác vụ phân loại Trong
tập huấn luyện, tat cả các đôi tượng có cùng ID được coi là cùng một lớp
18
Trang 302.3.3 ByteTrack
Trong Theo dõi đa đối tượng (MOT), việc phát hiện đối tượng trước tiên được
thực hiện bang cách sử dung các mô hình phát hiện như YOLOX và thuật toán theo
doi được sử dụng dé theo dõi các đối tượng ở giữa các khung hình Tuy nhiên, trongcác ứng dụng thực tế, kết quả phát hiện đối tượng đôi khi không đầy đủ, dẫn đến các
đối tượng bị bỏ qua
Hầu hết các thuật toán phát hiện đối tượng đều bỏ qua các hộp giới hạn có giátrị độ tin cậy thấp Điều này là do có sự đánh đổi vì việc chấp nhận các hộp giới hạn
có giá trị độ tin cậy thấp sẽ cải thiện tỷ lệ phát hiện (dương tính thực), nhưng cũng sẽ
gây ra dương tính giả.
Tuy nhiên, ngay cả với giá trị độ tin cậy thấp, đối tượng vẫn có thé tổn tại và
việc bỏ qua nó sẽ làm giảm hiệu quả của mô hình theo dõi.
Algorithm 1: Pseudo-code of BYTE.
Input: A video sequence V; object detector Det; detection score
threshold + Output: Tracks 7 of the video
17 Associate J and 72;,;„„ using Similarity#1
18 Dre n *— remaining object boxes from D), ign
19 tí eae +— remaining tracks from 7
⁄ iation x/
20 Asse d Piow using v#2
21 Tre maining tracks from
del unmatched tracks »/
/#« initialize new tracks x/
2 for din Dy-emain do
Trang 31ByteTrack giải quyết van dé này bằng cách sử dụng mô hình chuyển động
quản ly hàng đợi có tên là tracklet dé lưu trữ các đối tượng đang được theo dõi, đồng
thời thực hiện theo dõi và so khớp giữa các hộp giới hạn có giá trị độ tin cậy thấp
Trong quá trình đối sánh, một thuật toán gọi là BYTE được sử dụng Đầu tiên,
các vị trí trong khung tiếp theo của các đối tượng trong tracklet được dự đoán bằng
cách sử dụng bộ lọc Kalman, sau đó chúng được so khớp với các hộp giới hạn được
phát hiện có điểm số cao bằng cách sử dụng độ tương tự chuyên động Với tính tương
tự của chuyển động, điểm số được tính bang Tuong tac trén Lién két (IoU), cho biét
mức độ trùng lặp giữa các đối tượng
(c) tracklets by associating every detection box
Hình 2-12: Minh họa về phương pháp của liên kết mọi hộp phát hiện
DeepSort sử dụng mô hình nhận dạng Re-ID để liên kết các hộp giới hạn của
những đối tượng được phát hiện giữa các khung và đối với những đối tượng khôngthé liên kết, Sắp xếp sử dụng dự đoán về chuyên động của hộp giới hạn do bộ lọcKalman tính toán dé liên kết họ giữa các khung Tuy nhiên, điều này chỉ được thực
hiện đôi với các hộp giới hạn có giá trị độ tin cậy cao.
20
Trang 32ByteTrack không sử dụng Re-ID mà chỉ sử dung dự đoán chuyền động củacác hộp giới hạn được tính toán băng bộ loc Kalman dé theo dõi đối tượng giữa các
khung Do đó, nó tương tự về mặt kỹ thuật với bước Sắp xếp được sử dụng trong
DeepSort Tuy nhiên, hiệu suất đã được cải thiện bằng cách chia quá trình xử lý thànhhai bước, bước đầu tiên nhắm mục tiêu vào các hộp giới hạn có giá trị độ tin cậy cao,bước thứ hai dành cho các hộp có giá trị độ tin cậy thấp
2.3.4 OC-SORT
Theo dõi nhiều đối tượng (MOT) đã phát triển nhanh chóng với sự phát triểncủa phát hiện đôi tượng và tái nhận dạng (Re-ID) Tuy nhiên, mô hình chuyền động,tạo điều kiện cho sự liên kết đối tượng băng cách dự báo các quỹ đạo ngắn hạn vớicác quan sát trong quá khứ, đã được khám phá tương đối ít trong những năm gần đây.Các mô hình chuyền động hiện tại trong MOT thường gia định rang chuyên động củađối tượng là tuyến tính trong một khoảng thời gian nhỏ và cần quan sát liên tục, vìvậy các phương pháp này nhạy cảm với các hiện tượng che lấp và chuyên động phituyến tính và yêu cầu tốc độ khung hình cao video Trong nghiên cứu Jinkun Caocùng các cộng sự đã chỉ ra rằng một mô hình chuyền động đơn giản có thê đạt đượchiệu suất theo dõi hiện đại mà không cần các tín hiệu khác như hình dáng, ngoại cảnh.Chúng tôi nhấn mạnh vai trò của “quan sát” khi khôi phục dấu vết (tracks) khỏi bi
mat và giảm lỗi do các mô hình chuyên động tuyến tính tích lũy trong khoảng thời
gian bị mất Observation-Centric SORT (OC-SORT) [17] nó vẫn don giản, trực tuyến
và thời gian thực nhưng cải thiện độ mạnh mẽ đối với hiện tượng bị che lấp và phi
tuyến tính
Observation-Centric Sort (OC-SORT) được đề xuất dé giải quyết các hạn chế ở trên,
tác giả sử dụng quán tinh của đối tượng di chuyền vào giai đoạn liên kết và phát triển
một pipeline có ít nhiễu hơn và mạnh mẽ hơn đối với chuyền động bị che lấp và phituyến tính Chia khóa là thiết kế một trình theo dõi tập trung vào quan sát(observation-centric) trái ngược với SORT tập trung vao ước lượng (estimation) Nếumột track được phục hồi sau khi không được theo dõi, tác giả sẽ sử dụng chiến lược
21
Trang 33Observation-centric Online Smoothing (OOS) đề khắc phục lỗi tích lũy trong khoảng
thời gian không được theo đõi OC-SORT cũng bồ sung quán tính quan sát trung tâm
(Observation-Centric Momentum OCM) trong chi phí liên kết Tác giả cũng thiết kế
phục hồi tập trung vào quan sát (Observation-Centric Recovery OCR) dé tìm kiếmcác đối tượng bị mat xung quanh lần quan sát cuối cùng của nó Ba đôi mới xuất hiệndưới dạng một gói thay vì được ánh xạ trực tiếp tới hạn chế đã nêu
KF Predict
i
OCR Ass w/ OCM
i
oos
Tracks {t,} Estimates Ê:+¡ Tracks {7+1} Estimates X12 Tracks w/o OCR {t¢42} Tracks w/ OCR {t¢+2}
frame t frame t+1 frame t+2
Hình 2-13: Minh họa trực quan về phương pháp OC-SORT
2.3.4.1 Observation-centric Online Smoothing (OOS)
Sau khi theo dõi được liên kết lại với một quan sát sau một khoảng thời giankhông được theo dõi, chúng tôi thực hiện Online Smoothing đối với các tham số trở
lại thời kỳ bị mất thông qua một quỹ đạo ảo của các quan sát Điều này có thể khắc
phục lỗi tích lũy trong khoảng thời gian.
22
Trang 342.3.4.2 Observation-Centric Momentum (OCM)
Mô hình chuyên động tuyến tinh giả định hướng vận tốc nhất quán Tuy nhiên,giả định này thường không đúng do chuyên động phi tuyến tính của các vật thể vànhiễu trạng thái Trong một thời gian ngắn hợp lý, chúng ta có thể ước tính chuyểnđộng là tuyến tính nhưng nhiễu vẫn ngăn cản chúng ta tận dụng tính nhất quán của
hướng vận tôc.
Trong mô hình chuyền động tuyến tính, thang đo nhiễu tỷ lệ thuận với chênhlệch thời gian của hai điểm quan sát Băng chứng là phân tích và được cung cấp trongPhụ lục Nhưng quỹ đạo thường chỉ tuyến tính bằng cách xấp xi trong một khoảngthời gian ngắn, vì vậy không nên giữ chênh lệch thời gian quá lớn dé tránh sự sụp đồcủa xấp xỉ tuyến tính Điều này đòi hỏi một sự đánh đổi trong thực tế
2.3.4.3 Observation-Centric Recovery (OCR)
Theo dõi bị hỏng thường bat nguồn từ việc mat kha năng quan sát (phát hiệnhoặc che lap không đáng tin cậy - unreliable detector or occlusion) hoặc chuyền độngphi tuyến tính Ở góc độ tập trung vào quan sát, một sự ước lượng giảm của việc mở
rộng SORT thành phi tuyến tính dé khôi phục các mục tiêu bị mất là kiểm tra vị trí
mà nó không được theo dõi Từ quan điểm trực quan, điều nảy tương tự với việc xácđịnh lại một đối tượng không có quỹ đạo trước đó, vị trí của nó có thé được coi làtuân theo phân phối Gaussian với vị trí hiện diện lần cuối của nó là giá trị trung bình
và phương sai tăng dan đối với thời điểm nó bị mat Vì tối ưu toàn cục chỉ có thé đạt
được với giả thuyết phi tuyến tính chính xác và phép gán toàn cục
Phục hồi tập trung vào quan sát (Observation-Centric Recover) dé tin tưởng
vào quan sát thay vì các ước tính bị sai lệch do lan truyền theo thời gian Khi một
đường đi vẫn chưa được theo dõi sau giai đoạn kết hợp thông thường, tác giả cố găng
liên kết lần quan sát cuối cùng của đường đi này với các quan sát ở bước thời gian
mới sắp tới Tác giả lưu ý rằng quy trình này mang tính phỏng đoán và cục bộ có thé
xử lý trường hợp đối tượng dừng hoặc bị chặn trong một khoảng thời gian hợp lý
23
Trang 35Chương 3 XÂY DỰNG BO DU LIEU PHÁT HIẾN VA THEO DOI DOI
TƯỢNG TRONG KHONG ANH
3.1 Khảo sat
3.1.1 VisDrone-MOT2021
VisDrone-MOT2021 [18] được xây dựng dựa trên VisDroneMOT2020 [19],
được bồ sung thêm một số trình tự Cụ thé, VisDrone-MOT2021 chứa 96 chuỗi videothử thách, bao gồm 56 video dé dao tạo (tổng cộng 24.201 khung hình), 7 chuỗi dé
xác thực (tong cộng 2.819 khung hình) và 33 chuỗi dé thử nghiệm (tổng cộng 12.968khung hình) Đối với mỗi khung, các chú thích hộp giới hạn chặt chẽ với ID và danhmục đối tượng nhất quán theo thời gian được gắn nhãn Tuy nhiên, trong bộ
VisDrone-MOT2021 chúng tôi chỉ sử dụng một lớp motorbike trong khóa luận này.
Bang 3-1: Thống kê thông tin ảnh trên bộ dữ liệu VisDrone-MOT2021 mà chúng
tôi sử dụng.
Nội dung Tập huấn luyện Tập đánh giá Tập kiểm thử
Số lượng
- 53 5 14 chuối video
Số lượng ảnh 18.034 1.404 3.930
Số lượng
106.602 10.442 22.785 motorbike
Số đối tượng ít
nhất có trong 110 642 45
01 video
24
Trang 36là motorbike.
3.2.2 Tiền xử ly dữ liệu
Dữ liệu ban đầu sau khi được thu thập bao gồm các video Sau khi có bộ dữliệu thô đầu tiên, chúng tôi tiễn hành làm sạch với một số công việc chính sau:
e_ Tiến hành loại bỏ các ảnh không phải là chuỗi ảnh hoặc trong cùng video
e Loại bỏ các video bị giật hay rung lắc quá nhiều
e Để đảm bảo tính đa dạng, chúng tôi hạn chế tối đa các video cùng địa điểm
quay.
3.3 Quy tắc gan nhãn dữ liệu
Chúng tôi đã tham khảo các quy tắc gán nhãn cho các lớp đối tượng trên các bộ
dữ liệu đã được công bố trên thế giới và đưa ra quy chuẩn chung Sau đó viết thành
25
Trang 37file hướng dan gán nhãn (Guideline) Trong đó, chúng tôi đã đặt ra một số các quy
tac gán nhãn dữ liệu như sau:
e Nhãn phải được gan sát với các đối tượng
e_ Đối tượng khi đã bắt đầu vào khung ảnh nếu lớn hơn 1⁄2 chính nó thì sẽ
được bắt đầu gán nhãn
se Mỗi đối tượng sẽ được gan một id nhất định khi bắt đầu xuất hiện trong
khung hình đến khi ra khỏi khung hình
e_ Trong quá trình gán nhãn nếu đối tượng vào vùng bị che khuất nếu phan
nhìn thấy nhỏ hơn % chính nó sẽ được bỏ qua và sau khi ra khỏi vùng bị
che khuất vẫn sử dụng 1d định danh cũ
3.4 Quy trình gán nhãn dữ liệu
Chúng tối triển khai quá trình thu thập và gán nhãn cho bộ dữ liệu
UIT-DroneMOT theo với 02 giai đoạn công việc được thực hiện song song.
UIT-Drone21 Làm sạch
Gan nhãn thủ công Kiểm tra chéo UIT-DroneMOT
Không đồng thuận
Giai đoạn I: Chúng tôi tiến hành thu thập bộ dự liệu và tiền xử lý
Giai đoạn II: Chúng tôi tiến hành khảo sát các quy tắc gán nhãn của các bộ
dữ liệu đã được công bố trên thé giới đồng thời tìm hiểu các bộ dữ liệu về không anh
ở Việt Nam dé xây dựng bộ quy tac gãn nhãn chung Dau ra là tài liệu hướng dan gannhãn cu thé dé gan nhãn (Guildeline)
Sau khi có bộ dữ liệu đã được xử ly ở giai đoạn I và tài liệu hướng dan ở giai
đoạn II, chúng tôi tiến hành chia nhỏ bộ dit liệu để kiểm tra và chỉnh sửa nhãn thủ
26