1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Công nghệ thông tin: Phát hiện và theo vết xe máy trong không ảnh

74 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phát hiện và theo vết xe máy trong không ảnh
Tác giả Ngô Minh Phú
Người hướng dẫn ThS. Võ Duy Nguyên, TS. Nguyễn Tấn Trần Minh Khang
Trường học Đại học Quốc gia TP. Hồ Chí Minh
Chuyên ngành Công nghệ thông tin
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2022
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 74
Dung lượng 57,65 MB

Nội dung

Hình 4-7: Hình ảnh trực quan kết quả của phương pháp FairMOT Hình từ trên xuống lần lượt là các khung hình 1, 50 và 100...- -.- Ăn SH HH ng ng kg 48 Hình 4-8: Hình ảnh trực quan kết quả

Trang 1

ĐẠI HỌC QUỐC GIA TP HÒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN

NGÔ MINH PHÚ

KHÓA LUẬN TÓT NGHIỆP PHÁT HIỆN VÀ THEO VÉT XE MÁY TRONG KHÔNG ẢNH

Detection and tracking of motorcycles in aerial image

CU NHÂN CONG NGHỆ THONG TIN

TP HO CHi MINH, 2022

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

Trang 2

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN

NGÔ MINH PHÚ - 18521243

KHÓA LUẬN TÓT NGHIỆP PHÁT HIỆN VÀ THEO VÉT XE MÁY TRONG KHÔNG ẢNH

Detection and tracking of motorcycles in aerial image

CU NHAN CONG NGHE THONG TIN

GIANG VIEN HUONG DAN ThS VO DUY NGUYEN

TS NGUYEN TAN TRAN MINH KHANG

TP HO CHi MINH, 2022

Trang 3

THONG TIN HỘI DONG CHAM KHÓA LUẬN TOT NGHIỆP

Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số

ce beee eee eeeeeeeeeen ees ngay của Hiệu trưởng Trường Dai học Công

nghệ Thông tin.

Trang 4

LOI CAM ON

Để hoàn thành được khóa luận tốt nghiệp này, bên cạnh những cô gắng va nỗ lực không ngừng của tôi, không thé không kể đến sự hỗ trợ, giúp đỡ của quý Thay

Cô Trường Dai học Công nghệ Thông tin DHQG-HCM Tôi xin được gửi lời cảm ơn

sâu sắc và chân thành nhất đến TS Nguyễn Tan Tran Minh Khang và ThS Võ Duy

Nguyên, giảng viên hướng dẫn của tôi Các Thầy đã tận tình hướng dẫn, chỉ bảo chúng tôi từ những ngày đầu học lập trình và tiếp tục nghiên cứu về máy học, thị giác

máy tính.

Bên cạnh đó, tôi cũng chân thành cảm ơn tập thể nhóm nghiên cứu

UIT-Together đã hỗ trợ và đồng hành hỗ trợ chúng tôi trong suất quá trình nghiên cứu tại

Trường DHCNTT Chân thành cảm ơn Phòng thí nghiệm Truyền thông Da phương tiện (MMLab) của Trường đã tạo điều kiện về cơ sở vật chất, máy tính và tài nguyên

để tôi có thể tiến hành các thực nghiệm Hầu hếu các kết quả thực nghiệm, được tiến

hành trên máy tinh của phòng thí nghiệm MMLab.

Tôi cũng xin gửi lời cảm ơn đến quý Thầy Cô khoa Khoa học và Kỹ thuật

Thông tin đã tận tình giảng dạy, truyền đạt những kiến thức quý báu cho tôi trong những năm tháng học tập và tạo điều kiện cho tôi hoàn thành tốt công việc nghiên

cứu khoa học và khóa luận này.

Trong quá trình thực hiện, mặc dù đã nỗ lực tìm hiểu, nghiên cứu, thực nghiệm

và bước đầu đã đạt được một số kết quả đáng khích lệ, nhưng do kiến thức và kinh

nghiệm còn nhiều hạn chế, không thẻ tránh khỏi những thiếu sót, tôi rất mong nhận được sự góp ý từ quý Thầy Cô đề chỉnh sửa và hoàn thiện đề tài.

Chân thành cam ơn.

Ngô Minh Phú

Trang 5

TOM TAT KHÓA LUẬN.

Chương 1 TONG QUAN 2222222222 22222222223111222211122211122111 c2 re 2

2.1.3 Theo dõi dựa trên phát hiện và không dựa trên phát hiện đối tượng 8

2.2 Các phương pháp phát hiện đối tượng -c£2vcccz++tcczx+ 9

2.2.1 YOLOV3 St 11g 9 2.2.2 @009 00 0

2.2.3 PP-YOLOE Sàn Hước 2

2.3 Các phương pháp theo dõi đối tượng cccccccccccvcreeeerrrrrer 5

2.3.1 DeepSORT HH HH HH Hư 5

2.3.2 FairMOT St n1 re 7 2.3.3 ByteTTacK HH HH HH HH TH trệt 9 2.3.4 OC-SORT à cà che 21

Trang 6

Chương 3 XÂY DỰNG BO DU LIEU PHÁT HIEN VA THEO DOI DOI TƯỢNG

TRONG KHONG ANH lạ 24

i oe ae G0: 0 t: | cre 24

3.1.1 VisDrone-MOT2021 sccessesssesssesssesssessesssesssesseessecssesssesseessesssecanesseeeses 24

3.2 Thu thập và tiền xử li o cceccecceeccccseessesssesssessesssecssesssessesssesssessesssesssesseeeseessess 25

3.2.1 Thu thập dit liệu -©¿+2+2EE+2EE£EEEEEEEEEEEEEEE71.221211 21 25

3.2.2 Tiền xử lý dit liệu - +52 SE+EE+EE+EEEEEEEEEEEEEEE1211215 211111111 xe 253.3 Quy tắc gán nhãn dữ liệu - 2 £+S+E+EE£EE£EESEEEEEEEE2E2121 21212 25

3.4 Quy trình gan nhãn dữ liỆU 5 233221332113 5E EEEksrrsrserere 26

4.1.2 Dữ liệu thực nghiỆm - - - G11 HH kg như, 34

4.2 DO do danh gid năOOỒ 35

4.3 Thực nghiệm và đánh gIá - - c3 3211191131111 re 37

4.3.1 Kết quả thực nghiệm -¿- 2 252 t+E£SEEEEEEEEEEEEEEEEEEEEEEEErkrrkerree 374.3.2 Phân tích kết quả thực nghiệm - ¿2-2 2 £+S++££+E££Ee£Eerxerxsrxee 42

4.3.3 Ứng dụng minh họa 2-2 St+EE+EEEEEEEEEEEEEEEEEEEEEEEEEEkerkerreee 52

Chương 5 KẾT LUẬN VÀ HƯỚNG PHAT TRIÉN -¿ 5¿©55z-: 56

5.1 Kết luận - ch tt S111 11E11511111111111111111111E11111111E11 E1 TxcE 56

Trang 7

5.2 Hướng phát triển.

TÀI LIỆU THAM KHẢO

PHU LUC A — HƯỚNG DẪN CÀI ĐẶTT -¿-2- 2+E+EE+EE+E+EEEEEEEzEEEErErkererrrrs

Trang 8

DANH MỤC HÌNH

Hình 1-1: Anh minh họa đầu vào - đầu ra của bài tốn - ¿2 cecs+x+x+zeresxez 2

Hình 2-IMinh hoa Single Object Tracking . - 5+5 + ss**++seeeeereeereess 7 Hình 2-2: Minh họa Multile Object 'TracIng - xxx re 8

Hình 2-3: Kiến trúc mang Darknet-53 [2] - 5 + kg key 9

Hình 2-4: Minh họa hộp giới hạn được dự đốn ở 3 kích thước khác nhau trong

Hình 2-5: Khác nhau giữa Couple Head trong kiến trúc YOLOv3 và Decoupled Headtrong YOLOX được các tác giả để xuất [4}] 5:5: EkSESEEEEEESEEEEEEEEeErkrkrrerrree 11

Hình 2-6: Minh hoa sự khác nhau giữa Single positive va Multiple Positives 12

Hình 2-7: Kiến trúc mơ hình của PP-YOLOE ¿- 2¿+¿©++2+++£x+z++rx+srxz 13Hình 2-8: Kiến trúc của RepResBlock và CSPRepResStage . - 14Hình 2-9: Kiến trúc tổng quan của DeepSORIT -¿- 2-2 2 z+s££kezkezxerszrszsez 16Hình 2-10: Minh họa kiến trúc của FairMOT [14] - ¿s+s+ccs+x+zeEze+zerzezxee 18

Hình 2-11: Mã giả mơ tả thuật tốn BYTE [I6 ] - 555555 *++<c+seexssesssess 19

Hình 2-12: Minh họa về phương pháp của liên kết mọi hộp phát hiện 20Hình 2-13: Minh họa trực quan về phương pháp OC-SORT -:¿ 5+ 22

Hình 2-14: Minh họa về cách Observation-centric Online Smoothing hoạt động 22

Hình 3-1: Quy trình gan nhãn UTT-DroneMỌT” «5+ +-ss++scxsseeeesesrsers 26

Hình 3-2: Minh họa về bối cảnh đa dang của bộ dữ liệu UIT-DroneMOT 32Hình 3-3: Che khuất các đối tượng (các đối tượng che khuất nhau, bĩng cây, gĩc độ

Trang 9

Hình 4-4: Hình ảnh trực quan kết quả của phương pháp DeepSORT sử dụng mô hìnhDetector là YOLOv3 và mô hình Re-ID là Resnet (Hình từ trên xuống lần lượt là các

khung hình 1, 50 và Ũ) - 1xx v9 ng TT Hà HH HH gà 44

Hình 4-5: Hình ảnh trực quan kết quả của phương pháp ByteTrack sử dụng mô hình

Detector là YOLOX (Hình từ trên xuống lần lượt là các khung hình 1, 50 và 100).

Hình 4-6: Hình ảnh trực quan kết quả của phương pháp OC-SORT sử dụng mô hìnhDetector là YOLOX (Hình từ trên xuống lần lượt là các khung hình 1, 50 và 100)

Hình 4-7: Hình ảnh trực quan kết quả của phương pháp FairMOT (Hình từ trên xuống

lần lượt là các khung hình 1, 50 và 100) - -.- Ăn SH HH ng ng kg 48

Hình 4-8: Hình ảnh trực quan kết quả của phương pháp DeepSORT sử dụng mô hìnhDetector là YOLOv3 và mô hình Re-ID là Resnet (Hình từ trên xuống lần lượt là các

Hình 4-13: Kiến trúc hệ thống phát hiện và theo vết xe máy trong không anh 53

Hình 4-14: Chức năng tải lên hình ảnh trên ứng dung web - « <+<+2 53 Hình 4-15: Man hình lịch sử anh dự đoán trên ứng dung web - 54

Hình 4-16: Màn hình tải về file dự đoán kết quả trên ứng dung web - 54

Hình 4-17: Minh họa quá trình xử lý trên ứng dụng web cccscs+sssss 55

Trang 10

được tô màu Ỏ - - - E22 111861122301 811119530 11111 1kg 1n ky 38

Bảng 4-2: Kết quả thực nghiệm trên bộ dữ liệu VisDrone-MOT2021 Kết quả tốt nhất

60x82 =a 39

Bảng 4-3: Kết quả thực nghiệm huấn luyện trên bộ đữ liệu UIT-DroneMOT nhưngđánh giá trên bộ dữ liệu VisDrone-MOT2021 Kết quả tốt nhất được tô màu đỏ .40

Bảng 4-4: Kết quả thực nghiệm huấn luyện trên bộ dữ liệu VisDrone-MOT2021

nhưng đánh giá trên bộ dữ liệu UIT-DroneMOT Kết quả tốt nhất được tô màu đỏ

Trang 11

DANH MỤC TỪ VIET TAT

STT | Từ viết tắt Ý nghĩa

01 AP Average Precision

02 CNN Convolutional Neural Network

03 FPN Feature Pyramid Network

04 loU Intersection over Union

05 MOTA Multiple object tracking Accuracy

06 NMS Non Maximum Suppression

07 MOTP Multiple object tracking Preciscion

08 SORT Simple Online Realtime Object Tracking

09 OC-SORT Observation-Centric SORT

10 SOTA State-of-the-Art

12 UAV Unmanned aerial vehicle (drone)

14 UAVDT Unmanned Aerial Vehicle Benchmark Object

Detection and Tracking

15 YOLO You Only Look Once

16 ML Mostly Lost trajectories

17 IDs ID switches

18 MT Mostly Tracked trajectories

Trang 12

TÓM TAT KHÓA LUẬN

Phát hiện và theo dõi phương tiện giao thông trong không ảnh là một bài toán

trong lĩnh vực Thị giác máy tính Đây đang là một bài toán nhận được nhiều sự quantâm trên toàn thế giới, trong giới nghiên cứu khoa học bởi UAV đang ngày được chútrọng trong nhiều lĩnh vực quân sự cũng như dân sự Việc sử dụng hình ảnh thu được

từ camera của UAV giúp tránh được các hạn chế của camera thông thường

Trong nghiên cứu này, tôi nghiên cứu phương pháp phát hiện đối tượng the-art: DeepSORT, FairMOT (2021), ByteTrack (2022), OC-SORT (2022) Đồng

state-of-thời khảo sát chạy thực nghiệm các phương pháp này cho nhiệm vụ phát hiện và theo

dõi xe máy trong không ảnh Bộ dữ liệu chúng tôi thực nghiệm là UIT-DroneMOT',

bộ dữ liệu này chứ nhiều thách thức mới so với các bộ dữ liệu không ảnh khác đã

được công bố với những đối tượng phổ biến trong giao thông Việt Nam bao gồm:

Pedestrian, Motorbike, Car, Bus, Van, Truck, Bicycle Tuy nhiên, trong khóa luận

này chúng tôi chỉ thực hiện chạy trên lớp đối tượng Motorbike Thông qua kết quảthực nghiệm, tôi đưa ra đánh giá đầy đủ, chỉ tiết về các phương pháp thực hiện

† https://uit-together.github.io/datasets/

Trang 13

Chương 1 TONG QUAN

Nội dung chương này sẽ trình bày động lực nghiên cứu, phát biểu về bài toán, các

thách thức gặp phải, mục tiêu — phạm vi và những đóng góp chính trong khóa luận.

1.1 Động lực nghiên cứu

Ngày nay, với sự phát triển nhanh chóng của Deep Learning trong lĩnh vực pháthiện đối tượng, con người đã sở hữu những ứng dụng hữu ích được sử dụng rộng rãi

trong đời sống hằng ngày có thé kế đến như giám sát, cứu hộ, theo dõi giao thông, tự

động hóa phương tiện giao thông Hình ảnh, video trong những ứng dụng này thường

được thu nhận qua các thiết bị điện tử như camera, máy ảnh và đặc biệt là các thiết bị

bay không người lái (UAVs) Các tài nguyên hình ảnh này là công cụ hữu ích giúp

lưu trữ và trích xuất thông tin quan trọng Tuy nhiên, đây chỉ là nguồn dit liệu thô ma

máy tính không thé hiểu ngữ cảnh và theo dõi các đối tượng được trong khi việc theodõi, giám sát các đôi tượng trong ảnh bằng phương pháp thủ công tốn rất nhiều nhân

lực, thời gian và chi phí

Vì lý do trên, các thuật toán phát hiện đối tượng và theo dõi đối tượng đã liêntiếp được đề xuất Tuy nhiên, phần lớn các thuật toán theo dõi được nghiên cứu chủyếu tập trung vào theo dõi người đi bộ, nhưng ở nước ta thành phần tham gia giaothông trọng yếu vẫn là xe máy Điều này đã thôi thúc chúng tôi thực hiện tìm hiểu,thử nghiệm, nghiên cứu đề tài “Phát hiện và theo vết xe máy trong không ảnh”

1.2 Phát biểu bài toán

Trang 14

Sau làn sóng đại dich COVID19 nhiều chính phủ, doanh nghiệp đã day mạnh

trong công việc phát triển công nghệ, tự động hóa, đồng thời chủ động trong việc tiếp

cận các công nghệ tương lai dé tránh giảm hiệu suất sản xuất cũng như lao động

Trong những năm gần lại đây ngành công nghiệp máy bay không người lái đã pháttriển nhanh chóng và được sử dụng rộng rãi trong một số ứng dụng và liên tục làmtăng sự quan tâm của thị trường toàn cầu cũng như các nhà nghiên cứu Các ứng dụngkhác nhau từ giải trí đến các hoạt động quân sự Các ứng dụng này có thê thay thếcông việc của con người ở những nơi khó tiếp cận, việc phát hiện và theo đõi phương

tiện từ các camera trên không đã trở thành một khía cạnh quan trọng trong các nhiệm

vu cứu hộ, cứu nạn và theo dõi giám sát Hệ thống này ngày càng phổ biến do khảnăng hoạt động linh hoạt phù hợp với các địa hình rộng, đồi núi phức tạp ở nước ta

và các loại địa hình không có cấu trúc Hơn nữa, khả năng đi chuyển của máy baykhông người lái còn cung cấp phạm vi phủ sóng rộng, độ phân giải không gian cao

và góc quay cơ động hơn so với các camera cô định ở mặt đất Phát hiện và theo dõi

xe máy từ ảnh được ghi lại từ Drone là một bài toán thách thức việc nghiên cứu và

giải quyết tốt các van dé này sẽ là cơ sở cho bài toán lớn hon trong không ảnh

e Đầu vào: Video hoặc chuỗi hình anh được chụp từ drone

e Đâu ra: Xác định các hộp giới hạn va id của đôi tượng.

1.3 Các thách thức

Thông qua việc tham khảo, khảo sát về các bài toán phát hiện và theo dõi đốitượng trong không ảnh, chúng tôi nhận thấy thách thức của bài toán tương đối đáng

kê, đên từ nhiêu yêu tô khác nhau.

Một số thách thức bên ngoài như điều kiện thời tiết xấu có thé ảnh hưởng trực

tiếp đến chất lượng hình ảnh như mưa, ánh sáng phân bổ không đều, các góc quaykhác nhau cho ra hình dạng của vật thé khác nhau, các khu vực địa hình mang đặc

thù riêng Ngoài ra, sự rung lắc của UAVs trong quá trình thu thập dữ liệu có thé

làm chất lượng ảnh giảm sút hoặc bị nhòe, bị mờ

Trang 15

Thách thức đến từ bên trong như sự đa dạng về bối cảnh, phân bó đối tượng

giao thông không đồng đều, độ giãn cách khác nhau giữa các loại đối tượng, sự đa

dang trong hình thái, màu sắc của các đối tượng và các đối tượng có thé che khuất

lân nhau.

Ngoài những thách thức về dữ liệu, bài toán còn gặp những khó khăn về mặt

kỹ thuật khi chưa có quá nhiều phương pháp phát hiện và theo dõi đối tượng hiệu quảtrong không ảnh Nhận thấy sự vượt trội của hướng tiếp cận học sâu từ khảo sát,chúng tôi quyết định chọn các phương pháp phát hiện đối tượng SOTA gồm:

DeepSORT, FairMOT[1], ByteTrack [2], OC-SORT [3] dé tiến hành thực nghiệm và

đánh giá trên bộ dữ liệu Tuy nhiên, mỗi phương pháp có những đặc trưng khác nhau

về kiến trúc dẫn tới sự khác biệt về điểm mạnh và điểm yếu Hon nữa, sự tinh chỉnhcác thông số cho từng mô hình cũng sẽ ảnh hưởng đến kết quả đạt được trong quátrình thực nghiệm Việc này đặt ra yêu cầu nghiên cứu sâu nhằm tìm ra phương phápmang lại kết quả tốt nhất đáp ứng được các thách thức của bài toán

1.4 Mục tiêu và phạm vỉ nghiên cứu

Trong phạm vi nghiên cứu, mục tiêu chính của khóa luận là:

e Tìm hiểu tổng quan về các bài toán Phát hiện va theo dõi đối tượng trong

không ảnh.

e Khao sát các bộ dữ liệu cho bài toán tương tự đã được công bố trên thé

giới Đồng thời, tìm hiểu các kỹ thuật, phương pháp học sâu tiên tiến, cókết quả khả quan trên các bộ dữ liệu này

e_ Xây dựng bộ dữ liệu phát hiện và theo dõi đối tượng trong không ảnh

e Nghiên cứu và tiến hành thực nghiệm phương pháp phát hiện đối tượng

học sâu (DeepSort, FairMOT, ByteTrack, OC-SORT) trên bộ dữ liệu đã

được xây dựng.

e Nghiên cứu, so sánh và đánh giá đựa trên kết quả thực nghiệm

e Lựa chọn một model cho kết quả tốt dé xây dựng ứng dung demo

e Tổng hợp kết quả, phân tích đánh giá kết quả từ mô hình và viết báo cáo

Trang 16

1.5 Đóng góp khóa luận

Giới thiệu bài toán Phát hiện và theo dõi đối tượng trong không ảnh, trìnhbày tình hình nghiên cứu đã có trên thế giới, phân tích xu hướng phát triểncủa bài toán sử dụng các phương pháp phát hiện đối tượng dựa trên học

sâu.

Trình bày kết quả khảo sát các bộ dữ liệu có cùng ngữ cảnh đã được công

bố trên thế giới và quy trình xây dựng bộ dit liệu không ảnh

UIT-DroneMOT.

Trinh bay các phương pháp phát hiện và theo dõi đối tượng trong không

ảnh dựa trên học sâu bao gồm các phương pháp DeepSort, FairMOT,

ByteTrack, OC-SORT Thực hiện huấn luyện các phương pháp trên bộ ditliệu đã xây dựng dé đánh giá chi tiết về bộ dữ liệu cũng như kết quả của

các mô hình.

Kết quả mô hình nghiên cứu được sử dụng và phát triển thành ứng dụng

phát hiện đối tượng trên nền tảng web

1.6 Cấu trúc báo cáo khóa luận

Chương 1: Tổng quan đề tài

o Giới thiệu về nội dung đề tài bao gồm động lực nghiên cứu, phát

biéu bài toán, mục tiêu, phạm vi của nghiên cứu và những đóng góp

chính trong khóa luận.

Chương 2: Các công trình nghiên cứu liên quan.

o Trình bày tổng quan về Thị giác máy tính, khảo sát các hướng

nghiên cứu trên thế giới, hướng tiếp cận bài toán phát hiện và theodõi đối tượng dựa trên học sâu

Chương 3: Bộ dữ liệu UIT-DroneMOT.

o Trình bày về tổng quan về bộ dit liệu UIT-DroneMOT, phân tích bộ

dữ liệu xây dựng được, khảo sát các bộ dt liệu tương tự.

Chương 4: Thực nghiệm và đánh giá.

o Trình bày quá trình cài đặt thực nghiệm, các thông số chỉ tiết,

phương pháp đánh giá, phân tích và so sánh kết quả

Chương 5: Kết luận và hướng phát triển

Trang 17

o Tổng kết các kết quả quan trọng đã đạt được trong đề tai, hạn chế

và hướng phát triên của đê tài trong tương lai cho các nghiên cứu cải tiên hơn.

Trang 18

Chương2 CÁC NGHIÊN CỨU LIÊN QUAN

Trong chương này, chúng tôi sẽ trình bày hướng tiếp cận đối với bài toán Phát hiện

và theo dõi đối tượng trong không ảnh Thông qua quá trình nghiên cứu, chúng tôinhận thấy các phương pháp Phát hiện và theo dõi đối tượng trong ảnh dựa trên học

sâu có khả năng được áp dụng cho bài toán “Phát hiện và theo dõi đối tượng trongkhông ảnh” Vì vậy, chương 2 sẽ giới thiệu các phương pháp phát hiện và theo đối

tượng trong ảnh dựa trên học sâu.

2.1 Object Tracking

Theo dõi đối tượng (Object tracking) là bài toán theo dõi một hoặc nhiều đốitượng chuyên động theo thời gian trong một video Hiểu một cách đơn giản nhất, nó

là bài toán ở mức độ cao hơn so với phát hiện đối tượng, khi đối tượng được xử lí

không đơn giản là một hình ảnh mà là một chuỗi các hình ảnh hoặc video.

2.1.1 Single Object Tracking (SOT)

Single Object Tracking tập trung vào việc theo dõi một đối tượng duy nhấttrong toàn bộ video Và tất nhiên, dé biết được cần theo dõi đối tượng nào, việc cungcấp một hộp giới hạn từ ban đầu là việc bắt buộc phải có

Hình 2-1Minh họa Single Object Tracking ?

2.1.2 Mutiple Object Tracking (MOT)

Mutliple Object Tracking hướng tới các ứng dụng có tính mở rộng cao hơn.

Bài toán cô gắng phát hiện đồng thời theo dõi tất cả các đối tượng trong tầm nhìn, kê

? https://viblo.asia/p/sort-deep-sort-mot-goc-nhin-ve-object-tracking-phan-1-Az45bPooZxY

Trang 19

cả các đối tượng mới xuất hiện trong video Vì điều này, MOT thường là những bài

toán khó hơn SOT và nhận được rât nhiêu sự quan tâm của giới nghiên cứu.

2.1.2.1 Online-Offline Multi-Object Tracking

2.1.3.

Online Tracking: Khi xử li video, chỉ sử dung khung hình hiện tai và khung

hình ngay trước đó dé theo dõi Cách xử lí này có thé sẽ làm giảm độ chínhxác của thuật toán, tuy nhiên nó lại phản ảnh đúng cách vấn đề được xử lítrong thực tế, khi mà tính real-time là cần thiết

Offline Tracking: Các phương pháp offline sử dung các phát hiện từ toàn

bộ chuỗi khung, sau đó tiến hành tối ưu hóa toàn cục, chứa các phươngpháp dựa trên đô thị và phương pháp phân cấp Các phương pháp trước đâysây dựng MOT như một mô hình đồ thị, có thể tối ưu hóa bằng cách sửdụng đường đi ngắn nhất, dòng chi phí tối thiểu và phân tích bảng phụ,

trong khi các phương pháp sau này xây dựng quỹ đạo dựa trên hierarchical

manner.

Theo dõi dựa trên phát hiện và không dựa trên phát hiện đối tượng

e Loại thuật toán theo dõi trong đó trình phát hiện đối tượng phát hiện các đối

tượng trong khung và sau đó thực hiện liên kết dữ liệu giữa các khung để tạoquỹ đạo từ đó theo dõi đối tượng

e Các loại thuật toán này giúp theo dõi nhiều đối tượng và theo dõi các đối tượng

mới được giới thiệu trong khung Quan trọng nhất, chúng giúp theo dõi cácđối tượng ngay cả khi phát hiện đối tượng không thành công

Trang 20

e Loại thuật toán theo dõi trong đó tọa độ của đối tượng được khởi tạo thủ công

và sau đó đối tượng được theo dõi trong các khung tiếp theo Loại này chủ yêuđược sử dụng trong các thuật toán thị giác máy tính truyền thống như

BOOSTING, MIL, KCF, CSRT, GOTURN, )

2.2 Các phương pháp phát hiện đối tượng

2.2.1 YOLOv3

YOLOv3 là một trong những công cụ dò tìm được sử dụng rộng rãi nhất trongngành do hạn chế về tài nguyên tính toán và không đủ phần mềm hỗ trợ trong các

ứng dụng thực tế khác nhau Một số điểm mạnh của YOLOv3 như:

YOLOv3 bao gôm những cải tiên so với các phiên bản trước về toc độ, độ chính xác và các lớp tính năng.

Residual 128 x 128

Convolutional 128 3x3/2 64x64

Convolutional 64 1x1 Convolutional 128 3x3

Convolutional 512 3x3

Residual 16 x 16

Convolutional 1024 3x3/2 8x8 Convolutional 512 1x1

Convolutional 1024 3x3

Residual 8x8 Avgpool Global

Connected 1000 Softmax

Hình 2-3: Kiến trúc mạng Darknet-53 [3]

Xương sống mới Darknet-53 là một mô hình mạng Neural Convolution sửdụng 53 lớp phức hợp dé rút trích đặc trưng (feature extractor backbone) Hình 2.3

3 https://learnopencv.com/understanding-multiple-object-tracking-using-deepsort/

Trang 21

Với câu trúc mạnh mẽ đó, DarkNet53 có tôc độ cao hơn nhiêu so với các xương sông

khác như ResNet-101 hay ResNet-152.

YOLOv3 dự đoán độ tin cậy của hộp giới han (có chứa vật hay không) sử dụng

Logistic Regression.

YOLOv3 cho phép gan nhiều lớp cho một đối tượng so với một lớp cho một

đối tượng ở các phiên bản trước YOLO trước (sử dụng softmax cho logistic classify)

Dự đoán ở nhiều kích thước: YOLOv3 sử dụng kiến trúc Feature Pyramid

Networks (FPN) dé đưa ra các dự đoán từ nhiều kích thước khác nhau của bản đồ đặctrưng Việc này giúp giải quyết van dé trong việc nhận diện các vật thé có kích thước

nhỏ, điều mà YOLOv2 chưa thé làm tot.

Hình 2-4: Minh hoa hộp giới hạn được dự đoán ở 3 kích thước khác nhau trong

YOLOv3.

2.2.2 YOLOX

Những năm gan đây, đã có nhiều tiến bộ trong nghiên cứu bai toán phát hiện

đối tượng Một số kỹ thuật đã được đưa ra trước đó như anchor based được sử dụng

từ YOLOv2, coupled head thậm chí đã được sử dụng tất cả trong các phiên bản tiền

nhiệm Tuy nhiên, khi nhìn nhận lại các vấn đề này tác giả đã có góc nhìn khác khi

10

Trang 22

sử dụng anchor free, coupled head thay cho lần lượt anchor based và decoupled head

đã cho hiệu suất đáng kể

2.2.2.I Anchor free

Kỹ thuật sử dụng anchor based được áp dụng từ YOLOv2 đến YOLOR Kỹthuật này yêu cầu quá trình xác định những anchor tối ưu cho việc huấn luyện Những

anchor này tùy thuộc vào miền của dif liệu và thiếu tính tổng quát

Anchor Free YOLOX giúp giảm dự đoán cho từng vị trí từ 3 xuống 1 và dựđoán trực tiếp bốn giá trị của hộp giới hạn

Phiên bản không có neo chỉ chọn MỘT mẫu dương tính, là vị trí trung tâm củatừng đối tượng và nó làm giảm đáng kề số lượng tham số thiết kế

2.2.2.2 Decoupled head

Một van đề với coupled head là sự xung đột giữa việc phân loại và hồi quy, việc su

dụng đầu ghép có thể làm ảnh hưởng đến độ chính xác cũng như hiệu suất của mô

hình Do đó trong phương pháp YOLOX, các tác giả đã đề xuất kiến trúc đầu tách rời

(decoupled head) với các hoạt động phân loại và hồi quy được tách biệt nhau Điều

này làm tăng tốc độ hội tụ trong YOLOX

1

Hình 2-5: Khác nhau giữa Couple Head trong kiến trúc YOLOv3 và Decoupled

Head trong YOLOX được các tác giả đê xuât [4].

lãi

Trang 23

Đối với mối cấp của tính năng tính ăng FPN [30], trước tiên áp dụng lớp chuyền

đổi (conv layer) 1x1 dé giảm kênh tính năng xuống 256 va sau đó thêm hai nhánh

song song với hai lớp chuyên đồi (conv layer) 3x3 cho mỗi nhiệm vụ phân loại và hồi

quy riêng biệt Nhánh IoU được thêm vào nhánh hồi quy

2.2.2.3 Multiple positive

Dé phù hợp với quy tac gán của YOLOv3, phiên ban không có mỏ neo của

YOLOX chỉ chọn một mẫu tích cực ở vị trí trung tâm cho mỗi đối tượng, có nghĩa là

bỏ qua các dự đoán chất lượng cao khác Tuy nhiên, tối ưu hóa các dự đoán chất

lượng cao đó cũng có thể mang lại các gradient có lợi và có khả năng làm giảm bớt

sự mat cân bang cực độ của việc lây mẫu tích cực hay tiêu cực trong quá trình huấnluyện Các tác giả đề xuất chỉ định khu vực 3x3 ở trung tâm là các vị trí tích cực,chiến lược này còn gọi là “Center sampling” trong FCOS

Single postitive Multiple positives

Hình 2-6: Minh hoa su khác nhau giữa Single positive va Multiple Positives

2.2.3 PP-YOLOE

Mô hình phát hiện đối tượng một giai đoạn rat phô biến trong các ứng dụngthời gian thực do sự cân bằng giữa tốc độ và độ chính xác tuyét voi Kiến trúc nỗi bậtnhất trong số các mô hình một giai đoạn là chuỗi bài YOLO Ké từ các mô hình pháthiện đối tượng thuộc dòng YOLO đã trải qua những thay đổi to lớn về cấu trúc mạng,

12

Trang 24

gán nhãn, Hiện tại, YOLOX đang đạt được sự cân bằng tối ưu giữa tốc độ và độ

chính xác.

YOLOX giới thiệu phương pháp không neo tiên tiến được trang bị gán nhãn

động dé cải thiện hiệu suất của trình phát hiện, vượt trội đáng ké so với YOLOv5 [5]

về độ chính xác Lấy cảm hứng từ YOLOX, Xin Huang cùng các cộng sự đã tối ưuhóa và đưa ra phương pháp PP-YOLOv2 [6] PP-YOLOv2 là máy dò một tang hiệusuất cao Dựa trên PP-YOLOv2, tác giả tiếp tục đề xuất một phiên ban cải tiến củaYOLO có tên là PP-YOLOE PP-YOLOE vượt trội so với YOLOv5 và YOLOX vềtốc độ và sự đánh đổi về độ chính xác PP-YOLOE tránh sử dụng các toán tử nhưDeformable Convolutional Networks [7, 8] và Matrix NMS [9] để được hỗ trợ tốttrên các phần cứng khác nhau Hơn nữa, PP-YOLOE có thé dé dàng mở rộng thànhmột loạt các mô hình cho các phần cứng khác nhau với sức mạnh tính toán khác nhau.Những đặc điểm này thúc đây hơn nữa việc áp dụng PP-YOLOE trong nhiều tìnhhuống thực tế hơn

Hình 2-7: Kiến trúc mô hình của PP-YOLOE

Neo miễn phí (Anchor free) Như đã đề cập ở trên, PP-YOLOv2 chỉ định các

sự thật cơ bản theo cách dựa trên mỏ neo Tuy nhiên, cơ chế neo giới thiệu một sốsiêu tham số và phụ thuộc vào thiết kế thủ công có thé không khái quát hóa tốt trên

các bộ dữ liệu khác Vì lý do trên, tác giả giới thiệu phương pháp không neo trong

PP-YOLOv2 Dựa trên FCOS [13], xếp một điểm neo trên mỗi pIxel, tác giả đặt giớihạn trên và dưới cho ba đầu phát hiện dé gan gia tri thuc cho ban đồ tính năng tương

ứng Sau đó, tâm của hộp giới hạn được tính toán dé chon pixel gần nhất làm mẫu

13

Trang 25

dương tính Theo chuỗi YOLO, một vectơ 4D (x, y, w, h) được dự đoán cho hồi quy.

Sửa đổi này làm cho mô hình nhanh hơn một chút với việc mất 0,3 AP so với

PP-YOLOv2 Mặc dù các giới hạn trên va dưới được đặt cân thận theo kích thước neo

của PP-YOLOv2, nhưng vẫn có một số mâu thuẫn nhỏ trong kết qua gan giữa cách

dựa trên neo và không có neo, điêu này có thé dan đên độ chính xác giảm di một chút.

Kết nối còn lại (Residual connections) dé giải quyết vấn đề biến mất độ dốc

và cũng có thé được coi là một cách tiếp cận tập hợp mô hình Kết nối dày đặc (Denseconnections) tổng hợp các tính năng trung gian với các trường tiếp nhận đa dạng, chothấy hiệu suất tốt trong tác vụ phát hiện đối tượng CSPNet [10] sử dụng các kết nối

dày đặc giữa các giai đoạn để giảm gánh nặng tính toán mà không làm giảm độ chính

xác, vốn pho biến trong số các trình phát hiện đối tượng hiệu quả như YOLOv5,YOLOX, VoVNet [11] và TreeNet [12] cũng cho thấy hiệu suất vượt trội trong việcphát hiện đối tượng Lấy cảm hứng từ những tác phâm này, tác giả đề xuất mộtRepResBlock bằng cách kết hợp các kết nối còn sót lại và các kết nối day đặc, được

sử dụng trong xương sông và cô cua chúng tôi.

(a) Simplified (b) RepResBlock (c) RepResBlock (d) CSPRepResStage

TreeBlock during training during

inference

Hình 2-8: Kiến trúc của RepResBlock và CSPRepResStage

Đầu tiên, tác giả đơn giản hóa TreeBlock ban đầu (Hình 2.8(b)) Sau đó, chúngtôi thay thế thao tác ghép nối bằng thao tác thêm theo từng phan tử (Hình 2.8(b))

Trong giai đoạn suy luận, chúng ta có thể tái tham số hóa RepResBlock thành khối

dư cơ bản (Hình 2.8(c)) được sử dụng bởi ResNet-34 trong RepVGG.

14

Trang 26

Tác giả sử dụng RepResBlock được đề xuất dé xây dựng xương sống và cô.

Tương tự như ResNet, xương sống có tên là CSPRepResNet, chứa một thân bao gồm

ba lớp tích chập và bốn giai đoạn tiếp theo được xếp chồng lên nhau bởi RepResBlock

như trong Hình 2.8(d) Trong mỗi giai đoạn, các kết nối từng phan của giai đoạn chéođược sử dụng dé tránh nhiều tham số và gánh nặng tính toán do nhiều lớp tích chập

3x3 mang lại Lớp ESE (Effective Squeeze and Extraction) cũng được sử dụng dé ápđặt sự chú ý của kênh trong mỗi CSPRepResStage trong khi xây dựng xương sống

Ở cổ tác giả xây dựng với RepResBlock và CSPRepResStage dựa trên PP-YOLOv2.Khác với xương sống, lối tắt trong lớp RepResBlock và ESE trong CSPRepResStage

được loại bỏ ở cô.

2.3 Các phương pháp theo dõi đối tượng

2.3.1 DeepSORT

2.3.1.1 Simple Online Realtime Tracking (SORT)

Simple Online Realtime Object Tracking (SORT), một thuật toán thuộc dạng

Tracking-by-detection (hay Detection based Tracking) là một cách tiếp cận dé theo

dõi đối tượng trong đó các phương pháp thé sơ như bộ loc Kalman và thuật toánHungary được sử dụng đề theo dõi các đối tượng SORT được tạo thành từ 4 thành

phần chính như sau:

Phát hiện (Detection): Đây là bước đầu tiên trong mô hình Trong bước này,một bộ phát hiện đối tượng sẽ phát hiện các đối tượng trong khung sẽ được theo dõi.Những phát hiện này sau đó được chuyên sang bước tiếp theo Một số công cụ được

thường xuyên sử dụng Faster-RCNN, YOLO,

Ước tính (Estimation): Trong bước này, sẽ truyền phát hiện từ khung hiện tạisang khung tiếp theo đang ước tính vị trí của mục tiêu trong khung tiếp theo bằngcách sử dụng mô hình vận tốc không đổi Khi phát hiện được liên kết với mục tiêu,

hộp giới hạn được phát hiện được sử dụng dé cập nhật trạng thái mục tiêu nơi các

thành phần vận tốc được giải quyết tối ưu thông qua khung bộ lọc Kalman

15

Trang 27

Liên kết dữ liệu (Data association): Bây giờ chúng ta có hộp giới hạn đích và

hộp giới hạn được phát hiện Vì vậy, một ma trận chi phí được tính là khoảng cách

giữa các điểm giao nhau (IOU) giữa mỗi lần phát hiện và tất cả các hộp giới hạn được

dự đoán từ các mục tiêu hiện có Và được giải tối ưu bằng thuật toán Hungary NếuIOU của phát hiện và mục tiêu nhỏ hon một giá tri ngưỡng nhất định được gọi là IOUmin thì nhiệm vụ đó bị từ chối Kỹ thuật này giải quyết van đề che lấp và giúp duy trì

các ID.

Tao và xóa nhận dạng theo dõi (Creation and Deletion of Track Identities):

Mô hình này chịu trách nhiệm tao và xóa ID Danh tính duy nhất được tạo và hủy

theo IOU tối thiêu Nếu sự trùng lặp của phát hiện và mục tiêu nhỏ hơn IOU tối thiểu

thì điều đó biểu thị đối tượng không bị theo dõi Các rãnh sẽ bị cham dứt nếu chúngkhông được phát hiện cho các khung TLost, bạn có thể chỉ định số lượng khung choTLost Nếu một đối tượng xuất hiện lại, quá trình theo dõi sẽ hoàn toàn tiếp tục dưới

một danh tính mới.

Các đối tượng có thể được theo dõi thành công bằng thuật toán SORT đánh

bại nhiều thuật toán hiện đại nhất lúc đó Máy dò cung cấp cho chúng tôi khả năng

phát hiện, bộ lọc Kalman cung cấp dấu vết và thuật toán Hungary thực hiện liên kết

dữ liệu.

2.3.1.2 DeepSORT

beep SORT in anes Deep Leaming

Input Video Sequence

name.

J

Hình 2-9: Kiến trúc tổng quan của DeepSORT

16

Trang 28

Mặc dù SORT đạt được hiệu suất tổng thé tốt về accuracy và precision trong

theo dõi, hiệu quả của bộ lọc Kalman, nhưng nó trả về số lượng chuyền đổi nhận dạng

(ID switches) tương đối cao và có sự thiếu sót trong việc theo dõi các chồng lấp và

các quan điểm khác nhau, các tác giả của DeepSORT đã giới thiệu một thước đokhoảng cách khác dựa trên “appearance” của đối tượng Vì vậy, một trình phân loạiđược xây dựng dựa trên tập dữ liệu được dao tạo một cách tỉ mỉ cho đến khi đạt được

độ chính xác khá cao.

Appearance feature sẽ mô tả tất cả các đặc trưng của một ảnh cho trước.DeepSORT sẽ tận dụng đối ứng phân tầng tương tự như SORT để ưu tiên hơn chonhững đối tượng được quan sát thấy thường xuyên hơn

Mahalanobis distance cung cấp thông tin về những vị trí đối tượng có thê có

dựa trên chuyền động của tượng, hữu dụng đối với dự đoán trong thời gian ngắn Mặt

khác, cosine distance xem xét thông tin về appearance hữu dụng đối với việc phụchồi định danh sau một khoảng thời gian bị mất dấu của đối tượng

DeepSORT giúp giảm tình trạng ID Switches và che lấp, từ đó giảm tỷ lệ

dương tính giả.

2.3.2 FairMOT

FairMOT đã được giới thiệu đề giải quyết vấn đề xác định lại (Re-ID) Hầu

hết các trình theo dõi đa đối tượng Deep Learning không gặp sự cố với tác vụ phát

hiện, nhưng lại gặp sự cố với tác vụ xác định lại

Độ chính xác của theo dõi đối tượng bị ảnh hưởng bởi ID switches bởi vì tác

vụ xác định lại không được quan tâm đúng mực so với tác vụ phát hiện đối tượng

Điều nay còn được gọi là 'hiệu ứng xếp tang’

Việc phát hiện và theo dõi đối tượng phụ thuộc quá nhiều vào độ chính xác

của tác vụ phát hiện đối tượng

ROI-Aling feature sử dụng cho tác vụ phát hiện đối tượng cũng được sử dụng

cho tác vụ xác định lại, tuy nhiên 2 tác vụ lại hoàn toàn khác nhau và cân những đặc

17

Trang 29

trưng khác nhau Xác định lại cần những đặc trưng ở cấp độ thấp (low-level) dé phânloại giữa các đối tượng trong cùng một lớp Trong khi đó tác vụ phát hiện yêu cầu

những đặc trưng trừu tượng và ở các lớp sâu hon (deeper layer) dé dự đoán vị trí và

lớp của đối tượng Tuy nhiên, một máy đò đối tượng cần phân biệt giữa các lớp khác

nhau.

1/4

2.3.2.1 Nhánh phát hiện đối trợng (Detection)

Nhánh phát hiện được xây dựng trên nền của Anchor free CenterNet Ba headssong song được thêm vào DLA-34 [15] dé dự đoán heatmaps, object center offsets

va bounding box sizes.

e Heatmap dùng dé dự đoán vi tri điểm trung tâm của các đối tượng

e Box offset head nhằm mục đích định vi vị trí các đối tượng chính xác hơn

e Box size head ước tính chiều cao và rộng của của hộp mục tiêu tại mỗi vị

trí.

2.3.2.2 Nhánh xác định lại (Re-ID)

Nhánh Re-ID nhắm đến việc khởi tạo các đặc trưng nhằm phân biệt các đối

tượng Mô hình học các tính năng nhận dạng lại thông qua tác vụ phân loại Trong

tập huấn luyện, tat cả các đôi tượng có cùng ID được coi là cùng một lớp

18

Trang 30

2.3.3 ByteTrack

Trong Theo dõi đa đối tượng (MOT), việc phát hiện đối tượng trước tiên được

thực hiện bang cách sử dung các mô hình phát hiện như YOLOX và thuật toán theo

doi được sử dụng dé theo dõi các đối tượng ở giữa các khung hình Tuy nhiên, trongcác ứng dụng thực tế, kết quả phát hiện đối tượng đôi khi không đầy đủ, dẫn đến các

đối tượng bị bỏ qua

Hầu hết các thuật toán phát hiện đối tượng đều bỏ qua các hộp giới hạn có giátrị độ tin cậy thấp Điều này là do có sự đánh đổi vì việc chấp nhận các hộp giới hạn

có giá trị độ tin cậy thấp sẽ cải thiện tỷ lệ phát hiện (dương tính thực), nhưng cũng sẽ

gây ra dương tính giả.

Tuy nhiên, ngay cả với giá trị độ tin cậy thấp, đối tượng vẫn có thé tổn tại và

việc bỏ qua nó sẽ làm giảm hiệu quả của mô hình theo dõi.

Algorithm 1: Pseudo-code of BYTE.

Input: A video sequence V; object detector Det; detection score

threshold + Output: Tracks 7 of the video

17 Associate J and 72;,;„„ using Similarity#1

18 Dre n *— remaining object boxes from D), ign

19 tí eae +— remaining tracks from 7

⁄ iation x/

20 Asse d Piow using v#2

21 Tre maining tracks from

del unmatched tracks »/

/#« initialize new tracks x/

2 for din Dy-emain do

Trang 31

ByteTrack giải quyết van dé này bằng cách sử dụng mô hình chuyển động

quản ly hàng đợi có tên là tracklet dé lưu trữ các đối tượng đang được theo dõi, đồng

thời thực hiện theo dõi và so khớp giữa các hộp giới hạn có giá trị độ tin cậy thấp

Trong quá trình đối sánh, một thuật toán gọi là BYTE được sử dụng Đầu tiên,

các vị trí trong khung tiếp theo của các đối tượng trong tracklet được dự đoán bằng

cách sử dụng bộ lọc Kalman, sau đó chúng được so khớp với các hộp giới hạn được

phát hiện có điểm số cao bằng cách sử dụng độ tương tự chuyên động Với tính tương

tự của chuyển động, điểm số được tính bang Tuong tac trén Lién két (IoU), cho biét

mức độ trùng lặp giữa các đối tượng

(c) tracklets by associating every detection box

Hình 2-12: Minh họa về phương pháp của liên kết mọi hộp phát hiện

DeepSort sử dụng mô hình nhận dạng Re-ID để liên kết các hộp giới hạn của

những đối tượng được phát hiện giữa các khung và đối với những đối tượng khôngthé liên kết, Sắp xếp sử dụng dự đoán về chuyên động của hộp giới hạn do bộ lọcKalman tính toán dé liên kết họ giữa các khung Tuy nhiên, điều này chỉ được thực

hiện đôi với các hộp giới hạn có giá trị độ tin cậy cao.

20

Trang 32

ByteTrack không sử dụng Re-ID mà chỉ sử dung dự đoán chuyền động củacác hộp giới hạn được tính toán băng bộ loc Kalman dé theo dõi đối tượng giữa các

khung Do đó, nó tương tự về mặt kỹ thuật với bước Sắp xếp được sử dụng trong

DeepSort Tuy nhiên, hiệu suất đã được cải thiện bằng cách chia quá trình xử lý thànhhai bước, bước đầu tiên nhắm mục tiêu vào các hộp giới hạn có giá trị độ tin cậy cao,bước thứ hai dành cho các hộp có giá trị độ tin cậy thấp

2.3.4 OC-SORT

Theo dõi nhiều đối tượng (MOT) đã phát triển nhanh chóng với sự phát triểncủa phát hiện đôi tượng và tái nhận dạng (Re-ID) Tuy nhiên, mô hình chuyền động,tạo điều kiện cho sự liên kết đối tượng băng cách dự báo các quỹ đạo ngắn hạn vớicác quan sát trong quá khứ, đã được khám phá tương đối ít trong những năm gần đây.Các mô hình chuyền động hiện tại trong MOT thường gia định rang chuyên động củađối tượng là tuyến tính trong một khoảng thời gian nhỏ và cần quan sát liên tục, vìvậy các phương pháp này nhạy cảm với các hiện tượng che lấp và chuyên động phituyến tính và yêu cầu tốc độ khung hình cao video Trong nghiên cứu Jinkun Caocùng các cộng sự đã chỉ ra rằng một mô hình chuyền động đơn giản có thê đạt đượchiệu suất theo dõi hiện đại mà không cần các tín hiệu khác như hình dáng, ngoại cảnh.Chúng tôi nhấn mạnh vai trò của “quan sát” khi khôi phục dấu vết (tracks) khỏi bi

mat và giảm lỗi do các mô hình chuyên động tuyến tính tích lũy trong khoảng thời

gian bị mất Observation-Centric SORT (OC-SORT) [17] nó vẫn don giản, trực tuyến

và thời gian thực nhưng cải thiện độ mạnh mẽ đối với hiện tượng bị che lấp và phi

tuyến tính

Observation-Centric Sort (OC-SORT) được đề xuất dé giải quyết các hạn chế ở trên,

tác giả sử dụng quán tinh của đối tượng di chuyền vào giai đoạn liên kết và phát triển

một pipeline có ít nhiễu hơn và mạnh mẽ hơn đối với chuyền động bị che lấp và phituyến tính Chia khóa là thiết kế một trình theo dõi tập trung vào quan sát(observation-centric) trái ngược với SORT tập trung vao ước lượng (estimation) Nếumột track được phục hồi sau khi không được theo dõi, tác giả sẽ sử dụng chiến lược

21

Trang 33

Observation-centric Online Smoothing (OOS) đề khắc phục lỗi tích lũy trong khoảng

thời gian không được theo đõi OC-SORT cũng bồ sung quán tính quan sát trung tâm

(Observation-Centric Momentum OCM) trong chi phí liên kết Tác giả cũng thiết kế

phục hồi tập trung vào quan sát (Observation-Centric Recovery OCR) dé tìm kiếmcác đối tượng bị mat xung quanh lần quan sát cuối cùng của nó Ba đôi mới xuất hiệndưới dạng một gói thay vì được ánh xạ trực tiếp tới hạn chế đã nêu

KF Predict

i

OCR Ass w/ OCM

i

oos

Tracks {t,} Estimates Ê:+¡ Tracks {7+1} Estimates X12 Tracks w/o OCR {t¢42} Tracks w/ OCR {t¢+2}

frame t frame t+1 frame t+2

Hình 2-13: Minh họa trực quan về phương pháp OC-SORT

2.3.4.1 Observation-centric Online Smoothing (OOS)

Sau khi theo dõi được liên kết lại với một quan sát sau một khoảng thời giankhông được theo dõi, chúng tôi thực hiện Online Smoothing đối với các tham số trở

lại thời kỳ bị mất thông qua một quỹ đạo ảo của các quan sát Điều này có thể khắc

phục lỗi tích lũy trong khoảng thời gian.

22

Trang 34

2.3.4.2 Observation-Centric Momentum (OCM)

Mô hình chuyên động tuyến tinh giả định hướng vận tốc nhất quán Tuy nhiên,giả định này thường không đúng do chuyên động phi tuyến tính của các vật thể vànhiễu trạng thái Trong một thời gian ngắn hợp lý, chúng ta có thể ước tính chuyểnđộng là tuyến tính nhưng nhiễu vẫn ngăn cản chúng ta tận dụng tính nhất quán của

hướng vận tôc.

Trong mô hình chuyền động tuyến tính, thang đo nhiễu tỷ lệ thuận với chênhlệch thời gian của hai điểm quan sát Băng chứng là phân tích và được cung cấp trongPhụ lục Nhưng quỹ đạo thường chỉ tuyến tính bằng cách xấp xi trong một khoảngthời gian ngắn, vì vậy không nên giữ chênh lệch thời gian quá lớn dé tránh sự sụp đồcủa xấp xỉ tuyến tính Điều này đòi hỏi một sự đánh đổi trong thực tế

2.3.4.3 Observation-Centric Recovery (OCR)

Theo dõi bị hỏng thường bat nguồn từ việc mat kha năng quan sát (phát hiệnhoặc che lap không đáng tin cậy - unreliable detector or occlusion) hoặc chuyền độngphi tuyến tính Ở góc độ tập trung vào quan sát, một sự ước lượng giảm của việc mở

rộng SORT thành phi tuyến tính dé khôi phục các mục tiêu bị mất là kiểm tra vị trí

mà nó không được theo dõi Từ quan điểm trực quan, điều nảy tương tự với việc xácđịnh lại một đối tượng không có quỹ đạo trước đó, vị trí của nó có thé được coi làtuân theo phân phối Gaussian với vị trí hiện diện lần cuối của nó là giá trị trung bình

và phương sai tăng dan đối với thời điểm nó bị mat Vì tối ưu toàn cục chỉ có thé đạt

được với giả thuyết phi tuyến tính chính xác và phép gán toàn cục

Phục hồi tập trung vào quan sát (Observation-Centric Recover) dé tin tưởng

vào quan sát thay vì các ước tính bị sai lệch do lan truyền theo thời gian Khi một

đường đi vẫn chưa được theo dõi sau giai đoạn kết hợp thông thường, tác giả cố găng

liên kết lần quan sát cuối cùng của đường đi này với các quan sát ở bước thời gian

mới sắp tới Tác giả lưu ý rằng quy trình này mang tính phỏng đoán và cục bộ có thé

xử lý trường hợp đối tượng dừng hoặc bị chặn trong một khoảng thời gian hợp lý

23

Trang 35

Chương 3 XÂY DỰNG BO DU LIEU PHÁT HIẾN VA THEO DOI DOI

TƯỢNG TRONG KHONG ANH

3.1 Khảo sat

3.1.1 VisDrone-MOT2021

VisDrone-MOT2021 [18] được xây dựng dựa trên VisDroneMOT2020 [19],

được bồ sung thêm một số trình tự Cụ thé, VisDrone-MOT2021 chứa 96 chuỗi videothử thách, bao gồm 56 video dé dao tạo (tổng cộng 24.201 khung hình), 7 chuỗi dé

xác thực (tong cộng 2.819 khung hình) và 33 chuỗi dé thử nghiệm (tổng cộng 12.968khung hình) Đối với mỗi khung, các chú thích hộp giới hạn chặt chẽ với ID và danhmục đối tượng nhất quán theo thời gian được gắn nhãn Tuy nhiên, trong bộ

VisDrone-MOT2021 chúng tôi chỉ sử dụng một lớp motorbike trong khóa luận này.

Bang 3-1: Thống kê thông tin ảnh trên bộ dữ liệu VisDrone-MOT2021 mà chúng

tôi sử dụng.

Nội dung Tập huấn luyện Tập đánh giá Tập kiểm thử

Số lượng

- 53 5 14 chuối video

Số lượng ảnh 18.034 1.404 3.930

Số lượng

106.602 10.442 22.785 motorbike

Số đối tượng ít

nhất có trong 110 642 45

01 video

24

Trang 36

là motorbike.

3.2.2 Tiền xử ly dữ liệu

Dữ liệu ban đầu sau khi được thu thập bao gồm các video Sau khi có bộ dữliệu thô đầu tiên, chúng tôi tiễn hành làm sạch với một số công việc chính sau:

e_ Tiến hành loại bỏ các ảnh không phải là chuỗi ảnh hoặc trong cùng video

e Loại bỏ các video bị giật hay rung lắc quá nhiều

e Để đảm bảo tính đa dạng, chúng tôi hạn chế tối đa các video cùng địa điểm

quay.

3.3 Quy tắc gan nhãn dữ liệu

Chúng tôi đã tham khảo các quy tắc gán nhãn cho các lớp đối tượng trên các bộ

dữ liệu đã được công bố trên thế giới và đưa ra quy chuẩn chung Sau đó viết thành

25

Trang 37

file hướng dan gán nhãn (Guideline) Trong đó, chúng tôi đã đặt ra một số các quy

tac gán nhãn dữ liệu như sau:

e Nhãn phải được gan sát với các đối tượng

e_ Đối tượng khi đã bắt đầu vào khung ảnh nếu lớn hơn 1⁄2 chính nó thì sẽ

được bắt đầu gán nhãn

se Mỗi đối tượng sẽ được gan một id nhất định khi bắt đầu xuất hiện trong

khung hình đến khi ra khỏi khung hình

e_ Trong quá trình gán nhãn nếu đối tượng vào vùng bị che khuất nếu phan

nhìn thấy nhỏ hơn % chính nó sẽ được bỏ qua và sau khi ra khỏi vùng bị

che khuất vẫn sử dụng 1d định danh cũ

3.4 Quy trình gán nhãn dữ liệu

Chúng tối triển khai quá trình thu thập và gán nhãn cho bộ dữ liệu

UIT-DroneMOT theo với 02 giai đoạn công việc được thực hiện song song.

UIT-Drone21 Làm sạch

Gan nhãn thủ công Kiểm tra chéo UIT-DroneMOT

Không đồng thuận

Giai đoạn I: Chúng tôi tiến hành thu thập bộ dự liệu và tiền xử lý

Giai đoạn II: Chúng tôi tiến hành khảo sát các quy tắc gán nhãn của các bộ

dữ liệu đã được công bố trên thé giới đồng thời tìm hiểu các bộ dữ liệu về không anh

ở Việt Nam dé xây dựng bộ quy tac gãn nhãn chung Dau ra là tài liệu hướng dan gannhãn cu thé dé gan nhãn (Guildeline)

Sau khi có bộ dữ liệu đã được xử ly ở giai đoạn I và tài liệu hướng dan ở giai

đoạn II, chúng tôi tiến hành chia nhỏ bộ dit liệu để kiểm tra và chỉnh sửa nhãn thủ

26

Ngày đăng: 23/10/2024, 01:05

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w