Thuật toán SORT [1] dựa trên sự trùng lắp intersect of union của các hộp giới han trongkhung hình và thuật toán DeepSort [2] sử dụng các đặc trưng về hình thái apperance similarity để gá
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KỸ THUẬT MÁY TÍNH
DO THANH TÙNG - 19522491
KHÓA LUẬN TÓT NGHIỆP
THUẬT TOÁN CASCADE ASSOCIATION VÀ THUẬT
TOÁN BU DAP CHUYEN DONG CAMERA DỰA TREN
KALMAN FILTER CHO BAI TOAN THEO DAU DA DOI
TUONG
Cascade Association and Camera-motion compensation based
Kalman filter for multi-object tracking
NGANH KY THUAT MAY TÍNH
GIANG VIEN HUONG DAN
THAC SĨ TRƯƠNG VAN CUONG
TP HO CHi MINH, 2023
Trang 2LỜI CÁM ƠN
Đầu tiên, em xin gửi lời cảm ơn đến quý thầy cô giáo trường Đại Học Công Nghệ
Thông Tin Trong quá trình học tập và rèn luyện tại trường, với sự dạy dỗ, chỉ bảo tậntình của các quý thầy cô giáo đã trang bị cho em những kiến thức về chuyên môn cũng
như kỹ năng mềm, tao cho em hành trang vững chắc trong cuộc sông cũng như công
viéc sau này.
Tiép theo, em xin cam on khoa Kỹ Thuật May Tính vi đã luôn tạo moi điều kiện thuận
lợi cho em được học tập và phát triển
Đặc biệt, dé hoàn thành khóa luận tốt nghiệp này, em xin gửi lời cảm ơn sâu sắc tớiThay Trương Văn Cương đã tận tinh chỉ bảo, hướng dẫn và hỗ trợ trang thiết bị cho em
trong suốt thời gian thực hiện đề tài Đồng thời, mm cũng xin gửi lời cảm ơn đến mọi
người trong Câu lạc bộ CEEC đã hỗ trợ mình hoàn thành khóa luận một cách tốt nhất
Em cũng muốn cảm on tat cả các công ty và nhà phát triển cung cấp các dịch vụ miễn
phí cũng như các thư viện và dự án mã nguồn mở Không có những công cụ và thư
viện này khoá luận của em sẽ không thê hoàn thành được như bây giờ
Cuối cùng, em xin cảm ơn đến gia đình, những người luôn dành những sự động viên
đến em trong suốt quá trình thực hiện khóa luận
Thành phó Hồ Chí Minh, thang 6 năm 2023
Sinh viên thực hiện
Đỗ Thanh Tùng
Trang 3MỤC LỤC
Chương 1 GIỚI THIEU DE TÀI - 2 2 E+E£+E£+EE+EE£EEE+EEEEEEEEerEezrerreerxee 2
1.1 Đặt vấn đề cv th ng 21.2 Mục tiêu của đề tài csccctt th th ng re 5
1.3 Phuong pháp thực hiỆn 5 5 25s 119g nh nh gi, 5
Chương 2 TÌM HIẾU TONG QUAN ¿5 ESE+EE+EE£EE2EE2EEEEEEEEEEEEkerkrrrrei 6
2.1 Bài tốn theo dấu đa đối tượng -¿-©5++2+t2cx+2x+eExSExerrkerkeerkrrrree 6
2.2 Các thang đo đánh giá độ chính xác của bài tốn MOIÏT - - «+ 7 2.3 Các nghiên cứu hiỆn nay 5 262112311330 E3 11 8911 111 1v vn, 10
2.4 Detection trong phương pháp tracking-by-deftection -‹ s++-s++ 12
2.5 Tracking trong phương pháp tracking-by-deftection ‹ -«+-+ 13
2.5.1 Mơ hình di chuyển — Motion model ¿ s¿ s2 ©sz2cxz+ss++- 13
2.5.2 Gan đữ liệu — data aSSOCIaAfION 222222221 eeee 13
2.6 Tracking với bù đắp chuyên động của camera -: -s¿cs++s++: 14
2.7 Thuật tốn SOIRÌT cv Hà HH nh nh 14
2.8 Thuật tốn DeepSOII - <1 HH HT HH HH HH 15
2.9 Thudat todn JDE wo ccc À 17
2.10 Thuật tốn CST rack oo cee cecccceseceeeeseeeeceseceeeeeceaecesecseeeeeeaeeeseeeeeeaeees 18
QL Thudat todn OMC 0 20 2.12 Thuật tốn BYTTIE - c1 x9 ng HH HH HH nh nh 22 2.13 Thuật tốn Bot-SORRT ĂĂ c1 111g vn ven, 25 2.14 Bộ dữ liệu MỌT'l7 cv HH HH HH HH nh nh r 25
Chương 3 PHƯƠNG PHÁP ĐỀ XUẤTT - 2 + E2E++EE+EEtEEeEEEzEkerkerkerex 26
Trang 43.1 Cascade ASSOCIAfIOIN LG LG QC C11111 1111159550501 11 khe 26
3.2 Camera-motion compensation based Kalman filter - «< 30
Chương 4 ĐÁNH GIA KET QUA THUC NGHIỆM -5- 5552552 32
4.1 Thực nghiệm trên bộ dữ liệu MOTN7 5 55-5 + +x+seexsseeesers 32
LƯU 0n 34
4.2.1 _ Đánh giá trên tập validation MOTT [7 - 25c cScsssssesserees 34
4.2.2 Đánh giá về tốc độ thực thi 5c + ++c++E++E+Eerkerkerkerserxee 35
4.2.3 Ứng dụng thuật toán đề xuất vào các thuật toán MOT khác 35
4.2.4 Độ hiệu quả của thuật toán Kalman camera-motion compensation 37
4.3 Hiện thực KCM-Tracker trên board nhúng Nvidia-TX2 - Al
4.4 Các kết quả dự đoán trên tập MOT 17 c.cscccccesscsscessessesseessssseeseeseesseeseeseess 414.5 Ứng dụng thuật toán lên board NVIDIA Jetson Xavier - 48Chương 5 KẾT LUẬN VA HƯỚNG PHAT TRIÉN -¿ s¿©5¿ 49
5.1 Ket 1d 2a Lá > VY 544 49
5.2 Khó khăn gặp phải ¿- 52-5 ©5e2SE‡EEEEE E21 211211271 2121.211 49
5.3 Hạn chế và hướng phat triỂn 2 2+ +EE+EE+EE£EE+EE£E£Eerkerkerxrrezrx 50
TÀI LIEU THAM KHẢO ¿2-52 55225£22E‡EEEEE2EE2EEEEEEEEEEEEEEEEEEErkrrrkerrerrrree 51
s60 92 55
Trang 5DANH MỤC HÌNH VE
Hình 2-1: Ví dụ minh họa cho bài toán MỜ ÏT -GG 5 S222 1 sec, 7 Hình 2-2: Mô tả cho cách hoạt động của thang do CLEAR - 2-55 5<<<<<<++ 8
Hình 2-3: Ví dụ minh họa độ lệch của hai thang đo MOTA và IDFT 10
Hình 2-4: Mô tả về cách hoạt động của thang đo HOTA -. 2- 5 s22 s2 10Hình 2-5: Kiến trúc joint-detection and embedding - ¿s2 s>xz>s+ 12Hình 2-6: Minh họa về cách hoạt động của mạng trích xuất đặc trưng trong
IS 16
Hình 2-7: Vật thé bi che khuất một phần 2 2 + +2 £+E£+E££Ee£x+rxzrszxez l6
Hình 2-8: Vật thể bị che khuất hoàn toàn -ccc¿-cccvecrrrrrrtrrrrrrrirrrrrriee 17
Hình 2-9: Kiến trúc tổng quá của mô hình JDE - 2-2 2 2+x£+x+zx+z+zzszse2 17
Hình 2-10: Khối head của mang CSTrack 2: 2 k+S++EE2££+E+E+Eerkerxerxerszxee 18Hình 2-11: Khối REN trong mạng CSTrack - 2s s¿©¿+++++£x+zx++ze+zxerxezes 19
Hình 2-12: “Fake background” từ mô hình CSTrack - «+5 «++<<++s£+<ex+sx 20
Hình 2-13: Kiến trúc CSTrack kết hợp với mang Re-check - s52 21
Hình 2-14: Mang Re-check của OMC 2.0 cecececeeceesesseeseeseeseeeeseesessesseseeseeseseeaeeaeens 22
Hình 2-15: Ví dụ minh họa về thuật toán B Y TE - 2-2 2 + +xetx+£xerxerx+xe2 23
Hình 2-16: Mã giả của thuật toán BỶY TÌE - - < 311193 + vn re 24
Hình 2-17: Các hộp giới hạn không áp dụng Bot-SORT (trái), các hộp giới hạn áp
dụng Bot-SORT (phải) - - << 1x SH HH ng rưy 25
Hình 3-1: Minh họa cho cách gan dữ liệu cho các hộp giới hạn có độ tin cậy cao 27
Hình 3-2: Minh họa cho cách gán dữ liệu cho các hộp giới hạn có độ tin cậy thấp 27
Hình 3-3: Mã giả thuật toán Cascade ÁSSOCIAfION SG HS se 28 Hình 3-4: Mã giả của hàm match_ dets_ tracKS - - s5 5-5 + ++sk+seeeseeesesers 29 Hình 3-5: Sự ảnh hưởng của độ lệch của camera và thuật toán camera-motion
compensation dựa trên Kalman ÍIÏt€T - - <6 E2 13118 9191k 1 vn rưy 30
Hình 4-1: Kết quả đánh giá KCM-Track trên hệ thống của MOTChallenge 33Hình 4-2: Kết quả trưc quan hóa các hộp giới hạn dự đoán bởi bộ lọc Kalman trongByteTrack (màu xanh biển) và trong KCM-Track (màu xanh lá) - 37
Trang 6Hình 4-3: Kết quả trực quan hóa vận tốc camera theo trục x trên video MOT17-04
Hình 4-13: Frame 202 của video sfatIon.IND4 - - s5 5< s + +vkEsseeseeeeeeere 45
Hình 4-14: Frame 341 của video sfatIon.1p4 -‹ -s + +s+seeeseeeeeeeeeers 45 Hình 4-15: Frame 56 của video party.IND4 .- - s1 ngàng it 46
Hình 4-16: Frame 61 của video pDaTtY.IND4Ả - - c +11 se eee 46
Hình 4-17: Frame 81 của video Darty.ID4| - - c1 + si rrirersere 47
Hình 4-18: Frame 94 của video party.IN41 - - s1 nghiep 47
Hình 4-19: Một số kết quả thu được từ máy tính nhúng (1) -5z5z55+ 48Hình 4-20: Một số kết quả thu được từ máy tính nhúng (2) - 5-52 52 48
Hình 5-1: Email thông báo kết quả paper được chấp nhận đăng tại ACIIDS 2023 49
Trang 7DANH MỤC BẢNG
Bảng 1: Kết quả đánh giá trên tập test MOT17, f nghĩa là tốt hơn với kết quả cao, |nghĩa là tốt hơn với kết quả thấp - 2 +5 +E2E£+EE£EEtEE+EEEEEEvEErrEerrkerkerkrree 33Bảng 2: Kết quả đánh giá trên tập validation MOT17 -2- 2-5 ©5z2s+cx+zxczsz 34
Bảng 3: Thời gian tracking trên tập MOT17 validation - 5555 <<<<<<5+ 35
Bảng 4: Kết quả khi áp dung CA và KCM vào 8 thuật toán MOT khác trên tập
MOTT17 validation S€K Gv ng TH TH HH HH Hưng ghế 36
Trang 8DANH MỤC TU VIET TAT
FPS Frame per second
MOT Multi-object tracking IOU Intersect-of-Union SOTA State-of-the-art
Trang 9TÓM TẮT KHÓA LUẬN
Trong đề tài này nhóm nghiên cứu xây dựng được 2 thuật toán nhằm ứng dụng chobài toán theo dau đa đối tượng Các bai toán theo dấu đa đối tượng hiện nay được chialàm hai hướng nghiên cứu chính bao gồm tracking-by-detection (theo dấu bằng cáchphát hiện) và detection-by-tracking (phát hiện bằng cách theo đấu) Trong đó, tracking-by-detection là phương pháp được cho là cân bằng cả về mặt tốc độ cũng như là độ
chính xác Về cơ bản, hướng nghiên cứu này chia quá trình theo dấu (tracking) thành 2
giai đoạn chính là phát hiện vật thể trong khung ảnh (detection process) và giai đoạn
theo dấu (tracking process) nhằm gán các định danh của đối tượng trong khung ảnh.Trong đề tài này, nhóm sẽ tập trung vào việc phát triển quá trình theo dấu (trackingprocess) bằng cách tổng quát hóa thuật toán Byte và kết hợp độ lệch của máy ảnh quacác khung hình vào bộ lọc Kalman nhằm giảm các sai sót trong quá trình theo dấu
Đề chứng minh thuật toán của nhóm đề xuất thực sự hoạt động tốt, nhóm đã tiễnhành các thí ngiệm trên bộ dữ liệu MOT17, đây là tập dir liệu bao gồm nhiều videođược thu từ máy ảnh đứng yên và máy anh di chuyên nhằm có thể đánh giá thuật toán
bù dap chuyén động một cách công bằng nhất có thể Về độ chính xác, nhóm đạt được
độ chính xác lần lượt trên các thang đo MOTA, IDF1 và HOTA là 80.6%, 79.7% và
64.6% với tốc độ của quá trình theo dấu là 314 FPS
Trang 10Chương 1 GIỚI THIỆU DE TÀI
1.1 Đặt vấn đề
Trong những năm gần đây, nhiều thuật toán phát hiện đối tượng [1]-[17] đã
được ra đời dé nhận diện và ước tính quỹ đạo theo không gian và thời gian của cácđối tượng trong luồng ảnh video
Trong lĩnh vực xe tự hành, việc phát hiện và ước tính quỹ đạo của đối tượng
trong không gian và thời gian là cực kì quan trọng đề đảm bảo an toàn và hiệu suấtcủa hệ thống Các thuật toán phát hiện đối tượng đã đóng góp quan trọng vào khả
năng tự động lái của các xe tự hành và giúp chúng nhận biết và phản ứng đúng với
các tình huống giao thông phức tạp
Trong lĩnh vực quản lý hệ thống giao thông, việc phát hiện và theo dõi các đối
tượng như ô tô, xe máy, người đi bộ và người đi xe đạp có vai trò quan trọng trong
việc cải thiện hệ thống luồng giao thông và giảm tai nạn Các thuật toán nhận diện
đối tượng đã giúp tăng cường khả năng giám sát và quản lý các vùng giao thông,
giúp chúng ta nhận ra các tình huống nguy hiểm và đưa ra các biện pháp phòng
ngừa kip thời.
Ngoài ra, trong lĩnh vực máy ảnh giám sát, các hệ thống phát hiện đối tượng đãgóp phần mang lại những tiện ích lớn trong việc giám sát và bảo vệ an ninh Việcnhận diện và theo dõi các đối tượng đáng ngờ có thê giúp ta ngăn chặn các hành
động phi pháp, bảo vệ tài sản và đảm bảo an ninh công cộng.
Nhờ sự phát triển của các thuật toán theo dấu đa đối tượng [1]-[17], bài toán
theo dấu đa đối tượng đã trở nên cực quan trọng và ứng dụng nhiều trong các lĩnh
vực thực tế Các nghiên cứu này đã đóng góp đáng ké vào việc cải thiện an toàn,hiệu suất và an ninh trong các lĩnh vực này, đồng thời mở ra những triển vọng hứa
hẹn cho tương lai của công nghệ phát hiện đối tượng
Một trong những hướng tiếp cận phô biến nhất hiện nay đó chính là detection (theo dấu bằng phát hiện đối tượng) Phương pháp này dựa trên việc sửdụng các thuật toán phát hiện đối tượng dé nhận diện và ước tính quỹ đạo của các
Trang 11tracking-by-đối tượng trong không gian và thời gian Độ chính xác của phương pháp này phụ
thuộc vào phần lớn độ chính xác của phương pháp nhận diện (detector) được sử
dụng.
Chính vì vậy, dé gia tăng độ chính xác của các phương pháp theo hướng nay,
một số bài toán đã sử dụng các mô hình nhận diện tốt nhất hiện nay như YOLOX
[18] được sử dung trong [3], [4], [8] hay như CenterNet [19] được sử dụng trong
CenterTrack [9] Mặc dù độ chính xác của hướng nghiên cứu này phụ thuộc phần
lớn vào mô hình nhận diện, việc nâng cao độ chính xác của mô hình nhận diện
không phải là một phương pháp tiếp cận đơn giản bởi lẽ độ chính xác và tốc độ củacác phương pháp này đã đạt đến độ bảo hòa nếu như không được huấn luyện trênmột tap dữ liệu rất lớn Về mặt khác, quá trình theo dấu (tracking) được xem như làmột phương pháp hậu xử lý của bài toán theo dau đa đối tượng, quá trình này là
bước gán định danh của đối tượng sau khi được phát hiện bằng các mô hình nhận
diện Mặc dù bi giới hạn bởi độ chính xác của các mô hình nhận diện, tuy nhiên nếu
có thể xử lý tốt ở quá trình nay thì độ chính xác vẫn được cải thiện đáng kể Thuật
toán SORT [1] dựa trên sự trùng lắp (intersect of union) của các hộp giới han trongkhung hình và thuật toán DeepSort [2] sử dụng các đặc trưng về hình thái
(apperance similarity) để gán các định danh với nhau là hai phương pháp chính
được sử dụng ở bước này.
Phương pháp tracking-by-detection dang trở thành một hướng tiếp cận phô biến
và mạnh mẽ dé giải quyết bài toán theo dau đa đối tượng trong luồng video Việc sử
dụng các mô hình tiên tiễn và các thuật toán theo dấu hiệu quả có thể nâng cao dang
kế độ chính xác của quá trình nhận diện và theo dõi đối tượng Tuy nhiên, việc tiếp
tục nghiên cứu và phát triển các phương pháp mới dé cải thiện độ chính xác và hiệu
xuất của thuật toán này vẫn là một thách thức đối với cộng đồng nghiên cứu trong
Trang 12hóa chuyển động, dựa trên các gợi ý về chuyển động (motion-cues) trước đó Bộ
lọc Kalman [20] là một trong những mô hình chuyên động phô biến nhất được sử
dụng cho phương pháp tracking-by-detection Tuy nhiên bộ loc Kalman dựa trên
một giả định đó chính là vận tốc không thay đổi (constant-velocity model), chính vì
vậy các phương pháp sử dụng bộ lọc Kalman hau hết sẽ gây ra lỗi sai trong cáctrường hợp vật thể trong khung hình chuyên động một cách đột ngột, hay tốc độ xử
lý mỗi khung hình trên giây (FPS) thấp DeepSort [2] đã tiên phong áp dụng bàitoán Reldentification (tái định danh) cho bài toán MOT nhằm sử dụng các đặctrưng về hình thái thay vì chuyên động đề loại bỏ đi những hạn chế của phươngpháp dựa trên intersect-of-union Tuy vậy, phương pháp này lại không thé bang đối
với phương pháp IOU-based trong các môi trường đông đúc, các vật thê chồng lap
lên nhau hay mức độ nhìn thấy (visibility) thấp, dẫn đến việc đánh đổi giữa khả
năng phát hiện vật thé (MOTA) và khả năng theo dau vật thé (IDF1)
ByteTrack [3], một trong những phương pháp SOTA hiện nay trong bài toán
MOT, sử dụng phương pháp IOU-based theo hướng tracking-by-detection dé giữ
cho độ chính xác MOTA cao và tốc độ xử lý nhanh Độ chính xác của phương phápnày đã được chứng minh bằng cách áp dụng vào 9 thuật toán MOT khác Tuynhiên, nhóm vẫn nhận thay rang, đối với mỗi phương pháp khác nhau thì thuật toánnày cần phải điều chỉnh các khoảng tham số sao cho phù hợp với từng phươngpháp Chính vì vậy nhóm đề xuất thuật toán mới nhằm tổng quát hóa thuật toánBYTE từ hai khoảng tin cậy lên n khoảng tin cậy sao cho phù hợp nhất với các
phương pháp.
Trong các video được thu từ máy ảnh chuyên động như camera hành trình,camera theo dấu dùng trên trực thăng, các vật thể trong khung hình thường sẽ di
chuyền tương đối đánh kể, đặc biệt trong trường hợp FPS thấp Chính vi thể, thuật
toán BOT-Sort [4], sử dụng phương pháp global motion compensation (GMC)
trong thư viện OpenCV [21], dé tinh ra ma tran chuyén đôi (affine matrix) và áp
dụng ma trận này để bù đắp cho chuyển động camera Tuy nhiên, kỹ thuật GMC
này rất tốn tài nguyên tính toán cộng với việc mô hình nhận diện lớn làm chophương pháp này khó có thể ứng dụng trong các hệ thống vừa và nhỏ Vì lý đo đó,
Trang 13nhóm đề xuất một kỹ thuật khác nhằm tận dùng các thông tin từ những hộp giới hạn
có độ tin cậy cao từ thuật toán BYTE [3]dé điều chỉnh những hộp giới hạn có độ tincậy thấp trong quá trình gán dữ liệu Bởi vì phương pháp này hoạt động rất nhanh
so với kỹ thuật GMC, chính vì vậy thời gian khi áp dụng kĩ thuật của nhóm đề xuấtgần như bằng với thời gian khi không sử dụng thuật toán này
1.2 Mục tiêu của đề tài
Trong đề tài này, nhóm sẽ nghiên cứu tiến hành:
- Đề xuất ra một thuật toán gan dữ liệu tong quát hơn so với thuật toán
BYTE [3].
— Đề xuất được thuật toán tính toán độ lệch của camera nhằm gia tăng độ
chính xác của thuật toán MOT sao cho thời gian chạy hơn BOT-Sort [4] trên CPU Intel® CoreTM ¡9-10900X.
— Gia tăng độ chính xác của các thuật toán MOT hiện hành nhờ hai thuật
toán đề xuất, mục tiêu cao hơn 0.5% trên thang đo HOTA so với ByteTrack(kết quả ByteTrack hiện tại là 67.8%)
1.3 Phương pháp thực hiện
Nhóm sẽ nghiên cứu, tìm hiểu về thuật toán MOT nhằm có thé hiểu thêm về
hướng phát triển của thuật toàn này
Nhóm sẽ thực hiện lại các kết quả của thuật toán BYTE đồng thời từ đó cải tiến
lại thuật toán này.
Nhóm sẽ đánh giá độ hiệu quả của thuật toán BYTE trên bộ dtr liệu MOT17 [22].
Nhóm sẽ chạy các kết quả bao gồm các kết quả định lượng và kết qua trực quanhóa nhằm thé hiện độ hiệu quả của thuật toán
Nhóm sẽ nộp kết quả lên bảng xếp hạng của bộ dữ liệu MOT17, đồng thời kết
hợp thuật toán đề xuất trên nhiều kết quả nghiên cứu khác
Trang 14Chương 2 TÌM HIỂU TONG QUAN
Trong chương này, nhóm trước hết sẽ đưa ra các khái niệm về bài toán MOT, giớithiệu về các phương pháp đánh giá độ hiểu quả của thuật toán này trên các thang đoCLEAR [23] IDF1[24] và HOTA [25] Sau đó, nhóm sẽ trình bay sơ lược về các
phương pháp và các hướng tiếp cận của bài toán này và sẽ trình bày về thuật toán
BYTE [3] bởi lẽ các phương pháp trong nghiên cứu này được xây dựng trên thuật toán
này Cuối cùng, nhóm sẽ giới thiệu về bộ dữ liệu được sử dụng dé đánh gia thuật toán
dé xuât.
2.1 Bài toán theo dấu đa đối tượng
Bài toán theo dau đa đối tượng là một bài toán trong lĩnh vực thị giác máy tínhbao gồm việc phát hiện và theo dấu nhiều đối tượng trong video Mục tiêu của bàitoán này là làm sao có thê định vị được vị trí của vật thé và định danh của vật théqua nhiều khung hình trong video nhằm theo dõi chuyên động của vật thé theo thờigian Đây được xem là một bài toán khó bởi lẽ trong quá trình theo dấu thì sẽ xảy ra
các tính huống như che khuất, vật thê bị mờ do chuyền động (motion blur) và sự
thay đổi hình thái Bài toán này được giải quyết bằng cách kết hợp hai thuật toánphát hiện đối tượng (object detection) va gan dữ liệu (data association) Một ví
dụng minh họa cho bài toán theo dấu đa đối tượng ở Hình 2-1, các vật thé xác định
băng một hộp giới hạn, theo sau mỗi hộp là một đường vết dài thé hiện quỹ dao di
chuyên của các vật thê.
Trang 15Hình 2-1: Ví dụ minh họa cho bài toán MOT
2.2 Các thang đo đánh giá độ chính xác của bài toán MOT
Phương pháp đầu tiên dùng đề đánh giá các bài toán MOT là CLEAR [23] bao
gồm các chỉ số là MOPT (mutiple object tracking precision) và MOTA
(multiple-object tracking accuracy).
Zitat
XtCtMOPT được biéu diễu dưới công thức như sau: MOTP =
Trong đó di là độ lỗi của vật thé i được gan đúng trong thời gian £
Về mặt ý nghĩa MOPT thê hiện cho độ lỗi của từng cặp đối tượng được gán vớinhau, hay nói cách khác là với mỗi vật thê đúng thì hộp giới hạn của nó đúng tới
mức nào.
>rứmry+ƒpt+rmmer)
MOTA được biểu diễu đưới công thức như sau: MOTA = 1 — PP
tũt
Trong đó m, fp., mme, lần lượt là số lượt các vật thé bi mat dấu, vat thé dự
đoán trượt và vật thé gán trượt
Trang 16Về mặt ý nghĩa MOTA thê hiện được khả năng phát hiện các vật thể có trong
khung anh và một ít khả năng lưu giữa thuộc tính đối tượng nằm trong mzne, (vật
thể dự đoán không đúng định danh)
Theo như Hình 2-2 có thê thấy được răng tại thời điểm £ + 3 vật thể bị gán sainên được đánh dau là dự đoán không đúng định danh, tuy nhiên từ thời điểm t + 4trở đi thì các hộp này được xem là đúng mặc dù từ thời điểm t tới thời điểm t + 7thì định danh của vật thể hoàn toàn khác nhau Đây được xem là nhược điểm của
thang đo CLEAR bởi lẽ thang đo này gần như không quan tâm về việc định danh
của đối tượng có đúng hay không Dé giải quyết những hạn chế nay, thang đo IDF1
[24] được ra đời.
Kim am 4`
Mismatch :
t+1 t+2 t+3 t+4 t+5 t+6 £47
Hình 2-2: Mô ta cho cách hoạt động của thang do CLEAR
Thang đo IDF1 đặc biệt tập trung vào vấn đề bảo toàn định danh của mỗi vậtthé
2IDTP
IDF1 =——————
2IDTP + IDFP + IDFN
Trang 17Trong đó, IDF1 là tỉ lệ những đối tượng được định dạng đúng trên tất cả các
định danh Về cơn bản thì MOTA ghép các cặp đúng trên kết quả của mô hình nhận
diện (detector) còn IDF1 thì ghép dựa trên quỹ đạo của các vật thé
Tuy nhiên, thước đo này vẫn còn khá nhiều hạn chế bởi lẽ nó đặt quá nhiều
trọng tâm cho việc gan dtr liệu thay cho việc phát hiện vật thé, trong khi đó MOTA
thì đặt nhiều trong tâm cho việc phát hiện vật thể thay cho gán dữ liệu Chính vì
vậy, thang đo HOTA [25] ra đời để giải quyết vấn đề này
Nhìn Hình 2-3 ta có thé thấy, 3 thuật toán theo dấu A, B, C cho ra kết quả khácnhau Ở thuật toán A, thì chỉ dự đoán được đúng 50% quỹ đạo đầu của vật thể vì
vậy MOTA và IDFI ở các mức 50% và 67% Tuy nhiên theo thuật toán B thì lần
này dự đoán được 70% ŒT tuy nhiên định danh thay đổi tại 35% Đối với mộtthang do bị thiên lệch về quá trình gán dữ liệu thì IDF1 bị giảm còn 52% tuy nhiênvới thang đo MOTA thì lại tăng lên 69% vì thiên lệch về quá trình dự đoán Tương
tự ở thuật toán C thì quỹ dao được dự đoán hoàn toàn 100% tuy nhiên định danh lại
thay đôi 4 lần, chính vì vậy MOTA ở mức rat cao 97% tuy nhiên IDFI lại rất thấp
Có thé thay được rang, mặc dt MOTA và IDF1 thay đôi trong các trường hợp khácnhau nhưng thang đo HOTA luôn được giữ nguyên ở mức 50% do đã giải quyếtđược vấn đề thiên lệch cho quá trình nhận diện và quá trình gán dữ liệu Vì thế nênhiện nay nhiều nghiên cứu đang sử dụng thang đo này đề thống nhất về cách đánhgiá bởi lẽ làm sao chúng ta có thé so sánh được 2 thuật toán với nhau nếu nhưMOTA và IDF1 không đồng thời cao hoặc thấp
Về cơ bản thì thang đo HOTA tập trung trên cả kết quả nhận diện và kết quả
gán dữ liệu Mô tả về cách hoạt động của thang đo HOTA tại Hình 2-4
Trang 18gt: —=—be+A WOTA HOTA IDF1 AssA
eS ay Ground-truth j t True Positive | I False Negative
Hình 2-4: Mô ta về cách hoạt động của thang đo HOTA
` - Cont
2.3 Các nghiên cứu hiện nay
Năm 2017, thuật toán SORT [1] ra đời, là phương pháp tiên phong cho hướng
nghiên cứu tracking-by-detection dựa trên phương pháp gan dir liệu IOU-based.
Phương pháp IOU-based dựa trên độ trùng lắp (intersect-of-union) dựa hộp giới hạn
10
Trang 19từ mô hình nhận diện và cua track dé ghép với nhau Track là các hộp giới hạn có
định danh chứa các thông tin quỹ đạo và vị trí theo thời gian Tuy nhiên việc áp
dụng trực tiếp độ chồng lấp của hộp giới hạn và track gây ra nhiêu lỗi sai vì giữahai khung hình liên tiếp thì các vật thể sẽ di chuyền Chính vì vậy, thuật toán này
đưa ra giả định rang các vật thé trong khung hình sẽ di chuyển với một tốc độ
không thay đôi (constant velocity) và sử dụng bộ lọc Kalman [20] với các thông tin
di chuyén trước đó của track dé dự đoán ra vi trí hiện tại nhằm cho việc ghép chínhxác hon Tuy nhiên, giả định vận tốc không thay đổi là một giả định ít tính thực tếchính vì vậy trong các trường hợp các vật thể di chuyền tốc độ đột ngột hay tốc độkhung hình trên giây thấp hoặc bị che khuất thì phương pháp IOU-based sẽ gây ranhiều lỗi sai Thuật toán DeepSort [2] ra đời sau này nhằm giải quyết các vấn đềcủa thuật toán SORT, thay vi sử dụng độ chồng lap của các vật thé, DeepSort sửdụng một mạng trích xuất đặc trưng nhỏ dé thu được các đặc trưng vì hình thái của
các vat thé, rồi sử dụng độ đo tương đồng cosine dé tìm ra các vật thé nào là cùng
định danh với nhau Cách làm này loại bỏ được giả định vận tốc không đổi và cóthể phát hiện vật thê bị che khuất và xuất hiện lại sau đó nhiều khung hình, cách
lam nay được gọi là phương pháp apperance-based Tuy vậy, phương pháp này có
nhược điểm đó chính là trong các trường hợp mật độ của các vật thể cao, độ chồnglấp nhiều thì mô hình trích xuất đặc trưng sẽ không hoạt động tốt và gây ra nhiều
lỗi sai Đây chính là hai phương pháp chính cho giai đoạn gan dữ liệu theo hướng tracking-by-detection.
Các thuật toán sau này [3], [4], [7] [8], [10], [12]-{14], đều được cải tiến trênhai phương pháp trên, với một số điều chỉnh như kết hợp IOU-based và apperance-
based Tuy nhiên, nôi bật nhất đó chính là hướng kết hợp mô hình nhận diện và mô
hình trích xuất đặc trưng reidentification [7], [12]-{14] vào cùng một mô hình để cóthê hoạt động đồng thời nhăm cải tiến tốc độ của mô hình Về cơ bản, phương pháp
này bên cạnh đưa ra các hộp giới hạn của các vật thé còn đồng thời cho ra được
vec-tơ đặc trưng của từng vật thể Hình 2-5 là mô tả về kiến trúc kết hợp này, được
gọi là joint-detection and embedding.
11
Trang 20JDE Detection Embedding
results
Hình 2-5: Kiến trúc joint-detection and embedding
Đối với kiến trúc join-detection and embedding thì nhược điểm đó chính là tính
đối kháng giữa hai nhánh detection và embedding Cụ thé đó chính là đặc trưng củanhánh detection dé phát hiện vật thé bao gồm các đặc trưng như hình dáng, kích
thước hay còn gọi là đặc trưng tông quát Tuy nhiên đặc trưng bài toán
reidentification bao gồm về màu sắc, khuôn mặt, dáng đi, quần áo hay còn gọi là
đặc trưng chỉ tiết của các vật thể Chính vì vậy, việc áp dụng hai nhánh này vào
cùng một kiến trúc không phải là điều đơn giản [13], [14] đã xây dựng kiến trúcnày bằng cách tách các thông tin từ hai nhánh này ra sao cho ít tính đối kháng nhất
có thê [7] là một phiên bản cải tiến của [13] bằng cách sử dụng các thông tin của
các khung hình trước đó dé loại bỏ đi những kết quả sai sinh ra do mô hình Hướng
kiến trúc hiệu quả tuy nhiên mạng nhận diện vật thể lại không thể có độ chính xác
cao so với phương pháp hai mạng riêng biệt.
2.4 Detection trong phương pháp tracking-by-detection
MOT đơn thuật là một bài toán nhận diện vật thé với định danh của vật thé với
độ chính xác hầu như phụ thuộc vào độ chính xác của mô hình nhận diện Nhiềuphương pháp SOTA hiện nay sử dụng các mô hình tốt nhất trong bài toán object
detection dé tạo ra các hộp giới hạn trong khung ảnh Ví dụ như [3], [4], [8] sử
dụng mô hình YOLOX [18] hay CenterTrack [9] sử dụng mô hình CenterNet [19].
Hon thé nữa các phương pháp cũ như [1], [2] khi sử dụng các phương pháp này gia
12
Trang 21tăng độ chính xác ra đáng kể và có thể cạnh tranh với các phương pháp mới nhất
hiện nay.
2.5 Tracking trong phương pháp tracking-by-detection
2.5.1 Mô hình di chuyển — Motion model
Bộ lọc Kalman [20] là một trong những mô hình tuyến tính cực kì phổ biến để
dự đoán vi trí trong tương lai của các track bởi sự đơn giản và tính hiện quả của
nó Mặc dù giả định vận tốc không đổi không phù hợp với thực tế nhưng vẫn
được sử dụng rất rộng rãi từ năm 2017 trong Sort [1] cho tới 2022 bởi
ByteTrack [3] Nhiều nghiên cứu khác đã sử dụng các biến thé khác từ bộ lọc
Kalman, như [4], thay vì ước lượng tỉ lệ giữa chiều cao và tỉ lệ khung hình(aspect ratio) thì thay đổi bang tỉ lệ giữa chiều cao và độ rộng của hộp giới hạn.Các trường hợp khó, các vật thé có hình đáng phức tap hay di chuyển một cáchbất thường trong thực tế thường sẽ gây ra lỗi sai cho bộ lọc Kalman Một số
phương pháp khác đã không sử dụng phương pháp này mà thay vào đó sử dụng
một mô hình học sâu dé nhận diện sử thay đồi dựa trên các thông tin trước đó
[9], [11] Tuy nhiên các phương pháp này vẫn chưa thực sự gọi là tổng quát và
chỉ thực sự hiệu quả trên một sô kiên trúc nhât định.
2.5.2 Gan dữ liệu — data association
Quá trình data association được xem như một bài toán phân hoạch tuyến
tính, bắt đầu từ Sort [1] gán các hộp giới hạn và track dựa trên độ đo IOU thì
trong DeepSort [2] gán với nhau dựa trên độ tương đồng cosine ByteTrack
[3] thì sử dụng các hộp giới hạn có độ tin cậy cao dé ghép va khoi tao, trong
khi đó các hộp có độ tin cậy thấp chi dùng dé ghép Thêm vào đó, một số
phương pháp thay đôi về khoảng cách ghép nối, như thay vì sử dụng độ đo
IOU thì sử dụng khoảng cách của các hộp, hay như cách tăng bộ đệm — nói
cách khác là gia tăng kích thước của hộp giới hạn trong CBIOU [10] để có
thé ghép dé dàng hơn đối với các vật thé có hướng đi phức tạp va thay đổi
kích thước liên tục
13
Trang 222.6 Tracking với bù đắp chuyến động của camera
Phương pháp tracking-by-detection dựa trên IOU và bộ lọc Kalman phụ
thuộc rất nhiều vào giả định di chuyên tuyến tính (linear motion) Chính vì vậy,camera chuyền động lớn có thê làm dịch chuyên vị trí của các hộp giới hạn xa so
với vị trí thực tém gây ra lỗi trong quá trình tính toán IOU giữa hộp giới hạn và
các track BoT-Sort [4] sử dụng kĩ thuật tính toán di chuyền toàn cục (global
motion compensation) dé tính toán ra ma trận chuyên đổi rồi sử dụng nó dé bù
trừ cho chuyên động của camera Tuy nhiên, kỹ thuật này đòi hỏi một lượng tàinguyên tính toán khá nhiều và thời gian chạy tương đối chậm nên làm giảm đi
khả năng áp dụng trên những hệ thống có phần cứng hạn chế Bên cạnh đó trongtrường hợp đông đúc, kỹ thuật ước lượng chuyên động của camera này có thê
không thực hiện được bởi thiếu đi những điểm đặc trưng của background dẫn tớiviệc thuật toán sẽ hoạt động không 6n định
2.7 Thuật toán SORT
Năm 2017, Alex Bewley đã công bó bài báo mang tên “Simple online and
realtime tracking” [1] Bài báo này ra đời với mục tiêu đưa ra một thuật toán
theo dau mới có thé chạy được với tốc độ thời gian thực dé thay thé cho các
phương pháp trước đó Thuật toán nãy là thuật toán theo hướng nghiên cứu
tracking-by-detection với mô hình nhận diện vật thé là Faster Region CNN [26](Faster RCNN), đây là một trong những mô hình nhận diện tốt nhất lúc bay giờ
và cho phép khả năng chạy thời gian thực Bên cạnh đó thuật toán SORT đề xuấtmột phương phát ghép dit liệu mới cho quá trình theo dấu
Về cơ bản, thuật toán này sử dụng độ chồng lấn của hộp giới hạn vừa được
phát hiện, và các hộp từ track cũ dé xác định xem các hộp giới hạn mới này là
của track nào Sau khi tính toán độ chồng lắn (intersect-of-union) giữa các hộp
xong, SORT mô hình hóa việc gán dữ liệu này thành bài toán phân hoạch tuyếntính và sử dụng thuật toán Hungarian [27] dé tối ưu Tuy nhiên, nếu trực tiếp sử
14
Trang 23dụng hộp giới hạn vừa được phát hiện va track cũ thì độ chồng lan sẽ thấp và dễ
bị nhằm lẫn bởi các hộp năm gần với nhau nguyên nhân do các vật thé trong haikhung ảnh liên tiếp sẽ di chuyền liên tục Chính vì vậy, SORT sử dụng một bộ
dự đoán tuyến tính và họ lựa chọn bộ lọc Kalman [20] dé có thé dự đoán quỹ
đạo của các track qua giữa các khung hình khác nhau Chính nhờ việc này mà
thuật toán SORT đã trở thành phương pháp SOTA lúc bay giờ với tốc độ xử lýcực kì nhanh Tuy vậy thuật toán này có một nhược điểm đó chính là đưa ra giảđịnh rang các hộp giới hạn này (hay các vật thé trong khung ảnh) sẽ di chuyển
với một tốc độ không thay đổi (constant velocity), đây là một giả định khá chặtbởi trong thực tế thường không xảy ra trường hợp này Bên cạnh đó, thuật toánnày có một nhược điểm đáng ké nữa đó chính là nếu như các hộp bị che lấp
trong khoảng thời gian thì thuật toán này sẽ không thê hoạt động chính xác, gây
ra nhiễu lỗi thay đôi định danh (ID switch)
2.8 Thuật toán DeepSort
Thuật toán Deepsort [2] là phiên bản nhằm giải quyết các van dé của thuật
toán SORT bao gồm giải định vận tốc không đổi và van đề che khuất Đề giảmquyết các van dé này, DeepSort đã thay đổi thang đo tính độ khác biệt giữa hộpgiới hạn và track, bằng cách sử dụng độ tương đồng cosine thay cho độ chồng
lập (IOU) Độ tương đồng cosine này được tính bằng cách đưa hộp giới hạn củacác hộp giới hạn qua một mạng re-identification nhỏ dé trích xuất các đặc trưng
về hình thái Các đặc trưng hình thái này đơn giản chỉ là một véc-tơ và họ sử
dụng độ tương đồng cosine trên hai véc-tơ nay dé tính toán độ tương đồng về
hình thái giữa hộp giới hạn và track, Hình 2-6 mô tả về cách hoạt động của việc
sử dụng mạng re-identification Bằng cách này DeepSort đã giải quyết được
những hạn chế của thuật toán SORT với chỉ gia tăng một ít tính toán tại mạng
re-identification Tuy nhiên, thuật toán này có một han chế khác đó chính là hạn
chế từ bài toán re-identification Trong các trường hợp đông đúc, các hộp giới
hạn chồng lấp lên nhau (Hình 2-7, Hình 2-8) thì việc sử dụng mạng trích xuất
15
Trang 24đặc trưng sẽ gây nhiều lỗi sai làm cho quá trình ghép dữ liệu lẫn lộn giữa các
Trang 252.9 Thuật toán JDE
Thuật toán JDE [12] được giới thiệu trong ECCV2020, với bài báo mang tên
“Towards Real-Time Multi-Object Tracking” Y tưởng bài báo này đó chính là
gia tăng tốc độ của các bài toán multi-objec tracking băng các sử dụng đồng thờimạng nhận diện vật thể và mạng trích xuất đặc trưng cùng một lúc Cụ thể là đốivới phương pháp DeepSort [2], đã sử dụng thêm một mạng nhỏ để trích xuất đặctrưng, điều này làm cho tốc độ tương đối bị giảm và sẽ giảm tương đối nhiều
nếu chúng ta muốn sử dụng một mạng trích xuất đặc trưng lớn hơn Chính vì lẽ
đó, thuật toán JDE đã đưa ra ý tưởng sử dụng các đặc trưng của mô hình nhận
diện vật thé cho mô hình re-identification Tác giả bài báo này đã đưa ra một môhình mới sử dụng đồng thời một bộ trích xuất đặc trưng với hai nhánh bao gồmnhận diện vật thê và re-identification Kiến trúc được đề xuất như trong Hình
Trang 26Bằng việc sử dụng kiến trúc mới này, thuật toán JDE có thé chạy được các
mô hình hơn hơn nhưng vẫn duy trình được khả năng tính toán thời gian thực.
Tuy nhiên mô hình này có một nhược điểm đó chính là tính đối khác giữa hai
nhánh phát hiện vật thê và re-identification Trong các mô hình sau này, họ đặctên cho nhánh phát triển của thuật toán JDE là joint detection and embedding
model, và các thuật toán trong nhánh này tập trung giải quyết vấn đề tính đối
kháng giữa hai nhánh này.
2.10 Thuật toán CSTrack
Thuật toán CSTrack [13] giới thiệu 2022 với bài bao mang tên “Rethinking
the Competition between Detection and ReID in Multiojbect Tracking” Giống
như tên gọi, bài báo nay đã đưa ra một số nguyên nhân về tính đối kháng giữa
nhánh phát hiện vật thể và nhánh re-identification Trong đó, một trong sỐ
nguyên nhân chính đó chính là đặc trưng phục vụ cho hai bài toán này là hoàn
toàn khác nhau Đặc trưng giành cho bài toán phát hiện vật thể chủ yếu là các
đặc trưng tổng quát (như phát hiện người thì tập trung chủ yếu vào hình dáng,kích thước), trong khi đó đối với bài toán re-identification thì các đặc trưng tậptrung nhiều hơn về vật thê (như mặt mũi, màu sắc quần áo, hình dáng đặc trưng
của từng người) Chính vì lẽ đó, kết hợp hai nhánh này lại một cách đơn giản
như trong JDE sẽ không giải quyết được những vấn đề này
Trang 27Trong CS Track, thuật toán dé xuất ra một khối detection head mới nhằm
mục đích tách biệt nhánh detection và nhánh re-identification Cụ thé kiến trúc
như trong Hình 2-10 Trong đó, họ đề xuất thêm một khối REN, với kiến trúc
như Hình 2-11.
CxHW'
transpose
X Matrix Multiplication Ð Element-wise Addition —> 1x1Conv+Reshape “=> Reshape
Hình 2-11: Khối REN trong mạng CSTrack
Về ý tưởng thì khối REN này sẽ có cơ chế trích xuất đặc trưng làm 2 loại,
bao gồm đặc trưng dựa trên công việc và đặc trưng chung Đặc trưng dựa trên
công việc (task dependence) với mục đích trích ra các đặc trưng phục vụ riêng
cho từng nhánh nhận diện hoặc nhánh re-identification Đặc trưng chung là trích
xuất ra đặc trưng sử dụng chung giữa hai nhánh này hoặc trao đổi những thôngtin giữa hai nhánh này Việc thiết kế kiến trúc như trên có thê cho chúng ta khảnăng trích xuất đặc trưng riêng cho từng tác vụ, cũng như là khả năng chia sẻ
đặc trưng của từng tác vụ.
Mặc dù CSTrack đã có thê giải quyết được phần nào các vấn đề của JDE, tuy
nhiên còn một số nhược điềm đó chính điểm là trong một số trường hợp hình
ảnh bị mờ thì mô hình sẽ nhận nhằm background thành vật thể, làm giảm độ
19
Trang 28chính xác Hay như van dé vê việc che khuât thì nêu che khuat quá nhiêu thì mô
hình cũng sẽ chạy không tốt do bản chất của hướng apperance-based
2.11 Thuật toán OMC
Thuật toán OMC được giới thiệu trong AAAI-2021 trong bài bao “One More
Check: Making “Fake Background” Be Tracked Again” Bài báo này là bản cải
tiến của CSTrack với ý tưởng mới là đưa các thông tin thời gian vào mô hình détăng độ chính xác của mô hình Có thé thấy rằng các background giả như trong
Hình 2-12 được đưa ra từ CSTrack với background là các hộp mau đỏ Mặc dù
đây chính là người, tuy nhiên mô hình lại nhận diện thành background bởi do
vật thé bị mờ hay các vật thé chồng lap lên nhau Ý tưởng OMC là sử dụng các
Hình 2-12: “Fake background” từ mô hình CS Track
20
Trang 29Frame x
Cụ thể, OMC đã đề xuất ra thêm một mạng mới mang tên ReCheck (kiểm tra
lai) lại dé kết hợp các thông tin trước đó và thông tin hiện tại nhăm dự đoán ra
kết quả chính xác nhất, Hình 2-13
r
JDE /CSTrack Re
Backbone
F © Union by IOU metric
Hình 2-13: Kiến trúc CSTrack kết hợp với mang Re-check
Kiến trúc Re-check sẽ tính toán cross-correlation giữa các đặc trưng của cácvật thé từ khung hình trước đó và đặc trưng của hình ảnh dùng cho task re-
identification Bằng cách tính cross-correlation như trên, chúng ta có thê trích
xuất được các lớp mặt nạ mới biểu diễn sự liên hệ giữa vật thể này với các vi tritrong khung hình, từ đó có thé trích xuất ra mặt nạ nhị phân 0-1 biểu diễn vị trí
đó có vật thé hay không (0 là không có vật thé, 1 là có vật thể) Cách làm này
được biên diễn như trong khối transductive detection module trong Hình 2-14
Sau khi ra được mặt nạ mới này, mô hình sẽ cho qua một mạng lọc lại
(refinement module) bằng cách nhân với đặc trưng vật thể lúc đầu Cuối cùng
chúng ta sẽ nhận được đặc trưng mới đã được lọc lại dựa trên các đặc trưng của
khung hình trước đó Từ các đặc trưng này, chúng ta có thé đưa ra được các vậtthé sao cho đúng nhất dựa trên khung hình hiện tại và thông tin các khung hình
trước do.
21
Trang 30Transductive Detection Module
HxWxC(C=512) [x] Cross-correlation ® Element-wise Multiplication
Hình 2-14: Mang Re-check của OMC
2.12 Thuật toán BYTE
Thuật toán BYTE [3] được giới thiệu vào năm 2022 với mục dich là cải thiện
phương pháp tracking cho hướng nghiên cứu tracking-by-detection Day là một
trong những thuật toán tuy đơn giản nhưng có độ chính xác rất cao Về mặt ý
tưởng, các thuật toán trước đó thường ghép nối các hộp giới hạn trên một mức
ngưỡn tin cậy nhất định thường là 0.5 và nếu như hạ thấp ngưỡn tin cậy này thì
thuật toán sẽ có nhiều hộp giới hạn không đáng tin làm cho quá trình gán đữ liệu
có thêm nhiều lỗi Tuy nhiên thuật toán BYTE cho rang, các hộp giới hạn có độ
tin cậy thấp mặc dù phần lớn là các hộp sai tuy nhiên vẫn có một số thông tin
hữu ích cho việc tracking chính vì vậy họ cho thêm một bước gán dữ liệu riêng
cho các hộp giới hạn có độ tin cậy thấp Chính vì cách làm đơn giản này mà
thuật toán BYTE không những lấy được thông tin từ các hộp giới hạn có độ tin
cậy cao mà còn lọc được những thông tin hữu ích từ các hộp giới hạn có độ tin
cậy thấp Hình 2-15 minh họa về cách thuật toán BYTE sử dụng các hộp giới
hạn thấp.
22
Trang 31(c) tracklets by associating every detection box
Hình 2-15: Ví dụ minh hoa về thuật toán BYTE
Về chỉ tiết, thuật toán BYTE tương tự như SORT nhưng thay vì làm cho mộtngưỡng tin cậy thì BYTE làm cho 2 ngưỡng tin cậy Về chỉ tiết thuật toán được
thé hiện như Hình 2-16.
23