1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Kỹ thuật máy tính: Thuật toán Cascade Association và thuật toán bù đắp chuyển động camera dựa trên Kalman Filter cho bài toán theo dấu đa đối tượng

63 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Thuật toán Cascade Association và thuật toán bù đắp chuyển động camera dựa trên Kalman Filter cho bài toán theo dấu đa đối tượng
Tác giả Đỗ Thanh Tùng
Người hướng dẫn Thạc Sĩ Trương Văn Cương
Trường học Đại học Quốc gia TP. Hồ Chí Minh
Chuyên ngành Kỹ thuật máy tính
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2023
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 63
Dung lượng 52,46 MB

Nội dung

Thuật toán SORT [1] dựa trên sự trùng lắp intersect of union của các hộp giới han trongkhung hình và thuật toán DeepSort [2] sử dụng các đặc trưng về hình thái apperance similarity để gá

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA KỸ THUẬT MÁY TÍNH

DO THANH TÙNG - 19522491

KHÓA LUẬN TÓT NGHIỆP

THUẬT TOÁN CASCADE ASSOCIATION VÀ THUẬT

TOÁN BU DAP CHUYEN DONG CAMERA DỰA TREN

KALMAN FILTER CHO BAI TOAN THEO DAU DA DOI

TUONG

Cascade Association and Camera-motion compensation based

Kalman filter for multi-object tracking

NGANH KY THUAT MAY TÍNH

GIANG VIEN HUONG DAN

THAC SĨ TRƯƠNG VAN CUONG

TP HO CHi MINH, 2023

Trang 2

LỜI CÁM ƠN

Đầu tiên, em xin gửi lời cảm ơn đến quý thầy cô giáo trường Đại Học Công Nghệ

Thông Tin Trong quá trình học tập và rèn luyện tại trường, với sự dạy dỗ, chỉ bảo tậntình của các quý thầy cô giáo đã trang bị cho em những kiến thức về chuyên môn cũng

như kỹ năng mềm, tao cho em hành trang vững chắc trong cuộc sông cũng như công

viéc sau này.

Tiép theo, em xin cam on khoa Kỹ Thuật May Tính vi đã luôn tạo moi điều kiện thuận

lợi cho em được học tập và phát triển

Đặc biệt, dé hoàn thành khóa luận tốt nghiệp này, em xin gửi lời cảm ơn sâu sắc tớiThay Trương Văn Cương đã tận tinh chỉ bảo, hướng dẫn và hỗ trợ trang thiết bị cho em

trong suốt thời gian thực hiện đề tài Đồng thời, mm cũng xin gửi lời cảm ơn đến mọi

người trong Câu lạc bộ CEEC đã hỗ trợ mình hoàn thành khóa luận một cách tốt nhất

Em cũng muốn cảm on tat cả các công ty và nhà phát triển cung cấp các dịch vụ miễn

phí cũng như các thư viện và dự án mã nguồn mở Không có những công cụ và thư

viện này khoá luận của em sẽ không thê hoàn thành được như bây giờ

Cuối cùng, em xin cảm ơn đến gia đình, những người luôn dành những sự động viên

đến em trong suốt quá trình thực hiện khóa luận

Thành phó Hồ Chí Minh, thang 6 năm 2023

Sinh viên thực hiện

Đỗ Thanh Tùng

Trang 3

MỤC LỤC

Chương 1 GIỚI THIEU DE TÀI - 2 2 E+E£+E£+EE+EE£EEE+EEEEEEEEerEezrerreerxee 2

1.1 Đặt vấn đề cv th ng 21.2 Mục tiêu của đề tài csccctt th th ng re 5

1.3 Phuong pháp thực hiỆn 5 5 25s 119g nh nh gi, 5

Chương 2 TÌM HIẾU TONG QUAN ¿5 ESE+EE+EE£EE2EE2EEEEEEEEEEEEkerkrrrrei 6

2.1 Bài tốn theo dấu đa đối tượng -¿-©5++2+t2cx+2x+eExSExerrkerkeerkrrrree 6

2.2 Các thang đo đánh giá độ chính xác của bài tốn MOIÏT - - «+ 7 2.3 Các nghiên cứu hiỆn nay 5 262112311330 E3 11 8911 111 1v vn, 10

2.4 Detection trong phương pháp tracking-by-deftection -‹ s++-s++ 12

2.5 Tracking trong phương pháp tracking-by-deftection ‹ -«+-+ 13

2.5.1 Mơ hình di chuyển — Motion model ¿ s¿ s2 ©sz2cxz+ss++- 13

2.5.2 Gan đữ liệu — data aSSOCIaAfION 222222221 eeee 13

2.6 Tracking với bù đắp chuyên động của camera -: -s¿cs++s++: 14

2.7 Thuật tốn SOIRÌT cv Hà HH nh nh 14

2.8 Thuật tốn DeepSOII - <1 HH HT HH HH HH 15

2.9 Thudat todn JDE wo ccc À 17

2.10 Thuật tốn CST rack oo cee cecccceseceeeeseeeeceseceeeeeceaecesecseeeeeeaeeeseeeeeeaeees 18

QL Thudat todn OMC 0 20 2.12 Thuật tốn BYTTIE - c1 x9 ng HH HH HH nh nh 22 2.13 Thuật tốn Bot-SORRT ĂĂ c1 111g vn ven, 25 2.14 Bộ dữ liệu MỌT'l7 cv HH HH HH HH nh nh r 25

Chương 3 PHƯƠNG PHÁP ĐỀ XUẤTT - 2 + E2E++EE+EEtEEeEEEzEkerkerkerex 26

Trang 4

3.1 Cascade ASSOCIAfIOIN LG LG QC C11111 1111159550501 11 khe 26

3.2 Camera-motion compensation based Kalman filter - «< 30

Chương 4 ĐÁNH GIA KET QUA THUC NGHIỆM -5- 5552552 32

4.1 Thực nghiệm trên bộ dữ liệu MOTN7 5 55-5 + +x+seexsseeesers 32

LƯU 0n 34

4.2.1 _ Đánh giá trên tập validation MOTT [7 - 25c cScsssssesserees 34

4.2.2 Đánh giá về tốc độ thực thi 5c + ++c++E++E+Eerkerkerkerserxee 35

4.2.3 Ứng dụng thuật toán đề xuất vào các thuật toán MOT khác 35

4.2.4 Độ hiệu quả của thuật toán Kalman camera-motion compensation 37

4.3 Hiện thực KCM-Tracker trên board nhúng Nvidia-TX2 - Al

4.4 Các kết quả dự đoán trên tập MOT 17 c.cscccccesscsscessessesseessssseeseeseesseeseeseess 414.5 Ứng dụng thuật toán lên board NVIDIA Jetson Xavier - 48Chương 5 KẾT LUẬN VA HƯỚNG PHAT TRIÉN -¿ s¿©5¿ 49

5.1 Ket 1d 2a Lá > VY 544 49

5.2 Khó khăn gặp phải ¿- 52-5 ©5e2SE‡EEEEE E21 211211271 2121.211 49

5.3 Hạn chế và hướng phat triỂn 2 2+ +EE+EE+EE£EE+EE£E£Eerkerkerxrrezrx 50

TÀI LIEU THAM KHẢO ¿2-52 55225£22E‡EEEEE2EE2EEEEEEEEEEEEEEEEEEErkrrrkerrerrrree 51

s60 92 55

Trang 5

DANH MỤC HÌNH VE

Hình 2-1: Ví dụ minh họa cho bài toán MỜ ÏT -GG 5 S222 1 sec, 7 Hình 2-2: Mô tả cho cách hoạt động của thang do CLEAR - 2-55 5<<<<<<++ 8

Hình 2-3: Ví dụ minh họa độ lệch của hai thang đo MOTA và IDFT 10

Hình 2-4: Mô tả về cách hoạt động của thang đo HOTA -. 2- 5 s22 s2 10Hình 2-5: Kiến trúc joint-detection and embedding - ¿s2 s>xz>s+ 12Hình 2-6: Minh họa về cách hoạt động của mạng trích xuất đặc trưng trong

IS 16

Hình 2-7: Vật thé bi che khuất một phần 2 2 + +2 £+E£+E££Ee£x+rxzrszxez l6

Hình 2-8: Vật thể bị che khuất hoàn toàn -ccc¿-cccvecrrrrrrtrrrrrrrirrrrrriee 17

Hình 2-9: Kiến trúc tổng quá của mô hình JDE - 2-2 2 2+x£+x+zx+z+zzszse2 17

Hình 2-10: Khối head của mang CSTrack 2: 2 k+S++EE2££+E+E+Eerkerxerxerszxee 18Hình 2-11: Khối REN trong mạng CSTrack - 2s s¿©¿+++++£x+zx++ze+zxerxezes 19

Hình 2-12: “Fake background” từ mô hình CSTrack - «+5 «++<<++s£+<ex+sx 20

Hình 2-13: Kiến trúc CSTrack kết hợp với mang Re-check - s52 21

Hình 2-14: Mang Re-check của OMC 2.0 cecececeeceesesseeseeseeseeeeseesessesseseeseeseseeaeeaeens 22

Hình 2-15: Ví dụ minh họa về thuật toán B Y TE - 2-2 2 + +xetx+£xerxerx+xe2 23

Hình 2-16: Mã giả của thuật toán BỶY TÌE - - < 311193 + vn re 24

Hình 2-17: Các hộp giới hạn không áp dụng Bot-SORT (trái), các hộp giới hạn áp

dụng Bot-SORT (phải) - - << 1x SH HH ng rưy 25

Hình 3-1: Minh họa cho cách gan dữ liệu cho các hộp giới hạn có độ tin cậy cao 27

Hình 3-2: Minh họa cho cách gán dữ liệu cho các hộp giới hạn có độ tin cậy thấp 27

Hình 3-3: Mã giả thuật toán Cascade ÁSSOCIAfION SG HS se 28 Hình 3-4: Mã giả của hàm match_ dets_ tracKS - - s5 5-5 + ++sk+seeeseeesesers 29 Hình 3-5: Sự ảnh hưởng của độ lệch của camera và thuật toán camera-motion

compensation dựa trên Kalman ÍIÏt€T - - <6 E2 13118 9191k 1 vn rưy 30

Hình 4-1: Kết quả đánh giá KCM-Track trên hệ thống của MOTChallenge 33Hình 4-2: Kết quả trưc quan hóa các hộp giới hạn dự đoán bởi bộ lọc Kalman trongByteTrack (màu xanh biển) và trong KCM-Track (màu xanh lá) - 37

Trang 6

Hình 4-3: Kết quả trực quan hóa vận tốc camera theo trục x trên video MOT17-04

Hình 4-13: Frame 202 của video sfatIon.IND4 - - s5 5< s + +vkEsseeseeeeeeere 45

Hình 4-14: Frame 341 của video sfatIon.1p4 -‹ -s + +s+seeeseeeeeeeeeers 45 Hình 4-15: Frame 56 của video party.IND4 .- - s1 ngàng it 46

Hình 4-16: Frame 61 của video pDaTtY.IND4Ả - - c +11 se eee 46

Hình 4-17: Frame 81 của video Darty.ID4| - - c1 + si rrirersere 47

Hình 4-18: Frame 94 của video party.IN41 - - s1 nghiep 47

Hình 4-19: Một số kết quả thu được từ máy tính nhúng (1) -5z5z55+ 48Hình 4-20: Một số kết quả thu được từ máy tính nhúng (2) - 5-52 52 48

Hình 5-1: Email thông báo kết quả paper được chấp nhận đăng tại ACIIDS 2023 49

Trang 7

DANH MỤC BẢNG

Bảng 1: Kết quả đánh giá trên tập test MOT17, f nghĩa là tốt hơn với kết quả cao, |nghĩa là tốt hơn với kết quả thấp - 2 +5 +E2E£+EE£EEtEE+EEEEEEvEErrEerrkerkerkrree 33Bảng 2: Kết quả đánh giá trên tập validation MOT17 -2- 2-5 ©5z2s+cx+zxczsz 34

Bảng 3: Thời gian tracking trên tập MOT17 validation - 5555 <<<<<<5+ 35

Bảng 4: Kết quả khi áp dung CA và KCM vào 8 thuật toán MOT khác trên tập

MOTT17 validation S€K Gv ng TH TH HH HH Hưng ghế 36

Trang 8

DANH MỤC TU VIET TAT

FPS Frame per second

MOT Multi-object tracking IOU Intersect-of-Union SOTA State-of-the-art

Trang 9

TÓM TẮT KHÓA LUẬN

Trong đề tài này nhóm nghiên cứu xây dựng được 2 thuật toán nhằm ứng dụng chobài toán theo dau đa đối tượng Các bai toán theo dấu đa đối tượng hiện nay được chialàm hai hướng nghiên cứu chính bao gồm tracking-by-detection (theo dấu bằng cáchphát hiện) và detection-by-tracking (phát hiện bằng cách theo đấu) Trong đó, tracking-by-detection là phương pháp được cho là cân bằng cả về mặt tốc độ cũng như là độ

chính xác Về cơ bản, hướng nghiên cứu này chia quá trình theo dấu (tracking) thành 2

giai đoạn chính là phát hiện vật thể trong khung ảnh (detection process) và giai đoạn

theo dấu (tracking process) nhằm gán các định danh của đối tượng trong khung ảnh.Trong đề tài này, nhóm sẽ tập trung vào việc phát triển quá trình theo dấu (trackingprocess) bằng cách tổng quát hóa thuật toán Byte và kết hợp độ lệch của máy ảnh quacác khung hình vào bộ lọc Kalman nhằm giảm các sai sót trong quá trình theo dấu

Đề chứng minh thuật toán của nhóm đề xuất thực sự hoạt động tốt, nhóm đã tiễnhành các thí ngiệm trên bộ dữ liệu MOT17, đây là tập dir liệu bao gồm nhiều videođược thu từ máy ảnh đứng yên và máy anh di chuyên nhằm có thể đánh giá thuật toán

bù dap chuyén động một cách công bằng nhất có thể Về độ chính xác, nhóm đạt được

độ chính xác lần lượt trên các thang đo MOTA, IDF1 và HOTA là 80.6%, 79.7% và

64.6% với tốc độ của quá trình theo dấu là 314 FPS

Trang 10

Chương 1 GIỚI THIỆU DE TÀI

1.1 Đặt vấn đề

Trong những năm gần đây, nhiều thuật toán phát hiện đối tượng [1]-[17] đã

được ra đời dé nhận diện và ước tính quỹ đạo theo không gian và thời gian của cácđối tượng trong luồng ảnh video

Trong lĩnh vực xe tự hành, việc phát hiện và ước tính quỹ đạo của đối tượng

trong không gian và thời gian là cực kì quan trọng đề đảm bảo an toàn và hiệu suấtcủa hệ thống Các thuật toán phát hiện đối tượng đã đóng góp quan trọng vào khả

năng tự động lái của các xe tự hành và giúp chúng nhận biết và phản ứng đúng với

các tình huống giao thông phức tạp

Trong lĩnh vực quản lý hệ thống giao thông, việc phát hiện và theo dõi các đối

tượng như ô tô, xe máy, người đi bộ và người đi xe đạp có vai trò quan trọng trong

việc cải thiện hệ thống luồng giao thông và giảm tai nạn Các thuật toán nhận diện

đối tượng đã giúp tăng cường khả năng giám sát và quản lý các vùng giao thông,

giúp chúng ta nhận ra các tình huống nguy hiểm và đưa ra các biện pháp phòng

ngừa kip thời.

Ngoài ra, trong lĩnh vực máy ảnh giám sát, các hệ thống phát hiện đối tượng đãgóp phần mang lại những tiện ích lớn trong việc giám sát và bảo vệ an ninh Việcnhận diện và theo dõi các đối tượng đáng ngờ có thê giúp ta ngăn chặn các hành

động phi pháp, bảo vệ tài sản và đảm bảo an ninh công cộng.

Nhờ sự phát triển của các thuật toán theo dấu đa đối tượng [1]-[17], bài toán

theo dấu đa đối tượng đã trở nên cực quan trọng và ứng dụng nhiều trong các lĩnh

vực thực tế Các nghiên cứu này đã đóng góp đáng ké vào việc cải thiện an toàn,hiệu suất và an ninh trong các lĩnh vực này, đồng thời mở ra những triển vọng hứa

hẹn cho tương lai của công nghệ phát hiện đối tượng

Một trong những hướng tiếp cận phô biến nhất hiện nay đó chính là detection (theo dấu bằng phát hiện đối tượng) Phương pháp này dựa trên việc sửdụng các thuật toán phát hiện đối tượng dé nhận diện và ước tính quỹ đạo của các

Trang 11

tracking-by-đối tượng trong không gian và thời gian Độ chính xác của phương pháp này phụ

thuộc vào phần lớn độ chính xác của phương pháp nhận diện (detector) được sử

dụng.

Chính vì vậy, dé gia tăng độ chính xác của các phương pháp theo hướng nay,

một số bài toán đã sử dụng các mô hình nhận diện tốt nhất hiện nay như YOLOX

[18] được sử dung trong [3], [4], [8] hay như CenterNet [19] được sử dụng trong

CenterTrack [9] Mặc dù độ chính xác của hướng nghiên cứu này phụ thuộc phần

lớn vào mô hình nhận diện, việc nâng cao độ chính xác của mô hình nhận diện

không phải là một phương pháp tiếp cận đơn giản bởi lẽ độ chính xác và tốc độ củacác phương pháp này đã đạt đến độ bảo hòa nếu như không được huấn luyện trênmột tap dữ liệu rất lớn Về mặt khác, quá trình theo dấu (tracking) được xem như làmột phương pháp hậu xử lý của bài toán theo dau đa đối tượng, quá trình này là

bước gán định danh của đối tượng sau khi được phát hiện bằng các mô hình nhận

diện Mặc dù bi giới hạn bởi độ chính xác của các mô hình nhận diện, tuy nhiên nếu

có thể xử lý tốt ở quá trình nay thì độ chính xác vẫn được cải thiện đáng kể Thuật

toán SORT [1] dựa trên sự trùng lắp (intersect of union) của các hộp giới han trongkhung hình và thuật toán DeepSort [2] sử dụng các đặc trưng về hình thái

(apperance similarity) để gán các định danh với nhau là hai phương pháp chính

được sử dụng ở bước này.

Phương pháp tracking-by-detection dang trở thành một hướng tiếp cận phô biến

và mạnh mẽ dé giải quyết bài toán theo dau đa đối tượng trong luồng video Việc sử

dụng các mô hình tiên tiễn và các thuật toán theo dấu hiệu quả có thể nâng cao dang

kế độ chính xác của quá trình nhận diện và theo dõi đối tượng Tuy nhiên, việc tiếp

tục nghiên cứu và phát triển các phương pháp mới dé cải thiện độ chính xác và hiệu

xuất của thuật toán này vẫn là một thách thức đối với cộng đồng nghiên cứu trong

Trang 12

hóa chuyển động, dựa trên các gợi ý về chuyển động (motion-cues) trước đó Bộ

lọc Kalman [20] là một trong những mô hình chuyên động phô biến nhất được sử

dụng cho phương pháp tracking-by-detection Tuy nhiên bộ loc Kalman dựa trên

một giả định đó chính là vận tốc không thay đổi (constant-velocity model), chính vì

vậy các phương pháp sử dụng bộ lọc Kalman hau hết sẽ gây ra lỗi sai trong cáctrường hợp vật thể trong khung hình chuyên động một cách đột ngột, hay tốc độ xử

lý mỗi khung hình trên giây (FPS) thấp DeepSort [2] đã tiên phong áp dụng bàitoán Reldentification (tái định danh) cho bài toán MOT nhằm sử dụng các đặctrưng về hình thái thay vì chuyên động đề loại bỏ đi những hạn chế của phươngpháp dựa trên intersect-of-union Tuy vậy, phương pháp này lại không thé bang đối

với phương pháp IOU-based trong các môi trường đông đúc, các vật thê chồng lap

lên nhau hay mức độ nhìn thấy (visibility) thấp, dẫn đến việc đánh đổi giữa khả

năng phát hiện vật thé (MOTA) và khả năng theo dau vật thé (IDF1)

ByteTrack [3], một trong những phương pháp SOTA hiện nay trong bài toán

MOT, sử dụng phương pháp IOU-based theo hướng tracking-by-detection dé giữ

cho độ chính xác MOTA cao và tốc độ xử lý nhanh Độ chính xác của phương phápnày đã được chứng minh bằng cách áp dụng vào 9 thuật toán MOT khác Tuynhiên, nhóm vẫn nhận thay rang, đối với mỗi phương pháp khác nhau thì thuật toánnày cần phải điều chỉnh các khoảng tham số sao cho phù hợp với từng phươngpháp Chính vì vậy nhóm đề xuất thuật toán mới nhằm tổng quát hóa thuật toánBYTE từ hai khoảng tin cậy lên n khoảng tin cậy sao cho phù hợp nhất với các

phương pháp.

Trong các video được thu từ máy ảnh chuyên động như camera hành trình,camera theo dấu dùng trên trực thăng, các vật thể trong khung hình thường sẽ di

chuyền tương đối đánh kể, đặc biệt trong trường hợp FPS thấp Chính vi thể, thuật

toán BOT-Sort [4], sử dụng phương pháp global motion compensation (GMC)

trong thư viện OpenCV [21], dé tinh ra ma tran chuyén đôi (affine matrix) và áp

dụng ma trận này để bù đắp cho chuyển động camera Tuy nhiên, kỹ thuật GMC

này rất tốn tài nguyên tính toán cộng với việc mô hình nhận diện lớn làm chophương pháp này khó có thể ứng dụng trong các hệ thống vừa và nhỏ Vì lý đo đó,

Trang 13

nhóm đề xuất một kỹ thuật khác nhằm tận dùng các thông tin từ những hộp giới hạn

có độ tin cậy cao từ thuật toán BYTE [3]dé điều chỉnh những hộp giới hạn có độ tincậy thấp trong quá trình gán dữ liệu Bởi vì phương pháp này hoạt động rất nhanh

so với kỹ thuật GMC, chính vì vậy thời gian khi áp dụng kĩ thuật của nhóm đề xuấtgần như bằng với thời gian khi không sử dụng thuật toán này

1.2 Mục tiêu của đề tài

Trong đề tài này, nhóm sẽ nghiên cứu tiến hành:

- Đề xuất ra một thuật toán gan dữ liệu tong quát hơn so với thuật toán

BYTE [3].

— Đề xuất được thuật toán tính toán độ lệch của camera nhằm gia tăng độ

chính xác của thuật toán MOT sao cho thời gian chạy hơn BOT-Sort [4] trên CPU Intel® CoreTM ¡9-10900X.

— Gia tăng độ chính xác của các thuật toán MOT hiện hành nhờ hai thuật

toán đề xuất, mục tiêu cao hơn 0.5% trên thang đo HOTA so với ByteTrack(kết quả ByteTrack hiện tại là 67.8%)

1.3 Phương pháp thực hiện

Nhóm sẽ nghiên cứu, tìm hiểu về thuật toán MOT nhằm có thé hiểu thêm về

hướng phát triển của thuật toàn này

Nhóm sẽ thực hiện lại các kết quả của thuật toán BYTE đồng thời từ đó cải tiến

lại thuật toán này.

Nhóm sẽ đánh giá độ hiệu quả của thuật toán BYTE trên bộ dtr liệu MOT17 [22].

Nhóm sẽ chạy các kết quả bao gồm các kết quả định lượng và kết qua trực quanhóa nhằm thé hiện độ hiệu quả của thuật toán

Nhóm sẽ nộp kết quả lên bảng xếp hạng của bộ dữ liệu MOT17, đồng thời kết

hợp thuật toán đề xuất trên nhiều kết quả nghiên cứu khác

Trang 14

Chương 2 TÌM HIỂU TONG QUAN

Trong chương này, nhóm trước hết sẽ đưa ra các khái niệm về bài toán MOT, giớithiệu về các phương pháp đánh giá độ hiểu quả của thuật toán này trên các thang đoCLEAR [23] IDF1[24] và HOTA [25] Sau đó, nhóm sẽ trình bay sơ lược về các

phương pháp và các hướng tiếp cận của bài toán này và sẽ trình bày về thuật toán

BYTE [3] bởi lẽ các phương pháp trong nghiên cứu này được xây dựng trên thuật toán

này Cuối cùng, nhóm sẽ giới thiệu về bộ dữ liệu được sử dụng dé đánh gia thuật toán

dé xuât.

2.1 Bài toán theo dấu đa đối tượng

Bài toán theo dau đa đối tượng là một bài toán trong lĩnh vực thị giác máy tínhbao gồm việc phát hiện và theo dấu nhiều đối tượng trong video Mục tiêu của bàitoán này là làm sao có thê định vị được vị trí của vật thé và định danh của vật théqua nhiều khung hình trong video nhằm theo dõi chuyên động của vật thé theo thờigian Đây được xem là một bài toán khó bởi lẽ trong quá trình theo dấu thì sẽ xảy ra

các tính huống như che khuất, vật thê bị mờ do chuyền động (motion blur) và sự

thay đổi hình thái Bài toán này được giải quyết bằng cách kết hợp hai thuật toánphát hiện đối tượng (object detection) va gan dữ liệu (data association) Một ví

dụng minh họa cho bài toán theo dấu đa đối tượng ở Hình 2-1, các vật thé xác định

băng một hộp giới hạn, theo sau mỗi hộp là một đường vết dài thé hiện quỹ dao di

chuyên của các vật thê.

Trang 15

Hình 2-1: Ví dụ minh họa cho bài toán MOT

2.2 Các thang đo đánh giá độ chính xác của bài toán MOT

Phương pháp đầu tiên dùng đề đánh giá các bài toán MOT là CLEAR [23] bao

gồm các chỉ số là MOPT (mutiple object tracking precision) và MOTA

(multiple-object tracking accuracy).

Zitat

XtCtMOPT được biéu diễu dưới công thức như sau: MOTP =

Trong đó di là độ lỗi của vật thé i được gan đúng trong thời gian £

Về mặt ý nghĩa MOPT thê hiện cho độ lỗi của từng cặp đối tượng được gán vớinhau, hay nói cách khác là với mỗi vật thê đúng thì hộp giới hạn của nó đúng tới

mức nào.

>rứmry+ƒpt+rmmer)

MOTA được biểu diễu đưới công thức như sau: MOTA = 1 — PP

tũt

Trong đó m, fp., mme, lần lượt là số lượt các vật thé bi mat dấu, vat thé dự

đoán trượt và vật thé gán trượt

Trang 16

Về mặt ý nghĩa MOTA thê hiện được khả năng phát hiện các vật thể có trong

khung anh và một ít khả năng lưu giữa thuộc tính đối tượng nằm trong mzne, (vật

thể dự đoán không đúng định danh)

Theo như Hình 2-2 có thê thấy được răng tại thời điểm £ + 3 vật thể bị gán sainên được đánh dau là dự đoán không đúng định danh, tuy nhiên từ thời điểm t + 4trở đi thì các hộp này được xem là đúng mặc dù từ thời điểm t tới thời điểm t + 7thì định danh của vật thể hoàn toàn khác nhau Đây được xem là nhược điểm của

thang đo CLEAR bởi lẽ thang đo này gần như không quan tâm về việc định danh

của đối tượng có đúng hay không Dé giải quyết những hạn chế nay, thang đo IDF1

[24] được ra đời.

Kim am 4`

Mismatch :

t+1 t+2 t+3 t+4 t+5 t+6 £47

Hình 2-2: Mô ta cho cách hoạt động của thang do CLEAR

Thang đo IDF1 đặc biệt tập trung vào vấn đề bảo toàn định danh của mỗi vậtthé

2IDTP

IDF1 =——————

2IDTP + IDFP + IDFN

Trang 17

Trong đó, IDF1 là tỉ lệ những đối tượng được định dạng đúng trên tất cả các

định danh Về cơn bản thì MOTA ghép các cặp đúng trên kết quả của mô hình nhận

diện (detector) còn IDF1 thì ghép dựa trên quỹ đạo của các vật thé

Tuy nhiên, thước đo này vẫn còn khá nhiều hạn chế bởi lẽ nó đặt quá nhiều

trọng tâm cho việc gan dtr liệu thay cho việc phát hiện vật thé, trong khi đó MOTA

thì đặt nhiều trong tâm cho việc phát hiện vật thể thay cho gán dữ liệu Chính vì

vậy, thang đo HOTA [25] ra đời để giải quyết vấn đề này

Nhìn Hình 2-3 ta có thé thấy, 3 thuật toán theo dấu A, B, C cho ra kết quả khácnhau Ở thuật toán A, thì chỉ dự đoán được đúng 50% quỹ đạo đầu của vật thể vì

vậy MOTA và IDFI ở các mức 50% và 67% Tuy nhiên theo thuật toán B thì lần

này dự đoán được 70% ŒT tuy nhiên định danh thay đổi tại 35% Đối với mộtthang do bị thiên lệch về quá trình gán dữ liệu thì IDF1 bị giảm còn 52% tuy nhiênvới thang đo MOTA thì lại tăng lên 69% vì thiên lệch về quá trình dự đoán Tương

tự ở thuật toán C thì quỹ dao được dự đoán hoàn toàn 100% tuy nhiên định danh lại

thay đôi 4 lần, chính vì vậy MOTA ở mức rat cao 97% tuy nhiên IDFI lại rất thấp

Có thé thay được rang, mặc dt MOTA và IDF1 thay đôi trong các trường hợp khácnhau nhưng thang đo HOTA luôn được giữ nguyên ở mức 50% do đã giải quyếtđược vấn đề thiên lệch cho quá trình nhận diện và quá trình gán dữ liệu Vì thế nênhiện nay nhiều nghiên cứu đang sử dụng thang đo này đề thống nhất về cách đánhgiá bởi lẽ làm sao chúng ta có thé so sánh được 2 thuật toán với nhau nếu nhưMOTA và IDF1 không đồng thời cao hoặc thấp

Về cơ bản thì thang đo HOTA tập trung trên cả kết quả nhận diện và kết quả

gán dữ liệu Mô tả về cách hoạt động của thang đo HOTA tại Hình 2-4

Trang 18

gt: —=—be+A WOTA HOTA IDF1 AssA

eS ay Ground-truth j t True Positive | I False Negative

Hình 2-4: Mô ta về cách hoạt động của thang đo HOTA

` - Cont

2.3 Các nghiên cứu hiện nay

Năm 2017, thuật toán SORT [1] ra đời, là phương pháp tiên phong cho hướng

nghiên cứu tracking-by-detection dựa trên phương pháp gan dir liệu IOU-based.

Phương pháp IOU-based dựa trên độ trùng lắp (intersect-of-union) dựa hộp giới hạn

10

Trang 19

từ mô hình nhận diện và cua track dé ghép với nhau Track là các hộp giới hạn có

định danh chứa các thông tin quỹ đạo và vị trí theo thời gian Tuy nhiên việc áp

dụng trực tiếp độ chồng lấp của hộp giới hạn và track gây ra nhiêu lỗi sai vì giữahai khung hình liên tiếp thì các vật thể sẽ di chuyền Chính vì vậy, thuật toán này

đưa ra giả định rang các vật thé trong khung hình sẽ di chuyển với một tốc độ

không thay đôi (constant velocity) và sử dụng bộ lọc Kalman [20] với các thông tin

di chuyén trước đó của track dé dự đoán ra vi trí hiện tại nhằm cho việc ghép chínhxác hon Tuy nhiên, giả định vận tốc không thay đổi là một giả định ít tính thực tếchính vì vậy trong các trường hợp các vật thể di chuyền tốc độ đột ngột hay tốc độkhung hình trên giây thấp hoặc bị che khuất thì phương pháp IOU-based sẽ gây ranhiều lỗi sai Thuật toán DeepSort [2] ra đời sau này nhằm giải quyết các vấn đềcủa thuật toán SORT, thay vi sử dụng độ chồng lap của các vật thé, DeepSort sửdụng một mạng trích xuất đặc trưng nhỏ dé thu được các đặc trưng vì hình thái của

các vat thé, rồi sử dụng độ đo tương đồng cosine dé tìm ra các vật thé nào là cùng

định danh với nhau Cách làm này loại bỏ được giả định vận tốc không đổi và cóthể phát hiện vật thê bị che khuất và xuất hiện lại sau đó nhiều khung hình, cách

lam nay được gọi là phương pháp apperance-based Tuy vậy, phương pháp này có

nhược điểm đó chính là trong các trường hợp mật độ của các vật thể cao, độ chồnglấp nhiều thì mô hình trích xuất đặc trưng sẽ không hoạt động tốt và gây ra nhiều

lỗi sai Đây chính là hai phương pháp chính cho giai đoạn gan dữ liệu theo hướng tracking-by-detection.

Các thuật toán sau này [3], [4], [7] [8], [10], [12]-{14], đều được cải tiến trênhai phương pháp trên, với một số điều chỉnh như kết hợp IOU-based và apperance-

based Tuy nhiên, nôi bật nhất đó chính là hướng kết hợp mô hình nhận diện và mô

hình trích xuất đặc trưng reidentification [7], [12]-{14] vào cùng một mô hình để cóthê hoạt động đồng thời nhăm cải tiến tốc độ của mô hình Về cơ bản, phương pháp

này bên cạnh đưa ra các hộp giới hạn của các vật thé còn đồng thời cho ra được

vec-tơ đặc trưng của từng vật thể Hình 2-5 là mô tả về kiến trúc kết hợp này, được

gọi là joint-detection and embedding.

11

Trang 20

JDE Detection Embedding

results

Hình 2-5: Kiến trúc joint-detection and embedding

Đối với kiến trúc join-detection and embedding thì nhược điểm đó chính là tính

đối kháng giữa hai nhánh detection và embedding Cụ thé đó chính là đặc trưng củanhánh detection dé phát hiện vật thé bao gồm các đặc trưng như hình dáng, kích

thước hay còn gọi là đặc trưng tông quát Tuy nhiên đặc trưng bài toán

reidentification bao gồm về màu sắc, khuôn mặt, dáng đi, quần áo hay còn gọi là

đặc trưng chỉ tiết của các vật thể Chính vì vậy, việc áp dụng hai nhánh này vào

cùng một kiến trúc không phải là điều đơn giản [13], [14] đã xây dựng kiến trúcnày bằng cách tách các thông tin từ hai nhánh này ra sao cho ít tính đối kháng nhất

có thê [7] là một phiên bản cải tiến của [13] bằng cách sử dụng các thông tin của

các khung hình trước đó dé loại bỏ đi những kết quả sai sinh ra do mô hình Hướng

kiến trúc hiệu quả tuy nhiên mạng nhận diện vật thể lại không thể có độ chính xác

cao so với phương pháp hai mạng riêng biệt.

2.4 Detection trong phương pháp tracking-by-detection

MOT đơn thuật là một bài toán nhận diện vật thé với định danh của vật thé với

độ chính xác hầu như phụ thuộc vào độ chính xác của mô hình nhận diện Nhiềuphương pháp SOTA hiện nay sử dụng các mô hình tốt nhất trong bài toán object

detection dé tạo ra các hộp giới hạn trong khung ảnh Ví dụ như [3], [4], [8] sử

dụng mô hình YOLOX [18] hay CenterTrack [9] sử dụng mô hình CenterNet [19].

Hon thé nữa các phương pháp cũ như [1], [2] khi sử dụng các phương pháp này gia

12

Trang 21

tăng độ chính xác ra đáng kể và có thể cạnh tranh với các phương pháp mới nhất

hiện nay.

2.5 Tracking trong phương pháp tracking-by-detection

2.5.1 Mô hình di chuyển — Motion model

Bộ lọc Kalman [20] là một trong những mô hình tuyến tính cực kì phổ biến để

dự đoán vi trí trong tương lai của các track bởi sự đơn giản và tính hiện quả của

nó Mặc dù giả định vận tốc không đổi không phù hợp với thực tế nhưng vẫn

được sử dụng rất rộng rãi từ năm 2017 trong Sort [1] cho tới 2022 bởi

ByteTrack [3] Nhiều nghiên cứu khác đã sử dụng các biến thé khác từ bộ lọc

Kalman, như [4], thay vì ước lượng tỉ lệ giữa chiều cao và tỉ lệ khung hình(aspect ratio) thì thay đổi bang tỉ lệ giữa chiều cao và độ rộng của hộp giới hạn.Các trường hợp khó, các vật thé có hình đáng phức tap hay di chuyển một cáchbất thường trong thực tế thường sẽ gây ra lỗi sai cho bộ lọc Kalman Một số

phương pháp khác đã không sử dụng phương pháp này mà thay vào đó sử dụng

một mô hình học sâu dé nhận diện sử thay đồi dựa trên các thông tin trước đó

[9], [11] Tuy nhiên các phương pháp này vẫn chưa thực sự gọi là tổng quát và

chỉ thực sự hiệu quả trên một sô kiên trúc nhât định.

2.5.2 Gan dữ liệu — data association

Quá trình data association được xem như một bài toán phân hoạch tuyến

tính, bắt đầu từ Sort [1] gán các hộp giới hạn và track dựa trên độ đo IOU thì

trong DeepSort [2] gán với nhau dựa trên độ tương đồng cosine ByteTrack

[3] thì sử dụng các hộp giới hạn có độ tin cậy cao dé ghép va khoi tao, trong

khi đó các hộp có độ tin cậy thấp chi dùng dé ghép Thêm vào đó, một số

phương pháp thay đôi về khoảng cách ghép nối, như thay vì sử dụng độ đo

IOU thì sử dụng khoảng cách của các hộp, hay như cách tăng bộ đệm — nói

cách khác là gia tăng kích thước của hộp giới hạn trong CBIOU [10] để có

thé ghép dé dàng hơn đối với các vật thé có hướng đi phức tạp va thay đổi

kích thước liên tục

13

Trang 22

2.6 Tracking với bù đắp chuyến động của camera

Phương pháp tracking-by-detection dựa trên IOU và bộ lọc Kalman phụ

thuộc rất nhiều vào giả định di chuyên tuyến tính (linear motion) Chính vì vậy,camera chuyền động lớn có thê làm dịch chuyên vị trí của các hộp giới hạn xa so

với vị trí thực tém gây ra lỗi trong quá trình tính toán IOU giữa hộp giới hạn và

các track BoT-Sort [4] sử dụng kĩ thuật tính toán di chuyền toàn cục (global

motion compensation) dé tính toán ra ma trận chuyên đổi rồi sử dụng nó dé bù

trừ cho chuyên động của camera Tuy nhiên, kỹ thuật này đòi hỏi một lượng tàinguyên tính toán khá nhiều và thời gian chạy tương đối chậm nên làm giảm đi

khả năng áp dụng trên những hệ thống có phần cứng hạn chế Bên cạnh đó trongtrường hợp đông đúc, kỹ thuật ước lượng chuyên động của camera này có thê

không thực hiện được bởi thiếu đi những điểm đặc trưng của background dẫn tớiviệc thuật toán sẽ hoạt động không 6n định

2.7 Thuật toán SORT

Năm 2017, Alex Bewley đã công bó bài báo mang tên “Simple online and

realtime tracking” [1] Bài báo này ra đời với mục tiêu đưa ra một thuật toán

theo dau mới có thé chạy được với tốc độ thời gian thực dé thay thé cho các

phương pháp trước đó Thuật toán nãy là thuật toán theo hướng nghiên cứu

tracking-by-detection với mô hình nhận diện vật thé là Faster Region CNN [26](Faster RCNN), đây là một trong những mô hình nhận diện tốt nhất lúc bay giờ

và cho phép khả năng chạy thời gian thực Bên cạnh đó thuật toán SORT đề xuấtmột phương phát ghép dit liệu mới cho quá trình theo dấu

Về cơ bản, thuật toán này sử dụng độ chồng lấn của hộp giới hạn vừa được

phát hiện, và các hộp từ track cũ dé xác định xem các hộp giới hạn mới này là

của track nào Sau khi tính toán độ chồng lắn (intersect-of-union) giữa các hộp

xong, SORT mô hình hóa việc gán dữ liệu này thành bài toán phân hoạch tuyếntính và sử dụng thuật toán Hungarian [27] dé tối ưu Tuy nhiên, nếu trực tiếp sử

14

Trang 23

dụng hộp giới hạn vừa được phát hiện va track cũ thì độ chồng lan sẽ thấp và dễ

bị nhằm lẫn bởi các hộp năm gần với nhau nguyên nhân do các vật thé trong haikhung ảnh liên tiếp sẽ di chuyền liên tục Chính vì vậy, SORT sử dụng một bộ

dự đoán tuyến tính và họ lựa chọn bộ lọc Kalman [20] dé có thé dự đoán quỹ

đạo của các track qua giữa các khung hình khác nhau Chính nhờ việc này mà

thuật toán SORT đã trở thành phương pháp SOTA lúc bay giờ với tốc độ xử lýcực kì nhanh Tuy vậy thuật toán này có một nhược điểm đó chính là đưa ra giảđịnh rang các hộp giới hạn này (hay các vật thé trong khung ảnh) sẽ di chuyển

với một tốc độ không thay đổi (constant velocity), đây là một giả định khá chặtbởi trong thực tế thường không xảy ra trường hợp này Bên cạnh đó, thuật toánnày có một nhược điểm đáng ké nữa đó chính là nếu như các hộp bị che lấp

trong khoảng thời gian thì thuật toán này sẽ không thê hoạt động chính xác, gây

ra nhiễu lỗi thay đôi định danh (ID switch)

2.8 Thuật toán DeepSort

Thuật toán Deepsort [2] là phiên bản nhằm giải quyết các van dé của thuật

toán SORT bao gồm giải định vận tốc không đổi và van đề che khuất Đề giảmquyết các van dé này, DeepSort đã thay đổi thang đo tính độ khác biệt giữa hộpgiới hạn và track, bằng cách sử dụng độ tương đồng cosine thay cho độ chồng

lập (IOU) Độ tương đồng cosine này được tính bằng cách đưa hộp giới hạn củacác hộp giới hạn qua một mạng re-identification nhỏ dé trích xuất các đặc trưng

về hình thái Các đặc trưng hình thái này đơn giản chỉ là một véc-tơ và họ sử

dụng độ tương đồng cosine trên hai véc-tơ nay dé tính toán độ tương đồng về

hình thái giữa hộp giới hạn và track, Hình 2-6 mô tả về cách hoạt động của việc

sử dụng mạng re-identification Bằng cách này DeepSort đã giải quyết được

những hạn chế của thuật toán SORT với chỉ gia tăng một ít tính toán tại mạng

re-identification Tuy nhiên, thuật toán này có một han chế khác đó chính là hạn

chế từ bài toán re-identification Trong các trường hợp đông đúc, các hộp giới

hạn chồng lấp lên nhau (Hình 2-7, Hình 2-8) thì việc sử dụng mạng trích xuất

15

Trang 24

đặc trưng sẽ gây nhiều lỗi sai làm cho quá trình ghép dữ liệu lẫn lộn giữa các

Trang 25

2.9 Thuật toán JDE

Thuật toán JDE [12] được giới thiệu trong ECCV2020, với bài báo mang tên

“Towards Real-Time Multi-Object Tracking” Y tưởng bài báo này đó chính là

gia tăng tốc độ của các bài toán multi-objec tracking băng các sử dụng đồng thờimạng nhận diện vật thể và mạng trích xuất đặc trưng cùng một lúc Cụ thể là đốivới phương pháp DeepSort [2], đã sử dụng thêm một mạng nhỏ để trích xuất đặctrưng, điều này làm cho tốc độ tương đối bị giảm và sẽ giảm tương đối nhiều

nếu chúng ta muốn sử dụng một mạng trích xuất đặc trưng lớn hơn Chính vì lẽ

đó, thuật toán JDE đã đưa ra ý tưởng sử dụng các đặc trưng của mô hình nhận

diện vật thé cho mô hình re-identification Tác giả bài báo này đã đưa ra một môhình mới sử dụng đồng thời một bộ trích xuất đặc trưng với hai nhánh bao gồmnhận diện vật thê và re-identification Kiến trúc được đề xuất như trong Hình

Trang 26

Bằng việc sử dụng kiến trúc mới này, thuật toán JDE có thé chạy được các

mô hình hơn hơn nhưng vẫn duy trình được khả năng tính toán thời gian thực.

Tuy nhiên mô hình này có một nhược điểm đó chính là tính đối khác giữa hai

nhánh phát hiện vật thê và re-identification Trong các mô hình sau này, họ đặctên cho nhánh phát triển của thuật toán JDE là joint detection and embedding

model, và các thuật toán trong nhánh này tập trung giải quyết vấn đề tính đối

kháng giữa hai nhánh này.

2.10 Thuật toán CSTrack

Thuật toán CSTrack [13] giới thiệu 2022 với bài bao mang tên “Rethinking

the Competition between Detection and ReID in Multiojbect Tracking” Giống

như tên gọi, bài báo nay đã đưa ra một số nguyên nhân về tính đối kháng giữa

nhánh phát hiện vật thể và nhánh re-identification Trong đó, một trong sỐ

nguyên nhân chính đó chính là đặc trưng phục vụ cho hai bài toán này là hoàn

toàn khác nhau Đặc trưng giành cho bài toán phát hiện vật thể chủ yếu là các

đặc trưng tổng quát (như phát hiện người thì tập trung chủ yếu vào hình dáng,kích thước), trong khi đó đối với bài toán re-identification thì các đặc trưng tậptrung nhiều hơn về vật thê (như mặt mũi, màu sắc quần áo, hình dáng đặc trưng

của từng người) Chính vì lẽ đó, kết hợp hai nhánh này lại một cách đơn giản

như trong JDE sẽ không giải quyết được những vấn đề này

Trang 27

Trong CS Track, thuật toán dé xuất ra một khối detection head mới nhằm

mục đích tách biệt nhánh detection và nhánh re-identification Cụ thé kiến trúc

như trong Hình 2-10 Trong đó, họ đề xuất thêm một khối REN, với kiến trúc

như Hình 2-11.

CxHW'

transpose

X Matrix Multiplication Ð Element-wise Addition —> 1x1Conv+Reshape “=> Reshape

Hình 2-11: Khối REN trong mạng CSTrack

Về ý tưởng thì khối REN này sẽ có cơ chế trích xuất đặc trưng làm 2 loại,

bao gồm đặc trưng dựa trên công việc và đặc trưng chung Đặc trưng dựa trên

công việc (task dependence) với mục đích trích ra các đặc trưng phục vụ riêng

cho từng nhánh nhận diện hoặc nhánh re-identification Đặc trưng chung là trích

xuất ra đặc trưng sử dụng chung giữa hai nhánh này hoặc trao đổi những thôngtin giữa hai nhánh này Việc thiết kế kiến trúc như trên có thê cho chúng ta khảnăng trích xuất đặc trưng riêng cho từng tác vụ, cũng như là khả năng chia sẻ

đặc trưng của từng tác vụ.

Mặc dù CSTrack đã có thê giải quyết được phần nào các vấn đề của JDE, tuy

nhiên còn một số nhược điềm đó chính điểm là trong một số trường hợp hình

ảnh bị mờ thì mô hình sẽ nhận nhằm background thành vật thể, làm giảm độ

19

Trang 28

chính xác Hay như van dé vê việc che khuât thì nêu che khuat quá nhiêu thì mô

hình cũng sẽ chạy không tốt do bản chất của hướng apperance-based

2.11 Thuật toán OMC

Thuật toán OMC được giới thiệu trong AAAI-2021 trong bài bao “One More

Check: Making “Fake Background” Be Tracked Again” Bài báo này là bản cải

tiến của CSTrack với ý tưởng mới là đưa các thông tin thời gian vào mô hình détăng độ chính xác của mô hình Có thé thấy rằng các background giả như trong

Hình 2-12 được đưa ra từ CSTrack với background là các hộp mau đỏ Mặc dù

đây chính là người, tuy nhiên mô hình lại nhận diện thành background bởi do

vật thé bị mờ hay các vật thé chồng lap lên nhau Ý tưởng OMC là sử dụng các

Hình 2-12: “Fake background” từ mô hình CS Track

20

Trang 29

Frame x

Cụ thể, OMC đã đề xuất ra thêm một mạng mới mang tên ReCheck (kiểm tra

lai) lại dé kết hợp các thông tin trước đó và thông tin hiện tại nhăm dự đoán ra

kết quả chính xác nhất, Hình 2-13

r

JDE /CSTrack Re

Backbone

F © Union by IOU metric

Hình 2-13: Kiến trúc CSTrack kết hợp với mang Re-check

Kiến trúc Re-check sẽ tính toán cross-correlation giữa các đặc trưng của cácvật thé từ khung hình trước đó và đặc trưng của hình ảnh dùng cho task re-

identification Bằng cách tính cross-correlation như trên, chúng ta có thê trích

xuất được các lớp mặt nạ mới biểu diễn sự liên hệ giữa vật thể này với các vi tritrong khung hình, từ đó có thé trích xuất ra mặt nạ nhị phân 0-1 biểu diễn vị trí

đó có vật thé hay không (0 là không có vật thé, 1 là có vật thể) Cách làm này

được biên diễn như trong khối transductive detection module trong Hình 2-14

Sau khi ra được mặt nạ mới này, mô hình sẽ cho qua một mạng lọc lại

(refinement module) bằng cách nhân với đặc trưng vật thể lúc đầu Cuối cùng

chúng ta sẽ nhận được đặc trưng mới đã được lọc lại dựa trên các đặc trưng của

khung hình trước đó Từ các đặc trưng này, chúng ta có thé đưa ra được các vậtthé sao cho đúng nhất dựa trên khung hình hiện tại và thông tin các khung hình

trước do.

21

Trang 30

Transductive Detection Module

HxWxC(C=512) [x] Cross-correlation ® Element-wise Multiplication

Hình 2-14: Mang Re-check của OMC

2.12 Thuật toán BYTE

Thuật toán BYTE [3] được giới thiệu vào năm 2022 với mục dich là cải thiện

phương pháp tracking cho hướng nghiên cứu tracking-by-detection Day là một

trong những thuật toán tuy đơn giản nhưng có độ chính xác rất cao Về mặt ý

tưởng, các thuật toán trước đó thường ghép nối các hộp giới hạn trên một mức

ngưỡn tin cậy nhất định thường là 0.5 và nếu như hạ thấp ngưỡn tin cậy này thì

thuật toán sẽ có nhiều hộp giới hạn không đáng tin làm cho quá trình gán đữ liệu

có thêm nhiều lỗi Tuy nhiên thuật toán BYTE cho rang, các hộp giới hạn có độ

tin cậy thấp mặc dù phần lớn là các hộp sai tuy nhiên vẫn có một số thông tin

hữu ích cho việc tracking chính vì vậy họ cho thêm một bước gán dữ liệu riêng

cho các hộp giới hạn có độ tin cậy thấp Chính vì cách làm đơn giản này mà

thuật toán BYTE không những lấy được thông tin từ các hộp giới hạn có độ tin

cậy cao mà còn lọc được những thông tin hữu ích từ các hộp giới hạn có độ tin

cậy thấp Hình 2-15 minh họa về cách thuật toán BYTE sử dụng các hộp giới

hạn thấp.

22

Trang 31

(c) tracklets by associating every detection box

Hình 2-15: Ví dụ minh hoa về thuật toán BYTE

Về chỉ tiết, thuật toán BYTE tương tự như SORT nhưng thay vì làm cho mộtngưỡng tin cậy thì BYTE làm cho 2 ngưỡng tin cậy Về chỉ tiết thuật toán được

thé hiện như Hình 2-16.

23

Ngày đăng: 02/10/2024, 05:22

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w