Bàito ánt he o bám đ ơn đ ối t ượngt ro ng v i de o
Địnhnghĩabàitoán
V O T ) t r o n g v i d e o l à m ộ t n h i ệ m v ụ c ơ b ả n t r o n g l ĩ n h vực thị giác máy tính, cùng với phân loại, phát hiện, phân vùng đối tượng trongảnh, T h e o b á m đ ơ n đ ố i t ư ợ n g đ ư ợ c d ù n g đ ể x á c đ ịn h v ị t r í c h í n h x á c c ủ a đối tượng trong video và sinh ra khung giới hạn (bounding-box) bao quanh đốitượng, đây là bước cần thiết để giám sát thông minh, phân tích video dữ liệulớn.
I2, , I T ], trong đó khung hình đầu tiên (I 1) được chú thích vớikhung bao (bounding-box)b 1 Yêu cầu của bài toán theo bám đối tượng là ướctínhq u ỹ đ ạ o đ ố i t ư ợ n g m ụ c ti ê u t r o n g c á c k h u n g h ì n h [I2, ,I T ]b ằ n gc á c h t ạ o rakhungbaoquanhđốitượngb t c h omỗikhunghìnhtv iớp t>2.
Thuậttoán1.1:TheobámđơnđốitượngInp ut :Kh u n gh ì n hI 1, ,I T ,k h u n g b a o đ ối t ư ợn gb 1.
Trong thuật toán1.1,Tracklà một hàm (thuật toán/mô hình) tổng quátdùng để xác định khung bao đối tượng trong một khung hình bất kỳ dựa vàokhung hình đầu tiên và khung hình trước đó Mục tiêu của luận án là đề xuấtxâyd ự n g m ộ t s ố m ô h ì n h / t h u ậ tt o á nT r a c k n à yb ằ n g p h ư ơ n g p h á p h ọ c s â u m j=1 k dựatrênkiếntrúcmạngSiamese đểtheobám đốitượng.
Theo[ 5 0 ] , n h i ệ m v ụ t h e o b á m đ ố i t ư ợ n g t r ự c q u a n c ó t h ể đ ư ợ c x â y d ự n g nhưm ột b ài t o án h ọ c có n hi ệ m v ụch í n h l àtì m v ị t r í m ục ti ê u tố i ưu bằng c ác h cựctiể uhàm m ất m át:
L(w)=Σγ j r(f(x j ;w)−y j )+ Σλ k ∥.∥w k ∥.∥ 2 (1.1) trongđóy j ∈R H×W l ànhãncủađặctrưngx j trongquátrìnhhuấnluyện,r(f,y)làhàmtính toánphầndư.Tácđộngcủarđượccthiếtlậpbởiγ j vàchuẩnhóacủaw k đ ư ợ cthiếtlậ pbởiλ k
Ứngdụngvàtháchthức
Làm thế nào để máy tính có thể quan sát và phân tích thông tin trong videoluôn là mong muốn của con người Trong những năm gần đây, trí tuệ nhân tạo(AI) dần được ứng dụng trong nhiều lĩnh vực khác nhau, cùng với sự cải tiếnkhông ngừng của nghiên cứu máy học và học sâu[101],chẳng hạn như nhậndạnggiọngnói[96],nhậndạngkhuônmặt[87],tròchơithựctạiảo(VR)[21],xetự hành[111], Theo bám đối tượng, cung cấp đặc điểm quỹ đạo để phân tíchhành vi bằng cách dự đoán trạng thái của đối tượng trong video, là một trongnhững thành phần quan trọng trong thị giác máy tính (CV) Nó đã được ứngdụng rộng rãi trong xe tự hành[77],[122],bám bắt đối tượng[51],[57],[20],giámsát an ninh[40],[62], điều hướng phẫu thuật[97],hàng không vũ trụ[94],
Hình1 1 m i n h h ọ a m ộ t s ố k ị c h b ả n ứ n g d ụ n g p h ổ b i ế n đ ể t h e o b á m đ ố i tượngtrựcquan.Trong xetựhành,tính năng theobámđốitượngtrựcqu ancóthểc ả m n h ậ n đ ư ợ c s ự t h a y đ ổ i v à c h u y ể n đ ộ n g c ủ a c á c đ ố i t ư ợ n g x u n g q u a n h xe để cung cấp tham khảo nhất định cho máy tính trong xe Trong dự đoán tộiphạm, giám sát và theo bám sự tập hợp và phân tán đột ngột của người hoặc cácđốitượngkháctrongvideocóthểdựđoáncáctrườnghợpkhẩncấpbấtthườn gvàc ó t h ể x ả y r a , đ ồ n g t h ờ i g i ú p c ả n h s á ttì m r a t ộ i p h ạ m b ấ t h ợ p p h á p v à c ả i thiện môi trường xã hội Trong giao thông thông minh, theo bám đối tượng trựcquancóthểphánđoánxemcóviphạmhaykhôngbằngcáchgiámsáttheobá mcácp h ư ơ n g ti ệ n , c h ẳ n g h ạ n n h ư q u a y đ ầ u x e b ấ t h ợ p p h á p , c h ạ y q u á t ố c đ ộ ,
Trong điều hướng phẫu thuật, tỷ lệ thành công của phẫu thuật có thể đượccảit h i ệ n b ằ n g c á c h t h e o b á m v ị t r í v à t ư t h ế c ủ a d a o m ổ v à đ ầ u d ò T h e o bámđ ố i t ư ợ n g t r ự c q u a n c ũ n g c ó c á c ứ n g d ụ n g q u a n t r ọ n g t r o n g c á c l ĩ n h v ự c quân sự Trong dẫn đường tên lửa và trinh sát quân sự, các đối tượng thường dichuyểnvàcáccameratrêntênlửacũngrunglắc,theobámđốitượngtrựcqua ncót h ể đ ư ợ c s ử d ụ n g đ ể x á c đ ị n h v ị t r í c ủ a đ ố i t ư ợ n g v à đ i ề u c h ỉ n h t r ạ n g t h á i củatên l ửađ ể cảit hi ệ nđộ c hí nh xáccủa việ cdẫnđ ường.
(d)Điềuhướngphẫuthuật (e)Dẫn đường tênlửa (f)Trinhsátquânsự
Hình1 1 Một s ố ứngdụngcủa bài toánt heo bám đối tượng [ 1 0 9 ]
Trongthựctếảo,theobámđốitượngtrựcquankếthợpvớithuậttoánphânvùng đối tượng có thể tính toán vị trí và hình dạng của các đối tượng Ví dụ,trong ứng dụng thay đổi áo, hình dạng của vải có thể được tự động điều chỉnhđể phù hợp hơn với đường nét của cơ thể người Trong tương tác giữa ngườimáy,máytínhcóthểxácđịnhhướngdẫnconngườivàthựchiệncáchànhđộngtương ứngmàkhông cầnnhấn nút,bằngcáchtheobám và tínhtoán trạng thái củacácbộphậncơthểngười,chẳnghạnnhưtay,chân,đầu,
Nhiềuvấnđềtrongbàitoántheobámđốitượngvẫnđanglàtháchthứclớnđ ối với các nhà nghiên cứu Một số thách thức cơ bản được thống kê như trongbảng1 1 ( t h e o [ 9 8 ] ) , t r o n g đ ó c h i ti ế t c ủ a 1 1 t h á c h t h ứ c p h ổ b i ế n đ ư ợ c W u v à cộngsựtrong [11 2] môt ảnhưsau:
Thay đổi độ sáng-Illumination Variation (IV): đề cập đến tình huốngtrongđóđộsángcủavùngđốitượngthayđổiđángkểkhiphátvideo,nhưhình
1.2 Tìnhh u ố n g n à y c ó t h ể d ẫ n đ ế n s ự t h a y đ ổ i r õ r ệ t v ề m à u s ắ c v à c á c đ ặ c điểmm à u x á m c ủ a đ ố i t ư ợ n g D o đ ó , m ô h ì n h x u ấ t h i ệ n d ự a t r ê n đ ặ c t r ư n g màuhoặcmàuxámkhôngthể thểhiệntốtđốitượng vàdẫnđếntheo bámlỗi.
Thayđổi tỷ lệ-Scale Variation(SV):là tình huống trong đó tỷ lệ củakhung bao giới hạn trong khung hình ban đầu so với khung bao giới hạn trongkhung hình hiện tại vượt quá ngưỡng cụ thểts >1, thông thường,tsđược đặtlà 2,như hình1.3.Sự thay đổi tỷ lệ của đối tượng sẽ dẫn đến sự thay đổi sốlượng pixel, đây là một thách thức lớn để xây dựng mô hình ngoại hình Một sốphương pháp theo bám có thể tìm thấy trung tâm của đối tượng, nhưng khôngthể ước tính kích thước Các phương pháp này có thể cho điểm chính xác caonhưngtỷlệthànhcôngthấp.
Bị che lấp-Occlusion (OCC): là tình huống trong đối tượng bị che lấpmộtphầnhoặchoàntoàn,nhưhình1.4.Tháchthứcchelấpsẽlàmthayđổicácđặc trưng thống kê và cấu trúc của đối tượng, điều này mang lại những tháchthứcchocácphươngpháptheobám.Vìvậylàmthếnàođểpháthiệnlạivàtiếptục theo bám đối tượng khi xảy ra che lấp là một trong những vấn đề chính màcácphươngpháptheobámcầngiảiquyết.
Chuyểnđ ộ ng n h anh FastMotion FM
Xoayt r o n g m ặ t p h ẳ n g In-PlaneR o t a ti o n IPR Xoayn g o à i m ặ t p h ẳ n g Out-of-PlaneRotation OPR
Ngoàitầmnhìn Out-of-View OV
Nềnlộnx ộn BackgroundClutter BC Độphângiảithấp LowResolution LR
Thayđổitỷlệkhunghình AspectRatioChange ARC Chuyểnđộngcamera CameraM o ti o n CM Chel ấ p h o à n t o à n FullOcclusion FOC Chel ấ p m ộ t p h ầ n PartialOcclus ion POC Đốit ư ợ n g t ư ơ n g t ự SimilarO b j e c t SIB Thayđổiđiểmnhìn ViewpointChange VC Độtươngphảnthấp LowContrast LC
Thờilượngdài LongDuration LD Ánhs á n g m ờ DimLight DL
Thayđổinềnnhanh FastBackgroundChange FBC Thayđổichuyểnđộng MotionC h a n g e MOC Thayđ ổi màuđốitượng ObjectColorChange OCO Độph ức t ạpc ủa c ả nh SceneComplexity SCO Chuyểnđộng tuy ệtđối AbsoluteM o ti o n AM Chuyểnđộngcameranhan h
FastCameraMotion FCMTheob á m d à i h ạ n Long-TermTracking LT
Biếndạng-Deformation(DEF):tìnhhuốngtrongđóhìnhdạngcủađốitượng thay đổi đáng kể so với khung hình banđầu Thách thức này chủ yếunhằmvàocácđốitượngkhôngcứng,nhưhình1.5.Mặcdùthửtháchbiếndạngkhông làm thay đổi các đặc trưng thống kê của đối tượng, chẳng hạn như biểuđồ màu xám, nhưng nó làm thay đổi các đặc điểm cấu trúc mục tiêu Điều nàygây khó khăn cho việc xác định ranh giới của các đối tượng và hộp giới hạn cóthểkhôngbaophủđúngđốitượng.
Mờchuyểnđộng-MotionBlur(MB):đềcập đến tình trạng ảnh đốitượngbịmờdochuyểnđộngcủađốitượnghoặcdomáyảnhbịrung,nhưhình
1.6.Việc làm mờ ảnh đối tượng không những làm mất thông tin chi tiết của đốitượng mà còn làm thay đổi thông tin cấu trúc của đối tượng và làm cho ranhgiới của đối tượng bị mờ. Điều này làm cho thông tin ranh giới thay đổi Do đó,MB làm cho các trình theo bám gặp khó khăn trong việc định vị ranh giới củađốitượngvàxácđịnhkíchthướcđốitượngchínhxác.
Chuyểnđộng nhanh-Fast Motion (FM): đề cập đến tình trạng khoảngcáchcủađốitượnggiữahaikhunghìnhliềnkềvượtquámộtngưỡngnhấtđịnht m.Thư ờngtmđư ợccđ ặt là 20, n h ư h ìn h 1.7 M ặ c dù FM kh ông t ự là mt ha y đổi diện mạo của đối tượng nhưng điều này làm cho trình theo bám dễ mất đốitượngvàdẫnđế n lỗit heobám
Xoay trong mặt phẳng-In-Plane Rotation (IPR): đề cập đến chuyểnđộngquaycủađốitượngtrongmặtphẳng,nhưhình1.8.IPRcóthểđư ợccoilà chuyển động quay của toàn bộ pixel của đối tượng có tâm tại một vị trí nhấtđịnh.IPRkhôngtạothôngtinmớivàpixelmớicủacácđốitượng,nhưngyêucầutí nhbấtbiếnxoaycaohơncủamôhìnhxuấthiện.
Xoayngoàimặt phẳng-Out-of-Plane Rotation (OPR): đề cập đếntình trạng đối tượng xuất hiện ở ranh giới của khung hình và một phần của đốitượng nhảy ra khỏi khung hình, như hình1.9.Tương tự như bị che lấp, một sốthông tin của đối tượng bị mất dưới thử thách ngoài khung hình Vì đối tượngnằm ở ranh giới của khung nên khi đối tượng di chuyển ra khỏi khung, một sốthông tin cơ bản cũng bị mất, điều này làm tăng độ khó của một số trình theobámdựatrênngữcảnh.Tháchthứcnàycũngảnhhưởngđếnviệcướctínhkíchthước và tâm của đối tượng, cũng như trích xuất thông tin ngữ cảnh quanh đốitượng.
Ngoàikhunghình-Out-of-View (OV): đề cập đến việc xoay đối tượngra khỏi mặt phẳng, như hình1.10.OPR mang đến sự thay đổi về diện mạo đốitượng và đặt ra yêu cầu cao hơn về khả năng cập nhật của các phương pháptheobámvàkhảnăngthíchứngcủamôhìnhdiệnmạo.
Nền lộn xộn-Background Clutters (BC): đề cập đến tình huống có mộtsốđốitượngtươngtựxungquanhđốitượngđượctheobám.Cácđốitượngnàyvàcácđ ốitượngđượctheobámcómàusắcvàhìnhdạngtươngtựnhau,điều
T t t t t t này có thể làm sai thuật toán theo bám, như hình1.11.BCthách thức khả năngphânb i ệ t đ ố i x ử c ủ a m ô h ì n h h ì n h d ạ n g M ộ t s ố t r ì n h t h e o b á m c ó m ô h ì n h ngoạih ì n h p h â n b i ệ t đ ố i x ử y ế u c ó t h ể c ó x u h ư ớ n g t h e o b á m s a i đ ố i t ư ợ n g v à bỏq u a đ ố i t ư ợ n g t h ự c c ầ n t h e o b á m , đ ặ c b i ệ t l à k h i c á c đ ố i t ư ợ n g ở g ầ n n h a u hoặcthậm chí chồ ng lên nhau.
Hình1.11.Vídụnềnlộnxộn Độphângiảithấp-LowResolution(LR):đề cập đến trường hợp sốlượng pixel trong khung bao giới hạn đối tượng không vượt quá một ngưỡngnhất địnhtr Thông thường,trđược đặt là 400 pixel, như hình1.12 Việc thiếupixel của đối tượng khiến việc xây dựng mô hình ngoại hình trở nên khó khănvà việc mất thông tin chi tiết làm hạn chế khả năng phân biệt của mô hình xuấthiện.
Ngoàir a c ò n c á c t h á c h t h ứ c k h á c n h ư : x ử l ý t h ờ i g i a n t h ự c , t h a y đ ổ i m à u sắc,chuyể nđ ộngcủa cam e ra .
Cácchỉsốvàbộdữliệuđánhgiá
Cácchỉsốđánhgiámôhìnhtheobámđốitượng
+Điểmchínhxáctrungbình:Điểmchínhxáctrungbình(acc)được tínhtheocôngthức sau[80]: acc=1 Σ
Tạikhunghìnhthứt,IoU t làIoUgiữakhungbaodựđoánvớikhungbaothựctế (ground- truth).ν t biểu thị tồn tại của UAV thực tế trên khung hình NếuUAV xuất hiện trong khung hình hiện tại, thìδ(ν t >0)=1 Khi UAV khôngxuất hiện trong khung hình thì 1 -δ(ν t >0)=1, nếu mô hình dự đoán rỗng,p t (1−δ(ν t >0))=1,ngượclại,p t (1−δ(ν t >0))=0.Điểmchínhxácđượctính
Vùng hợp Vùng chồng chéo trungb ì n h t r ê n t ấ t c ả c á c k h u n g h ì n hT
|g∪p| trongđóg,p,∩,∪v à|.|l nần lượtlàhộpbao quanh đốitượng(bounding- box ground-truth),hộpbaoquanhđượcướclượngbởitrìnhtheobám,toántửgiao nhau,t o á n t ử l i ê n h ợ p v à s ố l ư ợ n g p i x e l t r o n g v ù n g k ế t q u ả , h ì n h 1 1
3 Đ i ể m chồng chéo cho biết thành côngcủatrình theo bám hình ảnht r o n g m ộ t k h u n g hìnhb ằ n g c á c h s o s á n h v ớ i m ộ t n g ư ỡ n g c h o t r ư ớ c Đ i ể m c h í n h x á c đ ư ợ c tí n h bằngđi ể m s ố c hồ ng ché o t r un gb ì n h t ro ng qu át rì nh t heo b á m
+Điểm độ bền (Robustness-R)/thất bại (failure): Điểm độ bền hoặcthất bại được xác định là số lần khởi động lại bắt buộc khi trình theo bám mất hoặc trôi dạt mục tiêu trong quá trình theo bám Thất bại được xác định khiđiểmchồngchéogiảmvềkhông.
+Điểmchồngchéotrungbìnhdựkiến(EAO):Điểmsốnàylàsựkếthợpcủađi ểmsốtínhchínhxácvàđộbền.VớichuỗivideogồmNk h u n ghình, điểmEAOlàϕˆ N =⟨ 1 N t=1 ϕ t ⟩,trongđóϕ t đượcxácđịnhlàgiátrịtrungbình chồngc h é o m ỗ i k h u n g h ì n h c h o đ ế n k h i k ế tt h ú c c h u ỗ i k h u n g h ì n h
+Biểuđồ ch ín h xác( Preci s io n pl ot ):Biểuđồchínhxácdựatrênlỗivịtrí trung tâm, được định nghĩa là khoảng cách Euclide trung bình giữa các trungtâm dự đoán của đối tượng và trung tâm của khung bao thực tế (ground-truth)[113],hình1.14.Côngthứctínhcụthểlànhưsau: δ t =∥.∥x g −X p ∥.∥ (1.3) trongđóx g l àvịtrítrungtâmcủakhungbaothựctrongkhunghìnhthứt,x p là vị trí trung tâm của khung bao dự đoán trong khung thứt Tuy nhiên lỗi nàykhông tính chính xác hiệu suất theo bám Do đó, độ chính xác của khoảng cáchđượcsửdụng,làphầntrămkhunghìnhtrongđóđốitượngmụctiêunằmtrongsais ố v ị t r í t r u n g t â m c ủ a T đ iể m ả n h ( p i x e l ) C á c t r ì n h t h e o b á m đ ư ợ c x ế p hạn gb ằ n g ch ỉ s ốn à y vớ in g ưỡ n gT =2 0p ix el B i ểu đồ đ ộc h í n h xá cđ ư ợ c t ạ o Σ hộp thực tế hộp dự đoán bằngc á c h v ẽ b i ể u đ ồ đ ộ c h í n h x á c c ủ a k h o ả n g c á c h t r ê n m ộ t l o ạ t c á c n g ư ỡ n g
+Biểuđồthànhcông (Success plot): Chỉ số chính xác chỉ đo đươchiệusuấtvịtríhóacủatrình theobám,khôngchínhxácđể đothayđổit ỷlệcủa mục tiêu Thay vì lỗi vị trí trung tâm, IoU được sử dụng để đo lỗi dự đoán.Với khung bao giới hạn ước tínhpvà khung bao thực tế (ground-truth)g, IoUđượcđ ị n h n g h ĩ a l à | p∩g|.D o đ ó , t ỷ l ệ t h à n h c ô n g l à t ỷ l ệ p h ầ n t r ă m n ế u c á c
|p∪g| khungkhìnhcóIoUlớnhơnT.Biểuđồthànhcôngđượctạothànhbằngcách thayđ ổ i n g ư ỡ n g c h ồ n g c h é o t ừ 0 đ ế n 1 T r ì n h t h e o b á m đ ư ợ c x ế p h ạ n g b ằ n g cáchs ử d ụ n g k h u v ự c d ư ớ i đ ư ờ n g c o n g ( A U C ) c ủa b i ể u đ ồ t h à n h c ô n g
+Điểmchồng chéo trung bình (Average Overlap-AO): Chỉ số nàyước tính mức trung bình của các chồng chéo giữa khung giới hạn thực và ướctính,nhưbiểuđồthànhcông[63].Đượctínhnhưsau:
(1.4) trong đóϕ t là điểm chồng chéo của khung hình thứt, N là số khung hình trongchuỗivideo.
+ Tỷlệ thành công(SR 0,50vàSR 0,75): Các chỉ số này biểu thị tỷ lệkhunghìnhcóđiểmchồngxácchồngchéovượtquángưỡng0,50và0.75.
+Tốcđộ khung hình(FPS):Tốc độ khung hình là một tiêu chí đánhgiáquantrọngđểđotốcđộtheobámcủamộtthuậttoán.Nóbiểuthịsốlượngkhun ghìnhmàtrìnhtheobámcóthểtheobámmụctiêutrong1giâyvàđơn nền mây nền tòa nhà nền núi nền biển mục tiêu lớn mục tiêu vừa mục tiêu nhỏ mục tiêu rất nhỏ vị là khung hình trên giây Tốc độ khung hình là thước đo xem thuật toán theobám có thể theo bám thời gian thực hay không Nói chung, nếu tốc độ khunghình của thuật toán theo bám có thể vượt quá 30FPS, thì nó được coi là có thểtheo bám mục tiêu theo thời gian thực Tốc độ khung hình có thể được tínhbằng bộ hẹn giờ trong khi lập trình hoặc tốc độ khung hình trung bình có thểđượctínhbằngcáchchiatổngthờigiantheobámchuỗivideochotổngsốkhunghình Tốc độ khung hình sẽ bị ảnh hưởng bởi thuật toán theo bám và thiết bịphần cứng, vì vậy khi sử dụng tốc độ khung hình, cần giới thiệu thiết bị phầncứngvàcấuhìnhcủathuậttoánđangchạy.
Cácb ộ d ữ l i ệ u đ á n h g i á m ô h ì n h t h e o b á m đ ố i t ư ợ n g
Bộ dữ liệu đánh giá theo bám đối tượng trực quan đã được đưa ra để cungcấpcácđánhgiácôngbằngvàchuẩnvềcácthuậttoántheobámđơnđốitượng.Những bộ dữ liệu này được phân loại dựa trên ứng dụng theo bám đối tượngchung và theo bám từ trên không.
Các tập dữ liệu này chứa các chuỗi, khunghình,thuộctính vàlớp(hoặccụm)khácnhau.Cácthuộctính nhưbảng1. 1.
Anti-UAV [80]:được đề xuất tại hội thảo và thử thách chống UAV lầnthứ nhất năm 2020 được tổ chức tại Seattle, WA, Mỹ (The1 st CVPR2020Anti- UAVWorkshop&Challenge).BộdữliệuchốngUAVnàygồm100videohồng ngoại chất lượng cao, kích thước của mỗi khung hình là512×640×3. ĐượcgánnhãnkhungbaoUAVtheođịnhdạng[x,y,w,h]đốivớitừngkhunghìnhtrongv ideonếuUAVxuấthiệntrongkhunghìnhđó,hình1.15.
Phân bố thuộc tính nhau,chuy ển đ ộ ngm ờ,chuy ể nđ ộ ngnha nh,l ẫ nv ới nền, nhưhì n h 1 1 6
OTB100 [113](hay OTB2015, hình1.17):Bao gồm 100 video của 22loại đối tượng (xe, người, khuôn mặt, ) với 11 thuộc tính thách thức (chuyểnđộng nhanh, che lấp, biến dạng, ), như hình1.18.Độ phân giải trung bình củaOTB100 là 356×530, và độ dài khung hình nằm trong khoảng 71 đến 3872.Đánh giá hiệu năng của trình theo bám trên bộ dữ liệu này dựa trên hai chỉ số:điểmchínhxácvàđiểmthànhcông.
UAV123 [7 5] Gồ m1 23 v i d e on g ắ n HD t h ự c t ế v àt ổ n g h ợ p đ ư ợ c ch ụ p bởi UAV chuyên nghiệp, gồm 9 loại đối tượng (ô-tô con, người, uav, chim, ) (hình1.19),vớisốkhunghìnhtừ109đến3085.Độphângiảitrungbìnhlà1231 ×6 9 9v à đ ư ợ c d á n n h ã n b ằ n g 1 2 t h u ộ c tí n h t h á c h t h ứ c ( h ì n h 1 2 0 ) Đ á n h g i á trìnht h e o b á m t r ê n b ộ d ữ l i ệ u n à y d ự a t r ê n h a i c h ỉ s ố l à đ i ể m c h í n h x á c v à điểmthànhc ông.
VO T20 18 [73].VOT2018 (hình1.21)bao gồm 60 chuỗi video, 24 loại đốitượng(ôtô,người,máybaykhôngngườilái, ).Độphângiảitrungbìnhlà758 ×465,vớisốkhunghìnhtốithiểu41vàtốiđalà1500.VOT2018đượcgánnhãnbởi các hình chữ nhật có thể xoay bao quanh đối tượng và các thuộc tính tháchthức (thay đổi kích thước, che lấp, thay đổi độ sáng, ),hình1.22.Chỉ số đánhgiá trên bộ dữ liệu này baogồm: Điểm chính xác(Accuracy), điểm mạnh mẽ(Robustness), và điểm chồng chéo trung bình dự kiến (EAO) VOT có các phiênbảncậpnhậtnhưVOT2019,VOT2020,VOT2021.
% Khung hình theo thuộc tính
GOT-10K [63].Tập dữ liệu lớn, bao gồm hơn 10 nghìn video được phânloại thành
563 lớp đối tượng chuyển động và 87 lớp chuyển động bao quát nhiềumẫu thử thách trong các tình huống thực tế,hình1.23.GOT-10K được chiathành3phầnhuấnluyện,đánhgiá,vàthửnghiệm.Phầnhuấnluyệnchứa9.340videovớ i480loạiđốitượng,trongkhiphầnthửnghiệmbaogồm420videovới83 loại đối tượng và mỗi video có độ dài trung bình là 127 khung hình.
Trongphầnthửnghiệm,độphângiảitrungbìnhcủavideolà929×1638,vớisốkhunghình tối thiểu là 51 và tối đa là 920 ở tốc độ 10 khung hình/giây Đánh giá trìnhtheobámtrênbộdữliệunàydựatrênhaichỉsốlàđiểmchồngchéotrungbình(AO)vàt ỷlệthànhcông(SR)trênngưỡngxácđịnh(0,5hay0,75).
LaS OT [36].Bao gồm 1120 video huấn luyện (2,8 triệu khung hình) và280 video đánh giá (865 nghìn khung hình), hình1.24.Tất cả các chuỗi videođều được chú thích với khung bao đối tượng trong mỗi khung hình Các danhmục đối tượng được chọn từ ImageNet LaSOT chứa 70 loại đối tượng và mỗiloại đối gồm 20 video, các chuỗi video được phân loại theo 14 thuộc tính tháchthứcnhưhình1.25.Độphângiảitrungbìnhcủamộtchuỗilà632×1089.Ngoàira, tập dữ liệu chứa các chuỗi rất dài, nằm trong khoảng 1000 và 11.397 khunghình Đánh giá trình theo bám trên bộ dữ liệu này dựa trên hai chỉ số là điểmchínhxácvàđiểmthànhcông.
Cáckỹthuậthọcsâutiêntiến
Tốiưuvàhọcsâu
Cácg i ả i t h u ậ t t ố i ư u đ ó n g v a i t r ò q u a n t r ọ n g t r o n g h ọ c s â u M ộ t m ặ t , v i ệ c huấn luyện một mô hình học sâu phức tạp có thể mất hàng giờ, hàng ngày, thậmchíl à h à n g t u ầ n C h ấ t l ư ợ n g c ủ a t h u ậ t t o á n t ố i ư u ả n h h ư ở n g t r ự c ti ế p đ ế n đ ộ hiệuq u ả c ủ a q u á t r ì n h h u ấ n l u y ệ n c ủ a m ô h ì n h M ặ t k h á c , v i ệ c h i ể u r õ n g u y ê n lýc ủ a c á c t h u ậ tt o á n t ố i ư u k h á c n h a u c ù n g v a i t r ò c ủ a c á c t h a m s ố đ i k è m s ẽ giúpđiềuchỉnhcácsiêuthamsốmộtcáchcóchủđíchnhằmcảithiệ nhiệusuất củacác m ô hì nhhọ c s âu. Đối với một bài toán học sâu, đầu tiên chúng ta thường định nghĩa hàmmất mát, sau đó sử dụng một thuật toán tối ưu nhằm cực tiểu hóa hàm mấtmát đó Hàm mất mát trong học sâu thường được xem là hàm mục tiêu của bàitoán tối ưu Thông thường, đa số các thuật toán tối ưu thường giải quyết bàitoán cực tiểu hóa Tuy nhiên, nếu ta cần cực đại hóa, có một cách khá đơn giảnlà đổi dấu hàm mục tiêu Trong luận án này, hai thuật toán Hạ gradient ngẫunhiên (Stochastic Gradient Descent - SGD)[9]vàAdam[88]được sử dụng đểhuấnluyệncácmôhìnhđềxuất.
Pháth i ệ n đ ố i t ư ợ n g
Trongt á c v ụ p h â n l o ạ i ả n h , g i ả đ ị n h c h ỉ c ó d u y n h ấ t m ộ t đ ố i t ư ợ n g t r o n g ảnhv à c h ỉ t ậ p t r u n g x á c đ ị n h n ó t h u ộ c v ề n h ó m n à o T u y n h i ê n , ở n h i ề u tì n h huốngc ù n g l ú c s ẽ c ó n h i ề u đ ố i t ư ợ n g t r o n g ả n h c ầ n q u a n t â m L ú c đ ó k h ô n g chỉ muốn phân loại chúng mà còn muốn xác định vị trí cụ thể của chúng ở trongảnh.T r o n g l ĩ n h v ự c t h ị g i á c m á y tí n h , n h ữ n g t á c v ụ n h ư t h ế đ ư ợ c g ọ i l à p h á t hiệnđối tượng(ho ặc nhậndạngđố it ượng).
Phát hiện đối tượng được sử dụng rộng rãi trong nhiều lĩnh vực Chẳng hạn,trong công nghệ xe tự hành, cần lên lộ trình bằng cách xác định các vị trí củaphương tiện di chuyển, người đi đường, đường xá và các vật cản trong các ảnhđược thu về từ video Robot cần thực hiện kiểu tác vụ này để phát hiện các đốitượngm à c h ú n g q u a n t â m H a y c á c h ệ t h ố n g a n n i n h c ầ n p h á t h i ệ n c á c m ụ c tiêub ấ t t h ư ờ n g , v í d ụ n h ư c á c đ ố i t ư ợ n g x â m n h ậ p b ấ t h ợ p p h á p h o ặ c b o m mìn. Để phát hiện vật thể, thường sử dụng khung chứa để mô tả vị trí của mụctiêu Khung chứa là một khung hình chữ nhật có thể được xác định bởi hai tọađộ: tọa độx,ygóc trên bên trái và t a đọa độ ộx,ygóc dưới bên phải của khunghình chữ nhật Gốc tọa độ của ảnh trên là góc trên bên trái của ảnh, chiều sangphảivàxuốngdướilầnlượtlàchiềudươngcủatrụcxvàtrụcy.
Cácg i ả i t h u ậ t p h á t h i ệ n đ ố i t ư ợ n g t h ư ờ n g l ấ y m ẫ u ở r ấ t n h i ề u v ù n g c ủ a ảnhđ ầ u v à o , r ồ i x á c đ ị n h x e m c á c v ù n g đ ó c ó c h ứ a đ ố i t ư ợ n g c ầ n q u a n t â m hayk h ô n g , v à đ i ề u c h ỉ n h b i ê n c ủ a v ù n g l ấ y m ẫ u n à y đ ể d ự đ o á n k h u n g c h ứ a nhãn gốc của đối tượng một cách chính xác hơn Các mô hình khác nhau có thểdùngcácphương pháplấymẫuvùngảnh khácnhau.Phương pháptrongđó tạoran h i ề u k h u n g c h ứ a v ớ i k í c h t h ư ớ c v à t ỷ l ệ c ạ n h k h á c n h a u v ớ i t â m t r ê n t ừ n g điểmản h C á c k hu ng c h ứ ađ ó đ ượ cg ọ i l à cá c k h u ng n e o ,n h ư hì n h 1 2 6
Giả sử ảnh đầu vào có chiều caohvà chiều rộngw, ta thiết lập một tậpkích thước{s1, , s n }, s i ∈(0,1]và một tập tỷ lệ khung{r1, , r m }, r i >0. Nếudùng tổ hợp tất cả các kích thước và tỷ lệ khung với mỗi điểm ảnh làm mộttâm,ảnhđầuvàosẽcótổngcộngwhnmkhungneo.Mặcdùcáckhungchứađốitượngcó thểsẽnằmtrongsốđó,nhưngđộphứctạptínhtoánnàythườngcao.
Trong những năm gần đây, các phương pháp phát hiện đối tượng không cókhungneo đ ượcđ ề x uấ t gi úpđ ơngi ản h ó a quát rì nhp hát h i ệ n đ ối t ượng.
Hình 1.27 Phát hiện đối tượng không dùng khung neo trong
FCOSYOLOv1[55]làmộttrongnhữngcôngcụpháthiệnđốitượngthờigianthực một giai đoạn không có khung neo đầu tiên Các mô hình mới hơn như FCOS[124],CornerNet[35]và
CenterNet[59],RepPoints[119],VariFocalNet[34]cungcấpđộchínhxáctốthơnnhi ều.
Mô hìnhFCOS, VariFocalNet dự đoán trực tiếp một vectơ 4 chiều (l, t, r, b)mã hóa vị trí của khung chứa tại mỗi điểm ảnh của đối tượng, hình1.27.Ở đây(l,t,r,b)l à k h o ả n g c á c h t ừ v ị t r í đ ế n k h u n g c ạ n h c ủ a k h u n g g i ớ i h ạ n V ớ i ả n h đầu vào có chiều caohvà chiều rộngw, số khung chứa trong trường hợp này làwh,íthơnsovớipháthiệndùngkhungneonml n.ần
Mạngc h u y ể n đ ổ i ( t r a n s f o r m e r )
Mạng chuyển đổi cơ bản[10]là một mô hình tuần tự (sequence-to- sequence),baog ồ m m ộ t b ộ m ã h ó a ( e n c o d e r ) v à m ộ t b ộ g i ả i m ã ( d e c o d e r) M ỗ i k h ố i m ã
(a) Tự tập trung softmax (b) Tự tập trung tuyến tính hóabaogồmmộtmô-đuntựtậptrungđađầuvàmộtmạngtruyềnthẳng(FFN)
Vớix∈R T×F biểu t h ị m ộ t c h u ỗ i g ồ mTv éc- tơđ ặ c t r ư n g c ó c h i ề u l àF,xđ cược chi uếu bởi ba ma b iởi ba ma ba ma tr nận W Q ∈R F×D ,W K ∈R F×D vàW V ∈R F×M để đượccác thể hiện tương ứngQ,KvàV.
Tự tập trung củaxlàSA(x) =V ′ , được tínhbởi[10]:
Các cơ chế tập trung đã được đưa vào nhiều tác vụ trực quan để giải quyếtđiểmyếucủacáctíchchậptiêu ch uẩn[37, 45,56, 90].Tự tậptrung[10 ,47] nổi lên như một thành phần tiêu chuẩn để nắm bắt các tương tác tầm xa, saukhi nó thành công trong các nhiệm vụ mô hình hóa trình tự và mô hình tổngquát Cordonnier và cộng sự.[47]đã chứng minh rằng một lớp tự tập trung đađầu (multi-head) với đủ số lượng đầu ít nhất cũng thể hiện như bất kỳ lớp tíchchập nào Trong một số nhiệm vụ thị giác, chẳng hạn như phát hiện đối tượngvà phân loại hình ảnh, các mô hình tích chập tăng cường tự tập trung[45]hoặccác mô hình tự tập trung độc lập[90],tự tập trung phân cực[37]đã mang lạinhữngthànhtựuđángkể.
Vớitậptrungsoftmax,đ ộ p h ứ c t ạ p tí n h t o á n s o ft m a x (QK T )Vl àb ậ c h a i O(T 2 ).
Bằngcáchviếtsoftmaxrõràng,côngthức(1.5)cóthểviếtthành[44]: Σ N κ(Q i ,K j )V j i Σ N κ(Q,K) trongđóκ(Q,K)=exp Q T K lànhân(kernel)soft max.
′(Q,K)√ ϕ(Q).ϕ(K) T ,t r o n g đ óϕl àm ộ t b ả n đ ồ đ ặ c t r ư n g ( f e a t u r e m a p ) đ ư ợ c tí n h t o á n theohàng.Dođó,việctínhtoánmatrậntậpt r u n g k h ô n g c h u ẩ n h ó a c ó t h ể đượctuyếntínhhóabằngcáchtínhtoánϕ(Q).
Côngtrình[8]đềxuấtsửdụngmộtbảnđồđặctrưngđơngiảnϕ i (x)=elu(x i )+1 Bản đồ đặc trưng này không nhằm mục đích xấp xỉ tập trung softmax,nhưng được chứng minh bằng thực nghiệm là hoạt động ngang bằng với mạngchuyểnđổichuẩn.
RFA[33]đềxuấtbảnđồđặctrưngngẫunhiênϕ arccos (x),nhưsau: ϕ arccos (x)= 1/D[ReLU(w 1ãx), ,ReLU(w D ã x)] T (1.7)
Schlag và cộng sự[44],thiết kế một bản đồ đặc trưng nhằm tạo thuận lợicho tính trực giao trong không gian đặc trưng Cụ thể, với đầu vàox ∈R D , bảnđồđặctrưngϕ:R D →R 2vDđược xácđịnhbởihàmthànhphần: ϕ i+2(j−1)D (x)=ReLU([x,−x]) i ReLU([x,−x]) i+1 for i=1, ,2D,j=1, ,v (1.8)
Mạngh ọ c s â u S i a m e s e
Mạng nơ-ron Siamese (Siamese Neural Network-SNN) là mô hình theo bámđối tượng nhiều giai đoạn, hình1.29[117].SNN được sử dụng rộng rãi cho cáctrình theo bám trực quan trong vài năm qua Mạng SNN gồm hai nhánh lànhánh mẫu (template-z) và nhánh tìm kiếm (search-x) Mạng SNN chứa một sốthành phần để hoàn thành nhiệm vụ theo bám: (1) khung sườn (backbone) đểtrích xuất các đặc trưng chung của mục tiêu theo bám và khu vực tìm kiếm, (2)mô- đun tích hợp cho phép trao đổi thông tin giữa mục tiêu theo bám và khuvựctìm kiếmđểxácđịnhmụctiêu trongchuỗivideo,
(3)cácnhánhcónhiệmvụ xác định vị trí mục tiêu và ước tính hộp giới hạn của nó trong các khunghình Mô- đun tích hợp là chìa khóa của các thuật toán theo bám vì nó chịutrách nhiệm kết hợp thông tin mục tiêu để làm cầu nối cho các bước trích xuấtđặctrưngchungvàxácđịnhmục tiêu.
Thuật toán theo bám dựa trên mạng SNN lấy công thức1.9như nhiệm vụkhớp mẫu bằng cách xây dựng mô-đun tích hợp⋆như một vấn đề tương quanchéo (cross-correlation) và mạng trích chọn đặc trưngφ(.)để tính toán vị trínàotrongvùngtìm kiếmcóthểkhớpnhấtvớimẫuz. f(x,z)=φ(x)⋆φ(z)+b∗1, (1.9)
Cáchướngtiếpcậnnghiêncứubàitoántheobámđốitượngtrong video
Phươngp h á p h ọ c m á y t r u y ề n t h ố n g
Các phương pháp truyền thống sử dụng các nền tảng theo bám trực quankhác nhau, chẳng hạn như lọc tương quan phân biệt(DCF)[32],[52]theo bámhình bóng[16],theo bám hạt nhân[106],theo bám điểm[42],so khớp điểmđặc trưng (sử dụngSIFT[38],sử dụngSURF[107],sử dụngKAZE[115],sửdụngAKAZE[64])-để tạo mô hình xuất hiện và chuyển động của mục tiêu Nóichung, các trình theo bám truyền thống có các giả định không linh hoạt về cấutrúcmụctiêuvàchuyểnđộngcủachúngtrongcáctìnhhuốngthựctế.Cáctrìnhtheobá mnàykhaitháccácđặctrưngđượclàmthủcông(như:biểuđồcủađộ dốccóđịnhhướng(HOG)[81]vàTên-Màu(CN))[53],vìvậychúngkhôngthểthể hiện thông tin mục tiêu và xử lý các thay đổi về diện mạo đáng kể của mụctiêu.Tuynhiên,mộtsốphươngpháptheobámbằngcáchpháthiện(như:trìnhtheo bám dựa trên DCF) cung cấp sự cân bằng hấp dẫn của hiệu quả theo bámcạnh tranh và các tính toán hiệu quả[66],[67].Ví dụ, các trình theo bám xemtừ trên không[28],[114]sử dụng rộng rãi các thuật toán dựa trên CPU này khixemxétsứcmạnhtínhtoánhạnchếtrênbomạchvàphầncứngnhúng.
Phươngp h á p d ự a t r ê n h ọ c s â u
Lấy cảm hứng từ những đột phá về học sâu (Deep Learning-DL)[6],[18], [58],trong cuộc thi nhận dạng hình ảnh quy mô lớn ImageNet[86]và cả thửtháchtheobámđốitượngtrựcquan(VOT)[73],
[74],cácphươngphápdựatrênDLđãthuhútsựquantâmđángkểtrongcộngđồngtheobámtr ựcquanđểcungcấp các trình theo bám mạnh mẽ Các trình theo bám trực quan dựa trên họcsâu hiện đại có các đặc điểm riêng biệt như khai thác các kiến trúc khác nhau,mạng đường trục, quy trình học tập, tập dữ liệu huấn luyện, mục tiêu mạng,đầuramạng,các loạiđặctrưngsâuđượckhai thác,triểnkhai CPU/G PU.
Phần tiếp theo trình bày các phương pháp dựa trên DL được phân loại dựatrên kiến trúc mạng[98].Mặc dù ban đầu mạng nơ-ron tích chập (CNN) làmạng thống trị, nhưng một loạt các kiến trúc là mạng nơron Siamese (SNN)
1.4.2.1 Phươngphápdựatrênmạngnơ-ron tích ch ập Được thúc đẩy bởi những đột phá của mạng nơ-ron tích chập (CNN) trongthị giác máy tính và những lợi thế hấp dẫn của chúng (ví dụ, chia sẻ tham số,tương tác thưa thớt, đại diện chi phối), một loạt các trình theo bám dựa trênCNNđãđượcđềxuất.Cácđộnglựcchínhcủaviệcsử dụngmạngCNNlà.
• Biểu diễn mục tiêu mạnh mẽ: Cung cấp các mô tả mục tiêu mạnh mẽlàlợithếchínhcủa việcsửdụngCNNđểtheo bá mđốitư ợng Cácđóngg ópcủa mô hình sử dụng CNN có thể phân loại thành: i) huấn luyện ngoại tuyếntrên bộ dữ liệu quy mô lớn, ii) thiết kế CNN cụ thể thay vì sử dụng mô hìnhhuấnluyệntrước,iii)cấutrúcnhiềumôhìnhmụctiêuđểnắmbắtcáckiểuxuấthiện của mục tiêu, iv) kết hợp thông tin không gian và thời gian để cải thiện môhình; v) kết hợp đặc trưng sâu khác nhau để khai thác thông tin không gian vàngữ nghĩa bổ sung, vi) học các mô hình mục tiêu cụ thể để xử lý tắc hay biếndạng một phần, vii) sử dụng mạng hai luồng để tránh việc quá khớp, học thôngtinxoayvàướctínhchínhxáctỷlệkhunghìnhmụctiêuđểphânbiệtmụctiêu
Lớp miền cụ thể với các thông tin không liên quan, và viii) lựa chọn nhóm đặc trưng thông quachiềukênhvàkhônggianđểhọcmứcđộliênquancấutrúccủacácđặctrưng.
• Cânbằngdữ liệu huấn luyện: Do chỉ có một mẫu đối tượng trongkhung hình đầu tiên dẫn đến tăng nguy cơ quá khớp trong quá trình theo bám.Việclấymẫumụctiêudựatrêncácướctínhkhônghoànhảocóthểdẫnđếncácmẫu huấn luyện không đáng tin cậy Vấn đề này ảnh hưởng đáng kể đến hiệusuấtcủacácphươngpháptheobámđốitượng.Đểgiảmbớtảnhhưởngnày,cáctrình theo bám dựa trên CNN đề xuất: i) cơ chế điều chỉnh miền (tức là chuyểnkiến thức học từ miền nguồn sang miền đích khi không đủ mẫu huấn luyện), ii)các cơ chế cập nhật khác nhau (ví dụ, cập nhật định kỳ, ngẫu nhiên, ngắn hạn,và dài hạn), iii) CNN nhiều nhánh để học theo nhóm trực tuyến và iv) các chiếnlượclấymẫuhiệuquảđểtăngsốmẫuhuấnluyện.
• Vấnđềphfíc tạp tính toánMặc dù có sự tiến bộ đáng kể của CNNtrong việc biểu diễn hình dạng đối tượng, các phương pháp dựa trên CNN vẫncóđộphứctạptínhtoáncao.Đểgiảmhạnchếnày,cácphươngpháptheobámdựat r ê n C N N k h a i t h á c c á c g i ả i p h á p k h á c n h a u , c ụ t h ể l à : i ) s ử d ụ n g k i ế n tr úc CNN đơn giản, ii) tách CNN thành một số mạng nhỏ, iii) nén hoặc cắt bớtkhông gian mẫu huấn luyện hoặc lựa chọn đặc trưng, iv) tính toán đặc trưngthôngquanộisuysongtuyếntính,v)sửdụngcơchếtậptrung(attention), và vi)khaitháccủabộlọctươngquan(DCF)đểtínhtoánhiệuquả.
Một số mô hình theo bám đối tượng sử dụng CNN được giới thiệu tại cáchộinghịhàngđầuvềthịgiácmáytính:
MDNet[ 3 9 ]( E C C V - 2 0 1 6 ) đ ề x u ấ t m ô h ì n h h ọ c đ a m i ề n ( m u l ti - d o m a i n ) dựa trên CNN, có kiến trúc như hình1.30,kết quả thực nghiệm cho thấy môhìnhđạthiệunăngcaotrên haibộdữliệuOTBvàVOT2014.
2 0 1 7 ) g i ớ i t h i ệ u t h ừ a s ố c ủ a t o á n t ử tí c h c h ậ p để giảm đáng kể số lượng tham số trong mô hình DCF ECO là mô hình tổngquát nhỏ gọn của không gian mẫu huấn luyện giúp giảm số lượng mẫu trongquá trình học một cách hiệu quả Ngoài ra mô hình này có chiến lược cập nhậthiệuquảgiúpcảithiệnđồngthờitốcđộtheobámvàđộmạnhmẽcủanó. Được đề xuất năm 2018 tại hội nghịECCV,RT-MDNet[43]gồm 3 lớp(conv1-
3)tích chậpđầyđủđểsinhbảnđồđặctrưng,tầng RoIAlignthíchứngđểtríchc họnđặctrưngchomỗiRoI,và3lớpkếtnốiđầyđủ(fc4-
M D N e t đ ã đ ề x u ấ t c ả i ti ế n R o I A l i g n c h o b à i t o á n t h e o b á m đối tượng: bỏ lớp max poolling sau conv2 trong mạng VGG-M và thực hiện tíchchập giãn cách (dilated) đối với lớp conv3 với tỷ lệ r=3 Để cho phép tríchxuấtđặctrưngđộphângiảicaovàcảithiệnchấtlượnghiểnthị.
1.4.2.2 Phươngphá p dựa t r ên m ạn g n ơ- r o n t ù y ch ỉ n h Động lực chính của mạng tùy chỉnh là bổ sung những thiếu sót của trìnhtheo bám thông thường bằng cách khai thác lợi thế của các mạng khác. Hơnnữa siêu học tập (meta-learning) gần đây đã thu hút bởi cộng đồng theo bámđối tượng Nó nhằm mục đích giải quyết vấn đề học tập trên một số mẫu huấnluyện (few-shot) và thích ứng nhanh chóng để học nhiệm vụ mới bằng cách tậndụng kinh nghiệm tích lũy từ các nhiệm vụ tương tự Bằng cách sử dụng nềntảng siêu học tập, các mạng khác nhau có thể học hình dạng mục tiêu khôngnhìn thấy trong theo bám trực tuyến Các động cơ và đóng góp chính của mạngtùychỉnhđượcphânloạinhưsau:
• Theobámmãnhmẽvà chính xác: Gần đây, các mạng tìm kiếm nềntảngchungvàhiệuquảđểxácđịnh và ướctínhkhungđốitượngtốthơn. Vídụ giải pháp hiểu rõ hơn tư thế của mục tiêu bằng mạng phân lớp và ước tínhmục tiêu được thiết kế duy nhất[70].Ngoài ra, các mạng dựa trên siêu học(meta-learning)[30],[71]có thể dự đoán các mô hình mục tiêu mạnh mẽ dựatrên các quy trình học tập phân biệt Một số công trình khác coi nhiệm vụ theobámlàpháthiệncáthểnhằmchuyểnđổitrựctiếpcáctrìnhpháthiệnđốitượngthànhtrì nhtheobám.
• Vấnđềphfíctạp tính toán: Vấn đề phức tạp tính toán hạn chế hiệusuất của trình theo bám trong các ứng dụng thời gian thực Để kiểm soát độphức tạp tính toán, một số phương pháp sử dụng AE để nén các đặc trưng sâuthô.Một cách hiệu quả để tránh gánh nặng tính toán cao là khai thác meta- learningđể nhanh chóng điều chỉnhcác trình theo bámđược huấn luyện trước m
|S train | ( x,c)∈S j=1 k trai vàoc á c m ụ c ti ê u k h ô n g n h ì n t h ấ y M ô h ì n h m ụ c ti ê u c ủ a t r ì n h t h e o b á m d ự a trênmeta-learning cóthểđ ượctố i ưuhó at rongv ài lầnl ặp lại[ 60] ,
• Cậpnhậtmô hình: Để duy trì sự ổn định của mô hình mục tiêu trongquá trình theo bám, các chiến lược cập nhật khác nhau đã được đề xuất, nhưcập nhật song song nhiều mô hình, kết hợp LTSM để khai thác các phụ thuộctrongthờigiandài[31].Mộtgiảiphápthaythếgầnđâylàsửdụngphươngpháptiếpcận meta-learningđểthíchứngmôhìnhnhanhchóng.Vídụ,cáccôngtrình[30],[71]sử dụng các quy trình tối ưu hóa lặp lại cập nhật mô hình mục tiêutrongmộtvàibướcgradient.[60]tíchhợpthôngtintuầntự(dấuhiệuhìnhhọc,phân biệt và giao diện) và khai thác một trình siêu cập nhật để cập nhật hiệuquảcáckhunghìnhđángtincậy. Sauđâytrìnhbàychitiếthơnmộtsốtrìnhtheobámthuộcnhómnày:
ATOM[70](CVPR-2019) được đề xuất bởi nhóm tác giả đến từ trườngETHThụySỹ.Môhìnhgồmhaithànhphầnchínhlà:
Mô- đunư ớ c tí n h m ụ c ti ê u đ ư ợ c h u ấ n l u y ệ n đ ể d ự đ o á n c h ồ n g c h é o I o U g i ữ a mụcti ê u v à ư ớ c tí n h h ộ p g i ớ i h ạ n M ô - đ u n p h â n l o ạ i m ụ c ti ê u đ ư ợ c h ọ c t r ự c tuyếnbằng cách sửdụngcác kỹ t huậ ttố i ưuhó achuy ên b i ệ t để phân bi ệt gi ữa đốitượngm ụctiêu vànền.
Dựa trên bộ lọc tương quan phân biệt (DCF), mô hình sử dụng hàm mụctiêudựatrênlỗiphânloạiL 2
L(w)=Σγ k ∥.∥f(x j ;w)−y j ∥.∥ 2 + Σλ k ∥.∥w k ∥.∥ 2 (1.12) trongđóy j ∈R H×W l ànhãncủađặctrưngx j trongquátrìnhhuấnluyện.Mô hình được đánh giá trên các bộ dữ liệu Need for Speed (NFS), UAV123,TrackingNet,L a S O T , v à V O T 2 0 1 8 , c h o k ế t q u ả c a o s o v ớ i c á c m ô h ì n h t r ư ớ c đó.
DiMP[30](CVPR-2019)làmộtkiếntrúctheobámtừđầuđếncuối(end-to-end), có khả năng khai thác đầy đủ cả thông tin mục tiêu và nền để dự đoánmô hình mục tiêu Nó dựa trên một mạng dự đoán mô hình mục tiêu, mô hìnhnàysửdụnghàmmấtmáthọctậpphânbiệtbằngcáchápdụngmộtquytrình tốiưulặpđilặplại.
TrongđóS train =(x j ,c j ) n j=1 làtậphuấnluyện,f=D(S train )làmôhìnhdựđoán môhì nh m ụ c ti ê u ; * l à tí c h c h ậ p ,λl àh ệ s ố c h u ẩ n hó a H à mr(s,c)tí n ht o á n s a i số tại vị trí không gian dựa vào điểm tin cậy mục tiêus=x ∗fvà tọa độ trungtâmcủamụctiêu groundtruthc.Môhìnhđạthiệusuấthiênđạitrêncá cbộdữl i ệ u V O T 2 0 1 8 , L a S O T , T r a c k i n g N e t , N f S , O T B 1 0 0 v à U A V 1 2 3 MôhìnhMeta-Updater[60](CVPR-2020)đềxuấtchoviệctheobámđốitượng trong video có thời gian dàivới việc đối tượng mất đi và xuất hiện lạitrong các khung hình Mô hình gồm theo bám nội bộ trực tuyến (local tracker), bộ xác nhận (verifier) trực tuyến, SiamRPN xác định lại mục tiêu và Meta- Updater(xácnhậncócậpnhậtframehiệntạihaykhông).Nhiềukếtquảthửnghiệm trên các bộ dữ liệu dài hạn VOT2018LT, VOT2019LT, OxUvALT, TLPvà LaSOT cho thấy trình theo bám này hoạt động tốt hơn đáng kể so với cácthuậttoáncạnhtranhkhác. Công trìnhPrDiMP[71](CVPR-2020) đề xuất một công thức chung chohồi quy xác suất, sau đó áp dụng để theo bám trực quan trong mô hình DiMP.Mạng dự đoán mật độ sác xuất có điều kiện của trạng thái mục tiêu cho hìnhảnh đầu vào Mật độ xác xuất được tham số linh hoạt bởi chính mạng nơ- ron.Mạng hồi quy được huấn luyện bằng cách cực tiểu sự phân kỳ Kullback- Leibler.Mô hình đạt hiệu suất cao trên 6 bộ dữ liệu, đạt 59.8% AUC trên LaSOT và75.8%thànhcôngtrênTrackingNet.
Không giống như theo bám dựa trên phát hiện từng khung hình thôngthường,KYS[31](ECCV-2020) lan truyền thông tin cảnh có giá trị thông quachuỗi Thông tin này được sử dụng để đạt được dự đoán mục tiêu nhận biếtcảnh được cải thiện trong mỗi khung hình Thông tin cảnh được biểu diễn bằngcách sử dụng một tập hợp dày đặc các véc-tơ trạng thái được bản địa hóa Cácvéctơ trạng thái này được lan truyền thông qua chuỗi và kết hợp với đầu ra môhình xuất hiện để khoanh vùng mục tiêu Mạng được học để sử dụng hiệu quảthông tin bối cảnh bằng cách trực tiếp tối đa hóa hiệu suất theo bám trên cácphân đoạn video Mô hình thiết lập hiệu suất cao trên 3 bộ dữ liệu, đạt điểmAUC63.6%trênbộdữliệu GOT-10k.
Mạngn ơ - r o n S i a m e s e đ ư ợ c s ử d ụ n g r ộ n g r ã i c h o c á c t r ì n h t h e o b á m t r ự c quant r o n g v à i n ă m q u a C h ú n g c h ủ y ế u h ư ớ n g t ớ i v i ệ c k h ắ c p h ụ c n h ữ n g h ạ n chếcủac ácCN N s âu đượchuấnluyệ n t rước v àtậndụng t ối đ avi ệchọc t ừđ ầuđếnc u ố i c ho c á c ứ n g d ụ n g t h ờ i g i a n t h ự c C á c đ ộ n g l ự c c h í n h c ủ a v i ệ c s ử d ụ n g mạngSiameselà.
Sosánh các phương pháp theo bám
Các trình theo bám dựa trênDLđược so sánh chi tiết liên quan đến cácmạng được đào tạo trước, mạng xương sống, các lớp được khai thác, các loạiđặc trưng sâu, sự kết hợp của các đặc trưng được chế tạo thủ công và sâu, bộ dữliệu đào tạo, đầu ra theo bám, tốc độ theo bám, chi tiết triển khai phần cứng,ngônngữlậptrìnhvàkhungDL.
Tổnghợpvàsosánhcácphươngpháptrêntheocáctiêuchíkhungsườn,dữliệu huấn luyện, đặc tính khai tác, nền tảng ngôn ngữ, tốc độ chạy, và kết quảđầurađượctrìnhbàytrongbảng1.3.
Bảng1.3.Sosánhkiếntrúccácphươngpháptheobámchuyểnđộngsửdụngkiếnt r ú c S i a m e s e : D A F ( đ ặ c tí n h h ì n h d ạ n g s â u ) , C M ( b ả n đ ồ ti n c ậ y ) , OS(điể mđốitượng),BB(hộpbaođốitượng),FM(bảnđồđặctính),
Phươngpháp Backbone Dữliệuhuấnluyện Đặctính Ngônngữ Nênt ả n g GPU Tốcđộ Đầura MDNet VGG-M ImageNet,OTB100,ILSVRC-VID DAF Matlab MatConvNet TeslaK20m 1 OS
RT-MDNet VGG-M ImageNet,ILSVRC-VID DAF Python PyTorch Titan XpPascal 46 OS
SiamFC AlexNet ImageNet,ILSVRC-VID DAF Matlab MatConvNet GTXTitanX 58 CM
SiamRPN AlexNet ImageNet,Y o u t u b e - B B DAF Python PyTorch GTX1060 160 CM
ImageNet-DET,MSCOCO-DET DAF Python PyTorch GTXTitanX 160 CM
ILSVRC-VID,YouTube-VOS DAF Python PyTorch RTX2080 55 SGM,RBB
SiamRPN++ ResNet-50 ImageNet,MSCOCO,ImageNet-DET,
ImageNet-VID,Youtube-BB DAF Python PyTorch Titan XpPascal 35 OS,BB
ImageNet,ImageNet-VID,Youtube-BB DAF Python PyTorch GTX1080 13,93 CM,FM
BB ,M SC OC O , ImageNet-DET,GOT-10k, LaSOT
DAF Python PyTorch GTX1080Ti 40 OS,BB
ImageNet-VID,Youtube-BB DAF Python PyTorch RTX2080Ti 52.2 OS,BB
SiamAttn ResNet-50 MSCOCO,YouTube-VOS,
LaSOT,TrackingNet DAF Python PyTorch RTX2080Ti 33 BB,SGM
ILSVRC-VID,COCO,YouTube-VOS,
GOT-10k,LaSOT DAF Python TensorFlow TeslaV100 4.7 BB,SGM
ImageNet-VID,Youtube-BB DAF Python PyTorch - OS,BB
LaSOT,GOT10k,COCO DAF Python PyTorch GTX1080 30 CM
LaSOT,GOT10k,COCO DAF Python PyTorch GTX1080 43 OS
MetaUpdater ResNet-50 ImageNet,LaSOT DAF Python TensorFlow GTX2080Ti 13 CM
GOT-10k,T r ac k in g Ne t, C O C O DAF Python TensorFlow N/A 30 CM
GOT-10k,CO CO DAF Python PyTorch TitanRTX 50 OS,BB
TransformerTracking ResNet-50 LaSOT,TrackingNet,GOT-10k,COCO DAF Python PyTorch GTX1080Ti 35,26 OS
TrTr ResNet-50 ILSVRC-VID, COCO,
YouTube-VOS,GOT-10k,LaSOT DAF Python PyTorch RTX3090 50,35 CM,BB
Theo kết quả được hiển thị trong bảng1.4,3 phương pháp theo bám có chỉsố thành công cao nhất trên bộ dữ liệu OTB100 là TrTr, SiamAttn, và TrDiMP,trênbộdữliệuUAV123làTransTvàPrDiMP,trênbộdữ liệu GOT10k làTransTvàTrDiMPtrênbộdữliệuLaSOT là TransT và TrDiMP Về chỉ sốchínhxác,T rT r , SiamAttn, vàSiamRPN+
+t rênOTB100, Sia m BA N, AT OMvàSiamAtnn trênbộdữ liệuUAV123, TransT vàSiamAttntrênbộ dữ liệuLaSOT lần lượt đạt hiệu suất tốt nhất Trên bộ dữ liệu VOT2018, 3 trình theobámhà n gđ ầu là Sia mA t n n ,T r D iMP và S ia mB AN
Bảng1 4 S o s á n h t h ự c n g h i ệ m c á c p h ư ơ n g p h á p t h e o b á m m ớ i n h ấ t t r ê n c á c bộd ữ l i ệ u , n g u ồ n t h a m k h ả o t ừ c á c b à i b á o t h a m k h ả o ( m à u đ ỏ , m à u x a n h dươngv àm àul ụcl am ứngcao n hấ t nhì ba)
Phươngpháp Nguồn OTB100 UAV123 GOT10k LaSOT VOT2018
Success Precision Success Precision Success Success Precision AUC
Tìnhh ì n h n g h i ê n c ứ u t r o n g n ư ớ c
Hiện nay, nghiên cứu phát triển các thuật toán học sâu trong phân tích đốitượngtrongảnhđượckhánhiềunhómnghiêncứutrongnướcquantâm.Nhómnghiên cứu của trường Đại học Công nghệ, đại học Quốc gia Hà Nội trong bàibáo[105] đã đề xuất một mạng tích chập mới nhanh và hiệu quả trong phânvùng đối tượng khi so sánh với các phương pháp hiện có khác Nhóm nghiêncứu của Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội kết hợp với Họcviện Nông nghiệp trong[25]đã đề xuất mạng NASNet-FCN được đào tạo vàđánhgi á b ằ n g c á c h s ử d ụ n g b ộ d ữ l i ệ u c h u ẩ n t ừ t h ử t h á c h I SP RS V a i h i n g e n
Kết quả cho thấy các phương pháp của nhóm tác giả đã đạt được độ chính xáccaovớinhữngcảitiếntiềmnăng.Nhóm nghiêncứucủatrongPoint- Net[82]tại MICCAI 2021 đã đề xuất mạng nơron dựa trên điểm phân vùng thể tích.Point- Unetg ồmb amô-đun ch ín h :c h ú ýđ ến đ ộ ca o, lấ ymẫ u theongữ cả nh và mô- đun phân vùng dựa trên điểm Mô-đun chú ý độ cao lấy một khối lượnglàmđầuvàovàdựđoánmộtbảnđồxácsuấtchúýđểhướngdẫnlấymẫuđiểmnhận biết ngữ cảnh trong mô-đun tiếp theo để chuyển khối lượng thành đámmâyđiểm.Sauđó,mô- đunphânđoạndựatrênđiểmsẽxửlýđámmâyđiểmvà xuất ra phân đoạn, cuối cùng được hợp nhất trở lại tập để thu được kết quảphânvùngcuốicùng.
Nghiên cứu của Nguyễn Văn Căn trong luận án tiến sĩ[3],cải tiến mô hìnhGMM( G a u s s i a n M i x t u r e M o d e l ) t h í c h n g h i v ớ i s ự b i ế n đ ổ i á n h s á n g b ằ n g v i ệ c thêm các tham số để ứng phó với việc thay đổi ánh sáng trong môi trường thực.Kếth ợ p m ô h ì n h n ề n G M M t h í c h ứ n g t h a y đ ổ i á n h s á n g v à l u ồ n g q u a n g h ọ c đểg i ả i q u y ế t v i ệ c x á c đ ị n h m ậ t đ ộ x e ô t ô c ả i t h i ệ n t ố c đ ộ t í n h t o á n v à t ă n g độ chính xác trong trường hợp giao thông trên các đường cao tốc ở Việt Nam.Nghiênc ứ u c ủ a N g u y ễ n V ă n H ù n g t r o n g l u ậ n á n ti ế n s ĩ [ 4 ] , đ ề x u ấ t m ộ t g i ả i phápt ự đ ộ n g p h á t h i ệ n m ụ c ti ê u q u â n s ự t r o n g d ã y ả n h đ ộ n g , s ử d ụ n g đ ặ c trưngc h u y ể n đ ộ n g , đ ặ c t r ư n g m à u s ắ c v à đ ặ c t ả h ì n h d ạ n g N g h i ê n c ứ u c ủ a L ê ThịT h u H ồ n g t r o n g l u ậ n á n ti ế n s ĩ [ 1],đ ề x u ấ t m ộ t m ộ t s ố k ỹ t h u ậ t h ọ c s â u như cải tiến mạng unet, phương pháp học tự giám sát các đặc trưng thị giác củaảnhn ộ i s o i đ ể p h â n v ù n g p o l y p á p d ụ n g t r o n g p h â n tí c h ả n h n ộ i s o i N g h i ê n cứuc ủ a N g u y ễ n T h ị H ằ n g t r o n g l u ậ n á n ti ế n s ĩ [ 2 ] , đ ã n g h i ê n c ứ u t h u ậ tt o á n giảib à i t o á n t h e o b á m đ a m ụ c ti ê u t ổ n g q u á t , t r o n g đ ó p h ư ơ n g p h á p g i ả i k h ắ c phụcđ ư ợ c h i ệ n t ư ợ n g m ụ c ti ê u b ị c h e k h u ấ t v à n g h i ê n c ứ u p h ư ơ n g p h á p d ù n g môhì nh M ar ko v ẩ n đ ể gi ải l ớ pm ô h ì n h t he o bá m đ am ục tiê u nà y
Nhóm nghiên cứu của Học viện Kỹ thuật quân sự, trong[61]đã đề xuất giảipháp phát hiện và theo bám máy bay không người lái (UAV) sử dụng đa môhình học sâu trong điều kiện nền phức tạp Trongđó các tác giả sử dụng môhìnhYOLOv4đểpháthiệnUAVvàmôhìnhtrựcquanđểtheobámUAVtrênbộdữliệ ucủachínhtảgiảxâydựngvàgánnhãn.CongPhucNguyenvàcộngsự trong[19]đề xuất và triển khai học sâuđa tác vụ theo thời gian thực chohệ thống phát hiện, phân loại và theo bám phương tiện bốn bánh bằng UAV.Để đạtđược thời gian thực, các tác giả đã sử dụng thuật toán ByteTrack vớiYOLOv5,chothấyhiệuquảtrênmáytínhnhúngJetsonNano.
Tuynhiênhướngnghiêncứuxâydựngcácgiảithuật,kỹthuậthọcsâuáp dụngchobàitoántheobámđốitượng,đánhgiátrêncácbộdữliệuchuẩnVOT,OTB, UAV, còn rất ít nhóm nghiên cứu trong nước thực hiện và công bố kếtquả.
Nhữngvấnđề còn tồntại và hướng nghiê ncứu
Nhữngv ấ n đ ề c ò n t ồ n t ạ i
Theo bám đối tượng trực quan là một nhiệm vụ cơ bản trong lĩnh vực thịgiácmáytínhtrongnhiềuthậpkỷ,nhằmước tính trạngtháicủamụctiêutùy ý trong chuỗi video dựa trên trạng thái ban đầu của nó Nó đã được triển khaithành công trong nhiều ứng dụng khác nhau như tương tác người máy và giámsát trực quan Tuy nhiên, làm thế nào để thiết kế một trình theo bám đầu đếncuối(end-to- end)đơngiảnnhưnghiệuquảvẫnlàmộttháchthứctrongcáctìnhhuống thực tế Những thách thức chính là từ các khía cạnh của sự thay đổi tỷlệ,đốitượngbiếndạng,bịchelấp,nhầmlẫntừcácđốitượngtươngtựvàxửlýth ờigianthực[98,117].
Các công cụ theo bám phổ biến hiện nay thường gồm một quy trình nhiềugiaiđoạnnhưminhhọatronghình1.29[117].Quytrìnhnàychứamộtsốthànhphần để hoàn thành nhiệm vụ theo bám: (1) khung sườn (backbone) để tríchxuất các đặc trưng chung của mục tiêu theo bám và khu vực tìm kiếm, (2)mô-đun tích hợp cho phép trao đổi thông tin giữa mục tiêu theo bám và khuvực tìm kiếm để xác định mục tiêu trong chuỗi video, (3) các đầu (head) cónhiệm vụ xác định vị trí mục tiêu và ước tính hộp giới hạn của nó trong cáckhung hình Mô-đun tích hợp là chìa khóa của các thuật toán theo bám vì nóchịu trách nhiệm kết hợp thông tin mục tiêu để làm cầu nối cho các bước tríchxuấtđặctrưngchungvàxácđịnhmụctiêu.
Dựat r ê n m ô h ì n h t h e o b á m t ổ n g q u a n g ồ m n h i ề u g i a đ o ạ n 1 2 9 , k ế t h ợ p vớikhảo sát c ác hướng tiế pcận gi ảquy ế t bài toán t he o bám đối t ượng ,m ộ t sốvấnđềcò ntồ nt ại củabài to ántheo bámđố itượngnhưs au:
-Mộtlà:Cácphươngphápxâydựngmô-đuntíchhợptruyềnthốngthườngdựa trên tương quan chéo hoặc các biến thể của tương quan chéo (ví dụ:SiamFC[ 6 5 ] , S i a m RP N [ 1 3 ] , D a S ia m R P N [ 1 2 3 ] , S ia m R P N +
[125],SiamBAN[120],SiamCAR[23],SiamAttn[116],Ocean[126]).Trongcácphươngp h á p t h e o b á m n à y , t o á n t ử t ư ơ n g q u a n đ ó n g v a i t r ò r ấ t q u a n t r ọ n g Toán t ử t ư ơ n g q u a n l à m ộ t c á c h k ế t h ợ p đ ơ n g i ả n đ ể x e m x é t s ự g i ố n g n h a u giữam ẫ u v à v ù n g tì m k i ế m T u y n h i ê n , b ả n t h â n p h é p t o á n t ư ơ n g q u a n l à m ộ t quát r ì n h đ ố i s á n h t u y ế n tí n h c ụ c b ộ , d ẫ n đ ế n m ấ t t h ô n g ti n n g ữ n g h ĩ a v à d ễ rơiv à o t r ạ n g t h á i t ố i ư u c ụ c b ộ , đ â y c ó t h ể l à đ i ể m n g h ẽ n t r o n g v i ệ c t h i ế t k ế cáct huật to ánt he o bám cóđ ộ c hí nhxác cao.
- Hai là: Trong xây dựng mạng dự đoán phân lớp và hồi quy khung bao đốitượng, mạng dự đoán vùng (RPN) đã được đề xuất trong SiamRPN, và đượcứngdụngvàotrongDaSiamRPN, SiamRPN++, SiamDW, SiamAttn Mặc dùđạt được kết quả cao, tuy nhiên RPN có một số hạn chế: vì các neo (anchor)được dùng để đề xuất khu vực, nên các trình theo bám sử dụng neo này nhạycảmvớisốlượng,kíchthướcvàtỷlệcủacáchộpneo,vàcầncókinhnghiệmđểđiềuchỉ nhsiêuthamsốnàyđểcóđượctrìnhtheobámcóhiệunăngcao.
- Ba là: Các mô hình theo bám dựa trên nguyên lý nhiều giai đoạn như hình1.29,trong lúc suy luận thường chọn dự đoán hồi quy khung bao ứng với phânlớp có điểm cao nhất làm kết quả dự đoán Tuy nhiên có thể có trường hợpphân lớp có điểm cao nhưng hồi quy khung bao lại lệnh hơn so với khung baokhác Điều này dẫn đến việc xây dựng mô-đun tinh chỉnh huấn luyện độc lập(plugand play) đểnâng caohiệu năng của trình theo bám là cần thiết. Mộtsố trình theo bám đã bổ sung mô-đun tinh chỉnh như ATOM[70],DiMP[30],SiamMask[92],SiamAttn[116],SiamRN[100].Tuy nhiên, các mô-đun này làmộtthànhphầngắnliềnvớicácthànhphầnkháccủamạngvàhuấnluyệncùngvới mạng đó AR-DiMP[12]đề xuất mô-đun huấn luyện độc lập, tuy nhiên vẫndùngtươngquanchéo.
- Bốn là: Như bảng so sánh kết quả định lượng các phương pháp theo bámđốitượn g 1 4, cá c môh ìn h ch ỉ đạ t điểm ca oở một sốb ộdữ liệ u nhấ t đ ị n h , do các bộ dữ liệu khác nhau có các thuộc tính thách thức khác nhau Thôngthường các mô hình đề xuất sau có kết quả cao hơn mô hình đề xuất trước đâydo khai thác, vận dụng những kiến thức mới trong các lĩnh vực liên quan (tríchchọn đặc trưng, phân lớp, phát hiện, phân vùng) vào bài toán theo bám Hiệnnay, giải quyết những thách thức trong bài toán theo bám đối tượng như: xử lýthời gian thực, đối tượng biến dạng, đối tượng bị che lấp, ngoài tầm nhìn,đốitượng chuyển động, camera chuyển động, thay đổi độ sáng, vẫn đang được tiếptụcnghiêncứuvàchưacómôhìnhđủtốttrênnhiềubộdữliệu.
Đềx u ấ t h ư ớ n g n g h i ê n c ứ u
Luậnántậpt r u n g v à o v i ệ c n g h i ê n c ứ u v à đ ề x u ấ t m ộ t s ố k ỹ t h u ậ t c ả i tiến mô mình học sâu theo bám đối tượng trong video sử dụng kiến trúc mạngSiamese.S auđ ây l àm ộ t s ố hư ớn g đ ề xu ất ng hi ê n cứ u củ a l u ậ n á n:
- Nghiênc ứ u đ ề x u ấ t m ộ t s ố k ỹ t h u ậ t c ả i ti ế n m ạ n g S i a m e s e t r o n g b à i t o á n theobámđốitượngsửdụngcơchếtậptrung,mạngthíchứngđiểmkhôngdùngkhung neo Mạng chỉ dùng một lớp (layer) của mạng trích chọn đặc trưng vàkhôngdùngkhungneogiúpgiảmthamsốchophéphuấnluyệnvàchạyvớithờigianthực trênGPUcấuhìnhthấp.
- Nghiên cứu đề xuất sử dụng mạng chuyển đổi nhẹ trên kiến trúc mạngSiameset r o n g b à i t o á n t he o b á m đ ố i t ư ợ n g t h ờ i g i a n t h ự c M ạ n g c h ỉ d ù n g m ộ t lớp( l a y e r ) c ủ a m ạ n g t r í c h c h ọ n đ ặ c t r ư n g l à m đ ầ u v à o c h o m ạ n g c h u y ể n đ ổ i , huấnl u y ệ n t r ê n b ộ d ữ l i ệ u n h ỏ , v à c h ạ y v ớ i t h ờ i g i a n t h ự c t r ê n G P U 1 0 8 0 ti
- Nghiênc ứ u đ ề x u ấ t s ử d ụ n g m ạ n g c h u y ể n đ ổ i t u y ế n tí n h v à c ơ c h ế t ậ p trungt r ê n k i ế n t r ú c m ạ n g S i a m e s e g i ú p t ă n g c ư ờ n g h i ệ u n ă n g c ủ a t r ì n h t h e o bámđốitượngcơ sở.
Kếtl u ậ n c h ư ơ n g 1
Môh ì n h T r a c k i n g U A V
Gầnđây,UAVđangpháttriểnnhanhchóngdotínhlinhhoạtvàmộtloạtứng dụng trong nhiều lĩnh vực Tuy nhiên, cũng cần nhận thức rõ nguy cơ đe dọaantoànvùngtrờidoUAVxâmnhậpgâyra.DựánchốngUAVcủaViệnThiếtbịĐiện tửPhươngBắc,BắcKinh,TrungQuốc(Anti-UAV2020)đượcđềxuấtnhằmthúc đẩy bài toán rà soát, phát hiện và theo bám UAV trong tự nhiên.Bài toán chống UAV (Anti-UAV) được đưa ra tại 1st CVPR 2020 Anti-UAVWorkshop & Challenge Ban tổ chức đã cung cấp bộ dữ liệu xác thực gồm 100video hồng ngoại được lưu dưới dạng 3 kênh mầu và bộ mã nguồn đánh giá cơsở Nhiệm vụ của bài toán là theo bám UAV trong chuỗi 100 video đó và đánhgiákếtquả theođiểm chínhxác trungbìnhacctheo côngthức(1.2).
Dựa trên ý tưởng được đề xuất cho theo bám đối tượng trong video ảnh RGBnhưS i a m R P N [ 1 3 ] , D a S i a m R P N [ 1 2 3 ] , S i a m R P N +
+ [ 1 4 ] , l u ậ n á n đ ề x u ấ t m ô hình theo bám UAV trong video hồng ngoại mới, bằng việc áp dụng một số kỹthuật như: sử dụng các kỹ thuật tăng cường dữ liệu lúc huấn luyện, dùng hàmmất mát không cân bằng Focal-Loss[104]để phân lớp, hàm mất mát tự điềuchỉnhSASmoothL1[17]đểdựđoánkhungbao,dùngchiếnthuậttăngkíchthướcvùngtì m k i ế m k h i U A V r a k h ỏ i k h u n g h ì n h v à x u ấ t h i ệ n t r ở l ạ i M ô h ì n h đ ề xuấtn hưhình2.1,gồmđầuvàolàảnhmẫuvàảnhtìmkiếm;khungsườntrích
Mô-đun phân lớp Mô-đun hồi quy chọnđặctrưngvàcácđầudựđoánsửdụngRPN.
Mạngtríchchọnđặc trưng: Trong mô hình này, luận án sử dụng ResNet-
50[58]làm mạng trích chọn đặc trưng bằng việc thay đổi các tham số tích chậpcủahaikhốiconv4vàconv5đểkíchthướcđầuracủahaikhốinàybằngvớikíchthước của khốiconv3, thông tin chi tiết như trong bảng2.1.Đặc trưng đầu racủaconv3,conv4,conv5đượcđưavào3mạngRPNđộclập.
Bảng2.1.ThayđổitrongmạngResNet50 bottleneckt r o n g c o n v 4 bottleneckt r o n g c o n v 5 conv1x1 conv3x3 conv1x1 conv1x1 conv3x3 conv1x1
DW-Corr Điều chỉnhkê nh
Mạngdựđoándùngkiến trúcRPN:Như hình2.2,mạng dự đoán RPNgồmmô- đunphânlớpvàmô-đunhồiquy.Cảhaimô-đunnhậnđặctrưngtừhainhánh mẫu và nhánh tìm kiếm Đặc trưng của 2 nhánh này được điều chỉnh đểcócùngsốkênh(256).Sauđóhaiđặctrưngcùngsốkênhcủahainhánhđược
2 σ σ 2 t tương quan chéo sâu và rộng với nhau theo kênh Vớikkhung neo, mạng dựđoán RPN sẽ cho ra2kkênh cho phân lớp và4kkênh cho hồi quy khung bao.Tươngquanchéođượcthựchiệntrêncảnhánhphânlớpvànhánhhồiquy[14]:
=[φ(x)] reg ⋆[φ(z)] reg trongđó⋆bi uểu thịtươngquanchéovới[φ(z)] cls v à [φ(z)] reg l ànhântích chập sauk h i đ i ề u c h ỉ n h ,P cls w×h×2 k làb ả n đ ồ đ ă c h t r ư n g p h â n l ớ p ,P reg w×h×4 k làb ả n đ ồ đặct r ư n g h ồ i q u y k h u n g b a o
Hàmmấtmát
Vớiy∈{±1}l àn h ã n t h ự c t ế v àp∈[0,1]l à x á c x u ấ t ư ớ c tí n h c ủ a m ô h ì n h c hophânlớpcónhãny=1,với: p= p if y=1
T h làđiểmtrungtâmvàkíchthướccủakhungbaothựct ế ( g r o u n d truth),khoảng cáchchuẩnhóađượctính nhưsau[13]: δ[0]=T x − A x , δ[1]=T y − A y , δ[2]=lnT w , δ[3]=lnT h
L reg = SASmoothL1(δ[i],σ) (2.5) i=0 trongđóhàmSASmoothL1đư ợcxácđịnhnhưsau(theoRetinaMask[17]):
// Điều chỉnh kênh về 256 Tính zf = model.neck(zf) return zf
Tính xf = model.backbone(x ) // Tính toán đặc trưng // Điều chỉnh kênh về 256
Tính xf = model.neck(xf) // Tính cls, loc theo công thức và hình cls, loc = model.head(zf, xf) outputs = {} outputs[“cls”] = cls outputs[“loc”] = loc return outputs
Thuậtt oá nt h e obá mU AV
Thuật toán (hàm)2.1nhận vùng chứa đối tượng trong ảnh mẫu (templatepatch)zvà mô hình TrackingUAV đã huấn luyệnmodellàm đầu vào và thựchiện tính toán đặc trưng của khu vực này Sau đó thực hiện điều chỉnh số kênhcủa đặc trưng từ 1024 về 256 thông qua một số lớp tích chập Đầu ra zf đượcdùngtrongcáchàm(thuật toán)tiếptheo.
Thuậttoán2.1:Hàmtínhtoánđặctrưngcủanhánhmẫu Input:Vùngcắtcủaảnhmẫuz,môhìnhđãhuấnluyệnmodel
Thuật toán (hàm)2.2thực thiện tính toán và điểu chỉnh số kênh của vùngchứa đối tượng trong ảnh tìm kiếm Đặc trưng thu được là xf, và zf trong thuậttoán2.1được đưa vào mạng dự đoán để dự đoán phân lớp (cls) và hồi quykhung bao (loc) Đầu ra chứa cls và loc được dùng trong thuật toán theo bámtiếptheo.
Thuậtt oá n 2 2 : Hàmxácđịnhvịtrívàphânlớp Input:Vùngcắtcủaảnhtìmkiếmx,môhìnhđãhuấnluyệnmodel
Input:Khunghìnhđầutiên củavideoimg,khungbaobboxt iại khunghìn hđó,môhìnhđãhuấnluyệnmodel
4 ĐặtI-SIZE=TRACK.INSTANCE-SIZE
5 ĐặtL-SIZE = TR AC K.L OST -I NST A NC E -SIZE
8 ĐặtWIN-INF=TRACK.WINDOW-INFLUENCE
13 Tínhanchor-num=len(RATIOS)*len(SCALES)
16 Tínhcenter-pos=[bbox[0]+(bbox[2]-1)/2,bbox[1]+(bbox[3]-1)/2]
18 Tínhwz=size[0]+0.5*sum(size)//Đ ộ r ộ n g vùng mẫu
20 Tínhsz=round(sqrt(wz*hz))
21 Tínhchannel-average=mean(img,axis=(0,1))
Thuậttoán(thủtục)khởitạo2.3thựcthiệnkhởitạocácthamsố:kíchthước ảnhmẫu(TRACK.EXEMPLAR-SIZE),kíchthướcảnhtìmkiếm(TRACK.INSTANCE-
INSTANCE-SIZE),kíchthướccơsở(TRACK.BASE-SIZE),thamsốnộisuy phạt (TRACK.PENALTY-K), làm trơn khung bao (TRACK.WINDOW- INFLUENCE),tần số học (TRACK.LR), tham số khung neo (ANCHOR.STRIDE, ANCHOR.RATIOS,ANCHOR.SCALES), Cácthamsốnàyđượcđọctừfilecấuhìnhconfig. yaml, trong đó các tham số nội suy phạt (TRACK.PENALTY-K), làm trơn khung bao(TRACK.WINDOW-
Tính wz = size[0] + 0.5 * sum(size)
Tính hz = size[1] + 0.5 * sum(size) Tính sz = sqrt(wz * hz)
Tính scale-z = E-SIZE/sz if longterm-state then i-size = L-SIZE else i-size = I-SIZE end if
Tính score-size = (i-size - E-SIZE)/STRIDE + 1 + BASE-SIZE Sinh khung neo anchors theo score-size Tính window theo score-size và anchor-num Tính sx = sz * (i-size/E-SIZE)
Tính x-crop theo công thức outputs = model.track(x-crop) // Thực hiện dự đoán return outputs cók ế t q u ả d ự đ o á n c a o S a u đ ó tí n h t o á n k í c h t h ư ớ c k h u n g b a o k h ở i t ạ o , tí n h vùngc h ứ a đ ố i t ư ợ n g v à tí n h t o á n đ ặ c t r ư n g c ủ a v ù n g n à y t h e o t u ậ n t o á n 2 1 Cáck h ở i t ạ o , tí n h t o á n ở t h u ậ tt o á n 2 3 đ ư ợ c d ù n g t r o n g t h u ậ t t o á n 2 4 v à 2 5 tiếptheo.
Hàm2 4 t h ự c h i ệ n tí n h t o á n k í c h t h ứ c c ủ a v ù n g c h ứ a đ ố i t ư ợ n g t r o n g ả n h tìm kiếm dựa vào kích thước khung bao kết quả của khung hình trước đó (dòng1-15).Đưa vùng này vàothuật toán2 2 đ ể d ự đ o á n p h â n l ớ p v à h ồ i q u y k h u n g bao(dòng1 6- 1 7).
Thuật toán2.5tính toán xác định chỉ số có điểm phân lớp cao nhất (dòng2-
15) Dựa vào điểm phân lớp cao nhất và chỉ số tương ứng để tính toán kíchthước (chiều rộng, chiều cao) và tâm của khung bao đối tượng (16-28).
Thựchiện cập nhật trạng thái mất dấu mục tiêu nếu có (dòng 29-32) Cuối cùng tínhtoánkhungbaokếtquả(dòng33).
Thuậttoán2.5:HàmxácđịnhUAVtrongkhunghìnhhiệntại Input :Khunghìnhimg,thamsốđãkhởitạotại2.3
8 Tínhpscore=pscore*(1-WIN-INF)+window*WIN-INF
14 Tínhlr=penalty[best-idx]*score[best-idx]*LR
15 Tínhbest-score=score[best-idx]
16 if best-score>=TRACK.CONFIDENCE-LOWt h e n
19 Tínhwidth=size[0]*(1-lr)+bbox[2]*lr
20 Tínhheight=size[1]*(1-lr)+bbox[3]*lr
29 if best-scoreTRACK.CONFIDENCE-HIGHthen
33 bbox=[cx-width/2,cy-height/2,width,height]
Input :VideogồmTkhunghình,vớikhunghìnhđầutiên cókhungbao gt-bboxcủa khung hình I 1, mô hình đã huấn luyệnmodel,trackercóhaihàminitv à trackn h ưthuậttoán 2.3và 2.5
2 for idx,(img,gt-bbox)∈enumerate(video)do
9 pred-bboxes.append(pred-bbox)
Thuậttoán2.6nàynhậnđầuvàolàc h u ỗ i v i d e o c ó k h u n g h ì n h đ ầ u ti ê n chứak h u n g b a o c ủ a đ ố i t ư ợ n g , v à d ự đ o á n t o à n b ộ k h u n g b a o t r ê n m ỗ i k h u n g hìnhbặc vi ệ c gọ it huật toán 2 3 v à2 5 đ ãđềcậpởt rê n.
- Bộ dữ liệu huấn luyện bao gồm 4 bộ dữ liệu sau: ImageNet VID[86],ImageNetDET[86],COCO[103]vàGOT10k[63].
- Tăngd ữ l i ệ u : s ử d ụ n g c á c k ỹ t h u ậ tt ă n g d ữ l i ệ u n h ư l ậ t , c h u y ể n t ỷ l ệ , l à m mờ,m ức xá m , đ ể t ă ng sự đ a dạ n gc ủ ac á c m ẫ uh u ấ nl uy ệ n c ho m ạ ng
- Số khung neo=5, kích thước trượt=8, kích thước=[8], tỷ lệ=[0,33,0.5,1,2,3].
- Thuậtto ántối ưu:S GD [9],tố c độhọckhởi độ ng là0 ,0 01 đến0,00 5t ro ng
5 chu kỳ huấn luyện đầu tiên và tốc độ học giảm dần theo cấp số nhân từ 0,005xuống0,00 00 5t ro ng 1 5chukỳ cuối.
- Mã nguồn được triển khai bằng Python sử dụng nền tảng PyTorchdựatrên PySOT[14],chạy trên máy có cấu hình 02 Intel(R) Xeon(R) Bronze 3104CPU@1,70GHz,96GRAM,02NvidiaGTX1080Ti.
• Bộdữliệu đánh giá: Anti-UAV[80]gồm 100 video hồng ngoại chấtlượngcao.
• Kếtquảcủacácmôhình khác dùng để so sánh: Các kết quảtrongbảng2.2(môhìnhSiamPRN++,SiamBAN,SiamCAR, ) do NCS tựthực nghiệm lại trên bộ Anti-UAV dựa vào mã nguồn và mô hình đã huấn luyệnmàcáctácgiảcủacácbàibáonàyđãcungcấp.Trongđó,mãnguồnSiamFC
[65]phiên bản Pytorch, mô hình, và phương pháp đánh giá được cung cấp bởibantổchứcAnti-UAV [80].
Luận án thực hiện so sánh TrackingUAV với bảy mô hình từ 2019 đến2020 như trong bảng2.2.Kết quả cho thấy rằng phương pháp đề xuất có điểmtrung bìnhacc= 0,654, cao hơn các phương pháp khác So với mô hình cơ sởSiamFC do Anti-UAV cung cấp, TrackingUAV có điểmacccao hơn 23,4% So vớiSiamRPN+
+,TrackingUAVcóđiểmchínhxáctrungbìnhcaohơn0,6%,cótốcđộtươngđương,mặcd ùTrackingUAVchỉđượchuấnluyệntrêntậpdữliệunhỏhơn rất nhiều so với SiamRPN++ Cụ thể, SiamRPN++ được huấn luyện trêncả bộ dữ liệu lớn là MSCOCO (51GB), ImageNet-DET
(21GB), ImageNet-VID(82GB),Youtube-BB[27]
(400GB)trênmáychủ4TeslaV100GPUs,trongkhiđóTrackingUAVchỉđượchuấnluyệ ntrênmáychủcấuhìnhrấtthấp02GTX1080ti trên tập dữ liệu nhỏ hơn: MSCOCO, ImageNet-DET, ImageNet-VID,GOT10k (67GB) TrackingUAV cũng đạt điểm cao hơn trình theo bám videodạngdàikháclàSiamDW-
LTkhoảng1.6%.KếtquảchothấyrằngcácmôhìnhSiamMask [92] and SiamBAN[120]không phù hợp với các bộ dữ liệu theo bámdàihạnnhưAnti-UAV.TrackingUAVcũngđạtđiểmcaohơnhaiphươngpháp sửdụngkiếntrúctùychỉnh(dùngDCF)làATOMvàDiMP.
Về tốc độ thức thi, TrackingUAV đạt hiệu suất thời gian thực, với tốc độkhoảng30FPStrênGPUcấuhìnhthấpGTX1080ti,vàđạttốcđộ50FPStrênRTX3070
Nguồn Môh ìn h Dữliệuhuấnluyện Điểma c c Tốcđộ
ILSVRC-VID,YouTube-VOS 0,403 GTX1080ti:26FPS
Anti-UAV[80] SiamFC[65] ImageNet,ILSVRC-VID 0,420 GTXTitanX:160FPS
LaSOT,GOT10k, COCO 0,420 GTX1080:30FPS
LaSOT,GOT10k, COCO 0,5322 GTX1080:43FPS
CVPR2019 SiamDW-LT[125] ImageNet,ImageNet-VID,Youtube-BB 0,6379 GTX1080:13FPS
CVPR2019 SiamRPN++[14] ImageNet,MSCOCO,ImageNet-DET,
ImageNet-VID,Youtube-BB 0,648 GTX1080ti:30FPS
(Ours) TrackingUAV MSCOCO,ImageNet-DET,
ImageNet-VID,GOT-10k 0,654 GTX1080ti:30FPS
Video acc( ↑ ) Video acc( ↑ ) Video acc( ↑ ) Video acc( ↑ )2019092-213001-1-4 0.689 20190926-103046-1-4 0.574 20190925-194211-1-1 0.663 20190926-142435-1-3 0.75520190926-144550-1-3 0.749 20190926-193515-1-3 0.649 20190926-183400-1-3 0.754 20190926-183941-1-4 0.68920190926-200510-1-1 0.704 20190926-193515-1-8 0.757 20190926-133516-1-7 0.697 20190925-131530-1-5 0.78420190925-101846-1-3 0.696 20190926-143632-1-7 0.512 20190926-143632-1-5 0.708 20190926-130341-1-1 0.78420190925-101846-1-1 0.621 20190926-144550-1-5 0.726 20190925-152412-1-1 0.349 20190925-143900-1-3 0.67520190925-205804-1-2 0.786 20190926-130341-1-4 0.804 20190925-200320-1-5 0.790 20190925-213001-1-6 0.53520190925-141417-1-3 0.134 20190926-142435-1-5 0.755 20190926-183941-1-6 0.759 20190925-210802-1-4 0.81420190925-131530-1-1 0.469 20190925-130434-1-9 0.718 20190925-194211-1-7 0.673 20190926-141816-1-5 0.80120190926-142435-1-8 0.635 20190925-143900-1-4 0.292 20190925-143900-1-5 0.470 20190925-194211-1-2 0.50220190925-141417-1-8 0.601 20190925-101846-1-8 0.533 20190925-222534-1-3 0.786 20190925-131530-1-7 0.57720190925-210802-1-2 0.773 20190925-130434-1-4 0.839 20190925-213001-1-5 0.521 20190925-133630-1-2 0.65920190925-213001-1-2 0.758 20190926-144550-1-8 0.771 20190925-130434-1-7 0.724 20190925-200320-1-2 0.74120190925-222534-1-4 0.723 20190925-200320-1-6 0.725 20190925-133630-1-7 0.092 20190926-193515-1-2 0.62720190926-195921-1-8 0.518 20190926-144550-1-9 0.842 20190925-143900-1-8 0.615 20190926-183941-1-9 0.81720190926-133516-1-1 0.846 20190925-131530-1-4 0.654 20190926-195921-1-9 0.628 20190925-210802-1-1 0.79820190926-130341-1-6 0.824 20190925-133630-1-4 0.713 20190925-133630-1-3 0.805 20190925-140917-1-5 0.26920190925-140917-1-4 0.270 20190926-141816-1-7 0.798 20190925-133630-1-1 0.765 20190926-130341-1-8 0.80420190926-193515-1-7 0.716 20190925-222534-1-1 0.761 20190925-205804-1-4 0.811 20190926-130341-1-3 0.79420190925-183946-1-6 0.645 20190926-183941-1-2 0.721 20190925-205804-1-1 0.784 20190925-152412-1-8 0.58820190925-183946-1-5 0.716 20190925-101846-1-7 0.342 20190926-143632-1-6 0.775 20190926-144550-1-2 0.75020190926-183400-1-8 0.728 20190925-194211-1-6 0.530 20190925-140917-1-2 0.365 20190926-142435-1-7 0.52120190926-103046-1-1 0.490 20190926-141816-1-1 0.841 20190925-152412-1-2 0.521 20190925-140917-1-7 0.61420190926-183941-1-8 0.818 20190926-183400-1-9 0.376 20190926-142435-1-4 0.801 20190926-183400-1-5 0.73220190925-133630-1-8 0.444 20190925-183946-1-8 0.781 20190925-210802-1-7 0.839 20190926-193515-1-1 0.74320190925-152412-1-6 0.449 20190925-200320-1-3 0.704 20190925-152412-1-7 0.340 20190925-213001-1-7 0.465
2.1.5 Minhhọakế t quả the obám c ia Tr acking UA V
Hình2.3mìnhhọamộtsốhìnhảnhkếtquảtheobámcủamôhìnhTrackingUAVcủab ộ d ữ liệ u k i ểm t hử ( tes t-de v) An ti -
U AV Khun g mà u lác â y là k h u n g bao dựđoán,khungmàuvànglàkhungbaoth ưctế(ground-truth).
UAVCơchếanchor(RegionProposalNetwork-RPN)đượcđềxuấtsửdụngtrong Faster-RCNN để phát hiện đối tượng trong ảnh Nó được ứng dụng vào mạngSiamesetheobámđốitượngnhưSiamRPN,DaSiamRPN,SiamRPN++,Sia- mAttn,T r a c k i n g U A V T u y n h i ê n , c ơ c h ế R P N c ó m ộ t s ố h ạ n c h ế n h ư p h ả i định nghĩa các tham số về anchor (ví dụ, số anchor, kích thước trượt, tỷ lệ, ).Trong đề xuất TrackingUAV, mô hình sử dụng cơ chế RPN, nên số phân lớp dựđoán làw × h ×2kvà số dự đoán khung bao làw × h ×4k, vớiw, h, klần lượt làchiềurộng,chiềucaocủađặctrưngsaukhikếthợpvàsốkhungneo.
Trong thời gian gần đây, trình phát hiện đối tượng trong ảnh không dùngkhungneo(anchor-free)đãthuhútsựchúýcủacộngđồngthịgiácmáytínhdotính mới và đơn giản của chúng CenterNet[59]đề xuất mục tiêu phát hiện làbộ ba gồm tâm của hộp bao đối tượng và hai góc FCOS[124]đề xuất dự đoánkhảnăngtồntạicủađốitượngvàtọađộhộpgiớihạnmàkhôngcầnthamchiếuneo. RepPoints[119]đã giới thiệu đại diện điểm mới để mô hình hóa thông tinvịtrícủađốitượngvàxácđịnhkhuvựcchứađốitượng.
Các mạng anchor-free có đầu ra của nhánhphân lớp làh×w×2, và nhánhhồi quy boxh×w×4 Do vậy, khi dùng anchor-free, trong huấn luyện số lầntính hàm mất mát giảmklần và trong kiểm thử, số ứng cử viên cần xem xétcũng giảmklần Việc này giúp cho quá trình huấn luyện nhanh hơn khi phảihuấnluyệntrêntậpdữliệulớnvàcấuhìnhmáychủthấp.
Minhh ọ a k ế t q u ả t h e o b á m c ủ a T r a c k i n g U A V
lập[90]đã mang lại thành tựu đáng kể.
Trong[56],mộtcơchếtựtậptrungđãđượcgiớithiệuđểthuthậpthôngtinngữcảnhcủa phân vùng ngữ nghĩa Một số các tiếp cận đã được thực hiện để giới thiệucơ chế tập trung vào lĩnh vực theo bám đối tượng Wang và cộng sự đã đề xuấtRASNet[91]bằng cách phát triển một cơ chế tập trung cho trình theo bámSiamese, nhưng nó chỉ áp dụng cho thông tin mẫu, điều này hạn chế khả năngđạidiệncủamôhình.Đặcbiệt,MLT[46]sửdụngcơchếtậptrungtheokênhđểc ungcấpmạngđốisánhvớithôngtinvềmụctiêucụthể.
Trong phần tiếp theo, dựa vào mô hình tổng quan theo bám đối tượng hình1.29,công thức mạng Siamese(1.9),mô hình SiamFC[65],cơ chế tập trung vàmạngp h á t h i ệ n đ ố i t ư ợ n g t r o n g ả n h k h ô n g d ù n g k h u n g n e o , l u ậ n á n đ ề x u ấ t mộtsố g i ả i pháp m ớ i để x â y dự ng mô - đ un tí c h hợpbằngv i ệ c xâ y dựnghàmφ,thay thế hàm tương quan chéo⋆bằng kiến trúc sử dụng cơ chế tập trung và xâydựngđầudự đo án kếtquả theobám không sửdụng khung neo.
Môh ì n h h ọ c s â u t h ờ i g i a n t h ự c t h e o b á m đ ố i t ư ợ n g s ử d ụ n g c ơ chếtậptrung vàkhôngdùngkhung neodựatrênkiếntrúcSiamese 5
Mô-đuntăngcườngdữliệuảnhmẫuvàảnhtìmkiếmdùng cơc hết ậpt rung
Như minh họa trong hình2.4,mô-đun tăng cường đặc trưng(AFE)đề xuấtnhậnZ,Xởt r ê n l à m đ ầ u v à o v à x u ấ t r a đ ặ c t r ư n g đ ư ợ c đ i ề u c h ỉ n h b ằ n g v i ệ c sử dụng cơ chế tập trung Mô-đunAFEchứa ba mô-đun con là: mô-dun tự tậptrungtheokênh,mô-đuntựtậptrungtheokhônggianv à m ô - đ u n t ậ p t r u n g chéo.
CxHW CxHW Đổi chiều Đổi chiều CxHxW
Tự tập trung theo không gian
Tự tập trung theo kiênh riêng trên mỗi nhánh của mạng Siamese Lấy ví dụ về cơ chế tập trung theokênh Giả sử tính năng đầu vào làX∈R C×H×W , có thể sinh bản đồ tập trungtheokênh[37]A ch (X)∈R C×1×1 :
A ch (X)=F SG [ W z ((σ1(W v (X)))×F SM (σ2(W q (X))))], (2.8) ởđ â yW q ,W v và W z làl ớ p tí c h c h ậ p 1×1,σ1,σ2làh a i t o á n t ử t h a y đ ổ i k í c h thư ớccủatenxơ(tensor),F SM (.)l àt o á n t ử S o ft M a x , “ ×”t o á n t ử d o t - p r o d u c t vàF SG (.)làtoántửSigmoid.Đầuracủanhánhtựtậptrungtheokênhlà:
X ch = A ch (X)⊙ ch X , X ch ∈R C×H×W (2.9) ởđây⊙ chlà toántửnhântheokênh.
A sp (X)=F SG [σ3(F SM (σ1(F GP ( W q (X))))×σ2(W v (X)))], (2.10) trongđ óF GP làt o á n t ử p o o l i n g t o à n c ụ c ,F GP ( X)= 1 Σ H Σ W
Cơc h ế t ậ p t r u n g c h é o:D ự a tr ê n [56] , l u ậ n á n đ ề x uấ t một m ô-đ un con
T T T tậpt r u n g c h é o đ ể h ọ c t h ô n g ti n n g ữ n g h ĩ a t ừ h a i n h á n h s i a m e s e Đ ầ u ti ê n , thựchiệnthayđổichiềucủađặctrưngmẫutừZthànhZ¯∈R C×n ,trongđó n=h× wvàthayđổikíchthướccủađặctrưngtìmkiếmtừXthànhX¯vớiN=H ×W.Sauđótínhtoántậptrungchéotừnhánhmẫu:
, X¯ cr ∈R C×N (2.13) trongđ óσl àt h a m s ố v ô h ư ớ n g , v à t h u ộ c tí n h đ ầ u r a c ủ a m ô - đ u n l à X cr ∈
R C×H×W sau khithayđổichiềucủaX¯ cr Cuối cùng cộng các đặc trưng tự tập trung theo kênhX ch , đặc trưng tự tậptrung theo không gianX sp và đặc trưng tập trung chéo X cr với nhau thu đượcđặctrưngtậptrungcủaảnhtìmkiếm.
Kết hợp đặc trưng Theo[14],mô hình sử dụng tương quan sâu và rộng đểtínhtoánbảnđồtươngđồngngữnghĩagiữađặctrưngcủahainhánh:
R=φ(X S )⋆φ(Z T ) (2.16) trongđó⋆b i uểu thịtoántửtươngquangiữatừngkênh,φl àtíchchập3×3.Bảnđồ đặc trưng thu đượcRcó số kênh bằngφ(X S ), và nó chứa nhiều thông tin đểphânloạivàhồiquykhungbaođốitượng.
Mô- đunhồ i q uy v àp hâ n lo ại đ ố i t ượng d ùn g t hể hi ệ n đ i ể m 6 0 2.2.4 Hàmm ấ t m á t 61
Mạngdựđoángồmhaimạngconnhưhình2.4(bênphải).Mạngxácđịnhvị trí thực hiện hồi quy khung bao đối tượng và tinh chỉnh kết quả Mạng nàynhận R l à m đ ầ u v à á p d ụ n g b a l ớ p tí c h c h ậ p 3×3v ớ ih à m k í c h h o ạ tR e
L U đ t o ra đ c tr ng có 256 kênh M t nhánh c a m ng xác đ nh v trí nàyểu ại ặc trưng, ư ộ ủa mạng xác định vị trí này ại ịnh vị trí này ịnh vị trí này tíchchậpđ ặ c t r ư n g m ộ t l ầ n n ữ a đ ể x u ấ t r a v é c - t ơ k h o ả n g c á c h 4 c h i ề u (l ′ ,t ′ ,r ′ ,b ′ )tại mỗi vị trí không gian, véc-tơ này là khung bao khởi tạo Với khung bao khởitạo và đặc trưng ở trên, một nhánh khác áp dụng tích chập có thể biến dạng(deformable convolution) với chín điểm lấy mẫu đặc trưng và tạo ra hệ số tỷ lệkhoảngcách(∆l,∆t,∆r,∆b),t ỷ l ệ n à y đ ư ợ c n h â n v ớ i v é c t ơ k h o ả n g c á c h k h ở i tạođểtạorakhungbaotinh chỉnh(l,t,r,b). g c
Mạng con còn lại dự đoán điểm phân lớp, có cấu trúc tương tự mạng xácđịnh vị trí, chỉ khác ở chỗ mạng này xuất ra véc tơ gồm hai phần tử trên mỗi vịtrí không gian, trong đó mỗi phần tử đại diện cho độ tin cận sự xuất hiện củađốitượngvàđộchínhxáccủaxácđịnhvịtrí.
(g w ,g h )thểhiệnvịtrítrungtâm,vịtrítrêncùngbêntrái,vịtrídướicùngbênphảivàkíchth ướccủakhungmụctiêutươngứng.Theo[23],môhìnhsử dụng vùng hình elip để gán nhãn Có hai hình elip làE1vàE2.E1có tâm là(g x ,g y )vàchiềudàitrụclà( g w , g h ) ,cònE2cótâmlà(g x ,g y )vàchiềudàitrục c c 2 2 c c là( g w , g h ) Dođó,công thứccủa haihìnheliplà:
Vớinhánhphânlớp,vịtrí(p i ,p j )nằmtronghìnhelipE 2đượcxácđịnhlàdương(positive), vànằmngoàiE 1đượccoilàâm(negative),nếu(p i ,p j )nằmgiữahìnhelipE 1vàE2,chúngđ ượcbỏqua.Từđóxácđịnhhàmmấtmátđatácvụnhưsau:
L=λ 1 L cls +λ 2 L reg−ini +λ 3 L reg−ref (2.19) trongđóL cls làhàmmấtmátentropychéo:
(y b log(p b )+(1−y b )log(1−p b )) (2.20) trongđ óy o v ày b b i ể ut hị n hã n của đ ố i t ượngm ục tiê u v àv àđ ố i t ư ợn g nề n,p o v àp b b i ể ut h ị x á c x u ấ tt r ì n h t h e o b á m d ự đ o á n đ ố i t ư ợ n g m ụ c ti ê u v à d ự đ o á n nền.
L reg − ini v à L reg − ref l àhàmIoU.Với:
) (2.22) trongđóN pos biểuthịsốlượngmẫudương,I{(p i ,p j )∈E 2 }biểuthịlàmộthàmchỉbáo,bằng1 nếu(p i ,p j )∈E2vàbằng0nếungượclại,L I oU làhàmmấtmátIoU i, j l r b nhưtrongUnitBox[49],g i,j làkhungbaothựctế,p reg−ini khungb a o k h ở i t ạ o , reg i,j khungbaohồiquytinhchỉnh.
Quát r ì n h t h e o b á m
Trong quá trình theo bám, khu vực mẫu chứa đối tượng được cắt từ khunghìnhđ ầ u ti ê n v à đ ư a v à o m ạ n g S i a m e s e Đ ố i v ớ i k h u n g ti ế p t h e o , k h u v ự c tì m kiếmđ ư ợ c c ắ t v à t r í c h x u ấ t đ ặ c t r ư n g d ự a v à o v ị t r í m ụ c ti ê u c ủ a k h u n g h ì n h trướcđ ó , s au đ ó t hực hi ệ n d ự đo án t ro ng v ùngtìm k i ế m để đ ược bả n đ ồ ph ân lớpP cls h×w×2 vàhồiquytinhchỉnhP reg−ref Sauđótínhtoánkhungbaodựđoán h×w×4 bởicông thức: p x 1 p y
(2.23) trongđ ód reg−ref ,d reg−ref ,d reg−ref vàd reg−ref biểut h ị c á c g i á t r ị c ủ a b ả n đ ồ l t r b hồiquyđãtinhchỉnh,
(p x 1 ,p y 1 ) và(p x 2 ,p y 2 ) làgóctrêntrùngbêntráivàgócdướiphảicủakhungbaodựđoán. Trong các khung bao dự đoán, khung bao dự đoán có điểm tốt nhất sẽ đượcchọnvàkíchthướccủanóđượccậpnhậtbằngnộisuytuyến tính vớitrạn gtháicủakhungbaot rướcđó bằng c áchápdụng cửasổ cosi ne vàphạt t hay đổ it ỷlệ đểl à m m ư ợ t c h u y ể n đ ộ n g c ủ a đ ố i t ư ợ n g m ụ c ti ê u n h ư t r o n g S i a m R P N
MạngS i a m e s e t h e o b á m đ ố i t ư ợ n g s ử d ụ n g c ơ c h ế t ậ p t r u n g đ ể kếthợpvàtăngcườngđặctrưnggiữahainhánhcủamạngSiamese 62
MôhìnhSiamAAM
- Mô-đunkết hợpđ ặct rưng;
- Vàmô - đ undự đ o án kế t quả.
Trích chọn đặc trưng: Tương tự như mạng trích chọn đặc trưng trongmôhìnhđềxuấtởmục2.2,chỉkhácởchỗthayvìdùngResNet50,luậnánđềxuất dùng ECA-Net[93],một phiên bản cải tiến của ResNet50, đã được huấnluyện trên bộ[86]làm mạng trích chọn đặc trưng Đầu ra của mạng trích chọnđặctrưnglàZ∈R h×w×Cvà X∈R H×W×C, vớiC%6.
Hình2.6.Tổngquanmôhìnhđềxuất(SiamAAM),baogồm đầuvào,tríchchọn đặctrưng, kếthợp đặctrưng dùngcơ chếtậptrung vàmạng dựđoánphânlớpvàhồiquy.
Mô-đuntăngcườngvàkếthợpdữliệuảnhhainhánhSiamese63
Khiđốitượngtrongvideothayđổi hì nh dạnghoặcbịchelấp, c ác đặctrưn gđịa phương chi tiết là đa số để so khớp vùng mẫu mục tiêu với khu vực tìm kiếm.Dođóthayvì,chỉsửdụngmốitươngquantheochiềusâu,luậnánđềxuất mộtcơchếkếthợpsựtậptrung,trongđóđặctrưngmẫuvàtìmkiếmđượcsokh ớpở mức điểm ảnh như thể hiện trong hình2.7.Cụ thể, các bản đồ khóa và giá trịđượctạo rat ừcác đ ặc t rưngZ vàX,đó ngv ai t rò m ãhó angững hĩ at rựcq ua n đểđốis ánhv àt hô ngtin ngoạihì nhchi tiế t đ ể dự đo án.
(2.24) trongđ óW kt ,W vt ,W ks ,v àW vs làl ớ p tí c h c h ậ p3×3,σ1,σ2,σ3vàσ4làc á c toán tử thay đổi chiều của tenxơ (tensor) Sau đó tính toán sự tương đồng giữabảnđồcủađặctrưngmẫuvàđặctrưngtìmkiếmbởi:
Tựt ậ p t r u n g t h e o k h ô n g g i a n:V ớ i đ ặ c t r ư n g đ ầ u v à oR ∈R H×W×C , t ự t ậ p trungtheokhônggianđượcA sp (R)∈R 1×H×W đượctínhbởi:
A sp (R)=F SG [σ3(F SM (σ1(F GP ( W q (R))))×σ2(W v (R)))], (2.29) trongđóW q v à W v l àlớptích chập1×1,σ1,σ2v àσ3l à cáctoántửthayđổichiềucủ atenxơ(tensor), vàF SM (.)l à t oántửSoftMa x.F GP làtoá ntửpooling
R ∗ =A sp (R)⊙ ch R , R ∗ ∈R H×W×C (2.30) trongđó⊙ chlà toántửnhântheo kênh. Đặct r ư n gR ∗ c h ứ ađ ầ y đ ủ t h ô n g ti n c h o h ồ i q u y v à p h â n l ớ p k h u n g b a o đ ố i tượng.
Mạngdựđoánkhung baođốitượng
Mạngdựđoánđượcmìnhhọanhưhình2.9,gồm3nhánhcon:nhánhphânlớp dự đoán phân loại tại mỗi vị trí, nhánh hồi quy tính toán khung giới hạnmục tiêu và nhánh trung tâm song song với nhánh hồi quy để loại bỏ giá trịngoạilai.VớiđầuvàolàR ∗ sửdụngcácmạngconSiamese,nhánhphânlớpchora bản đồ lớpP cls ∈R 25×25×2 , nhánh hồi quy cho ra đặc tính bản đồ hồi quyP reg ∈R 25×25×4 vànhánhtrungtâmchorađặctrưngP cen ∈R 25×25×1
Hình2.9.MạngdựđoánkếtquảcủamôhìnhSiamAAM,gồmdựđoántrungtâm,dự đoánhồiquyvàdựđoánphânlớp.
Hàmmấtmát
Phươngp h á p g á n n h ã n c h o c á c đ i ể m (i,j)t r o n gR s ửd ụ n g h a i e l i pE1and
E2t ư ơ n gt ựnhư môh ìn hSiamAPNđãđềxuất ,và khác vớiS ia mCA R.
-Hà mmấ t má t h ồi qu yL reg l àh àm I oU :
-HàmmấtmátphânlớpL cls làhàmtươngquanchéo(cross-entropy):
(y b log(q b )+(1−y b )log(1−q b )) (2.32) trongđóy o v ày b l ànhãnđốitượngvànhãnnềntươngứng,q o v àq b l àxácxuấtdựđo ánđốitượng vànền.
Quát r ì n h t h e o b á m
Quát r ì n h t h e o b á m , t h ự c h i ệ n t ư ơ n g t ự n h ư m ô h ì n h S i a m A P N ở t r ê n : Trong quá trình theo bám, khu vực mẫu chứa đối tượng được cắt từ khunghìnhđ ầ u ti ê n v à đ ư a v à o m ạ n g S i a m e s e Đ ố i v ớ i k h u n g ti ế p t h e o , k h u v ự c tì m kiếmđ ư ợ c c ắ t v à t r í c h x u ấ t đ ặ c t r ư n g d ự a v à o v ị t r í m ụ c ti ê u c ủ a k h u n g h ì n h trướcđ ó , s au đ ó t hực hi ệ n d ự đo án t ro ng v ùngtìm k i ế m để đ ược bả n đ ồ ph ân lớpP cls h×w×2 vàhồiquy tinh chỉnhP reg h×w×4.S a u đ ó tí n h t o á n k h u n g b a o d ự đ o á n bởicông thức: p x 1 =p i −d reg ,p y =p j −d reg ,
(2.36) p x 2 =p i +d reg ,p y =p j +d reg , trongđód reg ,d reg ,d reg v à d reg b i ể uthịcácgiátrịcủabảnđồhồiquykhung l t r b s∗
// Tính toán đặc trưng Tính zf = model.backbone(z ) // Điều chỉnh kênh về 256 Tính zf = model.neck(zf) return zf
Tính xf = model.neck(xf)
// Kết hợp đặc trưng theo công thức ( hay Tính fused theo công thức đối với mô hình SiamAPN hoặc đối với mô hình SiamAAM // Tính cls, loc theo hình (SiamAPN) hoặc (SiamAAM) cls, loc = model.head(fused) outputs = {} outputs[“cls”] = cls outputs[“loc”] = loc return outputs dựđoán.
Saukhitạocáckhungbaodựđoán,khungbaodựđoáncóđiểmtốtnhấtsẽ được chọn và kích thước của nó được cập nhật bằng nội suy tuyến tính vớitrạng thái của khung bao trước đó bằng cách áp dụng cửa sổ cosine và phạtthay đổi tỷ lệ để làm mượt các chuyển động của đối tượng mục tiêu như trongSiamRPN[13].
Thuậttoántheobámđốitượngtheomôhình SiamAPN và Sia-mAAM 67
Thuậttoán2.7:Hàmtínhtoánđặctrưngcủaảnhmẫu Input:Vùngcắtcủaảnhmẫuz,môhìnhđãhuấnluyệnmodel
Thuậtt o á n 2 7 t ư ơ n g t ự n h ư t h u ậ t t o á n 2 1 t h ự c h i ệ n tí n h t o á n đ ặ c t r ư n g của khu vực chứa đối tượng trong ảnh mẫu Đầu ra là zf được dùng trong cáchàm (thuật toán) tiếp theo Thuật toán2.8thực hiện tính toán phần lớp vàkhungbaodựđoántheomôhìnhSiamAPNhoặcSiamAAM.
Thuậtt o á n 2 9 : T h ủt ục kh ở i t ạ o t r ì n h t h e o b á mđ ố i t ư ợ n g
Input:Khung hình đầu tiên của videoimg, khung baobboxtại khunghìnhđó,môhìnhđãhuấnluyệnmodel
4 ĐặtI-SIZE=TRACK.INSTANCE-SIZE
7 ĐặtWIN-INF=TRACK.WINDOW-INFLUENCE
10 Tínhscore-size=(I-SIZE-E-SIZE)/STRIDE +1+BASE-SIZE
14 Tínhcenter-pos=[bbox[0]+(bbox[2]-1)/2,bbox[1]+(bbox[3]-1)/2]
19 Tínhsz=round(sqrt(wz*hz))
20 Tínhchannel-average=mean(img,axis=(0,1))
Thuật toán khởitạo2.9thựct h i ệ n k h ở i t ạ o c á c t h a m s ố : k í c h t h ư ớ c đ ầ u vào,t h a m s ố n ộ i s u y p h ạ t / l à m t r ơ n k h u n g b a o , S a u đ ó tí n h t o á n k í c h t h ư ớ c khungb a o k h ở i t ạ o , tí n h v ù n g c h ứ a đ ố i t ư ợ n g v à tí n h t o á n đ ặ c t r ư n g c ủ a v ù n g nàytheotuậntoán2.7.Cáckhởitạo,tínhtoánở t h u ậ tt o á n 2 9 đ ư ợ c d ù n g trongt huậtto án 2 1 0 tiế pt heo
Thuậtt o á n 2 1 0 : H à mx á c đ ị n h k h u n g b a o đ ố i t ư ợ n gInput :Khunghìnhimg,thamsốđãkhởitạotại2.9Output:Khu ngbaobboxt iại khunghìnhnày.
13 Tínhpscore=pscore*(1-WIN-INF)+window*WIN-INF
16 Tínhlr=penalty[best-idx]*score[best-idx]*LR
19 Tínhwidth=size[0]*(1-lr)+bbox[2]*lr
20 Tínhheight=size[1]*(1-lr)+bbox[3]*lr
24 bbox=[cx-width/2,cy-height/2,width,height]
Thuật toán2.10thực thiện tính toán kích thức của vùng chứa đối tượngtrongảnhtìmkiếmdựavàokíchthướckhungbaokếtquảcủakhunghìnhtrướcđó (dòng 1-7) Đưa vùng này vào thuật toán2.8để dự đoán phân lớp và hồiquy khung bao (dòng 8-9) Tiếp đó tính toán xác định chỉ số có điểm phân lớpcaonhất(dòng10- 14).Dựavàođiểmphânlớpcaonhấtvàchỉsốtươngứngđểtính toán kích thước (chiều rộng, chiều cao) và tâm của khung bao đối tượng(15-20).Thựchiệncậpnhậttrạngtháikhungbao(dòng22-23).Cuốicùngtính toán khung bao kết quả (dòng 24) Thuật toán2.10dùng cơ chế điểm, khác vớithuật toán Thuật toán2.4dùng cơ chế khung neo Trong cơ chế điểm, kết quảdự đoán đầu ra (phân lớp-cls, hồi quy khung bao-loc) ít hơnklần so với cơ chếkhungneo,vớikl àsốkhungneo.
Input :VideogồmTkhunghình,vớikhunghìnhđầutiên cókhungbao gt-bboxcủa khung hình I 1, mô hình đã huấn luyệnmodel,trackercóhaihàminitv à trackn h ưthuậttoán2.9và 2.10
2 for idx,(img,gt-bbox) ∈ enumerate(video)do
9 pred-bboxes.append(pred-bbox)
Thuậtt o á n 2 1 1 n à y n h ậ n đ ầ u v à o l à c h u ỗ i v i d e o c ó k h u n g h ì n h đ ầ u ti ê n chứak h u n g b a o c ủ a đ ố i t ư ợ n g , v à d ự đ o á n t o à n b ộ k h u n g b a o t r ê n m ỗ i k h u n g hìnhbặc vi ệ c gọ i thuật t o án 2 9v à2 1 0 đ ãđềc ậpở t rên.
Đánhg i á đ ộ c h í n h x á c c ủ a m ô h ì n h S i a m A P N v à S i a m A A M
Càiđ ặ tt h ự c n g h i ệ m .70 2.5.2 SosánhkếtquảthựcnghiệmcủamôhìnhSiamAPNvàSiamAAM
+MSCOCO[103]:códunglượng51GB,chứa117.266hìnhảnh,đượcgánnh ãnlàboxvàmask.
+ImageNetDET[86]:códunglượng21GB, chứa333.474hìnhảnh,được gánnhãnlàbox.
+ImageNetVID[86]:códunglượng82GB,quá trìnhhuấnluyệnlấy3862ản hvớikhoảngcáchgiữacáckhunghìnhlà100,vàlặplạiđểđượctổngsốảnh là100.000.Cáckhunghìnhđượcgánnhãnlàbox
+GOT10k[ 6 3 ] : c ó d u n g l ư ợ n g 5 1 G B , q u á t r ì n h h u ấ n l u y ệ n l ấ y 9 3 3 5 ả n h vớikhoảngcáchgiữacáckhung hìnhlà50,vàlặp lạiđểđượctổngsốả nhlà 100.000.Cáckhunghìnhđượcgánnhãnlàbox.
+Đầuvào:kíchthướcảnhđầumẫulà127×127pixel,cònảnhtìm kiếmlà
+Mạngtr ích chọn đặct rưng: ResNet-
50 đãđược huấnluyện t rênb ộdữ liệuImageNet[86].
+Tăngcườngdữliệu:sửdụngcáckỹthuậttăngdữliệunhưlật,chuyểntỷlệ,làmm ờ,mứcxám,
+Thuậttoántốiưu:SGD[9],tốcđộhọckhởiđộnglà0,001đến0,005trong
5 chu kỳ huấn luyện đầu tiên và tốc độ học giảm dần theo cấp số nhân từ 0,005xuống0,00 00 5t ro ng 1 5chukỳ cuối.
- Hàm mất mát huấn luyện mô hình SiamAPN là tổng của hàm phân lớpvàha ihàmh ồiquy ( 2.19) ,vớ it hams ố:λ1=1,λ2=1,5v àλ3=2.
- HàmmấtmáthuấnluyệnmôhìnhSiamAAMlàtổngcủahàmphânlớp,hàmh ồiq u y và h à m mấ t m át t r u n g tâ m( 2 3 5) , v ớiλ 1=1,λ2= 1v àλ 3= 3.
- Môi trường phát triển: Phương pháp được cài đặt dùng ngôn ngữ Pythontrên nền tảng thư viện PyTorch chạy trên máy có cấu hình 02 Intel(R) Xeon(R)Bronze31 04 C PU @1 , 7 0 G H z , 9 6G R A M , 0 2 N vi d ia G TX 1080Ti.
2.5.2 So sánh kết quả thực nghiệm cia mô hình SiamAPN và
LuậnánđãthựchiệnthựcnghiêmSiamAPNvàSiamAAMtrênmộtsốbộdữliệutheo bámđốitượngdạngngắn,kếtquảchothấymôhìnhhoạtđộnghiệuquảvàchạyvớithờigiant hựctrênGPUcócấuhìnhlàGTX1080ti.TrongđóSiamAPNđạt45FPScònSiamAA Mđạt42FPS.
• Trên bộ dữ liệu UAV123 Đề xuất được so sánh với bảy phương phápmới,baogồm,SiamRPN++[14],SiamBAN[120],SiamCAR [23],SiamRPN[13],DaSiamRPN[123],ECO[69],SiamFC[65]trênbộdữliệuUAV123.
— Về dữ liệu huấn luyện : SiamAPN và SiamAAM được huấn luyện trêntập dữ liệu nhỏ hơn rất nhiều so với hai mô hình đề xuất tại CVPR năm
2020 làSiamBANvàSiamCAR.TheoSiamMask[92],khihuấnluyệntrênbộYoutube- BB,kếtquảcủamôhìnhSiamMasktăng4,3%trênbộVOT2018sovớikhônghuấn luyện trên bộ dữ liệu Youtube-BB Việchuấn luyện trên tập dữ liệu lớnnhư trong SiamBAN, SiamCAR yêu cầu máy chủ cấu hình cao và nhiều GPU(vídụV100,hayA100).
— Về tốc độ suy luận : cả SiamAPN và SiamAAM đều đạt tốc độ thì gianthực trên GPU GTX 1080ti, với tốc độ lần lượt là 45 FPS và 42 FPS So sánhvới SiamBAN và SiamCAR, trình theo bám đề xuất đạt được kết quả tốt hơnvớimạngđơngiảnhơnvànhanhhơn,mặcdùSiamAAMhuấnluyệntrênc ácbộ dữ liệu nhỏ hơn rất nhiều và chỉ sử dùng lớp thứ 3 (layer3) làm đầu vào củamô hình Trong đó SiamBAN đạt 40PFS trên cùng GTX 1080ti, còn SiamCARđạt52FPStrênGPUcócấuhìnhcaohơnnhiềulàRTX2080ti.
Bảng2.4.SosánhkếtquảtrênbộdữliệuUAV123củamôhìnhSiamAPNvà SiamAAM S là điểm thành công, P là điểm chính xác Màu đỏ cao nhất, màuxanhcaonhì,xanhlácaothứba.
Nguồn Môhình S(↑) P(↑) GPU FPS(↑) Huấnluyện
Ours SiamAAM 0,632 0,833 GTX1080ti 42 MSCOCO,I m a g e N e t - D E T ,
CVPR2020 SiamBAN[120] 0,631 0,833 GTX1080ti 40 MSCOCO,I m a g e N e t - D E T , G O T -
1 0 k , ImageNet-VID,Youtube-BB,LaSOT
Ours SiamAPN 0,623 0,817 GTX1080ti 45 MSCOCO,I m a g e N e t - D E T ,
CVPR2020 SiamCAR[23] 0,623 0,813 RTX2080ti 52 MSCOCO,I m a g e N e t - D E T ,
ECCV2018 DaSiamRPN[123] 0,569 0,781 GTXTitanX 160 MSCOCO,ImageNet,
CVPR2018 SiamRPN[13] 0,557 0,768 GTX1060 160 ImageNet,Youtube-BB
CVPR2019 SiamDW[ 1 2 5 ] 0,536 0,776 GTX1080 14 ImageNet,ImageNet-VID,
— So sánh tổng thể : Kết quả như trong bảng2.4và hình2.10,mô hìnhSiamAAMđạtđiểmthànhcônglà0,632vàđiểmchínhxáclà0,833,caohơncácmô hình khác SiamAAM hoạt động tốt hơnSiamBAN[120]0,1%, SiamCAR[23]0,9% theo điểm thành công Về điểm chính xác, SiamAAM và SiamBAN có điểmsố bằng nhau, mặc dù SiamAAM chỉ dùng một lớp của mạng trích chọn đặctrưng làm đầu vào so với 3 lớp trong
SiamBAN SiamAPN có điểm thành công0,623xếpthứ3sauSiamBANvàSiamAAM.SiamAPNcóđiểmchính xácb ằng
PN N n mR Ocea DaSia urs) Ours)
0,617,xếpthứ3 trong các môhình được sosánh.
Hình2.10.KếtquảđánhgiátênbộUAV123theotổngthểcủamôhìnhđềxuấtSia mAP N và S ia m A A M D iệ n tí ch d ư ớ iđ ư ờ n g c on g ( AU C) và đ ộ ch ín h xác khoảng cách (DP) được thểhiện tương ứng ở các hìnhbên trái và bên phải.
— Sosánhtheo thuộc tính thách thức : Kết quả như bảng2.5và hình2.12,mô hình SiamAAM đạt điểm thành công cao nhất đối với các thuộc tính:camera chuyển động-CM (0,641), thay đổi độ sáng-IV (0,582), độ phân giảithấp-LR( 0 , 4 8 0 ) , t h a y đ ổ i t ỷ l ệ - A R C ( 0 , 6 0 5 ) , n g o à i k h u n g h ì n h -
O V ( 0 , 5 8 9 ) , b ị che lấp một phần-PO (0,558), thay đổi khung hình-VC (0,655), đối tượng tươngtự-SO (0,594) và thay đổi kích thước-SV (0,671) Ngoài ra, SiamAAM còn đạtđiểm cao thứ nhì về chuyển động nhanh-FM (0,576) và đạt hạng ba các thuộctínhnềnlộnxộn-BC(0,441)vàbịchelấphoàntoàn-FO (0,417).
Trong khi đó, mô hình SiamAPN đạt điểm cao hơn các mô hình khác ởthuộc tính độ phân giải thấp-LR (0,475), ngoài khung hình-OV (0,584) và đốitương tương tự-SO (0,589) SiamAPN cũng đạt điểm cao thứ ba với các thuộctínhthayđổikhunghình-VC(0,640)vàthayđổikíchthước-
Bảng 2.5 So sánh kết quả theo các thuộc tính thách thức trên bộ dữ liệuUAV123c ủ a môh ìn h S ia m A P N và Sia mA AM
Môh ì nh CM( ↑ ) IV( ↑ ) LR( ↑ ) ARC( ↑ ) OV( ↑ ) PO( ↑ ) VC( ↑ ) SO( ↑ ) SV( ↑ ) BC( ↑ ) FO( ↑ ) FM( ↑ )
SiamAAM(Our) 0,641 0,582 0,480 0,605 0,589 0,558 0,655 0,594 0,617 0,441 0,417 0,576 SiamAPN(Our) 0,620 0.510 0,475 0,577 0,584 0,531 0,640 0,589 0,609 0,415 0,405 0,546 SiamBAN[120] 0,639 0,565 0,472 0,591 0,589 0,550 0,639 0,565 0,612 0,431 0,418 0,593
T ỷ lệ th à n h cô n g Đ iể m ch ín h xá c
[0.566] SiamCAR [0.565] SiamBAN [0.553] Ocean [0.510] SiamAPN(O [0.500] DaSiamRPN [0.496] SiamRPN [0.480] SiamDW [0.458] ECO urs) Ours)
[0.596] Ocean [0.591] SiamBAN [0.580] SiamCAR [0.577] SiamAPN(O [0.537] DaSiamRPN [0.500] SiamRP [0.489] SiamDW [0.4 45] ECO
[0.5 [0.550] SiamBAN [0.539] Ocean [0.533] SiamCAR [0.531] SiamAPN(O [0.493] DaSiamRPN [0.472] SiamRPN [0.456] ECO [0.456] Sia mDW urs) rs) (Ou AAM Siam
Hình2.11.BiểuđồsosánhkếtquảtrênbộUAV123củahaimôhìnhSiamAPNvàS ia mAAMth eo thuộctínht há ch thức
T ỷ lệ th à n h cô n g T ỷ lệ th à n h cô n g T ỷ lệ th à n h cô n g T ỷ lệ th à n h cô n g T ỷl ệ th à n h cô n g
[0.444] CAR mRPN [0.441] SiamAAM(Ours) [0.431] SiamBAN [0.415] SiamAPN(Ours) [0.394] SiamDW [0.391] SiamRP [0.387]
[0.593] SiamBAN [0.576] SiamAAM(Ours) [0.569] Ocean [0.549] SiamCAR [0.546] SiamAPN(O [0.520] DaSiamRPN [0.491] SiamRPN [0.456] SiamDW [0.415] ECO urs)
DW Siam ECO urs) Ours)
0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 Biểuđồ thành công:Đốitượng tương tự
Hình2.12.BiểuđồsosánhkếtquảtrênbộUAV123củahaimôhìnhSiamAPNvàS ia mAAMth eo thuộctínht há ch thức
T ỷ lệ th à n h cô n g T ỷ lệ th à n h cô n g T ỷ lệ th à n h cô n g T ỷ lệ th à n h cô n g T ỷl ệ th à n h cô n g T ỷl ệ th à n h cô n g
[0.915] SiamRP [0.910] SiamBAN [0.910] ECO [0.910] SiamCAR [0.909] MDNet [0.907] SiamAP [0.904] KYS [0.900] DiMP50 [0.892] SiamDW [0.880] DaSiam [0 772 ] Sia mF C
N++ ean ] Oc 920 [0 xuất với mười một phương pháp khác, bao gồm, SiamFC[65],MDNet[39],GradNet[89] ,E CO [69], Sia mRP N [1 3], DaSia mRPN
+[14],SiamBAN[120],KYS[31],vàOcean[126].Kếtquảnhưhình2.13,SiamAPNxếphạn gđầutiênvềchỉsốthànhcôngvàxếpthứnămvềchỉsốchính xác Cụ thể, mô hình SiamAPN đạt điểm thành công là 0,699 cao hơn cácmô hình Siamese khác đề xuất năm 2019-2020 là SiamRPN++ (CVPR-2019),SiamCAR( C V P R - 2 0 2 0 ) , S i a m B A N ( C V P R -
2 0 2 0 ) , O c e a n ( E C C V - 2 0 2 0 ) T r o n g đó các mô hình Siamese này đều huấn luyện trên các tập dữ liệu lớn hơn, baogồm LaSOT[36],YouTube-BB[27], và sử dùng đầu vào là ba lớp của mạng tríchchọn đặctrưng ResNet50 Về điếm chính xác, SiamAPN đạt điểm 0,907, caohớn KYS đề xuất năm 2020 và thấp hơn các phương pháp Siamese sử dụng balớpđầuvàokhácđềxuấtnăm2020.
— Sosánhtheothuộctính thách thức : Đặc biệt, SiamAPN cải thiệnđángkểđộchínhxáctheobámchốnglạicáctácđộngcủaxoayngoàimặtphẳng(0,687), độ phân giải thấp (0,714), biến dạng (0,670), và thay đổi tỷ lệ (0,694).Trong đó điểm số xoay ngoài mặt phẳng là cao nhất bằng SiamBAN, độ phângiảit h ấ p x ế p h ạ n g n h ì , c ò n b i ế n d ạ n g v à t h a y đ ổ i t ỷ l ệ x ế p t h ứ b a
T ỷ lệ th à n h cô n g Đ iể m ch ín h xá c
[0.662] SiamBA [0.652] Ocean 651] SiamCA 649] MDNet [0.645] DaSiamRPN [0.637]
— Sosánhtổngthể : Kết quả được thể hiện trong bảng2.6.Mô hìnhSiamAAMc ó đ ộ c h í n h x á c l à 0 , 5 9 3 , đ ộ m ã n h m ẽ l à 0 , 1 7 8 , s ố l ầ n m ấ t v ế t l à 38, và EAO là 0,449 trên bộ dữ liệu VOT2018, chạy với tốc độ khoảng 42 FPS.SiamAAM đạt điểm EAO cao hơn các phương pháp khác So sánh với mô hìnhSiamBAN (CVPR 2020), mô hình đề xuất đạt kết quả cao hơn 0,2%, với mạngđơn giản và nhanh hơn. SiamBAN được huấn luyện trên các bộ dữ liêu lớn hơngồm LaSOT[36],YouTube-BB[27]và sử dụng ba lớp của mạng trích chọn đặctrưnglàmđầuvào.
Trong khi đó trình theo bám SiamAPN đạt được độ chính xác 0,591, độmạnh0,262và0,374EAOtrênVOT2018,chạyởtốc độ45FPS.
T ỷ lệ th à n h cô n g T ỷ lệ th à n h cô n g T ỷl ệ th à n h cô n g T ỷl ệ th à n h cô n g
Bảng2.6.KếtquảtrênbộdữliệuVOT2018củamôhìnhSiamAPNvàSiamAAM, vớiđiểmchínhxác(Accuracy-A),điểmmạnhmẽ(Robustness-
R),sốlầnmấtvết(LostNumber- LN),vàđiểmkhớptrungbìnhkỳvọng(ExpectedAverageOverlap-EAO).
Môh ì n h A( ↑ ) R( ↓ ) LN( ↓ ) EAO( ↑ ) GPU FPS( ↑ )
Hình2.15.SosánhđiểmEAOtheothuộctínhtrênbộVOT2018: chuyểnđộngcủ acamera,thayđổiđộchiếusáng,bịchelấp,thayđổikíchthước,thayđổichuyểnđ ộng,vàthuộctính khác.
— Sosánhtheothuộctínhtháchthức : So sánh điểm EAO theo cácthuộctí n h t h á c h t h ứ c ( h ì n h 2 1 5 ) , đ ề x u ấ t S i a m A A M x ế p h ạ n g đ ầ u ti ê n v ề các thuộc tính của bị che lấp (0,417) và xếp hạng thứ hai về chuyển động củamáy ảnh (0,440) và các thuộc tính khác (0,165); xếp thứ ba thuộc tính thay đổichuyển động (0,449), thay đổi kích thước (0,452) Điều này cho thấy rằng trìnhtheo bám đề xuất rất mạnh mẽ đối với thuộc tính bị che lấp Trong khi đó môhìnhđạtđiểmkhôngcaotheothuộctínhthayđổiđộsáng(0,363)sovớicácmôhìnhsửd ụngRPNhaymôhìnhtùychỉnh,cóthểdomôhìnhhuấnluyệntrênbộ dữ liệu ít hơn và chỉ lấy 1 lớp của mạng trích chọn đặc trưng làm đầu vàocủam ô h ì n h s o v ớ i v i ệ c s ử d ụ n g 3 l ớ p n h ư S ia m B A N , S i a m R P N +
Trongm ô h ì n h t h e o b á m đ ố i t ư ợ n g c ó k i ế n t r ú c n h i ề u g i a i đ o ạ n , n h ư h ì n h 1.29,vai trò của mô-đun tích hợp và mạng dự đoán khung bao là rất quan trọng,ảnhh ư ở n g t ớ i k ế t q u ả t h e o b á m c ủ a m ô h ì n h T r o n g m ụ c n à y s ẽ đ á n h g i á t á c độngcủatừngmô- đunđềxuấtthôngquasosánhkếtquảthực nghiệmcủamộtsốtrườnghợp nghi ê ncứu.
• Đối với mô hình SiamAPN: Mô hình SiamAPN đã đề xuất xây dựngmô-đun kết hợp bằng việc tăng cường đặc trưng từ mỗi nhánh của mạng Siamesethông qua tập trung theo kênh, tập trung theo không gian và tập trungtheonhánh còn lại Mạng dự dự đoán khung bao khung dùng khung neo Tác độngcủaviệcsửdụngcácthànhphầnđềxuấttrongmôhìnhSiamAPNđượcthểhiệntrongb ảng2.7.Trongđómôhìnhcơsở(i)cóđầuvàmạngtríchchọnđặctrưngtươngtựnhưtrongSi amAPN,đặctrưngcủalớpthứ3củahainhánhđượcgiảmsố kênh về 256, sau đó thực hiện tương quan chéo với nhau để được đặc trưngkết hợp Đặc trưng kết hợp này được đưa vào mạng dự đoán (BAN Head[120])gồm chuỗi Conv2d, BatchNorm2d, Relu, Conv2d Trên bộ dữ liệu OTB100, môhìnhcơsở(i)đạtthànhcônglà0,683.Kếtquảchothấyvớimô- đuntíchhợpsửdụngAFEvàmạngdựđoánđượcđềxuất(ii),SiamAPNcảithiệnhiệusuấ t1,6%sosánhvớimôhìnhcơsởtrênbộdữliệuOTB100.
Lớp3 AFE OurHead BANHead[120] AUC(↑) i ✓ × × ✓ 0,683 ii ✓ ✓ ✓ × 0,699
• ĐốivớimôhìnhSiamAAM: Mô hình SiamAAM đã đề xuất xây dựngmô- đun tích hợp sử dụng cơ chế tập trung để kết hợp và tăng cường đặc trưng của mạng Siamese trước khi đưa vào dự đoán Để thấy vai trò của đề xuất này,luận án đã thực hiện so sánh thực nghiệm SiamAAM với mô hình tương đươngbằng việc thay thế FM trong SiamAAM bởi lớp tương quan chéo sâu và rộngDW-
Xcorr[14].Nhưkếtquảtrongbảng2.8,trênbộdữliệuVOT2018,cơchếkếthợpđặctrưngFM cảithiệnđiểmsốEAOthêm7,5%khisosánhvớiDW-Xcorr.
Minhh ọ a k ế t q u ả
Kếtl u ậ n c h ư ơ n g 2
Trong chương này, luận án đã đề xuất mô hình theo bám chuyển động củaUAV trong video chống UAV hồng ngoại sử dụng kiến trúc mạng Siamese và cơchế RPN, gọi là mô hình TrackingUAV Đánh giá thực nghiệm trên bộ dữ liệuchốngU A V ( A n ti -
N và SiamAAM theo kiến trúc mạng Siamese sử dụng cơ chế tập trung và khôngdùng khung neo để theo bám đối tượng trong video Trong mô hình SiamAPN,luận án đã đề xuất sử dụng cơ chế tập trung bao gồm cơ chế tự tập trung theokênh, cơ chế tự tập trung theo không gian, và cơ chế tập trung chéo để tăngcường đặc trưng hai nhánh của mạng Siamese trước khi thực hiện tương quanchéo.Sauđóđềxuấtsửdụngmạngdựđoánkếtquảkhôngdùngkhung neođể dự đoán kết quả theo bám Mô hình chỉ dùng lớp thứ ba của mạng tríchchọn đặc trưng làm đầu vào, và huấn luyện trên bộ dữ liệu nhỏ Kết quả thửnghiêm trên ba bộ dữ liệu gồm OTB100, UAV123, VOT2018 cho kết quả mới(state-of-the- art)vàchạyvớitốcđộthờigianthựckhoảng45FPS.
TrongđềxuấtSiamAAM,luậnánđãsửdụngcơchếtậptrungđểkếthợpđặctrưngh ainhánhcủamạngsiamesetheocơchếkhớpmứcđiểmảnh,sauđóthực hiện tập trung theo không gian nhằm tạo ra đặc trưng kết hợp, mà khôngdùng tương quan chéo Mạng dự đoán đầu ra của mô hình cũng không dùngkhungneo,giúpmôhìnhchạyvớitốcđộthờigianthực,vàđạtkếtquảcaotrênhai bộ dữ liệu VOT2018 và UAV123 sao với một số đề xuất mới tại hội nghịCVPR 2020 Ngoài ra mô hình đạt điểm dẫn đầu một số thách thức trên các bộdữliệuUAV123vàVOT2018.
Kếtquảnghiêncứutrongchươngnàyđãđượccôngbốtạicôngtrình[CT1],[CT3],[CT5]trongdanhmụccáccôngtrìnhđãcôngbố.
Chương3 ĐỀXUẤTMÔHÌNHHỌCSÂUTHEOBÁMĐỐITƯỢNGS ỬDỤNGMẠNG CHUYỂN ĐỔITUYẾN TÍNH
Các trình theo bám dựa trên Siamese đã chứng minh hiệu suất cao trongviệc theo bám trực quan[98].Phần lớn các trình theo bám hiện tại thường tínhtoánmẫumụctiêuvàcácđặctrưnghìnhảnhtìmkiếmmộtcáchđộclập,sauđósửdụngt ươngquanchéođểdựđoánkhảnăngđốitượngxuấthiệntạimỗivịtríkhông gian trong hình ảnh tìm kiếm để xác định vị trí mục tiêu, như mô hìnhSiamAPNtrongchương2haySiamRPN+ +[14],SiamBAN[120],SiamCAR[23], Trong đề xuất SiamAAM, cơ chế tập trung được sử dụng để kết hợp đặctrưng từ hai nhánh của mạng Siamese thông qua khớp mức điểm ảnh thay vìdùng tương quan chéo Sau đó sử dụng cơ chế tập trung để tăng cường đặc trưngkếthợptheokhônggian.Môhìnhđạtđiểmkhácaotrênmộtsốtháchthứccủahai bộ dữ liệu UAV123 và VOT2018 Tuy nhiên, mô hình theo kiến trúc Siamesevẫn được cộng đồng thị giác máy tính tiếp tục nghiên cứu và đề xuất các giảipháp xây dựng mô-đun tích hợp mới để có kết quả cao hơn trên nhiều bộ dữliệuvớicácthuộctínhtháchthứckhác nhau.
Trongchươngnày,luậnánđềxuấtmạngkiếntrúcSiamesecótênlàSiamTLT,vớimô- đuntíchhợp làmộtmạngchuyểnđổinhẹvớimộtsốlớptựtậptrungvàtậptrungc héotuyếntính,giúptăngcườngvàtổnghợpgiữamẫumụctiêu vàhìnhảnhtìmkiế m.Vớidựđoánđầurakhôngdùngkhungneo,môhìnhđềxuất là đơn giản và hiệu quả Các thử nghiệm mở rộng trên các bộ dữ liệu chuẩntheobámtrựcquannhưVOT2018,UAV123vàOTB100chứngminhrằngtrìn htheo bám đạt được hiệu suất cao (state-of-the-art) và hoạt động ở tốc độ khunghìnhthờigianthựclà39khunghình/giâytrênGPU1080ti.
Ngoàira,theo[117]cácmôhìnhtheobánđốitượngsửdụngkiếntrúcnhiềugiai đoạn như hình1.29,có thể được tăng cường hiệu năng do các mô hình sửdụng đầu dự đoán gồm hai nhánh phân phân lớp và nhánh hồi quy độc lập vớinhau.Việclựachọnkhungbaoứngvớiphânlớpcóđiểmcaonhấtlàmđầuradựđoán, đối lúc chưa có kết quả tối ưu Vì vậy, luận án đề xuất mô hình TrackerLTdựa trên mạng chuyển đổi tuyến tính để cải thiện hiệu năng của các trình theobám hiện có Mô hình đạt hiệu suất cao khi so sánh với một số phương phápmới được đề xuất từ 2020-2022, chạy với tốc độ 30fps trên GPURTX-3070 Đềxuất này giúp đẩy nhanh quá trình nghiên cứu cũng như triển khai ứng dụngthựctếbằngviệctinhchỉnhtrìnhtheo bámcơsởđểđượctrìnhtheo bámtổng
Môhìnhtheobámđốitượngthờigianthựcsửdụngmạngchuyển đổituyếntính
Môh ì n h S i a m T L T
- Mô- đuntích hợp:kếthợpđặctrưnghainhánhcủa mạngSiamesebằngmạngchuy ểnđổituyếntính(TransformerFeatureFusion),
- Và mạng dự đoán không dùng khung neo (Prediction Head): Tương tự môhìnhSiamAPNởchương2.
Trích chọn đặc trưng: Tương tự mô hình SiamAPNđềxuấtởchương
2,mạngSiamesenhậnhaiảnhđầuvàoz∈R H z0 ×W z0 ×3 v àx∈R H x0 ×W x0 ×3 ),quamạng trích chọn đặc trưng, thu được đặc trưng của ảnh mẫu làZ∈R h×w×C và ảnhtìmkiếmlàX∈R H×W×C , vớiC%6. Đầuvào Tríchchọnđặctrưng Mạngdự đoán Ảnhmẫu
Mô-đuntăngcường vàkếthợp đặctrưnghai nhánhSiamese sửd ụ n g m ạ n g c h u y ể n đ ổ i t u y ế n tí n h
TrongSiamAPN,cơchếtậptrunggiúpt ă n g c ư ờ n g đ ặ c t r ư n g t h e o k ê n h , theok h ô n g g i a n , v à đ ặ c t r ư n g t ừ n h á n h c ò n l ạ i T r o n g S i a m A A M , c ơ c h ế t ậ p trungđượcsửdụngđểkếthợpđặctrưngtừhainhánhcủamạngSiame sethông x3 25x25x2562 5 x 2 5 x
Lớp tập trung chéo Lớp tự tập trung Mô-đun tăng cường
Tríc qua khớp mức điểm ảnh Sau đó sử dụng cơ chế tập trung để tăng cường đặctrưng kết hợp theo không gian Trong đề xuất mô hình SiamTLT, luận án thiếtkế mạng chuyển đổi nhẹ (tuyến tính) sử dụng bản đồ đặc trưng ngẫu nhiênϕ arccos (x)(1.7),được đề xuất trong RFA[33]để thiết kế mô-đun tích hợp. Mô-đun này có nhiệm vụ tăng cường đặc trưng của mỗi nhánh thông qua chuỗiL c lớp tự mã hóa và lớp mã hóa chéo xếp chồng nhau Mỗi lớp mã hóa (tự mãhóa/mãhóachéo)gồmtậptrungtuyếntính(linearattention),chuẩnhóa(layernorm),p erceptronnhiềulớp(multilayerperceptron)vàghépnối(concat).
Mô-đun tăng cường và kết hợp đặc trưng sử dụng mạng chuyển đổi nhẹ(LightweightTransformerFeatureFusion-LTFF)nhậnđầuvàolàZ,X, thựchiệncơchếchuyểnđổituyếntính,đểchorađặctrưngkếthợp.LTFFgồmhaimô- đun con: tăng cường đặc trưng, và kết hợp đặc trưng Như minh họa tronghình3.2.
-đuncon:t ăngc ườngđặct rưng,v àkế thợpđặc t rưng.
Tăngcường đặc trưngTrong đề xuất này, luận án sử dụng mã hóa vị trí
2chiều (2D) được đề xuất trongDETR[83]để đánh dấu vị trí của các đặc trưng.Bằngv i ệ ct h ê m m ãh ó a v ị t r í v à o c ác đ ặ c t r ưn gZ ∈R h×w×Cv à X∈R H×W×
Mô-đun tăngc ư ờ n g đ ặ c t r ư n g g ồ mL c l ầ nl ớ p t ự t ậ p t r u n g ( S e l f - A tt e n ti o n L a y er -
S A L ) vàlớptập trungchéo(Cross-Attention Layer-CAL). Đốivớilớptựtậptrung,vớicácđặctrưngđầuvàolàZˆvàXˆ,tựtậptrung(SA)được tínhbằng:
Z˜=Zˆ+LN(MPL(CAT(Zˆ,LN(Z SA ))))∈R h×w×C (3.3)
X˜=Xˆ+LN(MPL(CAT(Xˆ,LN(X SA ))))∈R H×W×C (3.4) Đốivớilớptậptrungchéo,vớiđặctrưngđầuvàolàZ˜(CA)đượ ctính bở i : vàX˜,tậptrungchéo
Z=Z˜+LN(MPL(CAT(Z˜,LN(Z CA))))∈R h×w×C (3.7)
X=X˜+LN(MPL(CAT(X˜,LN(X CA))))∈R H×W×C (3.8) trongđóLN,MPLvàCATlầnlượtlàlớpchuẩnhóa(LayerNorm),Perceptron nhiềulớp(MultilayerPerceptron)vàghépnối(Concat).Sauđó,thayZˆvàXˆ bởi Z v à X ,đ ể t h ự c h i ệ n v i ệ c l ặ p l ạ i s i n h đ ặ c t r ư n g t ự t ậ p t r u n g v à đ ặ c t r ư n g tậptrung ché o thê mL c −1l ầ n
Kếthợpđặctrưng.V ớ i đ ặ c t r ư n g đ ầ u v à o l àZvàXởt r ê n , đ ặ c t r ư n g tậpt rungchéo củaXcót hểđ ược tính toánt heo côngt hức:
X CA=ϕ(XW Q )ϕ(ZW K )(ZW V )∈R H×W×C (3.9) sauđ ó đ ặ c t r ư n g m ã h ó a c ủa k h u v ự c tì m k i ế m đ ư ợc x â y d ự n g n h ư s a u :
E=X+LN(MPL(CAT(X,LN(X CA))))∈R H×W×C (3.10) Sauđ ó , đ ặ c t r ư n g k ế t h ợ p h a i n h á n h c ủ a m ạ n g S i a m e s e đ ư ợ c tí n h b ở i :
F=φ(E)∈R H×W×C (3.11) trong đóφlà chuỗi các phép tích chập1×1, chuẩn hóa, reluvà tích chập1×1.Bản đồ thể hiện đặc trưng cuối cùngR∈R 25×25×C được tính bằng việc áp dụngnộis u y s o n g t u y ế n tí n h đ ể t h a y đ ổ i k í c h t h ư ớ c c ủ aF t h à n h2 5×25×C.
R c h ứ ađầy đủ thông tin giúp cho mạng dự đoán thực hiện phân loại và hồi quy khungbaođốitượng. Đặc trưng kết hợp thu được được đưa vào mạng dự đoán như trong mô hìnhSiamAPNđ ể d ự đ o á n k ế t q u ả Đ ặ c t r ư n g n à y đ ư ợ c đ ư a v à o m ô - đ u n d ự đ o á n hình3 1 ( p h ả i ) đ ể t hự c h i ệ n hồ i q u y v à p h â n l ớp đ ố i t ượ ng c ầ n t h e o b á m
Hàmmấtmát
Quát r ì n h t h e o b á m
ThuậttoántheobámđốitượngtheomôhìnhSiamTLT 86
Tươngtự nhưcácthuậttoán2.7,2.8,2.9,2.10và2.11đãđềcậpởchương2,vớimôhìnhđầuvào modellàSiamTLTđãđượchuấnluyện.
Thôngquakhảosát,nghiêncứucácmôhìnhSiamesemớiđượcđềxuấttừnăm20 19đến2021[CT2],baogồmgồmSiamRPN++[14](CVPR2019),Siam-CAR[ 23] ( C V P R 2 0 2 0 ) , S i a m B A N [ 1 2 0 ] ( C V P R 2 0 2 0 ) , S i a m A tt n [ 1 1 6 ]
(CVPR2021), vàcácmôhìnhđãđềxuấtTrackingUAV,SiamAPN,SiamAAM,SiamTLT,n ghiêncứusinhnhậnthấy,đốivớimỗibộdữliệuđánhgiá (VOT2018, UAV123, OTB100, ), cần phải tìm các siêu tham số WINDOW-INFLUENCE,PENALTY- K,LR(theocôngthức(1.14),(1.15)và theo thuậttoán2.3,2.8)phùhợpđểtăngkếtquảthựcnghiệmcủamôhình.Vídụđốivớimôhình đề xuất SiamTLT, trên bộ dữ liệu VOT2018 ứng với điểm EAO=0,458, cácgiá trị siêu tham số lần lượt là WINDOW-
K=0,025574910,LR=0,77907029360749736.Việctìmcácsiêutham sốn à y m ấ t n h i ề u t h ờ i g i a n , n g u ồ n l ự c , v à k h ó k h ă n k h i c ầ n t h ử n h i ề u l ự a c h ọ n nghiênc ứu khác nhau cho mô hì nh.
Ngoài ra, các mô hình theo bán đối tượng sử dụng kiến trúc nhiều giai đoạnnhư hình1.29,có thể được tăng cường hiệu năng do các mô hình sử dụng đầu dựđoán gồm hai nhánh phân phân lớp và nhánh hồi quy độc lập với nhau Do vây,trongp h ầ n ti ế p t h e o , l u ậ n á n đ ề x u ấ t m ộ t m ô h ì n h m ớ i ( t ê n g ọ i l à T r a c k e r L T ) chophép nângcaođ ộchí nhxáccủamô hình t heobám cơsởhi ệncó bằngv iệ c sử dụng hợp nhất vùng quan tâm chính xác (Precise RoI Pooling)[15]và mạngchuyểnđ ổ i t u y ế n tí n h đ ể t ă n g c ư ờ n g đ ặ c t r ư n g h a i n h á n h c ủ a m ạ n g S i a m e s e Môh ì n h đ ề x u ấ t c h o r a n g a y k ế t q u ả k h u n g b a o đ ố i t ư ợ n g m à k h ô n g c ầ n tì m các tham số phạt, tần số học và cửa sổả n h h ư ở n g V i ệ c n à y r ú t n g ắ t đ ư ợ c t h ờ i giann g h i ê n c ứ u , c ũ n g n h ư k h a i t h á c c á c p h ư ơ n g p h á p t h e o b á m h i ệ n c ó v à o mụcđíc h nghi ê n c ứu ho ặc xây dựng ứngdụng thực t ế.
Nângcaođộchínhxáccủatrìnhtheobámbằngmạngchuyểnđổi hìnhảnhtuyếntính
MôhìnhTrackerLT
Search Đầu vào Trích chọn đặc trưng
BBox Mô-đun tích hợp Mạng dự đoán
256x256x3 mã hóa vị trí Mô-đun tăng cường và kết hợp đặc trưng
Tríchc h ọ n đ ặ c t r ư n g
TrackerLT sử dụng ResNet50[58] được đào tạo trước trên[86]làm mạngkhung sườn trích chọn đặc trưng Mô hình chỉ sử dụng đầu ra gian đoạn thứ tư(lớp 3) làm đầu ra cuối cùng Mạng khung sườn xử lý vùng ảnh mẫu (templatepatch)z∈R H 0 ×W 0 ×3v àvùngảnhtìmkiếm(searchpatch)x∈R H 0 ×W 0 ×3để thuđ ư ợ c b ả n đ ồ đ ặ c t r ư n g t ư ơ n g ứ n gF z ∈R H×W×C z v à F x ∈R H×W×C x , v ớ i
1×1, chuẩn hóa theo khối (batch norm), relu xếp chồng nhau để giảmsố kênhcủađ ặ c t r ư n g đ ầ u r a x u ố n g C = 6 4 Đ ầ u r a c ủ a m ạ n g k ý h i ệ u l àZ∈ R
Vớibl à k h u n g b a o c a đ i tủa mạng xác định vị trí này ối tượng cần theo ư ợcn g t r o n g ảnh mẫu chứa đối tượng cần theon h m u , m ôẫu chứa đối tượng cần theo h ì n h t h c h i n c h u y nực hiện chuyển ện chuyển ểu đổibs a n g đ n h d n g R o Iịnh vị trí này ại r Sau đó áp dụng RoI Pooling đối vớiZđ đểu ư ợcc đ cặc trưng, trưngRoI:
Mô-đuntăngcườngvàkếthợpdữliệuảnhhainhánhSiamese87
Mô-đun tăng cường đặc trưng Như đã đề cập ở mục1.3.3.2và theo[44],bằng cách thay thế nhân softmax bởi một hàm nhânκ ′ (Q, K)=ϕ(Q).ϕ(K) T , độphứct ạ p tí n h t o á n c ơ c h ế t ậ p t r u n g ( 1 5 ) c ó t h ể g i ả m x u ố n gO(T).
Mô-đun tăng cường đặc trưng Mô-đun kết hợp đặc trưng
Conv(3x3) C/4 x hw hxwxC mã hóa vị trí
Hình3.4.Mô- đuntăngcườngđặctrưng,gồmLl pớp tựmãhóa(SAL),vàLl pớp mãhóa chéo(CAL)liêntiếp nhau.Vàmô-đunkếthợp
- FEM) Mô-đun FEM, nhậnZvàXlàm đầu vào, và cho ra đặc trưng tăngcường bằng việc áp dụng cơ chế chuyển đối tuyến tính (linearized transformermechanism) (hình3.4(trái),) Mô-đun FEM gồmLcặp lớp tự mã hóa (self-encoder layer-SEL) và lớp mã hóa chéo (cross-encoder layer-CEL) xếp chồngnhau.
Dựatheo[10],luậnánsửdụnghàmmởrộng2chiều(2D)đểsinhmãhóavịtríc hochuỗiđầuvàoZv à X:
P x l àc á c mãh õ a v ị t r í k h ô n g g i a n t ư ơ n g ứ n g v ớ iZvàX,N z =h×wv àN x =H×W. Đối vớiSEL, với đặc trưng đầu vào làZ l−1 vàX l−1 ,l= 1, , L, tự tập trung(self- attention-SA)đượcxácđịnhnhưsau:
X l =X l−1 +MPL(CAT(X l−1 ,SA(X l−1 ))∈R C×H×W (3.19) ĐốivớiCEL,vớiđặctrưngđầuvàolàZ l v àX l ,tậptrungchéo(cross-
S o ft m a x H W x h w attention-CA)đượctính nhưsau:
X l =X l +MPL(CAT(X l ,CA(X l ))∈R C×N x (3.23) trongđ óW Q ,W K ,W V l àt h a m s ố c ó t h ể h ọ c đ ư ợ c c ủ a b a l ớ p c h i ế u t u y ế n tí n h ; MPLvàCATlầnlượtlàPerceptronnhiềulớp(MultilayerPerceptron)vàghépnối( Concat).ĐầuracủaFEMlàZ L v àX L
Mô-đun kết hợp đặc trưng: khi đối tượng thay đổi hình dạng hoặc bị chelấp, các đặc trưng cục bộ chi tiết rất quan trọng để khớp mẫu mục tiêu (targettemplate) và vùng tìm kiếm (search patch) Do đó, thay vì chỉ sử dụng các toántửtươngquan,luậnánđềxuấtmộtcơchếkếthợptậptrungtrongđóđặctrưngmẫu (template) và đặc trưng tìm kiếm (search) được so khớp ở mức độ điểmảnh,nhưđượcminhhọatr onghình3.4(bênphải).Bả n đồkhóa(key)v à giátrị (value) được tạo từ các đặc trưng, đóng vai trò là phương tiện mã hóa ngữnghĩa trực quan để khớp thông tin xuất hiện chi tiết và phù hợp để dự đoán.VớiZ L vàX L từFEM,cóthểtạobảnđồđặctrưngkhóavàgiátrịtheo:
(3.24) trongđ óW 1,W 2,W 3,v àW 4l ầ n l ư ợ t l à c á c l ớ p tí c h c h ậ p3×3,σ1,σ2,σ3v àσ4 làbốntoántửthayđổichiềucủatenxơ(tensor).
Sauđ ó , tí n h t o á n s ự t ư ơ n g đ ồ n g g i ữ a c á c b ả n đ ồ k h ó a c ủ a đ ặ c t r ư n g m ẫ u vàđ ặc t rưngtìm ki ế m bằngcác h:
A=K Z ×K X (3.25) trongđó“×’làtoántửtíchvôhướng(dot- product)matrận.Tiếpđóthựchiệnchuẩnhóasoftmax:
Fc h aứa đối tượng cần theo đầyđủthôngtinđể dựđoánkhungbaođ ốit ượng.
Mạngdựđoánkhung baođốitượng
Để cải thiện chất lượng ước tính khung bao, luận án đã thiết kế một mạngdự đoán thông qua ước lượng phân bố xác xuất của các góc của box Cụ thể,đặc trưng kết hợpFđược đưa vào mạng dự đoán là một mạng tích chập hoàntoàn đơn giản (FCN) Mạng FCN gồm bốn lớp Conv-BN-ReLU xếp chồng nhau,tiếp theo là lớp Conv dự đoán hai bản đồ nhiệt (heatmap), tương ứng với góptrêntráivàgócdướiphải.Sauđóápdụngsoft- argmax[22]vàohaibảnđồnhiệtđểt ạ o r a h a i b ả n đ ồ x á c x u ấ tP tl (x,y)v àP br (x,y)c h o g ó c t r ê n t r á i v à g ó c d ư ớ i phảicủakhungbaođốitượng.Cuốicùng,tọađộkhung baodựđoán(xˆ tl ,yˆ tl )và(xˆ br ,yˆ br )cóđượcbằngcáchtínhtoánkỳvọngphânphốixácxuấ tcủacácgóctheocôngthức:
Hàmmấtmát
,g i,j ) (3.30) trong đóN pos biểu thị số lượng mẫu dương,1 obj là hàm chỉ số cho các mẫu dương,L IoU biểu thị hàm mất mát IoU theo UnitBox [49],g i,j là khung bao thực tế,p i,j làkhungbaodựđoán.
Quát r ì n h t h e o b á m
BhatvàcộngsựđãđềxuấtDiMP[30],cóthểdựđoánkhungbaođốitượngtrong các bộ dữ liệu chuẩn (VOT2028, UAV123, ) mà không cần tìm các siêutham số như cửa sổ (windows) cosine, phạt (penalty), và tốc độ học
(learningrate)nhưcácphươngphápdựatrênkiếntrúcSiamese(nhưSiamRPN++,SiamCAR,SiamBAN,SiamAttn,SiamGAT).DựatrênAlpha-Refine,môhình
Tính z-crop theo công thức
// Tính toán đặc trưng của khu vùng ảnh mẫu
Tính ref-feat = model.forward-ref(z-crop) Tính bb1 từ bbox
// Xác định vùng cần crop ảnh tìm kiếm
Tính x-crop theo công thức
// Tính toán đặc trưng của khu vùng ảnh tìm kiếm
Tính test-feat = model.forward-test(x-crop)
Tính đặc trưng kết hợp fusion-feat = X ∈ RC×H×W
// Đưa vào mạng dự đoán kết quả Tính bbox = corner-head(fusion-feat) return bbox cắt vùng chứa đối tượng mẫu trong khung hình đầu tiên và đưa vào trình theobám cơ sở (DiMP) và TrackerLT trong quá trình theo bám Đối với khung hìnhtiếptheo,môhìnhcắtvùngtìmkiếmpvàđưavàotrìnhtheobámcơsởđểnhậnđượckhu ngbaodựđoánb,sauđóđưapvàbvàoTrackerLTđểthuđượckhungbaođốitượngcầnthe obámP box =[xˆ tl ,yˆ tl ,xˆ br ,yˆ br ]theocô ng thức(3.29)
ThuậttoántheobámđốitượngtheomôhìnhTrackerLT 91
Input:Khunghìnhđầutiên củavideoimg,khungbaobboxt iại khunghìn hđó,môhìnhđãhuấnluyệnmodel
Thuậttoánkhởitạo3.1thựcthiệntínhtoánvùngchứađ ố i t ư ợ n g t r o n g khung hình đầu tiên, sau đó tính toán đặc trưng của vùng này để thu được đặctrưng đối tượng mẫu Các khởi tạo, tính toán ở thuật toán3.1được dùng trongthuậtto án 3 2 tiế p t heo.
Input:Khung hìnhimg, tham số đã khởi tạo tại2.9,khung bao đốitượngđượcxácđịnhbởimộttrìnhtheobámkhácbb1.
Input :Video gồmTkhung hình, khung hình đầu tiênI 1có nhãn làgt- bbox,môhìnhDiMPđãhuấnluyệnmodel1vàcótracker1vớihaihà minitv àtrackn h ưthuậttoán2.9và2.10;môhìnhTrackerLT đã huấn luyệnmodel2và cótracker2vớihai hàminitializev à refinen hưthuậttoán3.1và3.2
2 for idx,(img,gt-bbox)∈enumerate(video)do
8 Tínhout puts=tra ck er 1.tra ck(img,m o d e l 1 )
11 pred-bboxes.append(pred-bbox)
Thuật toán3.2thực thiện tính toán vùng chứa đối tượng trong ảnh tìmkiếm, sau đó tính toán đặc trưng của vùng này để thu được đặc trưng vùng tìmkiếm Tính toán đặc trưng kết hợp theo hình3.4.Sau đó tính toán khung baodựđoándựavàomạngdựđoánkhungbao(mục3.3.4).
Thuậttoán3.3nàynhậnđầuvàolàchuỗivideocókhunghìnhđầutiênchứakhung bao của đối tượng cần theo bám, mô hình theo bám cơ sở (tracker1) vàmô hình theo bám đề xuất TrackerLT (tracker2) Thuật toán thực hiện khởi tạotracker1 và tracker2 đối với khung hình đầu tiên (dòng 5-6) Đối với khung hìnhtiếptheo,dựavàotracker1đểtínhkhungbaodựđoánlàbb1(dòng9-10).Tiếpđó tính khung bao kết quả theo tracker2 với đầu vào là khung hình hiện tại vàbb1 Kết quả của thuật toán là chuỗi khung bao trên toàn bộ khung hình củachuỗivideo.
Càiđ ặ t t h ự c n g h i ệ m v à đ á n h g i á k ế t q u ả
Minhh ọ a k ế t q u ả t h e o b á m c ủ a T r ạ c k e r L T
Chương 3 của luận án đã đề xuất hai mô hình học sâu theo kiến trúc mạngSiamese sử dụng mạng chuyển đổi tuyến tính Trong mô hình SiamTLT, luận ánđãđềxuấtsửdụngmạngchuyểnđổituyếntínhđểtăngcườngdữliệuhainhánhcủamạngSi amese,sauđódùngtiếpmạngchuyểnđổituyếntínhđểkếthợpđặctrưngđãtăngcườngđểthu đượcđặctrưngkếthợp.Kếtquảthửnghiệmtrênbabộ dữ liệu gồm OTB100, UAV123, VOT2018 cho kết quả cao (state-of-the- art)khisosánhvớicáctrìnhtheobámkhácvàchạyvớitốcđộthờigianthựckhoảng39FPS. Đề xuất TrackerLT, với trình theo bám bất kỳ (ví dụ DiMP), kết quả theobám của trình này kết hợp với ROI để tạo ra đặc trưng của ảnh mẫu của nhánhmẫu mạng Siamese Tiếp đó, luận án sử dụng mạng chuyển đổi tuyến tính đểtăng cường đặc trưng và kết hợp đặc trưng giữa hai nhánh của mạng Siamesemà không dùng tương quan Mạng dự đoán đầu ra dùng cơ chế phát hiện gócgiúp mô hình dự đoán kết quả chính xác hơn Kết quả thử nghiệm trên bốn bộdữ liệu dạng ngắn (VOT2018, VOT2019, UAV123 và OTB100), hai bộ dữ liệudạng dài (LaSOT, GOT10K) và bộ chống UAV (Anti-UAV) cho thấy mô hìnhTrackerLT đạt hiệusuất cao khi so ánh với với một số mô hình mới được đềxuất năm 2020, 2021, và 2022 tại các hội nghị hàng đầu về thị giác máy tính làCVPR,ECCVvàICCV.
Kết quả nghiên cứu trong chương này đã được công bố tại công trình [CT4],[CT6]t r o n g d a n h m ụ c c á c c ô n g t r ì n h đ ã c ô n g b ố
Kếtl u ậ n c h ư ơ n g 3
Chương 3 của luận án đã đề xuất hai mô hình học sâu theo kiến trúc mạngSiamese sử dụng mạng chuyển đổi tuyến tính Trong mô hình SiamTLT, luận ánđãđềxuấtsửdụngmạngchuyểnđổituyếntínhđểtăngcườngdữliệuhainhánhcủamạngSi amese,sauđódùngtiếpmạngchuyểnđổituyếntínhđểkếthợpđặctrưngđãtăngcườngđểthu đượcđặctrưngkếthợp.Kếtquảthửnghiệmtrênbabộ dữ liệu gồm OTB100, UAV123, VOT2018 cho kết quả cao (state-of-the- art)khisosánhvớicáctrìnhtheobámkhácvàchạyvớitốcđộthờigianthựckhoảng39FPS. Đề xuất TrackerLT, với trình theo bám bất kỳ (ví dụ DiMP), kết quả theobám của trình này kết hợp với ROI để tạo ra đặc trưng của ảnh mẫu của nhánhmẫu mạng Siamese Tiếp đó, luận án sử dụng mạng chuyển đổi tuyến tính đểtăng cường đặc trưng và kết hợp đặc trưng giữa hai nhánh của mạng Siamesemà không dùng tương quan Mạng dự đoán đầu ra dùng cơ chế phát hiện gócgiúp mô hình dự đoán kết quả chính xác hơn Kết quả thử nghiệm trên bốn bộdữ liệu dạng ngắn (VOT2018, VOT2019, UAV123 và OTB100), hai bộ dữ liệudạng dài (LaSOT, GOT10K) và bộ chống UAV (Anti-UAV) cho thấy mô hìnhTrackerLT đạt hiệusuất cao khi so ánh với với một số mô hình mới được đềxuất năm 2020, 2021, và 2022 tại các hội nghị hàng đầu về thị giác máy tính làCVPR,ECCVvàICCV.
Kết quả nghiên cứu trong chương này đã được công bố tại công trình [CT4],[CT6]t r o n g d a n h m ụ c c á c c ô n g t r ì n h đ ã c ô n g b ố
Trítuệ nhân tạo(AI)đã và đang trở thành xu hướng tất yếu trong giảiquyết các bài toán thực tiễn và ngày càng được nhiều ngành, nhiều nhà khoahọc quan tâm, đầu tư nghiên cứu, trong đó có các nghiên cứu ứng dụngAIvàotrongcácbàitoánthịgiácmáytính.Bàitoántheobámđốitượngtron gvideolà một trong những bài toán có tính ứng dụng thực tế của lĩnh vực thị giác máytính.Hiệnnay,cónhiềuhướngtiếpcậnkhácnhauđểgiảiquyếtbàitoánnàyvàđây vẫn là bài toán chưa có lời giải hoàn chỉnh Luận án này tập trung vào giảiquyếtbàitoántheobámđốitượngtrongvideosửdụngcácmôhìnhhọcsâuvàkỹthuật thịgiácmáytínhtiêntiến.Cáckếtquảchínhcủaluậnánbaogồm:
- Nghiên cứu tổng quan bài toán theo bám đối tượng, các ứng dụng và tháchthức mà bài toán đang gặp phải; nghiên cứu các chỉ số và các bộ dữ liệu chuẩndùngđểđánhgiácácmôhìnhtheobámđơnđốitượngtrongvideo;nghiê ncứucách ư ớ n g ti ế p c ậ n g i ả i q u y ế t b à i t o á n t h e o b á m đ ố i t ư ợ n g t r o n g v i d e o T ừ đ ó đềx u ấ t c á c m ô h ì n h t h e o b á m đ ố i t ư ợ n g t r o n g v i d e o c ó h i ệ u n ă n g c a o s o s á n h vớic á c p h ư ơ n g p h á p m ớ i đ ề x u ấ t c ủ a c ộ n g đ ồ n g t h e o b á m đ ố i t ư ợ n g t r ê n t h ế giới.
- Nghiên cứu các mô hình theo bám đối tượng sử dụng kiến trúc mạngSiamese trên bộ dữ liệu ảnh RGB, từ đó đề xuất mô hình theo bám và đánh giákếtquảtrênbộdữliệuchốngUAVhồngngoạicókếtquảcao.
- Nghiêncứucáccơchếtậptrungvàphươngpháppháthiệnđốitượngmới,từ đó đề xuất phương pháp theo bám đối tượng trong video theo kiến trúc mạngSiamese.Đ ề x u ấ t c h o p h é p t ă n g c ư ờ n g đ ặ c t r ư n g h a i n h á n h c ủ a m ạ n g v ớ i c ơ chết ự t ậ p t r u n g v à t ậ p t r u n g c h é o , m ạ n g h ồ i q u y k ế t q u ả k h ô n g d ù n g k h u n g neogi úp m ô h ì n h gi ảm s ố t h am số v àc hạ y v ới t h ời gi an t hự c
- Nghiên cứu các mạng chuyển đổi tuyến tính, từ đó xây dựng các mô hìnhtheobámđốitượngtheokiếntrúcSiamesecókếtquảcaokhisovớicácphươngpháp khác mới công bố năm 2020, 2021 tại các hội nghị hàng đầu về thị giácmáytínhnhưCVPR,ICCV,ECCV.
- Nghiên cứu đề xuất mô hình tăng cường hiệu năng của trình theo bám cơsở Việc này giúp cải thiện độ chính xác của mô hình theo dõi tổng thể Kết quảthửn g h i ệ m t r ê n b ố n b ộ d ữ l i ệ u d ạ n g n g ắ n ( V O T 2 0 1 8 , V O T 2 0 1 9 , U A V
OTB100) và hai bộ dữ liệu dạng dài (LaSOT, GOT10K) cho thấy mô hình đềxuất đạt hiệu suất cao khi so ánh với với một số mô hình mới năm 2020, 2021và2022đượcđềxuấttạicáchộinghịhàngđầuvềthịgiácmáytínhlàCVPR,ECCVv àICCV.
Các nội dung và kết quả chính của luận án được công bố trong 06 công trìnhkhoa học, trong đó có 03 công trình trong các hội thảo khoa học quốc tế thuộcdanhmụcScopusvà03côngtrìnhởtạpchít r o n g n ư ớ c đ ư ợ c H Đ G S N N tí n h điểm.
- Đềx u ấ t s ử d ụ n g m ạ n g c h u y ể n đ ổ i n h ẹ t r ê n k i ế n t r ú c m ạ n g S i a m e s e t r o n g bàito ántheobám đốit ượng t hời gi an t hực.
- Đề xuất sử dụng mạng chuyển đổi tuyến tính và cơ chế tập trung trên kiếntrúcmạngSi am ese gi úp t ăng cườnghiệ u năng c ủatrình t heo bám đối t ư ợng cơ sở.
Hướngn g h i ê n c ứ u ti ế p t h e o c ủ a l u ậ n á n n h ằ m p h á t t r i ể n c ô n g t r ì n h đ ể c ó thểđưakếtquảnghi êncứuvào ứng dụngt ro ngthựctiễ n:
- Tiếp tục nghiên cứu, cải tiến các phương pháp đã đề xuất, từ đó chuyểnđổi mã nguồn sang TensorRT để có thể triển khai vào ứng dụng thực tế chạyđượctrênmôitrườngmáytính PChoặcthiếtbịnhúng.
- Nghiênc ứ u c á c m ô h ì n h h ọ c s â u m ớ i c h o b à i t o á n p h á t h i ệ n đ ố i t ư ợ n g trong ảnh, bài toán theo bám và phân vùng đối tượng trong video, bài toán theobámđađốitượng.Nhằmđềxuấtmôhình kếthợpphânvùngvớitheobámđơ nvàđađốit ượng.
DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ
[CT1]HoangDinhThang,TranQuocLong,ThaiKienTrung,Nguyen ChiThanh,
“Tracking UAV in infrared videos using Siamese networks”,Tạp chíNghiêncứuKH&CNQuânsự,SốđặcsanhộithảoQuốcgiaFEE,10–2020,tr.455–
[CT2]Hoàng Đình Thắng, Trần Quốc Long, Thái Trung Kiên, “Nghiên cứu cácphương pháp theo dõi đối tượng sử dụng kiến trúc mạng Siamese’,Tạp chíNghiêncứuKH&CNQuânsự,SốđặcsanhộithảoQuốcgiaFEE,10- 2021,tr.211–219,2021.
[CT3]ThangHoangDinh, Long Tran Quoc, Kien Thai Trung, “Siamese At- tention and Point Adaptive Network for Visual Tracking”, In2021 In- ternational Conference on Multimedia Analysis and Pattern Recognition(MAPR),IEEE,2021.
[CT4]DinhThangHoang,TrungKienThai,ThanhNguyen Chi, and LongQuoc
Tran, “Real-Time Siamese Visual Tracking with Lightweight Trans-former”, InThe 2021 8th NAFOSTED Conference on Information and Com- puterScience(NICS),IEEE,2021,pp.265–270.
[CT5]HoangDinhThang,DoNgocTuan,ThaiTrungKien,TranQuocLong,“Real-time
Siamese visual object tracking using attention and anchor- freemechanism”, InJournal of Military Science and Technology, 80 (6- 2022),pp.132–141.
[CT6]ThangH o a n g D i n h, Kien Thai Trung, Thanh Nguyen Chi, and
LongQuocTran,“ImprovingtheAccuracyofTrackerbyLinearizedTransformer”,InPr oceedingsofthe12thInternationalConferenceonPatternRecognitionApplication sandMethods,ISBN978-989-758-626-2,ISSN2184-4313,2023, pp.607–614.
[1] Lê Thi Thu Hồng, “Nghiên cứu phát triển một số kỹ thuật học sâu ápdụng trong phân tích ảnh nội soi tuyến tiêu hóa”, v:Luận án tiến sĩtoánhọc,ViệnKhoahọcvàCôngnghệquânsự,2021.
[2] Nguyễn Thị Hằng, “Ứng dụng phương pháp lọc bayes và mô hìnhmarkov ẩn trong bài toán quan sát quỹ đạo đa mục tiêu”, v:Luận ántiếnsĩtoánhọc,ViệnKhoahọcvàCôngnghệquânsự,2021.
[3] Nguyễn Văn Căn, “Nghiên cứu phát triển một số thuật toán phát hiệnvà phân loại phương tiện từ dữ liệu video giao thông”, v:Luận án tiếnsĩtoánhọc,ViệnKhoahọcvàCôngnghệquân sự,2015.
[4] NguyễnVănHùng,“Nghiêncứuphươngphápxửl ý ả n h t r o n g p h á t hiện ,b á m m ộ t s ố c h ủ n g l o ạ i m ụ c ti ê u v à á p d ụ n g t r o n g đ i ề u h i ể n v ũ khí tự động”, v:Luận án tiến sĩ toán học, Viện Khoa học và Công nghệquâns ự,2017.
[5] AlanLukeˇziˇcetal.,“Discriminativecorrelationfiltertrackerwithchan- nelandspatialreliability”,in:Int.J.Comput.
[6] Alex Krizhevsky et al., “Imagenet classification with deep convolu- tionalneuralnetworks”,in:AdvancesinNIPS,volume25,2012.
[7] Alexey Bochkovskiy et al., “Yolov4: Optimal speed and accuracy ofobjectdetection”, in:arXiv:2004.10934,2020.
[8] Angelos Katharopoulos et al., “Transformers are rnns: Fast autore- gressive transformers with linear attention”, in:ICML, PMLR,
[9] Arkadi Nemirovski et al., “On Cezari’s convergence of the steepest de- scent method for approximating saddle point of convex-concave func- tions”, in:Soviet Mathematics Doklady, volume 19, 2, 1978, pages 258– 269.
[10] Ashish Vaswani et al., “Attention is all you need”, in:Advances inNIPS,volume30,2017.
[11] BinWuetal.,“Amethodforplane- symmetricalvehicletrajectory trackinginmaneuverflight”,in:35thCh ineseControlConference(CCC),IEEE,2016,pages5743–5746.
[12] BinYanetal.,“Alpha- refine:Boostingtrackingperformancebypreciseboundingboxestimation”,in:
[13] BoL i e t a l , “ H i g h p e r f o r m a n c e v i s u a l t r a c k i n g w i t h s i a m e s e r e g i o n proposalnetwork”,in:CVPR,2018,pages8971–8980.
+:Evolution ofsiamesevisualtrackingwithvery deepnetworks”,in:CVPR,2019,pages4282–4291.
[15] BoruiJiangetal.,“Acquisition oflocalizationconfidence foraccurat eobjectdetection”,in:ECCV,2018.
[16] ChanglinXiaoetal.,“Efficienttrackingwithdistinctivetargetcolorsandsil houette”,in:ICPR,IEEE,2016,pages2728–2733.
[17] Cheng-YangFuetal.,“RetinaMask:Learningto predict masks im- provesstate-of-the-artsingle- shotdetectionforfree”,in:arXiv:1901.03353,2019.
[18] ChristianSzegedyetal.,“Goingdeeperwithconvolutions”, in:CVPR, 2015,pages1–9.
[19] CongPhuc Nguyen et al., “Multi-task Deep-Learning Vehicle Detec- tion and Tracking based on Aerial Views from UAV”, in:2022 Inter-national Conference on Advanced Technologies for Communications(ATC),IEEE,2022,pages86–91.
[20] CyrilRobinetal.,“Multi-robottargetdetectiona n d t r a c k i n g : t a x o n - omy and survey”, in:Autonomous Robots, volume 40, 4, Springer, 2016,pages729–760.
[21] David Silver et al., “Mastering the game of Go with deep neural net- works and tree search”, in:nature, volume 529, 7587, Nature
[22] Diogo C Luvizon et al., “Human pose regression by combining indirectpartdetectionandcontextualinformation”,in:Computers&Graphics ,volume85,Elsevier,2019,pages15–22.
[23] Dongyan Guo et al., “SiamCAR: Siamese fully convolutional classifica- tion and regression for visual tracking”, in:CVPR, 2020, pages 6269–6277.
[25] Duc-Thinh Bui et al., “Aerial image semantic segmentation using neu- ralsearchnetworkarchitecture”,in:InternationalConferenceonMulti- disciplinaryTrendsinArtificialIntelligence,Springer,2018,pages113–124.
[26] EstebanRealetal.,“Youtube-boundingboxes:Alargehigh-precisionhuman- annotateddatasetforobjectdetectioninvideo”,i n :C V P R,2017,pages5
[27] EstebanRealetal.,“Youtube-boundingboxes:Alargehigh-precisionhuman- annotateddatasetforobjectdetectioninvideo”,i n :C V P R,2017,pages5
[28] FanLietal.,“Training-setdistillationforreal-timeuavobjecttrack- ing”,in:IEEEICRA,IEEE,2020,pages9715–9721.
[29] GoutamBhat et al., “Unveiling the power of deep tracking”, in:ECCV,2018,pages483–498.
[30] GoutamBhat et al., “Learning discriminative model prediction fortracking”,in:ICCV,2019,pages6182–6191.
[31] GoutamBhat et al., “Know your surroundings: Exploiting scene in- formation for object tracking”, in:ECCV, Springer, 2020, pages 205–
[32] Guiguang Ding et al., “Real-time scalable visual tracking via quadran- glekernelizedcorrelationfilters”,in:TITS,volume19,1,IEEE,2017,pages140
[33] Hao Peng et al., “Random feature attention”, in:arXiv:2103.02143,2021.
[34] HaoyangZhangetal.,“Varifocalnet:Aniou-awaredenseobjectdetec- tor”,in:CVPR,2021,pages8514–8523.
[36] HengFanetal.,“Lasot:Ahigh-qualitybenchmarkforlarge- scalesingleobjecttracking”,in:CVPR,2019,pages5374–5383.
[37] Huajun Liu et al., “Polarized self-attention: towards high-quality pixel- wiseregression”,in:arXiv:2107.00782,2021.
[38] HuiyuZhouetal.,“ObjecttrackingusingSIFTfeaturesandmeanshift”, in:Computer vision and image understanding, volume 113, 3,Elsevier,2009,pages345–352.
[39] Hyeonseob Nam et al., “Learning multi-domain convolutional neuralnetworksforvisualtracking”,in:CVPR,2016,pages4293– 4302.
[40] IHaritaoglu et al.,W4: Real-time surveillance of people and their ac- tivities.22(8):809–830,2000.
[41] Iacopo Masi et al., “Learning pose-aware models for pose- invariantface recognition in the wild”, in:TPAMI, volume 41, 2, IEEE, 2018,pages379–393.
[42] IgorI Lychkov et al., “Tracking of moving objects with regenerationofobjectfeaturepoints”,in:GloSIC,IEEE,2018,pages1– 6.
[43] IlchaeJungetal.,“Real-timemdnet”,in:ECCV,2018,pages83–98.
[44] ImanolSchlagetal.,“Lineartransformersaresecretlyfastweightpro- grammers”,in:ICML,PMLR,2021,pages9355–9366.
[46] Janghoon Choi et al., “Deep meta learning for real-time target- awarevisualtracking”,in:ICCV,2019,pages911–920.
[47] Jean-Baptiste Cordonnier et al., “On the relationship between self- attentionandconvolutional layers”,in:ICLR,2020.
[48] Jen-ChaoTaietal.,“Real-timeimagetrackingforautomatictrafficmonitoring and enforcement applications”, in:Image and Vision Com- puting,volume 22 , 6 ,Els evie r, 2 0 04 ,page s 4 85– 50 1.
[49] Jiahui Yu et al., “Unitbox: An advanced object detection network”, in:24th ACM international conference on Multimedia, 2016, pages 516–520.
[50] Jinghao Zhou et al., “Discriminative and robust online learning forsiamese visual tracking”, in:AAAI, volume 34, 07, 2020, pages 13017–13024.
[51] Jingxuan Hao et al.,“Areview of target tracking algorithm basedon UAV”, in:IEEE International Conference on Cyborg and
[52] JoãoFHenriquesetal.,“High-speedtrackingwithkernelizedcorrela- tionfilters”, in:TPAMI,volume37,3,IEEE,2014,pages583–596.
[53] JoostVanDeWeijeretal.,“Learningcolornamesfromreal- worldimages”,in:CVPR,IEEE,2007,pages1–8.
[55] JosephRedmonetal.,“Youonlylookonce:Unified, real- timeobject detection”,in:CVPR,2016,pages779–788.
[57] Junhai Luo et al., “Underwater acoustic target tracking: A review”, in:Sensors, volume 18, 1, Multidisciplinary Digital Publishing
[59] Kaiwen Duan et al., “Centernet: Keypoint triplets for object detection”,in:ICCV,2019,pages6569–6578.
[60] KenanDai et al., “High-performance long-term tracking with meta- updater”,in:CVPR,2020,pages6298–6307.
[61] Kim-Phuong Phung et al., “Multi-model deep learning drone detec- tion and tracking in complex background conditions”, in:2021 Inter- national Conference on Advanced Technologies for
[62] Kuan-HuiLee et al., “Ground-moving-platform-based human trackingusing visual SLAM and constrained multiple kernels”, in:TITS, vol-ume17,12,IEEE,2016,pages3602–3612.
[63] Lianghua Huang et al., “Got-10k: A large high-diversity benchmark forgeneric object tracking in the wild”, in:TPAMI, volume 43, 5,
[64] Lili Pei et al., “Improved Camshift object tracking algorithm in oc- cluded scenes based on AKAZE and Kalman”, in:Multimedia
[65] Luca Bertinetto et al., “Fully-convolutional siamese networks for objecttracking”,in:ECCV,Springer,2016, pages850–865.
[66] MartinDanelljan et al., “Learning spatially regularized correlation fil- tersforvisualtracking”,in:ICCV,2015,pages4310–4318.
[67] MartinDanelljanetal.,“Adaptivedecontaminationofthetrainingset:A unified formulation for discriminative visual tracking”, in:CVPR,2016,pages1430–1438.
[68] MartinDanelljan et al., “Beyond correlation filters: Learning contin- uous convolution operators for visual tracking”, in:ECCV, Springer,2016,pages472–488.
[69] MartinDanelljanetal.,“Eco:Efficientconvolutionoperatorsfortrack- ing”,in:CVPR,2017,pages6638–6646.
[70] MartinDanelljan et al., “Atom: Accurate tracking by overlap maxi- mization”,in:CVPR,2019,pages4660–4669.
[71] MartinDanelljan et al., “Probabilistic regression for visual tracking”,in:CVPR,2020,pages7183–7192.
[72] MartinDanelljanetal.,VisualtrackinglibrarybasedonPyTorch,url: https://github.com/visionml/pytracking,a c c e s s e d : 2 0 2 2
[73] MatejKristan et al., “The sixth visual object tracking vot2018 chal- lengeresults”,in:ECCVWorkshops,2018.
[74] MatejKristan et al., “The seventh visual object tracking vot2019 chal- lengeresults”,in:ICCVWorkshops,2019.
[75] MatthiasMuelleretal.,“Abenchmarkandsimulatorforuavtracking”,in:ECCV,S pringer,2016,pages445–461.
[76] MatthiasMuller et al., “Trackingnet: A large-scale dataset and bench- markforobjecttrackinginthewild”,in:ECCV,2018,pages300–317.
[77] MingGao et al., “Manifold siamese network: A novel visual trackingConvNet for autonomous vehicles”, in:TITS, volume 21, 4, IEEE, 2019,pages1612–1623.
[78] MojuZhaoetal.,“Trtr:Visualtrackingwithtransformer”,in:arXiv:2105.03817,2021.
[79] Mustansar Fiaz et al., “Handcrafted and deep trackers: Recent visualobject tracking approaches and trends”, in:ACM Computing
ModalBenchmarkforUAVTracking,url:https://anti- uav.github.io,accessed:2020.
[81] Navneet Dalal et al., “Histograms of oriented gradients for humandetection”, in:IEEEComputer SocietyCVPR,volume 1, Ieee, 2005,pages886–893.
[82] Ngoc-VuongHoetal.,“Point-Unet:AContext-AwarePoint-BasedNeural Network for Volumetric Segmentation”, in:International Con- ferenceonMedicalImageComputingandComputer-AssistedInterven- tion,Springer,2021,pages644–655.
[83] NicolasCarionetal.,“End-to- endobjectdetectionwithtransformers”,in:ECCV,Springer,2020,pages2 13–229.
[84] Ning Wang et al., “Transformer meets tracker: Exploiting temporalcontextforrobustvisualtracking”,in:CVPR,2021,pages1571 –1580.
[85] Ning Xu et al., “Youtube-vos: A large-scale video object segmentationbenchmark”,in:arXiv:1809.03327,2018.
[86] OlgaRussakovsky et al., “Imagenet large scale visual recognition chal- lenge”,in:IJCV,volume115,3,Springer,2015,pages211–252.
[87] Omkar M Parkhi et al., “Deep face recognition”, in: British MachineVisionAssociation, 2015.
[88] PKingmaDiederiketal.,“Amethodforstochastic optimization”, in: arXiv:1412.6980,C o R R , 2 0 1 4
[89] Peixia Li et al., “Gradnet: Gradient-guided network for visual objecttracking”,in:ICCV,2019,pages6162–6171.
[90] Prajit Ramachandran et al., “Stand-alone self-attention in vision mod- els”,in:Advancesin NIP S,volume32,2019.
[91] QiangWang et al., “Learning attentions: residual attentional siamesenetwork for high performance online visual tracking”, in:CVPR, 2018,pages4854–4863.
[92] QiangWang et al., “Fast online object tracking and segmentation: Aunifyingapproach”,in:CVPR,2019,pages1328–1338.
[93] QilongWang et al., “ECA-Net: Efficient Channel Attention for DeepConvolutionalNeuralNetworks”,in:CVPR,2020,pages11531–11539.
[94] QinLei et al., “Tracking fornear space nonballistic target based onseveral filter algorithms”, in:34th Chinese Control Conference
[95] QingGuo et al., “Learning dynamic siamese network for visual objecttracking”,in:ICCV,2017,pages1763–1771.
[96] RonanCollobertetal.,“Naturallanguageprocessing(almost)fromscratch”, in:booktitle of machine learning research, volume 12, inpro- ceedings,2011,page s 2493–2537.
[97] Seong-Young Ko et al.,“Asurgical knowledge based interaction methodfor a laparoscopic assistant robot”, in:13th IEEE International Work-shop on Robot and Human Interactive Communication,IEEE,
[98] Seyed Mojtaba Marvasti-Zadeh et al., “Deep learning for visual track- ing:Acomprehensivesurvey”,in:TITS,IEEE,2021.
[99] ShaoqingRenetal.,“Fasterr-cnn:Towardsreal- timeobjectdetectionwithregionproposalnetworks”,in:AdvancesinNIP
[100] Siyuan Cheng et al., “Learning to filter: Siamese relation network forrobusttracking”,in:CVPR,2021,pages4421–4431.
[101] Stuart J Russell et al (2020),Artificial Intelligence: A Modern Ap- proach,4thEd.P r e n ti c e Hall.
[102] TianyangLinetal.,“Asurveyoftransformers”,in:AIOpen,Elsevier,2022.
[103] Tsung-YiLinetal.,“Microsoftcoco:Commonobjects incontext”,in:
[104] Tsung-Yi Lin et al., “Focal loss for dense object detection”, in:ICCV,2017,pages2980–2988.
[105] Van-Viet Doan et al., “Real-time Image Semantic Segmentation Net- workswithResidualDepth- wiseSeparableBlocks”,in:2018Joint10thInternational Conference on Soft Computing and
Intelligent Systems(SCIS)and 19th International Symposium on Advanced IntelligentSystems(ISIS),IEEE,2018,pages174–179.
[106] Vittoria Bruni et al., “An improvement of kernel-based object trackingbased on human perception”, in:IEEETransactions on Systems, Man,and Cybernetics: Systems, volume 44, 11,IEEE,2014, pages 1474–1485.
[107] WeiHeetal.,“Surftracking”,in:ICCV,IEEE,2009,pages1586–1592.
[108] Wei Liu et al., “Ssd: Single shot multibox detector”, in:ECCV,
[109] Weiwei Xing et al., “Visual Object Tracking from Correlation Filter toDeepLearning”,in:Springer,2021.
[110] Xin Chen et al., “Transformer tracking”, in:CVPR, 2021, pages 8126–
[111] Xinyu Zhang et al., “A study on key technologiesof unmanned driv- ing”,in:CAAI Transactions on Intelligence Technology, volume 1, 1,Elsevier,2016,pages4–13.
[112] YiWu et al., “Online object tracking: A benchmark”, in:CVPR,
[113] Yi Wu et al., “Object Tracking Benchmark”, in:TPAMI, volume
[114] YimingLietal.,“AutoTrack:Towardshigh-performancevisualtrack-ing for UAV with automatic spatio-temporal regularization”, in:CVPR,2020,pages11923–
[115] Ying Xia et al., “Dynamic Object Tracking Based on KAZE
Featuresand Particle Filter”, in:Applied Mechanics and Materials, volume 556,TransTechPubl,2014,pages2702–2706.
[116] Yuechen Yu et al., “Deformable siamese attention networks for visualobjecttracking”,in:CVPR,2020,pages6728–6737.
[117] Yutao Cui et al., “MixFormer: End-to-End Tracking with
[118] Zanwu Xia et al., “Vision-based hand gesture recognition for human- robotcollaboration: asurvey”,in:ICCAR,IEEE,2019,pages198–205.
[119] ZeYang et al., “Reppoints: Point set representation for object detec- tion”,in:ICCV,2019,pages9657–9666.
//github.com/StrangerZhang/pysot-toolkit,accessed:2020.
[122] ZhengTang et al., “Cityflow: A city-scale benchmark for multi- targetmulti-camera vehicle tracking and re-identification”, in:CVPR, 2019,pages8797–8806.
[123] ZhengZhuetal.,“Distractor- awaresiamesenetworksforvisualobjecttracking”,in:ECCV,2018,pages10