kỹ thuật học sâu cho bài toán theo vết đa đối tượng

Các ph°¢ng pháp tr°ác đây th°ßng chia bài toán này thành hai model riêng biát: model 1 Bß dò tìmdetection: đầu tiên s¿ đánh vá và khoanh vùng vÁt thá cần chú ý tái bằng bounding box tron

Trang 1

HâC VIÞN CÔNG NGHÞ B¯U CHÍNH VIâN THÔNG

-

TRÀN QUÞC Đ¾T

Kþ THUÀT HâC SÂU CHO BÀI TOÁN

THEO VÀT ĐA ĐÞI T¯þNG

LUÀN VN TH¾C S) Kþ THUÀT

(Theo đánh h°áng āng dụng)

TP.Hà CHÍ MINH - 2021

Trang 2

HâC VIÞN CÔNG NGHÞ B¯U CHÍNH VIâN THÔNG

-

TRÀN QUÞC Đ¾T Kþ THUÀT HâC SÂU CHO BÀI TOÁN

THEO VÀT ĐA ĐÞI T¯þNG Chuyên ngành: Há tháng thông tin Mã sá: 8.48.01.04

LUÀN VN TH¾C S) Kþ THUÀT (Theo đánh h°áng ứng dāng)

NG¯âI H¯àNG D¾N KHOA HâC: PGS.TS LÊ HOÀNG THÁI

TP Hà CHÍ MINH - 2021

Trang 3

LâI CAM ĐOAN

Tôi cam đoan rằng luÁn văn: <Kỹ thuật học sâu cho bài toán theo vết đa đối tượng= là công trình nghiên cāu cÿa chính tôi

Nhÿng kÁt quÁ nghiên cāu đ°āc trình bày trong luÁn văn là công trình cÿa

riêng cÿa tôi d°ái sā h°áng d¿n cÿa PGS.TS Lê Hoàng Thái

Tôi cam đoan các sá liáu, kÁt quÁ nêu trong luÁn văn là trung thāc và ch°a từng đ°āc ai công bá trong bất kỳ công trình nào khác

Không có sÁn phẩm/nghiên cāu nào cÿa ng°ßi khác đ°āc sử dụng trong luÁn văn này mà không đ°āc trích d¿n theo đúng quy đánh

TP Hồ Chí Minh, ngày 25 tháng 01 năm 2022

Hãc viên thāc hißn luÁn vn

TrÁn Qußc Đ¿t

Trang 4

LâI CÀM ¡N

Trong suát quá trình học tÁp và nghiên cāu thāc hián luÁn văn, ngoài nỗ lāc cÿa bÁn thân, tôi đã nhÁn đ°āc sā h°áng d¿n nhiát tình quý báu cÿa quý Thầy Cô, cùng vái sā đßng viên và ÿng hß cÿa gia đình, b¿n bè và đồng nghiáp Vái lòng kính trọng và biÁt ¢n sâu sắc, tôi xin gửi lßi cÁm ¢n chân thành tái:

Tôi xin chân thành cÁm ¢n Ban Giám hiáu, quý Thầy Cô Khoa Đào t¿o sau đ¿i học cÿa Học vián Công nghá B°u chính Vißn thông đã t¿o mọi đißu kián thuÁn lāi giúp tôi hoàn thành luÁn văn

Tôi cũng xin chân thành cÁm ¢n Thầy PGS.TS Lê Hoàng Thái, ng°ßi thầy

kính mÁn đã hÁt lòng giúp đÿ, h°áng d¿n, đßng viên, t¿o đißu kián cho tôi trong suát quá trình thāc hián và hoàn thành luÁn văn

Tôi xin chân thành cÁm ¢n gia đình, b¿n bè, đồng nghiáp trong c¢ quan đã đßng viên, hỗ trā tôi trong lúc khó khăn đá tôi có thá học tÁp và hoàn thành luÁn văn

Mặc dù đã có nhißu cá gắng, nỗ lāc, nh°ng do thßi gian và kinh nghiám nghiên cāu khoa học còn h¿n chÁ nên không thá tránh khßi nhÿng thiÁu sót Tôi rất mong nhÁn đ°āc sā góp ý cÿa quý Thầy Cô cùng b¿n bè đồng nghiáp đá kiÁn thāc cÿa tôi ngày mßt hoàn thián h¢n

Xin chân thành cÁm ¢n!

Trang 5

DANH SÁCH HÌNH ÀNH

Hình 1.1 Tổng quát one-shot MOT Ành đầu vào s¿ đ°āc cho vào m¿ng decoder đá t¿o ra bÁn đồ đặc tr°ng đß phân giÁi cao (stride = 4) Sau đó s¿ đ°a vào

encoder-hai đầu song song đá dā đoán đặc tr°ng bounding box và Re-ID 6

Hình 1.2 Chi tiÁt m¿ng x°¢ng sáng DLA 34 7

Hình 1.3 (a) là m¿ng CNN c¢ bÁn nh° VGG (b) là mô tÁ kÁt nái nông nh° cÿa Feature Pyramid 8

Hình 1.4 Fully Convolutional Networks for Semantic Segmentation 8

Hình 1.5 IDA hoặc HDA 9

Hình 1.11 Deformable ROI 12

Hình 1.12 Multi Branch - KiÁn trúc r¿ nhánh 14

Hình 1.13 Heatmap Flow 14

Hình 1.14 Nhánh đánh danh vÁt thá 15

Hình 1.15 So sánh giÿa Focal loss và cross entropy loss 16

Hình 3.1 Flowchart huấn luyán 23

Hình 3.2 Flowchart mô tÁ cách nßi suy đặc tr°ng 24

Hình 3.3 Luồng xử lý cÿa trình theo dõi 25

Hình 3.4 KhoÁng cách Cosine giÿa hai vector đặc tr°ng 26

Hình 3.5 Điám IoU giÿa hai vector đặc tr°ng 26

Hình 3.6 Flow chart of the Iterative process 27

Hình 3.7 Ví dụ mßt theo dõi đ¢n giÁn nêu lên mßt trong nhÿng điám khác biát chính giÿa các chß sá đánh giá Ba trình theo dõi khác nhau đ°āc hián thá đá tăng đß chính xác phát hián và giÁm đß chính xác liên kÁt MOTA và IDF1 nhấn m¿nh quá māc Ánh h°áng cÿa viác 29

Trang 6

Hình 4.1 Detect ng°ßi đi bß trên đ°ßng phá á video nhÁy múa đ°ßng phá 33

Hình 4.2 Detect ng°ßi đi bß á khu vāc Thánh thất Tây Ninh 33

Hình 4.3 Detect ng°ßi đi bß tr°ác cửa bánh vián Ung B°áu 34

Hình 4.4 Detect ng°ßi đi bß khu vāc khám bánh cÿa bánh vián 34

Hình 4.5 Detect ng°ßi đi bß khu khám bánh cÿa bánh vián 35

Hình 4.6 Detect ng°ßi đi bß khu vāc mua sắm á siêu thá 35

Hình 4.7 KÁt quÁ ch¿y TrackEval cÿa bß MOT15 37

Trang 7

DANH SÁCH BÀNG

BÁng 4.1 Thông tin cÿa tÁp dÿ liáu MOT25 31 BÁng 4.2 KÁt quÁ các chß sá đánh giá cÿa bß data MOT25 40 BÁng 4.3 KÁt quÁ tổng hāp các chß sá đánh giá cÿa các bß data 40

Trang 8

3.1 Huấn luyán và nßi suy ra đặc tr°ng 23

3.2 Theo vÁt online (Online Tracking) 25

3.3 Đánh giá đß chính xác cÿa mô hình 27

3.4 KÁt luÁn ch°¢ng 2 29

Trang 9

CH¯¡NG 4 THĀC NGHIàM VÀ ĐÁNH GIÁ KÀT QUÀ THĀC

NGHIàM 30

4.1 TÁp dÿ liáu thāc nghiám 30

4.2 Xây dāng bß dÿ liáu MOT25 Chi tiÁt quá trình huấn luyán 31

4.3 Đánh giá và so sánh các bß dÿ liáu vái TrackEval 35

4.4 NhÁn xét 40

CH¯¡NG 5 KÀT LUÀN VÀ H¯àNG PHÁT TRIàN 42

5.1 KÁt quÁ nghiên cāu cÿa đß tài 42

5.2 H¿n chÁ cÿa đß tài 42

5.3 H°áng phát trián cÿa đß tài 42

DANH MĀC CÁC TÀI LIÞU THAM KHÀO 43

Trang 10

I Mä ĐÀU 1 Lý do chãn đß tài

Trong nhÿng năm gần đây, viác phát hián và tái xác đánh đái t°āng đã có nhißu tiÁn bß đáng ká Hai kỹ thuÁt này là thành phần cát lõi đá hình thành há tháng theo dõi đa đái t°āng Tuy nhiên, viác hoàn thành hai nhiám vụ trong mßt m¿ng duy nhất đá cÁi thián tác đß suy luÁn ch°a đ°āc quan tâm nhißu Các nỗ lāc ban đầu cho viác hāp nhất hai nhiám vụ trên cho kÁt quÁ thấp Nguyên nhân chÿ yÁu: là do kỹ thuÁt tái nhÁn d¿ng ch°a đ°āc huấn luyán phù hāp Trong luÁn văn, chúng tôi tìm hiáu nhÿng lý do c¢ bÁn đằng sau sā thất b¿i; tiÁn tái, đß nghá mßt ph°¢ng pháp c¢ bÁn đ¢n giÁn đá giÁi quyÁt các vấn đß

Mục tiêu cÿa há tháng đß xuất là: dā đoán đ°ßng đi cÿa nhißu vÁt thá đ°āc chú ý trong các video Nhißu āng dụng cÿa há tháng đß nghá này s¿ rất hÿu ích trong nhißu lĩnh vāc thāc tÁ khác nhau:

• Dā đoán hành đßng • Phân tích các video thá thao, • Robot trā giúp ng°ßi già • T°¢ng tác giÿa ng°ßi và máy tính&

2.Tổng quan vß v¿n đß nghiên cứu

Theo vÁt đa đái t°āng (Multi-Object Tracking (MOT)) là mßt trong nhÿng bài toán kinh đián thußc lĩnh vāc thá giác máy tính

Các ph°¢ng pháp tr°ác đây th°ßng chia bài toán này thành hai model riêng biát: model (1) Bß dò tìm(detection): đầu tiên s¿ đánh vá và khoanh vùng vÁt thá cần chú ý tái bằng bounding box trong tÁp các Ánh, sau đó sang model (2), Bß kÁt hāp (association) s¿ t¿o ra các đặc tr°ng tái đánh danh (Re-identification (Re-ID)) cho mỗi bounding box và kÁt nái nó tái mßt trong nhÿng tuyÁn đ°ßng (t¿o ra bái vÁt thá) đã đ°āc xác đánh bái các đặc tr°ng tr°ác đó Trong các năm gần đây, các kỹ thuÁt trên đã có nhÿng b°ác tiÁn đáng kinh ng¿c vß đß chính xác cũng nh° tác đß Tuy nhiên, khi kÁt hāp hai model thì l¿i không thá dùng á các video có đß phân giÁi cao (30FPS), do tác đß thāc thi không đÁm bÁo, bái vì các network đó không chia sẻ cùng mßt bß đặc tr°ng (Tāc là muán dùng

Trang 11

đ°āc đặc tr°ng cÿa (1)detection thì (2) Association phÁi qua mßt b°ác biÁn đổi nào đó - two-steps)

Vái sā phát trián cÿa học đa nhiám (multi-task learning), ph°¢ng pháp one-shot cho viác kÁt hāp (1) phát hián vÁt thá và (2) học các đặc tr°ng Re-ID đ°āc chú ý đÁn nhißu h¢n Do phần lán các đặc tr°ng có thá đ°āc chia sẻ giÿa hai model nên ph°¢ng pháp này có khÁ năng làm giÁm thßi kÁt hāp (inteference time) hai model Tuy nhiên, đß chính xác (accuracy) cÿa ph°¢ng pháp one-shot hián t¿i giÁm đi rõ rát, khi so sánh vái ph°¢ng pháp two-steps, dāa vào các thāc nghiám, thì rõ ràng viác kÁt hāp hai model này không thá thāc hián mßt cách đ¢n giÁn đ°āc, mà phÁi chú ý mßt cách cẩn thÁn

Thay vì, sử dụng các trick trong máy học và học sâu đá tăng đß chính xác thì chúng ta s¿ nghiên cāu lý do quan trọng cho thất b¿i này Sau đây, s¿ là 3 nhân tá quan trọng nhất Ánh h°áng đÁn accuray:

• Anchors don9t fit Re-ID [6](tÁp đặc tr°ng cÿa bß dò tìm không kháp vái tÁp đặc tr°ng tái đánh danh)

• Multi-Layer Feature Aggregation [8] (Tích hāp các đặc tr°ng qua nhißu láp)

• Dimensionality of the RelD Features [2,9] (Kích th°ác cÿa các đặc tr°ng Re-ID)

3 Māc đích nghiên cứu

Xây dāng mßt mô hình nhÁn d¿ng theo vÁt nhißu đái t°āng (ng°ßi) đá tiÁn tái xa h¢n có thá áp dụng mô hình cho mßt sá lĩnh vāc thāc tÁ nh°: an ninh quác phòng, giao thông vÁn tÁi,&

4 Đßi t°ÿng và ph¿m vi nghiên cứu

Đái t°āng nghiên cāu: NhÁn d¿ng theo vÁt nhißu đái t°āng (ng°ßi) quan tâm trong video á tác đß 30 khung hình mỗi giây

Ph¿m vi nghiên cāu: thāc hián trên tÁp dÿ liáu video FairMOT [9] và mßt sá tÁp dÿ liáu video chọn lọc từ youtube khác Các video dÿ liáu chāa rất nhißu đái t°āng đ°āc quay á nhißu vá trí khung cÁnh khác nhau (trên đ°ßng phá hoặc trong siêu thá,&)

5 Ph°¢ng pháp nghiên cứu

• Ph°¢ng pháp chuyên gia:

Trang 12

Tổng hāp các kiÁn thāc đã biÁt vß các mô hình học sâu – cụ thá là m¿ng x°¢ng sáng (Backbone Network), Nhánh phát hián đái t°āng(Object Detection Branch) , Nhánh nhúng danh tính (Identity Embedding Branch), Dò tìm trāc tuyÁn (Online Tracking) [8]

Trang 13

II NÞI DUNG CH¯¡NG 1 C¡ Sä LÝ THUYÀT 1.1 Các ph°¢ng pháp dò tìm đßi t°ÿng

Multi-Object Tracking (MOT) là mßt trong nhÿng mục tiêu lâu dài cÿa thá giác máy tính [1] [2] [3] [4] Mục tiêu là dā đoán đ°ßng đi cÿa nhißu vÁt thá đ°āc chú ý trong các video Các āng dụng cÿa nó s¿ có lāi ích cho rất nhißu āng dụng khác nh°: dā đoán hành đßng, phân tích các video thá thao, robot trā giúp ng°ßi già và sā t°¢ng tác giÿa ng°ßi và máy tính Các ph°¢ng pháp state-of-the-art [1] [2] [3] [4] [5] [6] [7] cũ th°ßng chia bài toán này thành hai model riêng biát: detection đầu tiên s¿ đánh vá và khoanh vùng vÁt thá cần chú ý tái bằng bounding box trong tÁp các Ánh, sau đó s¿ đÁn association s¿ chiÁt xuất ra các đặc tr°ng Re-identification (Re-ID) cho mỗi bounding box và kÁt nái nó tái mßt trong nhÿng tuyÁn đ°ßng (t¿o ra bái vÁt thá) đã đ°āc xác đánh bái các đặc tr°ng tr°ác đó Các model trên đã có nhÿng b°ác tiÁn đáng kinh ng¿c khi tăng đß chính xác và tác đß trong các năm gần đây Tuy nhiên, khi kÁt hāp chúng thì l¿i không thá đÿ tác đß khi dùng á 30FPS cÿa video bái vì các network đó không chia sẻ cùng mßt bß đặc tr°ng (tāc là muán dùng đ°āc đặc tr°ng cÿa detection thì Association phÁi qua mßt b°ác biÁn đổi nào đó – two-steps)

Vái sā phát trián cÿa viác học tÁp đa tác vụ [8], ph°¢ng pháp one-shot đá kÁt hāp phát hián vÁt thá và các đặc tr°ng Re-ID đ°āc chú ý đÁn nhißu h¢n [9] [10] Do phần lán các đặc tr°ng có thá đ°āc chia sẻ giÿa hai model nên ph°¢ng pháp này có khÁ năng làm giÁm thßi kÁt hāp (inteference time) hai model Tuy nhiên sā chính xác (accuracy) cÿa ph°¢ng pháp one-shot hián t¿i l¿i giÁm đi rõ rát khi so sánh vái ph°¢ng pháp two-steps, dāa vào cÁ thāc nghiám thì rõ ràng viác kÁt hāp hai model này không thá thāc hián mßt cách đ¢n giÁn đ°āc, mà phÁi chú ý mßt cách cẩn thÁn

Thay vì sử dụng các trick trong máy học và học sâu đá tăng đß chính xác thì chúng ta s¿ nghiên cāu lý do chính xác cho sā thất b¿i đó Sau đây s¿ là 3 nhân tá quan trọng nhất Ánh h°áng đÁn đß chính xác:

• Anchors don9t fit Re-ID (Neo không phù hāp vái Re-ID) • Multi-Layer Feature Aggregation (Tổng hāp đặc tr°ng trên nhißu láp) • Dimensionality of the ReID Features (Kích th°ác cÿa các đặc tr°ng Re-ID)

Trang 14

1.2 Phân tích v¿n đß

Neo không phù hÿp vái Re-ID

Hián t¿i thì vái cách theo dõi one-shot [9] [10] đßu dāa theo neo (anchor) vì chúng đßu đ°āc thay đổi từ phát hián vÁt thá, tuy nhiên các cái neo vÁt thá đó không phù hāp cho đặc tr°ng Re-ID vái 2 lý do: Thā nhất, khi mà có nhißu neo dāa trên các image patches, chúng có thá dā đoán chung mßt đánh danh cho cùng 1 vÁt thá (Bounding box trùng lên nhau) Viác này s¿ gây lên sā nhÁp nhằng cho m¿ng Thā hai, bÁn đồ đặc tr°ng th°ßng đ°āc giÁm đß lấy m¿u (down-sample) 8 lần đá có thá đißu hòa giÿa tác đß và đß chính xác cho viác nhÁn dián vÁt thá nh°ng l¿i rất là thô cho RE-ID vì object center có thá không đ°āc căn chßnh tát vái vá trí cÿa neo do đó có thá làm sai khi dā đoán đánh danh cÿa vÁt thá Đá xử lý vấn đß này chúng tôi dā đoán pixel-wise keypoint (object center) và đánh danh vÁt thá á trên cùng cÿa bÁn đồ đặc tr°ng high-resolution

Tổng hÿp đặc tr°ng trên nhißu láp

Viác này quan trọng vái MOT vì các đặc tr°ng Re-ID cần tÁn dụng cÁ các đặc tr°ng cấp thấp và cấp cao đá thích nghi vái vÁt thá khi bá phóng to và thu nhß Trong thāc nghiám chúng ta thấy viác này rất có ích đá giÁm indentity switches cho ph°¢ng pháp one-shot vì nó là kỹ năng đá xử lý sā thay đổi tỷ lá cÿa vÁt thá ( Chú ý đißu này s¿ không tác dụng mấy tái ph°¢ng pháp two-steps do vÁt thá s¿ có cùng mßt tỷ lá khi đã có b°ác cắt và thay đổi kích th°ác)

Kích th°ác của các đặc tr°ng Re-ID

Các ph°¢ng pháp cũ dùng các đặc tr°ng Re-ID có kích th°ác lán nh°ng á ph°¢ng pháp này chúng ta s¿ tìm cách giÁm kích th°ác cÿa các đặc tr°ng Re-ID là do Ánh đá huấn luyán cho MOT ít h¢n Ánh đá huấn luyán Re-ID, và cũng không thá dùng Ánh huấn luyán cÿa Re-ID đ°āc vì bß dÿ liáu đó chß đ°a ra các Ánh hình ng°ßi bá cắt ra Viác học các đặc tr°ng có kích th°ác nhß cũng giúp v°āt qua đ°āc các mái nguy từ viác over-fitting khi học trên các tÁp dÿ liáu nhß, và tăng tác đß cho viác theo dõi vÁt thá

Trang 15

1.3.1 Giới thiệu hướng tiếp cận mới

Vấn đß cÿa các m¿ng object detection thành công nhất hián nay là chúng phÁi thāc hián lần qua tất cÁ các vá trí có thá có vÁt và thāc hián phân lo¿i mỗi vá trí đó Đißu đó d¿n đÁn viác lãng phí tài nguyên tính toán, không hiáu quÁ và cần thāc hián các b°ác hÁu xử lý (Non-maximum suppression)

H°áng tiÁp cÁn mái cÿa luÁn văn là đ°a bài toán phát hián vÁt (object detection) vß bài toán tìm điám đặc tr°ng (keypoint estimation), từ đó cũng suy ra kích th°ác và tính toán đ°āc bounding box cho bài toán phát hián vÁt

Trang 16

Nó v°āt qua các thuÁt toán 1 stage (One-shot MOT methods) phổ biÁn nhất hián nay là YOLO v3, RetinaNet trong sā cân bằng giÿa tác đß và đß chính xác H¢n nÿa đß chính xác cÿa nó còn ngang ngửa Faster RCNN - mßt m¿ng phát hián vÁt 2 stage (Two-Step MOT methods)

• One-shot MOT methods: YOLO v3, RetinaNet, CenterNet • Two-Step MOT methods: RCNN, Fast-RCNN, Masked-RCNN,

1.3.2 Mạng xương sống (Backbone Network)

LuÁn văn chọn m¿ng Resnet-34 [11] làm m¿ng x°¢ng sáng đá có thá cân bằng giÿa tác đß và đß chính xác Đá vÁt thá thích nghi đ°āc vái nhißu tỷ lá khác nhau mßt

biÁn thá cÿa Deep Layer Aggregation (DLA) [12], sā khác biát á DLA này là nó có nhißu liên kÁt nhÁy h¢n giÿa đặc tr°ng low-level và high-level, t°¢ng tā nh° Feature Pyramid Network (FPN) [13] Ngoài ra tất cÁ các láp tích chÁp up-sampling đ°āc thay

thÁ bái deformable convolution layers đá chúng có thá linh ho¿t trong viác thích nghi

vái dáng ng°ßi và thay đổi tỷ lá Nhÿng thay đổi trên cũng rất có ích đá làm giÁm thiáu tác đßng cÿa aligment issues KÁt quÁ ta đặt tên m¿ng là DLA-34, Ánh đầu vào có kích

th°ác Himage × Wimage thì bÁn đồ đặc tr°ng có kích th°ác C × H × W là vái H = Himage /4 và W = Wimage /4

Hình 1.2: Chi tiÁt m¿ng x°¢ng sßng DLA 34 Deep Layer Aggregation

Trang 17

Deep Layer Aggregation bao gồm hai lo¿i là: Iterative Deep Aggregation(IDA) và Hierarchical Deep Aggregation(HDA) Phần lán các kÁt nái nhÁy b°ác hián t¿i v¿n khá là nông ví dụ nh° ResNet IDA và HDA ra đßi đá phục vụ cho viác nhÁy kÁt nái này có thá sâu h¢n

Hình 1.3: (a) là m¿ng CNN c¢ bÁn nh° VGG (b) là mô tÁ kÁt nßi nông nh° của Feature

Pyramid

Tầng nhảy kết nối là gì?

Hình 1.4: Fully Convolutional Networks for Semantic Segmentation

NhÁy kÁt nái (Skip connection) có nghĩa là phép ghép l¿i, ví dụ nh° hình 5 mô tÁ cho FCN thì nhÁy kÁt nái từ "pool 4" đã nhÁy qua pool 5 và 6 đá kÁt hāp vái "pool 7"

Tại sao nhảy kết nối quan trọng

1 KÁt hāp các đặc tr°ng cấp thấp vái các đặc tr°ng cấp cao l¿i vái nhau 2 Muán huấn luyán các m¿ng sâu h¢n, thì ví dụ nh° các kÁt nái ngắn nh° ResNet có

thá giúp tránh tình tr¿ng vanishing gradient vái m¿ng rất sâu 3 Các nhÁy kÁt nái dài có thá giúp phục hồi các thông tin đã bá mất khi

downsampling (Fully Convolutional Networks for Semantic Segmentation)

Trang 18

4 Tăng tác đß hßi tụ (Huấn luyán m¿ng) The Importance of Skip Connections in Biomedical Image Segmentation

Hình 1.5: IDA hoặc HDA IDA - Iterative Deep Aggregation tÁp trung vào giÁi quyÁt đß nét (resolution) và

tỷ lá (scale) HDA - Hierarchical Deep Aggregation tÁp trung vào viác kÁt hāp các đặc

tr°ng cho toàn bß các module và channel Từ IDA và HDA chúng ta kÁt hāp l¿i thì đầu ra cÿa m¿ng s¿ có cÁ ngÿ nghĩa á láp cao và các thông tin không gian khác á các láp thấp

Hình 1.6: M¿ng kÁt hÿp IDA và HDA

DLA-34 gác t°¢ng đ°¢ng vái hình 8 sau:

Trang 19

Hình 1.7: DLA-34 gßc Feature Pyramid Network

Dò tìm các đái t°āng có kích th°ác nhß là mßt vấn đß đáng đ°āc giÁi quyÁt đá nâng cao đß chính xác Và FPN là mô hình m¿ng đ°āc thiÁt kÁ ra dāa trên khái niám pyramid đá giÁi quyÁt vấn đß này

Hình 1.8: Feature Pyramid Network

Mô hình FPN kÁt hāp thông tin cÿa mô hình theo h°áng bottom-up kÁt hāp vái top-down đá dò tìm đái t°āng (trong khi đó, các thuÁt toán khác chß th°ßng sử dụng bottom-up) Khi chúng ta á bottom và đi lên (up), đß phân giÁi s¿ giÁm, nh°ng giá trá ngÿ nghĩa s¿ tăng lên Trong khi đó, FPN xây dāng thêm mô hình top-down, nhằm mục đích xây dāng các layer có đß phân giÁi cao từ các layer có ngÿ nghĩa cao Trong quá trình xây dāng l¿i các layer từ top xuáng bottom, chúng ta s¿ gặp mßt vấn đß khá nghiêm trọng là bá mất mát thông tin cÿa các đái t°āng Ví dụ mßt đái t°āng nhß khi lên top s¿ không

Trang 20

thấy nó, và từ top đi ng°āc l¿i s¿ không thá tái t¿o l¿i đái t°āng nhß đó Đá giÁi quyÁt vấn đß này, chúng ta s¿ t¿o các kÁt nái (skip connection) giÿa các reconstruction layter và các feature map đá giúp quá trình detector dā đoán các vá trí cÿa đái t°āng thāc hián tát h¢n (h¿n chÁ tát nhất viác mất mát thông tin)

Deformable Convolution Layers

Vái các cách tích chÁp thông th°ßng s¿ tính toán trên mßt l°ái ô vuông đánh tr°ác cho Ánh đầu vào hoặc tÁp hāp các bÁn đồ đặc tr°ng dāa theo đß lán cÿa bß lọc ()filter) L°ái này có thá là 3 × 3 hoặc 5 × 5 v.v Tuy nhiên, có các vÁt thá chúng ta cần phát hián và đánh danh có thá bá biÁn d¿ng, mắc kẹt (trùng vái vÁt thá khác) hoặc thay đổi theo tỷ lá, ví dụ trong bài toán này là khi theo dõi vÁt thá là con ng°ßi vái mßt camera, thì vÁt thá khi á xa camera s¿ bá nhß l¿i, á gần s¿ phóng lán lên, hay nh° vÁt thá có thá bá che khuất bái cây cái, cßt đèn v.v

à DCN, l°ái này có thá biÁn d¿ng, có nghĩa là mỗi điám l°ái có thá di chuyán bái môt đß lách có thá học đ°āc Và tích chÁp s¿ ho¿t đßng trên các điám l°ái di chuyán này, do đó đ°āc gọi là tích chÁp có thá biÁn d¿ng, t°¢ng tā đái vái tr°ßng hāp tổng hāp RoI (Region of Interest) có thá biÁn d¿ng Bằng cách sử dụng hai mô-đun mái này, DCN cÁi thián đß chính xác cÿa DeepLab, Faster R-CNN, R-FCN và FPN, v.v

Hình 1.9: Deformable Convolution

• Tích chÁp thông th°ßng s¿ ho¿t đßng trên l°ái vuông R • Tích chÁp biÁn d¿ng ho¿t đßng trên R nh°ng vái mỗi điám đ°āc thay đổi

vái mßt offset có thá học ∆pn • Tích chÁp dùng đá t¿o ra 2N sá l°āng bÁn đồ đặc tr°ng t°¢ng āng vái N

điám lách 2D ∆pn (h°áng x và h°áng y cho mỗi offset)

Trang 21

Hình 1.10: Tích chÁp biÁn d¿ng có thá l¿y các điám có giá trá khác nhau tuỳ theo Ánh đÁu vào, nh° å hình này chúng tÁp trung vào hình Ánh của con vÁt thay vì phân tán nh° å tích

• Viác chuẩn hoá offset ∆pij là cần thiÁt đá cho viác học kích th°ác cÿa RoI bất biÁn • Cuái cùng, á đ°ßng d°ái hình 12, chúng ta s¿ biÁn đổi RoI pooling bÁn đồ đặc

tr°ng đầu ra s¿ đ°āc pool dāa theo offset đã học đ°āc á trên

1.3.3 Nhánh phát hiện vật thể

Ph°¢ng pháp cÿa luÁn văn này là coi viác phát hián vÁt thá nh° center-based based bounding box regression task trên bÁn đồ đặc tr°ng có đß phân giÁi cao Đá làm viác này chúng tôi dùng 3 viác ch¿y song song đ°āc kÁt nái vái đầu ra cÿa m¿ng x°¢ng sáng đá

Trang 22

tính heatmaps, object center offsets và bounding box sizes, á đây chúng tôi đang dùng kỹ thuÁt Multitask Learning Trên mỗi viác song song đó chúng tôi áp dụng tích chÁp 3

× 3 (vái 256 kênh) cho đặc tr°ng đầu ra cÿa m¿ng x°¢ng sáng và theo sau đó là tầng tích chÁp 1 × 1 đá t¿o ra đặc tr°ng cuái cùng

Multitask Learning - Multi Branch

KiÁn trúc r¿ nhánh s¿ cho phép thuÁt toán học đ°āc nhißu tác vụ đồng thßi nh°ng không chia sẻ đặc tr°ng Mô hình cÿa chúng ta sử dụng chung mßt đầu vào là Ánh và phân nhánh thành nhißu mô hình con Mỗi mô hình s¿ phụ trách dā báo cho mßt tác vụ mßt cách đßc lÁp

Ví dụ: Trong nhÁn dián khuôn mặt, chúng ta s¿ cần sử dụng rất nhißu các dā báo trên cùng mßt Ánh khuôn mặt nh°: giái tính, đß tuổi, chÿng tßc, màu mắt, màu tóc,

Nhÿng tác vụ trên không chia sẻ các đặc tr°ng đá phân biát Ví dụ: Khi phân biát giái tính chúng ta dāa trên các đặc tr°ng vß đß dài tóc, râu, lông mày, mắt, cằm và quai hàm nhißu h¢n nh°ng phân biát đß tuổi chúng ta chÿ yÁu dāa vào nÁp nhăn trên khuôn mặt, màu da, màu tóc Đây là nhÿng đặc tr°ng không hoàn toàn giáng nhau Do đó sử dụng kiÁn trúc multitask learning chia sẻ tham sá cho bài toán này s¿ không hāp lý

Mßt lāa chọn tát h¢n trong tr°ßng hāp này cho chúng ta đó là xây dāng mßt kiÁn trúc r¿ nhánh ngay từ input layer Giÿa các nhánh là đßc lÁp, chß sử dụng chung mßt đầu vào mà không chia sẻ tham sá

Trang 23

Hình 1.12: Multi Branch - KiÁn trúc r¿ nhánh Heatmap Head

Đầu này cháu trách nhiám °ác tính vá trí cÿa tâm vÁt thá Biáu dißn cÿa bÁn đồ nhiát là tiêu chuẩn đá thāc hián nhiám vụ °ác tính điám tâm Kích th°ác bÁn đồ nhiát là 1 × H × W PhÁn hồi t¿i vá trí cÿa bÁn đồ nhiát đ°āc mong đāi là trùng vái vá trí cÿa vÁt thá trong tÁp ground-truth PhÁn hồi này s¿ giÁm dần theo cấp sá nhân tß lá thuÁn khoÁng cách giÿa vá trí tâm vÁt thá và điám cần tính

Hình 1.13: Heatmap Flow Center Offset Head

Đầu này cháu trách nhiám khoanh vùng tâm vÁt thá đúng h¢n Nhá l¿i rằng á b°ác tr°ác đó, b°ác tr°āt (stride) cÿa bÁn đồ đặc tr°ng là 4 nên s¿ t¿o ra mßt sá lỗi khi nßi suy vá trí cÿa vÁt trên Ánh thÁt từ bÁn đồ đặc tr°ng Đầu này không có lāi vái viác phát hián vÁt thá nh°ng l¿i rất quan trọng vái đánh danh vÁt thá Re-ID, khi mà đầu này s¿ xác đánh tâm vÁt thá tát h¢n

Box Size Head

Trang 24

Đầu này cháu trách nhiám °ác tính chißu cao và chißu rßng cÿa bounding box vÁt thá t¿i mỗi vá trí neo Đầu này không liên quan trāc tiÁp đÁn các đặc tr°ng đánh danh Re-ID nh°ng đß chính xác vá trí s¿ Ánh h°áng đÁn viác đánh giá hiáu suất phát hián đái

t°āng Đầu ra cÿa size v trong Box Size Head là S ∈ RW×H×2

1.3.4 Nhánh định danh vật thể

Hình 1.14: Nhánh đánh danh vÁt thá

Mục đích cÿa nhánh đánh danh vÁt thá là t¿o ra các đặc tr°ng đá có thá phân biát các vÁt khác nhau Lý t°áng thì khoÁng cách các vÁt thá khác nhau s¿ lán h¢n so vái cùng mßt vÁt thá Đá có thá đ¿t đ°āc mục đích này chúng tôi s¿ áp dụng láp tích chÁp vái 128 Kernels trên đßnh cÿa đặc tr°ng m¿ng x°¢ng sáng đá trích xuất ra đặc tr°ng đánh danh cho mỗi điám BÁn đồ đặc tr°ng s¿ là E ∈ R128×W×H Đặc tr°ng Re-ID s¿ là Ex,y ∈ R128cÿa vÁt thá t¿i điám (x, y) s¿ đ°āc rút trích từ bÁn đồ đặc tr°ng trên

1.4 Các kÿ thuÁt áp dāng

1.4.1 Hàm lỗi

Đá huấn luyán bất kỳ m¿ng nào thì chúng ta đßu cần phÁi đánh nghĩa hàm lỗi, huấn luyán m¿ng t°¢ng đ°¢ng vái viác tìm trọng sá sao cho hàm lỗi là có giá trá nhß nhất, hay t°¢ng đ°¢ng vái viác đß lách vái tÁp huấn luyán là ít nhất

Kÿ thuÁt Focal Loss

Nhÿng mô hình nhÁn dián vÁt thá chính xác nhất đÁn nay đ°āc xây dāng dāa trên cách tiÁp cÁn two-stage mà đián hình là R-CNN Các mô hình này th°ßng đ°āc dùng vái mßt tÁp các object nằm khá th°a thát và rÁi rác, trái ng°āc vái ph°¢ng pháp one-stage, th°ßng đ°āc sử dụng cho các tÁp m¿u object có vá trí phân bá đồng đßu và dày đặc Mô hình sử dụng ph°¢ng pháp one-stage th°ßng nhanh và đ¢n giÁn h¢n, tuy nhiên l¿i không

Trang 25

chính xác bằng two-stage Lí do cho viác này là sā không cân bằng giÿa các foreground và background class gặp phÁi trong quá trình huấn luyán Trong phần này, chúng tôi s¿ trình bày mßt giÁi pháp đá giÁi quyÁt vấn đß trên, đó chính là sử dụng Focal Loss

Tổng quan: Focal loss đ°āc sử dụng bằng viác thay đổi mßt chút hàm

cross-entropy nhằm giÁm trọng sá đái mất mát cÿa các object đ°āc phân lo¿i tát Thay vào đó, nó s¿ tÁp trung vào các tr°ßng hāp khó h¢n, nhằm tránh viác các tr°ßng hāp dß s¿ gây Ánh h°áng quá lán đÁn mô hình, d¿n đÁn giÁm hiáu quÁ khi huấn luyán

Focal Loss đ°āc đ°a ra đá giÁi quyÁt trong tr°ßng hāp có sā mất cân bằng lán giÿa các foreground và background classes trong huấn luyán, chẳng h¿n 1:1000

Hình 1.15: So sánh giÿa Focal loss và cross entropy loss

Cross Entropy : Đá bắt đầu thì chúng ta nhắc l¿i đánh nghĩa hàm cross-entropy (CE) cho binary classification

Trong hàm trên thì y nhÁn giá trá 1 hoặc -1 biáu dißn ground-truth class và p nằm trong khoÁng (0,1) là xác suất dā đoán cho class vái y =1 Đá cho thuÁn tián ta đánh nghĩa l¿i hàm trên

Cross-entropy có thá đ°āc biáu dißn bái đ°ßng màu xanh da trßi trong hình trên Có thá dß dàng nhÁn thấy là vái các tr°ßng hāp đ°āc phân lo¿i tát ( xác suất lán h¢n

Trang 26

hoặc bằng 0.6) thì hàm loss nhÁn giá trá vái đß lán lán h¢n 0, và khi tính tổng các sá h¿ng này s¿ cho ra mßt sá rất lán so vái loss cÿa các tr°ßng hāp khó phân lo¿i, và có thá làm Ánh h°áng đÁn quá trình huấn luyán Ý t°áng chính cÿa focal-lost là đái vái các tr°ßng hāp đ°āc phân lo¿i tát ( xác suất lán h¢n 0.5) thì focal lost s¿ làm giÁm giá trá cross-entropy cÿa nó xuáng nhß h¢n so vái thông th°ßng Do đó, ta s¿ thêm trọng sá cho hàm cross-entropy đá biÁn thành hàm focal lost

Đánh ngh*a hàm focal loss: Chúng ta s¿ thêm mßt nhân tử vào phía tr°ác hàm

cross-entropy, đ°āc gọi là modulating factor, vái gamma lán h¢n hoặc bằng 0 đ°āc gọi là tham sá focussing có thá đißu chßnh đ°āc

Quay trá l¿i hình 17 ban đầu, hàm focal loss đ°āc mô tÁ vái các giá trá khác nhau cÿa gamma vái các giá trá từ 0 đÁn 5, trong đó vái 0 chính là hàm cross-entropy nh° đã đ°āc mô tÁ bên trên Chúng ta chú ý đÁn 2 tính chất cÿa hàm focal loss:

• Khi mßt m¿u bá phân lo¿i sai và pt nhß, modulating factor gần 1 và loss s¿ không bá Ánh h°áng Còn khi pt tiÁn tái 1, tāc các tr°ßng hāp đ°āc phân lo¿i tát, moduling factor s¿ tiÁn tái 0 và hàm loss trong tr°ßng hāp này s¿ bá giÁm trọng sá xuáng

• Tham sá focusing gamma s¿ đißu chßnh tỷ lá các tr°ßng hāp đ°āc phân lo¿i tát đ°āc giÁm trọng sá Khi gamma càng tăng thì Ánh h°áng cÿa *modulating factor cũng tăng Thāc nghiám cho thấy vái gamma = 2 thì kÁt quÁ đ¿t đ°āc s¿ tát nhất

Trang 27

TiÁp đÁn phÁn hồi bÁn đồ nhiát t¿i (x, y) s¿ đ°āc tính bằng cách áp phân phái chuẩn lên điám đó (phân phái Gauss) nh° sau:

Trong đó N thá hián cho sá l°āng vÁt thá trong Ánh còn σc thá hián cho đß lách chuẩn trong hàm Gauss VÁy hàm lỗi cho bÁn đồ nhiát s¿ đ°āc đánh nghĩa nh° sau vái kỹ thuÁt pixel-wise logistic regression with focal loss nh° sau [14]:

Trong đó M là bÁn đồ nhiát °ác l°āng, α, ³ là các biÁn, có thá thay đổi tuỳ ý, trong thāc nghiám thì có thá chọn α = 2, ³ = 4 t°¢ng tā nh° CenterNet

Offset and Size Loss Chúng ta có đầu ra cÿa size và offset trong Box Size Head là S ∈ RW×H×2 và O ∈ RW×H×2 Vái mỗi tÁp GT box (ground-truth box) bi = (ý1�㕖, þ1�㕖, ý2�㕖, þ2�㕖) trên Ánh ta tính

đ°āc size si = (ý2�㕖 − ý1�㕖, þ2�㕖 − þ1�㕖) t°¢ng tā GT offset oi = (Āý�㕖, Āþ�㕖) 2 (⌊�㕐ý�㕖

4 ,�㕐þ�㕖

4⌋), đo¿n

offset này chính là đo¿n đá sửa lỗi khi lấy phần nguyên á Heatmap head Do °ác l°āng

size và offset s¿ phụ thußc vào vá trí cÿa �㕜̂�㕖 và �㕠̂�㕖 cÿa đầu ra trong Box Size Head VÁy

chúng ta s¿ đánh nghĩa hàm lỗi vái đß dài mahattan nh° sau đá có thá cân bằng tác đß tính toán và đß chính xác:

Identity Embedding Loss

Chúng ta coi đánh danh vÁt thá là nhiám vụ phân biát vÁt thá Cụ thá là, tất cÁ các tr°ßng hāp vÁt thá trong lúc huấn luyán đßu đ°āc coi là cùng mßt láp Vái mỗi Vái mỗi tÁp GT box (ground-truth box) ÿ�㕖 = (ý1�㕖, þ1�㕖, ý2�㕖, þ2�㕖) trong Ánh, chúng ta s¿ lấy đ°āc điám tâm cÿa vÁt thá (Āý̃ , Ā�㕖 ̃ ) trên bÁn đồ nhiát Từ đó ta s¿ rút trích véc t¢ đánh danh đặc tr°ng þ�㕖là �㔸ý�㕖,þ�㕖, �㔸þi t¿i vá trí đó và học đá đái chiÁu nó vào véc t¢ phân phái láp PK Đặt biáu dißn one-hot cho láp nhãn Ground-truth là Li(k) VÁy ta có hàm lỗi softmax nh° sau:

Trang 28

Trong đó K là sá láp phân lo¿i (number of classes) Mßt cách dß hiáu thì mỗi điám trên bÁn đồ nhiát sau khi đ°āc huấn luyán xong s¿ có mßt giá trá nhất đánh và giá trá này s¿ kháp vái mßt nhãn trong láp nhãn Ground-truth, nên hai nhánh đánh danh Re-ID và xác đánh vÁt thá ch¿y song song vái nhau và ra kÁt quÁ cùng lúc đá cho b°ác tiÁp theo Traking

1.4.2 Online Tracking

Network Inference

M¿ng lấy hình Ánh có kích th°ác 1088 × 608 làm đầu vào, giáng nh° tác phẩm tr°ác đó JDE [10] Thāc hián kỹ thuÁt non-maximum suppression (NMS) lên trên bÁn đồ nhiát điám sá đá trích xuất các keypoint cao nhất Chúng tôi giÿ vá trí cÿa các keypoint chính có điám bÁn đồ nhiát lán h¢n ng°ÿng Sau đó, chúng tôi tính toán các bounding box t°¢ng āng dāa trên hiáu sá °ác tính và kích th°ác hßp Chúng tôi cũng trích xuất các nhÁn d¿ng t¿i các trung tâm đái t°āng °ác tính cùng lúc

Online Box Linking

Chúng tôi sử dụng thuÁt toán online tracking tiêu chuẩn đá đ¿t đ°āc liên kÁt hßp Chúng tôi khái t¿o mßt sá tracklet dāa trên các hßp °ác tính trong khung đầu tiên Trong các khung tiÁp theo, chúng tôi liên kÁt các hßp vái các tracklet hián có theo khoÁng cách cÿa chúng đ°āc đo bằng các tính năng Re-ID và IoU Chúng tôi cũng sử dụng Kalman Filter đá dā đoán vá trí cÿa các tracklet trong khung hián t¿i NÁu nó á quá xa so vái phát hián đ°āc liên kÁt, chúng tôi đặt chi phí t°¢ng āng thành vô cùng, đißu này ngăn cÁn hiáu quÁ viác liên kÁt các phát hián vái chuyán đßng lán CÁp nhÁt các đặc tr°ng xuất hián cÿa tracker trong từng b°ác thßi gian đá xử lý các biÁn thá vß giao dián [15] [16]

1.5 KÁt luÁn ch°¢ng 1

Ch°¢ng này đã trình bày tổng quan vß các ph°¢ng pháp dò tìm đái t°āng, đồng thßi nêu lên nhÿng nh°āc điám làm giÁm đß chính xác cÿa các ph°¢ng pháp Qua đó, đ°a ra các giÁi pháp, h°áng tiÁp cÁn mái đÁn đß tài và các kỹ thuÁt áp dụng nhằm nâng cao hiáu suất, đß chính xác h¢n nÿa

Tiêu đề	Kỹ Thuật Học Sâu Cho Bài Toán Theo Vết Đa Đối Tượng
Tác giả	Trần Quốc Đạt
Người hướng dẫn	PGS.TS Lê Hoàng Thái
Trường học	Học Viện Cộng Nghệ Bưu Chính Viễn Thông
Chuyên ngành	Công Nghệ Thông Tin
Thể loại	Luận Văn Thạc Sĩ
Năm xuất bản	2021
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	57
Dung lượng	755,1 KB