Ví dụ minh họa deformable convolutional neural net- 123docz.net

3.3 .b Deformable ROI Pooling

10 Ví dụ minh họa deformable convolutional neural network

Chương 4 Mơ hình đề xuất

1 Tổng quan

Với mục tiêu giải quyết bài tốn theo dấu người đi bộ sử dụng cơng nghệ học sâu trong một mơ hình one-shot và có thể theo dấu người dấu người đi bộ tức thời. Đồng thời kế thừa ý tưởng thiết kế hệ thống đảm bảo tính cân bằng của hai tác vụ chính là phát hiện đối tượng và liên kết các đối tượng nhưng vẫn duy trì tính chính xác và tốc độ theo dõi. Do đó, tơi đã kế thừa ý tưởng thiết kế của mơ hình FairMOT [2].

Tơi đề xuất mơ hình Attentional Channel Spatial Multi-Object Tracking (ACSMOT), mơ hình là sự kết hợp giữa các ưu điểm của mơ hình FairMOT và cải tiến hiệu quả bằng các thiết kế attention phù hợp để mạng có khả năng học tốt hơn các đối tượng người đi bộ, và theo dấu người đi bộ được chính xác hơn.

2 Attentional Channel Spatial Multi-Object Tracking

Kiến trúc của mạng ACSMOT được minh họa trong hình 11 được chia thành 3 thành phần chính:

• Thành phần rút trích đặc trưng (Feature Extractor): Nhận đầu vào là các bức ảnh chứa người đi bộ. Chúng ta sẽ tiến hành cái tiến thành phần này với các mơ-đun spatial attention.

• Đầu nhận diện (Detection Head): sẽ nhận đầu vào là các feature được sinh ra từ thành phần Feature Extractor để nhận diện các đối tượng là người đi bộ.

• Đầu Re-ID (Re-ID Head): sẽ nhận đầu vào là các feature được sinh ra từ thành phần Feature Extractor đế sinh ra các identity embedding các đối tượng người đi bộ. Thành phần này cũng sẽ được cải tiến bằng một channel attention để tăng cường ngữ cảnh trong quá trình theo dấu.

2.1 Feature Extractor

Như đã trình bày ở trên, chúng ta sẽ kế thừa các ưu điểm mà một hệ thống theo dẫu người đi bộ sử dụng mạng FairMOT mạng lại với mô đun spatial attention. Đây là một bước rất quan trọng vì bước rút trích feature này sẽ làm input cho hai tác vụ nhận diện và theo dẫu phía sau, vì vậy việc mở rộng khả năng học của các feature từ bước này sẽ ảnh hưởng rất lớn đến kết quả sau cùng.

Ý tưởng mở rộng các feature về spatial representation bằng các spatial attention xuất phát từ những phân tích, nhận định về tác động tích cực của các mơ đun attention này với việc học các appearance feature trong mạng Convolution Neural Network (CNN). Cấu trúc của một thành phần feature extractor tương tự DLA-34[13] được minh họa như hình 12a

Hình 11: Kiến trúc mơ hình ACSMOT network

với các mơ-dun attention được thêm vào trong q trình up-sampling. Cách thiết kế này sẽ tận dụng được những ưu điểm DLA-34 đồng thời học tốt hơn cho các spatial features để đạt được kết quả như mong đợi.

Up-sampling. Sự cải tiến được tiến hành thơng qua q trình up-sampling trong Fea-

ture Extractor, được minh họa trong hình 12b. Trong bước up-sampling, thành phần Spatial Attention Module (SAM) như hình 12c kết hợp với Deformable Convolution Network[4]. Chúng ta sẽ gọi F ∈RC×H×W là đầu ra của của DCN, trong đó C sẽ nhận các giá trị 64, 128, 256 sinh ra do quá trình học từ các tỉ lệ khác nhau. F sẽ được truyền qua spatial attention module (SAM) như minh họa trong hình 12c để rút trích các spatial representaion

Ms ∈R1×H×W. Kết quả đặc trưng feature cuối cùngFs sẽ được tính tốn như sau:

Fs =F ⊗Ms⊕F (12)

Trong đó, ⊗ là element-wise multiplication và ⊕ kí hiệu cho element-wise addition. Sau đây, chúng ta sẽ nói rõ hơn về mơ đun SAM.

Spatial Attention Module (SAM). Khác với kiến trúc trong FairMOT, tôi đề xuất

một spatial attention trong mô đun Deformable Convolution Network[4]. Với thiết kế này, SAM sẽ cải tiến q trình rút trích apperance features với sự bổ sung thông tin từ các điểm lận cận với những pixel mục tiêu. Các làm này sẽ giảm nhiễu nền và sự nhầm lẫn trong quá trình nhận diện. Đầu tiên, chúng ta sẽ truyền F từ DCN đi qua average pooling và max-pooling để rút trích các thơng tin thống kê liên quan đến các pixel lân cận, ta kí hiệu đầu ra lần lượt là Fs

avg ∈R1×H×W, Fs

max ∈R1×H×W. Sau đó, chúng ta kết hợpFs avg và

max lại với nhau. Một covolution với filter size là 5×5 f5×5

sẽ được dùng sau đó để tạo thành ma trận Ms. Đầu ra của SAM sẽ được tính tốn như sau:

Ms =σ(f5×5[M axP ool(F), AvgP ool(F)]) =σ(f5×5

[Fmaxs , Favgs ]) =σ(Fpools )

(13)

(a)

(b)

(c)

Hình 12:Feature Extractor. (a) Structure of Feature Extractor . (b) Up-sampling with spatialspatial attention module (SAM). (c) Spatial attention module (SAM) spatial attention module (SAM). (c) Spatial attention module (SAM)

2.2 Đầu Detection

Tôi sẽ xây dựng nhánh nhận diện detetion giống như thiết kết của FairMOT theo phương pháp anchor-free. Nhánh detection này sẽ nhận feature map được rút trích từ bước Feature Extractor, sau đó sẽ truyền vào ba mạng CNN với 3×3 convolution con để ước tính các giá trị heatmap, object center offset và kích thước của bounding-box. Nhánh Heatmap được dùng để tính vị trí trung tâm của đơi tượng người đi bộ. Để xác định ground truth cho bước này, trong quá trình học thì những ma trận trung tâm từ ảnh sẽ có kích thước

H×W trong đó giá trị của những điểm trung tâm mà chứ đối tượng sẽ được gán thành 1 trong ma trận trung tâm. Hai nhánh box offset và size thì được dùng để đưa ra chính xác vị trí tương đối của đối tượng so với heatmap đã ước tính từ nhánh Heatmap.

3 Đầu Re-ID

(a) (b)

Hình 13: ReID Head. (a) Structure of Re-ID Head with CAM. (b) Channel attention module (CAM)

Trong phần này, chúng ta sẽ bàn về mô đun channel attention để cải tiến các feature về identity embedding cho đầu Re-ID. Được lấy cảm hứng từ CSTrack [3], trong đó một mơ đun channel attention được dùng tập trung vào phần cải thiện ID embedding.

Đầu Re-ID sẽ nhận đặc trưng từ bước Feature Extractor để rút trích các identity embeddings cho các đối tượng đã nhận diện được từ đầu detection, như minh họa trong hình 13a. Trong quá trình huấn luyện, các identity embeddings sẽ được học để có thế phân biệt các object của Ground Truth. Kích thước ảnh sẽ được kí hiệu làHimage×Wimage, và đầu

ra của Feature Extractor là E ∈RC×H×W, trong đó H =⌊Himage/4⌋ vàW =⌊Wimage/4⌋. Đầu ra của mơ đun Channel Attention Module (CAM) là feature map với attention, kí hiệu là Mc ∈256×1×1. Kết quả feature output cuối cùng Ec ∈R256×1×1 như sau:

Ec =E⊗Mc⊕E (14)

Trong đó, ⊗ kí hiệu cho element-wise multiplication và ⊕ là element-wise addition. Sau đây, chúng ta sẽ đi vào tìm hiểu về cách xây dựng mơ đun channel attention được minh họa trong hình 13b.

Channel Attention Module (CAM). Tơi sử dụng một lớp 3×3 convolution f3×3

để sinh ra 256 channelsE′

∈R256×H×W và thêm vào sau đó một mơ đun channel attention (CAM). CAM được xây dựng bằng cách truyền E′ vào average-pooling và max-pooling operations into two Ec

avg, Ec

max ∈ R256×1×1. Hai đầu ra từ pooling sẽ dùng chung một mạng con multi-perception (MLP). Hai đầu ra sau khi đi qua MLP sẽ được kết hợp bằng element-wise summation thành Mc ∈ R256x1x1. Attention map một chiều ở trên sẽ được tính như sau: E′ =f5×5 (E) Mc =σ(M LP(AvgP ool(E′ ))⊕M LP(M axP ool(E′ ))) =σ(M LP(Eavgc ))⊕M LP(Emaxc ))

=σ(f c(γ(Eavgc ))⊕f c(γ(Emaxc ))))

(15)

Trong đó, σ kí hiệu cho hàm sigmoid, γ kí hiệu hàm ReLU và fc là mạng fully-connected dùng chung.

Cuối cùng đầu ra Ec sẽ giảm số chiều về 128 channel bằng cách truyền a convolution layer với 128 kernels để tạo thành đặc trưng identity embedding EreID ∈ R128×H×W cho mỗi vị trí đối tượng được nhận diện trên heatmap.

4 Hàm lỗi

Chúng ta thiết kế mơ hình học một lần và kế thừa kiến trúc của mơ hình FairMOT với các cái tiến attention nhằm cái thiện kết quả cuối cùng. Chúng ta, sẽ dùng các tính hàm lỗi tương tự như đề xuất của[1] và FairMOT [2]. Hàm lỗi của bài tốn sẽ được tính như cơng thức 16, 17, 18 để kết hợp độ lỗi hai tác vụ nhận diện và re-ID một cách cân bằng tự động. Các biến α, β sẽ được học trong quá trình huấn luyện.

Ldetection =Lheat+Lbox (17) L= 1 2( 1 eαLdetect+ 1 eβLreid+α+β) (18)

Trong đó, λ là trọng số của kích thước của đối tượng được dự đốn, và được gán giá trị là 0.1 như bài báo gốc [11].

5 Tiểu kết

Trong chương này, tôi đã đề xuất được phương pháp áp dụng mơ hình ACSMOT kế thừa mơ hình FairMOT và các mơ đun attention để cải thiện khả năng học. Để có thể chứng minh tính hiệu quả của những đề xuất trên tơi hiện thực và kiểm thử mơ hình đề xuất này trong chương kế tiếp.

Chương 5 Hiện thực

Hệ thống được hiện thực bằng ngôn ngữ python sử dụng thư viện pytorch [14] và được huấn luyện trên tập dữ liệu MOT được cấp từ MOT challenge [15]. Việc hiện thực bài toán này sẽ bao gồm hai phần: chuẩn bị dữ liệu và huấn luyện hệ thống.

1 Chuẩn bị dữ liệu

Trong phần hiện thực, tôi chỉ sử dụng dữ liệu được cung cấp từ MOT challenge [15]. Cụ thể, dữ liệu này là MOT16/MOT17 và MOT20 [16], là các dữ liệu phục vụ cho bài toán theo dấu người các đối tượng là người đi bộ. Dữ liệu được thu thập với các ground truth với độ chính xác cao và được cấu trúc hợp lí dễ sử dụng trong q trình đọc hiểu và áp dụng vào q trình thí nghiệm.

Tập dữ liệu MOT được cập nhật qua các năm, trong đó đối tượng chính là người đi bộ. Tập dữ liệu ghi nhận từ nhiều video lấy từ camera hành trình của xe hơi hoặc trung tâm thương mại. Do đó, tập ảnh sẽ chứa cả dữ liệu bên trong nhà và bên ngoài trời. Cụ thể, MOT16, MOT17 sẽ có 7 video cho huấn luyện và 7 video cho quá trình đánh giá. Trong khi, MOT20 thì tập trung những người đi bộ ở khu vực đông đúc với 4 video cho huấn luyện và 4 video cho q trình.

Tơi sẽ đánh giá các kết quả thí nghiệm trên tập huấn luyện của MOT16 với ground truth đã cung cấp với tập dữ liệu. Để khách quan hơn, sẽ đánh giá thêm trên MOT17 và MOT20 test-set với máy chủ của MOT Challenge.

Các ảnh vừa lấy sẽ được chuẩn hóa: Do các ảnh lấy từ các video khác nhau nên sẽ có kích thước khác nhau. Vì vậy ảnh cần được chuẩn hóa bằng cách resize hoặc padding các bức ảnh về kích cở 1088x608. Ngồi ra, để tăng lượng dữ liệu cần huấn luyện, kĩ thuật augmentation data được sử dụng với các kĩ thuật xử ý ảnh như scaling, rotation, color jittering.

2 Huấn luyện

Các thí nghiệm sẽ được hiện thực bằng ngôn ngữ python, sử dụng thư viện pytorch. Pytorch đang là một mã nguồn mở được sử dụng nhiều trong lĩnh vực nghiên cứu những năm gần đầy để giải quyết các vấn đề về học máy, học sâu. Máy chủ được dùng là Google Colab Pro với GPUs NVIDIA P100 hoặc Tesla T4 cùng 25GB RAM.

Mạng DLA-34 được dùng như mạng cơ sở của q trình rút trích feature trong Feature Extractor và framework theo hướng tiếp cần Joint-Detection-And-Tracking (JDT) được kế thừa từ mơ hình FairMOT [2]

Mơ hình được huấn luyện trên tập dữ liệu train-set của MOT17 và MOT20 với 30 epcho và batch size là 8. Mơ hình sử dụng Adam Optimizer với hệ số học ban đầu là 10−4

, hệ số này sẽ được giảm thành 10−5 tại epoch thứ 20. Quá trình huấn luyện sẽ mất 10 giờ cho tập huấn luyện của MOT17 và 20 giờ cho tập huấn luyện MOT20

3 Kết quả thí nghiệm

3.1 Thí nghiệm trên số epoch

Hình 16:Training Loss chi tiết của các thành phần của mơ hình ACSMOT trong q trình huấnluyện luyện

Hình 15 là giá trị hàm loss trong quá trình học. Ta thấy, hàm loss giảm rất nhanh trong 15 epoch đầu tiên và chuyển về giá trị nhỏ dần dưới 1. Do đó, chúng ta sẽ thay đổi hệ số học thành 10−5 để tiếp tục quá trình học với hy vọng sẽ giảm được loss một cách hợp lý. Ngoài ra từ epoch 20, ta thấy các thành phần của hàm loss như heat_loss, size_loss và id_loss cũng khơng thay đổi nhiều trong q trình học nữa như trong hình 16, vì thế ta dừng lại quá trình học ở epoch thứ 30.

Chương 6 Đánh giá

Trong chương này, tơi sẽ trình bày về kết quả thí nghiệm và đánh giá về mơ hình đề xuất. Mơ hình ACSMOT sẽ được đánh giá bằng cả hai phương pháp là định tính và định lượng. 1 Đánh giá định tính

Chúng ta sẽ khảo sát kết quả theo dẫu người đi bộ qua các trường hợp:

• Người đi bộ với kích thước khác nhau

• Vật cản

1.1 Người đi bộ với kích thước khác nhau

Hình 17: Kết quả theo dấu mơ hình ACSMOT

Hình 17 thể hiện được kết quả theo dấu của mơ hình đề xuất ACSMOT nhận diện tốt với nhiều kích cỡ của đối tượng người đi bộ. Trường hợp trịn hình 17 cho thấy mơ hình nhận diện tốt trong trường hợp các đối tượng người đi bộ có kích thước nhỏ trong ảnh.

1.2 Vật cản

Hình 19 minh họa hạn chế của mơ hình đề xuất trong trường hợp có vật cản trong q trình nhận diện. Việc khơng nhận diện trong quá trình nhận diện sẽ ảnh hưởng đến quá

Hình 18: Minh họa quá trình theo dấu trường hợp vật cản trình theo dấu.

2 Đánh giá định lượngTrong phần này, tơi sẽ trình bày về: Trong phần này, tơi sẽ trình bày về:

• Giới thiệu về các chỉ số đánh giá

• Sự sự ảnh hưởng của các mô đun CAM (Channel Attention Module) và SAM (Spatial Attention Module)

• So sánh mơ hình với các mơ hình thực tế trong các thành phần của mơ hình đề xuất

2.1 Các chỉ số đánh giá

1. Multi-Object Tracking Accuracy (MOTA): Được giới thiệu từ MOTChallenge. Đây là một metric đánh giá độ chính xác của quá trình tracking và detection. Được tổng hợp từ FN, FP, and IDS.

M OT A= 1− F P +F N +IDs

T (19)

. Trong đó:

• FP (False Positive): tổng số lần xuất hiện một đối tượng được phát hiện mặc dù khơng có đối tượng nào tồn tại.

• FN (False Negative): tổng số lần mà đối tượng hiện có khơng được phát hiện.

• IDs (ID Switches): tổng số lần 1 đối tượng bị gán cho 1 ID mới trong suốt quá trình tracking video.

• T: số lượng grouth-truth

2. Multi-Object Tracking Precision (MOTP): Đánh giá precision của quá trình tracking. Xác định bằng trung bình mức độ overlap của các case detect và xác định đúng id với prediction. M OT P = P i,tIoUt,i T P (20) , trong đó:

• IoU là phần giao nhau giữa detection và ground-truth

• TP: là các trường hợp xác định đúng id với prediction.

3. Identity F1 Score (IDF1): Tỉ lệ các detection đúng id trên số lượng ground-truth và các detection đã xác định.

4. Identity switch (IDs): Số lần switch ID, số lần thay đổi ID trong suốt quá trình tracking của đối tượng

5. Most Track (MT): Số các đối tượng được track thường xuyên. Tỉ lệ predict đúng hơn 80% so với các ground-truth của object

6. Most Lost (ML): Số các đối tượng ít tracking thành cơng. Tỉ lệ predict đúng ít hơn 20% so với các ground-truth của object

2.2 Thí nghiệm ảnh hưởng của CAM

Bảng 1: Ảnh hưởng của mô đun CAM trong framework NUM Dataset CAM IDF1 IDs MT ML

1 MOT16 82.5 560 317 30

2 x 82.5 602 323 27

3 MOT17 69.8 436 144 47

4 x 71.1 411 149 57

Phần này sẽ trình bày thí nghiệm mơ đun CAM vào đầu Re-ID trong mơ hình đề xuất và khơng dùng mơ đun CAM như mơ hình FairMOT [2]. Kết quả được trình bày như bảng 1. Trong đó, thí nghiệm NUM 1 và NUM 2 sử dụng tập training MOT17 cho quá trình huấn luyện và tập training MOT16 cho q trình đánh giá và thí nghiệm NUM 3 và NUM4 thì sẽ chia tập train MOT17 thành hai phần một phần để huấn luyện, một phần đề đánh giá. Cách chia tập dữ liệu để đám bảo quá các tập dữ liệu không bị chồng lấp vào nhau.

Ví dụ minh họa deformable convolutional neural network

Kết quả theo dấu mơ hình ACSMOT

Đánh giá ưu, nhược điểm