Khóa luận tốt nghiệp Khoa học máy tính: Tìm hiểu và Áp dụng Centroid Triplet Loss cho bài toán Person Re-Identification

Với việc phương pháp học các mô hình mạng để biểu diễn vec-tơ dựa trên việc tính độ tương đồng của hình ảnh với ham loss là triplet loss là một trong những phương pháp được sử dụng rộng

Trang 1

ĐẠI HỌC QUỐC GIA THÀNH PHÔ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA KHOA HỌC MÁY

TÌM HIỂU VÀ ÁP DỤNG CENTROID TRIPLET LOSS CHO

BÀI TOÁN PERSON RE-IDENTIFICATION

RESEARCH AND APPLY CENTROID TRIPLET LOSS FOR

PERSON RE-IDENTIFICATION

HO QUOC THU DANG QUANG ANH TUAN

TP Hồ Chí Minh, Tháng 3 năm 2023

Trang 2

ĐẠI HỌC QUỐC GIA THÀNH PHÔ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA KHOA HỌC MÁY

TÌM HIỂU VÀ ÁP DỤNG CENTROID TRIPLET LOSS CHO

BÀI TOÁN PERSON RE-IDENTIFICATION

RESEARCH AND APPLY CENTROID TRIPLET LOSS FOR

Trang 3

DANH SÁCH HỘI ĐỒNG BẢO VỆ KHÓA LUẬN

Hội đồng chấm khóa luận tốt nghiệp, thành lập theo quyết định số

36/QD-DHCNTT ngày 17/01/2022 của Hiệu trưởng Trường Dai hoc

Công nghệ Thông tin.

1 <A EE - Chủ tịch.

2 P: GP <6 - Thư ký.

3 P mm Me, - Uỷ viên.

Trang 4

LỜI CẢM ƠN

Thực hiện đề tài Khóa luận tốt nghiệp không phải là quá trình đơn

giản với chúng em nếu thiếu đi sự giúp đỡ, chỉ dẫn và cộng tác từ mọi

người Với tất cả sự biết ơn, chúng em xin gửi lời cảm ơn sâu sắc đến

TS Ngô Đức Thành và Ths Đỗ Văn Tiến, người trực tiếp theo dõi

và đưa ra những lời khuyên bổ ích cũng như sẵn sàng hỗ trợ chúng

em những lúc khó khăn trong suốt quá trình thực hiện đề tài.

Bên cạnh đó, chúng mình cũng xin cảm ơn những bạn thuộc câu lạc

bộ CS-UIT AI Club đã cùng đồng hành, cũng như đưa ra những quanđiểm, ý kiến nhằm hỗ trợ nhóm hoàn thiện đề tài tốt hơn

Sau cùng, chúng em xin phép gửi lời cảm ơn tới toàn thể giảng viên

tại trường Đại học Công nghệ Thông Tin, đặc biệt những thầy cô đã trực tiếp giảng dạy chúng em trong thời gian học tập và rèn luyện tại

trường.

TP Hồ Chí Minh, tháng 3 năm 2023

Sinh viên thực hiện

Trang 5

TÓM TẮT KHÓA LUẬN

Trong những năm gần đây, với nhu cầu ngày càng tăng về an toàn

công cộng và sự phát triển nhanh chóng của các mạng giám sát thông

minh, person Re-ID(tạm dịch: nhận dạng lại người) đang trở thành

một trong những chủ dé nghiên cứu được quan tâm nhiều hơn trong

lĩnh vực thị giác máy tính Mục tiêu nghiên cứu chính của Person

Re-ID là xác định được sự xuất hiện một người từ một hoặc nhiều camera khác nhau tại những thời điểm khác nhau Hiện nay có rất

nhiều phương pháp đã ra đời để giải quyết bài toán person re-ID, vì

vậy cần một tài liệu có một cái nhìn tổng quan nhất về vấn đề này.

Với việc phương pháp học các mô hình mạng để biểu diễn vec-tơ dựa

trên việc tính độ tương đồng của hình ảnh với ham loss là triplet loss

là một trong những phương pháp được sử dụng rộng rãi nhất Tuy

nhiên, triplet loss lại có nhưng nhược điểm riêng cần phải được cảitiến Centroid triplet loss ra đời là là một trong những cải tiến cho

hàm triplet loss Trong khóa luận này, chúng tôi tập trung tìm hiểu

về centroid triplet loss, đồng thời đánh giá centroid triplet loss trêntập dữ liệu thu thập được Qua khóa luận này, chúng tôi thu được kếtquả sau:

« Xây dựng được bộ tài liệu tổng quan va cái nhìn tổng quát về

bài toán Person Re-ID.

* Tìm hiểu tổng quan về các phương pháp các cách tiếp cận của

bài toán Person Re-identification.

Trang 6

¢ Hiểu được việc xây dựng ham centroid triplet loss và sử dụng

trong bài toán person re-ID.

s Cài dat, thử nghiệm và đánh giá phương pháp trên tập dữ liệu

thu thập được đồng thời phân tích ưu và nhược điểm

Từ khóa: Tái nhận dạng người, Person Re identification , Centroid

triplet loss.

Trang 7

Mỏ dauGiới thiệu bài toán person re-IDCác hướng tiếp cận

2.3.1 Local feature learning

Trang 8

MỤC LỤC

2.3.2 Generative adversarial learning 10

2.3.3 Deep metric learnng 13

2.3.3.1 Classificationloss 14

2.3.3.2 Veriicalonlos 15

2.3.3.3 Contrasivelos 17

2.3.3.4 Trpletlos 17

2.3.3.5 Quadrupletloss 18

24 Các kiến trúccơbản 2 eee 20 2.4.1 Mạng nơ-ron tích chập (Convolutional Neural Network) 20 2.4.1.1 Lớp tích chập (Convolution) 22

2.4.1.2 Lớp pooling (Pooling layer/subsampling) 24

244.13 Lớp chuẩn hóa (Normalization) 24

2.4.1.4 Lớp kết nỗi đầy đủ (Fully connected layer) 25

24.2 ResNet(ResidualNetwork) 25

2.4.3 TBNNG( So 27 2.5 Kếtchương ẶQQ Q ee 29 CENTROID TRIPLET LOSS ÁP DỤNG TRONG BÀI TOÁN PER-SON RE-ID 30 3.1 Médau eee 30 3.2 Tổng quan về quan Centroid triplet loss (CTL) 31

3.2.1 Triplet loss và những hạn chế 31

3.2.2 Centroidtripletloss 32

3.3 Áp dụng CTL cho bài toán personre-ID 34

3.3.1 Basemodel Ặ 34

3.3.1.1 Khởi tạo Learnngrate 35

3.3.1.2 Thayđổisride 36

VI

Trang 9

MỤC LỤC

3.3.1.3 Xóa các vùng che khuất(Random Erasing

Aug-mentationhay REA) 36

3.3.1.4 LabelSmoothing 37

3.3.1.5 BNNeck 38

3.3.1.6 StdungCenterloss 39

3.3.2 Sử dung CTL trong quá trình training model 40

3.4 Kétchuong 2.0.00 00 ee ee 42 THUC NGHIEM VA DANH GIA 43 41 Mổđầu ee 43 42 Xây dựng tập dữ liệu 44

4.2.1 Quá trìnhthuthậpdữliệu 44

4.2.2 Quá trình tiền xử lý dữliệu 44

423 Cách thứcthựchiện 45

43 Một số độ đođánhgiá 48

4.3.1 Đường cong CMC (Cumulative Matching Characteristics) 49 4.3.2 mAP (mean Average Precision) 50

4.4 Kết quả thực nghiệm và đánhgiá 50

4.4.1 Phân tích định lượng 50

44.1.1 Độchínhxác 51

4.4.1.2 Thoigiandaotao 54

4.4.2 Phântchđinhtnh 55 44.3 Danhgia Qua 56

4.5 Kétchuong 000.000 ee ee 57

KET LUẬN VA HƯỚNG PHAT TRIEN 58

5.1 Kếtluận ee 58

5.2 Hướng pháttriển 2.2 2 ee ee 59

vii

Trang 10

MỤC LỤC

Tài liệu tham khảo 61

Viil

Trang 11

Danh sách hình ve

1.1 Hình ảnh đầu vào dau ra bài toán person re-ID 2

2.1 Các hướng tiếp cận phổ biến hiện nay cho bài toán PersonRe-ID 8 2.2 Sơ đồ quy trình làm việc của GAN để tạo hình ảnh[I] 11

2.3 Hình anh mô tả quá trình học trénIDloss 15

2.4 Hình anh mô tả quá trình học trên verification loss 16

2.5 Hình anh mô tả quá trình học trên contrastive loss 17

2.6 Hình anh mô tả quá trình học trên tripletlos 19

2.7 Hình anh mô tả quá trình học trên quadruplet loss 20

2.8 Hình ảnh mô tả các phần của một mang CNN 21

2.9 Hình ảnh mô tả tính toán với phép tích chập (nguồn: Iternet) 23

2.10 Hình ảnh mô tả tính toán trên lớp Conv nhiều chiều (nguồn: Iternet) Q ee 23 2.11 Hình anh mô tả tính toán trên pooling layer (ngu6n: Iternet) 25

2.12 Hình anh mô tả tính toán trên lớp FC (nguồn: Iternet) 26

2.13 Hình ảnh khối indentity block (nguồn: Iternet) 27

2.14 Cấu trúc mạng ResNet50 (nguồn: Iternet) 27

2.15 Hình ảnh Khối chuẩn hóa cá thể và chuẩn hóa hàng loat (IBN) 28 3.1 Pipeline [2] đầy đủ cho quá trình model training 34

3.2 Pipeline [2] đầy đủ cho quá trình model trainng 35

1X

Trang 12

DANH SÁCH HÌNH VẼ

3.3

3.4

3.5

3.6

4.1

4.2

4.3

4.4

4.5

4.6

4.7

4.8

4.9

4.10

Hình ảnh các feature được sử dung với hai hàm loss [2] 38

Hình ảnh các feature được sử dụng BNNeck [2] 39

Sự kết hợp của TL và CL[2] 40

Sử dung CTL trong quá trình đào tạo[2] 41

Kiến tric mô hinhyolo 46

So sánh giữa mô hình yolo7 với các mô hình khác 47

Một số hình ảnhnhiễu 47

Một số hình ảnh được gán nhãn 48

Hình ảnh người được lấy từ bộ dữ liệu Uñú 48

Hình ảnh mô tả đường congCMC 50

Kết quả đánh giá hiệu xuất mô hình dựa trên mAP trên tập dữ lệuUt 4 @ @ q@® \ / 52

Một số kết quả xếp hạng Hình anh truy van duy nhất ở bên trái, các hình ảnh còn lại là hình ảnh được xếp hạng top-k Ở các hình ảnh cùng danh tính với hình ảnh truy vấn được bao quanh bởi các hộp màu xanh lá cây và các hình ảnh không cùng danh tính với hình ảnh truy van được bao quanh bởi các hộp màu đỏ 55 Kết quả thu được top-k hình ảnh trong đó có độ tương đồng cao

về đồngphục ẶẶ 56 Kết quả thu được top-k hình ảnh nhưng không cùng danh tính

với hình ảnh query ẶẶẶẶ ee 56

Trang 13

-MTMCReID vàU1t

Thời gian đào tao cua tập dữ liệu Uit qua 2 hàm loss:Triplet loss

(TL) và Centroid Triplet loss (CTL)

Thời gian đánh giá của tập dữ liệu Uit qua hai mô hình

CTL-RSOIBN-A va CTL-ResNe50

XI

Trang 15

Chương 1

TỔNG QUAN

1.1 Đặt van đề

Trong những năm gần đây, với sự phát triển nhanh chóng của các thiết bị

giám sát thông minh và nhu cầu ngày càng tăng về an toàn công cộng, các ứng

dụng cho lĩnh vực an ninh như phát hiện mục tiêu, theo dõi mục tiêu bằng nhiều

camera, ngay càng được quan tâm nghiên cứu để ngày càng dé dàng hơn trong

việc triển khai áp dụng vào thực tế

Quá trình theo dõi một người trên nhiều camera có thể đơn giản hóa thành

việc tìm kiếm sự xuất hiện của người đó trên các camera Các phương pháp thủ

công bằng cách huy động nhân lực để theo dõi gặp nhiều khó khăn do: tính phức

tạp để liên kết các thông tin có được từ nhiều camera, cần nhiều thời gian vàcông sức cần để thực hiện việc theo dõi trên nhiều camera Hiện nay chưa có

nhiều phương pháp có thể giúp theo déi mục tiêu trên nhiều camera có thể áp

Trang 16

1 TONG QUAN

Dau vào, dau ra cho bài toán này là:

* Dữ liệu đầu vào (input): Một hình ảnh người (query/probe) và một tập thư

Hình 1.1: Hình ảnh đầu vào dau ra bai toán person re-ID

Bài toán tập trung vào việc tìm kiếm các hình ảnh tương đồng, do đó nhữngvan đề dữ liệu ảnh đặt ra các thách thức [1]:

« Đặc điểm ngoại hình người trong ảnh: các hình ảnh của cùng một người

có thể khác nhau về ngoại hình do: trang phục, kiểu tóc, đồng thời các

hình ảnh của các người khác nhau nhưng lại có có chung đặc điểm ngoại

hình sẽ gây khó khăn trong việc xác định được đúng người trong quá trình tìm kiêm.

* Chất lượng hình ảnh: Hình ảnh được sử dụng có thể không được rõ nét

do các điều kiện ngoại cảnh như:độ phân giải, yếu tố môi trường như ánh

Trang 17

1 TONG QUAN

sáng, , ngoài ra lượng thông tin có được trong hình anh có thể không chứa

các đặc điểm để phân biệt người đó do bị che khuất hoặc chụp không đầy

đủ bộ phần Các yếu tố này làm cho quá trình trích xuất hình ảnh bị thiếuthông tin, gây khó khăn trong việc tìm kiếm

Các hướng tiếp cận truyền thống chủ yếu sử dụng trích xuất thủ công cácđặc điểm phân biệt cố định Hướng tiếp cận chủ yếu tập trung tạo ra bộ tríchxuất các đặc điểm phân biệt của từng hình ảnh, sau đó sẽ so sánh các đặc điểm

này với nhau Phương pháp tiếp cận này sẽ hoạt động tốt khi góc quan sát người

trong các ảnh không có sự thay đổi lớn và đặc điểm hình dáng bên ngoài của

các đối tượng là tương đối khác nhau Ngược lại, khi góc quan sát thay đổi đủ

lớn, các đặc tính hình dáng có nhiều điểm tương đồng hoặc miền ảnh nền khágiống nhau thì hiệu suất sẽ bị giảm đi Với việc sử dụng mạng thần kinh để họccách trích xuất đặc trưng của ảnh đang là xu thế, các phương pháp dựa trên việc

sử dụng mạng thần kinh đã ra đời, các phương pháp theo hướng này thường cố

gắng học cách biểu diễn đặc trưng thông qua việc dựa trên các hàm so sánh mức

độ tương đồng để làm giảm thiểu khoảng cách của các hình ảnh cùng nhãn Dựatrên phương pháp này có ba hướng tiếp cận được được sử dụng phổ biến hiện

nay là: học các đặc điểm cục bộ (local feature learning), học các điểm dựa trên

trình tạo của GAN (Generative adversarial learning) và học dựa phương pháp

metric learning (deep metric learning).

Để có những hướng di trong việc tìm ra các phương pháp để giải quyết bàitoán này Cần một tài liệu tổng quan về bài toán, đề cập tới các hướng đi cho các

phương pháp hiện nay, đồng thời tìm hiểu được phương pháp tốt nhất hiện nay

để có những hiểu biết tổng quát, từ đó có hướng phát triển hướng giải quyết bàitoán cho tương lai Do đó nhóm sẽ nghiên cứu về phương pháp tốt nhất hiện nay,phương pháp sử dung CTL (Centroid Triplet Loss) và chạy thử nghiệm phươngpháp trên đó với tập dữ liệu thu thập được từ thực tế để tìm ra những ưu nhược

Trang 18

« Tìm hiểu tổng quan về các phương pháp các cách tiếp cận của bài toán

Person Re-identification với dữ liệu là ảnh.

« Tìm hiểu về việc sử dụng Centroid trong việc xử lý bài toán Person

Trong khuôn khổ giới hạn của khóa luận, nhóm thực hiện tập trung hoàn

thành các công việc sau:

° Nghiên cứu định nghĩa, hướng tiếp cận, các giải quyết cho bài toán Person

Re-Identification [1].

¢ Hiểu được việc dựa trên Centroid xây dung ham loss và sử dụng trong ca

quá trình training and inference [3] và so sánh với các phương pháp khác.

¢ Cai đặt mô hình và so sánh với các phương pháp khác; phân tích ưu nhược

của mô hình.

Trang 19

1 TONG QUAN

1.3 Dong góp của khóa luận

Sau đây là một số đóng góp mà nhóm thực hiện có được sau quá trình thực

hiện khóa luận:

¢ Hệ thống lại cơ sở lý thuyết và tổng quan về bài toán, các thách thức va các

cách tiếp cận phổ biến dựa trên Deep Learning

s Tài liệu mô tả kết quả thu được, phân tích ưu nhược điểm của mô hình và

cách thức cải tiến

1.4 Cấu trúc khóa luận

Chương 1: Giới thiệu tổng quan đề tài

Chương 2: Trình bày cơ sở lý thuyết và kiến thức liên quan tới bài toán

Person Re-ID.

Chương 3: Trình bày cách xây dựng Centroid Triplet Loss và áp dụng vào

bài toán Person Re-ID.

Chương 4: Thực nghiệm và đánh giá trên tập dữ liệu mới (uit).

Chương 5: Trình bày kết luận và hướng phát triển của đề tài

1.5 Kết chương

Trong chương này, chúng tôi đã có những giới thiệu tổng quan cho bài toán

Person Re-identification Đồng thời đặt ra những mục tiêu cũng như liệt kê

những đóng góp mà khóa luận này mang lại cho đề tài.

Trang 20

Chương 2

BÀI TOÁN PERSON RE-ID VÀ CÁC

NGHIÊN CỨU LIÊN QUAN

2.1 Mở đầu

Để hiểu rõ bài toán person re-ID, ta cần làm rõ các khái niệm liên quan, đồngthời tìm hiểu một số phương pháp tiếp cận hiện nay Vì vậy, trong chương này,

tôi sẽ giới thiệu một số khái niệm cơ bản đồng thời khảo sát các hướng tiếp cận

để giải quyết bài toán

2.2 Giới thiệu bài toán person re-ID

Person re-Id là nhiệm vụ liên kết hình ảnh của cùng một người được chụp

từ các máy ảnh khác nhau hoặc cùng một máy ảnh trong các thời điểm khác

nhau Mục tiêu của bài toán person re-ID là tìm kiếm sự xuất hiện một người

từ nhiều camera tại những thời điểm khác nhau Person re-ID được ứng dụng

để giải quyết các bài toán trong các lĩnh vực an ninh như: theo dõi mục tiêuqua nhiều camera, Dé theo dõi mục tiêu trên nhiều camera với phương phápthủ công là huy động nhân lực để theo dõi cần nhiều thời gian và công sức Do

đó cần có phương pháp thực hiện công việc này một cách tự động, đó là lý do

Trang 21

person re-ID ngày càng được quan tâm và nghiên cứu Bài toán person re-ID

có hai hướng tiếp cận phổ biến là: phương pháp học các đặc điểm nổi bật của

người trong hình ảnh và các phương pháp học dựa việc học cách biểu diễn các

đặc trưng ảnh Các hướng tiếp cận này sẽ được thảo luận cụ thể trong các mụctiếp theo

2.3 Các hướng tiếp cận

Dựa trên việc học các đặc điểm phân biệt của người trong ảnh, bài toán person re-ID có hai hướng tiếp cận chính hiện nay [1]: phương pháp hoc dựa

trên các đặc điểm nổi bật và phương pháp học cách biểu diễn các đặc trưng ảnh.

Phương pháp học các đặc điểm nổi bật của người trong ảnh chủ yếu tập trungvào việc thiết kế các chiến lược giúp tìm kiếm các vùng nổi bật của một hình

ảnh người từ đó tìm kiếm các hình ảnh của cùng một người bằng cách so sánh

độ tương đồng của các vùng này Phương pháp này thường sử dụng khi góc nhìn

về các hình ảnh của cùng một người có sự thay đổi không lớn, các đặc điểm hìnhdáng bên ngoài của các người khác nhau là tương đối khác nhau Nhưng khi khigóc nhìn thay đổi đủ lớn, các đặc tính hình dáng có nhiều điểm tương đồng hoặcmiễn ảnh nền của các hình ảnh khá giống nhau thì phương pháp này thường chokết quả không tốt

Dựa trên sự phát triển của các mạng thần kinh sâu, rất nhiều phương pháp

dựa trên phương pháp học các biểu diễn tính năng của hình ảnh đã ra đời và ngày

càng có các kết quả tốt hơn:

* Local Feature Learning: phương pháp nay học đặc điểm cục bộ ở theo từng

phần sau đó kết hợp để tạo thành một biểu diễn kết hợp cho mỗi hình ảnh

người.

* Generative Adversarial Learning: hoc cách biểu diễn các đặc trưng của

Trang 22

hình ảnh với đa dạng ngữ cảnh, học các đặc điểm ngoại cảnh của hình ảnh

này để làm ngoại cảnh cho hình ảnh khác hoặc trích xuất các đặc điểm bat

biên.

* Deep Metric Learning: Ý tưởng của phương pháp này là việc thiết kế các

hàm mất mát tốt hơn để đào tạo mô hình Các hàm mat mát phổ biến đốivới peron Re-ID bao gồm: classification loss, verification loss, contrastiveloss, triplet loss and quadruplet loss Các mô hình có hiệu xuất tốt thường

sử dụng kết hợp các hàm mất mát(hàm loss) lại với nhau để tận dụng ưu

điểm và hạn chế các ưu điểm của nhau.

Local feature

learning

Generative adversarial learning

Học các đặc

trưng

Deep metric

learning

Hình 2.1: Các hướng tiếp cận phổ biến hiện nay cho bài toán Person Re-ID

Ở các phần tiếp theo chúng tôi sẽ nêu chỉ tiết về các phương pháp được đề

xuất ở trong các hướng tiếp cận, các hướng này tập trung vào việc xây dựng các

mạng dựa trên ý tưởng về mạng của học sâu

Trang 23

2.3.1 Local feature learning

Dựa trên các đặc điểm được trích xuất từ hình ảnh người, các phương pháp

person Re-ID có thể được phân thành các phương pháp dựa trên học đặc điểm

toàn cục và phương pháp dựa trên học đặc điểm cục bộ Các phương pháp học đặc trưng toàn cục thường trích xuất một đặc trưng cụ thể của hình ảnh người

[4], phương pháp này rất khó nắm bắt thông tin, những đặc điểm chỉ tiết về người

trong ảnh Do đó, làm thế nào để trích xuất các đặc điểm phân biệt cục bộ củahình ảnh người với sự khác biệt tinh tế trở thành một van dé đáng quan tâm:

« Phương pháp dựa trên học tập tính năng cục bộ nhằm mục dich học các tính

năng phân biệt dành cho hình ảnh người và đảm bảo sự liên kết của từng

tính năng địa phương Chú thích thủ công hoặc mạng thần kinh thườngđược sử dụng để tự động tập trung vào các vùng cục bộ nhất định với

thông tin chính và trích xuất các đặc trưng phân biệt từ các vùng này.

* Các phương pháp được sử dụng phổ biến gồm: chia hình ảnh thành các

được xác định dé học các đặc trưng từng ving[5](Predefined stripe

seg-mentation), kết hợp học các Fearture maps 6 nhiều tỷ lệ khác

nhau[6](Multi-scale fusion), học việc tìm ra các khu vực có tác động lớn hơn trên các FM

và tập trung mô hình vào các bộ phận cục bộ có tính phân biệt của ngoại

hình cơ thể để điều chỉnh khác biệt giữa các hình ảnh cùng một người, loại

bỏ nhiễu từ background[7] (soft attention), khai thác ngữ nghĩa dành cho

hình ảnh người [8] và học đặc trưng toàn cục kết hợp với các đặc trưng cục

bộ.[9].

Nhìn chung, phương pháp Predefined stripe segmentation là phương pháp

phân đoạn khó và yêu cầu độ liên kết hình ảnh cao Với sự thay đổi của chế độxem camera cảnh thực và tư thế của người đi bộ, chiến lược phân đoạn cố địnhkhông thể giải quyết tốt van dé các đặc điểm phân biệt của người phân bố rất

Trang 24

khác nhau ở từng hình anh Phương pháp Multi-scale fusion có thể tìm hiểu các

tín hiệu sâu hơn của hình ảnh người đi bộ, nhưng sẽ có các tính năng dư thừa vàxung đột khi kết hợp ở các tỷ lệ khác nhau Soft attention chi tập trung vào cácđặc điểm cục bộ của hình ảnh người và rất dễ bỏ qua các đặc điểm nổi bật của

các khu vực ngoài đặc điểm của người trong ảnh Phương pháp trích xuất ngữ

nghĩa có thể định vị chính xác các đặc điểm cục bộ của người đi bộ bằng cách

học thông tin cấu trúc của tư thế người đi bộ, nhưng nó yêu cầu tính toán bổsung các mô hình học thông tin về các tư thế Phương pháp học đặc trưng toàncầu kết hợp cục bộ có thể sử dụng hiệu quả các lợi thế bổ sung của các đặc trưng

toàn cục và cục bộ và là một trong những phương pháp phổ biến được các nhà

nghiên cứu sử dụng để cải thiện hiệu suất mô hình, tuy nhiên việc xây dựng các

mô hình mạng để phân chia các vùng phục vụ cho việc học các đặc điểm từng

vùng và kết hợp với các đặc điểm toàn cục là rất khó khăn và có thể tốn nhiều

chi phí.

2.3.2 Generative adversarial learning

Năm 2014, mang GAN xuất hiện và tao hình ảnh là một trong những ứng

dung quan trọng của GAN được sử dụng cho bài toán person Re-ID.

Trong giai đoạn đào tạo, bộ tạo G4 chuyển đổi hình ảnh A thành hình ảnh B

với nhiễu ngẫu nhiên, trình tao Gg chuyển đổi hình ảnh B thành hình anh A va

bộ phân biệt Dg xác định xem hình ảnh được tạo B có gần giống với hình ảnh

gốc B (thật hay giả ) Bộ tạo Generator và bộ phân biệt Discriminator được sử

dụng cho đến khi mô hình hội tụ bằng cách giảm thiểu giá trị hàm loss của bộ

phân biệt va L¿ loss.

Có nghiên cứu đã sử dụng GAN để chuyển đổi kiểu hình ảnh hoặc thống nhấtcác kiểu hình ảnh khác nhau để giảm thiểu sự khác biệt về kiểu hình ảnh giữa

10

Trang 25

Taal cc ca ¬

i l

Ị

Discriminator

De Real or Puke ?

Hình 2.2: Sơ đồ quy trình làm việc của GAN để tạo hình anh[1].

các bộ dữ liệu khác nhau hoặc trong cùng một bộ dữ liệu [10] Một số công trình

đã sử dụng GAN để tổng hợp hình ảnh người với tư thé, ánh sáng và độ phân

giải khác nhau nhằm bổ sung thêm cho bộ dữ liệu nhằm nâng cao khả năng khái

quát hóa của mô hình [11] với các trường hợp khác nhau.

Các phương pháp này có thể giảm bớt hạn chế về số lượng dif liệu không đủ

cho việc đào tạo hoặc tạo sự đa dạng hình ảnh về độ phân giải hình ảnh, các hình

ảnh với lượng ánh sáng khác nhau, góc độ xem ảnh qua camera và biến thể tư

thé người trong ảnh

Với các đặc điểm và ứng dụng của GAN, [1] chia các phương pháp person Re-ID dựa trên ứng dụng việc tạo ảnh từ GAN thành ba loại: học chuyển kiểu

hình ảnh-hình ảnh, tăng cường dữ liệu va học tính năng bắt biến

s Đối với các phương pháp chuyển kiểu hình ảnh-hình ảnh, GAN đã sử dụng

background, độ phân giải, ánh sáng và các đặc điểm của hình ảnh khác

nhau và kết hợp các đặc điểm này sang các hình ảnh khác để tạo sự đadạng về bối cảnh cho các hình ảnh của cùng một người

« Đối với các phương pháp tăng cường dữ liệu, các nhà nghiên cứu tập trung

nâng cao chất lượng dữ liệu, tạo sự đa dạng về mẫu được tạo bởi GAN để

11

Trang 26

mở rộng tập dif liệu đã được sử dung để tăng khả năng học các biểu diễn

tính năng.

« Đối với phương pháp học các tính năng học bất biến, GAN được sử dụng

để học học các tính năng liên quan đến việc nhận diện danh tính của một

người không phụ thuộc vào nhiễu (giảm sự phụ thuộc về tư thế, ánh sáng,

độ phân giải, của hình ảnh).

Với hiệu quả tuyệt vời của GAN trong việc tạo ảnh từ ảnh gốc, các mô hình

học cách biểu diễn tính năng sẽ có tính tổng quát hơn trong việc biểu diễn các

tính năng của ảnh Tuy nhiên, cũng có những rủi ro gặp phải khi việc trình tạo

ảnh của GAN tạo ra các ảnh không có giá trị cao trong việc học các đặc điểm, hoặc vô tình tạo ra các nhiễu cho tập dữ liệu do kết hợp nhiều yếu tố.

Phương pháp học (transformation style) các đặc điểm của hình ảnh này rồitạo hình ảnh dựa trên đó cho các hình ảnh khác, phương pháp này thu được một

số lượng lớn các hình ảnh tổng hợp được gắn nhãn tự động với kiểu của các miềnđích, có thể được sử dụng cùng với các hình ảnh gốc để nâng cao chất lượng tập

huấn luyện và giảm thiểu sự khác biệt miễn giữa các tập dữ liệu khác nhau Van

đề với các phương pháp này là các hình ảnh tổng hợp được có thể chứa nhiễu,

có thể xung đột với hình ảnh miền nguồn khi được sử dụng để đào tạo mô hình

và ảnh hưởng đến việc học các tính năng phân biệt của mô hình

Phương pháp tạo hình ảnh người với sự đa dạng bối cảnh bằng cách sử dụng

GAN để tăng cường dữ liệu đào tạo có sẵn ở một mức độ nhất định Phươngpháp này nếu không có hướng dẫn thông tin cụ thể để tạo ảnh sao cho phù hợp

sẽ không thể tạo ra hình ảnh chất lượng cao với đầy đủ thông tin phân biệt Các

phương pháp tổng hợp hình ảnh với yêu cầu về thông tin cụ thể yêu cầu các cấutrúc mạng phức tạp để học các tư thế khác nhau của người đi bộ, điều này làm

tăng thêm chi phí trong việc đào tạo.

Các phương pháp học tính năng bắt biến có thể làm giảm bớt vấn đề về nhiễu

12

Trang 27

và cải thiện độ chính xác của mô hình bằng cách học các tính năng liên quan đến

nhận dạng người nhưng không liên quan đến tư thế, độ phân giải và ánh sáng.

Nhưng để tạo được mô hình với việc loại bỏ các yếu tố ngoại cảnh như trên là

vô cùng khó khăn do sự đa dạng của chúng.

2.3.3 Deep metric learning

Deep metric learning (DML) là một trong những phương pháp hoc nhằm

mục đích tìm hiểu sự giống nhau hoặc không giống nhau giữa hai đối tượng

người Mục tiêu chính của DML là tìm hiểu ánh xa từ hình ảnh gốc sang không

gian vec-tơ hay các feature embedding (FE) sao cho những người giống nhau

sẽ có có mức độ tương đồng giữa các vec-tơ lớn và những người khác nhau cácvec-tơ biểu diễn của chúng sẽ có mức độ tương đồng nhỏ DML chủ yếu được

sử dụng để ràng buộc việc học các tính năng phân biệt bằng cách thiết kế các

hàm mất mát cho các mô hình mạng

Từ một tập hợp các điểm dữ liệu X và một tập nhãn Y tương ứng với các

điểm dữ liệu (một tập hợp hữu hạn rời rac), mục tiêu của phương pháp là dao tao

một mô hình chuyển đổi không gian vectơ (trích xuất ra các features) thông qua

mô hình mạng trong deep learning (còn được gọi là quá trình trình trích xuất đặctrưng): ƒạ(-) : X + IR" (với Ø là kiến trúc giúp học việc trích xuất đặc trưng, n

là số chiều của vectơ biểu diễn hay số đặc trưng của của ảnh)

Mô hình này sé được học sao cho: với hai mẫu dữ liệu bat kì xị,xạ € % với

nhãn tương ứng y¡,ya € Y sau khi sử dụng ham distance 2 : R” — R thì giá tri2(ƒa(xi), fø(xa)) sẽ ngày càng nhỏ nếu hai nhãn y,,y2 giống nhau, ngày cànglớn nếu y¡, ya khác nhau Do đó, van dé Deep Metric Learning là chọn kiến trúc

6 cho fg và chọn ham mat mát £(@) để huấn luyện nó

Công việc của hàm mất mát (hàm loss) là thể hiện một mối quan hệ giữay* (là kết quả dự đoán của mô hình ) và y (là giá trị thực tế) Hàm này có mục

13

Trang 28

đích là để tối ưu mô hình sao cho tốt nhất, hay cũng dùng để đánh giá độ tốt củamodel , y* (là kết qua dự đoán của model) càng gan y (là giá trị thực tế) thì càngtốt Vậy dựa vào hàm loss có thể tính ra gradient descent để tối ưu loss càng vềgần 0 càng tốt Hàm distance là hàm tính khoảng cách hay sự chênh lệch giữa

hai ma trận, được sử dụng để tính toán trong các hàm loss.

Các ham distance thường được sử dụng hiện nay là J) (khoảng cách euclid)

và hàm cosine (hàm tính chênh lệch góc giữa hai ma trận): với hai vector ma trận p,q € R"” bat kì với n là sô chiêu của vector ma trận.

¢ Ham distance ỉ¿ được tính:

n 1/2

D(p.4) = |lp—all2 = b ina] (2.1)

i=1

¢ Ham distance consine:

i=l (pi* qi)

thần kinh sâu phân loại lớp, do vậy có thể gọi classification loss là ID loss Mạng

này nhận đầu vào là một ảnh và một lớp fully connected (FC) dé phân loại ở cuối

14

Trang 29

mạng, sau đó ánh xạ các vectơ đặc trưng của ảnh vào không gian xác suất bằng

hàm kích hoạt softmax Cross-entropy loss cho bài toán đa phân loại với person Re-ID được mô tả như sau:

Classification loss được sử dụng rộng rãi như một phương pháp học cho

person re-ID vì các ưu điểm của nó như dễ dàng đào tạo các mô hình và khai

thác các trường hợp khó dữ đoán nhãn nhất Tuy nhiên, chỉ sử dụng thông tin ID

là không đủ để học một mô hình có đủ khả năng khái quát hóa Do đó, ID loss

thường cần được kết hợp với các hàm loss khác để đào tạo mô hình

15

Trang 30

binary loss được tính bằng cách kết hợp thông tin đặc trưng của hai hình ảnh,

từ đó xác định xem hai hình ảnh đầu vào có phải là cùng một người đi bộ haykhông [13] Biểu thức của hàm mất xác nhận entropy chéo như sau:

Ly = —yaplogp (Yab| fab) — q — Yab) log(I =P (Yab| fab)) (2.4)

Giả sử đầu vào của mang là hai anh x, va xp, chúng ta lấy các vectơ đặctrưng ƒ; và f, của hai anh này tương ứng va tính toán đặc trưng khác biệt fo, =

(fa — 1)” của hai vectơ đặc trưng Sau đó sử dụng hàm softmax để tính xác

suất p mà các cặp hình anh xy và xp có cùng ID, trong đó y,p là nhãn ID ngườicủa hai hình ảnh Khi hình anh x, và xp có cùng ID, yap = 1, ngược lại, yạ; = 0.

Verification loss kém hiệu quả hơn trong bài toán vì nó chỉ có thể đánh giá

sự giống nhau của mỗi cặp hình ảnh khi kiểm tra trong khi bỏ qua mối quan hệ

giữa cặp hình ảnh và các hình ảnh khác trong bộ dữ liệu.

Vì lý do này, đã có những nghiên cứu đã xem xét việc kết hợp các

classi-fication va vericlassi-fication loss [14], hàm loss kết hợp có thể được biểu thị bằng

® = #ip+ 8y Sự kết hợp nay sẽ kết hợp các ưu điểm của hai ham loss, có thể

dự đoán ID của người và thực hiện các phép đo độ tương đồng đồng thời

Ï Same or Different

Verification loss

Hình 2.4: Hình anh mô ta quá trình học trên verification loss

16

Trang 31

2.3.3.3 Contrastive loss

Contrastive loss, chủ yếu ràng buộc su giống nhau hoặc không giống nhau

giữa các cặp dữ liệu, thường được sử dụng để đào tạo mô hình mạng song sinh

(Mang Siamese) trong các nhiệm vụ nhận dạng lại cá nhân [15] Chức nang của

nó có thể được thể hiện như sau:

Le = yd (xq — xp)” + (L— y) max |0,m —d (xq — xp)” (2.5)

Trong đó x, va xp là hai hình anh được đưa vào mang song sinh cùng một

lúc d (xq — xp) thường biểu thị khoảng cách euclide (độ tương tự) của hai hình

ảnh m là ngưỡng đào tạo đã đặt và y là nhãn cho biết mỗi cặp hình ảnh đào tạo

có khớp với nhay hay không Khi y = 1, thi x, và xp thuộc về cùng một người

haycó cùng ID (cap positive) Khi y = 0, xg va xp là hai người khác nhau với các

ID khác nhau (cặp nagative) £, phản ánh tốt mức độ phù hợp của các cặp hìnhảnh, thường được sử dụng để huấn luyện các mô hình cho việc trích xuất tínhnăng Re-ID của người và thường kết hợp với Id loss

Triplet loss (TL) là một trong những hàm được sử dung rộng rãi nhất trong

việc giải quyết bài toán person Re-ID và nó nhằm mục đích giảm thiểu khoảng

17

Trang 32

cách các đối tượng trong cùng lớp và tối đa hóa khoảng cách các đối tượng kháclớp Với sự phát triển của mạng deep learning, một số lượng lớn các biến thể dựatrên triplet loss đã xuất hiện [16] Ham triplet loss có thể được biểu thị như sau:

Litrip = max |0,m + đ (xạ,xp) — d (Xa, Xn)| (2.6)

Đầu vào của triplet loss là một bộ ba bao gồm ba hình ảnh Mỗi bộ ba chứamột cặp positive và một cặp negative, trong đó x, là hình ảnh Anchor, x, là hình

anh positive va x, là hình ảnh nagative và các người trong hình ảnh x, và x, có

cùng ID Người đi bộ của xg và x, có ID khác nhau.

Bằng cách đào tạo mô hình, khoảng cách giữa x„ và Xp trong không gian

Euclide được làm cho gần hơn khoảng cách giữa x„ và x„ Để cải thiện hiệu suấtcủa các mô hình, một số phương pháp Re-ID người dựa trên học sâu sử dụng

kết hợp ID loss và triplet loss [17] Các thí nghiệm đã chi ra rằng việc kết hợp

hai ham loss này tạo điều kiện cho mô hình học các đặc điểm phân biệt triplet

loss truyền thống chọn ngẫu nhiên ba hình ảnh từ tập huấn luyện trong quá trìnhhuấn luyện, điều này có thể dẫn đến sự kết hợp mẫu đơn giản và thiếu sự huấnluyện tổ hợp làm cho mô hình huấn luyện ít khái quát hơn Vì lý do này, một sốnhà nghiên cứu đã xem xét việc cải thiện tổn thất bộ ba khi khai thác các trường

hợp khó phân biệt với anchor[18].

2.3.3.5 Quadruplet loss

Một cải tiến khác đối với triplet loss là thêm anh negative x„; để tạo thành

quadruplet loss [19], trong đó xp) và x;a có ID người khác nhau Biểu thức của

hàm này là:

18

Trang 33

Triplet loss

Hình 2.6: Hình ảnh mô tả quá trình học trên triplet loss

Squad = max [0,m +d (Xa,Xp) = d (Xa,Xn1)| +max [0,m, +d (Xa.Xp) —d (Xn1,Xn2)]

Trong đó m, và mz là ngưỡng đào tao tùy chỉnh Cac cap positive va negative

có cùng một hình anh anchor x„ Số hạng dau tiên của ham loss này giống với

triplet loss, được sử dụng để hạn chế khoảng cách tương đối giữa các cặp positive

và negative Ham triplet loss truyền thống thường làm tăng khoảng cách giữa các

lớp của các cặp negative làm ảnh hưởng đến việc học đặc trưng của ảnh xy Do

đó, £„„aa được xây dựng để hạn chế giá trị khoảng cách giữa các cặp positive và

negative.

Các cặp nay ở số hạng thứ hai của hàm Lquaa có các hình anh anchor khác

nhau, điều này có thể làm giảm hiệu quả khoảng cách trong lớp của các cặp

positive đồng thời tăng khoảng cách của các cặp negative giữa các lớp Để làm

cho thuật ngữ đầu tiên đóng vai trò chi phối, điều quan trọng là phải đảm bảo

rằng m, > mạ trong quá trình đào tạo Tuy nhiên, hầu hết các phương pháp

Re-ID sử dụng triplet loss tập trung nhiều hơn vào việc phân biệt sự khác biệt về

ngoại hình và không thể tìm hiểu các đặc điểm chi tiết một cách hiệu quả Dé

giải quyết van dé này, [20] giới thiệu một ham loss theo cặp mới cho phép các

mô hình Re-ID tìm hiểu các tính năng chi tiết bằng cách thực thi hình phạt theo

cap sô nhân.

19

Trang 34

2.4.1 Mạng nơ-ron tích chap (Convolutional Neural Network)

Mô hình neuron network (NN) bao gồm nhiều layer: Layer đầu tiên là inputlayer, các layer ở giữa được gọi là hidden layer, layer cudi cùng được gọi là output

layer Trong các layer có chứa các node và các node ở các lớp khác nhau có thể

kết nối với nhau Van đề của một mang NN cơ ban chúng cần quá nhiều tham số

để biểu diễn một hình ảnh.

Ví dụ ảnh màu 64*64, với ảnh mau thì kích thước được biểu diễn dưới dang

một tensor là 64*64*3 Nên để biểu thị hết nội dung của bức ảnh thì cần truyềnvào input layer tất cả các pixel (64*643 = 12288) Nghia là input layer giờ có

12288 nodes Nếu số lượng node của mot layer tăng lên thì số lượng weight W

sẽ tăng theo cấp số nhân

Trên thưc tế các ứng dụng của việc xử lí ảnh chỉ can những thông tin cầnthiết để làm một số tác vụ như tìm ra các đặc trưng như: cạnh, hướng, hình tròn, Phép chập convoluation lại có tính chất kết nối các pixel ở gần nhau điềunày giải quyết được vấn đề số lượng lớn parameter mà vẫn lấy ra được các đặc

trưng của ảnh Từ đây ý tưởng xây dựng một NN với cảm hứng chính là các lớp

convoluation để tính toán trên các vùng ảnh ra đời (hay còn gọi là tích chập với

các kernel) nhằm làm giảm số lượng tham số và học các đặc trưng cần thiết

20

Trang 35

Mạng thần kinh này gọi là mạng Convolutional Neural Network (hay CNN).

Mang CNN bao gồm nhiều lớp Convolution xếp chồng lên nhau và sử dụngcác hàm activation như ReLU và tanh để kích hoạt các trọng số trong các node

nhằm tạo ra các thông tin trừu tượng hơn cho các lớp tiếp theo Các lớp này liên

kết được với nhau thông qua cơ chế convolution, layer tiếp theo là kết quả củaphép chập convolution từ layer trước đó hay neuron ở lớp kế tiếp sinh ra từ kết

quả của filter áp đặt lên một vùng ảnh cục bộ của neuron trước đó, nhờ vậy mà

ta có được các kết nối cục bộ giữa các pixel với nhau Ngoài ra trong CNN có

một số các lớp (layer) khác như pooling/subsampling layer được sử dụng để chắtlọc lại các thông tin hữu ích hơn (loại bỏ các thông tin nhiễu).

Convolutions Subsampling Convolutions Subsampling Fully connected

Hình 2.8: Hình ảnh mô ta các phần của một mang CNN

Về cơ bản mang CNN sử dụng các kiến trúc như: Convolution, Pooling

(Sub-sampling), ReLU và lớp cuối cùng Fully connected layer Ngoài ra còn có các

layer phụ như Batch Normalization, Drop out Phần tiếp theo sẽ trình bay chi

Trang 36

xuất những đặc trưng cần thiết nhất qua lớp subsampling để giảm thiểu tham sốkhông cần thiết mà vẫn giữ lại được những đặc trưng cần thiết Thông thường

trong một mô hình CNN sẽ có rất nhiều hai loại layer (lớp) này nhằm lấy những

đặc trưng bức ảnh mà ta muốn học Cuối cùng sau khi đi qua nhiều lớp Conv

và Pooling, các FM này sẽ đi qua lớp FC (fully connected) để lấy ra những đặctrưng cần thiết và biéu diễn nó Chi tiết về cơ chế của các lớp sẽ được nói rõ dưới

đây.

2.4.1.1 Lớp tích chập (Convolution)

Tích chập (phép Convolution) được ứng dụng phổ biến trong lĩnh vực thịgiác máy tính Thông qua các phép tích chập, các đặc trưng của ảnh được tríchxuất và truyền vào các lớp tích chập (layer convolution hay lớp Cony)

Ma tran kernel W (kernel) là một ma trận vuông kích thước k*k (thường có

kích thước nhỏ hơn ma trận đầu vào) trong đó k là số lẻ Ma trận kernel w sẽđược tính toán element-wise (tính tổng của các tích theo từng phần tử) với các

ma trận có kích thước của W được lấy từ việc trượt trên ma trận đầu vào X kíchthước m*n theo thứ tự từ trái qua từ trên xuống cho đến khi quét hết ma trận X,rôi việt vào ma trận két quả Y.

Với ảnh thông thường thường được biểu diễn dưới dạng tensor (ma trận nhiềuchiều) Do đó ma trận kernel W của lớp Conv thường có kích thước k*k*d (d làchiều sâu của ma trận đầu vào X) Tức là sẽ có d ma trận W tính toán với d matrận đầu vào X Sau khi tính toán ta thu được thu được feature map (d featuremap nếu hình ảnh có d chiều)

Output của convolutional layer sẽ qua hàm activation function trước khi trở thànhinput của convolutional layer tiếp theo

Quá trình trượt các bộ lọc thường có các giá trị được quy định bao gồm:

22

Trang 37

Hình 2.9: Hình ảnh mô tả tính toán với phép tích chập (nguồn: Iternet)

Xx W id

Hình 2.10: Hình anh mô tả tính toán trên lớp Conv nhiều chiều (nguồn: Iternet)

Trang 38

* Padding: Mỗi lần thực hiện phép tính convolution xong thì kích thước ma

trận Y đều nhỏ hơn X Tuy nhiên giờ ta muốn ma trận Y thu được có kích

thước bằng ma trận X => Tìm cách giải quyết cho các phần tử ở viền =>

Thêm giá trị 0 ở viền ngoài ma trận X (các số 0 xung quanh ma trận)

Padding = k nghĩa là thêm k vector 0 vào mỗi phía của ma trận.

* Stride: quy định bước nhảy trong quá trình thực hiện (số đơn vị trượt trong

quá trình tính) Nếu stride = k tức là ta nhảy k bước theo chiều dọc và

ngang cho đến hết ma trận X.

2.4.1.2 Lớp pooling (Pooling layer/subsampling)

Pooling layer thường được dùng giữa các convolutional layer, nhằm mực dich

giảm kích thước dữ liệu nhưng vẫn giữ được các thuộc tính quan trọng Gọi

pooling size kích thước k*k Input của pooling layer có kích thước H*W*D, ta

tách ra làm D ma trận kích thước H*W Với mỗi ma trận, trên vùng kích thước

K*K trên ma trận ta tìm maximum (lấy giá trị lớn nhất hay còn gọi là max

pooling) hoặc average (tính trung bình cộng hay gọi là Average pooling)cua dữ

liệu rồi viết vào ma trận kết quả Quy tắc về stride và padding áp dụng như phép

tính convolution trên ảnh.

2.4.1.3 Lớp chuẩn hóa (Normalization)

Lớp chuẩn hóa (Normalization hay Norm) là một phương pháp hiệu quả khi

training một mô hình mạng nơ ron Mục tiêu của phương pháp này chính là việc

muốn chuẩn hóa các feature (đầu ra của mỗi layer sau khi đi qua các activation)

Hàm ReLU tuy giúp rút ngắn thời gian huấn luyện, nhưng nếu không điều chỉnh

trọng số phù hợp, hàm ReLU sẽ rất dễ gặp phải vấn đề "dying ReLU" khiến chomạng trở nên chậm hơn khi huấn luyện Lớp Norm lúc này sẽ chuẩn hóa và tạo

24

Trang 39

Max Pool

————>

Filter - (2 x 2) Stride - (2, 2)

Hình 2.11: Hình ảnh mô tả tính toán trên pooling layer (nguồn: Iternet)

ra các giá trị tích chập phù hợp để tránh cho ReLU rơi vào giá trị 0 Tránh việc

gradient x4p xi bằng 0 khiến cho tốc độ học của mạng trở nên rat chậm

2.4.1.4 Lớp kết nối day đủ (Fully connected layer)

Sau khi ảnh được truyền qua nhiều convolutional layer va pooling layer thì

mô hình CNN đã học được tương đối các đặc điểm của ảnh (ví dụ mắt, mũi,

khung mặt, các canh, ) thì ma trận được lấy từ lớp cuối cùng kích thướcH*W*D sẽ được chuyển về 1 vector kích thước (H*W*D) Sau đó các fullyconnected layer (hay lớp FC) sẽ được sử dụng để lay các đặc điểm cần thiết chomục đích của mô hình.

2.4.2 ResNet (Residual Network)

ResNet là kiến trúc mang CNN được sử dung phổ biến nhất ở hiện nay và ápdụng batch normalization Mặc dù là một mạng rất sâu khi có số lượng layer lêntới 152 nhưng nhờ áp dụng những kỹ thuật đặc biệt nên kích thước của ResNet50

chỉ khoảng 26 triệu tham số Thực tế cho thay đến một ngưỡng độ sâu trong các

kiến trúc mạng thì độ chính xác của mô hình sẽ bão hòa và chúng có thể làm

25

Tiêu đề	Tìm hiểu và Áp dụng Centroid Triplet Loss cho bài toán Person Re-Identification
Tác giả	Ho Quoc Thu, Dang Quang Anh Tuan
Người hướng dẫn	TS. Ngo Duc Thanh, ThS. Do Van Tien
Trường học	Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành	Khoa học máy tính
Thể loại	Khóa luận tốt nghiệp
Năm xuất bản	2023
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	79
Dung lượng	40,29 MB