Với việc phương pháp học các mô hình mạng để biểu diễn vec-tơ dựa trên việc tính độ tương đồng của hình ảnh với ham loss là triplet loss là một trong những phương pháp được sử dụng rộng
Trang 1ĐẠI HỌC QUỐC GIA THÀNH PHÔ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KHOA HỌC MÁY
TÌM HIỂU VÀ ÁP DỤNG CENTROID TRIPLET LOSS CHO
BÀI TOÁN PERSON RE-IDENTIFICATION
RESEARCH AND APPLY CENTROID TRIPLET LOSS FOR
PERSON RE-IDENTIFICATION
HO QUOC THU DANG QUANG ANH TUAN
TP Hồ Chí Minh, Tháng 3 năm 2023
Trang 2ĐẠI HỌC QUỐC GIA THÀNH PHÔ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KHOA HỌC MÁY
TÌM HIỂU VÀ ÁP DỤNG CENTROID TRIPLET LOSS CHO
BÀI TOÁN PERSON RE-IDENTIFICATION
RESEARCH AND APPLY CENTROID TRIPLET LOSS FOR
Trang 3DANH SÁCH HỘI ĐỒNG BẢO VỆ KHÓA LUẬN
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo quyết định số
36/QD-DHCNTT ngày 17/01/2022 của Hiệu trưởng Trường Dai hoc
Công nghệ Thông tin.
1 <A EE - Chủ tịch.
2 P: GP <6 - Thư ký.
3 P mm Me, - Uỷ viên.
Trang 4LỜI CẢM ƠN
Thực hiện đề tài Khóa luận tốt nghiệp không phải là quá trình đơn
giản với chúng em nếu thiếu đi sự giúp đỡ, chỉ dẫn và cộng tác từ mọi
người Với tất cả sự biết ơn, chúng em xin gửi lời cảm ơn sâu sắc đến
TS Ngô Đức Thành và Ths Đỗ Văn Tiến, người trực tiếp theo dõi
và đưa ra những lời khuyên bổ ích cũng như sẵn sàng hỗ trợ chúng
em những lúc khó khăn trong suốt quá trình thực hiện đề tài.
Bên cạnh đó, chúng mình cũng xin cảm ơn những bạn thuộc câu lạc
bộ CS-UIT AI Club đã cùng đồng hành, cũng như đưa ra những quanđiểm, ý kiến nhằm hỗ trợ nhóm hoàn thiện đề tài tốt hơn
Sau cùng, chúng em xin phép gửi lời cảm ơn tới toàn thể giảng viên
tại trường Đại học Công nghệ Thông Tin, đặc biệt những thầy cô đã trực tiếp giảng dạy chúng em trong thời gian học tập và rèn luyện tại
trường.
TP Hồ Chí Minh, tháng 3 năm 2023
Sinh viên thực hiện
Trang 5TÓM TẮT KHÓA LUẬN
Trong những năm gần đây, với nhu cầu ngày càng tăng về an toàn
công cộng và sự phát triển nhanh chóng của các mạng giám sát thông
minh, person Re-ID(tạm dịch: nhận dạng lại người) đang trở thành
một trong những chủ dé nghiên cứu được quan tâm nhiều hơn trong
lĩnh vực thị giác máy tính Mục tiêu nghiên cứu chính của Person
Re-ID là xác định được sự xuất hiện một người từ một hoặc nhiều camera khác nhau tại những thời điểm khác nhau Hiện nay có rất
nhiều phương pháp đã ra đời để giải quyết bài toán person re-ID, vì
vậy cần một tài liệu có một cái nhìn tổng quan nhất về vấn đề này.
Với việc phương pháp học các mô hình mạng để biểu diễn vec-tơ dựa
trên việc tính độ tương đồng của hình ảnh với ham loss là triplet loss
là một trong những phương pháp được sử dụng rộng rãi nhất Tuy
nhiên, triplet loss lại có nhưng nhược điểm riêng cần phải được cảitiến Centroid triplet loss ra đời là là một trong những cải tiến cho
hàm triplet loss Trong khóa luận này, chúng tôi tập trung tìm hiểu
về centroid triplet loss, đồng thời đánh giá centroid triplet loss trêntập dữ liệu thu thập được Qua khóa luận này, chúng tôi thu được kếtquả sau:
« Xây dựng được bộ tài liệu tổng quan va cái nhìn tổng quát về
bài toán Person Re-ID.
* Tìm hiểu tổng quan về các phương pháp các cách tiếp cận của
bài toán Person Re-identification.
Trang 6¢ Hiểu được việc xây dựng ham centroid triplet loss và sử dụng
trong bài toán person re-ID.
s Cài dat, thử nghiệm và đánh giá phương pháp trên tập dữ liệu
thu thập được đồng thời phân tích ưu và nhược điểm
Từ khóa: Tái nhận dạng người, Person Re identification , Centroid
triplet loss.
Trang 7Mỏ dauGiới thiệu bài toán person re-IDCác hướng tiếp cận
2.3.1 Local feature learning
Trang 8MỤC LỤC
2.3.2 Generative adversarial learning 10
2.3.3 Deep metric learnng 13
2.3.3.1 Classificationloss 14
2.3.3.2 Veriicalonlos 15
2.3.3.3 Contrasivelos 17
2.3.3.4 Trpletlos 17
2.3.3.5 Quadrupletloss 18
24 Các kiến trúccơbản 2 eee 20 2.4.1 Mạng nơ-ron tích chập (Convolutional Neural Network) 20 2.4.1.1 Lớp tích chập (Convolution) 22
2.4.1.2 Lớp pooling (Pooling layer/subsampling) 24
244.13 Lớp chuẩn hóa (Normalization) 24
2.4.1.4 Lớp kết nỗi đầy đủ (Fully connected layer) 25
24.2 ResNet(ResidualNetwork) 25
2.4.3 TBNNG( So 27 2.5 Kếtchương ẶQQ Q ee 29 CENTROID TRIPLET LOSS ÁP DỤNG TRONG BÀI TOÁN PER-SON RE-ID 30 3.1 Médau eee 30 3.2 Tổng quan về quan Centroid triplet loss (CTL) 31
3.2.1 Triplet loss và những hạn chế 31
3.2.2 Centroidtripletloss 32
3.3 Áp dụng CTL cho bài toán personre-ID 34
3.3.1 Basemodel Ặ 34
3.3.1.1 Khởi tạo Learnngrate 35
3.3.1.2 Thayđổisride 36
VI
Trang 9MỤC LỤC
3.3.1.3 Xóa các vùng che khuất(Random Erasing
Aug-mentationhay REA) 36
3.3.1.4 LabelSmoothing 37
3.3.1.5 BNNeck 38
3.3.1.6 StdungCenterloss 39
3.3.2 Sử dung CTL trong quá trình training model 40
3.4 Kétchuong 2.0.00 00 ee ee 42 THUC NGHIEM VA DANH GIA 43 41 Mổđầu ee 43 42 Xây dựng tập dữ liệu 44
4.2.1 Quá trìnhthuthậpdữliệu 44
4.2.2 Quá trình tiền xử lý dữliệu 44
423 Cách thứcthựchiện 45
43 Một số độ đođánhgiá 48
4.3.1 Đường cong CMC (Cumulative Matching Characteristics) 49 4.3.2 mAP (mean Average Precision) 50
4.4 Kết quả thực nghiệm và đánhgiá 50
4.4.1 Phân tích định lượng 50
44.1.1 Độchínhxác 51
4.4.1.2 Thoigiandaotao 54
4.4.2 Phântchđinhtnh 55 44.3 Danhgia Qua 56
4.5 Kétchuong 000.000 ee ee 57
KET LUẬN VA HƯỚNG PHAT TRIEN 58
5.1 Kếtluận ee 58
5.2 Hướng pháttriển 2.2 2 ee ee 59
vii
Trang 10MỤC LỤC
Tài liệu tham khảo 61
Viil
Trang 11Danh sách hình ve
1.1 Hình ảnh đầu vào dau ra bài toán person re-ID 2
2.1 Các hướng tiếp cận phổ biến hiện nay cho bài toán PersonRe-ID 8 2.2 Sơ đồ quy trình làm việc của GAN để tạo hình ảnh[I] 11
2.3 Hình anh mô tả quá trình học trénIDloss 15
2.4 Hình anh mô tả quá trình học trên verification loss 16
2.5 Hình anh mô tả quá trình học trên contrastive loss 17
2.6 Hình anh mô tả quá trình học trên tripletlos 19
2.7 Hình anh mô tả quá trình học trên quadruplet loss 20
2.8 Hình ảnh mô tả các phần của một mang CNN 21
2.9 Hình ảnh mô tả tính toán với phép tích chập (nguồn: Iternet) 23
2.10 Hình ảnh mô tả tính toán trên lớp Conv nhiều chiều (nguồn: Iternet) Q ee 23 2.11 Hình anh mô tả tính toán trên pooling layer (ngu6n: Iternet) 25
2.12 Hình anh mô tả tính toán trên lớp FC (nguồn: Iternet) 26
2.13 Hình ảnh khối indentity block (nguồn: Iternet) 27
2.14 Cấu trúc mạng ResNet50 (nguồn: Iternet) 27
2.15 Hình ảnh Khối chuẩn hóa cá thể và chuẩn hóa hàng loat (IBN) 28 3.1 Pipeline [2] đầy đủ cho quá trình model training 34
3.2 Pipeline [2] đầy đủ cho quá trình model trainng 35
1X
Trang 12DANH SÁCH HÌNH VẼ
3.3
3.4
3.5
3.6
4.1
4.2
4.3
4.4
4.5
4.6
4.7
4.8
4.9
4.10
Hình ảnh các feature được sử dung với hai hàm loss [2] 38
Hình ảnh các feature được sử dụng BNNeck [2] 39
Sự kết hợp của TL và CL[2] 40
Sử dung CTL trong quá trình đào tạo[2] 41
Kiến tric mô hinhyolo 46
So sánh giữa mô hình yolo7 với các mô hình khác 47
Một số hình ảnhnhiễu 47
Một số hình ảnh được gán nhãn 48
Hình ảnh người được lấy từ bộ dữ liệu Uñú 48
Hình ảnh mô tả đường congCMC 50
Kết quả đánh giá hiệu xuất mô hình dựa trên mAP trên tập dữ lệuUt 4 @ @ q@® \ / 52
Một số kết quả xếp hạng Hình anh truy van duy nhất ở bên trái, các hình ảnh còn lại là hình ảnh được xếp hạng top-k Ở các hình ảnh cùng danh tính với hình ảnh truy vấn được bao quanh bởi các hộp màu xanh lá cây và các hình ảnh không cùng danh tính với hình ảnh truy van được bao quanh bởi các hộp màu đỏ 55 Kết quả thu được top-k hình ảnh trong đó có độ tương đồng cao
về đồngphục ẶẶ 56 Kết quả thu được top-k hình ảnh nhưng không cùng danh tính
với hình ảnh query ẶẶẶẶ ee 56
Trang 13-MTMCReID vàU1t
Thời gian đào tao cua tập dữ liệu Uit qua 2 hàm loss:Triplet loss
(TL) và Centroid Triplet loss (CTL)
Thời gian đánh giá của tập dữ liệu Uit qua hai mô hình
CTL-RSOIBN-A va CTL-ResNe50
XI
Trang 15Chương 1
TỔNG QUAN
1.1 Đặt van đề
Trong những năm gần đây, với sự phát triển nhanh chóng của các thiết bị
giám sát thông minh và nhu cầu ngày càng tăng về an toàn công cộng, các ứng
dụng cho lĩnh vực an ninh như phát hiện mục tiêu, theo dõi mục tiêu bằng nhiều
camera, ngay càng được quan tâm nghiên cứu để ngày càng dé dàng hơn trong
việc triển khai áp dụng vào thực tế
Quá trình theo dõi một người trên nhiều camera có thể đơn giản hóa thành
việc tìm kiếm sự xuất hiện của người đó trên các camera Các phương pháp thủ
công bằng cách huy động nhân lực để theo dõi gặp nhiều khó khăn do: tính phức
tạp để liên kết các thông tin có được từ nhiều camera, cần nhiều thời gian vàcông sức cần để thực hiện việc theo dõi trên nhiều camera Hiện nay chưa có
nhiều phương pháp có thể giúp theo déi mục tiêu trên nhiều camera có thể áp
Trang 161 TONG QUAN
Dau vào, dau ra cho bài toán này là:
* Dữ liệu đầu vào (input): Một hình ảnh người (query/probe) và một tập thư
Hình 1.1: Hình ảnh đầu vào dau ra bai toán person re-ID
Bài toán tập trung vào việc tìm kiếm các hình ảnh tương đồng, do đó nhữngvan đề dữ liệu ảnh đặt ra các thách thức [1]:
« Đặc điểm ngoại hình người trong ảnh: các hình ảnh của cùng một người
có thể khác nhau về ngoại hình do: trang phục, kiểu tóc, đồng thời các
hình ảnh của các người khác nhau nhưng lại có có chung đặc điểm ngoại
hình sẽ gây khó khăn trong việc xác định được đúng người trong quá trình tìm kiêm.
* Chất lượng hình ảnh: Hình ảnh được sử dụng có thể không được rõ nét
do các điều kiện ngoại cảnh như:độ phân giải, yếu tố môi trường như ánh
Trang 171 TONG QUAN
sáng, , ngoài ra lượng thông tin có được trong hình anh có thể không chứa
các đặc điểm để phân biệt người đó do bị che khuất hoặc chụp không đầy
đủ bộ phần Các yếu tố này làm cho quá trình trích xuất hình ảnh bị thiếuthông tin, gây khó khăn trong việc tìm kiếm
Các hướng tiếp cận truyền thống chủ yếu sử dụng trích xuất thủ công cácđặc điểm phân biệt cố định Hướng tiếp cận chủ yếu tập trung tạo ra bộ tríchxuất các đặc điểm phân biệt của từng hình ảnh, sau đó sẽ so sánh các đặc điểm
này với nhau Phương pháp tiếp cận này sẽ hoạt động tốt khi góc quan sát người
trong các ảnh không có sự thay đổi lớn và đặc điểm hình dáng bên ngoài của
các đối tượng là tương đối khác nhau Ngược lại, khi góc quan sát thay đổi đủ
lớn, các đặc tính hình dáng có nhiều điểm tương đồng hoặc miền ảnh nền khágiống nhau thì hiệu suất sẽ bị giảm đi Với việc sử dụng mạng thần kinh để họccách trích xuất đặc trưng của ảnh đang là xu thế, các phương pháp dựa trên việc
sử dụng mạng thần kinh đã ra đời, các phương pháp theo hướng này thường cố
gắng học cách biểu diễn đặc trưng thông qua việc dựa trên các hàm so sánh mức
độ tương đồng để làm giảm thiểu khoảng cách của các hình ảnh cùng nhãn Dựatrên phương pháp này có ba hướng tiếp cận được được sử dụng phổ biến hiện
nay là: học các đặc điểm cục bộ (local feature learning), học các điểm dựa trên
trình tạo của GAN (Generative adversarial learning) và học dựa phương pháp
metric learning (deep metric learning).
Để có những hướng di trong việc tìm ra các phương pháp để giải quyết bàitoán này Cần một tài liệu tổng quan về bài toán, đề cập tới các hướng đi cho các
phương pháp hiện nay, đồng thời tìm hiểu được phương pháp tốt nhất hiện nay
để có những hiểu biết tổng quát, từ đó có hướng phát triển hướng giải quyết bàitoán cho tương lai Do đó nhóm sẽ nghiên cứu về phương pháp tốt nhất hiện nay,phương pháp sử dung CTL (Centroid Triplet Loss) và chạy thử nghiệm phươngpháp trên đó với tập dữ liệu thu thập được từ thực tế để tìm ra những ưu nhược
Trang 18« Tìm hiểu tổng quan về các phương pháp các cách tiếp cận của bài toán
Person Re-identification với dữ liệu là ảnh.
« Tìm hiểu về việc sử dụng Centroid trong việc xử lý bài toán Person
Trong khuôn khổ giới hạn của khóa luận, nhóm thực hiện tập trung hoàn
thành các công việc sau:
° Nghiên cứu định nghĩa, hướng tiếp cận, các giải quyết cho bài toán Person
Re-Identification [1].
¢ Hiểu được việc dựa trên Centroid xây dung ham loss và sử dụng trong ca
quá trình training and inference [3] và so sánh với các phương pháp khác.
¢ Cai đặt mô hình và so sánh với các phương pháp khác; phân tích ưu nhược
của mô hình.
Trang 191 TONG QUAN
1.3 Dong góp của khóa luận
Sau đây là một số đóng góp mà nhóm thực hiện có được sau quá trình thực
hiện khóa luận:
¢ Hệ thống lại cơ sở lý thuyết và tổng quan về bài toán, các thách thức va các
cách tiếp cận phổ biến dựa trên Deep Learning
s Tài liệu mô tả kết quả thu được, phân tích ưu nhược điểm của mô hình và
cách thức cải tiến
1.4 Cấu trúc khóa luận
Chương 1: Giới thiệu tổng quan đề tài
Chương 2: Trình bày cơ sở lý thuyết và kiến thức liên quan tới bài toán
Person Re-ID.
Chương 3: Trình bày cách xây dựng Centroid Triplet Loss và áp dụng vào
bài toán Person Re-ID.
Chương 4: Thực nghiệm và đánh giá trên tập dữ liệu mới (uit).
Chương 5: Trình bày kết luận và hướng phát triển của đề tài
1.5 Kết chương
Trong chương này, chúng tôi đã có những giới thiệu tổng quan cho bài toán
Person Re-identification Đồng thời đặt ra những mục tiêu cũng như liệt kê
những đóng góp mà khóa luận này mang lại cho đề tài.
Trang 20Chương 2
BÀI TOÁN PERSON RE-ID VÀ CÁC
NGHIÊN CỨU LIÊN QUAN
2.1 Mở đầu
Để hiểu rõ bài toán person re-ID, ta cần làm rõ các khái niệm liên quan, đồngthời tìm hiểu một số phương pháp tiếp cận hiện nay Vì vậy, trong chương này,
tôi sẽ giới thiệu một số khái niệm cơ bản đồng thời khảo sát các hướng tiếp cận
để giải quyết bài toán
2.2 Giới thiệu bài toán person re-ID
Person re-Id là nhiệm vụ liên kết hình ảnh của cùng một người được chụp
từ các máy ảnh khác nhau hoặc cùng một máy ảnh trong các thời điểm khác
nhau Mục tiêu của bài toán person re-ID là tìm kiếm sự xuất hiện một người
từ nhiều camera tại những thời điểm khác nhau Person re-ID được ứng dụng
để giải quyết các bài toán trong các lĩnh vực an ninh như: theo dõi mục tiêuqua nhiều camera, Dé theo dõi mục tiêu trên nhiều camera với phương phápthủ công là huy động nhân lực để theo dõi cần nhiều thời gian và công sức Do
đó cần có phương pháp thực hiện công việc này một cách tự động, đó là lý do
Trang 21person re-ID ngày càng được quan tâm và nghiên cứu Bài toán person re-ID
có hai hướng tiếp cận phổ biến là: phương pháp học các đặc điểm nổi bật của
người trong hình ảnh và các phương pháp học dựa việc học cách biểu diễn các
đặc trưng ảnh Các hướng tiếp cận này sẽ được thảo luận cụ thể trong các mụctiếp theo
2.3 Các hướng tiếp cận
Dựa trên việc học các đặc điểm phân biệt của người trong ảnh, bài toán person re-ID có hai hướng tiếp cận chính hiện nay [1]: phương pháp hoc dựa
trên các đặc điểm nổi bật và phương pháp học cách biểu diễn các đặc trưng ảnh.
Phương pháp học các đặc điểm nổi bật của người trong ảnh chủ yếu tập trungvào việc thiết kế các chiến lược giúp tìm kiếm các vùng nổi bật của một hình
ảnh người từ đó tìm kiếm các hình ảnh của cùng một người bằng cách so sánh
độ tương đồng của các vùng này Phương pháp này thường sử dụng khi góc nhìn
về các hình ảnh của cùng một người có sự thay đổi không lớn, các đặc điểm hìnhdáng bên ngoài của các người khác nhau là tương đối khác nhau Nhưng khi khigóc nhìn thay đổi đủ lớn, các đặc tính hình dáng có nhiều điểm tương đồng hoặcmiễn ảnh nền của các hình ảnh khá giống nhau thì phương pháp này thường chokết quả không tốt
Dựa trên sự phát triển của các mạng thần kinh sâu, rất nhiều phương pháp
dựa trên phương pháp học các biểu diễn tính năng của hình ảnh đã ra đời và ngày
càng có các kết quả tốt hơn:
* Local Feature Learning: phương pháp nay học đặc điểm cục bộ ở theo từng
phần sau đó kết hợp để tạo thành một biểu diễn kết hợp cho mỗi hình ảnh
người.
* Generative Adversarial Learning: hoc cách biểu diễn các đặc trưng của
Trang 22hình ảnh với đa dạng ngữ cảnh, học các đặc điểm ngoại cảnh của hình ảnh
này để làm ngoại cảnh cho hình ảnh khác hoặc trích xuất các đặc điểm bat
biên.
* Deep Metric Learning: Ý tưởng của phương pháp này là việc thiết kế các
hàm mất mát tốt hơn để đào tạo mô hình Các hàm mat mát phổ biến đốivới peron Re-ID bao gồm: classification loss, verification loss, contrastiveloss, triplet loss and quadruplet loss Các mô hình có hiệu xuất tốt thường
sử dụng kết hợp các hàm mất mát(hàm loss) lại với nhau để tận dụng ưu
điểm và hạn chế các ưu điểm của nhau.
Local feature
learning
Generative adversarial learning
Học các đặc
trưng
Deep metric
learning
Hình 2.1: Các hướng tiếp cận phổ biến hiện nay cho bài toán Person Re-ID
Ở các phần tiếp theo chúng tôi sẽ nêu chỉ tiết về các phương pháp được đề
xuất ở trong các hướng tiếp cận, các hướng này tập trung vào việc xây dựng các
mạng dựa trên ý tưởng về mạng của học sâu
Trang 232.3.1 Local feature learning
Dựa trên các đặc điểm được trích xuất từ hình ảnh người, các phương pháp
person Re-ID có thể được phân thành các phương pháp dựa trên học đặc điểm
toàn cục và phương pháp dựa trên học đặc điểm cục bộ Các phương pháp học đặc trưng toàn cục thường trích xuất một đặc trưng cụ thể của hình ảnh người
[4], phương pháp này rất khó nắm bắt thông tin, những đặc điểm chỉ tiết về người
trong ảnh Do đó, làm thế nào để trích xuất các đặc điểm phân biệt cục bộ củahình ảnh người với sự khác biệt tinh tế trở thành một van dé đáng quan tâm:
« Phương pháp dựa trên học tập tính năng cục bộ nhằm mục dich học các tính
năng phân biệt dành cho hình ảnh người và đảm bảo sự liên kết của từng
tính năng địa phương Chú thích thủ công hoặc mạng thần kinh thườngđược sử dụng để tự động tập trung vào các vùng cục bộ nhất định với
thông tin chính và trích xuất các đặc trưng phân biệt từ các vùng này.
* Các phương pháp được sử dụng phổ biến gồm: chia hình ảnh thành các
được xác định dé học các đặc trưng từng ving[5](Predefined stripe
seg-mentation), kết hợp học các Fearture maps 6 nhiều tỷ lệ khác
nhau[6](Multi-scale fusion), học việc tìm ra các khu vực có tác động lớn hơn trên các FM
và tập trung mô hình vào các bộ phận cục bộ có tính phân biệt của ngoại
hình cơ thể để điều chỉnh khác biệt giữa các hình ảnh cùng một người, loại
bỏ nhiễu từ background[7] (soft attention), khai thác ngữ nghĩa dành cho
hình ảnh người [8] và học đặc trưng toàn cục kết hợp với các đặc trưng cục
bộ.[9].
Nhìn chung, phương pháp Predefined stripe segmentation là phương pháp
phân đoạn khó và yêu cầu độ liên kết hình ảnh cao Với sự thay đổi của chế độxem camera cảnh thực và tư thế của người đi bộ, chiến lược phân đoạn cố địnhkhông thể giải quyết tốt van dé các đặc điểm phân biệt của người phân bố rất
Trang 24khác nhau ở từng hình anh Phương pháp Multi-scale fusion có thể tìm hiểu các
tín hiệu sâu hơn của hình ảnh người đi bộ, nhưng sẽ có các tính năng dư thừa vàxung đột khi kết hợp ở các tỷ lệ khác nhau Soft attention chi tập trung vào cácđặc điểm cục bộ của hình ảnh người và rất dễ bỏ qua các đặc điểm nổi bật của
các khu vực ngoài đặc điểm của người trong ảnh Phương pháp trích xuất ngữ
nghĩa có thể định vị chính xác các đặc điểm cục bộ của người đi bộ bằng cách
học thông tin cấu trúc của tư thế người đi bộ, nhưng nó yêu cầu tính toán bổsung các mô hình học thông tin về các tư thế Phương pháp học đặc trưng toàncầu kết hợp cục bộ có thể sử dụng hiệu quả các lợi thế bổ sung của các đặc trưng
toàn cục và cục bộ và là một trong những phương pháp phổ biến được các nhà
nghiên cứu sử dụng để cải thiện hiệu suất mô hình, tuy nhiên việc xây dựng các
mô hình mạng để phân chia các vùng phục vụ cho việc học các đặc điểm từng
vùng và kết hợp với các đặc điểm toàn cục là rất khó khăn và có thể tốn nhiều
chi phí.
2.3.2 Generative adversarial learning
Năm 2014, mang GAN xuất hiện và tao hình ảnh là một trong những ứng
dung quan trọng của GAN được sử dụng cho bài toán person Re-ID.
Trong giai đoạn đào tạo, bộ tạo G4 chuyển đổi hình ảnh A thành hình ảnh B
với nhiễu ngẫu nhiên, trình tao Gg chuyển đổi hình ảnh B thành hình anh A va
bộ phân biệt Dg xác định xem hình ảnh được tạo B có gần giống với hình ảnh
gốc B (thật hay giả ) Bộ tạo Generator và bộ phân biệt Discriminator được sử
dụng cho đến khi mô hình hội tụ bằng cách giảm thiểu giá trị hàm loss của bộ
phân biệt va L¿ loss.
Có nghiên cứu đã sử dụng GAN để chuyển đổi kiểu hình ảnh hoặc thống nhấtcác kiểu hình ảnh khác nhau để giảm thiểu sự khác biệt về kiểu hình ảnh giữa
10
Trang 25Taal cc ca ¬
i l
Ị
Discriminator
De Real or Puke ?
Hình 2.2: Sơ đồ quy trình làm việc của GAN để tạo hình anh[1].
các bộ dữ liệu khác nhau hoặc trong cùng một bộ dữ liệu [10] Một số công trình
đã sử dụng GAN để tổng hợp hình ảnh người với tư thé, ánh sáng và độ phân
giải khác nhau nhằm bổ sung thêm cho bộ dữ liệu nhằm nâng cao khả năng khái
quát hóa của mô hình [11] với các trường hợp khác nhau.
Các phương pháp này có thể giảm bớt hạn chế về số lượng dif liệu không đủ
cho việc đào tạo hoặc tạo sự đa dạng hình ảnh về độ phân giải hình ảnh, các hình
ảnh với lượng ánh sáng khác nhau, góc độ xem ảnh qua camera và biến thể tư
thé người trong ảnh
Với các đặc điểm và ứng dụng của GAN, [1] chia các phương pháp person Re-ID dựa trên ứng dụng việc tạo ảnh từ GAN thành ba loại: học chuyển kiểu
hình ảnh-hình ảnh, tăng cường dữ liệu va học tính năng bắt biến
s Đối với các phương pháp chuyển kiểu hình ảnh-hình ảnh, GAN đã sử dụng
background, độ phân giải, ánh sáng và các đặc điểm của hình ảnh khác
nhau và kết hợp các đặc điểm này sang các hình ảnh khác để tạo sự đadạng về bối cảnh cho các hình ảnh của cùng một người
« Đối với các phương pháp tăng cường dữ liệu, các nhà nghiên cứu tập trung
nâng cao chất lượng dữ liệu, tạo sự đa dạng về mẫu được tạo bởi GAN để
11
Trang 26mở rộng tập dif liệu đã được sử dung để tăng khả năng học các biểu diễn
tính năng.
« Đối với phương pháp học các tính năng học bất biến, GAN được sử dụng
để học học các tính năng liên quan đến việc nhận diện danh tính của một
người không phụ thuộc vào nhiễu (giảm sự phụ thuộc về tư thế, ánh sáng,
độ phân giải, của hình ảnh).
Với hiệu quả tuyệt vời của GAN trong việc tạo ảnh từ ảnh gốc, các mô hình
học cách biểu diễn tính năng sẽ có tính tổng quát hơn trong việc biểu diễn các
tính năng của ảnh Tuy nhiên, cũng có những rủi ro gặp phải khi việc trình tạo
ảnh của GAN tạo ra các ảnh không có giá trị cao trong việc học các đặc điểm, hoặc vô tình tạo ra các nhiễu cho tập dữ liệu do kết hợp nhiều yếu tố.
Phương pháp học (transformation style) các đặc điểm của hình ảnh này rồitạo hình ảnh dựa trên đó cho các hình ảnh khác, phương pháp này thu được một
số lượng lớn các hình ảnh tổng hợp được gắn nhãn tự động với kiểu của các miềnđích, có thể được sử dụng cùng với các hình ảnh gốc để nâng cao chất lượng tập
huấn luyện và giảm thiểu sự khác biệt miễn giữa các tập dữ liệu khác nhau Van
đề với các phương pháp này là các hình ảnh tổng hợp được có thể chứa nhiễu,
có thể xung đột với hình ảnh miền nguồn khi được sử dụng để đào tạo mô hình
và ảnh hưởng đến việc học các tính năng phân biệt của mô hình
Phương pháp tạo hình ảnh người với sự đa dạng bối cảnh bằng cách sử dụng
GAN để tăng cường dữ liệu đào tạo có sẵn ở một mức độ nhất định Phươngpháp này nếu không có hướng dẫn thông tin cụ thể để tạo ảnh sao cho phù hợp
sẽ không thể tạo ra hình ảnh chất lượng cao với đầy đủ thông tin phân biệt Các
phương pháp tổng hợp hình ảnh với yêu cầu về thông tin cụ thể yêu cầu các cấutrúc mạng phức tạp để học các tư thế khác nhau của người đi bộ, điều này làm
tăng thêm chi phí trong việc đào tạo.
Các phương pháp học tính năng bắt biến có thể làm giảm bớt vấn đề về nhiễu
12
Trang 27và cải thiện độ chính xác của mô hình bằng cách học các tính năng liên quan đến
nhận dạng người nhưng không liên quan đến tư thế, độ phân giải và ánh sáng.
Nhưng để tạo được mô hình với việc loại bỏ các yếu tố ngoại cảnh như trên là
vô cùng khó khăn do sự đa dạng của chúng.
2.3.3 Deep metric learning
Deep metric learning (DML) là một trong những phương pháp hoc nhằm
mục đích tìm hiểu sự giống nhau hoặc không giống nhau giữa hai đối tượng
người Mục tiêu chính của DML là tìm hiểu ánh xa từ hình ảnh gốc sang không
gian vec-tơ hay các feature embedding (FE) sao cho những người giống nhau
sẽ có có mức độ tương đồng giữa các vec-tơ lớn và những người khác nhau cácvec-tơ biểu diễn của chúng sẽ có mức độ tương đồng nhỏ DML chủ yếu được
sử dụng để ràng buộc việc học các tính năng phân biệt bằng cách thiết kế các
hàm mất mát cho các mô hình mạng
Từ một tập hợp các điểm dữ liệu X và một tập nhãn Y tương ứng với các
điểm dữ liệu (một tập hợp hữu hạn rời rac), mục tiêu của phương pháp là dao tao
một mô hình chuyển đổi không gian vectơ (trích xuất ra các features) thông qua
mô hình mạng trong deep learning (còn được gọi là quá trình trình trích xuất đặctrưng): ƒạ(-) : X + IR" (với Ø là kiến trúc giúp học việc trích xuất đặc trưng, n
là số chiều của vectơ biểu diễn hay số đặc trưng của của ảnh)
Mô hình này sé được học sao cho: với hai mẫu dữ liệu bat kì xị,xạ € % với
nhãn tương ứng y¡,ya € Y sau khi sử dụng ham distance 2 : R” — R thì giá tri2(ƒa(xi), fø(xa)) sẽ ngày càng nhỏ nếu hai nhãn y,,y2 giống nhau, ngày cànglớn nếu y¡, ya khác nhau Do đó, van dé Deep Metric Learning là chọn kiến trúc
6 cho fg và chọn ham mat mát £(@) để huấn luyện nó
Công việc của hàm mất mát (hàm loss) là thể hiện một mối quan hệ giữay* (là kết quả dự đoán của mô hình ) và y (là giá trị thực tế) Hàm này có mục
13
Trang 28đích là để tối ưu mô hình sao cho tốt nhất, hay cũng dùng để đánh giá độ tốt củamodel , y* (là kết qua dự đoán của model) càng gan y (là giá trị thực tế) thì càngtốt Vậy dựa vào hàm loss có thể tính ra gradient descent để tối ưu loss càng vềgần 0 càng tốt Hàm distance là hàm tính khoảng cách hay sự chênh lệch giữa
hai ma trận, được sử dụng để tính toán trong các hàm loss.
Các ham distance thường được sử dụng hiện nay là J) (khoảng cách euclid)
và hàm cosine (hàm tính chênh lệch góc giữa hai ma trận): với hai vector ma trận p,q € R"” bat kì với n là sô chiêu của vector ma trận.
¢ Ham distance ỉ¿ được tính:
n 1/2
D(p.4) = |lp—all2 = b ina] (2.1)
i=1
¢ Ham distance consine:
i=l (pi* qi)
thần kinh sâu phân loại lớp, do vậy có thể gọi classification loss là ID loss Mạng
này nhận đầu vào là một ảnh và một lớp fully connected (FC) dé phân loại ở cuối
14
Trang 29mạng, sau đó ánh xạ các vectơ đặc trưng của ảnh vào không gian xác suất bằng
hàm kích hoạt softmax Cross-entropy loss cho bài toán đa phân loại với person Re-ID được mô tả như sau:
Classification loss được sử dụng rộng rãi như một phương pháp học cho
person re-ID vì các ưu điểm của nó như dễ dàng đào tạo các mô hình và khai
thác các trường hợp khó dữ đoán nhãn nhất Tuy nhiên, chỉ sử dụng thông tin ID
là không đủ để học một mô hình có đủ khả năng khái quát hóa Do đó, ID loss
thường cần được kết hợp với các hàm loss khác để đào tạo mô hình
15
Trang 30binary loss được tính bằng cách kết hợp thông tin đặc trưng của hai hình ảnh,
từ đó xác định xem hai hình ảnh đầu vào có phải là cùng một người đi bộ haykhông [13] Biểu thức của hàm mất xác nhận entropy chéo như sau:
Ly = —yaplogp (Yab| fab) — q — Yab) log(I =P (Yab| fab)) (2.4)
Giả sử đầu vào của mang là hai anh x, va xp, chúng ta lấy các vectơ đặctrưng ƒ; và f, của hai anh này tương ứng va tính toán đặc trưng khác biệt fo, =
(fa — 1)” của hai vectơ đặc trưng Sau đó sử dụng hàm softmax để tính xác
suất p mà các cặp hình anh xy và xp có cùng ID, trong đó y,p là nhãn ID ngườicủa hai hình ảnh Khi hình anh x, và xp có cùng ID, yap = 1, ngược lại, yạ; = 0.
Verification loss kém hiệu quả hơn trong bài toán vì nó chỉ có thể đánh giá
sự giống nhau của mỗi cặp hình ảnh khi kiểm tra trong khi bỏ qua mối quan hệ
giữa cặp hình ảnh và các hình ảnh khác trong bộ dữ liệu.
Vì lý do này, đã có những nghiên cứu đã xem xét việc kết hợp các
classi-fication va vericlassi-fication loss [14], hàm loss kết hợp có thể được biểu thị bằng
® = #ip+ 8y Sự kết hợp nay sẽ kết hợp các ưu điểm của hai ham loss, có thể
dự đoán ID của người và thực hiện các phép đo độ tương đồng đồng thời
Ï Same or Different
Verification loss
Hình 2.4: Hình anh mô ta quá trình học trên verification loss
16
Trang 312.3.3.3 Contrastive loss
Contrastive loss, chủ yếu ràng buộc su giống nhau hoặc không giống nhau
giữa các cặp dữ liệu, thường được sử dụng để đào tạo mô hình mạng song sinh
(Mang Siamese) trong các nhiệm vụ nhận dạng lại cá nhân [15] Chức nang của
nó có thể được thể hiện như sau:
Le = yd (xq — xp)” + (L— y) max |0,m —d (xq — xp)” (2.5)
Trong đó x, va xp là hai hình anh được đưa vào mang song sinh cùng một
lúc d (xq — xp) thường biểu thị khoảng cách euclide (độ tương tự) của hai hình
ảnh m là ngưỡng đào tạo đã đặt và y là nhãn cho biết mỗi cặp hình ảnh đào tạo
có khớp với nhay hay không Khi y = 1, thi x, và xp thuộc về cùng một người
haycó cùng ID (cap positive) Khi y = 0, xg va xp là hai người khác nhau với các
ID khác nhau (cặp nagative) £, phản ánh tốt mức độ phù hợp của các cặp hìnhảnh, thường được sử dụng để huấn luyện các mô hình cho việc trích xuất tínhnăng Re-ID của người và thường kết hợp với Id loss
Triplet loss (TL) là một trong những hàm được sử dung rộng rãi nhất trong
việc giải quyết bài toán person Re-ID và nó nhằm mục đích giảm thiểu khoảng
17
Trang 32cách các đối tượng trong cùng lớp và tối đa hóa khoảng cách các đối tượng kháclớp Với sự phát triển của mạng deep learning, một số lượng lớn các biến thể dựatrên triplet loss đã xuất hiện [16] Ham triplet loss có thể được biểu thị như sau:
Litrip = max |0,m + đ (xạ,xp) — d (Xa, Xn)| (2.6)
Đầu vào của triplet loss là một bộ ba bao gồm ba hình ảnh Mỗi bộ ba chứamột cặp positive và một cặp negative, trong đó x, là hình ảnh Anchor, x, là hình
anh positive va x, là hình ảnh nagative và các người trong hình ảnh x, và x, có
cùng ID Người đi bộ của xg và x, có ID khác nhau.
Bằng cách đào tạo mô hình, khoảng cách giữa x„ và Xp trong không gian
Euclide được làm cho gần hơn khoảng cách giữa x„ và x„ Để cải thiện hiệu suấtcủa các mô hình, một số phương pháp Re-ID người dựa trên học sâu sử dụng
kết hợp ID loss và triplet loss [17] Các thí nghiệm đã chi ra rằng việc kết hợp
hai ham loss này tạo điều kiện cho mô hình học các đặc điểm phân biệt triplet
loss truyền thống chọn ngẫu nhiên ba hình ảnh từ tập huấn luyện trong quá trìnhhuấn luyện, điều này có thể dẫn đến sự kết hợp mẫu đơn giản và thiếu sự huấnluyện tổ hợp làm cho mô hình huấn luyện ít khái quát hơn Vì lý do này, một sốnhà nghiên cứu đã xem xét việc cải thiện tổn thất bộ ba khi khai thác các trường
hợp khó phân biệt với anchor[18].
2.3.3.5 Quadruplet loss
Một cải tiến khác đối với triplet loss là thêm anh negative x„; để tạo thành
quadruplet loss [19], trong đó xp) và x;a có ID người khác nhau Biểu thức của
hàm này là:
18
Trang 33Triplet loss
Hình 2.6: Hình ảnh mô tả quá trình học trên triplet loss
Squad = max [0,m +d (Xa,Xp) = d (Xa,Xn1)| +max [0,m, +d (Xa.Xp) —d (Xn1,Xn2)]
Trong đó m, và mz là ngưỡng đào tao tùy chỉnh Cac cap positive va negative
có cùng một hình anh anchor x„ Số hạng dau tiên của ham loss này giống với
triplet loss, được sử dụng để hạn chế khoảng cách tương đối giữa các cặp positive
và negative Ham triplet loss truyền thống thường làm tăng khoảng cách giữa các
lớp của các cặp negative làm ảnh hưởng đến việc học đặc trưng của ảnh xy Do
đó, £„„aa được xây dựng để hạn chế giá trị khoảng cách giữa các cặp positive và
negative.
Các cặp nay ở số hạng thứ hai của hàm Lquaa có các hình anh anchor khác
nhau, điều này có thể làm giảm hiệu quả khoảng cách trong lớp của các cặp
positive đồng thời tăng khoảng cách của các cặp negative giữa các lớp Để làm
cho thuật ngữ đầu tiên đóng vai trò chi phối, điều quan trọng là phải đảm bảo
rằng m, > mạ trong quá trình đào tạo Tuy nhiên, hầu hết các phương pháp
Re-ID sử dụng triplet loss tập trung nhiều hơn vào việc phân biệt sự khác biệt về
ngoại hình và không thể tìm hiểu các đặc điểm chi tiết một cách hiệu quả Dé
giải quyết van dé này, [20] giới thiệu một ham loss theo cặp mới cho phép các
mô hình Re-ID tìm hiểu các tính năng chi tiết bằng cách thực thi hình phạt theo
cap sô nhân.
19
Trang 342.4.1 Mạng nơ-ron tích chap (Convolutional Neural Network)
Mô hình neuron network (NN) bao gồm nhiều layer: Layer đầu tiên là inputlayer, các layer ở giữa được gọi là hidden layer, layer cudi cùng được gọi là output
layer Trong các layer có chứa các node và các node ở các lớp khác nhau có thể
kết nối với nhau Van đề của một mang NN cơ ban chúng cần quá nhiều tham số
để biểu diễn một hình ảnh.
Ví dụ ảnh màu 64*64, với ảnh mau thì kích thước được biểu diễn dưới dang
một tensor là 64*64*3 Nên để biểu thị hết nội dung của bức ảnh thì cần truyềnvào input layer tất cả các pixel (64*643 = 12288) Nghia là input layer giờ có
12288 nodes Nếu số lượng node của mot layer tăng lên thì số lượng weight W
sẽ tăng theo cấp số nhân
Trên thưc tế các ứng dụng của việc xử lí ảnh chỉ can những thông tin cầnthiết để làm một số tác vụ như tìm ra các đặc trưng như: cạnh, hướng, hình tròn, Phép chập convoluation lại có tính chất kết nối các pixel ở gần nhau điềunày giải quyết được vấn đề số lượng lớn parameter mà vẫn lấy ra được các đặc
trưng của ảnh Từ đây ý tưởng xây dựng một NN với cảm hứng chính là các lớp
convoluation để tính toán trên các vùng ảnh ra đời (hay còn gọi là tích chập với
các kernel) nhằm làm giảm số lượng tham số và học các đặc trưng cần thiết
20
Trang 35Mạng thần kinh này gọi là mạng Convolutional Neural Network (hay CNN).
Mang CNN bao gồm nhiều lớp Convolution xếp chồng lên nhau và sử dụngcác hàm activation như ReLU và tanh để kích hoạt các trọng số trong các node
nhằm tạo ra các thông tin trừu tượng hơn cho các lớp tiếp theo Các lớp này liên
kết được với nhau thông qua cơ chế convolution, layer tiếp theo là kết quả củaphép chập convolution từ layer trước đó hay neuron ở lớp kế tiếp sinh ra từ kết
quả của filter áp đặt lên một vùng ảnh cục bộ của neuron trước đó, nhờ vậy mà
ta có được các kết nối cục bộ giữa các pixel với nhau Ngoài ra trong CNN có
một số các lớp (layer) khác như pooling/subsampling layer được sử dụng để chắtlọc lại các thông tin hữu ích hơn (loại bỏ các thông tin nhiễu).
Convolutions Subsampling Convolutions Subsampling Fully connected
Hình 2.8: Hình ảnh mô ta các phần của một mang CNN
Về cơ bản mang CNN sử dụng các kiến trúc như: Convolution, Pooling
(Sub-sampling), ReLU và lớp cuối cùng Fully connected layer Ngoài ra còn có các
layer phụ như Batch Normalization, Drop out Phần tiếp theo sẽ trình bay chi
Trang 36xuất những đặc trưng cần thiết nhất qua lớp subsampling để giảm thiểu tham sốkhông cần thiết mà vẫn giữ lại được những đặc trưng cần thiết Thông thường
trong một mô hình CNN sẽ có rất nhiều hai loại layer (lớp) này nhằm lấy những
đặc trưng bức ảnh mà ta muốn học Cuối cùng sau khi đi qua nhiều lớp Conv
và Pooling, các FM này sẽ đi qua lớp FC (fully connected) để lấy ra những đặctrưng cần thiết và biéu diễn nó Chi tiết về cơ chế của các lớp sẽ được nói rõ dưới
đây.
2.4.1.1 Lớp tích chập (Convolution)
Tích chập (phép Convolution) được ứng dụng phổ biến trong lĩnh vực thịgiác máy tính Thông qua các phép tích chập, các đặc trưng của ảnh được tríchxuất và truyền vào các lớp tích chập (layer convolution hay lớp Cony)
Ma tran kernel W (kernel) là một ma trận vuông kích thước k*k (thường có
kích thước nhỏ hơn ma trận đầu vào) trong đó k là số lẻ Ma trận kernel w sẽđược tính toán element-wise (tính tổng của các tích theo từng phần tử) với các
ma trận có kích thước của W được lấy từ việc trượt trên ma trận đầu vào X kíchthước m*n theo thứ tự từ trái qua từ trên xuống cho đến khi quét hết ma trận X,rôi việt vào ma trận két quả Y.
Với ảnh thông thường thường được biểu diễn dưới dạng tensor (ma trận nhiềuchiều) Do đó ma trận kernel W của lớp Conv thường có kích thước k*k*d (d làchiều sâu của ma trận đầu vào X) Tức là sẽ có d ma trận W tính toán với d matrận đầu vào X Sau khi tính toán ta thu được thu được feature map (d featuremap nếu hình ảnh có d chiều)
Output của convolutional layer sẽ qua hàm activation function trước khi trở thànhinput của convolutional layer tiếp theo
Quá trình trượt các bộ lọc thường có các giá trị được quy định bao gồm:
22
Trang 37Hình 2.9: Hình ảnh mô tả tính toán với phép tích chập (nguồn: Iternet)
Xx W id
Hình 2.10: Hình anh mô tả tính toán trên lớp Conv nhiều chiều (nguồn: Iternet)
Trang 38* Padding: Mỗi lần thực hiện phép tính convolution xong thì kích thước ma
trận Y đều nhỏ hơn X Tuy nhiên giờ ta muốn ma trận Y thu được có kích
thước bằng ma trận X => Tìm cách giải quyết cho các phần tử ở viền =>
Thêm giá trị 0 ở viền ngoài ma trận X (các số 0 xung quanh ma trận)
Padding = k nghĩa là thêm k vector 0 vào mỗi phía của ma trận.
* Stride: quy định bước nhảy trong quá trình thực hiện (số đơn vị trượt trong
quá trình tính) Nếu stride = k tức là ta nhảy k bước theo chiều dọc và
ngang cho đến hết ma trận X.
2.4.1.2 Lớp pooling (Pooling layer/subsampling)
Pooling layer thường được dùng giữa các convolutional layer, nhằm mực dich
giảm kích thước dữ liệu nhưng vẫn giữ được các thuộc tính quan trọng Gọi
pooling size kích thước k*k Input của pooling layer có kích thước H*W*D, ta
tách ra làm D ma trận kích thước H*W Với mỗi ma trận, trên vùng kích thước
K*K trên ma trận ta tìm maximum (lấy giá trị lớn nhất hay còn gọi là max
pooling) hoặc average (tính trung bình cộng hay gọi là Average pooling)cua dữ
liệu rồi viết vào ma trận kết quả Quy tắc về stride và padding áp dụng như phép
tính convolution trên ảnh.
2.4.1.3 Lớp chuẩn hóa (Normalization)
Lớp chuẩn hóa (Normalization hay Norm) là một phương pháp hiệu quả khi
training một mô hình mạng nơ ron Mục tiêu của phương pháp này chính là việc
muốn chuẩn hóa các feature (đầu ra của mỗi layer sau khi đi qua các activation)
Hàm ReLU tuy giúp rút ngắn thời gian huấn luyện, nhưng nếu không điều chỉnh
trọng số phù hợp, hàm ReLU sẽ rất dễ gặp phải vấn đề "dying ReLU" khiến chomạng trở nên chậm hơn khi huấn luyện Lớp Norm lúc này sẽ chuẩn hóa và tạo
24
Trang 39Max Pool
————>
Filter - (2 x 2) Stride - (2, 2)
Hình 2.11: Hình ảnh mô tả tính toán trên pooling layer (nguồn: Iternet)
ra các giá trị tích chập phù hợp để tránh cho ReLU rơi vào giá trị 0 Tránh việc
gradient x4p xi bằng 0 khiến cho tốc độ học của mạng trở nên rat chậm
2.4.1.4 Lớp kết nối day đủ (Fully connected layer)
Sau khi ảnh được truyền qua nhiều convolutional layer va pooling layer thì
mô hình CNN đã học được tương đối các đặc điểm của ảnh (ví dụ mắt, mũi,
khung mặt, các canh, ) thì ma trận được lấy từ lớp cuối cùng kích thướcH*W*D sẽ được chuyển về 1 vector kích thước (H*W*D) Sau đó các fullyconnected layer (hay lớp FC) sẽ được sử dụng để lay các đặc điểm cần thiết chomục đích của mô hình.
2.4.2 ResNet (Residual Network)
ResNet là kiến trúc mang CNN được sử dung phổ biến nhất ở hiện nay và ápdụng batch normalization Mặc dù là một mạng rất sâu khi có số lượng layer lêntới 152 nhưng nhờ áp dụng những kỹ thuật đặc biệt nên kích thước của ResNet50
chỉ khoảng 26 triệu tham số Thực tế cho thay đến một ngưỡng độ sâu trong các
kiến trúc mạng thì độ chính xác của mô hình sẽ bão hòa và chúng có thể làm
25