Mô hình học sâu không chỉ có khả năng biểu diễn đặc trưng mạnh mẽ từ tập dữliệu huấn luyện mà còn có thé tổng quát hóa tốt hơn trong các điều kiện khác nhau.Tiếp theo đó, nhiều hướng tiế
Trang 1ĐẠI HỌC QUÓC GIA THÀNH PHÓ HÒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
VÕ DUY ANH VŨ
PHƯƠNG PHAP THÍCH UNG CUA HUAN LUYEN KHÔNG
GIAM SAT DUA TREN PHAN CUM CHO BAI TOAN TAI
ĐỊNH DANH NGƯỜI
LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH
Mã số: 8.48.01.01 NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS NGUYEN VINH TIEP
TP HO CHÍ MINH - 2024
Trang 2LỜI CAM ĐOAN
Tôi xin cam đoan đề tài “Phương Pháp Thích Ứng Của Huấn Luyện Không Giám Sát
Dựa Trên Phân Cụm Cho Bài Toán Tái Định Danh Người” hoàn toàn là công trình nghiên cứu do cá nhân tôi thực hiện dưới sự hướng dẫn của TS Nguyễn Vinh Tiệp.
Các số liệu và những kết quả trong khóa luận là trung thực và chưa được công bố
trong bất kỳ một công trình nào khác Mọi tham khảo trong dé tài luận văn đều được
trích dan rõ ràng tên tác giả, tên công trình và thời gian công bô.
Tôi xin chịu trách nhiệm theo quy định của trường với các hình thức sao chép không
hợp lệ và vi phạm quy chế huấn luyện sau đại học.
Tp Hồ Chí Minh, tháng 9 năm 2024
Học viên
Võ Duy Anh Vũ
Trang 3LOI CAM ON
Trước hết, tôi xin gửi lời cảm ơn chân thành đến TS Nguyễn Vinh Tiệp, người đãtruyền cảm hứng cho những nỗ lực của tôi trong hành trình nghiên cứu khoa học đầythử thách này Sự hỗ trợ và động viên của thầy là nguồn động lực lớn lao giúp tôi vượt
qua những khó khăn và đạt được những thành tựu hiện tại.
Tiếp theo, tôi xin chân thành cảm ơn các bạn nghiên cứu viên công tác tại MMLab đã
đóng góp nhiều ý kiến bổ ích trong quá trình thực hiện đề tài Những gợi ý và phản hồi
từ các bạn đã giúp tôi hoàn thiện nghiên cứu của mình một cách tốt nhất
Bên cạnh đó, tôi vô cùng biết ơn những nỗ lực của tập thể giảng viên Khoa Khoa HọcMáy Tính Những kiến thức chuyên ngành quý báu mà các thầy cô đã truyền đạt đãtrang bị cho tôi nền tảng vững chắc dé tiếp tục phát triển trong lĩnh vực này
Cuối cùng, tôi xin gửi lời tri ân sâu sắc đến gia đình và người thân đã luôn ủng hộ vàkhích lệ tôi trên con đường phát triên bản thân Sự hy sinh và tình yêu thương của mọingười là điểm tựa vững chắc để tôi không ngừng cố gắng và hoàn thiện bản thân
Tp Hồ Chí Minh, tháng 9 năm 2024
Học viên
Võ Duy Anh Vũ
Trang 4MỤC LỤC
0/18/98 00/221 i
DANH MỤC HINH ÁNH 2-2 e< se ©ss£sstxsetssersetsserssere iv
DANH MỤC BẢNG s- 5< << se SssESsEEseEseEssExserserseresesserserssre V
DANH MỤC THUAT NGỮ 5< 5< 5 sss sssEseSsEssSseseEsessessss vi
CHUONG 1: GIỚI THIEU DE TAL 5- 5° se se s<es<essesss©5<e 1
LoL Dat Van : |
1.2 Mô tả bài ey: ¿22-52 cs 2t 2122112112712110211211 21111111111 cre 3 1.3 Mục tiêu và phạm vi nghiên CỨU 5 5 + + + £+skE+seeseeeeseess 4
1.4 Kết quả dat đưỢC - ¿5c St SE tk 219111112112112121111111 111cc, 5
1.5 Bố cục luận văn -¿-c-2 5S St +t2ESE3E15E112151111215E1115EE1115511 51531112 xee 6
CHƯƠNG 2: KIÊN THUC NEN TANG VA CAC CÔNG TRINH LIÊN
QUAN G ẽỸ— ẦẦ 8
2.1 Mạng học sâu tích chập (Convolutional Neural Network - CNN) 8
2.1.1 Mang hoc sâu ResNet eceesceeesceceseeeeseeceeeeceseecesaeeseaeessaeeeeaeeesaee 8 2.1.2 Mang hoc sâu IBN-ResÌNet - - Sàn Hư, 10
2.2 Thuật toán phân cụm DBSCAN - LH 11
2.3 Các nghiên cứu liên quan tai định danh người không giám sát 13
2.3.1 Hệ thống ký hiệu - 2-52 2 E+EE+EEEEEEEEEEEEEEEEEEEEEEEkrrrrreeg 13 2.3.2 Framework nên tảng - + +5 ©+£+EE+EEtEEtEEEEEEEEerkrrrkrrkerkee 14 2.3.3 Phương pháp huấn luyện không giám sát - 2: 16 2.3.2 Một số nghiên cứu liên quan 2: + ©s++s+zx+zx++x++z++cxez 19
Trang 5CHƯƠNG 3: PHƯƠNG PHÁP DE XUẤTT - < << sesesesesssese 22
3.1 Tổng quan về phương pháp đề xuất ¿2-2 + s+c++£z+£zzxz>ez 22 3.2 Bộ điều chỉnh bán kính phân cụm «+ + + xssveseerseereree 25
3.2.1 Phân tích tiền đề - 2-2 +++2+2+++Ex+SEEtEEEeEEerkerrkerkrrrkrrrkd 25
3.2.2 Chi tiết phương pháp - 2+2 2+++£E££E£EE£EEtEkerkrrxrrxerkee 26 3.3 Bộ điều hợp đại diện cụm lũy tiến ¿5c 5c SscxcExeEeEzEzrered 29
3.3.1 Phân tích tiền đề + ¿5s + ++£+E£EE£EECEEEEEEEEEEErrErrkrrkervee 29
3.3.2 Chi tiết phương pháp 2- 2+ ¿+2+k+£E+£E£EE+EEeEEerEzrerrkerxee 31 CHƯƠNG 4: THUC NGHIEM VA KET QUA cc.ccsssessssssssssecssssesesseeeses 35
4.1 Giao thức đánh gia (Evaluation ProtOCO]) 5 55+ ++s£+sx+sx 35
4.1.1 Bộ dữ liệu (DatasetfS) - - - - - Ă< c2 223332221111 sec, 36
4.1.2 Cầu hìnfB5i đất poe «.1.WEE Ỉ é coi 39
4.1.3 Metrics khoảng cách - s1 vn ngư 39
4.1.4 Metrics đánh giá hiệu năng mô hình 5 55555 s++s>+<+ 404.2 So sánh kết quả với công trình nghiên cứu gần đây - 434.3 Thực nghiệm lOạI SUV - - 5 5 + E111 E*EESEEsekEsskesresreseeree 45
4.4 So sánh DBSCAN với K-Means và HDBSCAN trên Market-1501 47
4.5 Trực quan hóa t-SNE trên 30 định danh ngẫu nhiên của Market-150148
4.6 Điểm Silhouette trên Market- 50 1 ¿- 5c s+x+EeEx+EeEeExzEerxrxee 51 4.7 Biến động số lượng cum trong quá trình huấn luyện .- 52
CHUONG 5: KET LUẬN VÀ KHUYEN NGHỊ, .5 5°- 53
5.1 Kết quả đạt được ¿- ¿5c ST EEEE211211211111111 111111111 te 53 5.2 Khuyến nghị, ¿525% 2E12EXEEEE2112112717121121111 1121 1x xe 53
il
Trang 6DANH MỤC CÔNG BO KHOA HỌC CUA TÁC GIẢ
TÀI LIEU THAM
KHẢO PHU LỤC -2 s°ssseccccez
Phụ luc 1 Phát triển ứng dụng trực quan hóa
ili
Trang 7DANH MỤC HÌNH ANH
Hình 1.1 Tổng quan hệ thống tái định danh người không giám sát 3
Hình 1.2 Một số thách thức điển hình của bai toán tái định danh người 4
Hình 2.1 Một khối phần dư được sử dụng trong ResNet [26] 9
Hình 2.2 Kiến trúc mạng IBN [15] thay đổi từ ResNet -. - 10
Hình 2.3 Các điềm lõi, biên và nhiễu theo DBSCAN -2 2252: 12 Hình 2.4 Framework nền tảng - 2-52 2+S£+E£+E££E£EEeEEeEEEEErEkrrkrrerreee 15 Hình 2.5 So sánh ba phương pháp tính hàm mắt mát tương phản cấp độ cụm — 18
Hình 3.1 Lược đồ huấn luyện mô hình của phương pháp ASCUL 24
Hình 3.2 Khoảng cách giữa các cụm xa hơn và các đặc trưng cùng cụm gần hơn sau một 86 ©pOCH - 2-2 2 2 +E£SE£EE£EE£EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEkrrrree 26 Hình 3.3 Giảm dan bán kính phân cụm theo đường tuyến tính 28
Hình 3.4 Các điềm tham chiếu dé tính vector đại diện cụm 31
Hình 3.5 Quá trình tối ưu hóa điểm tham chiếu toàn cục cho vector đại diện lì ề 7K “ae 33
Hình 4.1 Lược đồ hoạt động đánh giá hiệu năng mô hình - 35
Hình 4.2 Minh họa một số mẫu trong bộ dữ liệu Market-1501 37
Hình 4.3 Minh họa một số mẫu trong bộ dữ liệu MSMT17 38
Hình 4.4 So sánh kết quả truy vấn giữa baseline và ASCUL trên Market-1501 9.0) 001 1Ö5.ố 45
Hình 4.5 So sánh kết quả của từng thành phần chức năng của ASCUL trên bon) 47
Hình 4.6 Sử dụng t-SNE để trực quan hóa phân bố đặc trưng của 30 định danh ngẫu nhiên trên Market- 150 I 2- 2 5 2+s5++S2+x+£ezxezzsezxzss2 48 Hình 4.7 Đánh giá bộ dữ liệu của ba định danh số 10, 11 và 15 51
Hình 4.8 Biến động số lượng cụm trong quá trình huấn luyện 52
1V
Trang 9DANH MỤC THUẬT NGỮ
STT | Tên viết tắt | Thuật ngữ tiếng Anh Thuật ngữ tiếng Việt
1 ASCUL Adaptive Scheme of Clustering- Phuong pháp thích ứng
based Unsupervised Learning của huấn luyện không
giám sát
2 CNN Convolution Neural Network Mạng nơ-ron tích chập
3 CRR Clustering Radius Regulator Bộ điều chỉnh bán kính
phân cụm
4 DBSCAN | Density-Based Spatial Clustering | Phân cum không gian dua
of Applications with Noise trên mật độ các ứng dung
7 HDBSCAN | Hierarchical Density-Based Phân cum không gian dựa
Spatial Clustering of Applications | trên mật độ các ứng dụng
with Noise với nhiễu với cấu trúc
phân cấp
8 IBN Instance-Batch Normalization Chuan hóa theo thuc thé
va 16
9 IN Instance Normalization Chuan hóa thực thé
10 | BN Batch Normalization Chuan hóa lô
11 MLP Multi Layer Perceptron Perceptron da tang
12 | MSA Multi-head Self Attention Cơ chế chú ý đa ngữ cảnh
VI
Trang 1013 PPA Progressive Proxy Adaptor Bộ điều hợp đại diện cụm
lũy tiễn
14 Re-ID Re-identification Tái định danh
15 ResNet Residual Network Mang phan du
16 | SOTA State-of-the-art Tién tién
17 | UDA Unsupervised Domain Adaptation | Thich ứng miền không
21 Contrastive Learning Huan luyén tuong phan
22 Residual Learning Huan luyén phan du
23 Residual Block Khối phan dư
24 Vanishing Gradient Mắt mát đạo hàm
25 Unsupervised Representation Huấn luyện biểu diễn
Learning không giám sát
26 k-reciprocal Nearest Neighbors k-d6i ứng láng giéng gan
nhat
vii
Trang 11Chương 1 GIỚI THIỆU ĐÈ TÀI
CHƯƠNG 1: GIỚI THIỆU DE TÀI
1.1 Đặt van đề
Hiện nay, trong kỷ nguyên số hóa, Thị Giác Máy Tính (Computer Vision) đã
vươn lên trở thành một trong những lĩnh vực nghiên cứu và ứng dụng quan trọng
hàng đầu trong lĩnh vực trí tuệ nhân tạo Thị Giác Máy Tính cho phép máy tính hiểu
và diễn giải thông tin từ hình ảnh và video, tạo nền tảng cho nhiều ứng dụng đa dạng từ nhận diện khuôn mặt, xe tự lái, đến giám sát an ninh Tái định danh người
(Person Re-ID) là một trong những ứng dụng phô biến và thách thức trong lĩnh vực
`
này.
Tái định danh người đề cập đến quá trình xử lý nhận diện một người xuất hiện
trong các hình ảnh hoặc video được chụp từ các góc độ và camera khác nhau Yêu
cầu đầu vào của mô hình xử lý là một truy vấn của một người đã xuất hiện trong hệthống camera giám sát Theo như minh hoa của Hình 1.1, truy vấn của một người
có thê được thể hiện bằng hình ảnh, chuỗi video và thậm chí cả mô tả văn bản Mụctiêu đặt ra cho bài toán sẽ cho ra kết quả là những bức ảnh khác nhau của cùng một
người đó bất chấp sự thay đổi về trang phục, đi chuyên qua nhiều camera khác nhau
trong cùng hệ thống, và có thê bị che khuất một phần Việc giải quyết bài toán này
đem lại lợi ích thực sự cho các khu vực công cộng như sân bay, nhà ga, trung tâm
mua sắm, và các môi trường có yêu cầu an ninh cao Bên cạnh yêu cầu chính xáccao của bài toán, chúng ta còn phải giải quyết nhiều thách thức kỹ thuật phức tạpnhư điều kiện ánh sáng thay đổi, góc nhìn da dang, và sự biến đôi về ngoại hình của
đối tượng (như trang phục, phụ kiện).
Nghiên cứu về tái định danh người gần đây đang được đánh giá cao trong cộng
đồng khoa học Các phương pháp truyền thống dựa trên các đặc trưng thủ công màu
sắc, kết cấu và hình dạng đã được thay thế bởi các phương pháp học sâu tiên tiếnhon Mô hình học sâu không chỉ có khả năng biểu diễn đặc trưng mạnh mẽ từ tập dữliệu huấn luyện mà còn có thé tổng quát hóa tốt hơn trong các điều kiện khác nhau.Tiếp theo đó, nhiều hướng tiếp cận mới được hình thành, giúp cải thiện đáng kéhiệu năng của hệ thống tái định danh người
1
Trang 12Chương 1 GIỚI THIỆU ĐÈ TÀI
Mặc dù đã có những cải tiến đáng chú ý trong các nhiệm vụ tái định danh người
được giám sát thông qua nghiên cứu gần đây [12, 1ó, 22], việc phụ thuộc nhiều vàogan nhãn thủ công đã hạn chế đáng ké tính thực tiễn của các ứng dụng Vì vậy, việcthu thập hình ảnh người mà không gán nhãn đã thu hút nghiên cứu quan tâm đến bàitoán Person Re-ID không giám sát, giúp loại bỏ nhu cầu đánh nhãn dữ liệu
Có hai loại kỹ thuật huấn luyện không giám sát chính dé thực hiện bài toánPerson Re-ID Loại đầu tiên là thích ứng miền không giám sát (UDA), sử dụng các
phương pháp như [17], [20] và [25] Các phương pháp này dùng bộ dt liệu có nhãn trong miền nguồn để huấn luyện mô hình, sau đó áp dụng mô hình cho tập dữ liệu
chưa có nhãn trong miền đích Tuy nhiên, hiệu suất của các phương pháp UDA phụ
thuộc rất nhiều về kích thước và chất lượng của tập dữ liệu nguồn Loại thứ hai là
huấn luyện hoàn toàn không giám sát (USL), sử dụng các phương pháp như [3],
[18] và [6] Các phương pháp này tạo nhãn giả bằng cách phân cụm tập dữ liệukhông được gắn nhãn Mặc dù điều này có thê gây khó khăn cho việc huấn luyện
mô hình nhưng nó mang lại sự linh hoạt hơn vì không yêu cầu bất kỳ nhãn nhậndạng nào Do đó, cách tiếp cận USL Re-ID của chúng tôi là một hướng đi đầy hứa
hẹn, có giá trị thực tế trong việc nâng cấp hệ thống an ninh công cộng và hỗ trợ các
dịch vụ thông minh.
Các tiến bộ trong lĩnh vực này không chỉ giúp tăng cường hiệu suất và độ tincậy của các hệ thống giám sát mà còn mở ra nhiều ứng dụng mới, từ quản lý giaothông, hỗ trợ điều tra tội phạm, đến tăng cường trải nghiệm người dùng trong các
dịch vụ thương mại.
Trang 13Chương 1 GIỚI THIỆU ĐÈ TÀI
Truy xuất tuần tự
Mang lưới camera
quan sat
M6 hinh tải định danh người |
Hình 1.1 Tổng quan hệ thống tái định danh người không giám sát
1.2 Mô tả bài toán
Bài toán tái định danh người sử dụng hình ảnh có thé được mô tả như sau:
Cho trước một bộ dữ liệu hình ảnh người di bộ trích xuất từ camera nhận diệnngười tự động không có nhãn bao gồm nhiều ảnh khác nhau, mỗi ảnh chứa một
người trong khung hình được cắt ra từ cảnh quay Mục tiêu là phát triển một môhình dé tự động trích xuất các đặc trưng từ những hình anh này Đặc trưng ở đây lànhững yếu tố đặc biệt của mỗi người trong từng ảnh, và mô hình sẽ chuyển mỗi
hình ảnh thành một vector đặc trưng trong một không gian nhiều chiêu
Trong quá trình thử nghiệm, đầu vào sẽ là ảnh của một nguoi cu thé gọi là Iq
Mục tiêu của mô hình là tìm ra những hình ảnh ?; trong thư viện dữ liệu J cho trước
3
Trang 14Chương 1 GIỚI THIỆU ĐÈ TÀI
{], la, , Iv} có cùng một người với bức ảnh J, Quá trình thực hiện theo các bước
sau:
1 Trích xuất đặc trưng: Mô hình sẽ trích xuất đặc trưng từ cả hình anh cần
nhận diện và tất cả hình ảnh trong thư viện dữ liệu
2 Tính toán độ tương đồng: Độ tương đồng giữa các vector đặc trưng của ảnh
cân nhận diện và các ảnh trong thư viện sẽ được tính toán.
3 Xếp hạng: Những hình ảnh có độ tương đồng cao nhất sẽ được xếp hạng và
trả vê kêt quả cuôi cùng.
Như vậy, bài toán tập trung vào việc so sánh và xếp hạng dựa trên các đặc trưng
của hình ảnh, giúp xác định những bức ảnh có thé là của cùng một người trong thư
viện ảnh lớn.
Bài toán tái định danh người là một bài toán khó, đặc biệt trong trường hợp các
hình anh người đi bộ trong tập di liệu có nhiều thay đôi về góc nhìn, ánh sáng, bi
che khuất một phan, hậu cảnh, như minh họa trong Hình 1.2 Các mô hình học
sâu không giám sát hiện nay có thể đạt được hiệu năng khá tốt trong các bài toán táiđịnh danh người, nhưng tính bền vững (robustness) đối với sự đa dạng trên dữ liệu
đâu vào vân còn là một thách thức lớn.
Hình 1.2 Một số thách thức điền hình của bài toán tái định danh người
1.3 Mục tiêu và phạm vỉ nghiên cứu
Đề tài tập trung khảo sát một mô hình tái định danh người sử dụng mạng học
sâu với ham mat mát tương phản (contrastive loss) cho ca cap độ cụm (cluster-wise)
4
Trang 15Chương 1 GIỚI THIỆU ĐÈ TÀI
và cap độ thực thê (instance-wise) Chúng tôi sẽ nghiên cứu và đê xuât một phương pháp cải thiện hiệu năng của mô hình.
Đề thực hiện được mục tiêu này, chúng tôi sẽ thực hiện các bước nghiên cứu và
phát triển như sau:
e Khảo sát một số mô hình huấn luyện không giám sát mới gần đây sử dung
kiến trúc mạng ResNet và IBN-Net
e Phát triển các kỹ thuật tùy chỉnh tham số cho thuật toán phân cụm
(clustering) và cập nhật vector đặc trưng đại diện cho từng cụm (cluster).
e Thử nghiệm phương pháp mới trên hai bộ dữ liệu phổ biến cho bài toán tái
định danh người: Market-1501, và MSMT17.
e Metrics phô biến dé đánh giá hiệu năng mô hình: mAP (mean Average
Precision) và Rank-k.
1.4 Kết quả đạt được
Đề tài đã hiện thực thành công việc cải tiến một mô hình dựa trên backbone
ResNet và IBN-ResNet vói những hạng mục sau:
Kỹ thuật tùy chỉnh tham số: Phát triển kỹ thuật riêng biệt cho thuật toán phân
cụm trong đó xem xét khả năng tùy chỉnh tự động siêu tham số e dé thích nghi vớiphân bố vector đặc trưng sau mỗi vòng lặp huấn luyện Mô hình được huấn luyện
dé tối đa hóa sự giống nhau giữa các mẫu liên quan đồng thời mở rộng sự khác biệtgiữa các mẫu không liên quan Vì vậy, có thể tận dụng tối đa nguyên lý này thông
qua việc sử dụng một phương pháp tự động điều chỉnh tham số e của thuật toánphân cụm DBSCAN trong suốt các bước huấn luyện nhằm khai thác hiệu quả thông
tin đặc trưng của từng cụm.
Cập nhật vector đại diện cụm: Đề xuất phương pháp ước lượng độ biến độngcủa dữ liệu trong mỗi cụm Dựa vào độ biến động, cập nhật vector đại diện cho từngcụm (cluster proxy) thích nghỉ với sự thay đổi trong dữ liệu, nhằm nâng cao tínhhiệu quả của hàm mất mát cấp độ cụm Các phương pháp hiện tại ưu tiên xác định
điêm tham chiêu tôt nhât cho vector đại diện cụm không xem xét ước lượng mức độ
5
Trang 16Chương 1 GIỚI THIỆU ĐÈ TÀI
tương đồng trong nội bộ cụm (intra-cluster affinity level), có thé không đảm bảo thé
hiện toàn diện đặc trưng riêng biệt cho từng cụm khác nhau.
Thực hiện đánh giá: Sử dụng các độ đo như CMC (Cumulative Matching
Characteristics) và mAP (mean Average Precision) dé đánh giá hiệu năng phươngpháp đề xuất trên các bộ dit liệu tiêu chuẩn như Market-1501 và MSMT17 Kết quathực nghiệm được đối chiếu với các mô hình hiện tại để đánh giá tác động tích cựccũng như tính khả thi của đề tài
Công bố khoa học: Một bai báo đã được chấp nhận ở hội nghị quốc tế ACIIDS
2024 có tiêu đề “Anh-Vu Vo Duy, Quang-Huy Che and Vinh-Tiep Nguyen,
Adaptive Scheme of Clustering-based Unsupervised Learning for Person
Re-identification”.
1.5 BO cuc luan van
Luận văn này được trình bay chủ yếu trong 5 chương như sau:
Chương 1 trình bày tổng quan về van đề nghiên cứu, mục tiêu nghiên cứu, vàphương pháp tiếp cận Ngoài ra, chương này cũng nêu rõ lý do chọn đề tài cùng với
câu trúc luận văn.
Chương 2 tóm tắt các kiến thức nén tang, phân tích đánh giá một số điểm nồi
bật của các công trình nghiên cứu liên quan đên chủ đê của luận văn Tiệp theo đó,
hướng tiếp cận của luận văn sẽ được giới thiệu khái quát trong chương này
Chương 3 trình bày framework nén tang, từ đó dua ra phương pháp tích hợpphương pháp đề xuất vào framework nền tảng Phần này trình bày chỉ tiết các
phương pháp nghiên cứu được áp dụng trong luận văn, bao gồm mô hình trích xuất
Trang 17Chương 1 GIỚI THIỆU ĐÈ TÀI
nghiệm được phân tích và thể hiện trong bảng biểu, đồ thị và các hình thức trực
triển cùng với hoạt động nghiên cứu Bên cạnh đó, hình ảnh minh họa giao diện và
cách sử dụng cũng được giới thiệu.
Trang 18Chương 2 KIEN THỨC NEN TANG VÀ CÁC CÔNG TRÌNH LIEN QUAN
CHUONG 2: KIÊN THUC NEN TANG VÀ CAC CÔNG
TRINH LIEN QUAN
2.1 Mang hoc sau tich chap (Convolutional Neural Network - CNN)
Mang hoc sau tich chap dat nhiều thành tựu trong thị giác máy tính như nhận
diện và phân loại đối tượng, phân đoạn ảnh, và phát hiện đối tượng Các thành phần
chính của CNN gồm:
1 Tích chập (Convolution): Lớp này trích xuất các đặc trưng từ hình ảnh bằng
cách áp dụng các bộ loc (kernels) di chuyển qua từng phan của ảnh
2 Kích hoạt (Activation): Thường dùng hàm kích hoạt ReLU đề thêm tính phi
tuyên vào mô hình.
3 Lay mẫu (Pooling): Giảm kích thước của đặc trưng (thường dùng Max
Pooling), giúp giảm số lượng tham số và tăng hiệu quả tính toán.
4 Kết nối đầy đủ (Fully Connected): Lớp cuối cùng liên kết toàn bộ các đặc
trưng đã trích xuât đê đưa ra dự đoán cuôi cùng.
Sau khi CNN đã trở thành nền tảng cho nhiều tiến bộ vượt bậc trong thị giácmáy tính, các nhà nghiên cứu tiếp tục cải tiền kiến trúc này nhằm giải quyết van đềsuy giảm độ chính xác khi mạng trở nên quá sâu Trong bối cảnh đó, mạng học sâu
ResNet ra đời.
2.1.1 Mang hoc sâu ResNet
ResNet, viết tắt của "Residual Network," là một loại mạng học sâu (DeepLearning Neural Network) được Kaiming He và các đồng nghiệp giới thiệu trong
năm 2015 qua bài báo "Deep Residual Learning for Image Recognition" tại hội nghị
CVPR ResNet đã đánh dấu một bước ngoặt trong lĩnh vực học sâu và đã giành giải
thưởng ImageNet Large Scale Visual Recognition Challenge (ILSVRC) vào năm
2015.
Trước khi ResNet xuất hiện, một trong những khó khăn lớn nhất khi xây dựngmạng học sâu là vấn đề mất mát đạo hàm (vanishing gradient) Khi huấn luyện, giá
8
Trang 19Chương 2 KIEN THỨC NEN TANG VÀ CÁC CÔNG TRÌNH LIEN QUAN
trị đạo hàm của ham mat mát là thông tin phan hôi của quá trình lan truyên ngược Khi mang trở nên quá sâu, tại các lớp nơ-ron đâu tiên, giá tri này giảm xuông rat
nhỏ, khiến cho việc cập nhật trọng số trở nên bat khả thi
ResNet giải quyết van dé này bằng cách giới thiệu một khái niệm gọi là huấnluyện phần dư (residual learning) Thay vì học một ánh xạ trực tiếp từ input đếnoutput, ResNet học phan du (residual) giữa input và output Y tưởng này được thực
hiện bang cách thêm các kết nối tat (skip connections) đồng nhất dé xuyên qua một
hay nhiều lớp trong mạng Một khối như vậy được gọi là một khối phần dư như
trong Hình 2.1 dưới đây:
weight layer
weight layer H(x) = F(#) +x @
x
identity
F(x)
Hinh 2.1 Mot khéi phan dư được sử dung trong ResNet [26].
Gia sử input là x, thay vi học một ánh xa H(x), ResNet hoc ánh xạ phan dưF(x) = H(x) — x Do đó, ánh xạ ban đầu sẽ trở thành H(x) = F(x) +x
Mang ResNet được xây dựng bằng cách xếp chồng nhiều khối phan dư Mộtkhối phần dư cơ bản bao gồm hai lớp convolutional (Conv), mỗi lớp theo sau là mộtlớp batch normalization (BN) và một hàm kích hoạt ReLU, cùng với một đường dẫntắt kết nói trực tiếp input đến output
Ví dụ về một khối residual cơ bản:
Input -> [Conv -> BN -> ReLU -> Conv -> BN] + Input ->
ReLU -> Output
Nhiều biến thé khác của kiến trúc ResNet đã được giới thiệu sau đó Các nghiên
cứu cho thây những kiên trúc mới có thê huân luyện mạng nơ-ron với độ sâu lên
Trang 20Chương 2 KIEN THỨC NEN TANG VÀ CÁC CÔNG TRÌNH LIEN QUAN
đến hàng nghìn lớp Vì tính hiệu quả của nó, ResNet đã nhanh chóng trở thành kiếntrúc phô biến nhất cho những bài toán liên quan đến thị giác máy tính
2.1.2 Mạng học sâu IBN-ResNet
IBN-ResNet (Instance Batch Normalization ResNet) [15] cải thiện hiệu năng
trong bài toán tái định danh người so với ResNet chủ yếu do cách xử lý tốt hon sự
thay đổi trong hình ảnh của một người, như ánh sáng, góc nhìn, và tư thế Dưới đây
là những lý do chính:
1 Kết hợp hai phương pháp chuẩn hóa: IBN-ResNet sử dụng một kỹ thuật
kết hợp giữa chuẩn hóa thực thé (Instance Normalization - IN) và chuẩn hóa
lô (Batch Normalization - BN) như Hình 2.2 dưới đây IN giúp giảm sự khác
biệt về màu sắc và ánh sáng của ảnh, trong khi BN giữ lại thông tin thống kêquan trọng của dữ liệu Bằng cách kết hợp cả hai, IBN-ResNet có thể học
được đặc trưng tốt hơn từ hình ảnh, giúp nhận diện người chính xác hơntrong các tình huéng khác nhau
(a) original (b) IBN-a (c) IBN-b
Hình 2.2 Kiến trúc mang IBN [15] thay đổi từ ResNet
2 Đặc trưng bat biến với sự thay đổi: IN đặc biệt hữu ích trong việc loại bỏ
sự khác biệt không liên quan giữa các hình ảnh, như sự thay đổi về ánh sáng
10
Trang 21Chương 2 KIEN THỨC NEN TANG VÀ CÁC CÔNG TRÌNH LIEN QUAN
và màu sắc Điều này quan trọng trong tái định danh người vì nó giúp môhình tập trung vào các đặc trưng quan trong dé phân biệt từng người, thay vi
các yêu tô ngoại cảnh.
3 Khả năng tổng quát hóa tốt hơn: Việc sử dụng IBN giúp mô hình
IBN-ResNet tổng quát hóa tốt hơn khi gặp các môi trường và điều kiện khác nhau,một yếu tố quan trọng trong bài toán tái định danh người, nơi mà các hình
ảnh thường được chụp từ nhiều góc độ và điều kiện ánh sáng khác nhau
4 Cau trúc mạnh mẽ của ResNet: IBN-ResNet vẫn giữ lại cau trúc cơ bản
của ResNet, nôi tiêng với khả năng học các đặc trưng sâu và tránh hiện tượng biên mat gradient trong quá trình huân luyện Điêu này đảm bảo mô hình có
thê học được các đặc trưng phức tạp cần thiết cho bài toán tái định danh
Hiệu năng cao hơn của IBN-ResNet so với ResNet đã được chứng minh trong
các nghiên cứu và bài báo về tái định danh người, như việc sử dụng nó trong các bộ
dữ liệu phức tạp với nhiều sự thay đổi về ánh sáng và môi trường
2.2 Thuật toán phân cụm DBSCAN
Phân cụm là một kỹ thuật quan trọng trong bài toán huấn luyện tái định danh người không giám sát nhằm tìm kiếm các cấu trúc ân trong tập dữ liệu hình ảnh của
nhiều người khác nhau Khi không có nhãn dữ liệu, phân cụm giúp nhóm các đốitượng tương đồng lại với nhau và gán nhãn giả dựa trên một số đặc trưng chung.Các phương pháp dựa trên phân cụm dan trở thành mô hình huấn luyện chính thống
để đạt được hiệu năng cao So với K-Means, thuật toán DBSCAN có ưu điểmkhông cần biết trước số cụm, có thể tìm ra các cụm có hình dạng tùy ý và phát hiện
điểm nhiễu (noise)
Ý tưởng chính đằng sau DBSCAN là có một số lượng điểm tối thiểu sẽ nằm
trong khoảng cách hoặc bán kính xác định từ điểm cụm "trung tâm" nhất, được gọi
là điểm lõi Các điểm trong bán kính đó là các điểm lân cận và các điểm ở rìa củavùng lân cận đó là các điểm biên hoặc điểm ranh giới Bán kính hoặc khoảng cách
vùng lân cận được gọi là vùng lân cận epsilon, hoặc đơn giản là ký hiệu của chữ cái
II
Trang 22Chương 2 KIEN THỨC NEN TANG VÀ CÁC CÔNG TRÌNH LIEN QUAN
Hy Lạp e Ngoài ra, khi có các điểm không phải là điểm lõi hoặc điểm biên vì chúngvượt quá bán kính dé thuộc về một cụm xác định và cũng không có sé luong diém
tối thiểu dé trở thành điểm lõi, chúng được coi là điểm nhiễu
Hình 2.3 cung cấp một ví dụ trực quan với cài đặt số điểm lân cận tối thiểuMinPts = 3 trong bán kính e Một “vùng dày đặc” được tao ra bởi số lượng tốithiểu các điểm lõi màu đỏ trong khoảng cách giữa tất cả chúng, e Các điểm màuxanh lá cây nằm trong khoảng cách này nhưng không gần với số lượng tối thiểu các
điêm khác được coi là diém biên Điêm màu xanh biên còn lại là nhiều.
Hình 2.3 Các điềm lõi, biên và nhiễu theo DBSCAN
Như tên gọi của nó, DBSCAN thực hiện phân cụm dựa trên mật độ Các bước
của thuật toán được tóm tắt như sau:
1 Khởi tạo: Chọn một điểm dữ liệu chưa được thăm
2 Mở rộng cụm: Nếu điểm đó có ít nhất MinPts điểm lân cận trong bán kính e,
tạo một cụm mới hoặc thêm vào cụm hiện có.
3 Tiếp tục: Tiếp tục mở rộng cụm cho đến khi không thé thêm điểm nào nữa
vào cụm đó.
4 Lặp lại: Lặp lại cho các điểm đữ liệu chưa được thăm
12
Trang 23Chương 2 KIEN THỨC NEN TANG VÀ CÁC CÔNG TRÌNH LIEN QUAN
Lưu ý khi áp dụng thuật toán DBSCAN, hai thông số e và MinPts cần xác định
trước, nên hiệu chỉnh siêu tham sô là cân thiệt dé cải thiện hiệu năng khi các cụm có
Bảng 2.1 Các ký hiệu và ý nghĩa tương ứng
Fo Mang hoc sau dua trén kiến trúc ResNet có bộ tham sô Ø
f(.) Ham trích xuất đặc trưng
+ Không gian đặc trưng được trích xuất từ f(.)
Rẻ Tập hợp các vector thực có đ chiều
PxK Lô dữ liệu nhỏ (Mini-batch) được trích ra từ tập dữ liệu huấn luyện
có P định danh và K ảnh cho mỗi định danh
Trang 24Chương 2 KIEN THỨC NEN TANG VÀ CÁC CÔNG TRÌNH LIEN QUAN
X
exp(x) e
eps Bán kính phân cụm ¢ trong thuật toán DBSCAN
Cy Vector dai diện cụm cùng định danh với thực thé dang xét
C¡ Vector đại diện cụm có định danh thứ i
SE Thuc thé gan nhất với vector đại diện cum so với toàn bộ thực thé
cùng nhãn trong mini-batch
SiR Thực thé gần với thực thé sz nhất có cùng nhãn trong mini-batch
sim(u,V) Độ tương dong giữa hai vector đặc trưng u va v, mặc định sử dụng độ
tương đồng cosin dé tính toán giá tri trong khoảng [-1,1]
s* Thuc thé tham chiéu dé cập nhật vector đại diện cum
te; Vector dai diện cum thứ i
hij Vector đặc trưng của thực thé thứ j trong cum thứ i_Lebass Hàm mat mát cap độ cụm
Linstance | Hàm mat mát cấp độ thực thê
2.3.2 Framework nền tang
Các công trình nghiên cứu tái định danh người hoàn toàn không giám sát gần
đây đặt mục tiêu khai thác các nhãn giả từ việc phân cụm và áp dụng phương pháp
huấn luyện tương phản đã cho thấy hiệu suất tuyệt vời trong việc huấn luyện biểu
diễn không giám sát [33, 34, 35].
Mặc dù huấn luyện tương phản cấp độ cụm [3] đã đạt được hiệu suất ấn tượng,phương pháp huấn luyện tương phản chỉ ở cấp cụm không xem xét mối quan hệgiữa các mẫu khó (hard samples) ở cấp độ thực thê
14
Trang 25Chương 2 KIEN THỨC NEN TANG VÀ CÁC CÔNG TRÌNH LIEN QUAN
Vì vậy, công trình nghiên cứu [8] trình bày một kỹ thuật huấn luyện tương phảnlai là sự kết hợp của hai hàm mat mát cấp độ cụm và cấp độ thực thê đối chiếu vớimẫu khó được minh họa trong Hình 2.4 dưới đây.
Lan truyền ngược - ca S
nh ann nan Vector đặc trưng với nhãn giả
! DBSCAN (eps, MinPts) † |
Tập dữ liệu huấn ' £ ‘
luyện không nhãn ' class <—— Si Be = Ee
Vector dac trung 2048 ¬ R a Echiều Bộ nhớ đại diện cụm Bộ nhớ thực thê
Mô hình này hoạt động theo trình tự như sau:
1 Dữ liệu đầu vào: Mô hình này được huấn luyện trên tập dữ liệu không có
nhãn Điều này có nghĩa là nó không cần thông tin về danh tính cụ thể của
từng người trong tập huấn luyện
2 Bộ mã hóa vector đặc trưng Fg: Mô hình sử dụng một mạng học sâu dựa trên
kiến trúc ResNet dé trích xuất các đặc trưng từ ảnh đầu vào Mỗi ảnh được
ánh xạ thành một vector đặc trưng có kích thước 2048 chiều.
3 Phân cụm sinh nhãn giả (pseudo labels): DBSCAN là một thuật toán phân
cụm không giám sát DBSCAN sẽ nhóm các vector đặc trưng đầu ra từ thànhcác cụm dựa trên mật độ Những cụm này sẽ được sử dung dé tạo nhãn giảcho các ảnh trong tập huấn luyện Điều này giúp mô hình giả định nhãn cho
các ảnh, mặc dù ban đâu tập dữ liệu không có nhãn.
15
Trang 26Chương 2 KIEN THỨC NEN TANG VÀ CÁC CÔNG TRÌNH LIEN QUAN
4 Bộ nhớ đại diện cum (Cluster Memory) và bộ nhớ thực thể (Instance
Memory): Bộ nhớ đại diện cụm lưu trữ các vector đại diện cụm được tính từ
thông tin vector đặc trưng của toàn bộ thực thể trong cùng cụm Bộ nhớ thực
thể lưu trữ các vector đặc trưng của từng ảnh riêng lẻ Mỗi màu khác nhauthể hiện cho từng nhãn giả được gán cho các vector đó sau khi phân cụm
5 Hàm mat mát (loss function): Mô hình sử dụng nhãn giả từ DBSCAN cung
cấp dé tính hai hàm mat mát trong đó £„¡zs đo lường sự khác biệt giữa dữliệu huấn luyện được truy xuất theo từng lô nhỏ (mini batch) và toàn bộ dữ
liệu trong bộ nhớ đại diện cụm, Linstance đo lường sự khác biệt giữa dữ liệu
trong mini batch và toàn bộ mẫu khó của từng cụm.
6 Lan truyền ngược (Backpropagation): Tối ưu hóa bộ tham số của mạng học
^
sau.
Theo như đánh giá cao về mô hình này có khả năng duy trì đồng thời đặc trưng
toàn cục và cục bộ, chúng tôi đã lựa chọn [8] làm mô hình cơ sở để nghiên cứu cải
thiện hiệu năng mô hình.
2.3.3 Phương pháp huấn luyện không giám sát
DBSCAN dựa nhiều vào các phép đo khoảng cách trong không gian đặc trưng,
và nêu không gian đặc trưng không tốt, kết quả phân cụm có thé không chính xáchoặc không có ý nghĩa Vì vậy, quá trình phân cụm cần được lặp lại kết hợp với
huấn luyện biểu diễn không giám sát (unsupervised learning) dé tối ưu không gianđặc trưng của dữ liệu Điều này đặc biệt hữu ích nếu không gian đặc trưng ban đầu
không tách biệt rõ các cụm Theo đó, hàm mất mát tương phản (contrastive loss)thường được áp dụng trong các phương pháp huấn luyện tương phản (contrastivelearning) Mục tiêu chính của những hàm mất mát này là tối đa hóa khoảng cách
giữa các thực thé không cùng cụm (negative samples) và giảm thiểu khoảng cách
giữa các thực thể cùng cụm (positive samples) trong không gian biểu diễn đặc
trưng.
16
Trang 27Chương 2 KIEN THỨC NEN TANG VÀ CÁC CÔNG TRÌNH LIEN QUAN
Hàm mắt mát InfoNCE [36]
InfoNCE là một dạng hàm softmax kết hợp với một cơ chế huấn luyện tương
phản, nơi mà một mâu dương (liên quan) được so sánh với nhiêu mau âm (không
liên quan) nhằm tối đa hóa xác suất phân loại đúng mẫu dương thông qua công thức
4 là biểu diễn của một mẫu dữ liệu
klà biểu diễn của mau dữ liệu có liên quan với g, ví dụ như một phiên bantăng cường của mẫu gốc
k; là biểu diễn của các mẫu không liên quan với g
sim(q, &) là hàm tính toán độ tương đồng giữa hai vector q và k, thường làdot product hoặc độ tương đồng cosin
K là số mau dữ liệu không liên quan
Ý nghĩa:
Tử số: Biéu diễn sự tương đồng giữa g và mẫu liên quan Mô hình cô găng
tôi đa hóa giá trị này, tức là làm cho các cặp liên quan có độ tương đồng cao hơn.
Mẫu số: Gồm tong của độ tương đồng giữa g và mẫu liên quan lẫn các mẫu
không liên quan Mô hình cô găng tôi thiêu hóa giá trị này băng cách giảm
độ tương đồng giữa g và và các mẫu không liên quan.
Hình 2.5(b) minh hoa SPCL [6] tính toán InfoNCE loss tại cấp độ cụm
(cluster-wise InfoNCE loss) như sau:
17
Trang 28Chương 2 KIEN THỨC NEN TANG VÀ CÁC CÔNG TRÌNH LIEN QUAN
exp(q - c+/t)
L„=-logc—— ——
" ook exp(q - cx /T)
Trong đó {c1, c2, , cx} là những vector đặc trưng của trọng tâm cum (cluster
centroids) và K thể hiện số lượng cụm + là một tham số nhiệt độ (temperatureparameter) điều khién mức độ mềm của phân bố xác suất trên từng lớp Khi 7 nhỏ,
mang sé trở nên nhạy hơn với các khác biệt nhỏ giữa các độ tương dong.
[6] sử dụng trọng tâm cụm làm vectơ đại diện cụm dé tính toán khoảng cách
giữa mẫu truy vấn q và tat cả các cum c+ là đặc trưng cụm liên quan mà ¿ thuộc về
Trọng tâm cụm được tính theo giá tri vector trung bình của toàn bộ thực thể cùng
Nhưng tương tự Hình 2.5(a) multi-lable classification loss, nó lưu trữ toàn bộ
vector đặc trưng của toàn bộ thực thể hình ảnh trong bộ nhớ từ điển (memorydictionary) Cac vector đặc trưng này được lưu trữ sau đó được cập nhật băng đặctrưng của hình ảnh truy vấn tương ứng theo Hình 2.5(b)
update date date
= — update pc average update
query ——| ——— > —— | ES —ứt= query KEEETI E————- query pm
E===—n —- we dictionary dictionary dictionary dictionary (instance feature) (instance feature) (cluster centroid) (cluster feature)
(a) Multi-label classification loss (b) Instance level InfoNCE loss (c) Cluster NCE loss
Hình 2.5 So sánh ba phương pháp tính hàm mat mát tương phan cấp độ cụm [3]
Hàm mắt mát tương phản cấp độ cụm Cluster NCE [3]
18
Trang 29Chương 2 KIEN THỨC NEN TANG VÀ CÁC CÔNG TRÌNH LIEN QUAN
Ngược lại, ở Hình 2.5(c), Cluster Contrast [3] dé xuất tính toán hàm mat máttương phản cấp độ cụm Cluster NCE như sau:
exp( : Ð,/+)
Lạ = —ÌOB8cg————
4 F_ exp( - bx/T)
Trong đó ở, là vector đặc trưng riêng biệt đại diện cho cụm thứ k Nó cập
nhật cả những vector đặc trưng và tính toán mất mát trên cấp độ cụm, tạo ra
sự khác biệt đáng ké so với các phương pháp tinh mat mát trước đó.
2.3.2 Một số nghiên cứu liên quan
Huấn luyện hoàn toàn không giám sát cho mạng học sâu trên bài toán tái định
người đang nhận được sự quan tâm cúa các công trình nghiên cứu gần đây vì tínhhiệu quả về thời gian và nguồn lực triển khai cho dữ liệu giám sát hình ảnh ngườikhông nhãn so với yêu cầu gán nhãn của nhiệm vụ huấn luyện giám sát và bán giám
Z
sát.
Về mặt hình thức của bài toán tái định đanh người không giám sát, cho trước
đầu vào X = {x;}%, biểu thị bộ đữ liệu huấn luyện không nhãn, trong đó x; là một
hình ảnh một người thuộc về một định danh và n là số lượng hình ảnh Mục tiêu củabài toán cần huấn luyện theo cách không sử dụng nhãn cho một mô hình trích xuấtkhông gian đặc trưng F = f(0;x) để chiếu một hình anh x; tới vùng không gian dchiều của vector đặc trưng f € E“ Mô hình sau khi huấn luyện có kha năng biểu
diễn các vector đặc trưng của cùng định danh sẽ gần nhau trong không gian đặc
trưng nhất có thé, đồng thời các cụm chứa các thực thé của cùng một định danh sẽcách xa nhau nhất có thể Nhờ đó, hệ thống truy xuất có khả năng trả về hình ảnh
của người được tìm kiêm với mức độ tương đồng cao nhât có thê.
Phần lớn các phương pháp [1, 3, 5, 6, 9, 10] đề xuất thực thi chiến lược haibước lặp tuần tự:
19
Trang 30Chương 2 KIEN THỨC NEN TANG VÀ CÁC CÔNG TRÌNH LIEN QUAN
1 Gan nhãn giả Y =(y/, y2, , Yn} của các hình ảnh huấn luyện thông qua
thuật toán phân cụm, chăng han Kmeans [30] hoặc DBSCAN [18] Trong đó,
yi € {1,2, , C} và C là số lượng nhãn giả.
2 Tối ưu hóa mô hình với bộ dữ liệu được gắn nhãn X’ = {(¡, y¡), (x2, y2), ,
(Xn, Dưới đây chúng tôi tom lược các điểm nổi bật của các phương pháp trên trong
Yn)}-nhiệm vụ tôi ưu hóa mô hình cùng với nhận xét.
Ge và cộng sự [6] đề xuất sử dụng bộ nhớ hỗn hợp dé lưu trữ vector đặc trưngcủa các đối tượng từ các miền dữ liệu khác nhau, qua đó tăng cường khả năng huấnluyện thích ứng miền mà không cần nhãn Tuy nhiên, nhược điểm của phương phápnày là quá trình học có thé diễn ra chậm do cần phải điều chỉnh độ khó dần dan, vàyêu cầu tài nguyên bộ nhớ lớn khi xử lý dữ liệu quy mô lớn
Do đó, để giải quyết vấn đề của [6] chúng tôi đề xuất phương pháp huấn luyện
hoàn toàn không giám sát không sử dụng dữ liệu trên miền nguồn, thay vào đó sử
dụng hoàn toàn dữ liệu không nhãn trên miền đích dé tối ưu tốc độ xử lý và tài
nguyên tính toán.
Chen và cộng sự [1] sử dụng huấn luyện tương phản giữa các thực thé khácnhau của cùng một đối tượng Phương pháp này không yêu cầu nhãn và tận dụngcác kỹ thuật tăng cường dé tạo ra các phiên bản đa dang, qua đó cải thiện khả năngphân biệt giữa các danh tính Tuy nhiên, việc phụ thuộc vào tăng cường có thê tạo
ra những thay đổi không tự nhiên, làm giảm hiệu quả khi nhận diện với các đối
tượng có độ tương đồng cao
Trong khi đó, Dai và cộng sự [3] cũng dựa trên huấn luyện biểu diễn tương
phản nhưng thực hiện trên các cụm cùng định danh Các tác giả tính toán hàm mất
mát tương phản và cập nhật bộ nhớ ở cấp cụm thay vì cấp thực thé, cải thiện các
phương pháp không giám sát trước đây Bên cạnh đó, cập nhật động lượng được sử
dụng dé cung cố thêm tinh nhất quán của việc biểu diễn các vector đại điện cụm.Bằng cách này, phương pháp giúp tăng tinh ôn định và hiệu quả phân biệt giữa các
20
Trang 31Chương 2 KIEN THỨC NEN TANG VÀ CÁC CÔNG TRÌNH LIEN QUAN
nhóm đối tượng trong dữ liệu lớn Tuy nhiên, hiệu suất của phương pháp này có thé
bị ảnh hưởng bởi việc phụ thuộc hoàn toàn vào quá trình phân cụm tạo nhãn giả.
Dé giải quyết những thách thức tổn tại của [1] và [3], chúng tôi đề xuất kết hợpham mất mát tương phản cấp cụm và cấp thực thé Sự kết hợp ham mat mát tươngphan cấp cụm và cấp thực thé giúp mô hình học được cả đặc trưng chung cho cụm
và sự khác biệt chỉ tiết giữa các thực thé Hàm mất mát cấp cụm tối ưu hóa việc
phân cụm, còn ham mat mát cấp thực thé đảm bảo phân biệt rõ các thực thể riêng lẻ.Điều này cải thiện hiệu suất phân loại và phân cụm, đặc biệt trong các cụm phức
tạp.
Một cách tiếp cận khác là từ nghiên cứu của Isobe và cộng sự [9], trong đó việchuấn luyện các đại diện phân biệt qua một mạng nơ-ron đa giai đoạn Phương phápnày có khả năng học các đặc trưng mạnh mẽ, giúp cải thiện hiệu suất phân biệttrong tái định danh, nhưng quá trình huấn luyện phức tạp và tốn thời gian
Cuối cùng, phương pháp do Luo và cộng sự [36] đề xuất sử dụng mô hìnhTransformer được huấn luyện tự giám sát Phương pháp này khai thác khả năng của
Transformer trong việc học các mối quan hệ dài hạn giữa các đối tượng, g1úp cải
thiện hiệu suất mà không yêu cầu nhãn Tuy nhiên, mô hình Transformer đòi hỏi tàinguyên tính toán lớn và cần lượng dữ liệu lớn dé đạt hiệu quả tối ưu Vì vay, xem
xét trén phuong dién nguồn lực rộng rãi cho ứng dụng thực tẾ, mạng tích chập CNN
vân được ưu tiên cho hướng tiép cận cua đê tài.
Theo các nghiên cứu trên, phương pháp phân cụm tạo nhãn giả với thuật toán
DBSCAN thẻ hiện ưu thế vượt trội và trở thành mô hình chủ đạo hiện tại để giảiquyết bài toán tái định danh không giám sát Do đó, chúng tôi sẽ tiếp tục kế thừa sửdụng thuật toán DBSCAN dé phân cụm các đặc trưng Tuy nhiên, ngưỡng của thuậttoán phân cụm thay vì chọn cô định, chúng tôi sử dụng kỹ thuật tùy chỉnh tham số
tự động trong suốt quá trình huấn luyện.
21
Trang 32Chương 3 PHƯƠNG PHAP DE XUẤT
CHƯƠNG 3: PHƯƠNG PHÁP ĐÈ XUẤT
3.1 Tổng quan về phương pháp đề xuất
Phương pháp đề xuất của chúng tôi có tên gọi là ASCUL bao gồm hai thànhphần chính như sau:
1 Bộ điều chỉnh bán kính phân cụm (CRR): Tính toán tham số bán kính vùng
lân cận ¢ của thuật toán DBSCAN vào đầu mỗi vòng lặp huấn luyện Việctính toán theo hướng giảm dần tuyến tính giúp thuật toán này phân cụm tạonhãn giả hiệu quả hơn đối với sự thay đổi của sự phân bố vector đặc trưng
trong không gian.
2 Bộ điều hợp đại diện cụm lũy tiến (PPR): Tính toán vector đại diện cụm có
thông tin đặc trưng mang tính tổng quát hóa cao cho các mẫu đại diện cụm.Vector đại diện cụm được cập nhật thông qua thông số ngưỡng ước lượngmức độ biến động nội bộ cụm trước khi đưa vào tính toán hàm mat máttương phản cấp độ cụm như là một phần của mỗi vòng lặp huấn luyện Tínhtổng quát hóa tốt hơn của vector đại diện cụm ảnh hưởng tích cực đến hiệuquả của hàm mat mát tương phản cấp độ cụm, từ đó giúp mô hình hội tụ tốt
hơn.
Hình 3.1 minh họa sự tích hợp của các thành phan này vào framework nền tảngđược giới thiệu ở phần 2.3.2 Dữ liệu huấn luyện không nhãn được cung cấp có nhình ảnh người Mục tiêu là huấn luyện một mô hình có thé phân biệt danh tinh vàkhái quát hóa tốt Mô hình huấn luyện của chúng tôi tuân theo quy trình dựa trênphân cụm được áp dụng rộng rãi, lặp lại giữa huấn luyện mạng thông qua sử dụng
bộ nhớ vector đại diện cụm và vector đặc trưng của toàn bộ thực thể để huấn luyện
tương phản và phân cụm tạo nhãn giả Bộ mã hóa được khởi tạo với mô hình dựa
trên kiến trúc ResNet50 được huấn luyện trước trên ImageNet Các đặc trưng được
mã hóa của tất cả các thực thể thông qua mô hình này được sử dụng để xây dựng bộnhớ thực thể, từ đó khởi tạo bộ nhớ vector đại điện cụm Sau khi khởi tạo, mô hình
đề xuất của chúng tôi sẽ thực hiện các thay đôi so với framework nền tảng trong haigiai đoạn phân cụm và huấn luyện tương phản như sau:
22
Trang 33Chương 3 PHƯƠNG PHÁP ĐÈ XUẤT
Giai đoạn phân cụm được thực hiện vào đầu mỗi epoch Sau đó, các đặc trưngđầu ra của mạng được DBSCAN phân loại, phân biệt các trường hợp đủ điều kiện
dé phân cụm và các trường hợp ngoại lệ vẫn chưa được phân cum Sự phân loại này
được xây dựng bằng cách đánh giá các cặp hệ số tương đồng Jaccard [23] Kết quả
sinh ra là tập nhãn giả (pseudo labels) Ÿ = His ¥, €[1, Ne] trong đó Np, Nẹ là
số lượng mau và số lượng định danh tương ứng Tập nhãn giả thu được sẽ được gan
cho các đặc trưng hợp lệ CRR điều chỉnh tham số ¢ của thuật toán phân cum
DBSCAN giảm dan dé thích ứng voi sự phân bố đặc trưng trong từng cụm Vectơđại diện của mỗi cụm được gán bằng giá tri trung bình của các vectơ đặc trưng
trong cùng cụm ở epoch dau tiên.
Chuyén sang giai đoạn huấn luyện, một bộ lay mẫu ngẫu nhiên được áp dung déchia tập huấn luyện thành các lô dữ liệu gọi là mini-batch bao gồm P nhãn giả.Trong mỗi lớp có nhãn giả, có K tam hình Sau đó, các truy van này được đưa vào
mạng qua nhiều vòng lặp Tại thời điểm này, PPA thực hiện cập nhật động lượngcủa các vectơ đại diện cụm bằng cách sử dụng chiến lược khai thác thích ứng các
mau phù hợp với biến động nội bộ của từng cum
Cuối cùng, toàn bộ mang được huấn luyện bằng ham mat mat [8] kết hợp L¡zs;
mat mát cap cụm và hàm mất mát cấp thực thé đối chiếu với mẫu khó Linstance như
một phân của quá trình lan truyên ngược của việc huân luyện mô hình.
Trang 34Chương 3 PHƯƠNG PHAP DE XUẤT
tự, Ci và Zharq biêu diễn cho vector đại diện cụm va mâu khó của cụm thứ i Hệ sô A
được gan giá tri 0.5 thé hién viéc can bang trong số cho hai ham mat mát
Bộ Điều Chỉnh
ae h Vector đặc trưng với nhãn =
Ban Kinh Phan Cum
Lane <— IHIE IH
Bộ nhớ đại cụm Bộ nhớ thực thê
Dữ liệu huan
luyện không nhãn
Min:batch ! eesti L instance-4 _
Lan truyén ngược
Mẫu khó
Hình 3.1 Lược đồ huấn luyện mô hình của phương pháp ASCUL
Thuật toán của chương trình được tóm tắt như sau:
Thuật toán huấn luyện mô hình của phương pháp ASCUL
Input Dataset D chưa gan nhãn
Mô hình Fo với kiến trúc mạng ResNet được huấn luyện trước trên tập
ImageNet
Giá tri khởi tạo cho bộ nhớ lưu trữ cho đại diện cụm Mcis và từng mẫu
Mins
Output | Mô hình được huấn luyện Fg
Lặp epoch = 1 đến số epoch yêu cầu
Trích xuất đặc trưng F dé mã hóa toàn bộ các ảnh trong D
Tính bán kính phân cụm theo Công thức 3.4
Sử dụng DBSCAN chia tất cả đặc trưng thành C cụmLặp iter = 1 đến số vòng lặp yêu cầu
Chon ra một mini-batch P x K của các ảnh truy van đã được gán
nhãn giả từ tập dữ liệu D
7: Đưa vào mô hình dé trích xuất đặc trưng cho các ảnh trong
mini-batch
24
Trang 35Chương 3 PHƯƠNG PHAP DE XUẤT
8: Tính toán hàm mắt mát theo Công thức 3.3 và lan truyền ngược
số DBSCAN [5] là phương pháp dựa trên mật độ không yêu cầu số lượng cụm,
điều này làm cho nó trở nên phổ biến trong tái định danh người không giám sát
Tuy nhiên, cần phải xác định hai tham số, ¢ (bán kính phân cụm vùng lân cận xung
quanh một điềm dữ liệu) và MinPts (số lượng điểm lân cận tối thiểu trong bán kính
eps).
Giá trị tối ưu của ¢ phụ thuộc vào mật độ va sự phân bố của tập dữ liệu Cheng
và cộng sự [1] gan các giá trị khác nhau cho tham số cụm e cho các tập dữ liệu khác
nhau, chăng hạn như 0,5 trên Market1501 va 0,6 trên MSMT17, trong khi các giá trị
mặc định là 0.6 trong công trình [3] Nhìn chung, các tham số cụm thường được laytheo thực nghiệm là các giá trị có định tối ưu [2, 6, 8] Tuy nhiên, cách tiếp cận này
dé thiết lập các tham số cụm có thé dẫn đến sự không phù hợp giữa các tham số và
đặc tính không gian phân bố đặc trưng, được gọi là vấn đề sai lệch đặc trưng Một
mặt, như Hình 3.2 cho thấy, trong giai đoạn dao tạo, khoảng cách trong nội bộ cum
giảm, trong khi khoảng cách giữa các cụm tăng và theo đó, mật độ của mỗi cụm
25
Trang 36Chương 3 PHƯƠNG PHAP DE XUẤT
tăng lên Mặt khác, tham số bán kính phân cụm ¢ của DBSCAN là ngưỡng khoảngcách xác định xem hai trường hợp lân cận có cùng cụm hay không, biểu diễn mật độ
của các cụm Do đó, ¢ được cho là có khả năng thích ứng với phân phối dé thúc đây
thuật toán phân cụ tạo ra các nhãn giả chất lượng cao Việc không thể tùy chỉnh bánkính phân cụm trong quá trình huấn luyện có thê bỏ sót các đặc trưng có thông tin
(a) epoch 1 (b) epoch 30 (c) epoch 50
Hình 3.2 Khoảng cách giữa các cum xa hơn và các đặc trưng cùng cụm gần hơn sau một
số epoch
3.2.2 Chỉ tiết phương pháp
Để giải quyết van dé này, chúng tôi đề xuất một phương pháp mới dé điềuchỉnh tham số tự động cho DBSCAN gọi là “Bộ điều chỉnh bán kính phân cụm”(CRR) để giảm dần bán kính phân cụm trong quá trình huấn luyện Thuật toán của
nó dần dần tinh chỉnh các cụm khi nó năm bắt được nhiều ngữ cảnh chứa thông tin
hon ở các giai đoạn huân luyện trước đó.
Tham số ¢ trong DBSCAN đóng vai trò quan trọng trong việc xác định vùng lâncận của một điểm dữ liệu ¢ xác định bán kính trong đó một điểm dữ liệu được coi
là điểm lõi, nghĩa là nó có đủ số lượng lân cận dé tạo thành một vùng dày đặc Việcchọn e nhỏ có thé khiến nhiều điểm dữ liệu bị phân loại là nhiễu, dẫn đến các cum
bị phân mảnh Điều này có thể gây khó khăn cho việc nhận dạng lại một người vì
các ành người có cùng định danh có thể không được nhóm chính xác trên các chế
độ xem camera khác nhau Mặt khác, ¢ lớn khiến nhiều cụm được hợp nhất thành
26
Trang 37Chương 3 PHƯƠNG PHAP DE XUẤT
một cụm duy nhât, có khả năng dân đên việc xác định các cá nhân khác nhau là cùng một người.
Nhận định của chúng tôi bắt nguồn từ việc quan sát và đánh giá phương pháphuấn luyện biểu diễn tương phản Việc huấn luyện này khuyến khích các mẫu trongmột cụm có các đặc trưng gần nhau trong không gian của chúng Mô hình đượchuấn luyện dé tối đa hóa sự giống nhau giữa các cặp liên quan đồng thời mở rộng sự
khác biệt giữa các cặp không liên quan Hình 3.2 minh họa sự mở rộng khoảng cách
giữa các cụm và thu hẹp khoảng cách giữa các đặc trưng cùng cụm được kiểm tra
trên 10 mẫu dữ liệu ngẫu nhiên trong quá trình huấn luyện từ epoch 1 đến epoch 50.
Không giống như các phương pháp phân cụm trước đây, mô-đun CRR tận dụng
hiện tượng này nhiều nhất bằng cách áp dụng mức giảm liên tục tham số e trong
suốt các bước huấn luyện Trong CRR, bán kính phân cụm được khởi tạo ban đầu
với một giá trị eo tương đối lớn và giảm dần đều đến một giá trị nhỏ nhất £„„ theomột hệ số có định ở mỗi giai đoạn huấn luyện Điều này đảm bảo rằng thuật toán
khám phá không gian tìm kiếm lớn hơn khi bắt đầu huấn luyện, giúp thu thập nhiềuthông tin theo nhiều ngữ cảnh hơn Khi mô hình huấn luyện tiến triển, bán kinhphân cụm giảm dan, cho phép thuật toán tỉnh chỉnh các cum và cải thiện độ
chính xác của phương pháp USL Re-ID.
Từ những quan sát trên, mối tương quan giữa mức độ phân tán của các điểm dữliệu bên trong cụm với sỐ epoch huấn luyện là rất đều đặn Các điểm dữ liệu co cụmdan trong phạm vi các đường tròn màu đỏ thé hiện trong Hình 3.3 Do đó, chúng tôichọn hàm tuyến tính đối với đường cong giảm dan của bán kính phân cụm z như
dưới đây:
27
Trang 38Chương 3 PHƯƠNG PHAP DE XUẤT
Gọi t là sô epoch hiện tại, NV là sô epoch mong muôn, £ạ Va Emin lân lượt là giá
tri ban dau và giá tri tôi thiêu của e Các giá tri này được sử dung dé duy trì khoảng cách tôi ưu giữa các diém dữ liệu của cùng một cụm trong các giai đoạn huân luyện.
£o—£min
Bước giảm được xác định theo giá trị hệ số k= , phản ánh sự chênh lệch
giữa £ạ và Emin chia đều cho số lượng bước huấn luyện N
Giá trị bán kính phân cụm e, tại epoch thứ t được xác định bằng công thức sau:
& =EoT— Tô hhx(Œ—1) 4)
Bộ tham số zo và Emin được lựa chon dé tối ưu tùy theo bộ dữ liệu Cụ thé là:
¢ Với tập Market-1501: Tham số £o và e„¡„ của DBSCAN được thử nghiệm với
các giá trị thay đổi với bước nhảy 0.025 dé tìm được giá trị tối ưu là emin =
0.4 và eo= 0.6 trên 50 epochs.
e Với tập MSMT17: Tham SỐ €0 Va Emin của DBSCAN được thử nghiệm với
các giá trị thay đổi với bước nhảy 0.025 dé tìm ra ngưỡng tối ưu Emin = 0.675đến so = 0.725 trên 50 epochs
28
Trang 39Chương 3 PHƯƠNG PHAP DE XUẤT
Phương pháp của chúng tôi đã được chứng minh là vượt trội hơn các phương
pháp dựa trên DBSCAN truyền thống về độ chính xác và độ tin cậy đối với các biến
Tương tự, [6] đã giới thiệu một bộ nhớ lai giữ lại cả đặc trưng thực thể và đại điện
cụm Ngoài ra, [9] đề xuất tối ưu hóa lặp lại việc huấn luyện đặc trưng và sàng lọccụm dé biểu diễn đặc trưng chịu được nhiễu [10] đã sử dụng mô hình huấn luyện
tương phan bat đối xứng để khai thác thông tin ân cấp cụm từ các góc nhìn tăng
cường dữ liệu khác nhau Những công trình này cùng với nhau thé hiện sự hiệu quacủa việc sử dụng huấn luyện để tận dụng thông tin cụm và nâng cao kỹ thuật tái
định danh người không giám sát Tuy nhiên, việc tính toán một vectơ đặc trưng duy
nhất biểu diễn một cụm của các phương pháp trên không phản ánh sự đa dạng củakhông gian của cùng một cụm trong đó các đặc trưng phân bố với mật độ và hình
dạng khác nhau.
Ngược lại, chúng tôi giới thiệu PPA - Bộ điều hợp proxy cụm lũy tiến cập nhậtdựa trên mức độ thu gọn lớp của từng cụm trong từng bước huấn luyện Nhờ chiến
lược cập nhật điểm đại diện phù hợp với các đặc điểm phân biệt của mỗi lớp, bộ
nhớ dữ liệu của các đại diện lớp nâng cao tính mạnh mẽ của mô hình so với nhiễu,nâng cao hiệu quả huấn luyện Thực nghiệm cũng chỉ ra rằng phương pháp thíchứng mới của chúng tôi mang lại những lợi thế như tốc độ hội tụ nhanh, mạnh mẽ
đôi với mật độ lớp và tính khái quát cao.
Huấn luyện tương phản cấp cụm là một bước đột phá mới trong lĩnh vực táiđịnh danh người không giám sát, với mục tiêu trích xuất các đặc trưng phân biệt để
29
Trang 40Chương 3 PHƯƠNG PHAP DE XUẤT
nhận dạng người mà không cần đến dữ liệu có gán nhãn Mặc dù có nhiều hàm mắt
mát khác được áp dụng trong tái định danh không giám sát, như cross entropy [2],
triplet [9], và N-pair [38], nhưng hàm mất mát tương phản lại được cho là phù hợphơn với học không giám sát, vì một số lý do quan trọng Trong quá trình học khônggiám sát, dữ liệu nhiễu chiếm tỷ lệ cao, đặc biệt là ở giai đoạn đầu, khi các đặctrưng chưa đủ mạnh để phân biệt rõ ràng giữa các mẫu Ngược lại, trong học cógiám sát, dữ liệu đã có sẵn nhãn, giúp việc huấn luyện trở nên dé dang hon Dé vượtqua thách thức về dữ liệu không nhãn, hàm mắt mát tương phản mô phỏng quá trìnhhọc tập tự nhiên của con người, bằng cách từ từ điều chỉnh nhãn của các mẫu quatừng vòng lặp huấn luyện
Cụ thé là, hàm £,;„;; mà chúng tôi sử dụng được kế thừa từ phương pháp [3, 8]với mục tiêu chính là tối đa hóa khoảng cách giữa các thực thể không cùng cụm(negative samples) và tối thiểu hóa khoảng cách giữa các thực thể cùng cụm
(positive samples) đồng thời Hàm mat mát này giúp thúc day mô hình học được
cách rút trích đặc trưng phân biệt giữa các thực thể khác cụm, đồng thời giảm thiểu
sự nhằm lẫn giữa các thực thé cùng cụm Công thức của hàm mắt mát này được tính
theo Công thức 3.1.
Trong quá trình nghiên cứu về ảnh hưởng của điểm đại diện cụm (clusterproxy) đến hiệu quả của hàm mắt mát, chúng tôi nhận thấy vai trò quan trọng củavector đặc trưng đại diện cho cụm Vector này tông hợp các đặc trưng tiêu biểu củatat cả điểm đữ liệu trong cùng một cụm Thông thường, cách tính toán vector đặctrưng này dựa trên một trong bốn điểm dữ liệu chính: trung bình [8], mẫu dễ [3],mẫu khó, hoặc ngẫu nhiên [1], như minh họa trong Hình 3.4 dưới đây:
30