Khóa luận tốt nghiệp Khoa học máy tính: Phương pháp thích ứng của huấn luyện không giám sát dựa trên phân cụm cho bài toán tái định danh người

Mô hình học sâu không chỉ có khả năng biểu diễn đặc trưng mạnh mẽ từ tập dữliệu huấn luyện mà còn có thé tổng quát hóa tốt hơn trong các điều kiện khác nhau.Tiếp theo đó, nhiều hướng tiế

Trang 1

ĐẠI HỌC QUÓC GIA THÀNH PHÓ HÒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

VÕ DUY ANH VŨ

PHƯƠNG PHAP THÍCH UNG CUA HUAN LUYEN KHÔNG

GIAM SAT DUA TREN PHAN CUM CHO BAI TOAN TAI

ĐỊNH DANH NGƯỜI

LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH

Mã số: 8.48.01.01 NGƯỜI HƯỚNG DẪN KHOA HỌC:

TS NGUYEN VINH TIEP

TP HO CHÍ MINH - 2024

Trang 2

LỜI CAM ĐOAN

Tôi xin cam đoan đề tài “Phương Pháp Thích Ứng Của Huấn Luyện Không Giám Sát

Dựa Trên Phân Cụm Cho Bài Toán Tái Định Danh Người” hoàn toàn là công trình nghiên cứu do cá nhân tôi thực hiện dưới sự hướng dẫn của TS Nguyễn Vinh Tiệp.

Các số liệu và những kết quả trong khóa luận là trung thực và chưa được công bố

trong bất kỳ một công trình nào khác Mọi tham khảo trong dé tài luận văn đều được

trích dan rõ ràng tên tác giả, tên công trình và thời gian công bô.

Tôi xin chịu trách nhiệm theo quy định của trường với các hình thức sao chép không

hợp lệ và vi phạm quy chế huấn luyện sau đại học.

Tp Hồ Chí Minh, tháng 9 năm 2024

Học viên

Võ Duy Anh Vũ

Trang 3

LOI CAM ON

Trước hết, tôi xin gửi lời cảm ơn chân thành đến TS Nguyễn Vinh Tiệp, người đãtruyền cảm hứng cho những nỗ lực của tôi trong hành trình nghiên cứu khoa học đầythử thách này Sự hỗ trợ và động viên của thầy là nguồn động lực lớn lao giúp tôi vượt

qua những khó khăn và đạt được những thành tựu hiện tại.

Tiếp theo, tôi xin chân thành cảm ơn các bạn nghiên cứu viên công tác tại MMLab đã

đóng góp nhiều ý kiến bổ ích trong quá trình thực hiện đề tài Những gợi ý và phản hồi

từ các bạn đã giúp tôi hoàn thiện nghiên cứu của mình một cách tốt nhất

Bên cạnh đó, tôi vô cùng biết ơn những nỗ lực của tập thể giảng viên Khoa Khoa HọcMáy Tính Những kiến thức chuyên ngành quý báu mà các thầy cô đã truyền đạt đãtrang bị cho tôi nền tảng vững chắc dé tiếp tục phát triển trong lĩnh vực này

Cuối cùng, tôi xin gửi lời tri ân sâu sắc đến gia đình và người thân đã luôn ủng hộ vàkhích lệ tôi trên con đường phát triên bản thân Sự hy sinh và tình yêu thương của mọingười là điểm tựa vững chắc để tôi không ngừng cố gắng và hoàn thiện bản thân

Tp Hồ Chí Minh, tháng 9 năm 2024

Học viên

Võ Duy Anh Vũ

Trang 4

MỤC LỤC

0/18/98 00/221 i

DANH MỤC HINH ÁNH 2-2 e< se ©ss£sstxsetssersetsserssere iv

DANH MỤC BẢNG s- 5< << se SssESsEEseEseEssExserserseresesserserssre V

DANH MỤC THUAT NGỮ 5< 5< 5 sss sssEseSsEssSseseEsessessss vi

CHUONG 1: GIỚI THIEU DE TAL 5- 5° se se s<es<essesss©5<e 1

LoL Dat Van : |

1.2 Mô tả bài ey: ¿22-52 cs 2t 2122112112712110211211 21111111111 cre 3 1.3 Mục tiêu và phạm vi nghiên CỨU 5 5 + + + £+skE+seeseeeeseess 4

1.4 Kết quả dat đưỢC - ¿5c St SE tk 219111112112112121111111 111cc, 5

1.5 Bố cục luận văn -¿-c-2 5S St +t2ESE3E15E112151111215E1115EE1115511 51531112 xee 6

CHƯƠNG 2: KIÊN THUC NEN TANG VA CAC CÔNG TRINH LIÊN

QUAN G ẽỸ— ẦẦ 8

2.1 Mạng học sâu tích chập (Convolutional Neural Network - CNN) 8

2.1.1 Mang hoc sâu ResNet eceesceeesceceseeeeseeceeeeceseecesaeeseaeessaeeeeaeeesaee 8 2.1.2 Mang hoc sâu IBN-ResÌNet - - Sàn Hư, 10

2.2 Thuật toán phân cụm DBSCAN - LH 11

2.3 Các nghiên cứu liên quan tai định danh người không giám sát 13

2.3.1 Hệ thống ký hiệu - 2-52 2 E+EE+EEEEEEEEEEEEEEEEEEEEEEEkrrrrreeg 13 2.3.2 Framework nên tảng - + +5 ©+£+EE+EEtEEtEEEEEEEEerkrrrkrrkerkee 14 2.3.3 Phương pháp huấn luyện không giám sát - 2: 16 2.3.2 Một số nghiên cứu liên quan 2: + ©s++s+zx+zx++x++z++cxez 19

Trang 5

CHƯƠNG 3: PHƯƠNG PHÁP DE XUẤTT - < << sesesesesssese 22

3.1 Tổng quan về phương pháp đề xuất ¿2-2 + s+c++£z+£zzxz>ez 22 3.2 Bộ điều chỉnh bán kính phân cụm «+ + + xssveseerseereree 25

3.2.1 Phân tích tiền đề - 2-2 +++2+2+++Ex+SEEtEEEeEEerkerrkerkrrrkrrrkd 25

3.2.2 Chi tiết phương pháp - 2+2 2+++£E££E£EE£EEtEkerkrrxrrxerkee 26 3.3 Bộ điều hợp đại diện cụm lũy tiến ¿5c 5c SscxcExeEeEzEzrered 29

3.3.1 Phân tích tiền đề + ¿5s + ++£+E£EE£EECEEEEEEEEEEErrErrkrrkervee 29

3.3.2 Chi tiết phương pháp 2- 2+ ¿+2+k+£E+£E£EE+EEeEEerEzrerrkerxee 31 CHƯƠNG 4: THUC NGHIEM VA KET QUA cc.ccsssessssssssssecssssesesseeeses 35

4.1 Giao thức đánh gia (Evaluation ProtOCO]) 5 55+ ++s£+sx+sx 35

4.1.1 Bộ dữ liệu (DatasetfS) - - - - - Ă< c2 223332221111 sec, 36

4.1.2 Cầu hìnfB5i đất poe «.1.WEE Ỉ é coi 39

4.1.3 Metrics khoảng cách - s1 vn ngư 39

4.1.4 Metrics đánh giá hiệu năng mô hình 5 55555 s++s>+<+ 404.2 So sánh kết quả với công trình nghiên cứu gần đây - 434.3 Thực nghiệm lOạI SUV - - 5 5 + E111 E*EESEEsekEsskesresreseeree 45

4.4 So sánh DBSCAN với K-Means và HDBSCAN trên Market-1501 47

4.5 Trực quan hóa t-SNE trên 30 định danh ngẫu nhiên của Market-150148

4.6 Điểm Silhouette trên Market- 50 1 ¿- 5c s+x+EeEx+EeEeExzEerxrxee 51 4.7 Biến động số lượng cum trong quá trình huấn luyện .- 52

CHUONG 5: KET LUẬN VÀ KHUYEN NGHỊ, .5 5°- 53

5.1 Kết quả đạt được ¿- ¿5c ST EEEE211211211111111 111111111 te 53 5.2 Khuyến nghị, ¿525% 2E12EXEEEE2112112717121121111 1121 1x xe 53

il

Trang 6

DANH MỤC CÔNG BO KHOA HỌC CUA TÁC GIẢ

TÀI LIEU THAM

KHẢO PHU LỤC -2 s°ssseccccez

Phụ luc 1 Phát triển ứng dụng trực quan hóa

ili

Trang 7

DANH MỤC HÌNH ANH

Hình 1.1 Tổng quan hệ thống tái định danh người không giám sát 3

Hình 1.2 Một số thách thức điển hình của bai toán tái định danh người 4

Hình 2.1 Một khối phần dư được sử dụng trong ResNet [26] 9

Hình 2.2 Kiến trúc mạng IBN [15] thay đổi từ ResNet -. - 10

Hình 2.3 Các điềm lõi, biên và nhiễu theo DBSCAN -2 2252: 12 Hình 2.4 Framework nền tảng - 2-52 2+S£+E£+E££E£EEeEEeEEEEErEkrrkrrerreee 15 Hình 2.5 So sánh ba phương pháp tính hàm mắt mát tương phản cấp độ cụm — 18

Hình 3.1 Lược đồ huấn luyện mô hình của phương pháp ASCUL 24

Hình 3.2 Khoảng cách giữa các cụm xa hơn và các đặc trưng cùng cụm gần hơn sau một 86 ©pOCH - 2-2 2 2 +E£SE£EE£EE£EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEkrrrree 26 Hình 3.3 Giảm dan bán kính phân cụm theo đường tuyến tính 28

Hình 3.4 Các điềm tham chiếu dé tính vector đại diện cụm 31

Hình 3.5 Quá trình tối ưu hóa điểm tham chiếu toàn cục cho vector đại diện lì ề 7K “ae 33

Hình 4.1 Lược đồ hoạt động đánh giá hiệu năng mô hình - 35

Hình 4.2 Minh họa một số mẫu trong bộ dữ liệu Market-1501 37

Hình 4.3 Minh họa một số mẫu trong bộ dữ liệu MSMT17 38

Hình 4.4 So sánh kết quả truy vấn giữa baseline và ASCUL trên Market-1501 9.0) 001 1Ö5.ố 45

Hình 4.5 So sánh kết quả của từng thành phần chức năng của ASCUL trên bon) 47

Hình 4.6 Sử dụng t-SNE để trực quan hóa phân bố đặc trưng của 30 định danh ngẫu nhiên trên Market- 150 I 2- 2 5 2+s5++S2+x+£ezxezzsezxzss2 48 Hình 4.7 Đánh giá bộ dữ liệu của ba định danh số 10, 11 và 15 51

Hình 4.8 Biến động số lượng cụm trong quá trình huấn luyện 52

1V

Trang 9

DANH MỤC THUẬT NGỮ

STT | Tên viết tắt | Thuật ngữ tiếng Anh Thuật ngữ tiếng Việt

1 ASCUL Adaptive Scheme of Clustering- Phuong pháp thích ứng

based Unsupervised Learning của huấn luyện không

giám sát

2 CNN Convolution Neural Network Mạng nơ-ron tích chập

3 CRR Clustering Radius Regulator Bộ điều chỉnh bán kính

phân cụm

4 DBSCAN | Density-Based Spatial Clustering | Phân cum không gian dua

of Applications with Noise trên mật độ các ứng dung

7 HDBSCAN | Hierarchical Density-Based Phân cum không gian dựa

Spatial Clustering of Applications | trên mật độ các ứng dụng

with Noise với nhiễu với cấu trúc

phân cấp

8 IBN Instance-Batch Normalization Chuan hóa theo thuc thé

va 16

9 IN Instance Normalization Chuan hóa thực thé

10 | BN Batch Normalization Chuan hóa lô

11 MLP Multi Layer Perceptron Perceptron da tang

12 | MSA Multi-head Self Attention Cơ chế chú ý đa ngữ cảnh

VI

Trang 10

13 PPA Progressive Proxy Adaptor Bộ điều hợp đại diện cụm

lũy tiễn

14 Re-ID Re-identification Tái định danh

15 ResNet Residual Network Mang phan du

16 | SOTA State-of-the-art Tién tién

17 | UDA Unsupervised Domain Adaptation | Thich ứng miền không

21 Contrastive Learning Huan luyén tuong phan

22 Residual Learning Huan luyén phan du

23 Residual Block Khối phan dư

24 Vanishing Gradient Mắt mát đạo hàm

25 Unsupervised Representation Huấn luyện biểu diễn

Learning không giám sát

26 k-reciprocal Nearest Neighbors k-d6i ứng láng giéng gan

nhat

vii

Trang 11

Chương 1 GIỚI THIỆU ĐÈ TÀI

CHƯƠNG 1: GIỚI THIỆU DE TÀI

1.1 Đặt van đề

Hiện nay, trong kỷ nguyên số hóa, Thị Giác Máy Tính (Computer Vision) đã

vươn lên trở thành một trong những lĩnh vực nghiên cứu và ứng dụng quan trọng

hàng đầu trong lĩnh vực trí tuệ nhân tạo Thị Giác Máy Tính cho phép máy tính hiểu

và diễn giải thông tin từ hình ảnh và video, tạo nền tảng cho nhiều ứng dụng đa dạng từ nhận diện khuôn mặt, xe tự lái, đến giám sát an ninh Tái định danh người

(Person Re-ID) là một trong những ứng dụng phô biến và thách thức trong lĩnh vực

`

này.

Tái định danh người đề cập đến quá trình xử lý nhận diện một người xuất hiện

trong các hình ảnh hoặc video được chụp từ các góc độ và camera khác nhau Yêu

cầu đầu vào của mô hình xử lý là một truy vấn của một người đã xuất hiện trong hệthống camera giám sát Theo như minh hoa của Hình 1.1, truy vấn của một người

có thê được thể hiện bằng hình ảnh, chuỗi video và thậm chí cả mô tả văn bản Mụctiêu đặt ra cho bài toán sẽ cho ra kết quả là những bức ảnh khác nhau của cùng một

người đó bất chấp sự thay đổi về trang phục, đi chuyên qua nhiều camera khác nhau

trong cùng hệ thống, và có thê bị che khuất một phần Việc giải quyết bài toán này

đem lại lợi ích thực sự cho các khu vực công cộng như sân bay, nhà ga, trung tâm

mua sắm, và các môi trường có yêu cầu an ninh cao Bên cạnh yêu cầu chính xáccao của bài toán, chúng ta còn phải giải quyết nhiều thách thức kỹ thuật phức tạpnhư điều kiện ánh sáng thay đổi, góc nhìn da dang, và sự biến đôi về ngoại hình của

đối tượng (như trang phục, phụ kiện).

Nghiên cứu về tái định danh người gần đây đang được đánh giá cao trong cộng

đồng khoa học Các phương pháp truyền thống dựa trên các đặc trưng thủ công màu

sắc, kết cấu và hình dạng đã được thay thế bởi các phương pháp học sâu tiên tiếnhon Mô hình học sâu không chỉ có khả năng biểu diễn đặc trưng mạnh mẽ từ tập dữliệu huấn luyện mà còn có thé tổng quát hóa tốt hơn trong các điều kiện khác nhau.Tiếp theo đó, nhiều hướng tiếp cận mới được hình thành, giúp cải thiện đáng kéhiệu năng của hệ thống tái định danh người

1

Trang 12

Mặc dù đã có những cải tiến đáng chú ý trong các nhiệm vụ tái định danh người

được giám sát thông qua nghiên cứu gần đây [12, 1ó, 22], việc phụ thuộc nhiều vàogan nhãn thủ công đã hạn chế đáng ké tính thực tiễn của các ứng dụng Vì vậy, việcthu thập hình ảnh người mà không gán nhãn đã thu hút nghiên cứu quan tâm đến bàitoán Person Re-ID không giám sát, giúp loại bỏ nhu cầu đánh nhãn dữ liệu

Có hai loại kỹ thuật huấn luyện không giám sát chính dé thực hiện bài toánPerson Re-ID Loại đầu tiên là thích ứng miền không giám sát (UDA), sử dụng các

phương pháp như [17], [20] và [25] Các phương pháp này dùng bộ dt liệu có nhãn trong miền nguồn để huấn luyện mô hình, sau đó áp dụng mô hình cho tập dữ liệu

chưa có nhãn trong miền đích Tuy nhiên, hiệu suất của các phương pháp UDA phụ

thuộc rất nhiều về kích thước và chất lượng của tập dữ liệu nguồn Loại thứ hai là

huấn luyện hoàn toàn không giám sát (USL), sử dụng các phương pháp như [3],

[18] và [6] Các phương pháp này tạo nhãn giả bằng cách phân cụm tập dữ liệukhông được gắn nhãn Mặc dù điều này có thê gây khó khăn cho việc huấn luyện

mô hình nhưng nó mang lại sự linh hoạt hơn vì không yêu cầu bất kỳ nhãn nhậndạng nào Do đó, cách tiếp cận USL Re-ID của chúng tôi là một hướng đi đầy hứa

hẹn, có giá trị thực tế trong việc nâng cấp hệ thống an ninh công cộng và hỗ trợ các

dịch vụ thông minh.

Các tiến bộ trong lĩnh vực này không chỉ giúp tăng cường hiệu suất và độ tincậy của các hệ thống giám sát mà còn mở ra nhiều ứng dụng mới, từ quản lý giaothông, hỗ trợ điều tra tội phạm, đến tăng cường trải nghiệm người dùng trong các

dịch vụ thương mại.

Trang 13

Truy xuất tuần tự

Mang lưới camera

quan sat

M6 hinh tải định danh người |

Hình 1.1 Tổng quan hệ thống tái định danh người không giám sát

1.2 Mô tả bài toán

Bài toán tái định danh người sử dụng hình ảnh có thé được mô tả như sau:

Cho trước một bộ dữ liệu hình ảnh người di bộ trích xuất từ camera nhận diệnngười tự động không có nhãn bao gồm nhiều ảnh khác nhau, mỗi ảnh chứa một

người trong khung hình được cắt ra từ cảnh quay Mục tiêu là phát triển một môhình dé tự động trích xuất các đặc trưng từ những hình anh này Đặc trưng ở đây lànhững yếu tố đặc biệt của mỗi người trong từng ảnh, và mô hình sẽ chuyển mỗi

hình ảnh thành một vector đặc trưng trong một không gian nhiều chiêu

Trong quá trình thử nghiệm, đầu vào sẽ là ảnh của một nguoi cu thé gọi là Iq

Mục tiêu của mô hình là tìm ra những hình ảnh ?; trong thư viện dữ liệu J cho trước

3

Trang 14

{], la, , Iv} có cùng một người với bức ảnh J, Quá trình thực hiện theo các bước

sau:

1 Trích xuất đặc trưng: Mô hình sẽ trích xuất đặc trưng từ cả hình anh cần

nhận diện và tất cả hình ảnh trong thư viện dữ liệu

2 Tính toán độ tương đồng: Độ tương đồng giữa các vector đặc trưng của ảnh

cân nhận diện và các ảnh trong thư viện sẽ được tính toán.

3 Xếp hạng: Những hình ảnh có độ tương đồng cao nhất sẽ được xếp hạng và

trả vê kêt quả cuôi cùng.

Như vậy, bài toán tập trung vào việc so sánh và xếp hạng dựa trên các đặc trưng

của hình ảnh, giúp xác định những bức ảnh có thé là của cùng một người trong thư

viện ảnh lớn.

Bài toán tái định danh người là một bài toán khó, đặc biệt trong trường hợp các

hình anh người đi bộ trong tập di liệu có nhiều thay đôi về góc nhìn, ánh sáng, bi

che khuất một phan, hậu cảnh, như minh họa trong Hình 1.2 Các mô hình học

sâu không giám sát hiện nay có thể đạt được hiệu năng khá tốt trong các bài toán táiđịnh danh người, nhưng tính bền vững (robustness) đối với sự đa dạng trên dữ liệu

đâu vào vân còn là một thách thức lớn.

Hình 1.2 Một số thách thức điền hình của bài toán tái định danh người

1.3 Mục tiêu và phạm vỉ nghiên cứu

Đề tài tập trung khảo sát một mô hình tái định danh người sử dụng mạng học

sâu với ham mat mát tương phản (contrastive loss) cho ca cap độ cụm (cluster-wise)

4

Trang 15

và cap độ thực thê (instance-wise) Chúng tôi sẽ nghiên cứu và đê xuât một phương pháp cải thiện hiệu năng của mô hình.

Đề thực hiện được mục tiêu này, chúng tôi sẽ thực hiện các bước nghiên cứu và

phát triển như sau:

e Khảo sát một số mô hình huấn luyện không giám sát mới gần đây sử dung

kiến trúc mạng ResNet và IBN-Net

e Phát triển các kỹ thuật tùy chỉnh tham số cho thuật toán phân cụm

(clustering) và cập nhật vector đặc trưng đại diện cho từng cụm (cluster).

e Thử nghiệm phương pháp mới trên hai bộ dữ liệu phổ biến cho bài toán tái

định danh người: Market-1501, và MSMT17.

e Metrics phô biến dé đánh giá hiệu năng mô hình: mAP (mean Average

Precision) và Rank-k.

1.4 Kết quả đạt được

Đề tài đã hiện thực thành công việc cải tiến một mô hình dựa trên backbone

ResNet và IBN-ResNet vói những hạng mục sau:

Kỹ thuật tùy chỉnh tham số: Phát triển kỹ thuật riêng biệt cho thuật toán phân

cụm trong đó xem xét khả năng tùy chỉnh tự động siêu tham số e dé thích nghi vớiphân bố vector đặc trưng sau mỗi vòng lặp huấn luyện Mô hình được huấn luyện

dé tối đa hóa sự giống nhau giữa các mẫu liên quan đồng thời mở rộng sự khác biệtgiữa các mẫu không liên quan Vì vậy, có thể tận dụng tối đa nguyên lý này thông

qua việc sử dụng một phương pháp tự động điều chỉnh tham số e của thuật toánphân cụm DBSCAN trong suốt các bước huấn luyện nhằm khai thác hiệu quả thông

tin đặc trưng của từng cụm.

Cập nhật vector đại diện cụm: Đề xuất phương pháp ước lượng độ biến độngcủa dữ liệu trong mỗi cụm Dựa vào độ biến động, cập nhật vector đại diện cho từngcụm (cluster proxy) thích nghỉ với sự thay đổi trong dữ liệu, nhằm nâng cao tínhhiệu quả của hàm mất mát cấp độ cụm Các phương pháp hiện tại ưu tiên xác định

điêm tham chiêu tôt nhât cho vector đại diện cụm không xem xét ước lượng mức độ

5

Trang 16

tương đồng trong nội bộ cụm (intra-cluster affinity level), có thé không đảm bảo thé

hiện toàn diện đặc trưng riêng biệt cho từng cụm khác nhau.

Thực hiện đánh giá: Sử dụng các độ đo như CMC (Cumulative Matching

Characteristics) và mAP (mean Average Precision) dé đánh giá hiệu năng phươngpháp đề xuất trên các bộ dit liệu tiêu chuẩn như Market-1501 và MSMT17 Kết quathực nghiệm được đối chiếu với các mô hình hiện tại để đánh giá tác động tích cựccũng như tính khả thi của đề tài

Công bố khoa học: Một bai báo đã được chấp nhận ở hội nghị quốc tế ACIIDS

2024 có tiêu đề “Anh-Vu Vo Duy, Quang-Huy Che and Vinh-Tiep Nguyen,

Adaptive Scheme of Clustering-based Unsupervised Learning for Person

Re-identification”.

1.5 BO cuc luan van

Luận văn này được trình bay chủ yếu trong 5 chương như sau:

Chương 1 trình bày tổng quan về van đề nghiên cứu, mục tiêu nghiên cứu, vàphương pháp tiếp cận Ngoài ra, chương này cũng nêu rõ lý do chọn đề tài cùng với

câu trúc luận văn.

Chương 2 tóm tắt các kiến thức nén tang, phân tích đánh giá một số điểm nồi

bật của các công trình nghiên cứu liên quan đên chủ đê của luận văn Tiệp theo đó,

hướng tiếp cận của luận văn sẽ được giới thiệu khái quát trong chương này

Chương 3 trình bày framework nén tang, từ đó dua ra phương pháp tích hợpphương pháp đề xuất vào framework nền tảng Phần này trình bày chỉ tiết các

phương pháp nghiên cứu được áp dụng trong luận văn, bao gồm mô hình trích xuất

Trang 17

nghiệm được phân tích và thể hiện trong bảng biểu, đồ thị và các hình thức trực

triển cùng với hoạt động nghiên cứu Bên cạnh đó, hình ảnh minh họa giao diện và

cách sử dụng cũng được giới thiệu.

Trang 18

Chương 2 KIEN THỨC NEN TANG VÀ CÁC CÔNG TRÌNH LIEN QUAN

CHUONG 2: KIÊN THUC NEN TANG VÀ CAC CÔNG

TRINH LIEN QUAN

2.1 Mang hoc sau tich chap (Convolutional Neural Network - CNN)

Mang hoc sau tich chap dat nhiều thành tựu trong thị giác máy tính như nhận

diện và phân loại đối tượng, phân đoạn ảnh, và phát hiện đối tượng Các thành phần

chính của CNN gồm:

1 Tích chập (Convolution): Lớp này trích xuất các đặc trưng từ hình ảnh bằng

cách áp dụng các bộ loc (kernels) di chuyển qua từng phan của ảnh

2 Kích hoạt (Activation): Thường dùng hàm kích hoạt ReLU đề thêm tính phi

tuyên vào mô hình.

3 Lay mẫu (Pooling): Giảm kích thước của đặc trưng (thường dùng Max

Pooling), giúp giảm số lượng tham số và tăng hiệu quả tính toán.

4 Kết nối đầy đủ (Fully Connected): Lớp cuối cùng liên kết toàn bộ các đặc

trưng đã trích xuât đê đưa ra dự đoán cuôi cùng.

Sau khi CNN đã trở thành nền tảng cho nhiều tiến bộ vượt bậc trong thị giácmáy tính, các nhà nghiên cứu tiếp tục cải tiền kiến trúc này nhằm giải quyết van đềsuy giảm độ chính xác khi mạng trở nên quá sâu Trong bối cảnh đó, mạng học sâu

ResNet ra đời.

2.1.1 Mang hoc sâu ResNet

ResNet, viết tắt của "Residual Network," là một loại mạng học sâu (DeepLearning Neural Network) được Kaiming He và các đồng nghiệp giới thiệu trong

năm 2015 qua bài báo "Deep Residual Learning for Image Recognition" tại hội nghị

CVPR ResNet đã đánh dấu một bước ngoặt trong lĩnh vực học sâu và đã giành giải

thưởng ImageNet Large Scale Visual Recognition Challenge (ILSVRC) vào năm

2015.

Trước khi ResNet xuất hiện, một trong những khó khăn lớn nhất khi xây dựngmạng học sâu là vấn đề mất mát đạo hàm (vanishing gradient) Khi huấn luyện, giá

8

Trang 19

trị đạo hàm của ham mat mát là thông tin phan hôi của quá trình lan truyên ngược Khi mang trở nên quá sâu, tại các lớp nơ-ron đâu tiên, giá tri này giảm xuông rat

nhỏ, khiến cho việc cập nhật trọng số trở nên bat khả thi

ResNet giải quyết van dé này bằng cách giới thiệu một khái niệm gọi là huấnluyện phần dư (residual learning) Thay vì học một ánh xạ trực tiếp từ input đếnoutput, ResNet học phan du (residual) giữa input và output Y tưởng này được thực

hiện bang cách thêm các kết nối tat (skip connections) đồng nhất dé xuyên qua một

hay nhiều lớp trong mạng Một khối như vậy được gọi là một khối phần dư như

trong Hình 2.1 dưới đây:

weight layer

weight layer H(x) = F(#) +x @

x

identity

F(x)

Hinh 2.1 Mot khéi phan dư được sử dung trong ResNet [26].

Gia sử input là x, thay vi học một ánh xa H(x), ResNet hoc ánh xạ phan dưF(x) = H(x) — x Do đó, ánh xạ ban đầu sẽ trở thành H(x) = F(x) +x

Mang ResNet được xây dựng bằng cách xếp chồng nhiều khối phan dư Mộtkhối phần dư cơ bản bao gồm hai lớp convolutional (Conv), mỗi lớp theo sau là mộtlớp batch normalization (BN) và một hàm kích hoạt ReLU, cùng với một đường dẫntắt kết nói trực tiếp input đến output

Ví dụ về một khối residual cơ bản:

Input -> [Conv -> BN -> ReLU -> Conv -> BN] + Input ->

ReLU -> Output

Nhiều biến thé khác của kiến trúc ResNet đã được giới thiệu sau đó Các nghiên

cứu cho thây những kiên trúc mới có thê huân luyện mạng nơ-ron với độ sâu lên

Trang 20

đến hàng nghìn lớp Vì tính hiệu quả của nó, ResNet đã nhanh chóng trở thành kiếntrúc phô biến nhất cho những bài toán liên quan đến thị giác máy tính

2.1.2 Mạng học sâu IBN-ResNet

IBN-ResNet (Instance Batch Normalization ResNet) [15] cải thiện hiệu năng

trong bài toán tái định danh người so với ResNet chủ yếu do cách xử lý tốt hon sự

thay đổi trong hình ảnh của một người, như ánh sáng, góc nhìn, và tư thế Dưới đây

là những lý do chính:

1 Kết hợp hai phương pháp chuẩn hóa: IBN-ResNet sử dụng một kỹ thuật

kết hợp giữa chuẩn hóa thực thé (Instance Normalization - IN) và chuẩn hóa

lô (Batch Normalization - BN) như Hình 2.2 dưới đây IN giúp giảm sự khác

biệt về màu sắc và ánh sáng của ảnh, trong khi BN giữ lại thông tin thống kêquan trọng của dữ liệu Bằng cách kết hợp cả hai, IBN-ResNet có thể học

được đặc trưng tốt hơn từ hình ảnh, giúp nhận diện người chính xác hơntrong các tình huéng khác nhau

(a) original (b) IBN-a (c) IBN-b

Hình 2.2 Kiến trúc mang IBN [15] thay đổi từ ResNet

2 Đặc trưng bat biến với sự thay đổi: IN đặc biệt hữu ích trong việc loại bỏ

sự khác biệt không liên quan giữa các hình ảnh, như sự thay đổi về ánh sáng

10

Trang 21

và màu sắc Điều này quan trọng trong tái định danh người vì nó giúp môhình tập trung vào các đặc trưng quan trong dé phân biệt từng người, thay vi

các yêu tô ngoại cảnh.

3 Khả năng tổng quát hóa tốt hơn: Việc sử dụng IBN giúp mô hình

IBN-ResNet tổng quát hóa tốt hơn khi gặp các môi trường và điều kiện khác nhau,một yếu tố quan trọng trong bài toán tái định danh người, nơi mà các hình

ảnh thường được chụp từ nhiều góc độ và điều kiện ánh sáng khác nhau

4 Cau trúc mạnh mẽ của ResNet: IBN-ResNet vẫn giữ lại cau trúc cơ bản

của ResNet, nôi tiêng với khả năng học các đặc trưng sâu và tránh hiện tượng biên mat gradient trong quá trình huân luyện Điêu này đảm bảo mô hình có

thê học được các đặc trưng phức tạp cần thiết cho bài toán tái định danh

Hiệu năng cao hơn của IBN-ResNet so với ResNet đã được chứng minh trong

các nghiên cứu và bài báo về tái định danh người, như việc sử dụng nó trong các bộ

dữ liệu phức tạp với nhiều sự thay đổi về ánh sáng và môi trường

2.2 Thuật toán phân cụm DBSCAN

Phân cụm là một kỹ thuật quan trọng trong bài toán huấn luyện tái định danh người không giám sát nhằm tìm kiếm các cấu trúc ân trong tập dữ liệu hình ảnh của

nhiều người khác nhau Khi không có nhãn dữ liệu, phân cụm giúp nhóm các đốitượng tương đồng lại với nhau và gán nhãn giả dựa trên một số đặc trưng chung.Các phương pháp dựa trên phân cụm dan trở thành mô hình huấn luyện chính thống

để đạt được hiệu năng cao So với K-Means, thuật toán DBSCAN có ưu điểmkhông cần biết trước số cụm, có thể tìm ra các cụm có hình dạng tùy ý và phát hiện

điểm nhiễu (noise)

Ý tưởng chính đằng sau DBSCAN là có một số lượng điểm tối thiểu sẽ nằm

trong khoảng cách hoặc bán kính xác định từ điểm cụm "trung tâm" nhất, được gọi

là điểm lõi Các điểm trong bán kính đó là các điểm lân cận và các điểm ở rìa củavùng lân cận đó là các điểm biên hoặc điểm ranh giới Bán kính hoặc khoảng cách

vùng lân cận được gọi là vùng lân cận epsilon, hoặc đơn giản là ký hiệu của chữ cái

II

Trang 22

Hy Lạp e Ngoài ra, khi có các điểm không phải là điểm lõi hoặc điểm biên vì chúngvượt quá bán kính dé thuộc về một cụm xác định và cũng không có sé luong diém

tối thiểu dé trở thành điểm lõi, chúng được coi là điểm nhiễu

Hình 2.3 cung cấp một ví dụ trực quan với cài đặt số điểm lân cận tối thiểuMinPts = 3 trong bán kính e Một “vùng dày đặc” được tao ra bởi số lượng tốithiểu các điểm lõi màu đỏ trong khoảng cách giữa tất cả chúng, e Các điểm màuxanh lá cây nằm trong khoảng cách này nhưng không gần với số lượng tối thiểu các

điêm khác được coi là diém biên Điêm màu xanh biên còn lại là nhiều.

Hình 2.3 Các điềm lõi, biên và nhiễu theo DBSCAN

Như tên gọi của nó, DBSCAN thực hiện phân cụm dựa trên mật độ Các bước

của thuật toán được tóm tắt như sau:

1 Khởi tạo: Chọn một điểm dữ liệu chưa được thăm

2 Mở rộng cụm: Nếu điểm đó có ít nhất MinPts điểm lân cận trong bán kính e,

tạo một cụm mới hoặc thêm vào cụm hiện có.

3 Tiếp tục: Tiếp tục mở rộng cụm cho đến khi không thé thêm điểm nào nữa

vào cụm đó.

4 Lặp lại: Lặp lại cho các điểm đữ liệu chưa được thăm

12

Trang 23

Lưu ý khi áp dụng thuật toán DBSCAN, hai thông số e và MinPts cần xác định

trước, nên hiệu chỉnh siêu tham sô là cân thiệt dé cải thiện hiệu năng khi các cụm có

Bảng 2.1 Các ký hiệu và ý nghĩa tương ứng

Fo Mang hoc sau dua trén kiến trúc ResNet có bộ tham sô Ø

f(.) Ham trích xuất đặc trưng

+ Không gian đặc trưng được trích xuất từ f(.)

Rẻ Tập hợp các vector thực có đ chiều

PxK Lô dữ liệu nhỏ (Mini-batch) được trích ra từ tập dữ liệu huấn luyện

có P định danh và K ảnh cho mỗi định danh

Trang 24

X

exp(x) e

eps Bán kính phân cụm ¢ trong thuật toán DBSCAN

Cy Vector dai diện cụm cùng định danh với thực thé dang xét

C¡ Vector đại diện cụm có định danh thứ i

SE Thuc thé gan nhất với vector đại diện cum so với toàn bộ thực thé

cùng nhãn trong mini-batch

SiR Thực thé gần với thực thé sz nhất có cùng nhãn trong mini-batch

sim(u,V) Độ tương dong giữa hai vector đặc trưng u va v, mặc định sử dụng độ

tương đồng cosin dé tính toán giá tri trong khoảng [-1,1]

s* Thuc thé tham chiéu dé cập nhật vector đại diện cum

te; Vector dai diện cum thứ i

hij Vector đặc trưng của thực thé thứ j trong cum thứ i_Lebass Hàm mat mát cap độ cụm

Linstance | Hàm mat mát cấp độ thực thê

2.3.2 Framework nền tang

Các công trình nghiên cứu tái định danh người hoàn toàn không giám sát gần

đây đặt mục tiêu khai thác các nhãn giả từ việc phân cụm và áp dụng phương pháp

huấn luyện tương phản đã cho thấy hiệu suất tuyệt vời trong việc huấn luyện biểu

diễn không giám sát [33, 34, 35].

Mặc dù huấn luyện tương phản cấp độ cụm [3] đã đạt được hiệu suất ấn tượng,phương pháp huấn luyện tương phản chỉ ở cấp cụm không xem xét mối quan hệgiữa các mẫu khó (hard samples) ở cấp độ thực thê

14

Trang 25

Vì vậy, công trình nghiên cứu [8] trình bày một kỹ thuật huấn luyện tương phảnlai là sự kết hợp của hai hàm mat mát cấp độ cụm và cấp độ thực thê đối chiếu vớimẫu khó được minh họa trong Hình 2.4 dưới đây.

Lan truyền ngược - ca S

nh ann nan Vector đặc trưng với nhãn giả

! DBSCAN (eps, MinPts) † |

Tập dữ liệu huấn ' £ ‘

luyện không nhãn ' class <—— Si Be = Ee

Vector dac trung 2048 ¬ R a Echiều Bộ nhớ đại diện cụm Bộ nhớ thực thê

Mô hình này hoạt động theo trình tự như sau:

1 Dữ liệu đầu vào: Mô hình này được huấn luyện trên tập dữ liệu không có

nhãn Điều này có nghĩa là nó không cần thông tin về danh tính cụ thể của

từng người trong tập huấn luyện

2 Bộ mã hóa vector đặc trưng Fg: Mô hình sử dụng một mạng học sâu dựa trên

kiến trúc ResNet dé trích xuất các đặc trưng từ ảnh đầu vào Mỗi ảnh được

ánh xạ thành một vector đặc trưng có kích thước 2048 chiều.

3 Phân cụm sinh nhãn giả (pseudo labels): DBSCAN là một thuật toán phân

cụm không giám sát DBSCAN sẽ nhóm các vector đặc trưng đầu ra từ thànhcác cụm dựa trên mật độ Những cụm này sẽ được sử dung dé tạo nhãn giảcho các ảnh trong tập huấn luyện Điều này giúp mô hình giả định nhãn cho

các ảnh, mặc dù ban đâu tập dữ liệu không có nhãn.

15

Trang 26

4 Bộ nhớ đại diện cum (Cluster Memory) và bộ nhớ thực thể (Instance

Memory): Bộ nhớ đại diện cụm lưu trữ các vector đại diện cụm được tính từ

thông tin vector đặc trưng của toàn bộ thực thể trong cùng cụm Bộ nhớ thực

thể lưu trữ các vector đặc trưng của từng ảnh riêng lẻ Mỗi màu khác nhauthể hiện cho từng nhãn giả được gán cho các vector đó sau khi phân cụm

5 Hàm mat mát (loss function): Mô hình sử dụng nhãn giả từ DBSCAN cung

cấp dé tính hai hàm mat mát trong đó £„¡zs đo lường sự khác biệt giữa dữliệu huấn luyện được truy xuất theo từng lô nhỏ (mini batch) và toàn bộ dữ

liệu trong bộ nhớ đại diện cụm, Linstance đo lường sự khác biệt giữa dữ liệu

trong mini batch và toàn bộ mẫu khó của từng cụm.

6 Lan truyền ngược (Backpropagation): Tối ưu hóa bộ tham số của mạng học

^

sau.

Theo như đánh giá cao về mô hình này có khả năng duy trì đồng thời đặc trưng

toàn cục và cục bộ, chúng tôi đã lựa chọn [8] làm mô hình cơ sở để nghiên cứu cải

thiện hiệu năng mô hình.

2.3.3 Phương pháp huấn luyện không giám sát

DBSCAN dựa nhiều vào các phép đo khoảng cách trong không gian đặc trưng,

và nêu không gian đặc trưng không tốt, kết quả phân cụm có thé không chính xáchoặc không có ý nghĩa Vì vậy, quá trình phân cụm cần được lặp lại kết hợp với

huấn luyện biểu diễn không giám sát (unsupervised learning) dé tối ưu không gianđặc trưng của dữ liệu Điều này đặc biệt hữu ích nếu không gian đặc trưng ban đầu

không tách biệt rõ các cụm Theo đó, hàm mất mát tương phản (contrastive loss)thường được áp dụng trong các phương pháp huấn luyện tương phản (contrastivelearning) Mục tiêu chính của những hàm mất mát này là tối đa hóa khoảng cách

giữa các thực thé không cùng cụm (negative samples) và giảm thiểu khoảng cách

giữa các thực thể cùng cụm (positive samples) trong không gian biểu diễn đặc

trưng.

16

Trang 27

Hàm mắt mát InfoNCE [36]

InfoNCE là một dạng hàm softmax kết hợp với một cơ chế huấn luyện tương

phản, nơi mà một mâu dương (liên quan) được so sánh với nhiêu mau âm (không

liên quan) nhằm tối đa hóa xác suất phân loại đúng mẫu dương thông qua công thức

4 là biểu diễn của một mẫu dữ liệu

klà biểu diễn của mau dữ liệu có liên quan với g, ví dụ như một phiên bantăng cường của mẫu gốc

k; là biểu diễn của các mẫu không liên quan với g

sim(q, &) là hàm tính toán độ tương đồng giữa hai vector q và k, thường làdot product hoặc độ tương đồng cosin

K là số mau dữ liệu không liên quan

Ý nghĩa:

Tử số: Biéu diễn sự tương đồng giữa g và mẫu liên quan Mô hình cô găng

tôi đa hóa giá trị này, tức là làm cho các cặp liên quan có độ tương đồng cao hơn.

Mẫu số: Gồm tong của độ tương đồng giữa g và mẫu liên quan lẫn các mẫu

không liên quan Mô hình cô găng tôi thiêu hóa giá trị này băng cách giảm

độ tương đồng giữa g và và các mẫu không liên quan.

Hình 2.5(b) minh hoa SPCL [6] tính toán InfoNCE loss tại cấp độ cụm

(cluster-wise InfoNCE loss) như sau:

17

Trang 28

exp(q - c+/t)

L„=-logc—— ——

" ook exp(q - cx /T)

Trong đó {c1, c2, , cx} là những vector đặc trưng của trọng tâm cum (cluster

centroids) và K thể hiện số lượng cụm + là một tham số nhiệt độ (temperatureparameter) điều khién mức độ mềm của phân bố xác suất trên từng lớp Khi 7 nhỏ,

mang sé trở nên nhạy hơn với các khác biệt nhỏ giữa các độ tương dong.

[6] sử dụng trọng tâm cụm làm vectơ đại diện cụm dé tính toán khoảng cách

giữa mẫu truy vấn q và tat cả các cum c+ là đặc trưng cụm liên quan mà ¿ thuộc về

Trọng tâm cụm được tính theo giá tri vector trung bình của toàn bộ thực thể cùng

Nhưng tương tự Hình 2.5(a) multi-lable classification loss, nó lưu trữ toàn bộ

vector đặc trưng của toàn bộ thực thể hình ảnh trong bộ nhớ từ điển (memorydictionary) Cac vector đặc trưng này được lưu trữ sau đó được cập nhật băng đặctrưng của hình ảnh truy vấn tương ứng theo Hình 2.5(b)

update date date

= — update pc average update

query ——| ——— > —— | ES —ứt= query KEEETI E————- query pm

E===—n —- we dictionary dictionary dictionary dictionary (instance feature) (instance feature) (cluster centroid) (cluster feature)

(a) Multi-label classification loss (b) Instance level InfoNCE loss (c) Cluster NCE loss

Hình 2.5 So sánh ba phương pháp tính hàm mat mát tương phan cấp độ cụm [3]

Hàm mắt mát tương phản cấp độ cụm Cluster NCE [3]

18

Trang 29

Ngược lại, ở Hình 2.5(c), Cluster Contrast [3] dé xuất tính toán hàm mat máttương phản cấp độ cụm Cluster NCE như sau:

exp( : Ð,/+)

Lạ = —ÌOB8cg————

4 F_ exp( - bx/T)

Trong đó ở, là vector đặc trưng riêng biệt đại diện cho cụm thứ k Nó cập

nhật cả những vector đặc trưng và tính toán mất mát trên cấp độ cụm, tạo ra

sự khác biệt đáng ké so với các phương pháp tinh mat mát trước đó.

2.3.2 Một số nghiên cứu liên quan

Huấn luyện hoàn toàn không giám sát cho mạng học sâu trên bài toán tái định

người đang nhận được sự quan tâm cúa các công trình nghiên cứu gần đây vì tínhhiệu quả về thời gian và nguồn lực triển khai cho dữ liệu giám sát hình ảnh ngườikhông nhãn so với yêu cầu gán nhãn của nhiệm vụ huấn luyện giám sát và bán giám

Z

sát.

Về mặt hình thức của bài toán tái định đanh người không giám sát, cho trước

đầu vào X = {x;}%, biểu thị bộ đữ liệu huấn luyện không nhãn, trong đó x; là một

hình ảnh một người thuộc về một định danh và n là số lượng hình ảnh Mục tiêu củabài toán cần huấn luyện theo cách không sử dụng nhãn cho một mô hình trích xuấtkhông gian đặc trưng F = f(0;x) để chiếu một hình anh x; tới vùng không gian dchiều của vector đặc trưng f € E“ Mô hình sau khi huấn luyện có kha năng biểu

diễn các vector đặc trưng của cùng định danh sẽ gần nhau trong không gian đặc

trưng nhất có thé, đồng thời các cụm chứa các thực thé của cùng một định danh sẽcách xa nhau nhất có thể Nhờ đó, hệ thống truy xuất có khả năng trả về hình ảnh

của người được tìm kiêm với mức độ tương đồng cao nhât có thê.

Phần lớn các phương pháp [1, 3, 5, 6, 9, 10] đề xuất thực thi chiến lược haibước lặp tuần tự:

19

Trang 30

1 Gan nhãn giả Y =(y/, y2, , Yn} của các hình ảnh huấn luyện thông qua

thuật toán phân cụm, chăng han Kmeans [30] hoặc DBSCAN [18] Trong đó,

yi € {1,2, , C} và C là số lượng nhãn giả.

2 Tối ưu hóa mô hình với bộ dữ liệu được gắn nhãn X’ = {(¡, y¡), (x2, y2), ,

(Xn, Dưới đây chúng tôi tom lược các điểm nổi bật của các phương pháp trên trong

Yn)}-nhiệm vụ tôi ưu hóa mô hình cùng với nhận xét.

Ge và cộng sự [6] đề xuất sử dụng bộ nhớ hỗn hợp dé lưu trữ vector đặc trưngcủa các đối tượng từ các miền dữ liệu khác nhau, qua đó tăng cường khả năng huấnluyện thích ứng miền mà không cần nhãn Tuy nhiên, nhược điểm của phương phápnày là quá trình học có thé diễn ra chậm do cần phải điều chỉnh độ khó dần dan, vàyêu cầu tài nguyên bộ nhớ lớn khi xử lý dữ liệu quy mô lớn

Do đó, để giải quyết vấn đề của [6] chúng tôi đề xuất phương pháp huấn luyện

hoàn toàn không giám sát không sử dụng dữ liệu trên miền nguồn, thay vào đó sử

dụng hoàn toàn dữ liệu không nhãn trên miền đích dé tối ưu tốc độ xử lý và tài

nguyên tính toán.

Chen và cộng sự [1] sử dụng huấn luyện tương phản giữa các thực thé khácnhau của cùng một đối tượng Phương pháp này không yêu cầu nhãn và tận dụngcác kỹ thuật tăng cường dé tạo ra các phiên bản đa dang, qua đó cải thiện khả năngphân biệt giữa các danh tính Tuy nhiên, việc phụ thuộc vào tăng cường có thê tạo

ra những thay đổi không tự nhiên, làm giảm hiệu quả khi nhận diện với các đối

tượng có độ tương đồng cao

Trong khi đó, Dai và cộng sự [3] cũng dựa trên huấn luyện biểu diễn tương

phản nhưng thực hiện trên các cụm cùng định danh Các tác giả tính toán hàm mất

mát tương phản và cập nhật bộ nhớ ở cấp cụm thay vì cấp thực thé, cải thiện các

phương pháp không giám sát trước đây Bên cạnh đó, cập nhật động lượng được sử

dụng dé cung cố thêm tinh nhất quán của việc biểu diễn các vector đại điện cụm.Bằng cách này, phương pháp giúp tăng tinh ôn định và hiệu quả phân biệt giữa các

20

Trang 31

nhóm đối tượng trong dữ liệu lớn Tuy nhiên, hiệu suất của phương pháp này có thé

bị ảnh hưởng bởi việc phụ thuộc hoàn toàn vào quá trình phân cụm tạo nhãn giả.

Dé giải quyết những thách thức tổn tại của [1] và [3], chúng tôi đề xuất kết hợpham mất mát tương phản cấp cụm và cấp thực thé Sự kết hợp ham mat mát tươngphan cấp cụm và cấp thực thé giúp mô hình học được cả đặc trưng chung cho cụm

và sự khác biệt chỉ tiết giữa các thực thé Hàm mất mát cấp cụm tối ưu hóa việc

phân cụm, còn ham mat mát cấp thực thé đảm bảo phân biệt rõ các thực thể riêng lẻ.Điều này cải thiện hiệu suất phân loại và phân cụm, đặc biệt trong các cụm phức

tạp.

Một cách tiếp cận khác là từ nghiên cứu của Isobe và cộng sự [9], trong đó việchuấn luyện các đại diện phân biệt qua một mạng nơ-ron đa giai đoạn Phương phápnày có khả năng học các đặc trưng mạnh mẽ, giúp cải thiện hiệu suất phân biệttrong tái định danh, nhưng quá trình huấn luyện phức tạp và tốn thời gian

Cuối cùng, phương pháp do Luo và cộng sự [36] đề xuất sử dụng mô hìnhTransformer được huấn luyện tự giám sát Phương pháp này khai thác khả năng của

Transformer trong việc học các mối quan hệ dài hạn giữa các đối tượng, g1úp cải

thiện hiệu suất mà không yêu cầu nhãn Tuy nhiên, mô hình Transformer đòi hỏi tàinguyên tính toán lớn và cần lượng dữ liệu lớn dé đạt hiệu quả tối ưu Vì vay, xem

xét trén phuong dién nguồn lực rộng rãi cho ứng dụng thực tẾ, mạng tích chập CNN

vân được ưu tiên cho hướng tiép cận cua đê tài.

Theo các nghiên cứu trên, phương pháp phân cụm tạo nhãn giả với thuật toán

DBSCAN thẻ hiện ưu thế vượt trội và trở thành mô hình chủ đạo hiện tại để giảiquyết bài toán tái định danh không giám sát Do đó, chúng tôi sẽ tiếp tục kế thừa sửdụng thuật toán DBSCAN dé phân cụm các đặc trưng Tuy nhiên, ngưỡng của thuậttoán phân cụm thay vì chọn cô định, chúng tôi sử dụng kỹ thuật tùy chỉnh tham số

tự động trong suốt quá trình huấn luyện.

21

Trang 32

Chương 3 PHƯƠNG PHAP DE XUẤT

CHƯƠNG 3: PHƯƠNG PHÁP ĐÈ XUẤT

3.1 Tổng quan về phương pháp đề xuất

Phương pháp đề xuất của chúng tôi có tên gọi là ASCUL bao gồm hai thànhphần chính như sau:

1 Bộ điều chỉnh bán kính phân cụm (CRR): Tính toán tham số bán kính vùng

lân cận ¢ của thuật toán DBSCAN vào đầu mỗi vòng lặp huấn luyện Việctính toán theo hướng giảm dần tuyến tính giúp thuật toán này phân cụm tạonhãn giả hiệu quả hơn đối với sự thay đổi của sự phân bố vector đặc trưng

trong không gian.

2 Bộ điều hợp đại diện cụm lũy tiến (PPR): Tính toán vector đại diện cụm có

thông tin đặc trưng mang tính tổng quát hóa cao cho các mẫu đại diện cụm.Vector đại diện cụm được cập nhật thông qua thông số ngưỡng ước lượngmức độ biến động nội bộ cụm trước khi đưa vào tính toán hàm mat máttương phản cấp độ cụm như là một phần của mỗi vòng lặp huấn luyện Tínhtổng quát hóa tốt hơn của vector đại diện cụm ảnh hưởng tích cực đến hiệuquả của hàm mat mát tương phản cấp độ cụm, từ đó giúp mô hình hội tụ tốt

hơn.

Hình 3.1 minh họa sự tích hợp của các thành phan này vào framework nền tảngđược giới thiệu ở phần 2.3.2 Dữ liệu huấn luyện không nhãn được cung cấp có nhình ảnh người Mục tiêu là huấn luyện một mô hình có thé phân biệt danh tinh vàkhái quát hóa tốt Mô hình huấn luyện của chúng tôi tuân theo quy trình dựa trênphân cụm được áp dụng rộng rãi, lặp lại giữa huấn luyện mạng thông qua sử dụng

bộ nhớ vector đại diện cụm và vector đặc trưng của toàn bộ thực thể để huấn luyện

tương phản và phân cụm tạo nhãn giả Bộ mã hóa được khởi tạo với mô hình dựa

trên kiến trúc ResNet50 được huấn luyện trước trên ImageNet Các đặc trưng được

mã hóa của tất cả các thực thể thông qua mô hình này được sử dụng để xây dựng bộnhớ thực thể, từ đó khởi tạo bộ nhớ vector đại điện cụm Sau khi khởi tạo, mô hình

đề xuất của chúng tôi sẽ thực hiện các thay đôi so với framework nền tảng trong haigiai đoạn phân cụm và huấn luyện tương phản như sau:

22

Trang 33

Chương 3 PHƯƠNG PHÁP ĐÈ XUẤT

Giai đoạn phân cụm được thực hiện vào đầu mỗi epoch Sau đó, các đặc trưngđầu ra của mạng được DBSCAN phân loại, phân biệt các trường hợp đủ điều kiện

dé phân cụm và các trường hợp ngoại lệ vẫn chưa được phân cum Sự phân loại này

được xây dựng bằng cách đánh giá các cặp hệ số tương đồng Jaccard [23] Kết quả

sinh ra là tập nhãn giả (pseudo labels) Ÿ = His ¥, €[1, Ne] trong đó Np, Nẹ là

số lượng mau và số lượng định danh tương ứng Tập nhãn giả thu được sẽ được gan

cho các đặc trưng hợp lệ CRR điều chỉnh tham số ¢ của thuật toán phân cum

DBSCAN giảm dan dé thích ứng voi sự phân bố đặc trưng trong từng cụm Vectơđại diện của mỗi cụm được gán bằng giá tri trung bình của các vectơ đặc trưng

trong cùng cụm ở epoch dau tiên.

Chuyén sang giai đoạn huấn luyện, một bộ lay mẫu ngẫu nhiên được áp dung déchia tập huấn luyện thành các lô dữ liệu gọi là mini-batch bao gồm P nhãn giả.Trong mỗi lớp có nhãn giả, có K tam hình Sau đó, các truy van này được đưa vào

mạng qua nhiều vòng lặp Tại thời điểm này, PPA thực hiện cập nhật động lượngcủa các vectơ đại diện cụm bằng cách sử dụng chiến lược khai thác thích ứng các

mau phù hợp với biến động nội bộ của từng cum

Cuối cùng, toàn bộ mang được huấn luyện bằng ham mat mat [8] kết hợp L¡zs;

mat mát cap cụm và hàm mất mát cấp thực thé đối chiếu với mẫu khó Linstance như

một phân của quá trình lan truyên ngược của việc huân luyện mô hình.

Trang 34

tự, Ci và Zharq biêu diễn cho vector đại diện cụm va mâu khó của cụm thứ i Hệ sô A

được gan giá tri 0.5 thé hién viéc can bang trong số cho hai ham mat mát

Bộ Điều Chỉnh

ae h Vector đặc trưng với nhãn =

Ban Kinh Phan Cum

Lane <— IHIE IH

Bộ nhớ đại cụm Bộ nhớ thực thê

Dữ liệu huan

luyện không nhãn

Min:batch ! eesti L instance-4 _

Lan truyén ngược

Mẫu khó

Hình 3.1 Lược đồ huấn luyện mô hình của phương pháp ASCUL

Thuật toán của chương trình được tóm tắt như sau:

Thuật toán huấn luyện mô hình của phương pháp ASCUL

Input Dataset D chưa gan nhãn

Mô hình Fo với kiến trúc mạng ResNet được huấn luyện trước trên tập

ImageNet

Giá tri khởi tạo cho bộ nhớ lưu trữ cho đại diện cụm Mcis và từng mẫu

Mins

Output | Mô hình được huấn luyện Fg

Lặp epoch = 1 đến số epoch yêu cầu

Trích xuất đặc trưng F dé mã hóa toàn bộ các ảnh trong D

Tính bán kính phân cụm theo Công thức 3.4

Sử dụng DBSCAN chia tất cả đặc trưng thành C cụmLặp iter = 1 đến số vòng lặp yêu cầu

Chon ra một mini-batch P x K của các ảnh truy van đã được gán

nhãn giả từ tập dữ liệu D

7: Đưa vào mô hình dé trích xuất đặc trưng cho các ảnh trong

mini-batch

24

Trang 35

8: Tính toán hàm mắt mát theo Công thức 3.3 và lan truyền ngược

số DBSCAN [5] là phương pháp dựa trên mật độ không yêu cầu số lượng cụm,

điều này làm cho nó trở nên phổ biến trong tái định danh người không giám sát

Tuy nhiên, cần phải xác định hai tham số, ¢ (bán kính phân cụm vùng lân cận xung

quanh một điềm dữ liệu) và MinPts (số lượng điểm lân cận tối thiểu trong bán kính

eps).

Giá trị tối ưu của ¢ phụ thuộc vào mật độ va sự phân bố của tập dữ liệu Cheng

và cộng sự [1] gan các giá trị khác nhau cho tham số cụm e cho các tập dữ liệu khác

nhau, chăng hạn như 0,5 trên Market1501 va 0,6 trên MSMT17, trong khi các giá trị

mặc định là 0.6 trong công trình [3] Nhìn chung, các tham số cụm thường được laytheo thực nghiệm là các giá trị có định tối ưu [2, 6, 8] Tuy nhiên, cách tiếp cận này

dé thiết lập các tham số cụm có thé dẫn đến sự không phù hợp giữa các tham số và

đặc tính không gian phân bố đặc trưng, được gọi là vấn đề sai lệch đặc trưng Một

mặt, như Hình 3.2 cho thấy, trong giai đoạn dao tạo, khoảng cách trong nội bộ cum

giảm, trong khi khoảng cách giữa các cụm tăng và theo đó, mật độ của mỗi cụm

25

Trang 36

tăng lên Mặt khác, tham số bán kính phân cụm ¢ của DBSCAN là ngưỡng khoảngcách xác định xem hai trường hợp lân cận có cùng cụm hay không, biểu diễn mật độ

của các cụm Do đó, ¢ được cho là có khả năng thích ứng với phân phối dé thúc đây

thuật toán phân cụ tạo ra các nhãn giả chất lượng cao Việc không thể tùy chỉnh bánkính phân cụm trong quá trình huấn luyện có thê bỏ sót các đặc trưng có thông tin

(a) epoch 1 (b) epoch 30 (c) epoch 50

Hình 3.2 Khoảng cách giữa các cum xa hơn và các đặc trưng cùng cụm gần hơn sau một

số epoch

3.2.2 Chỉ tiết phương pháp

Để giải quyết van dé này, chúng tôi đề xuất một phương pháp mới dé điềuchỉnh tham số tự động cho DBSCAN gọi là “Bộ điều chỉnh bán kính phân cụm”(CRR) để giảm dần bán kính phân cụm trong quá trình huấn luyện Thuật toán của

nó dần dần tinh chỉnh các cụm khi nó năm bắt được nhiều ngữ cảnh chứa thông tin

hon ở các giai đoạn huân luyện trước đó.

Tham số ¢ trong DBSCAN đóng vai trò quan trọng trong việc xác định vùng lâncận của một điểm dữ liệu ¢ xác định bán kính trong đó một điểm dữ liệu được coi

là điểm lõi, nghĩa là nó có đủ số lượng lân cận dé tạo thành một vùng dày đặc Việcchọn e nhỏ có thé khiến nhiều điểm dữ liệu bị phân loại là nhiễu, dẫn đến các cum

bị phân mảnh Điều này có thể gây khó khăn cho việc nhận dạng lại một người vì

các ành người có cùng định danh có thể không được nhóm chính xác trên các chế

độ xem camera khác nhau Mặt khác, ¢ lớn khiến nhiều cụm được hợp nhất thành

26

Trang 37

một cụm duy nhât, có khả năng dân đên việc xác định các cá nhân khác nhau là cùng một người.

Nhận định của chúng tôi bắt nguồn từ việc quan sát và đánh giá phương pháphuấn luyện biểu diễn tương phản Việc huấn luyện này khuyến khích các mẫu trongmột cụm có các đặc trưng gần nhau trong không gian của chúng Mô hình đượchuấn luyện dé tối đa hóa sự giống nhau giữa các cặp liên quan đồng thời mở rộng sự

khác biệt giữa các cặp không liên quan Hình 3.2 minh họa sự mở rộng khoảng cách

giữa các cụm và thu hẹp khoảng cách giữa các đặc trưng cùng cụm được kiểm tra

trên 10 mẫu dữ liệu ngẫu nhiên trong quá trình huấn luyện từ epoch 1 đến epoch 50.

Không giống như các phương pháp phân cụm trước đây, mô-đun CRR tận dụng

hiện tượng này nhiều nhất bằng cách áp dụng mức giảm liên tục tham số e trong

suốt các bước huấn luyện Trong CRR, bán kính phân cụm được khởi tạo ban đầu

với một giá trị eo tương đối lớn và giảm dần đều đến một giá trị nhỏ nhất £„„ theomột hệ số có định ở mỗi giai đoạn huấn luyện Điều này đảm bảo rằng thuật toán

khám phá không gian tìm kiếm lớn hơn khi bắt đầu huấn luyện, giúp thu thập nhiềuthông tin theo nhiều ngữ cảnh hơn Khi mô hình huấn luyện tiến triển, bán kinhphân cụm giảm dan, cho phép thuật toán tỉnh chỉnh các cum và cải thiện độ

chính xác của phương pháp USL Re-ID.

Từ những quan sát trên, mối tương quan giữa mức độ phân tán của các điểm dữliệu bên trong cụm với sỐ epoch huấn luyện là rất đều đặn Các điểm dữ liệu co cụmdan trong phạm vi các đường tròn màu đỏ thé hiện trong Hình 3.3 Do đó, chúng tôichọn hàm tuyến tính đối với đường cong giảm dan của bán kính phân cụm z như

dưới đây:

27

Trang 38

Gọi t là sô epoch hiện tại, NV là sô epoch mong muôn, £ạ Va Emin lân lượt là giá

tri ban dau và giá tri tôi thiêu của e Các giá tri này được sử dung dé duy trì khoảng cách tôi ưu giữa các diém dữ liệu của cùng một cụm trong các giai đoạn huân luyện.

£o—£min

Bước giảm được xác định theo giá trị hệ số k= , phản ánh sự chênh lệch

giữa £ạ và Emin chia đều cho số lượng bước huấn luyện N

Giá trị bán kính phân cụm e, tại epoch thứ t được xác định bằng công thức sau:

& =EoT— Tô hhx(Œ—1) 4)

Bộ tham số zo và Emin được lựa chon dé tối ưu tùy theo bộ dữ liệu Cụ thé là:

¢ Với tập Market-1501: Tham số £o và e„¡„ của DBSCAN được thử nghiệm với

các giá trị thay đổi với bước nhảy 0.025 dé tìm được giá trị tối ưu là emin =

0.4 và eo= 0.6 trên 50 epochs.

e Với tập MSMT17: Tham SỐ €0 Va Emin của DBSCAN được thử nghiệm với

các giá trị thay đổi với bước nhảy 0.025 dé tìm ra ngưỡng tối ưu Emin = 0.675đến so = 0.725 trên 50 epochs

28

Trang 39

Phương pháp của chúng tôi đã được chứng minh là vượt trội hơn các phương

pháp dựa trên DBSCAN truyền thống về độ chính xác và độ tin cậy đối với các biến

Tương tự, [6] đã giới thiệu một bộ nhớ lai giữ lại cả đặc trưng thực thể và đại điện

cụm Ngoài ra, [9] đề xuất tối ưu hóa lặp lại việc huấn luyện đặc trưng và sàng lọccụm dé biểu diễn đặc trưng chịu được nhiễu [10] đã sử dụng mô hình huấn luyện

tương phan bat đối xứng để khai thác thông tin ân cấp cụm từ các góc nhìn tăng

cường dữ liệu khác nhau Những công trình này cùng với nhau thé hiện sự hiệu quacủa việc sử dụng huấn luyện để tận dụng thông tin cụm và nâng cao kỹ thuật tái

định danh người không giám sát Tuy nhiên, việc tính toán một vectơ đặc trưng duy

nhất biểu diễn một cụm của các phương pháp trên không phản ánh sự đa dạng củakhông gian của cùng một cụm trong đó các đặc trưng phân bố với mật độ và hình

dạng khác nhau.

Ngược lại, chúng tôi giới thiệu PPA - Bộ điều hợp proxy cụm lũy tiến cập nhậtdựa trên mức độ thu gọn lớp của từng cụm trong từng bước huấn luyện Nhờ chiến

lược cập nhật điểm đại diện phù hợp với các đặc điểm phân biệt của mỗi lớp, bộ

nhớ dữ liệu của các đại diện lớp nâng cao tính mạnh mẽ của mô hình so với nhiễu,nâng cao hiệu quả huấn luyện Thực nghiệm cũng chỉ ra rằng phương pháp thíchứng mới của chúng tôi mang lại những lợi thế như tốc độ hội tụ nhanh, mạnh mẽ

đôi với mật độ lớp và tính khái quát cao.

Huấn luyện tương phản cấp cụm là một bước đột phá mới trong lĩnh vực táiđịnh danh người không giám sát, với mục tiêu trích xuất các đặc trưng phân biệt để

29

Trang 40

nhận dạng người mà không cần đến dữ liệu có gán nhãn Mặc dù có nhiều hàm mắt

mát khác được áp dụng trong tái định danh không giám sát, như cross entropy [2],

triplet [9], và N-pair [38], nhưng hàm mất mát tương phản lại được cho là phù hợphơn với học không giám sát, vì một số lý do quan trọng Trong quá trình học khônggiám sát, dữ liệu nhiễu chiếm tỷ lệ cao, đặc biệt là ở giai đoạn đầu, khi các đặctrưng chưa đủ mạnh để phân biệt rõ ràng giữa các mẫu Ngược lại, trong học cógiám sát, dữ liệu đã có sẵn nhãn, giúp việc huấn luyện trở nên dé dang hon Dé vượtqua thách thức về dữ liệu không nhãn, hàm mắt mát tương phản mô phỏng quá trìnhhọc tập tự nhiên của con người, bằng cách từ từ điều chỉnh nhãn của các mẫu quatừng vòng lặp huấn luyện

Cụ thé là, hàm £,;„;; mà chúng tôi sử dụng được kế thừa từ phương pháp [3, 8]với mục tiêu chính là tối đa hóa khoảng cách giữa các thực thể không cùng cụm(negative samples) và tối thiểu hóa khoảng cách giữa các thực thể cùng cụm

(positive samples) đồng thời Hàm mat mát này giúp thúc day mô hình học được

cách rút trích đặc trưng phân biệt giữa các thực thể khác cụm, đồng thời giảm thiểu

sự nhằm lẫn giữa các thực thé cùng cụm Công thức của hàm mắt mát này được tính

theo Công thức 3.1.

Trong quá trình nghiên cứu về ảnh hưởng của điểm đại diện cụm (clusterproxy) đến hiệu quả của hàm mắt mát, chúng tôi nhận thấy vai trò quan trọng củavector đặc trưng đại diện cho cụm Vector này tông hợp các đặc trưng tiêu biểu củatat cả điểm đữ liệu trong cùng một cụm Thông thường, cách tính toán vector đặctrưng này dựa trên một trong bốn điểm dữ liệu chính: trung bình [8], mẫu dễ [3],mẫu khó, hoặc ngẫu nhiên [1], như minh họa trong Hình 3.4 dưới đây:

30

Tiêu đề	Phương Pháp Thích Ứng Của Huấn Luyện Không Giám Sát Dựa Trên Phân Cụm Cho Bài Toán Tái Định Danh Người
Tác giả	Vừ Duy Anh Vũ
Người hướng dẫn	TS. Nguyễn Vinh Tiệp
Trường học	Đại Học Quốc Gia Thành Phố Hồ Chí Minh
Chuyên ngành	Khoa Học Máy Tính
Thể loại	luận văn thạc sĩ
Năm xuất bản	2024
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	108
Dung lượng	39,17 MB