DỤNG PHƯƠNG PHÁP HỌC SÂU
I- PUESIZP sxsxỊQ 3x3xI6 1x1x32\ (qm Facial landmark
3.2 Nhận dạng khuôn mat
3.2.1 ArcFace
Hàm mat mát Additive Angular Margin Loss trong ArcFace [5] là một bước tiến vượt bậc so với hàm softmax truyền thống. Điểm khác biệt chủ yếu nằm
ở việc tính toán khoảng cách: thay vì sử dụng phương pháp trực tiếp, hàm này
dựa vào góc cosine giữa véc tơ đặc trưng từ mô hình Deep Convolutional Neural
Network (DCNN) và trọng số lớp cuối, đều đã được chuẩn hóa.
Qua việc áp dụng hàm arc-cosine, chúng ta có thể xác định chính xác góc
giữa véc tơ đặc trưng và trọng số mục tiêu. Bằng cách thêm vào một góc mục
tiêu - ’additive angular margin’, hàm này không chỉ cải thiện sự phân biệt giữa
các lớp mà còn tăng cường độ chính xác của mô hình. Khi góc này được chuyển đổi lại thành véc tơ logit qua hàm cosine và điều chỉnh tỷ lệ, quá trình tính toán tiếp tục như hàm softmax, nhưng với khả năng phân biệt và độ chính xác được
cải thiện rõ rệt.
Bắt đầu với hàm softmax với công thức:
Wfx¡+b
1 N yị rit Py;
Ly = —— log
WTx¡i+b
Nix J1 j NI
Hàm mất mát softmax thường được dùng trong nhận diện khuôn mặt, kết hợp hàm mất mát entropy chéo với sự kích hoạt softmax. Tuy nhiên, một hạn chế lớn
38
ý
4) cosf), Probability Ground Truth Cross-entropy
| al 73ei...n Logit One Hot Vector Loss
Normalized Weights
Hình 3.9: Huấn luyện DCNN để nhận dang khuôn mặt được giám sát bởi ArcFace loss.(nguén từ bài báo [5])
của nó là thiếu khả năng tối ưu hóa các véc tơ embedding chứa đặc điểm khuôn mặt. Điều này làm giảm khả năng của mô hình trong việc tăng cường sự giống nhau giữa khuôn mặt cùng lớp và sự khác biệt giữa các lớp khác nhau. Kết quả
là hàm này không hiệu quả trong việc xử lý các khuôn mặt có nhiều biến thể, chẳng hạn như do tuổi tác hay dáng khuôn mặt khác nhau.
Để đơn giản hóa, chúng ta cố định bias b; = 0 sau đó chúng ta biến đổi W7; = ||W/|II|x:|leos 9; trong đó 6; là góc giữa trong số W; và đặc điểm x¡. Theo sau đó, chúng ta cố định weight ||W;|| = 1 bởi sự chuẩn hóa L2. Đồng thời,
chúng ta cũng chuẩn hóa luôn véc tơ đặc điểm ||x;|| theo sự chuẩn hóa L2 và rescale lại thành s. Bước chuẩn hóa weights và véc tơ đặc điểm này tạo nên sự
dự đoán thuần túy dựa trên góc giữa véc tơ đặc điểm và weight. Véc tơ đặc điểm
đã được học sau đó được phân bổ trên một hypersphere với bán kính là s.
eS 6y,
1 N
hạ = N*!9 05008 Ủy, +E, 80086)
Vi các véc tơ đặc điểm được phân bổ xung quanh mỗi đặc điểm trung tâm theo
một hypersphere, chúng ta sẽ thêm vào đó một hình phạt biên góc cộng (additive
angular margin penalty) m giữa x; va Wy, để đồng thời tang cường tinh nhỏ gon
trong nội bộ lớp và sự khác biệt giữa các lớp. Và phương pháp này được đặt tên
là ArcFace.
39
ha
1% e5608( By; +m)
47 Vlog #cos(ỉy,-+im) 0; N i=} eS 08(%i Fm) + re | escos(i)
Phương pháp được gọi là ArcFace xuất phát từ việc sử dụng một hình phạt
góc cộng thêm - ’additive angular margin penalty’. Sự đặc biệt này tương đương
với khoảng cách địa hình trên hypersphere (hình cầu không gian nhiều chiều) đã được chuẩn hóa. Điều này giúp ArcFace tạo ra một sự phân biệt rõ ràng và mạnh
mẽ giữa các lớp.
(a) Softmax (b) ArcFace
Hình 3.10: So sánh không gian phân biệt lớp giữa hàm mất mát Softmax và ArcFace:
(a) Hình tròn biểu diễn không gian đặc trưng dùng trong Softmax, nơi các lớp không
có sự phân biệt rõ ràng, và (b) Biểu đồ ArcFace, hiển thị không gian đặc trưng với các góc cộng thêm giúp tăng cường sự phân biệt giữa các lớp."(nguôn từ bài báo [5])
3.2.2. AdaFace
AdaFace [6] tập trung vào việc điều chỉnh trọng số mẫu huấn luyện trong quá trình đào tạo. Trong hầu hết các phương pháp truyền thống, mọi mẫu huấn luyện đều được xử lý như nhau, mà không thay đổi trọng số mẫu cụ thể. AdaFace nhận ra rằng việc tập trung vào các mẫu khó (hard sample mining) có thể dẫn
đến việc nhân mạnh quá mức vào những hình ảnh không thể nhận diện. Do đó,
40
phương pháp này nhắn mạnh vào việc điều chỉnh trọng số mẫu dựa trên độ khó
cụ thể của chúng.
AdaFace được thiết kế một hàm mắt mát có khả năng phân bổ mức độ quan trọng khác nhau cho các mẫu dựa trên độ khó liên quan đến chất lượng hình ảnh 3.11. Mục tiêu là nhẫn mạnh vào các mẫu thách thức đối với hình ảnh chất lượng
Quality
Hình 3.11: Ví dụ về hình ảnh khuôn mặt với các mức độ chất lượng và khả năng nhận biết khác nhau.(nguồn từ bài báo [6])
AdaFace dé xuất một hàm mat mát mới3.12, kết hợp hàm mất mát cross entropy với một hàm lề (margin function) thích nghi dựa trên ước lượng chất lượng hình ảnh. Hàm mat mát mới này cho phép tăng cường việc học từ các mẫu khó với hình ảnh chất lượng cao, đồng thời giảm bót việc học từ các mẫu không thể nhận diện với hình ảnh chất lượng thấp.
Chức năng softmax loss dựa trên Margin được sử dụng rộng rãi trong đào tạo
nhận dạng khuôn mặt. Ký quỹ được thêm vào tổn thất Softmax vì sau khi thêm
Ký quỹ, mô hình có thể học các tính năng tốt hơn giữa và trong các danh mục, điều này phân biệt đối xử hơn (cá nhân tôi nghĩ rằng phương pháp này tương tự
41
Hình 3.12: Loss function adaface.(nguồn từ bài báo [6])
như học tập vài lần, giúp tăng cường liên kết nội bộ lớp và phân khúc giữa các
lóp).4
exp(/(,.n)) ) (3.1)
L=-|z Ae + Yj), exp(scos 6;)
6 là góc giữa các eigenvector, là chỉ số của Chân lý mặt đất (GT) va m là
Lễ là một siêu tham số vô hướng. là một hàm cận biên, trong đó SphereFace, CosFace và ArcFace có thể được biểu thị bằng 3 hàm Margin khác nhau sau:
scos(m@;) if j=yi,
f (0; ,m) SphereFace —
scos 8; if j # ÿy¡.
s(cosỉ;—m)_ if j=yi,
ƒ(Đj.m)CosFace — /
$cos 8; if j A yj.
scos(@;+m) if j=yi,
f (9;,TM) arcFace = !
scos Ở; if j # yj.
ArcFace được gọi là lề góc, trong khi CosFace được gọi là lề cộng.
Chỉ số chất lượng hình ản là một tiêu chuẩn tính năng, nó là một giá trị số
42
Correlation Over all Epochs = @Last Epoch @Last Epoch
S
Fn |) &
os] Ff ơ #% 95% confidence interval | > #9 95% confidence interval
| 0 ae 0 .
= | e “2 ae e
5d! 5 Z
te loài lụ % -20 = -20
3 — |8 a
2 ' r
= 4 =
2 0.3 *~ -40 `⁄ -40
4 > >
5 = E=
cs -60 cs -60
4 0.2 = 5
5 o (Si
a © -80 2 -80
01 ob S0
—— Cor, btw. Image Qual. and Norm = . slope <0 P>|t| : 0.00 = H,: slope <0 P>|t| : 0.00
Cor, btw.tmage Qual. and Prob |, _;oo | ô —91.0 + 2.32x 5 100 y= — 45.0 + 18.45x
0 5 10 15 20 25 10 15 20 25 30 35 0.0 0.2 0.4 0.6 0.8 1.0
Epochs Feature Norm Prob. Output
a) Correlation for allepochs b) Feature norm vs img. qual. c) Prob. output vs img. qual.
Hình 3.13: (a) Đồ thị tương quan Pearson với chat lượng hình ảnh điểm (1-BRISQUE)
qua các giai đoạn đào tạo. Màu xanh lá cây và màu cam các đường cong tương ứng với
biểu đồ tương quan sử dụng định mức đặc trưng ||2;|| và đầu ra xác suất cho chỉ số chân
lý cơ bản P,, ;, tương ứng. (b) và (c) Các biểu đồ phân tán tương ứng cho lần cuối cùng
kỷ nguyên. Đường màu xanh trên biểu đồ phân tán và đường tương ứng phương trình hiển thị đường bình phương nhỏ nhất phù hợp với các điểm dữ liệu.(nguồn từ bài báo [6])
phụ thuộc vào mô hình, được chuẩn hóa bằng cách sử dụng thống kê hàng loạt.
yy \|zil| = Me :
Val Gora |. (3.2)
Trong đó u, và ơ; là độ lệch trung bình và độ lệch chuẩn của tất cả các mẫu trong một lô. Ký hiệu [-|! ¡ (clip) dé cập đến việc ngưỡng giá trị giữa —1 và 1, nhằm ngăn chặn dòng chảy gradient. Vì phân phối của lô x4p xỉ với một phân phối Gaussian chuẩn, giá tri này được giới hạn trong khoảng —1 và 1 để xử lý tốt hơn.
Được biết rằng, khoảng 68% của phân phối Gaussian nằm trong khoảng — I
và 1, do đó hệ số h được đưa vào để kiểm soát độ tập trung. Hệ số được đặt sao cho hầu hết các giá trị nằm trong khoảng này. Điều này có thể đạt được với
h = 0.33.
Nếu kích thước của lô nhỏ, số liệu thống kê của lô có thể không ổn định. Do
đú, đường trung bỡnh động hàm mũ (EMA) của p, và ỉ; qua nhiều bước được
43
sử dụng để ổn định số liệu thống kê của hàng loạt.
uz = aps +(1— op (3.3)
scos(6; + Langle) —Bạd Ji /(9, 1!) AdaFace = (3.4)
scos 0; J#Yi-
1. Nếu chất lượng hình ảnh cao, hãy nhấn mạnh mẫu khó.
2. Nếu chất lượng hình ảnh thấp, mẫu khó không được nhắn mạnh.