6 Tổng kết
2.15 Center Loss với λ
là SOTA. Nhắc lại hàm mất mát softmax trong trường hợp hai lớp như (2.6), (2.7)
p1= exp(WW1TTx 1 x W1Tx+b1) exp(WT 1 x WT 1 x W1Tx+b1) + exp(WT 2 x WT 2 x W2Tx+b2) (2.6) p2= exp(WWW222TTTxxx+b2) exp(WT 1 x W1Tx W1Tx+b1) + exp(WT 2 x WW22TTxx+b2) (2.7)
Trong đó, xxx là vector đặc trưng. WiWWii và bi là trọng số và hệ số tự do của lớp kết nối đầy đủ cuối cùng của mỗi lớp i tương ứng.
Kết quả sẽ trả về lớp 1 nếu p1 > p2 và lớp 2 nếu p1 < p2. Việc so sánh p1 và p2
tương đương với việc so sánhWW1TTx
1 x
W1Tx+b1 và WW2TTx
2 x
Hàm mất mát Biên quyết định Hàm Softmax (W1−W2)x+b1−b2= 0 Hàm Softmax theo góc ||x||(cos(θ1)cos(θ2)) = 0
A-Softmax ||x||(cos(mθ1)−cos(θ2)) = 0 cho lớp thứ nhất
||x||(cos(θ1)−cos(mθ2)) = 0 cho lớp thứ hai
Bảng 2.5: Hàm mất mát và biên quyết định tương ứng. (WT
1 −W2T)x (WT
1 −W2T)x (WT
1 −W2T)x+b1−b2= 0. Mặt khác,WWWiiiTTTxxx+bicó thể viết lại thành||WT i
WiT
WiT||.||x||cos(θi)+bi, vớiθi là góc tạo bởiWiT vàx. Do đó, nếu ta chuẩn hóa cho||WiT||= 1 vàbi= 0 thì đường biên sẽ được quyết định bởi cos(θ1)−cos(θ2) (với trường hợp hai lớp). Từ đó, hàm mất
mát Softmax được viết lại như công thức (2.8):
Li=−log( eW T yixi WyiTxi WyiTxi+byi P jeWWWjjjTTTxixixi+bj) (2.8)
Sau khi chuẩn hóa như phân tích ở trên, ta thu được hàm mất mát như công thức (2.9):
Lmodif ied= 1
N
X
i
−log(Pe||xixixi||cos(θyi,i)
je||xixixi||cos(θj,i)) (2.9)
Tới đây, về cơ bản thì phương pháp này đã chuyển đổi từ việc tính tốn hàm mất mát bằng đại số sang tính tốn hàm mất mát bằng lượng giác (góc). Tuy nhiên, việc sử dụng góc để tính hàm mất mát vẫn chưa thể phân biệt rõ ràng giữa các lớp khác nhau.
Do đó, trong bài báo này, tác giả đề xuất cách tính hàm mất mát mới là A-Softmax. Có thể thấy rằng, từ bảng 2.6 việc thêm tham số m ở đây như là một cách để làm cho sự phân chia giữa các lớp rõ ràng hơn vì nếu một điểm dữ liệu rơi vào vùng nằm giữa hai lớp thì sẽ vẫn bị phạt nặng. Khơng giống như hai hàm mất mát trước đó, nếu khơng thuộc lớp này thì sẽ thuộc lớp kia và phạt ít. Cơng thức tổng quát của A-Softmax trong trường hợp nhiều lớp như công thức (2.10):
Lang = 1
N
X
i
−log( e||xixixi||ψ(θyi,i)
e||xixixi||ψ(θyi,i)+P
j6=yie||xixixi||cos(θj,i)) (2.10)
trong đó ψ(θyi,i) = (−1)kcos(mθyi,i)−2k;θyi,i∈hkπ
m,(k+1)πm i;k∈[0, m−1].
Với cơng thức tính hàm mất mát như trên, kết quả trực quan hóa của hàm so với những hàm mất mát gốc thể hiện như hình 2.16
Tập dữ liệu Gốc m=1 m=2 m=3 m=4
LFW 97.88 97.90 98.40 99.25 99.42
YTF 93.1 93.2 93.8 94.4 95.0