2 Support Vector Machine
2.2 Support vector machine phi tuyến
2.2.4 SVM là một phương pháp quy chuẩn
Phương pháp SVM cũng có thể được coi là một giải pháp cho bài toán quy chuẩn cụ thể. Cho f ∈ HK là không gian Hilbert kernel tái tạo tương ứng với kernekK với chuẩn bình phươngkfk2
HK trong HK.
Xét sai số phân loại yi−f(xi), trong đó yi ∈ {−1,+1}. Khi đó
|yi−f(xi)|= |yi(1−yif(xi))| = |1−yif(xi)| = (1−yif(xi))+, i = 1,2, ..., n
(2.65) trong đó (x)+ = max{x,0}.
Định nghĩa 2.2.8. Đại lượng (1−yif(xi))+ mà có thể bằng 0 nếu tất cả các
xi được phân loại đúng thì được gọi là hàm tổn thất hinge.
Hình 2.5: Hàm tổn thất Hinge (1−yf(x))+ cho y=−1và y= +1.
Chúng ta mong muốn tìm f ∈ HK để cực tiểu phiên bản phạt của tổn thất
hinge. Cụ thể chúng ta muốn tìm f ∈ HK để cực tiểu 1 2 n X i=1 (1−yif(xi))++λkfk2HK, λ > 0. (2.66) Sau khi cực tiểu f được tìm thấy thì quy tắc phân loại SVM là C(x) =
Tiêu chuẩn tối ưu (2.66) khơng khả vi do hình dạng của hàm tổn thất hinge. May mắn là, chúng ta có thể viết lại bài tốn dưới 1 dạng khác và giải quyết nó. Chúng ta bắt đầu từ thực tế rằng mỗi f ∈ H có thể được viết một cách khơng duy nhất dưới dạng tổng của 2 số hạng
f(·) =fk(·) +f⊥(·) =
n
X
i=1
αiK(xi,·) +f⊥(·), (2.67) trong đó fk ∈ HK là phép chiếu của f lên không gian con HK của H và f⊥ là thuộc khơng gian con vng góc với HK; nghĩa là f⊥(·), K(xi,·)
H = 0, i = 1,2, ..., n. Chúng ta có thể viết f(xi) thơng qua tính chất tái tạo như sau
f(xi) = hf(·), K(xi,·)i=D
fk(·), K(xi,·)E
+
f⊥(·), K(xi,·)
. (2.68) Bởi vì số hạng thứ 2 trên khơng gian Hilbert tái tạo bằng 0 nên
f(x) =
n
X
i=1
αiK(xi,x), (2.69) độc lập vớif⊥, trong đó chúng ta đã sử dụng (2.67) và hK(xi,·), K(xj,·)iHK =
K(xi,xj). Bây giờ từ (2.67), ta có
kfk2HK = kX i αiK(xi,·) +f⊥k2HK = kX i αiK(xi,·)k2HK +kf⊥k2HK ≥ kX i αiK(xi,·)k2HK, (2.70) với dấu bằng xảy ra khi và chỉ khif⊥ = 0, trong trường hợp đó bất kỳf ∈ HK
mà cực tiểu (2.66) sẽ thừa nhận 1 biểu diễn dạng (2.69). Từ (2.70), chúng ta có kfk2
HK = P
i
P
jαiαjK(xi,xj) = kβk2, trong đó
β = Pn
i=1αφ(xi). Nếu khơng gian HK bao gồm các hàm tuyến tính có dạng
f(x) = β0 +φ(x)Tβ với kfk2
HK = kβk2 thì bài tốn tìm f trong (2.66) tương đương với tìm β0, β để cực tiểu 1 n n X i=1 (1−yi(β0+φ(xi)Tβ))++λkβk2. (2.71)
Do đó, ở (2.66) mà khơng khả vi do hàm tổn thất hinge sẽ có thể được tính tốn lại trong thuật ngữ của việc giải quyết bài toán tối ưu lề mềm chuẩn 1 (1 - norm soft - margin) (2.33) - (2.34).