2 Support Vector Machine
2.1.2 Trường hợp khơng tách tuyến tính
Trong ứng dụng thực tế, sẽ là không chắc chắn để có 1 tách tuyến tính rõ ràng như vậy giữa các dữ liệu được rút ra từ 2 lớp. Nhiều khả năng sẽ có chồng chất nào đó. Tức là dữ liệu nào đó trong lớp này xâm nhập vào vùng khơng gian của nhóm kia và ngược lại. Tính chồng chất sẽ gây ra vấn đề cho bất kỳ quy tắc phân lớp nào và độ phức tạp phụ thuộc vào mức chồng chất.
Trường hợp không tách xảy ra nếu hoặc cả 2 lớp là tách được nhưng khơng tuyến tính hoặc khơng có một tách rõ ràng tồn tại giữa hai lớp, tuyến tính hoặc khơng tuyến tính. Một lý do cho trường hợp chồng chất là do mức độ ồn cao của 1 hoặc 2 lớp dữ liệu. Như một kết quả, chúng ta thấy rằng 1 hoặc hơn các ràng buộc sẽ bị vi phạm.
Để giải quyết vấn đề này, chúng ta sẽ sử dụng một công thức linh hoạt hơn (lời giải soft margin) nhờ sử dụng 1 biến bù không âm ξi cho mỗi quan sát (xi, yi)
trong L, i = 1,2, ..., n.
Cho
ξ = (ξ1, ..., ξn)T ≥ 0. (2.31) Ràng buộc (2.10) bây giờ trở thành yi(β0+xTi β) +ξi ≥ 1,∀i= 1,2, ..., n. Các
điểm dữ liệu mà tuân theo các ràng buộc có ξi = 0. Bây giờ, quy tắc phân lớp
phải tìm kiếm siêu phẳng tối ưu mà điều khiển cả hai biên, 2
kβk, và hàm tính tốn đơn giản hơn của các biến bù, như là
gσ(ξ) = n
X
i=1
ξiσ (2.32) với các ràng buộc chắc chắn. Các giá trị thường lấy của σ là 1 (1-norm) hoặc 2 (2-norm). Chúng ta xét trường hợp σ = 1.
Hình 2.3: Support vector machines: trường hợp khơng tách tuyến tính. Các điểm đỏ tương ứng với các điểm dữ liệu có y = −1 và các điểm xanh tương ứng với các điểm dữ liệu có y= +1. Siêu phẳng tách là đường thẳng β0+xTβ = 0. Các vector support
là các điểm dữ liệu nằm trên siêu phẳng H−1 và H+1. Biến bù ξ1 tương ứng với điểm xanh vi phạm giới hạn củaH+1vàξ2 tương ứng với điểm đỏ vi phạm giới hạn củaH−1.
Bài toán. Bài toán tối ưu 1-norm soft-margin là tìm β0, β và ξ để cực tiểu 1 2kβk2+C n X i=1 ξ, (2.33) với ràng buộc
ξi ≥ 0, yi(β0+xTi β) ≥ 1−ξi, i= 1,2, ..., n (2.34) trong đóC >0là tham số quy chuẩn.C có dạng của một hằng số điều chỉnh mà điều khiển kích thước của các biến bù và cân bằng 2 số hạng trong hàm cực tiểu.
Chúng ta có dạng hàm gốc, FP =FP(β0, β, ξ, α, η), trong đó FP = 1 2kβk2+C n X i=1 ξi− n X i=1
αi{yi(β0+xTi β)−(1−ξi)} − n X i=1 ηiξi (2.35) với α= (α1, ..., αn)T ≥ 0 và η= (η1, ..., ηn)T ≥ 0. Cố định α và η, đạo hàm FP theo β0, β và ξ, chúng ta có ∂FP ∂β0 = − n X i=1 αiyi, (2.36) ∂FP ∂β = β− n X i=1 αiyixi, (2.37) ∂FP
∂ξi = C−αi−ηi;i= 1,2, ..., n. (2.38) Cho các đạo hàm bằng 0, chúng ta thu được
n X i=1 αiyi = 0;β∗ = n X i=1
αiyixi;αi = C−ηi. (2.39) Thay (2.36) và (2.32), chúng ta có hàm đối ngẫu
FD(α) = n X i=1 αi− 1 2 n X i=1 n X j=1 αiαjyiyj(xTi xj). (2.40) Từ ràng buộc C −αi−ηi = 0 và ηi ≥ 0, chúng ta có 0 ≤ αi ≤ C. Ngồi ra, chúng ta có điều kiện Karush- Kuhn- Tucker:
ξi≥ 0, (2.42)
αi ≥ 0, (2.43)
ηi≥ 0, (2.44)
αi{yi(β0+xTi β)−(1−ξi)}= 0, (2.45)
ξi(αi−C) = 0, (2.46) với i = 1,2, ..., n. Từ (2.46), chúng ta thấy rằng một biến bù ξi có thể khác 0 chỉ khi αi =C. Các điều kiện bổ sung (2.45) và (2.46) có thể được sử dụng để tìm độ chệch tối ưu β0.
Bài tốn cực đại đối ngẫu có thể viết lại dưới dạng ma trận như sau. Tìmα để cực đại FD(α) =1Tnα− 1
2α
THα (2.47) với điều kiện
αTy = 0; 0≤ α ≤ C1n. (2.48) Sự khác biệt giữa bài toán tối ưu này và trường hợp tách tuyến tính (2.21) và (2.22) đó là, ở đây, các hệ số Lagrange αi, i = 1,2, ..., n bị chặn trên bởi C. Chặn trên này giới hạn ảnh hưởng của mỗi quan sát trong việc xác định lời giải. Kiểu ràng buộc này được gọi là một ràng buộc hộp bởi vì α bị ràng buộc bởi một hộp cạnh C trong góc phần tư dương. Từ (2.48) chúng ta thấy rằng giới hạn khả thi cho bài toán tối ưu lồi là giao của siêu phẳngαTy = 0 với hộp ràng buộc 0 ≤ α ≤ C1n. Nếu C = ∞ thì bài tốn đưa tới trường hợp tách
hard- margin.
Nếu αb là lời giải của bài tốn tối ưu này thì
b
β =X
i∈sv
b
αiyixi (2.49)
là vector hệ số tối ưu, trong đó tập sv của vector support bao gồm các quan sát trong L mà thỏa mãn ràng buộc (2.41).