MÔ HÌNH SUPPORT VECTOR MACHINE

2.1.1 Support Vector Machine

Mô hình SVM phân tách tuyến tính

Máy học tập trung vào việc tìm ra những cấu trúc từ dữ liệu. Trong mô hình học có giám sát, thuật toán được cho trước một số điểm dữ liệu cùng với nhãn của chúng thuộc một trong hai lớp cho trước. Chúng ta có tập dữ liệu được biểu diễn dưới dạng một tập các cặp (xi, yi), trong đó mỗi một quan sát (instance) trong tập dữ liệu X gồm một bộ đặc trưng 𝑥𝑖 = (𝑥1𝑖, 𝑥2𝑖, … , 𝑥𝑛𝑖). Trong luận văn này chúng ta sẽ thảo luận về bài toán phân lớp nhị phân (supervised binary classification), tức là 𝑦 = {+1, −1}. Thuật toán SVM rất thích hợp cho những dạng bài toán này.

Chúng ta hãy hình dung tập dữ kiện X trong hình 2.1.1 (ví dụ các sms trong tập huấn luyện đã được gán nhãn) biểu diễn trên không gian hai chiều, mỗi một dữ kiện (sms) được biểu diễn thành một điểm. Dấu chấm đen là các spam-sms, trong khi điểm trắng là các ham-sms. Giả sử rằng bài toán của chúng ta tồn tại một mô hình phân tách tuyến tính (linearly separable).

Mục đích của SVM là xây dựng một mô hình để phân loại các sms vào hai dạng (spam và ham). Mô hình SVM lựa chọn ranh giới giữa hai thể loại sao cho khoảng cách từ các dữ kiện trong tập huấn luyện tới ranh giới là xa nhất có thể. Mục tiêu của thuật toán là xác định xem một điểm dữ liệu mới sẽ được thuộc về lớp nào.

Có hai khái niệm chúng ta cần cho mô hình SVM là siêu phẳng (hypherplan) và lề (margin). SVM xây dựng một siêu phẳng hoặc một tập hợp các siêu phẳng (hyperplane). Cụ thể, trong không gian hai chiều, siêu phẳng là một đường thẳng; trong không gian ba chiều, siêu phẳng là một mặt phẳng; từ bốn chiều trở lên, đều gọi chung là siêu phẳng. Lề (margin) là khoảng cách giữa siêu phẳng đến điểm dữ liệu gần nhất tương ứng với các phân lớp. Mỗi điểm dữ liệu được biểu diễn dưới dạng

một vector n-chiều, và ta muốn biết liệu có thể chia tách hai lớp dữ liệu bằng một siêu phẳng n − 1 chiều. Đây gọi là phân loại tuyến tính.

Có nhiều siêu phẳng có thể phân loại được dữ liệu. Một lựa chọn hợp lý trong chúng là siêu phẳng có lề lớn nhất giữa hai lớp tức là nó nằm ở càng xa các điểm dữ liệu của tất hai lớp càng tốt, vì nói chung lề (margin) càng lớn thì sai số trong quá trình dự đoán của thuật toán càng nhỏ. Có thể có nhiều đường thẳng phân tách tập dữ liệu Hình 2.1.1, tuy nhiên bằng trực giác, chúng ta có thể thấy đường thẳng màu đỏ là tốt hơn cả.

Hình 2.1. 1: H3 (màu xanh lá cây) không chia tách hai lớp dữ liệu. H1 (màu xanh lơ) phân tách hai lớp với lề nhỏ và H2 (màu đỏ) phân tách với lề cực đại [1]

Để tìm được siêu phẳng như vậy, ta cần tìm ra các điểm (support vector). Các ví dụ nằm trên lề được gọi là các vector hỗ trợ, như Hình 2.1.2. Sau khi có được các support vectors, chúng ta cần dựng ra các đường thẳng sao cho sự phân tách giữa hai lớp là lớn nhất. Từ đó chúng ta xác định được đường biên quyết định (decision boundary). Cuối cùng, lề được tính bằng khoảng cách từ điểm dữ liệu được phân lớp đúng (thuộc một trong hai lớp) gần siêu phẳng nhất tới siêu phẳng.

Hình 2.1. 2:Siêu phẳng với lề cực đại cho một SVM phân tách dữ liệu thuộc hai lớp [1]

Mô hình SVM phân tách phi tuyến tính

Trong nhiều trường hợp, không thể phân chia các lớp dữ liệu một cách tuyến tính trong một không gian ban đầu được dùng để mô tả một vấn đề. Vì vậy, cần phải ánh xạ các điểm dữ liệu trong không gian ban đầu vào một không gian mới nhiều chiều hơn, để việc phân tách chúng trở nên dễ dàng hơn trong không gian mới. Để việc tính toán được hiệu quả, ánh xạ sử dụng trong thuật toán SVM chỉ đòi hỏi tích vô hướng của các vectơ dữ liệu trong không gian mới có thể được tính dễ dàng từ các tọa độ trong không gian cũ. Tích vô hướng này được xác định bằng một hàm hạt nhân

K(x,y) (kernel function) phù hợp. Một siêu phẳng trong không gian mới được định nghĩa là tập hợp các điểm có tích vô hướng với một vectơ cố định trong không gian đó là một hằng số. Vectơ xác định một siêu phẳng sử dụng trong SVM là một tổ hợp tuyến tính của các vectơ đặc trưng của tập dữ liệu huấn luyện xi với các hệ số 𝛼𝑖. Với siêu phẳng lựa chọn như trên, các điểm x trong không gian đặc trưng được ánh xạ vào một siêu mặt phẳng là các điểm thỏa mãn: ∑ 𝛼𝑖 𝑖𝐾(𝑥𝑖, 𝑥)= 𝑐𝑜𝑛𝑠𝑡𝑎𝑛𝑡 (hằng số).

Hình 2.1. 3: Tập dữ liệu ban đầu (bên trái) được ánh xạ (dùng hàm nhân) sang không gian mới (bên phải)

2.1.2 Xây dựng siêu phẳng tuyến tính

Trong phần này, Tôi sẽ dùng [3] để tham khảo chính.

2.1.2.1 Bộ phân lớp tuyến tính

Trong hệ tọa độ 𝑅𝑛, ta có phương trình:

〈𝑤, 𝑥〉 + 𝑏 = 0 ∑𝑛 𝑤𝑘𝑥𝑘

𝑘=1 + 𝑏 = 0 (2.1.1)

Định nghĩa một siêu phẳng (n-1)-chiều. Trong đó vector khác không w là vector pháp tuyến của siêu phẳng𝑤 = (𝑤1, … , 𝑤𝑛) ∈ Rn, và b ∈ R là đại lượng vô hướng.〈𝑤, 𝑥〉 là tích vô hướng của 2 vector. Ứng với một bộ (w,b), tập tất cả các vector

𝑥 = (𝑥1, … , 𝑥𝑛) ∈ Rn thỏa mãn phương trình (2.1.1) sẽ xác định một siêu phẳng. Chúng ta kí hiệu siêu phẳng này là 𝜋(𝑤, 𝑏). Nghĩa của từ siêu phẳng (hyperplan) hàm chứa rằng số chiều của mặt phẳng nhỏ hơn 1 so với số chiều của không gian Rn (xem Hình 2.1.4).

Hình 2.1. 4: Một siêu phẳng (trong không gian 2 chiều) khi 𝒃 < 𝟎, 𝒘𝟏 > 𝟎, 𝒘𝟐 > 𝟎

Vectơ pháp tuyến w xác định hướng của siêu phẳng trong không gian, trong khi khoảng cách từ gốc tọa độ (𝑶 = (0, … 0)) tới siêu phẳng được xác định bởi tỉ lệ 𝑏

‖𝑤‖. Vector pháp tuyến trực giao với mọi vector song song với siêu phẳng của nó.

Siêu phẳng 𝜋 tách không gian 𝑅𝑛 thành 2 phần, gọi là phần dương (𝑹𝑛)𝜋+ và phần âm (𝑹𝑛)𝜋−. Với mọi vector𝑥 ∈ (𝑹𝑛)𝜋+ ta có 〈𝑤, 𝑥〉 + 𝑏 > 0, trong khi mọi vector𝑥 ∈ (𝑹𝑛)𝜋− ta có 〈𝑤, 𝑥〉 + 𝑏 < 0.

Chú ý rằng, một siêu phẳng có thể có vô số các cặp (w,b). Thực vậy, phương trình (2.1.1) cũng đúng cho mọi cặp (cw,cb) với 𝑐 ≠ 0. Nói một cách khác, nếu hai siêu phẳng 𝜋1 và 𝜋2 được xác định bởi hai bộ tham số (𝑤1, 𝑏1) và (𝑤2, 𝑏2), và 𝑤1 = 𝑐𝑤2, 𝑏1 = 𝑐𝑏2, thì hai siêu phẳng 𝜋1 và 𝜋2 là một.

Hình 2.1. 6: Siêu phẳng với sự thay đổi của các tham số w và b

Khoảng cách 𝜌(𝑥, 𝜋) của vectơ x tới siêu phẳng 𝜋(𝑤, 𝑏) được tính theo công thức:

𝜌(𝑥, 𝜋) =〈𝑤,𝑥〉+𝑏‖𝑤‖ (2.1.2) Chú ý khoảng cách ở đây có gán dấu: 𝜌(𝑥, 𝜋) > 0 khi 𝑥 ∈ (𝑹𝑛)𝜋+ và 𝜌(𝑥, 𝜋) < 0 khi 𝑥 ∈ (𝑹𝑛)𝜋−. Rõ ràng 𝜌(𝑥, 𝜋) = 0 khi 𝑥 ∈ 𝜋. Khoảng cách từ góc tọa độ tới siêu phẳng là ‖𝑤‖𝑏 . Chúng ta có một vài quan sát sau đây (giúp cho việc tính toán sau này): Gốc tọa độ ở trong phần dương, (𝑹𝑛)𝜋+, nếu 𝑏 > 0, và ở phần âm nếu 𝑏 < 0. Nếu 𝑏 = 0 thì siêu phẳng đi qua gốc tọa độ, Hình 2.1.6.a.

Khi giá trị tuyệt đối của |b| tăng, siêu phẳng sẽ di chuyển ra xa khỏi gốc tọa độ. Ngược lại, khi giá trị tuyệt đối của |b| giảm, siêu phẳng sẽ di chuyển gần vào gốc tọa độ. Xem Hình 2.1.6.a.

Bằng cách thay đổi vectơ pháp tuyến nhưng vẫn giữ chuẩn không đổi ||w||, chúng ta đang di chuyển siêu phẳng quanh gốc tọa độ theo đường tròn có bán kính ‖𝑤‖|𝑏|. Xem Hình 2.1.6.b.

Khi giảm chiều dài của vectơ pháp tuyến w nhưng vẫn giữ hướng của nó, siêu phẳng sẽ di chuyển ra xa gốc tọa độ. Và khi tăng chiều dài của vectơ pháp tuyến w

nhưng vẫn giữ hướng của nó, siêu phẳng sẽ di chuyển vào phía gốc tọa độ (Hình 2.1.6.c). Như vậy siêu phẳng sẽ di chuyển song song với chính nó bằng 2 cách: thay đổi giá trị của b, hoặc thay đổi chiều dài của w. Nhưng nếu chúng ta cùng tăng b và

w theo cùng một tỉ lệ thì siêu phẳng giữ nguyên.

Giả sử chúng ta có tập dữ liệu m điểm: X = {(xi, yi)|xi ∈ Rn, yi ∈ {+1, −1}}m. Trong bài toán phân lớp nhị phân này, mỗi một dữ liệu xi được gọi là một điểm trong không gian n-chiều.

Nếu tồn tại một bộ (𝑤, 𝑏) ∈ 𝑅𝑛× 𝑅, sao cho siêu phẳng 𝜋(𝑤, 𝑏) phân lớp mọi điểm trong đúng, thì ta có:

〈𝑤, 𝑥𝑖〉 + 𝑏 > 0, ∀𝑦𝑖 = +1

〈𝑤, 𝑥𝑖〉 + 𝑏 < 0, ∀𝑦𝑖 = −1} ⟹ yi(〈𝑤, 𝑥𝑖〉 + 𝑏) > 0, ∀𝑖 = {1, … , 𝑚}

Nếu tồn tại bộ (𝑤, 𝑏) thỏa mãn điều kiện trên thì khi đó tồn tại 𝜀 > 0 sao cho:

yi(〈𝑤, 𝑥𝑖〉 + 𝑏) ≥ 𝜀, ∀𝑖 = {1, … , 𝑚} ⟹ yi(〈𝑤

𝜀 , 𝑥𝑖〉 +𝑏 𝜀) ≥ 1

Như trên đã trình bày, bằng cách đặt lại = 𝑤𝜀, 𝑏 = 𝑏𝜀 , chúng ta vẫn giữ nguyên siêu phẳng phân tách cho m điểm của X. Nghĩa là, ta có bất phương trình:

yi(〈𝑤, 𝑥𝑖〉 + 𝑏) ≥ 1, ∀𝑖 = {1, … , 𝑚} (2.1.3) Tóm lại, siêu phẳng mà chúng ta cần tìm để phân tách đúng tập dữ liệu sẽ thỏa mãn hệ bất phương trình (2.1.3).

Giả sử tập các điểm (𝑥i, yi = −1) là lớp C1, và tập các điểm (𝑥i, yi = +1) là lớp C2. Siêu phẳng 𝜋 phân tách hai lớp C1 và C2 có lề 𝑚(𝜋, 𝐶1, 𝐶2) được định nghĩa như sau:

𝑚(𝜋, 𝐶1, 𝐶2) = 𝜌(𝜋, 𝐶1) + 𝜌(𝜋, 𝐶2) (2.1.4)

Trong đó khoảng cách từ siêu phẳng 𝜋 tới lớp Ci (có thể là C1 hoặc C2) chính là độ dài từ một điểm trong Ci có khoảng cách nhỏ nhất:

𝜌(𝜋, 𝐶𝑖) = min

Hình 2.1. 7:Khoảng cách từ lớp C1 và C2 tới siêu phẳng

Theo công thức (2.1.4) có thể có nhiều siêu phẳng có khoảng cách giống nhau tới hai lớp cần phân tách, xem Hình 2.1.8.

Hình 2.1. 8: Tất cả 5 siêu phẳng đều thỏa mãn có tổng lề lớn nhất để phân tách 2 lớp

Tuy nhiên, thuật toán SVM sẽ tìm ra siêu phẳng cách đều 2 lớp, như vậy khi có dữ liệu mới (cần phán đoán), chúng ta sẽ chia đều độ tự tin cho 2 lớp, Hình 2.1.9.

29 𝑑 = 𝜌(𝜋, 𝐶1) = 𝜌(𝜋, 𝐶2) và là lớn nhất [3].

Theo công thức (2.1.2), khoảng cách từ một điểm tới siêu phẳng được tính theo dấu, và và (2.1.3), ta có thể suy ra độ dài khoảng cách từ một điểm thuộc 1 lớp tới siêu phẳng 𝜋 là: |𝜌(𝑥, 𝜋)| =yi〈𝑤, 𝑥𝑖〉 + 𝑏 ‖𝑤‖ Ta có 𝜌(𝜋, 𝐶) = min 𝑥∈𝐶 |𝜌(𝜋, 𝑥)| = min 𝑖=1,…,𝑚 yi〈𝑤, 𝑥𝑖〉 + 𝑏 ‖𝑤‖ Chúng ta biết rằng: min 𝑖∈{1,…,𝑚}yi〈𝑤, 𝑥𝑖〉 + 𝑏 = 1 Do vậy 𝜌(𝜋, 𝐶) =‖𝑤‖1 (2.1.6) Vì 𝑑 = 𝜌(𝜋, 𝐶1) = 𝜌(𝜋, 𝐶2) nên bây giờ việc tìm siêu phẳng cho lề (margin) lớn nhất chính là tìm siêu phẳng 𝜋 sao cho 𝜌(𝜋, 𝐶) đạt giá trị lớn nhất (C ={C1,C2}):

max

𝜋 𝜌(𝜋, 𝐶) .

Từ (2.1.6) ta suy ra việc tìm siêu phẳng:

max

𝜋 𝜌(𝜋, 𝐶) = max

w,b 1

‖𝑤‖ (2.1.7)

Tóm lại siêu phẳng cần tìm sẽ dẫn tới việc giải bài toán tối ưu:

max 𝑤∈𝑅𝑛,𝑏∈𝑅 1 2‖𝑤‖⟹𝑤∈𝑅min𝑛,𝑏∈𝑅 1 2‖𝑤‖

với điều kiện đảm bảo không có điểm dữ liệu nào trong lề xác định bởi phương trình.

min

𝑖=1,…,𝑚yi〈𝑤, 𝑥𝑖〉 + 𝑏 = 1

Bài toán được viết gọn:

min

𝑤∈𝑅𝑛,𝑏∈𝑅 1

2‖𝑤‖ (2.1.8)

yi(〈𝑤, 𝑥𝑖〉 + 𝑏) ≥ 1, ∀𝑖 = {1, … , 𝑚} (2.1.9) Có một vài tính chất cho bài toán này:

Bài toán tối ưu quy hoạch toàn phương với ràng buộc là các bất phương trình tuyến tính. Các ràng buộc xác định một miền lồi (convex).

Hàm mục tiêu là hàm bậc 2.

Bài toán có nghiệm toàn cục duy nhất. Bài toán đối ngẫu cho (2.1.8) và (2.1.9) là:

max 𝛼 𝐿𝑑(𝛼) (2.1.10) 𝛼 = (𝛼1, 𝛼2, … , 𝛼𝑚), 𝛼𝑖 ≥ 0, ∀𝑖 = {1, … , 𝑚} (2.1.11) Trong đó: 𝐿𝑑(𝛼) = min 𝑤,𝑏 𝐿(𝑤, 𝑏, 𝛼) (2.1.12) Và nhân tử Lagrange được định nghĩa:

𝐿(𝑤, 𝑏, 𝛼) =12‖𝑤‖2− ∑𝑚 𝛼𝑖[𝑦𝑖(〈𝑤, 𝑥𝑖〉 + 𝑏) − 1]

𝑖=1 (2.1.13)

Vì nhân tử Lagrange là một hàm lồi (convex) nên với mọi 𝛼 cặp (𝑤∗, 𝑏∗) là nghiệm cực tiểu toàn cục của 𝐿(𝑤, 𝑏, 𝛼) nếu và chỉ nếu đạo hàm riêng theo w và b

bằng 0 ∇𝑤,𝑏𝐿(𝑤∗, 𝑏∗, 𝛼) = 0 (2.1.14) Kết hợp (2.1.10), (2.1.11) và (2.1.14) ta có bài toán: max 𝑤,𝑏,𝛼𝐿(𝑤, 𝑏, 𝛼) (2.1.15) ∇𝑤,𝑏𝐿(𝑤, 𝑏, 𝛼) = 0 (2.1.16) 𝛼𝑖 ≥ 0, ∀𝑖 = {1, … , 𝑚} (2.1.17)

31 Ràng buộc (2.1.16) được cụ thể: 𝜕𝐿 𝜕𝑤𝑘 = 0 ⟹ 𝑤𝑘 = ∑𝑚 𝛼𝑖𝑦𝑖𝑥𝑘𝑖 𝑖=1 , 𝑘 = 1, … , 𝑛 (2.1.18) 𝜕𝐿 𝜕𝑏 = 0 ⟹ ∑𝑚 𝛼𝑖𝑦𝑖 = 0 𝑖=1 (2.1.19) 2.1.2.2 Lề cứng (hard – margin)

Thay thế (2.1.18) và (2.1.19) vào (2.1.13), ta chuyển bài toán chọn w và b để cực đại hóa lề (margin), hay khoảng cách giữa hai siêu mặt song song ở xa nhau nhất có thể trong khi vẫn phân tách được dữ liệu, thành bài toán:

∑𝑚 𝛼𝑖−12 𝑖=1 ∑ ∑ 𝛼𝑖𝛼𝑗𝑦𝑖𝑦𝑗〈𝑥𝑖, 𝑥𝑗〉 ⟶ max 𝛼 𝑚 𝑗=1 𝑚 𝑖=1 (2.1.20) ∑𝑚 𝛼𝑖𝑦𝑖 = 0 𝑖=1 (2.1.21) 𝛼𝑖 ≥ 0, ∀𝑖 = {1, … , 𝑚} (2.1.22) Chúng ta tiếp tục chuyển sang bài toán đối ngẫu của (2.1.20), (2.1.21), và (2.1.22), ta có bài toán phân lớp nhị phân SVM lề cứng (hard-margin) như sau:

1 2∑ ∑ 𝛼𝑖𝛼𝑗𝑦𝑖𝑦𝑗〈𝑥𝑖, 𝑥𝑗〉 − ∑ 𝛼𝑖 𝑚 𝑖=1 ⟶ min 𝛼 𝑚 𝑗=1 𝑚 𝑖=1 ∑ 𝛼𝑖𝑦𝑖 = 0 𝑚 𝑖=1 −𝛼𝑖 ≤ 0, ∀𝑖 = {1, … , 𝑚} Chúng ta nhận xét sau đây:

Bài toán đối ngẫu chỉ phụ thuộc vào số lượng mẫu (𝛼 = (𝛼1, 𝛼2, … , 𝛼𝑚)) Bài toán đối ngẫu này có thể giải bằng phương pháp quy hoạch toàn phương (quadratic programming).

Bài toán (2.1.20), (2.1.21), và (2.1.22) có thể được viết lại: 1 2𝛼𝑇[𝑦 1𝑦1〈𝑥1, 𝑥1〉 𝑦1𝑦2〈𝑥1, 𝑥2〉 … … 𝑦𝑚𝑦1〈𝑥𝑚, 𝑥1〉 𝑦𝑚𝑦2〈𝑥𝑚, 𝑥2〉 … 𝑦1𝑦𝑚〈𝑥1, 𝑥𝑚〉 … … … 𝑦𝑚𝑦𝑚〈𝑥𝑚, 𝑥𝑚〉] 𝛼 + (−1) 𝑇𝛼(2.1.23) 𝑦𝑇𝛼 = 0 (2.1.24) −𝛼𝑖 ≤ 0, ∀𝑖 = {1, … , 𝑚} (2.1.25)

Chúng ta có thể chuyển bài toán (2.1.23), (2.1.24), và (2.1.25) về dạng bài toán quy hoạch toàn phương điển hình như sau:

1 2𝛼𝑇𝑃𝛼 + 𝑞𝑇𝛼 ⟶ min 𝛼 (2.1.26) 𝐴𝛼 = 𝑏 (2.1.27) 𝐺𝛼 ≤ ℎ (2.1.28) Bằng cách đặt: 𝑃 = [𝑦𝑖𝑦𝑗〈𝑥𝑖, 𝑥𝑗〉]𝑚×𝑚 𝑞𝑇 = [−1]𝑚×1 𝐴 = 𝑦𝑇 𝑏 = 0 𝐺 = [−1]𝑚×𝑚 ℎ = [0]𝑚×1 Chú ý thêm rằng: 𝑦 = [𝑦𝑖]𝑚×1 𝑋 = [𝑥𝑘𝑖]𝑚×𝑛 𝛼 = [𝛼𝑖]𝑚×1

Khi đó ta có thể sử dụng thư viện gói CVXOPT [4] để giải bài toán toàn phương (quadratic programming):

importcvxopt.solvers

solution =cvxopt.solvers.qp(P, q, G, h, A, b)

2.1.2.3 Lề mềm (soft – margin)

Để ý rằng nếu dữ liệu huấn luyện có thể được chia tách một cách tuyến tính, thì ta có thể chọn hai siêu phẳng của lề sao cho không có điểm nào ở giữa chúng và sau đó tăng khoảng cách giữa chúng đến tối đa có thể. Bằng hình học, ta tìm được khoảng cách giữa hai siêu phẳng là 2

‖𝑤‖ . Ta muốn cực tiểu hóa giá trị ‖𝑤‖.

Nếu không tồn tại siêu phẳng nào phân tách được hai lớp dữ liệu, thì thuật toán lề mềm sẽ chọn một siêu phẳng phân tách các dữ liệu huấn luyện tốt nhất có thể, và đồng thời cực đại hóa khoảng cách giữa siêu phẳng với các dữ liệu được gán đúng

nhãn. Phương pháp này sử dụng các biến bù 𝜀𝑖, dùng để đo độ sai lệch của dữ kiện 𝑥𝑖:

yi(〈𝑤, 𝑥𝑖〉 + 𝑏) ≥ 1 − 𝜀𝑖, ∀𝑖 = {1, … , 𝑚} 𝜀𝑖 > 0, ∀𝑖 = {1, … , 𝑚}

Khi đó hàm mục tiêu của chúng ta là: 1

2‖𝑤‖2⟶ min 𝑤,𝑏,𝜀

Với ràng buộc trên thì hàm mục tiêu này có thể nhỏ tùy ý khi điều chỉnh 𝜀𝑖 > 0 tùy ý. Do vậy, hàm mục tiêu có thêm một số hạng mới để phạt thuật toán khi 𝜀𝑖 ≠ 0, và bài toán tối ưu hóa trở thành việc trao đổi giữa lề lớn và mức phạt nhỏ. Nếu hàm mục tiêu là tuyến tính thì bài toán trở thành:

1 2‖𝑤‖2+ 𝐶 ∑𝑚 𝜀𝑖 ⟶ 𝑖=1 min 𝑤,𝑏,𝜀 (2.1.29) yi(〈𝑤, 𝑥𝑖〉 + 𝑏) ≥ 1 − 𝜀𝑖, ∀𝑖 = {1, … , 𝑚} (2.1.30) 𝜀𝑖 ≥ 0, ∀𝑖 = {1, … , 𝑚} (2.1.31) Có thể giải bài toán trên bằng nhân tử Lagrange. Bài toán cần giải trở thành: min 𝑤,𝜀,𝑏max 𝛼,𝛽 {1 2‖𝑤‖2+ 𝐶 ∑ 𝜀𝑖− 𝑚 𝑖=1 ∑ 𝛼𝑖[𝑦𝑖(〈𝑤, 𝑥𝑖〉 + 𝑏) − 1 + 𝜀𝑖] − 𝑚 𝑖=1 ∑ 𝛽𝑖𝜀𝑖 𝑚 𝑖=1 } với 𝛼𝑖, 𝛽𝑖 ≥ 0. Sau đó dùng các phép biến đổi như trong [3], bài toán (2.1.29), (2.1.30), và (2.1.31) cuối cùng chúng ta đưa được về dạng:

∑ 𝛼𝑖−1 2 𝑚 𝑖=1 ∑ ∑ 𝛼𝑖𝛼𝑗𝑦𝑖𝑦𝑗〈𝑥𝑖, 𝑥𝑗〉 ⟶ max 𝛼 𝑚 𝑗=1 𝑚 𝑖=1 (2.1.32) ∑𝑚 𝛼𝑖𝑦𝑖 = 0 𝑖=1 (2.1.33) 0 ≤ 𝛼𝑖 ≤ 𝐶, ∀𝑖 = {1, … , 𝑚} (2.1.34) Bài toán trên không khác gì bài toán (2.1.20), (2.1.21) và (2.1.22), ngoại trừ điều kiện thêm cho biến 𝛼𝑖 bị chặn trên bởi C.

Ưu điểm của việc dùng hàm phạt tuyến tính là các biến bù biến mất khỏi bài toán đối ngẫu, và hằng số C chỉ xuất hiện dưới dạng một chặn trên cho các nhân tử Lagrange. Cách đặt vấn đề trên đã mang lại nhiều thành quả trong thực tiễn. Tham số

toán trở thành bài toán lề cứng (hard margin). Giá trị của C càng lớn thì độ cho phép các ngoại lệ càng lớn.

Trong quá trình huấn luyện, tham số C sẽ tác động trực tiếp tới số các ngoại lệ cho phép, và C ảnh hưởng tới số support vectors dùng trong mô hình. Cụ thể (Hình 2.1.11):

Giá trị của C càng nhỏ thì càng có nhiều điểm ngoại lệ. Điểm nhạy cảm của thuật toán với tập dữ liệu huấn luyện càng lớn (phương sai cao hơn và độ lệch nhỏ hơn).

Giá trị của C càng lớn thì càng có ít điểm ngoại lệ. Độ nhạy cảm của thuật toán với tập dữ liệu huấn luyện càng nhỏ (phương sai nhỏ hơn và độ lệch lớn hơn).

ỨNG DỤNG CỦA MÁY HỌC

Xây dựng siêu phẳng tuyến tính