2.3.1 Phân tách tuyến tính với lề cực đại
Chúng ta hãy bắt đầu SVM bằng một bài tốn khá đơn gián: xây dựng một hàm tuyến tính để phân tách một tập dữ liệu phân loại hai lớp rời nhau. Dữ liệu phân loại hai lớp là một tập các đối tƣợng S gồm l phần tử, trong đĩ mỗi phần tử đƣợc mơ tả bởiVec-tơ d chiều và một giá trị nhãn + 1 hoặc -1:
𝑆 = 𝑥𝑖, 𝑦𝑖 , 𝑥𝑖 ∈ 𝑅𝑑, 𝑦𝑖 ∈ −1,1 , 𝑖 = 1 … 𝑙 .
Khái niệm hai lớp rời nhau cĩ nghĩa là tồn tại một siêu phẳng cĩ phƣơng trình [2]
𝑓 𝑥 = 𝑤. 𝑥 + 𝑏 (3.1) Trong khơng gian Rd nằm giữa hay chia đơi tập dữ liệu S thành hai phần, mỗi phần gồm tồn các đối tƣợng chung một nhãn +1 hay −1. Các siêu phẳng này là các đƣờng thẳng trong khơng gian hai chiều, mặt phẳng trong khơng gian ba chiều, và tổng quát hơn là các khơng gian con
𝑅𝑑−1 chiều trong khơng gian 𝑅𝑑. Khi tập dữ liệu đƣợc dùng để xây dựng nên các siêu phẳng thì S thƣờng đƣợc gọi là tập huấn luyện và các phần tử trong đĩ đƣợc gọi là dữ liệu (hay véc-tơ huấn luyện ).
Cĩ nhiều phƣơng pháp khác nhau cĩ thể tìm ra lời giải của bài tốn trên, ví dụ nhƣ thuật tốn Perceptron của Rosenblatt hay mạng nơ-ron nhân tao, phƣơng pháp phân tách tuyến tính của Fisher và cả SVMs. Chúng ta sẽ cùng tìm hiểu sự khác biệt của SVMs đối với các phƣơng pháp khác thơng qua khái niệm hàm phân tách tuyến tính với lề cực đại. Trƣĩc tiên chúng ta sẽ xem xét hai khái niệm khá quan trọng là lề hàm (functional margin) và lề hình học (geometric margin) của một điểm tới một siêu phẳng nhƣ sau:
Định nghĩa 3.1. Lề hàm của một véc-tơ huấn luyện (xi, yi) đối với siêu phẳng f (x) = 0 là đại lƣợng [2].
𝑝 𝑓 𝑥𝑖, 𝑦𝑖 = 𝑦𝑖 𝑤. 𝑥𝑖 + 𝑏 ( 3.2)
Đối với bài tốn phân loại 2 –lớp 𝑝 𝑓 𝑥𝑖, 𝑦𝑖 > 0 đồng nghĩa với việc phân loại đúng. Với 𝑦𝑖 = 1, giá trị của lề hàm 𝑤. 𝑥 + 𝑏 cĩ giá trị dƣơng và một giá trị càng lớn càng cho thấy mức độ chắc chắn của việc phân loại 𝑥𝑖
vào lớp + 1. Ngƣợc lại, nếu 𝑦𝑖 = 1 thì chúng ta muốn 𝑤. 𝑥 + 𝑏 cĩ giá trị âm với độ lớn tỷ lệ với độ rõ ràng của véc-tơ 𝑥𝑖 thuộc về lớp -1. Trong cả hai trƣờng hợp, nếu giá trị 𝑦𝑖(𝑤. 𝑥 + 𝑏 )> 0, hay lề dƣơng, thì sự chia tách của hàm 𝑓 đối với véc-tơ huấn luyện 𝑥𝑖, 𝑦𝑖 là đúng đắn.
Việc phân loại dựa vào giá trị của lề hàm 𝑝 𝑓 tuy thuận lợi nhƣ đã nêu nhƣng cĩ một nhƣợc điểm là cĩ vơ số hàm 𝑓 cho cùng một giá trị phân loại đúng/sai. Chẳng hạn nhƣ chúng ta thay 𝑤′ bởi 2𝑤 và 𝑏′bởi 2𝑏, thì hàm quyết định khơng thay đổi vì sign 2𝑤. 𝑥 + 2𝑏 = 𝑠𝑖𝑔𝑛 𝑤. 𝑥 + 𝑏 . Nĩi một cách
khác, nhiều hệ số khác nhau của 𝑤 và b cĩ thể cho cùng một kết quả phân loại.
Để đơn giản hĩa vấn đề mà khơng làm mất đi tính tổng quát, chúng ta cĩ thể chọn một giá trị đặc biết của w, chẳng hạn nhƣ 𝑤 = 1 và thay thế bộ (𝑤, 𝑏) bởi ( 𝑤
𝑤 , 𝑏
|𝑤| ). Trong trƣờng hợp này, lề hàm trở thành lề hình học và giá trị tuyệt đối chính là khoảng cách Ơ-clid từ một véc-tơ (điểm) đến siêu phẳng phân cách 𝑓.
Định nghĩa 3.2. Lề hình học của một véc-tơ huấn luyện 𝑥𝑖, 𝑦𝑖 đối với siêu phẳng 𝑓 𝑥 = 0 là đại lƣợng [2]. 𝑝𝑓 𝑥𝑖, 𝑦𝑖 = 𝑦𝑖 𝑤 𝑤 . 𝑥𝑖 + 𝑏 𝑤 (3.3) = 𝑝 𝑓 𝑥𝑖,𝑦𝑖 𝑤
Định nghĩa 3.3. Lề của một tập huấn luyện 𝑠 = {(𝑥𝑖, 𝑦𝑖)}𝑖=1…𝑙 đối với siêu phẳng 𝑓 𝑥 = 0 là giá trị bé nhất của lề hình học tại véc-tơ [2].
𝑝𝑓 = min𝑖=1…𝑙𝑝𝑓 (𝑥𝑖, 𝑦𝑖) (3.4)
Siêu phẳng mà SVM tìm kiếm là siêu phẳng cĩ giá trị lề lớn nhất, hay cịn gọi là siêu phẳng với lề cực đại.
Hình 2.2 - Về mặt trực quan thì hàm tuyến tính siêu phẳng với lề lớn nhất trơng cĩ vẻ hợp lý
Hình 2.3 - Ví dụ về bài tốn phân loại trong khơng gian hai chiều
Dùng một đƣờng thẳng để phân tách các điểm „o‟ và điểm „+‟. Giả sử rằng đƣờng thẳng cĩ lề là p và tọa độ của các điểm „o‟ và điểm „+‟ bị dịch
chuyển qua bán kính r do cĩ nhiễu. Nếu 𝑟 < 𝑝 thì đƣờng thẳng trên vẫn cĩ thể phân tách chính xác các điểm này
Định lý 4.1. Cho một lớp các hàm phân loại 𝑓 𝑥 = 𝑠𝑖𝑔𝑛 𝑤. 𝑥 (coi b=0
cho đơn giản) với 𝑤 ≤ 𝐴 và giả sử tất cả các véc-tơ đều nằm trong một
hình cầu 𝑥 ≤ 𝑅, với R,A> 0. Với p > 0, và v là tỷ lệ các véc-tơ huấn luyện
cĩ lề nhỏ hơn 𝑝
𝑤 gọi là lỗi lề. [2].
Với mọi phân bố P của véc-tơ X, vơi mọi p>0 và δ ∈ (0, 1), với xác suất
ít nhất là 1- δ trên tồn bộ l véc-tơ huấn luyện, khả năng phân loại lỗi đối với
bất kỳ véc-tơ X nào đều nhỏ hơn (bị chặn trên) bởi
(3.6)
Trong đĩ c là một hằng số.
Định lý trên nĩi rằng khả năng phân loại lỗi của 𝑓 đối với một véc-tơ bất kỳ bị chặn trên bởi tổng của lỗi lề v (lỗi huấn luyện) và giá trị trong dấu √... của cơng thức gọi là năng lực của 𝑓. Chúng ta cĩ thể thấy rằng nếu l cĩ giá trị lớn vơ cùng, hay với vơ hạn dữ liệu huấn luyện thì giá trị trong dấu √... tiến tới 0 và lỗi huấn luyện gần trở thành lỗi của hàm phân loại trên tồn bộ P. Với một lƣợng dữ liệu huấn luyện hạn chế, năng lực của 𝑓
tỷ lệ nghịch với R và A, tỷ lệ thuận với lề p. Nếu chúng ta cĩ thể giữ R và A cĩ các giá trị khơng đổi (ví dụ nhƣ chuẩn hĩa dữ liệu trong một siêu cầu cĩ bán kính 1, 𝑥 ≤ 1, và chỉ xét các giá trị 𝑥 = 1), thì thành phần cĩ giá trị ảnh hƣởng lới tới cận trên của lỗi chính là p. Một giá trị lớn hơn của p mang lại một hàm 𝑓 với năng lực nhỏ hơn và một lỗi lề lớn hơn (theo định nghĩa thì v
phần thứ 2 trong cơng thức 3.6 thƣờng đƣợc gọi là mức điều chỉnh/ phạt năng lực sẽ tăng. Nhƣ vậy, để giảm thiểu khả năng phán đốn lỗi chúng ta cần tìm một siêu phẳng 𝑓 với ít lỗi thực hiện (v nhỏ) và giá trị lề p lớn (đây cũng thƣờng là tiêu chí chung của nhiều phƣơng pháp học máy khác nhau: ƣu tiên các mơ hình đơn giản với ít lỗi thực nghiệm).
Với giả thuyết dữ liệu cĩ thể chia tách đƣợc nêu trên (lỗi thực nghiệm bằng 0), siêu phẳng với lề cực đại dƣờng nhƣ là một trong những hàm phân tách tuyến tính tốt nhất do cĩ chặn trên của lỗi là bé nhất.
Một lý do khác mà siêu phẳng với hàm cực đại hay SVM đƣợc dùng thử là đã cĩ rất nhiều bài học thành cơng trên thực tế nhƣ: phân loại văn bản, nhận dạng ảnh, nhận dạng chữ viết.
2.3.1.1. Tìm kiếm siêu phẳng với lề cực đại
Đối với dữ liệu khả tách tuyến tính, thuật tốn SVM đơn giản chỉ là tìm siêu phẳng 𝑓 𝑥 = 𝑤. 𝑥 + 𝑏 cĩ giá trị lề càng lớn càng tốt. Để làm đƣợc điều này, chúng ta cĩ thể giả thiết rằng các giá trị lề tại các điểm huấn luyện 𝑝 𝑓 𝑥𝑖, 𝑦𝑖 ≥ 1 mà khơng làm mất đi tính tổng quát. Điều này tƣơng đƣơng với:
𝑤. 𝑥𝑖 + 𝑏 ≥ 1 𝑘𝑖 𝑦𝑖 = +1, 𝑤. 𝑥𝑖 + 𝑏 ≤ 1 𝑘𝑖 𝑦𝑖 = −1,
hay
𝑦𝑖 𝑤. 𝑥𝑖 + 𝑏 − 1 ≥ 0, 𝑖 = 1, … 𝑙. (3.7) Nếu gọi siêu phẳng 𝐻+: 𝑤. 𝑥 + 𝑏 = +1, và 𝐻−: 𝑤. 𝑥 + 𝑏 = −1, thì lề hình học của gốc tọa độ đối với hai siêu phẳng này lần lƣợt là (𝑏−1)
𝑤 và (𝑏 +1) 𝑤 ,
hay khoảng cách giữa hai siêu phẳng 𝐻+ và 𝐻− là 2
𝑤 . Nhƣ vậy, việc tìm siêu phẳng với lề cực đại tƣơng đƣơng với việc tìm siêu phẳng 𝑓 cĩ giá trị
𝑤 2 nhỏ nhất thỏa mãn điều kiện (3.7):
min 𝑤 ,𝑏
1
2 𝑤 2 (3.8)
Thỏa mãn 𝑦𝑖 𝑤. 𝑥𝑖 + 𝑏 ≥ 1, 𝑖 = 1, … 𝑙. (3.9)
2.3.1.2. Hàm phân loại tuyến tính với lề mềm cực đại
Điều kiện 3.7 dƣờng nhƣ quá cứng nhắc vì trong nhiều ứng dụng thực tế thì khả năng cĩ nhiễu hay phần tử ngoại lai là rất cao. Cho dù bản chất của bài tốn là đơn giản và cĩ thể phân loại tuyến tính một cách hiệu quả, nhƣng chỉ với một phần tử nhiễu hay bị dữ liệu gán nhãn sai cũng cĩ thể làm cho bài tốn tối ƣu 3.8 trở nên vơ nghiệm vì khơng thể tìm ra đƣợc hàm phân tách tuyến tính với lỗi thực nghiệm bằng 0. Trong khi đĩ khả năng kháng nhiễu là một trong những tính chất bắt buộc đối với bất kỳ phƣơng pháp học máy hiệu quả nào.
Để giải quyết vấn đề dữ liệu cĩ nhiễu, SVM chọn giải pháp thay thế ràng buộc 3.7 bởi một ràng buộc khác mềm mại hơn:
𝑦𝑖 𝑤. 𝑥𝑖 + 𝑏 ≥ 1 − ξi, 𝑖 = 1, … , 𝑙. (3.10) ξi ≥ 0, 𝑖 = 1, … , 𝑙. (3.11)
Các biến số ξi trong (3.10) thƣờng đƣợc gọi là biến nới lỏng. Chúng cho phép các véc-tơ huấn luyện cĩ thể cĩ lề hàm nhỏ hơn 1 (hay vi phạm điều kiện cứng), tuy nhiên những véc-tơ này cần chịu một khoản phạt đƣợc tính trong hàm mục tiêu tỷ lệ với mức độ vi phạm và một số C :
min𝑤 ,𝑏 1
2 𝑤 2 + 𝐶 𝑙 ξi
𝑖=1 (3.12)
Tham số C cĩ vai trị cân bằng lỗi thực nghiệm, mức độ vi phạm điều kiện lề “cứng” và cả độ lớn của lề. Khi C = 0 thì cĩ nghĩa là khơng cho phép vi phạm điều kiện lề và yêu cầu tìm hàm f với điều kiện (3.7).
Tĩm tắt lại thì bài tốn tìm kiếm siêu phẳng phân cách với lề mềm cực đại đƣợc viết nhƣ sau:
min 𝑤,𝑏,ξ 1 2𝑤 2 + 𝐶 ξi 𝑙 𝑖=1 3.13 𝑡ỏ𝑎 𝑚ã𝑛 𝑦𝑖 𝑤. 𝑥𝑖 + 𝑏 > 1 − ξi, 𝑖 = 1, … , 𝑙. (3.14) ξ𝑖 ≥ 0, 𝑖 = 1, … , 𝑙. (3.15)
2.3.1.3. Lý thuyết tối ƣu Lagrangian
Phƣơng pháp nhân tử La-grăng (Lagrange multiplier) [2] thƣờng đƣợc sử dụng để giải các bài tốn tối ƣu nhƣ trên. Tuy nhiên, với ràng buộc là các bất đẳng thức thì bài tốn gốc này cần đƣợc chuyển thành một dạng bài tốn đối ngẫu dễ giải hơn.
Định nghĩa 3.4. Với bài tốn tối ƣu trên miền xác định lồi Ω ⊆ 𝑅𝑑 min 𝜔 𝑓 𝜔 , 𝜔 ∈ Ω (3.16) đ𝑖ề𝑢 𝑘𝑖ệ𝑛 𝑔𝑖 𝜔 ≤ 0, 𝑖 = 1, . … , 𝑘 (3.17) 𝑖 𝜔 = 0, 𝑖 = 1, . … , 𝑚 (3.18) Hàm số La-grăng tổng quát là hàm số 𝐿 𝜔, 𝛼, 𝛽 = 𝑓 𝑥 + 𝛼𝑖𝛽𝑖 𝜔 + 𝛽𝑖𝑖 𝜔 (3.19) 𝑚 𝑘
Định nghĩa 3.5. Bài tốn đối ngẫu của bài tốn Lagrangian gốc là bài tốn [2] max𝛼 ,𝛽 𝜃(𝛼, 𝛽) (3.20) thỏa mãn 𝛼 ≥ 0 (3.21) với 𝜃 𝛼, 𝛽 = 𝑖𝑛𝑓𝜔 ∈Ω 𝐿 𝜔, 𝛼, 𝛽 (3.22)
Mối quan hệ giữa hai bài tốn gốc và bài tốn đối ngẫu là giá trị tối ƣu của bài tốn đối ngẫu bị chặn trên bởi các giá trị của bài tốn gốc:
sup 𝜃 𝛼, 𝛽 : 𝛼 ≥ 0 ≤ inf 𝑓 𝜔 : 𝑔 𝜔 ≤ 0, 𝜔 = 0 (3.23)
Hơn thế nữa, nếu 𝜔∗ và (𝛼∗𝛽∗) là các giá trị nằm trong miền xác định của hai bài tốn và 𝑓 𝜔∗ = 𝜃 𝛼, 𝛽 , thì 𝜔∗và (𝛼∗, 𝛽∗) tƣơng ứng là hai nghiệm của hai bài tốn gốc và bài tốn tối ƣu. Đồng thời định lý The Kuhn- Tucker dƣới đây cho biết rằng nếu hàm mục tiêu 𝑓 là hàm lồi và 𝑔𝑖,𝑖 là các hàm affine, thì sự tồn tại của nghiệm tối ƣu (𝛼∗, 𝛽∗) là điều kiện cần và đủ cho sự tồn tại của 𝜔∗.
Định lý 3.2. (Kuhn-Tucker) [2] Cho bài tốn tối ưu trên miền xác định lồi
Ω ⊆ 𝑅𝑑 min
𝜔 𝑓 𝜔 , 𝜔 ∈ Ω (3.14) đ𝑖ề𝑢 𝑘𝑖ệ𝑛 𝑔𝑖 𝜔 ≤ 0, 𝑖 = 1, . … , 𝑘 (3.25) 𝑖 𝜔 = 0, 𝑖 = 1, . … , 𝑚 (3.26)
Với hàm lồi 𝑓 ∈ 𝐶1 (khả vi) và 𝑔𝑖,𝑖 là các hàm affine, điều kiện cần và
𝜕𝐿(𝜔 ∗, 𝛼∗, 𝛽∗) 𝜕𝜔 = 0 (3.27) 𝜕𝐿(𝜔 ∗, 𝛼∗, 𝛽∗) 𝜕𝛽 = 0 (3.28) 𝛼𝑖∗𝑔𝑖 𝜔∗ = 0, 𝑖 = 1, … , 𝑘 (3.29) 𝑔𝑖 𝜔∗ ≤ 0, 𝑖 = 1, … , 𝑘 (3.30) 𝛼𝑖 ≥ 0, 𝑖 = 1, … , 𝑘 (3.31)
2.3.1.4. Tìm kiếm siêu phẳng với lề cực đại
Trở lại với bài tốn tối ƣu tìm siêu phẳng với lề cực đại ở mục 2.3.1.1
hàm Lagrangian tổng quát của bài tốn XXX là hàm
𝐿 𝜔, 𝑏, ξ, 𝛼, 𝛽 = 1 2𝜔 2+ 𝐶 ξ𝑖 − 𝛼𝑖( 𝑙 𝑖=1 𝑙 𝑖=1 𝑦𝑖 𝜔. 𝑥𝑖 + 𝑏 − 1 + ξ𝑖 − 𝛽𝑖ξ𝑖 𝑙 𝑖=1 (3.32)
Đặt đạo hàm của hàm số Lagrangian bằng khơng đối với các biến số 𝜔,ξ𝑖 𝑣à 𝑏 chúng ta cĩ các mối quan hệ sau:
𝜕𝐿(𝜔, 𝛼, 𝛽) 𝜕𝜔 = 𝜔 − 𝑦𝑖𝛼𝑖𝑥𝑖 𝑙 𝑖=1 = 0 (3.33) 𝜕𝐿(𝜔, 𝛼, 𝛽) 𝜕ξ𝑖 = 𝐶 − 𝛼𝑖 −𝛽𝑖 = 0 (3.34) 𝜕𝐿(𝜔, 𝛼, 𝛽) 𝜕𝑏 = 𝑦𝑖𝛼𝑖 𝑙 𝑖=1 = 0 (3.35)
Thay thế các mối quan hệ trên vào hàm lagrangian, chúng ta cĩ hàm mục tiêu của bài tốn đối ngẫu
𝐿 𝛼, 𝛽 = 1 2 𝑦𝑖𝑦𝑗𝛼𝑖𝛼𝑗𝑥𝑖. 𝑥𝑗 𝑙 𝑖,𝑗 =1 + 𝐶 ξ𝑖 + 𝑙 𝑖=1 𝑦𝑖𝑦𝑗𝛼𝑖𝛼𝑗𝑥𝑖. 𝑥𝑗 𝑙 𝑖,𝑗 =1 − 𝑏 𝛼𝑖𝑦𝑖 𝑙 𝑖=1 − 𝛼𝑖ξ𝑖 + 𝛼𝑖 𝑙 𝑖=1 − 𝛽𝑖ξ𝑖 𝑙 𝑖=1 𝑙 𝑖=1 = −1 2 𝑦𝑖𝑦𝑗𝛼𝑖𝛼𝑗𝑥𝑖. 𝑥𝑗 + ξ𝑖 𝐶 − 𝛼𝑖 −𝛽𝑖 + 𝛼𝑖 𝑙 𝑖=1 𝑙 𝑖=1 𝑙 𝑖,𝑗 =1 = 𝛼𝑖 − 𝑙 𝑖=1 1 2 𝑦𝑖𝑦𝑗𝛼𝑖𝛼𝑗𝑥𝑖. 𝑥𝑗 𝑙 𝑖,𝑗 =1 (3.36)
Hai điều kiện 𝐶 − 𝛼𝑖 − 𝛽𝑖 = 0 và 𝛽𝑖 ≥ 0 làm cho 𝛼𝑖 ≤ 𝐶. Cuối cùng ta đƣợc bài tốn tối ƣu đối ngẫu với điều kiện dễ cĩ thể giải đƣợc hơn
min 𝛼 𝐿 𝛼 = 1 2 𝑦𝑖𝑦𝑗𝛼𝑖𝛼𝑗𝑥𝑖. 𝑥𝑗 𝑙 𝑖,𝑗 =1 − 𝛼𝑖 (3.37) 𝑙 𝑖=1 𝑡ỏ𝑎 𝑚ã𝑛 𝑦𝑖 𝑙 𝑖=1 𝛼𝑖 = 0 (3.38) 0 ≤ 𝛼𝑖 ≤ 𝐶, 𝑖 = 1, … , 𝑙 (3.39)
Điều kiện thứ nhất trong định lý Kuhn-Tucker cĩ liên quan tới một định lý trong học máy thống kê gọi là định lý về sự biểu diễn.Chúng ta thấy rằng một nghiệm tối ƣu 𝛼∗ của bài tốn gốc cĩ thể đƣợc biểu diễn thơng qua một tổ hợp tuyến tính của các véc-tơ huấn luyện 𝑥𝑖 với hệ số 𝛼𝑖 là nghiệm của bài tốn đối ngẫu.
Điều kiện thứ ba trong định lý Kuhn-Tuker, hay cịn gọi là điều kiện Karush-Kuhn-Tuker là [2]
𝛼𝑖(𝑦𝑖 𝜔. 𝑥𝑖 + 𝑏 − 1 + ξ𝑖) = 0, 𝑖 = 1, … , 𝑙 (3.40) ξ𝑖(𝛼𝑖− 𝐶) = 0, 𝑖 = 1, … , 𝑙 (3.41)
Các điều kiện này nĩi lên rằng ξ𝑖 ≠ 0 chỉ sảy ra khi 𝛼𝑖 = 𝐶, và những véc-tơ thỏa 0 < 𝛼𝑖 < 𝐶 sẽ cĩ lề hàm bằng 1 (do ξ𝑖 = 0). Nĩi cách khác, chỉ những rằng buộc thực sự mới cĩ giá trị 𝛼𝑖 ≠ 0 và lời giải tối ƣu của bài tốn gốc chỉ phụ thuộc vào những véc-tơ này. Trong SVM, khái niệm véc-tơ hỗ trợ là nĩi đến véc-tơ huấn luyện cĩ các giá trị nhân tử 𝛼𝑖 tƣơng ứng khác khơng. Do số b của bài tốn gốc khơng cĩ mặt trong bài tốn đối ngẫu nên giá trị tối ƣu 𝑏∗ đƣợc chọn sao cho 𝑦𝑖𝑓 𝑥𝑖 = 1 đối với các chỉ số i mà 0 < 𝛼𝑖∗ < 𝐶.
Bài tốn đối ngẫu là một bài tốn tối ƣu với hàm mục tiêu là hàm bậc 2 (đối với 𝛼∗) cĩ các điều kiện tuyến tính và xác định trên một tập lồi, do vậy cĩ tồn tại duy nhất một nghiệm tối ƣu. Giải bài tốn tối ƣu này chúng ta cĩ đƣợc các hệ số 𝛼𝑖∗, 𝑖 = 1, … , 𝑙 và chúng ta cĩ đƣợc hàm phân tách tuyến tính với lề cực đại:
𝑦 = 𝑠𝑖𝑔𝑛 𝜔∗. 𝑥 + 𝑏
= 𝑠𝑖𝑔𝑛 𝑦𝑖𝛼𝑖∗ 𝛼𝑖≠0
𝑥𝑖. 𝑥 + 𝑏∗ (3.42)
Với bài tốn lề cực đại cứng thì điều kiện 0 ≤ 𝛼𝑖 ≤ 𝐶 đƣợc thay bởi
0 ≤ 𝛼𝑖. Với mức phạt bậc 2 ξ𝑖2 (2-norom) trong trƣờng hợp lề mềm thì ngồi điều kiện thay đổi nhƣ bài tốn lề cứng thì hàm mục tiêu trở thành
min 𝛼 𝐿 𝛼 = 1 2 𝑦𝑖𝑦𝑗𝛼𝑖𝛼𝑗(𝑥𝑖. 𝑥𝑗 𝑙 𝑖,𝑗 =1 +1 𝐶𝛿𝑖𝑗) − 𝛼𝑖 (3.43) 𝑙 𝑖=1
2.3.2. Phƣơng pháp hàm nhân (kernel methods)
Khả tách tuyến tính là một giả thuyết quá mạnh đối với các ứng dụng trong thực tế.Thơng thƣờng thì nhiều bài tốn trong thế giới thực địi hỏi các sự vật, hiện tƣợng cần đƣợc mơ tả bởi những thuộc tính (feature) phức tạp hơn là một tổ hợp tuyến tính của các điểm đặc trƣng (attribute). Một trong những giải pháp cho vấn đề này là mạng nơ-ron nhiều lớp (multilayer neural