T={(xi, yi) | xi ∈ ℝd , yi ∈ {−1, 1}} với i=1..n
Trong đó yi xác định lớp của điểm xi, yi nhận giá trị −1 hoặc +1. Mỗi xi là một vectơ thực d chiều. Ta cần tìm siêu phẳng có lề cực đại chia tách các điểm có yi=−1 và các điểm có yi=1.
Mỗi siêu phẳng có thể đƣợc viết dƣới dạng một tập hợp các điểm x thỏa mãn w.x − b = 0. Trong đó dấu chấm ( ) kí hiệu của tích vô hƣớng và w là một vectơ pháp tuyến của siêu phẳng.
Tham số xác định khoảng cách giữa gốc tọa độ và siêu phẳng theo
hƣớng vectơ pháp tuyến của w.
Nhiệm vụ của chúng ta là cần chọn w và b sao cho lề đạt cực đại, hay
phân loại đƣợc dữ liệu. Hai siêu mặt phẳng đƣợc xác định bằng phƣơng trình sau: w.x− b =1 và w.x− b =−1
Chú ý rằng nếu dữ liệu huấn luyện có thể đƣợc chia tách một cách tuyến tính, thì ta có thể chọn hai siêu phẳng của lề sao cho không có điểm nào ở giữa chúng và sau đó tăng khoảng cách giữa chúng đến tối đa có thể. Bằng hình học, ta tìm đƣợc khoảng cách giữa hai siêu phẳng là . Vì vậy ta phải cực tiểu hóa giá trị ||w||. Để
đảm bảo không có điểm dữ liệu nào trong lề, ta thêm vào các điều kiện sau, với mỗi i ta có:
w.xi –b >1 cho xi thuộc lớp thứ nhất (+1). hoặc
w.xi –b <−1 cho xi thuộc lớp thứ hai (-1).
Có thể viết gọn lại nhƣ sau với mọi 1 ≤ i ≤ n, yi(w.xi −b) ≥1 (1)
Tóm lại, ta có bài toán tối ƣu hóa sau: Cực tiểu hóa ||W|| (theo w, b) với điều kiện (với mọi i=1,..., n) yi(w.xi −b) ≥1.
Tuy nhiên bài toán tối ƣu này tƣơng đối khó giải vì hàm mục tiêu phụ thuộc vào ||w||, là một hàm có khai căn. Tuy nhiên có thể thay ||w|| bằng hàm mục tiêu 1/2||w||2 (hệ số 1/2 để tiện cho các biến đổi toán học sau này) mà không làm thay đổi lời giải (lời giải của bài toán mới và bài toán ban đầu có cùng w và b). Đây là một bài toán quy hoạch toàn phƣơng. Cụ thể:
Bằng cách thêm các nhân tử Lagrange α, bài toán trên trở thành
nghĩa là ta cần tìm một điểm nằm trên lề để thỏa mãn điều kiện trên. Khi đó, tất cả các điểm không nằm trên lề, nghĩa là yi(w.xi −b) >1 đều không ảnh hƣởng đến giá trị hàm mục tiêu vì ta có thể chọn αi =0.
Có thể giải bài toán này bằng các kĩ thuật thông thƣờng cho quy hoạch toàn phƣơng. Theo điều kiện Karush–Kuhn–Tucker, lời giải có thể đƣợc viết dƣới dạng tổ hợp tuyến tính của các vectơ huấn luyện.
Chỉ có một vài αi nhận giá trị > 0. Các điểm xi tƣơng ứng là các vectơ hỗ trợ nằm trên lề và thỏa mãn yi(w.xi −b) = 1 . Từ điều kiện này, ta nhận thấy
w.xi – b = 1/yi = yi ⟺w.xi −yi
từ đó ta suy ra đƣợc giá trị b. Trên thực tế, Cách tốt hơn để tính b là tính giá trị trung bình từ tất cả NSV vectơ hỗ trợ:
Máy véc tơ hỗ trợ truyền dẫn
Phƣơng pháp TSVM tìm kiếm sự tách biệt lớn nhất giữa các dữ liệu đã gán nhãn và chƣa gán nhãn thông qua quy chuẩn. Trong các nghiên cứu thực nghiệm, nó thực hiện tốt với phân lớp văn bản, tuy nhiên có thể thực hiện tồi hơn phƣơng pháp SVM trong một số ứng dụng khác.
TSVM đƣợc xem nhƣ sự mở rộng của phƣơng pháp SVM chuẩn (Vapnik, 1998) với dữ liệu chƣa gán nhãn. Trong phƣơng pháp SVM chuẩn, chỉ có dữ liệu đã gán nhãn là đƣợc sử dụng, mục đích là tìm ra một lề cực đại. Trong TSVM dữ liệu chƣa gán nhãn cũng đƣợc sử dụng. Mục đích là tìm ra nhãn cho các dữ liệu chƣa gán nhãn, do đó một lề cực đại trên cả dữ liệu đã gán nhãn gốc và dữ liệu chƣa gán nhãn (sẽ đƣợc gán nhãn về sau này). Đƣờng biên quyết định có lỗi tổng quát nhỏ nhất giới hạn trên dữ liệu chƣa gán nhãn. Bằng trực giác, dữ liệu chƣa gán nhãn chỉ ra ranh giới giữa các vùng dữ liệu dày đặc. Tuy nhiên, việc tìm ra chính xác giải pháp TSVM là NP-Khó.
Phƣơng pháp:
Trong học nửa giám sát, một tập dữ liệu đã đƣợc gán nhãn (Xℓ, Yℓ) = {(Xi, Yi)} ( trong đó I = [1, nℓ] ), và một tập dữ liệu chƣa đƣợc gán nhãn X = {Xj} (trong đó j = [nℓ+1, n]) và n = nℓ + n . Ở đây Xi = ( Xi1,..., Xip) là các vector đầu vào d-chiều và Yi ∈ {−1, 1}, phân phối độc lập và giống nhau, theo một bảng phân phối không biết trƣớc P(x, y) và X đƣợc phân phối theo P(x).