3.2.2.1 Máy vector hỗ trợ sử dụng phương pháp qui nạp
Máy vector hỗ trợ [41] có các cơ sở lý thuyết vững chắc và đạt được những thành công thực nghiệm xuất sắc. Chúng cũng được áp dụng cho những bài toán như: nhận dạng số viết bằng tay [24], nhận dạng đối tượng [13], và phân lớp văn bản [37][33].
Hãy xét thuật toán SVM cho bài toán phân lớp nhị phân. Cho tập huấn luyện ; E M là các vector trong không gian X⊆Rd và tập các nhãn ; E M với yi∈ {-1,1}. Theo cách hiểu thông thường nhất, thì SVMs là các siêu phẳng chia tập dữ liệu huấn luyện bằng một lề cực đại. Tất cả các vector nằm trên một mặt của siêu phẳng đều được gán nhãn là -1, và tất cả các
vector nằm trên mặt kia đều được gán nhãn là 1. Các vector huấn luyện gần siêu phẳng nhất gọi là vector hỗ trợ (support vector).
Hình 3.5 (a) Máy hỗ trợ vector tuyến tính đơn giản. (b) Máy hỗ trợ vector (đường nét đứt) và máy hỗ trợ vector hồi quy (đường nét liền). Những vòng tròn biểu diễn dữ liệu chưa được gán nhãn.
Nói chung, SVMs cho phép chiếu dữ liệu huấn luyện gốc trong không gian X sang một không gian đặc trưng F nhiều chiều hơn thông qua một phép phân Mercer K. Nói cách khác chúng ta có tập các bộ phân lớp như sau:
( +NO GP
M Q&
R++++++++++++++++++++++++++++++++++++++3.S Khi K thỏa mãn điều kiện Mercer [12] thì PT U +ΦT.ΦU trong đó Φ: X→Y và “⋅” là phép tích trong (inner product). Ta có thể viết lại như sau:
+( V.Φ WBX+YZ++V O GΦ
M Q&
+++++++++++++++++++++++++3.[ Do vậy, bằng cách sử dụng K chúng ta có thể ánh xạ dữ liệu huấn luyện sang một không gian đặc trưng (thường là nhiều chiều hơn). Siêu phẳng lề cực đại được chỉ ra trong biểu thức 3.8. Sau đó SVM tính các αi tương ứng với siêu phẳng có lề cực đại trong không gian F. Khi chọn các hàm nhân khác nhau thì có thể ánh xạ dữ liệu huấn luyện từ không gian X sang F sao cho các
siêu phẳng trong F sao cho các siêu phẳng trong F tương ứng với các đường biên quyết định phức tạp hơn trong không gian gốc X.
Hai hàm nhân thường sử dụng là hàm nhân đa thức P\ # \. # ] tạo ra đường biên đa thức bậc p trong không gian đầu vào X và
hàm nhân radial basis fuction ^_ ` abcdbe.dbe tạo đường biên bằng
cách định vị trọng số Gauss dựa trên các dữ liệu huấn luyện chính. Trong hình 3.6 minh họa đường biên quyết định trong không gian đầu vào X của một SVM sử dụng hàm nhân đa thức bậc 5. Đường biên quyết định được làm cong trong không gian X tương ứng với siêu phẳng lề cực đại trong tập thuộc tính F.
Các tham số αi xác định SVM có thể được tìm trong hàm đa thức thời gian bằng cách giải quyết bài toán tối ưu lồi[42]:
fg G ;Eg Gh GhhPi (3.10) với : αi > 0 i=1…n
3.2.2.2 Máy vector hỗ trợ sử dụng phương pháp transduction
Giả sử tập dữ liệu huấn luyện đã được gán nhãn và bài toán đặt ra là tạo ra một bộ phân lớp thực hiện tốt trên tập dữ liệu kiểm tra chưa biết. Thêm vào trong phương pháp qui nạp thông thường, SVMs có thể sử dụng cho bài toán transduction. Đầu tiên là cho tập dữ liệu đã gán nhãn và chưa gán nhãn. Bài toán học là phải khai báo các nhãn tới các dữ liệu chưa gán nhãn càng chính xác càng tốt. SVMs có thể thực hiện phương pháp transduction bằng cách tìm các siêu phẳng làm cực đại hóa lề liên quan đến dữ liệu đã gán nhãn và chưa gán nhãn. Ví dụ được thể hiện ở hình 3.5b. Gần đây, các transduction SVM(TSVM) còn được sử dụng để giải quyết bài toán phâp lớp văn bản [37][38] đã đạt được một số tiến bộ trong việc thực hiện cân bằng tỉ số độ chính xác/độ hồi phục (precision/recall) trên các SVM qui nạp.
Hình 3.6 Máy hỗ trợ vector sử dụng hàm nhân đa thức bậc 5.
Không giống SVM, TSVM có độ phức tạp thời gian đa thức, chi phí để tìm được hướng giải quyết cho TSVM tăng lên theo hàm mũ cùng với sự tăng của dữ liệu chưa được gán nhãn. Bằng trực quan, ta phải gán tất cả các nhãn có thể cho dữ liệu chưa gán nhãn, và mỗi một nhãn phải tìm một siêu phẳng có lề cực đại. Do vậy sẽ sử dụng thuật toán xấp xỉ thay thế. Ví dụ, Joachims sử dụng dạng tìm kiếm quỹ tích để gán nhãn và tái gán nhãn cho dữ liệu chưa được gán nhãn để cải tiến kích thước của lề.