Tính chất nổi bật của SVM là đồng thời cực tiểu lỗi phân lớp và cực đại khoảng cách lề giữa các lớp
Giả sử rằng có một số điểm dữ liệu thuộc một trong hai lớp, và mục tiêu là xác định xem dữ liệu mới thêm vào sẽ thuộc lớp nào đồng thời coi mỗi điểm dữ liệu mới thêm vào như một vector p chiều và ta muốn biết liệu có tách được những điểm đó bằng một siêu phẳng p-1 chiều hay không (được gọi là phân loại tuyến tính).
Xem dữ liệu đầu vào như hai tập vector n chiều, một SVM sẽ xây dựng một siêu phẳng riêng biệt trong không gian n chiều đó sao cho nó tối đa hóa biên lề giữa hai tập dữ liệu.
Để tính lề, hai siêu phẳng song song được xây dựng, mỗi cái nằm ở một phía của siêu phẳng phân biệt và chúng được đẩy về phía hai tập dữ liệu.
Thực tế, một phân biệt tốt sẽ thu được siêu phẳng có khoảng cách lớn nhất đến các điểm lân cận của hai lớp, vì lề càng tốt thì sai số tổng quát hóa của bộ phận phân lớp càng tốt hơn. Trong hình 3.5 thì H2 là siêu phẳng tốt
Hình 3.5. Phân lớp nhị phân sử dụng SVM
Với bộ phân lớp nhị phân
Cho tập dữ liệu học gồm n dữ liệu đã gán nhãn D={(x1, y1), (x1, y1), …, (xn, yn)} với yi ∈ {-1, 1} là một số nguyên xác định lớp của xi. Khi đó mỗi xi là một văn bản được biểu diễn dưới dạng một vector thực gồm d chiều. Bộ phân lớp tuyến tính (mô hình phân lớp) được xác định thông qua một siêu phẳng có dạng:
f(x) = w.x - b = 0
Trong đó: w là vector pháp tuyến của siêu phẳng và b đóng vai trò là tham số mô hình
Bộ phân lớp nhị phân : h: Rd→ { 0, 1} được xác định thông qua dấu của f(x) h(x)
Để tìm một siêu phẳng phân cách có lề lớn nhất, xây dựng các vector hỗ trợ và siêu phẳng song song với các siêu phẳng phân cách và gần vector hỗ trợ nhất, đó là hàm:
w.x – b = 1 w.x – b = -1
Khoảng cách giữa 2 siêu phẳng là do đó cần phải cực tiểu hóa ||w|| để đảm bảo với mọi i ta có:
w.x – b > 1 cho lớp thứ nhất w.x – b <-1 cho lớp thứ hai
Hình 3.6. Biểu diễn siêu phẳng lề cực đại cho bộ phân lớp SVM nhị phân