Hình 3.3. Ánh xạ không gian đặc trưng 2 chiều sang 3 chiều.
Trong thực tế, những dữ liệu phân tách cần một mặt phi tuyến bất kỳ không chỉ đơn giản là tuyến tính như Hình 3.1. Giả sử các mẫu xithuộc không gian Rn, không gian này được gọi là không gian giả thiết (hypothesis space). Để tìm mặt phi tuyến trong không gian này, có thể áp dụng một thủ thuật ánh xạ các vector mẫu xi từ Rn vào không gian Rd có số chiều lớn hớn (d>n, thậm chí d có thể không giới hạn). Rd
được gọi là không gian đặc trưng (feature space). Sau đó áp dụng SVM tuyến tính để tìm ra một siêu phẳng phân hoạch trong không gian đặc trưng Rd. Siêu phẳng này ứng với mặt phi tuyến trong không gian Rn
.
Ta thực hiện ánh xạ không gian Rn
vào không gian Rd như sau: Gọi ánh xạ được áp dụng là p, khi đó:
f : Rn Rd x f(x)
Ví dụ: x = (x1,x2) thuộc R2. Ta sử dụng ánh xạ f: R2 R3
như sau:
P x = (x12, 2x1x2, x22 )
Với cách ánh xạ này, các điểm trong không gian 2 chiều chỉ có thể phân tách bằng đường cong thì có thể phân chia bằng mặt phẳng trong không gian 3 chiều. Có nghĩa, ta đã áp dụng hàm ϕ(xi) để thay đổi số chiều của không gian đặc trưng.
Vấn đề đặt ra ở đây là hàm ϕ có số chiều rất lớn ( tương ứng với không gian Rd
có d lớn). Việc chuyển về không gian có số chiều như thế để thực hiện việc tính toán là một điều cản trở lớn. Một điều thật tuyệt vời để vượt quá trở ngại đó, nhận thấy rằng phép tính ϕxuất hiện dạng tích vô hướng tực dạng ϕ(x)ϕ(y)mà không xuất hiện đơn lẻ ϕ(x) hoặc ϕ(y)[15]. Từ quan sát này, ta có thể đưa đến hướng giải quyết sau: thay vì việc chuyển về không gian nhiều chiều để tính toán tường minh theo công thức của ϕ(x) ta chỉcần sử dụng hàm để biểu diễn giá trị vô hướng của ϕ(x)ϕ(y).
Đặt K(x,y) = ϕ(x)ϕ(y), khi đó ta gọi K(x,y) là hàm hạt nhân (kernel function). Với cách giải quyết này, chuyển bài toán từ việc tìm hàm ϕ(x) trongkhông gian lớn, ta chỉ cần tìm dạng của hàm K(x,y), không quan tâm đến ϕ(x).
Tuy nhiên, hàm K(x,y) không phải bất kỳ mà phải thỏa mãn điều kiện là tồn tại hàm ϕ để K(x,y) = ϕ(x)ϕ(y).Và điều kiện Mercer chính là điều kiện để đảm bảo hàm hạt nhân K.
Như vậy, bản chất của phương pháp SVM phi tuyến là tìm một hàm kernel K(x,y) thỏa mãn điều kiện Mercer, sau đó giải bài toán lề mềm với việc thay x1x2 = K(x1,x2).
Vấn đề khó bây giờ chuyển về việc xác định hàm K(x,y). Về bản chất hàm K sẽ đưa không gian giả thiết về không gian đặc trưng có chiều lớn hơn để có khả năng phân tách dữ liệu trên không gian đó. Như vậy, sẽ tùy bài toán, tùy dữ liệu để chọn được hàm K(x,y) phù hợp. Sự kết hợp hàm nhân vào SVM ta thu được một mô hình nhận dạng SVM.
Một số hàm Kernel tiêu biểu được sử dụng trong nghiên cứu và cài đặt tích hợp trong nhiều thư viện SVM bao gồm:
Hàm tuyến tính K(x,y) = x.y
Hàm đa thứcK(x,y) = (c+xy)p
Chiều không gian đặc trưng ứng với hàm này là𝑑 = 𝐶𝑛+𝑝−1𝑝 . Hàm này có khả năng chuyển tất cả các mặt cong bậc p trong không gian Rn thành siêu phẳng trong không gian đặc trưng.
Hàm bán kính cơ sở - RBF (Radial Basis Function)
𝐾 𝑥, 𝑦 = 𝑒−𝛾|𝛾−𝑥| 2
Hình 3.4. Khả năng phân lớp khi kết hợp SVM với hàm nhân
Chiều của không gian đặc trưng ứng với hàm này là vô cùng. Do đó, về lý thuyết nó có thể chuyển một mặt cong bất kỳ trong không gian Rn thành siêu phẳng trong không gian đặc trưng. Từ công thức của hàm ta rút ra nhận xét: x, y không quan hệ qua tích vô hướng mà liên hệ theo khoảng cách Euclid ||x-y||2.