b. Giai đoạn nhận dạng:
2.2.3. SVM phi tuyến
Trong trường hợp tổng quát, thực tế mặt phân hoạch có thể là một mặt phi tuyến bất kỳ (hình 2.10). Giả sử các mẫu xi thuộc không gian Rn, không gian này được gọi là khơng gian giả thiết. Để tìm mặt phi tuyến trong khơng gian này, có thể áp dụng một thủ thuật ánh xạ các vector mẫu xi từ Rn vào một không gian Rd. Rd gọi là khơng gian đặc trưng, sau đó áp dụng phương pháp SVM tuyến tính để tìm ra một siêu phẳng phân hoạch trong khơng gian đặc trưng Rd. Siêu phẳng này sẽ tương ứng với mặt phi tuyến trong khơng gian Rn.
Hình 2.10: Một mặt phân chia phi tuyến có thể trở thành một siêu phẳng trong không gian lớn hơn [16]
Ánh xạ từ không gian Rn vào không gian Rd:
Gọi ánh xạ được áp dụng là , như vậy:
: Rn Rd
X
Ví dụ: x = (x1, x2) ∈ R2. Định nghĩa hàm ánh xạ : R2 R3 như sau: =
Với ánh xạ trên thì mặt hình vng [-1, 1] x [-1, 1] trong không gian R2 sẽ trở thành một mặt cong trong khơng gian R3 như trong hình 3.14. Bây giờ dùng một mặt phẳng trong khơng gian R3 này thì có thể chia mặt cong trên thành hai phần mà trong khơng gian R2 thì phải dùng một đường cong mới có kết quả phân chia tương ứng.
Hình 2.1: Mặt phẳng [-1,1]x[-1,1] trong R2 thành mặt cong trong R3 [12]
Áp dụng siêu phẳng phân hoạch mềm trong không gian Rd cho các mẫu thì siêu phẳng này sẽ là:
Và từ đó cũng có hàm phân hoạch trong khơng gian Rn là hàm hợp . Đây là một hàm phi tuyến.
Cách tiếp cận trên gặp phải một vấn đề là hàm có thể có số chiều rất lớn (nếu khơng gian Rd có d lớn). Và do đó tiêu tốn thời gian nhiều trong các phép tính. Tuy
nhiên có thể nhận xét rằng trong các phép tính chỉ xuất hiện dưới dạng tích vơ hướng tức là dạng mà khơng xuất hiện đơn lẻ. Đây là một nhận xét quan trọng trong việc tìm ra quy tắc sau:
Thay vì sử dụng dạng tường minh của thì chỉ cần sử dụng hàm biểu diễn giá trị vô hướng .
Đặt K(x,y) = , K(x,y) được gọi là hàm hạt nhân (Kernel function)
Như vậy là chỉ cần biết dạng của hàm hạt nhân K(x,y) mà khơng cần biết cụ thể ánh xạ . Lúc đó hàm nhận dạng trở thành:
Tuy nhiên không thể chọn tuỳ ý hàm K(x,y) mà phải chọn K(x,y) sao cho tồn tại một hàm mà K(x,y) = .
Ví dụ với x = (x1, x2) ∈ R2, = thì K(x,y) = = (1 + xy)2.
Tóm lại phương pháp SVM phi tuyến là tìm một hàm kernel K(x, y), sau đó giải bài tốn siêu phẳng phân hoạch mềm với việc thay x1x2 = K(x1, x2) để tìm ra u và b. Cuối cùng xây dựng hàm nhận dạng đối với một mẫu thử x* nào đó là:
Cịn vấn đề là tìm hàm kernel K(x, y) như thế nào. Rõ ràng đây là một vấn đề phụ thuộc vào bài toán nhận dạng. Đối với những bài tốn nhận dạng đơn giản trong đó sự phân bố các mẫu của hai lớp {-1, 1} không quá phức tạp thì có thể tìm hàm
K(x, y) đơn giản sao cho số chiều của không quá lớn.
Tiêu chuẩn đầu tiên để chọn một hàm kernel K là phải tồn tại để K(x,y) = . Tức là K phải thoả mãn điều kiện Mercer.
Giả sử có m điểm mẫu, thành lập một ma trận K m x m như sau: Kij = K(xi, xj).
ma trận nửa xác định dương (các trị riêng của ma trận >= 0) Một số đặc tính của hàm kernel:
Nếu K1(x, y), K2(x, y) là các hàm kernel thì K3(x, y) cũng là hàm kernel với: 1. K3(x, y) = K1(x, y) + K2(x, y)
2. K3(x, y) = αK1(x, y) , α∈R+
3. K3(x, y) = K1(x, y) K2(x, y)
Từ các cơng thức trên có thể suy ra một số hàm kernel như sau: 1. Hàm đa thức:
K(x, y) = (1 + x.y)p
Chiều của không gian đặc trưng ứng với kernel này là d = Cp n+p-1
Kernel này có thể chuyển tất cả các mặt cong bậc p trong không gian Rn thành siêu phẳng trong không gian đặc trưng.
2. Hàm bán kính căn bản Gaussian RBF (Radial Basis Function)
Chiều của không gian đặc trưng ứng với kernel này là ∞. Do đó nó có thể chuyển một đường cong bất kỳ trong không gian Rn thành siêu phẳng trong không gian đặc trưng.
Hình 2.12: RBF Gaussian Kernel có thể chuyển một mặt bất kỳ thành một siêu phẳng [11\2]
Ngồi ra hàm Kernel này có một đặc điểm là x và y khơng liên hệ với nhau qua tích vơ hướng mà là theo khoảng cách Euclid ||x - y||2.
2.3. MẠNG NƠ RON TÍCH CHẬP2.3.1. Khái niệm về mạng nơ ron tích chập