V. Kết luận
1 Đặc trưng thống kê (miền thời gian) của tín hiệu
3.2.1 Giới thiệu SVM
Support Vector Machines (SVM) là kỹ thuật mới đối với việc phân lớp dữ liệu, là phương pháp học sử dụng không gian giả thuyết các hàm tuyến tính trên không gian đặc trưng nhiều chiều, dựa trên lý thuyết tối ưu và lý thuyết thống kê. Trong kỹ thuật SVM không gian dữ liệu nhập ban đầu sẽ được ánh xạ vào không gian đặc trưng và trong không gian đặc trưng này mặt siêu phẳng (hyperplane) phân chia tối ưu sẽ được xác định.
Máy vector hỗ trợ SVM ra đời từ lý thuyết học thống kê do Vapnik xây dựng năm 1995, (Cortes C. and Vapnik V,1995). Ban đầu SVM được phát triển để giải quyết các bài toán phân loại. Hiện nay nó đã được mở rộng để giải quyết các bài toàn hồi quy. Tuy nhiên, ở đây chỉ giới thiệu các khái niệm tổng quan về SVM dùng cho phân loại.
Bất kỳ một bài toán nào đều có thể quy về bài toán phân loại 2 lớp mà không mất đi tính tổng quát. Mục đích của bài toán phân loại 2 lớp là quyết định lớp nào mà một mẫu N chiều mới sẽ thuộc về bằng cách tạo ra siêu phẳng trong không gian nhiều hoặc vô số chiều. Giả sử ta có tập S gồm p các mẫu học:
( ) ( ) ( )
{ 1, 1 , 2, 2 ,..., p, p }
với vectơ đầu vào n chiều n i
x ∈R thuộc lớp I hoặc lớp II (tương ứng nhãn yi =1 đối với lớp I và yi = −1 đối với lớp II).
Đối với các dữ liệu phân chia tuyển tính, chúng ta có thể xác định được siêu phẳng f x( ) có thể chia tập dữ liệu.
Khi đó, với mỗi siêu phẳng nhận được ta có: f x( )≥0 nếu đầu vào x thuộc lớp dương, và f x( )<0 nếu x thuộc lớp âm:
( ) T
f x =w x+b và y f xi ( )i = y w xi( T i +b)>0 (3.1) trong đó w là vector pháp tuyến N chiều và b là giá trị ngưỡng. Vector pháp tuyến
w xác định chiều của siêu phẳng f x( ), còn giá trị ngưỡng b xác định khoảng cách giữa siêu phẳng và gốc.
Hình 3.2.1: Các siêu phẳng phân loại dữ liệu
Hình 3.2.1 cho thấy có thể có nhiều siêu phẳng giúp phân loại dữ liệu tốt (minh họa với số chiều n=2). Tuy nhiên chỉ có một siêu phẳng có biên (khoảng cách từ nó tới mẫu gần nhất của từng lớp) là lớn nhất.