Phương pháp máy véc tơ hỗ trợ SVM (Support Vector Machine) [11, 23] ra đời từ lý thuyết học thống kê do Vapnik và Chervonekis xây dựng năm 1995, và có nhiều tiềm năng phát triển về mặt lý thuyết cũng nhưứng dụng trong thực tế. SVM là một họ
các phương pháp dựa trên cơ sở các hàm nhân (kernel) để tối thiểu hóa rủi ro ước lượng.Các thử nghiệm thực tế cho thấy, phương pháp SVM có khả năng phân loại khá tốt đối với bài toán phân lớp cũng như trong nhiều ứng dụng khác (ước lượng hồi quy, nhân dạng chữ viết tay …).
Hình 9. Hai cách chia không gian véc tơ thành hai nửa riêng biệt
Lề lớn
Lề nhỏ
Véc tơ
34
Ý tưởng của phương pháp là cho trước một tập huấn luyện được biểu diễn trong không gian vector, trong đó mỗi một văn bản được xem như một điểm trong không gian này. Như vậy, rõ ràng có nhiều cách có thể chia không gian này thành hai nửa riêng biệt, hình 9 cho ta một trường hợp ví dụ.
Phương pháp SVM tìm ra một siêu mặt phẳng h (siêu phẳng) quyết định tốt nhất có thể chia các điểm trên không gian này thành hai lớp riêng biệt tương ứng, tạm gọi là lớp âm (-) và lớp dương (+). Chất lượng của siêu phẳng này được quyết định bởi một khoảng cách (được gọi là lề) của điểm dữ liệu gần nhất của mỗi lớp đến mặt phẳng này. Khoảng cách lề càng lớn thì xác suất của việc phân lớp sai sẽ càng nhỏ, tức là càng có sự phân chia tốt các điểm ra thành hai lớp, như vậy, ta sẽđạt được kết quả
phân lớp tốt. Theo [23], bộ phân lớp SVM là mặt siêu phẳng phân tách các mẫu dương khỏi các mẫu âm với độ chênh lệch cực đại, trong đó độ chênh lệch – còn gọi là lề- xác định bằng khoảng cách giữa các mẫu dương và các mẫu âm gần mặt siêu phẳng nhất. Mặt siêu phẳng này được gọi là siêu phẳng lề tối ưu .
Tóm lại, mục tiêu của thuật toán SVM là tìm được khoảng cách lề lớn nhất để tạo kết quả phân lớp tốt. Hình 10 dưới đây cho ta mô tả trực quan về phương pháp SVM.
Hình 10. Mặt siêu phẳng tách các mẫu dương khỏi các mẫu âm.
Mặc dù bản chất của phương pháp này đã được định nghĩa ở trên, nhưng có rất nhiều phiên bản khác nhau của nó, thường thì miền trong của lề trong tập dữ liệu huấn
Các mẫu âm Các mẫu dương Lề Véc tơ hỗ trợ Véc tơ hỗ trợ Siêu phẳng lề tối ưu
35
luyện có thể chứa một lượng nhỏ các điểm, dẫn đến việc không thể phân chia các mẫu âm và các mẫu dương bằng một mặt siêu phẳng tuyến tính, hình 11 là một ví dụ minh họa. Trong trường hợp này, sự không “thẳng” (không tuyến tính) của siêu phẳng được biến đổi trở thành “thẳng” (tuyến tính) bằng cách sử dụng các hàm nhân. Một ví dụ
của biến đổi sử dụng hàm nhân được minh họa trong hình 12 [23].
Hình 11. Trường hợp không thể phân chia các mẫu âm và các mẫu dương bằng một siêu phẳng tuyến tính
Hình 12. Biến đổi siêu phẳng không tuyến tính thành siêu phẳng tuyến tính sử dụng hàm nhân
Việc phân lớp trong trường hợp mở rộng này cũng tương tự trường hợp cơ sở, dựa trên giá trị âm hoặc dương của đầu ra.
36