trường hợp dữ liệu không phân chia tuyến tính?
- SVM ban đầu là một thuật toán phân lớp tuyến tính,nhờ áp dụng các hàm kernel, thuật toán có thể tìm ra các siêu phẳng trong không gian phi tuyến đặc trưng biến đổi.
- Mở rộng tích vô hướng thông qua hàm ánh xạ cho biến trong không gian H lớn hơn và thậm chí có thể vô hạn chiều,theo đó đẳng
thức vẫn được giữ đúng.
Trong mỗi đẳng thức,khi chúng ta có tích vô
hướng thì chúng ta cũng tính được tích vô hướng thông qua phép biến đổi các vectors
và nó được gọi là hàm kernel
. xi yi uuruur ( )xi φ uur uurxi . xi yi uuruur ( ). ( )xi yi φ uur φ uur
- Hàm kernel được sử dụng để xác định nhiều quan hệ đầu vào không tuyến tính.
- Đối với hàm kernel tuyến tính ta có thể xác định được nhiều hàm bậc hai hoặc hàm mũ.
- Trong những năm gần đây ,nhiều nghiên cứu đã đi sâu vào nghiên cứu các kernel khác nhau cho sự phân lớp SVM và cho nhiều thống kê thử
c.Có thể thiết kế thuật giải trên cho việc tìm
siêu phẳng phân cách có lề cực đại cho hàng ngàn hay hàng triệu thực thể không?
- Một trong những trở ngại ban đầu của SVM là kém hiệu quả trong việc tính toán.
- Tuy nhiên vấn đề này đang được giải quyết thành công.
+ Cách tiếp cận :chia các vấn đề tối ưu hóa lớn thành các vấn đề nhỏ hơn sao cho cuối cùng chỉ gồm một vài biến được lựa chọn cẩn thận để sự tối ưu hóa đạt hiệu quả cao.Quá trình này
được lặp đi lặp lại cho đến khi tất cả các vấn đề tối ưu hóa được triển khai thành công.
+Một cách tiếp cận mới gần đây là xem xét các vấn đề nghiên cứu về SVM là tìm ra một bao đóng nhỏ nhất của tập mẫu dữ liệu.
Với những mẫu dữ liệu này,khi ánh xạ vào không gian n chiều,đại diện của tập gốc sẽ được sử dụng để xây dựng những bao đóng xấp xỉ
nhỏ nhất của tập mẫu dữ liệu.Phương pháp này đạt hiệu quả rất cao.ta có thể sử dụng máy core- vector để phân lớp được hàng triệu dữ liệu trong vài giây.
5.Transductive support vector machine (TSVM)
- Là một mở rộng của support vector machine chuẩn với dữ liệu chưa gán nhãn.
- Mục tiêu là tìm một gán nhãn của các dữ liệu chưa gán nhãn, sao cho tồn tại một biên tuyến tính có lề cực đại trên cả dữ liệu gán nhãn ban đầu và dữ liệu chưa gán nhãn.
-Giả sử có L mẫu được gán nhãn và U mẫu chưa được gán nhãn gọi là tập U