b. Phân loại các kỹ thuật học máy
2.3.3. Thuật tốn SVM tuyến tính với tập dữ liệu khơng phân tách được
Trường hợp SVM tuyến tính với tập dữ liệu phân tách được là một trường hợp lí tưởng. Với cách tìm lề lớn nhất như trên chỉ giải được khi dữ liệu phân tách được và cách tìm lề này gọi là lề cứng (hard margin). Trong thực tế, dữ liệu huấn luyện cĩ thể bị nhiễu hoặc gán nhãn sai. Một số điểm thuộc lớp +1 nhưng lại nằm trong vùng của lớp -1. Trong trường hợp này cần phải mềm hĩa các ràng buộc hay cịn gọi là sử dụng C-SVM với lề mềm (soft margin). C-SVM cĩ thể gán nhãn sai cho một số mẫu huấn luyện. Nếu khơng tìm được siêu phẳng nào phân tách được hai lớp dữ liệu thì C-SVM sẽ chọn một siêu phẳng phân tách các dữ liệu huấn luyện tốt nhất cĩ thể đồng thời cực đại hĩa khoảng cách giữa siêu phẳng với các dữ liệu được gán nhãn đúng.
Để giải quyết các trường hợp nêu trên cần nới lỏng các điều kiện bằng cách sử dụng ξi ≥ 0 như sau:
<w.xi> + b ≥ 1 - ξi nếu yi = +1 <w.xi> + b ≤ -1 + ξi nếu yi = -1
Đối với một mẫu bị lỗi thì ξi > 1 và sẽ là giới hạn trên của lỗi trong tập dữ liệu huấn luyện.
Như vậy, cần phải tích hợp lỗi trong hàm tối ưu mục tiêu bằng cách gán giá trị chi phí cho các lỗi vào hàm mục tiêu mới. Bài tồn tối ưu gốc chuyển thành như sau:
Với các ràng buộc
i=1,…,n (2.25)
Trong đĩ C > 0 là tham số xác định mức độ chi phí lỗi (penalty degree). C càng lớn thì mức độ chi phí đối với các lỗi càng cao. Nĩ ảnh hưởng đến độ cực đại biên và làm giảm số lượng các biến phụ ξi. Giá trị k=1 được sử dụng phổ biến để cĩ biểu thức đối ngẫu đơn giản hơn.
Như vậy, khác với biên cứng, ngồi tìm cực tiểu hĩa của ||w||2 cịn phải thêm vào khoảng cách của các điểm lỗi đến vị trí đúng của nĩ.
Ảnh hưởng của C đến độ rộng biên và số lượng các biến phụ ξi sẽ được thấy rõ hơn trong hình 2.5 dưới đây [5].
Hình 2.5. Ảnh hưởng của C đến độ rộng biên
Trong hình 2.5 ta thấy với biên mềm C=200 độ rộng của biên là rất bé, chỉ cĩ các điểm ngay sát siêu phẳng mới chịu ảnh hưởng lớn. Điều nay làm gia tăng xác suất phân lớp lỗi. Cịn biên mềm với C=2 thì độ rộng biên lớn hơn, bỏ qua một số điểm ở gần lề khiến tăng số lượng các biến phụ ξi, hướng của siêu phẳng cũng thay đổi vì thế xác suất lỗi cũng giảm.
Bây giờ ta tìm bài tốn đối ngẫu Lagrange:
(2.26) Lấy đạo hàm theo w, b, ξ ta cĩ:
(2.27)
Thay vào ta được:
(2.28)
Vậy bài tốn đối ngẫu Lagrange là:
(2.29) Với các ràng buộc