2.5 Phương pháp máy hỗ trợ vector (support vector machine)
2.5.4 Phân lớp lề mềm
Nếu tập dữ liệu của em khơng được phân chia một cách tuyến tính, cách tiếp cận chuẩn đã giới thiệu ở trên với lề quyết định phẳng cĩ thể tạo ra một vài lỗi (một vài điểm sai cĩ thể nằm ở bên trong hoặc ở vùng bên kia của lề).
Hình 2.12: Phân lớp lề mềm [4]
Em phải tìm ra được giá trị khoảng cách của mỗi điểm bị phân loại sai so với phân lề siêu phẳng. Để giải quyết vấn đề này, em gọi một biến mềm ξi. Biến mềm này cĩ thể được thêm vào để cho phép sự phân lớp sai, kết quả của lề này được gọi là lề mềm.
Do đĩ, điều kiện cho siêu phẳng phân cách trong cơng thức (1) cĩ thể được tính tốn một cách linh hoạt dựa vào biến mềm:
�� (� . �� + �) ≥ 1 − �� (1)
Nếu điểm �� thỏa mãn cơng thức (1), khi đĩ ξi bằng khơng và cơng thức trên cĩ thể tối giản thành cơng thức (1). Ngược lại, nếu �� khơng thỏa mãn cơng thức (1), tham số ξi là hệ số khử ở bên phải của cơng thức (1). Siêu phẳng phân cách tối ưu cĩ thể được tổng quát lại bằng cơng thức sau:
Tối tiểu hĩa:
� 1 ∥ � ∥2+ � ∑ �� 2 =1 �
Với ràng buộc :
��(� . �� + �) ≥ 1 − �� � ≥ 0
Tổng ∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑ �� cĩ thể hiểu là tổng các khoảng cách từ các điểm bị phân loại sai
đến mặt siêu phẳng phân cách. Mặt khác, tổng này cũng làm cho mặt siêu phẳng phân cách tối ưu ít nhạy cảm hơn so với sự xuất hiện của biên ngồi trong tập dữ liệu huấn luyện. Ở đây, C chính là một tham số quy tắc cĩ thể điều khiển giữa hai giá trị: cực đại hĩa lề và tối tiểu hĩa lỗi huấn luyện. Nếu C cĩ giá trị nhỏ thì sẽ cĩ xu hướng nhấn mạnh lề khi bỏ qua biên ngồi trong dữ liệu huấn luyện, nếu C cĩ giá trị lớn thì sẽ xử lý dữ liệu huấn luyện tốt hơn.
Tương tự với các bước với lề tuyến tính như ở trên, em cĩ thể mơ hình lại bài tốn khi áp dụng hàm nhân Lagrange [4]:
Tối tiểu hĩa: L(�) = ∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑ � − 1 ∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑ � � � � � � Với Điều kiện � = 1 � � 2 ,,,,,,,,,,,,,,, � � � � � � ∑ ���� = 0 �=1 0 ≤ �� ≤ �
Mơ hình Lagrange này cũng tương tự như mơ hình với phân lớp tuyến tính, nhưng cĩ thêm biên trên C của ��.