Điểm mấu chốt trong mô hình SVM làtìm siêu phẳng với 2 điều kiện: 1) siêu phẳng với lề phân tách dữ liệu lớn nhất; và 2) siêu phẳng phân tách đúng nhiều điểm dữ liệu nhất có thể. Vấn đề sẽ trở lên khó khăn khi chúng ta không luôn luôn tìm được siêu phẳng thỏa mãn cả hai điều kiện đó. Tham số C dùng để xác định cho điều kiện thứ 2. Cụ thể:
- Giá trịC nhỏ sẽ dẫn tới chi phí nhỏ cho phân tách lỗi (misclassification). Khi đó, mô hình SVM sẽ chọn siêu phẳng có lề lớn hơn, ngay cả khi siêu phẳng đó phân tách bị lỗi nhiều hơn. Giá trị C nhỏ sẽ dẫn tới đường biên (boundary) trơn hơn, khi đó bias (độ lệch) lớn và variance (phương sai) nhỏ.
70
- Ngược lại, giá trị của C lớn sẽ dẫn tới chi phí lớn cho phân tách lỗi. Khi đó, mô hình SVM sẽ chọn siêu phẳng có lề nhỏ hơn vì siêu phẳng đó phân tách chính xác hơn các điểm dữ liệu. Giá trị C nhỏ sẽ dẫn tới đường biên (boundary) sẽ phức tạp hơn để phân tách nhiều điểm dữ liệu, khi đó bias (độ lệch) nhỏ và variance (phương sai) lớn.
- Hình 3.4 minh họa cho sự tác động của tham số C. Hình bên trái với C nhỏ có điểm dị biệt (outlier), phân tách sai; trong khi hình bên phải ứng với C lớn, mô hình phân tách đúng mọi điểm dữ liệu.
Hình 3. 4: Hình minh họa cho sự tác động của tham số C
Hình bên trái ứng với giá trị C nhỏ cho lề lớn (khoảng cách đoạn màu tím) nhưng vẫn còn điểm bị phân tách sai. Hình bên phải ứng với giá trị C lớn cho lề nhỏ, nhưng phân tách đúng mọi điểm
Vậy thì bộ phân tách nào lớn hơn. Điều này phụ thuộc vào dữ liệu tương lai mà chúng ta muốn dự đoán. Tất nhiên chúng ta không biết chính xác dữ liệu này nó như thế nào. Giả sử dữ liệu dự đoán của chúng ta giống như Hình 3.5, thì khi đó mô hình với giá trị C lớn sẽ cho độ chính xác tốt hơn.
71
Hình 3. 5: Hình bên trái ứng với giá trị C nhỏ cho lề lớn. Hình bên phải ứng với giá trị C lớn cho lề nhỏ, và trong trường hợp này sẽ cho mô hình phù hợp hơn với hình bên trái.
Tuy nhiên, nếu dữ liệu dự đoán của chúng ta giống như Hình 3.6, thì khi đó mô hình với giá trị C nhỏ sẽ cho độ chính xác tốt hơn.
Hình 3. 6: Hình bên trái ứng với giá trị C nhỏ cho lề lớn, và trong trường hợp này sẽ cho mô hình phù hợp hơn với hình bên phải, ứng với giá trị C lớn cho lề nhỏ
Để xác định được giá trị C phù hợp, phương pháp thường được áp dụng là cross- validation.