Hàm phân loại tuyến tính với lề mềm cực đại- 123docz.net

Điều kiện 3.7 dƣờng nhƣ quá cứng nhắc vì trong nhiều ứng dụng thực tế thì khả năng cĩ nhiễu hay phần tử ngoại lai là rất cao. Cho dù bản chất của bài tốn là đơn giản và cĩ thể phân loại tuyến tính một cách hiệu quả, nhƣng chỉ với một phần tử nhiễu hay bị dữ liệu gán nhãn sai cũng cĩ thể làm cho bài tốn tối ƣu 3.8 trở nên vơ nghiệm vì khơng thể tìm ra đƣợc hàm phân tách tuyến tính với lỗi thực nghiệm bằng 0. Trong khi đĩ khả năng kháng nhiễu là một trong những tính chất bắt buộc đối với bất kỳ phƣơng pháp học máy hiệu quả nào.

Để giải quyết vấn đề dữ liệu cĩ nhiễu, SVM chọn giải pháp thay thế ràng buộc 3.7 bởi một ràng buộc khác mềm mại hơn:

𝑦𝑖 𝑤. 𝑥𝑖 + 𝑏 ≥ 1 − ξi, 𝑖 = 1, … , 𝑙. (3.10) ξi ≥ 0, 𝑖 = 1, … , 𝑙. (3.11)

Các biến số ξi trong (3.10) thƣờng đƣợc gọi là biến nới lỏng. Chúng cho phép các véc-tơ huấn luyện cĩ thể cĩ lề hàm nhỏ hơn 1 (hay vi phạm điều kiện cứng), tuy nhiên những véc-tơ này cần chịu một khoản phạt đƣợc tính trong hàm mục tiêu tỷ lệ với mức độ vi phạm và một số C :

min𝑤 ,𝑏 1

2 𝑤 2 + 𝐶 𝑙 ξi

𝑖=1 (3.12)

Tham số C cĩ vai trị cân bằng lỗi thực nghiệm, mức độ vi phạm điều kiện lề “cứng” và cả độ lớn của lề. Khi C = 0 thì cĩ nghĩa là khơng cho phép vi phạm điều kiện lề và yêu cầu tìm hàm f với điều kiện (3.7).

Tĩm tắt lại thì bài tốn tìm kiếm siêu phẳng phân cách với lề mềm cực đại đƣợc viết nhƣ sau:

min 𝑤,𝑏,ξ 1 2𝑤 2 + 𝐶 ξi 𝑙 𝑖=1 3.13 𝑡𝑕ỏ𝑎 𝑚ã𝑛 𝑦𝑖 𝑤. 𝑥𝑖 + 𝑏 > 1 − ξi, 𝑖 = 1, … , 𝑙. (3.14) ξ𝑖 ≥ 0, 𝑖 = 1, … , 𝑙. (3.15)

Hàm phân loại tuyến tính với lề mềm cực đại

Khái niệm thuê bao rời mạng “churn”

Thu thập, chuẩn hĩa dữ liệu