6. Bố cục của luận án
1.4. Máy học véc-tơ hỗ trợ
1.4.1. Lý thuyết máy học Véc-tơ hỗ trợ
Thuật tốn SVM ban đầu được tìm ra bởi Vladimir N. Vapnik và dạng chuẩn hiện nay sử dụng lề mềm được tìm ra bởi Corinna Cortes và Vapnik năm 1995 [23]. Đây là mơ hình học dựa trên lý thuyết học thống kê (Statistical Learning), là một kỹ thuật được đề nghị để giải quyết cho các bài toán phân lớp. Lý thuyết cơ bản của máy học véc-tơ tựa cho vấn đề phân lớp có thể tóm tắt như sau:
Cho tập véctơ đầu vào 𝑥𝑖 ∈ 𝑅𝑛, 𝑖 = 1,2, … , 𝑙 , và tập các giá trị nhãn lớp tương
ứng 𝑦𝑖 ∈ {−1; +1} cho bộ phân lớp nhị phân. Hàm tuyến tính phân biệt hai lớp như
sau:
𝑓(𝑥) = 𝑤𝑇. 𝛷(𝑥) + 𝑏 , (1.17) trong đó, w là véc-tơ chuẩn (véc-tơ pháp tuyến) của siêu phẳng phân cách, b là độ lệch, và 𝛷(. ) là hàm ánh xạ từ không gian đầu vào 𝑅𝑛 sang không gian đặc trưng 𝐷,
𝛷(𝑥): 𝑅𝑛 → 𝐷.
Mục tiêu của SVM là tìm một siêu phẳng tối ưu sao cho khoảng cách lề giữa hai lớp đạt giá trị cực đại (Hình 1.3).
Hình 1.3. Hình ảnh phân lớp với SVM
Bên cạnh đó, để đảm bảo tính tổng qt hóa cao, một biến bù 𝜉, hay còn gọi là biến lỏng (slack variable) được đưa vào để nới lỏng điều kiện phân lớp. Bài toán đưa đến việc giải quyết tối ưu có ràng buộc:
𝑚𝑖𝑛 𝑤,𝑏,𝜉 1 2𝑤 𝑇𝑤 + 𝐶 ∑ 𝜉𝑖 𝑙 𝑖=1 , sao cho: 𝑦𝑖(𝑤𝑇. 𝛷(𝑥𝑖) + 𝑏) ≥ 1 − 𝜉𝑖 , 𝜉𝑖 ≥ 0, 𝑖 = 1,2, … , 𝑙. (1.18)
Theo cách giải trong [23], việc giải bài tốn (1.18) có thể chuyển thành giải bài tốn đối ngẫu quy hoạch tồn phương (Quadratic Programming):
𝑚𝑎𝑥 𝛼 𝐿(𝛼) ≡ ∑ 𝛼𝑖 𝑙 𝑖=1 −1 2∑ 𝛼𝑖𝛼𝑗𝑦𝑖𝑦𝑗𝛷(𝑥𝑖)𝑇. 𝛷(𝑥𝑗) 𝑖,𝑗 , (1.19)
thỏa mãn: 0 ≤ 𝛼𝑖 ≤ 𝐶, 𝑖 = 1,2, … , 𝑙 và ∑𝑙𝑖=1𝛼𝑖𝑦𝑖 = 0, với 𝛼𝑖 là các nhân tử Lagrange. Sau khi xác định được các giá trị 𝛼𝑖 từ bài toán (1.19), ta sẽ thu đươc các giá trị tối ưu 𝑤∗ và 𝑏∗ của siêu phẳng. Chỉ có các mẫu có 𝛼𝑖 ≥ 0 mới tham gia vào các véc-
tơ hỗ trợ (support vector). Cuối cùng, hàm quyết định phân lớp có dạng:
𝑓(𝑥) = 𝑠𝑔𝑛 (∑ 𝛼𝑖𝑦𝑖
𝑙
𝑖=1
(𝛷(𝑥𝑖)𝑇. 𝛷(𝑥𝑗)) + 𝑏∗) . (1.20)
Gọi 𝐾(𝑥𝑖, 𝑥𝑗) = 𝛷(𝑥𝑖)𝑇. 𝛷(𝑥𝑗) là hàm nhân của không gian đầu vào. Khi đó
hàm quyết định phân lớp (1.20) được viết lại như sau:
𝑓(𝑥) = 𝑠𝑔𝑛 (∑ 𝛼𝑖𝑦𝑖
𝑙
𝑖=1
𝐾(𝑥𝑖, 𝑥𝑗) + 𝑏∗). (1.21)
Theo đó, tích vơ hướng trong khơng gian đặc trưng tương đương với hàm nhân
𝐾(𝑥𝑖, 𝑥𝑗) ở khơng gian đầu vào. Như vậy, thay vì tính trực tiếp giá trị tích vơ hướng,
ta thực hiện gián tiếp thông qua hàm nhân 𝐾(𝑥𝑖, 𝑥𝑗).