L ời cam đ oan iii
2.2.1. Thuật tốn máy vector hỗ trợ (SVM) 15
Giải thuật Máy vector hỗ trợ (SVM) dựa trên nguyên lý tối thiểu hĩa rủi ro cấu trúc (Structural Risk Minimization) trong lý thuyết thống kê (T. Joachims, 1997, [16]). Xét bài tốn phân lớp văn bản thành các lớp mẫu dương và mẫu âm: Cho một tập huấn luyện các cặp (xi, yi), i = 1, …, l; trong đĩ xi∈ Rn là khơng gian vector đặc trưng n chiều;
yi∈ {-1, 1}, các mẫu dương là các mẫu xi thuộc lĩnh vực quan tâm và được gán nhãn yi = 1
và các mẫu âm là các mẫu xi khơng thuộc lĩnh vực quan tâm và được gán nhãn yi = −1. Bài tốn đặt ra là khi đưa ra một vector đặc trưng x mới, cần dựđốn được y sao cho khả năng lỗi xảy ra là tối thiểu.
16
a.Trường hợp khả tách tuyến tính
Trong trường hợp này, bộ phân lớp SVM là mặt siêu phẳng phân tách các mẫu dương khỏi các mẫu âm với lề cực đại, được xác định bằng khoảng cách giữa các mẫu dương và các mẫu âm gần mặt siêu phẳng lề tối ưu nhất (hình 5). Các mặt siêu phẳng trong khơng gian đối tượng cĩ phương trình là wTx + b = 0, trong đĩ w là vector pháp tuyến, b là tham số mơ hình phân lớp. Khi thay đổi w và b, hướng và khoảng cách từ gốc tọa độ đến mặt siêu phẳng thay đổi.
Hình 5: Mặt siêu phẳng tách các mẫu dương khỏi các mẫu âm
Bộ phân lớp SVM được định nghĩa như sau: f(x) = sign(wTx + b)(1.1), trong đĩ:
sign(z) = +1 nếu z ≥ 0 và sign(z) = −1 nếu z < 0.
Nếu f(x) = +1 thì x thuộc về lớp dương, và ngược lại, nếu f(x) = −1 thì x thuộc về lớp âm.
Mục tiêu của phương pháp SVM là ước lượng w và b để cực đại hĩa lề giữa các lớp dữ liệu dương và âm.Các giá trị khác nhau của lề cho ta các họ mặt siêu phẳng khác nhau, và lề càng lớn thì lỗi tổng quát hĩa của bộ phân lớp càng giảm.
Tập dữ liệu huấn luyện là khả tách tuyến tính, ta cĩ các ràng buộc sau:
wT xi + b ≥ +1 nếu yi = +1 (1.2)
wT xi + b ≤−1 nếu yi = −1 (1.3)
Hai mặt siêu phẳng cĩ phương trình là wT x + b = ±1 được gọi là các mặt siêu phẳng hỗ trợ (các đường nét đứt trên hình 5).
17 Để xây dựng một mặt siêu phẳng lề tối ưu thì: - Vector w sẽđược tính: w = 1 N i i i i y x α = ∑ (1.4)
- Tham số b được xác định sử dụng điều kiện Karush–Kuhn–Tucker(KKT) như sau:
αi [ yi (wT xi + b) – 1] = 0 (1.5)
Các mẫu xi tương ứng với αi> 0 là những mẫu nằm gần mặt siêu phẳng quyết định nhất (thỏa mãn dấu đẳng thức trong (1.2), (1.3)) và được gọi là các vector hỗ trợ. Những vector hỗ trợ là những thành phần quan trọng nhất của tập dữ liệu huấn luyện. Bởi vì nếu chỉ cĩ các vector hỗ trợ, ta vẫn cĩ thể xây dựng mặt siêu phẳng lề tối ưu như khi cĩ một tập dữ liệu huấn luyện đầy đủ.
b. Trường hợp khơng khả tách tuyến tính
Với dữ liệu huấn luyện khơng khả tách tuyến tính thì ta cĩ thể giải quyết theo hai cách.
Cách thứ nhất sử dụng một mặt siêu phẳng lề mềm, nghĩa là cho phép một số mẫu huấn luyện nằm về phía sai của mặt siêu phẳng phân tách hoặc vẫn ở vị trí đúng nhưng rơi vào vùng giữa mặt siêu phẳng phân tách và mặt siêu phẳng hỗ trợ tương ứng. Trong trường hợp này, các hệ số Lagrange của bài tốn quy hoạch tồn phương cĩ thêm một cận trên C dương - tham số do người sử dụng lựa chọn. Tham số này tương ứng với giá trị phạt đối với các mẫu bị phân loại sai.
Cách thứ hai sử dụng một ánh xạ phi tuyến Φ để ánh xạ các điểm dữ liệu đầu vào sang một khơng gian mới cĩ số chiều cao hơn.
Trong khơng gian này, các điểm dữ liệu trở thành khả tách tuyến tính, hoặc cĩ thể phân tách với ít lỗi hơn so với trường hợp sử dụng khơng gian ban đầu. Một mặt quyết định tuyến tính trong khơng gian mới sẽ tương ứng với một mặt quyết định phi tuyến trong khơng gian ban đầu.
Với k là một hàm nhân thoản mãn:
18
Nếu chọn một hàm nhân phù hợp, ta cĩ thể xây dựng được nhiều bộ phân loại khác nhau. Cĩ một số hàm nhân cơ bản sau đây:
- Hàm nhân đa thức:
k(xi, xj) = ( amma.xT oef0)degree i j
g x +c (1.7)
- Hàm vịng RBF (Radial Basic Function): 2 ( , ) exp(i j .| i j| ) k x x = −gamma x −x (1.8) - Hàm chữ S Sigmoid: k(xi, xj) = tan( . .T oef 0) i j gamma x x +c (1.9) trong đĩ gamma, coef0 và degree là các tham số nhân.