Máy học vector hỗ trợ SVM

Cách tiếp cận thường này dùng để tối thiểu hoá giới hạn rủi ro là chọn một lớp giả thiết cố định. Việc này cố định chiều VC và do đó khoảng cách tin cậy được đo bởi Φ() toán hạng trong phương trình 2.7 của giới hạn. Khi đó sự tối thiểu hoá của rủi ro theo kinh nghiệm (lỗi huấn luyện) dẫn tới một giới hạn trên bên trên rủi ro mong muốn.

Phương pháp này nảy sinh một khó khăn khi lớp được chọn quá phức tạp (chiều VC quá lớn). Trong trường hợp này khoảng cách tin cậy sẽ lớn và giới hạn trên quá lỏng. Ngược lại, nếu lớp được chọn là quá đơn giản (chiều VCquá thấp) rủi ro theo kinh nghiệm sẽ lớn và giới hạn sẽ tồi tệ nữa.

Một giải pháp để thiết kế lại màu cho mỗi độ lớn khác nhau của dữ liệu huấn luyện và có lựa chọn một độ phức tạp đúng một tiên nghiệm (a priori) để khắc phục các hạn chế trên. Một kỹ thuật khác sẽ là cố định rủi ro theo kinh nghiệm nhỏ (hoặc bằng 0) và sau đó tích cực tối thiểu hoá khoảng cách tin cậy của giới hạn (phương trình 2.7). Việc này yêu cầu một máy học trong đó kiểm soát độ phức tạp được xây dựng bên trong Support Vector Machines, (SVM) là một ví dụ của giải thuật học mà thực hiện theo cách tiếp cận này. Giải pháp của một bài toán phân loại có thểđược diễn đạt với một siêu phẳng:

f(x) = m • x + b

với m là một vector tham số và dấu f(x) là giá trị dự đoán cho từng x cho trước. Một siêu phẳng có thể được diễn đạt cũng với một sự kết hợp tuyến tính các mẫu. Thực tế, cho L = {(x1,y1),…, (xn,yn)} là một tập các mẫu phức tạp và các giá trịđích liên quan, thì:

⎥ ⎦ ⎤ ⎢ ⎣ ⎡ + = ∑ = n i i i iy K x x b sign x f 1 ) , ( ) ( α

là một bộ phân loại ánh xạ tạm có trọng số. Hàm K: Rd × Rd → R định nghĩa một độ đo khoảng cách giữa hai thành phần bất kỳ của không gian nguồn. Khoảng cách suy ra bởi hàm kernel có thểđược viết như sau:

d(x,y) = K(x,x) – 2K(x,y) +K(x,y)

Vector xi là các mẫu được sử dụng để ánh xạ các trường hợp tương lai và αi là các hệ số điều khiển đánh trọng số giữa các mẫu. Chúng tôi giả sử hầu hết tất cả các hệ số sẽ là 0. các hệ số khác 0 xác định mẫu nào là quan trọng. Các mẫu đó được gọi là các vector hỗ trợ (support vectors).

Một cách hiểu nguyên tắc phân loại (classification rule) mà SVM thực hiện là: đầu tiên biến đổi các điểm dữ liệu tới một không gian đặc trưng đa chiều trong đó không gian đầu vào được sắp xếp với một ánh xạ không tuyến tính. Khi đó, một sự phân tách của dữ liệu ánh xạ với một siêu phẳng là có thể. Do vậy, chúng ta có thể quyết định quyết định nào là tối ưu để đưa vào, theo SRM bằng các xem xét tình huống siêu phẳng.

Mặt khác, chiều VC của tập các siêu phẳng với các vector trọng số giới hạn ||m||2 ≤ A là số tối thiểu của d + 1 và [C2A2] +1 với C là bán kính của đường tròn nhỏ nhất giới hạn dữ liệu huấn luyện. Bởi vậy siêu phẳng tối ưu là một siêu phẳng phân tách dữ liệu và có chiều VC nhỏ nhất, như là vector trọng số nhỏ nhất.

Bằng cách chỉ chọn theo các siêu phẳng mà phân tách dữ liệu (như vậy, với một Remp(α) = 0 cố định), chúng ta thu thập một sự thực hiện kiểu suy luận rủi ro có cấu trúc. Khi các hạn chế này được biến đổi ngược lại vào trong không gian nguồn của các điểm dữ liệu, nó xuất hiện các giá trị tối ưu của m và b được đưa ra bởi giải pháp của một bài toán tối ưu toàn phương lồi.

Trường hợp phân tách không tuyến tính

Thực hiện phânloại văn bản với SVM