Trường hợp phân tách không tuyến tính

Một phần của tài liệu phân loại văn bản bằng phương pháp support vector machine (Trang 39 - 41)

Giải thuật trên, nếu áp dụng tới một tập huấn luyện phân tách không tuyến tính, sẽ không tìm được bất kỳ giải pháp nào hợp lý. Bởi vậy cần mở rộng mô hình tới trường hợp không thể phân tách, các ràng buộc có thểđược thả lỏng (công thức 2.8) nhưng chỉ khi cần. Việc này có thể được thực hiện bằng đưa vào các biến dương không chặt ξi với ∀i {1,..,n} với các ràng buộc:

f(xi) 1- ξi với yi = +1 f(xi) ≤ 1+ ξi với yi = -1

với ξi≥ 0 ∀i

Bởi vậy, với một lỗi xảy ra, ξi tương ứng phải vượt quá 1 đơn vị (unity), bởi vậy ∑iξi là một giới hạn trên số các lỗi huấn luyện. Bởi vậy một cách tự nhiên để gán một giá trị thêm với các lỗi là để thay đổi hàm mục tiệu được tối thiểu hoá từ:

2 2 1 m thành + ∑ i i C m 2 ξ 2 1

với C là một tham sốđược chọn bởi người dùng; một C lớn tương ứng để gán một bất lợi lớn tới lỗi, trong khi một C nhỏ có nghĩa là các lỗi ít hơn. Có thể chỉ ra rằng bài toán bội tương ứng là:

j i j i j j i i i i y y x x L= α ∑α − ∑, αα ⋅ 2 1 max (2.15) đối với (2.16) ∀i∈ 1,..., n 0 ≤αi ≤ C i i iy ∑α

Nếu giải pháp của vấn đề này là không đủđểđạt được một sự thực hiện tổng quát hoá tốt (lớp các siêu phẳng là quá kém để phân tách các mẫu huấn luyện), thì có một phương pháp mà có thể được sử dụng để thiết lập một sự tổng quát hoá tốt theo một cách đơn giản. Đầu tiên chú ý rằng chỉ có cách trong đó các mẫu huấn luyện xuất hiện trong bài toán học (2.15) là theo kiểu của các tích trong xixj. Bây giờ, giả sử đầu tiên chúng ta ánh xạ dữ liệu tới một vài không gian Euclit khác (có thể số chiều vô hạn), sử dụng một ánh xạ mà chúng ta gọi φ:

φ: Rd →H

Khi đó giải thuật huấn luyện có thểđược áp dụng vào trong H sử dụng các hàm từφ(xi)⋅φ(xj). Khi bài toán được diễn đạt chỉ trong các toán hạng của các tích trong như là các giải pháp tốt. Một vấn đề với các mẫu trong một không gian đặc trưng H khác có thể được giải quyết xác định một tích trong thực hiện trong H. Một tích trong có thể cũng được gọi là một hàm nhân

kernel function. Bởi vậy, để giải quyết một bài toán SVM định nghĩa rõ ràng ánh xạφ là không cần thiết.

Một phần của tài liệu phân loại văn bản bằng phương pháp support vector machine (Trang 39 - 41)