Siêu phẳng với khoảng cách lề cực đại

Một phần của tài liệu 240637 (Trang 36 - 38)

Định nghĩa 2.1: Khoảng cách đại số của một mẫu huấn luyện (xi,yi) tới siêu phẳng {x∈RD | f(x)=wT.x+b=0} là

T

( , ) (w . )

f x yi i yi xi b

δ = + (2.1)

Trong bài toán phân lớp nhị phân, nếu δf( , ) 0x yi i > hàm ý rằng siêu phẳng f(x) phân lớp chính xác. Nếu yi=1, để f(x) phân lớp có độ tin cậy và chính xác cao thì cần một khoảng cách đại số càng rộng càng tốt, tức là giải pháp của bài toán luôn mong muốn f(xi) là số dương càng lớn càng tốt. Ngược lại, nếu yi=-1 thì giải pháp của bài toán mong muốn f(xi) là số âm càng lớn càng tốt. Một cách tổng quát, nếu

thì việc phân lớp trên mẫu (x T

(w . ) 0

i i

y x + >b i,yi) là chính xác. Vì vậy, một khoảng cách đại số rộng thể hiện việc phân lớp chính xác và đáng tin cậy. Tuy nhiên đối với phân lớp tuyến tính, khoảng cách đại số chưa phải là một thước đo độ tin cậy tốt. Chẳng hạn như nếu thay w bởi 2w và b bởi 2b thì hàm quyết định phân lớp cũng không thay đổi vì sign(2wT.x+2b) = sign(wT.x+b). Bằng cách thay đổi tỷ lệ của w và b, có thể tạo ra khoảng cách đại số với độ rộng tùy ý mà không làm thay đổi kết quả của việc phân lớp. Vì vậy, có thể đặt ||w||2=1, tức là thay (w,b) bằng (w/||w||2,b/||w||2). Trong trường hợp này, khoảng cách đại số trở thành khoảng cách hình học, đây chính là khoảng cách Euclide từ một điểm tới siêu phẳng.

Định nghĩa 2.2: Khoảng cách hình học của một mẫu huấn luyện (xi,yi) tới siêu phẳng {x∈RD | f(x)=wT.x+b=0} là T 2 (w . ) ( , ) ( , ) w w f i i i f i i 2 i y x b x y x y + δ δ = = (2.2)

Định nghĩa 2.3: Khoảng cách lề của một tập huấn luyện S={(xi,yi)}i=1..l tới siêu phẳng {x∈RD | f(x)=wT.x+b=0} là khoảng cách hình học nhỏ nhất của tất cả các mẫu huấn luyện tới siêu phẳng: 1.. min ( , ) f i l f x yi i = δ = δ (2.3) Hình 2.1. Siêu phẳng tách tuyến tính.

Ý tưởng chính của SVM là tìm siêu phẳng phân cách với khoảng cách lề cực đại:

*

f arg max f

f

= δ (2.4)

tức là tìm siêu phẳng H: wT.x+b=0 và hai siêu phẳng H1:wT.x+b=+1, H2:wT.x+b=-1 song song với H sao cho khoảng cách giữa H1 và H2đạt cực đại (hình 2.1).

Trong hình 2.2, giả sử các vùng A- và A+ là các vùng nhận được sau khi huấn luyện phân lớp. Như vậy, với các mẫu đầu vào nằm trong phạm vi đã được học (vùng A- và A+) thì tất nhiên được phân lớp đúng cho dù đó là phân lớp tuyến tính thông thường hay SVM. Tuy nhiên, với một mẫu đầu vào nằm ngoài phạm vi được học (vùng B- và B+) thì máy phân lớp tuyến tính thông thường có thể phân lớp sai nhưng SVM thì vẫn phân lớp đúng. Bằng trực giác có thể thấy rằng máy phân lớp với khoảng cách lề càng lớn thì khả năng phân lớp càng chính xác.

Hình 2.2. So sánh hiệu quả phân lớp giữa máy tuyến tính thông thường với SVM. Cụ thể hơn, trong hình 2.3 giả sử tất cả các mẫu cần phân lớp đều có nhiễu so với các mẫu huấn luyện. Ví dụ, cho mẫu huấn luyện (x,y), tạo ra các mẫu cần phân lớp theo công thức (x+Δx,y), trong đó Δx được giới hạn bởi r > 0. Rõ ràng nếu tách tập huấn luyện theo khoảng cách lề δ > r thì sẽ phân lớp chính xác tất cả các mẫu. Điều này giải thích tại sao siêu phẳng với khoảng cách lề cực đại có khả năng phân lớp tốt nhất.

Hình 2.3. Siêu phẳng tách hai lớp ‘o’ và ‘+’. Nếu siêu phẳng có khoảng cách lềδ và giới hạn nhiễu r < δ thì siêu phẳng vẫn tách được chính xác các mẫu bị nhiễu.

Một phần của tài liệu 240637 (Trang 36 - 38)