23 .2.2 Tim ra các luật
3.2.2 Tái lập ánh xạ hạt nhân
X x '
Hình 3.2 Minh hoạ moi liên hệ giữa ánh xạ đặc trưng với hạt nhân
(ánh xạ 3.20). Với mỗi mẫu dữ liệu (x hoặc X ’ như trong hình) được biểu diễn lại với hàm hạt nhàn sang các mẫu dữ liệu khác. Trong hình, hạt nhân được giả sử cỏ đồ thị hình chuông, ví dụ như hàm Gaussian k ( x , x ') = ex p ( —\\x — x '\\2Ị
(2<J2)). Tron% các công thức, chúng ta biếu diễn cấu trúc của tích vô hướng trong các hàm không gian, như là k ( x , x ') = < cp(x),<p(x') >.
Chúng ta xây dựng một không gian tích vô hướng của các mẫu dừ liệu là các ảnh đầu vào bằng hàm <í>. Các bước thực hiện để xây dựng một không gian đặc trưng với <í>
1 ) Chuyển anh của <t> vào một không gian vector
2) Định nghĩa một tích vô hướng dạng song tuyến xác địng dương 3) Kiểm tra xem tích vô hướng đó có thoả mãn k ( x , x ') = <
Đê xây dựng được một không gian tích vô hướng thig ta phải định nghĩa được một không gian vector bàng cách sử dụng tổ hợp tuyến tính :
f ( . ) = Y ^ a lk C , x l). (3.21)
Ể=1
Trong đó, m E u ,a ị 6 R ,X j, G X là bất kỳ, tiếp theo chúng ta định nghĩa một tích vô hướng giữa f và một hàm khác như sau :
m '
g { . ) = Y j Pj k{.,x]), (3.22)
7 = 1
Trong đó m ' G M,ị3j G £ X , lúc đó tích vô hướng được tính n h ư sau : < f>9 > = 'Y J 'Y j a iỊ3 jk(xi>x j). (3.23) Í=1 j= 1 Rõ ràng : m' <f >9 > = Ỵ j P j f ( xj)> j= 1 m < f , g > = Ỵ a i g ( x i ) . i = l
từ hai công thức trên cho ta thấy<.,.> là song tuyến, và đổi xứng vì
< f , g > = < g , f >. Hơn thế, nó là xác định dương, từ k không xác định dương và với bất kỳ f như trong công thức (3.20) chúng ta có :
m
< / , / > = aịC tịkiX i.X ị) > 0 (3.26)
i.j=1
Kết luận là hạt nhân xác định dương được định nghĩa trên không gian các hàm. Với các ham và các hệ sổ Ỵi,...,Yn G chúng ta có :
(3.24)
n n n
ỵ YiYj(fitfj) = £ rift • Y 'Y ifi) > 0. (3.27)
i , j- 1 i = i ; = 1
Trong đó vế trái của đẳng thức ỉà song tuyến của còn vế phải của bất đảng thức là từ (3.26)
Bước cuối cùng của việc chứng minh nó là một tích vô hướng ta sử dụng một tính chất của của <t> suy ra từ định nghĩa cho tất cả các hàm (3.21), chúng ta có :
< k { . , x ) , / > = / ( * ) (3.28)
k: thể hiện cho độ đánh giá, cụ thể :
< k { . , x ) , k { . , x ' ) >= k ( x , x ' ) (3.29) Vì có các tính chất đó mà các hạt nhân xác định k còn được gọi là các hạt nhân tái lập.
Từ (3.28) và mệnh đề Cauchy (3.6) chúng ta có :
l/OOI2 = \ {k(. , x)J)\ 2 < k{x, x). (f , f ). (3.30)
Do đó ( f , f ) — 0 ta suy được ra ( .,.) = 0. Đó là tính chất cuối chứng minh rằng (.,. ) là một tích vô hướng.
Kết luận, theo (3.20) ta đã chứng minh được rằng bất kỳ hạt nhân xác địr.h dươníĩ nào đều có thể coi là một tích vô hướng trong một không gian khác. Tù tính chất của hạt nhân tái lập ta có :
< 4>(x)J<t>(x') > = k ( x , x ' ) . (3.31) 3.2.3 Tái lập không gian hạt nhân Hilbert
Như đã nói ớ phần trên, ta đã biết cách định nghĩa một không gian các hàm có phụ thuộc trên không gian đặc trưng và một hạt nhân cho trước. Những kh3ng gian như vậy được gọi là các không gian tích vô hướng hay là các không gian tiền Hilbert.
Không gian thoả mãn tính chất (3.28) và (3.29) được gọi là không gian hạt nhân Hilbert tái lập (RKHS - Reproducing Kernel Hilbert Space), và được định nghĩa như sau :
Định nghĩa 3.9 : Cho X là một tập khác rỗng (thường được gọi là tập chỉ số) và
J Ï là một không gian Hilbert các hàm f : X -> M. Khi đó H được gọi là một không gian hạt nhân Hilbert tái lập có tích vô hướng (có 11/11 := y j { f , f ) )
nếu tồn tại một hàm k: X X X -» E có các tính chất sau : 1 ) k có tín h c h ấ t tái lập ự , k ( x , . ) ) = f ( x ) , V f e H ] (3.33) Cụ thể : (k(x, . ), k( x' , . )) = k(x, x f). (3.34) 2) k mở rộng J-C, có nghĩa 1 à K = s p a n { k ( x, . )| X £ X}, X là mở rộng của tập X .
Tống quát hơn, ta có thể định nghĩa RKHS là không gian các hàm / trên
X mà mọi hàm lượng giá (các ánh xạ / »—* / ( * ' ) , x ' 6 X ) là liên tục. Khi đó
với mồi x ' E X tồn tại duy nhất một hàm của X là k(x,x ’) thoả măn :
/ ( * ' ) = ( 3 . 3 5 )
RKHS xác định duy nhất một k. Thực vậy, giả sử có tồn tại hai hạt nhân k và
k cùng mở rộng ra một RKHS K . Khi đó, từ (3.33) ta có :
{ k ( x , . ) , k ’ (x' , . ) ) x — k ( x , x ' ) = k ' ( x ' , x ) . (3.36)
0 đắmg thức thứ hai, đó chính là tính đối xứng của tích vô hướng,vậy ta có điều cần chứng minh.
3.2.4 Ảnh xa hat nhân Mercer• •
Trong phần 3.2.2 chúng ta đã biết bất kỳ một hạt nhân xác định dương nào đều có thể biểu diễn thành một tích vô hướng trong một không gian tuyến tính. Điều đó được thực hiện bằng cách xây dựng một không gian (Hilbert). Và khi cho hai không gian Hilbert đẳng cấu cùng kích thước thì có thể định nghĩa được một ánh xạ tuyển tính một-một giữa hhai không gian mà vẫn giữ được tích vô hướng. Trong phần này, chúng ta tiếp tục xây dựng một không gian Hilbert khác, chúng ta sử dụng định lý Mercer, định lý Mercer cho ta cái nhìn sâu hơn
vào không gian hình học của không gian đặc trưng. Trong SVM, các cách sử dụng hạt nhân thường được trình bày qua định lý Mercer
Định lý 3.10 (Mercer) Giả sử k e Lco( X 2) là hàm đối xứng giá trị thực mà toán từ nguyên
Tk:L2m - * L 2( X)
cTkf ) ( x) := J k ( x, x' ) f ( x' ) dạ{ x' ) (3.37)
X
Là xác định dương; do đỏ với mọi / € L2(X), chúng ta có
Ị k ( x , x ' ) f { x ) f ( x ' ) d ị x ( x ) d ị i ( x ' ) > 0. (3.38)
X 2
Cho ìpj E L2( X ) ỉ à hàm eigen trực giao với Tk có các giá trị eigen Ằj>0(sắp xếp không tăng), khi đỏ:
1) 4 ) . 6 ỉ ,
2) k ( x , x ') = Ip j(x )\p j(x ')p h ủ hầu h ế tất cá các (x,x ’)
, Nk g M hoặc N tf = 00 thì dãy sẽ hội tụ và hội tụ đều với hầu hết tất cú (x,x ’).
M ệnh đề 3.11 (Ảnh xạ hạt nhản Mercer) Nếu như hạt nhân k thoá mãn các điều kiện của định lý 3.10, chúng í a có thể xây dụng một ánh xạ vào một không gian k, trong đó k thực sự là một tích vô hướng,
<4>(x),<p ự ) ) =k ( x , x ' ) , (3.39)
với hầu hết tat cả X, x f G X. Hơn nữa, với mọi 8>0 thì tồn tại một ảnh xạ 0 n
vào một khôn<ịgian tích vô hướng n chiều (n 6 N phụ th u ộ c vào £):
\ k ( x ,x ') - <On ( x ) , ^ ( x ' ) ) | < £ (3.40)
hầu hết với mọi X, x' 6 X .
Cả các hạt nhân Mercer và các hạt nhân xác định dương đều có thể biểu diễn dưới dạng các tích vô hướng trong không gian Hilbert. Trong mệnh đề dưới đây là tnrờng hợp cả hai loại hạt nhân trên là giống nhau
M ệnh đề 3.12 (Các hạt nhân Mercer là xác định dương) Giả sử X = [a, b] là một đoạn compact và cho k: [a, ồ] X [a, b] -* € là liên tục. Do đó k chỉ ỉà một hạt nhân xác định dương khỉ và chỉ khi
Jr b r b
j '
a J a
k ( x , x ' ) f ( x ) f ( x ' ) d x dx' > 0 (3.41)
với môi hàm liên tục / : X -> c.
Với không gian đặc trưng tái lập (Mệnh đề 3.11) ta dề thấy các hạt nhân Mercer cùng là xác định dương (với hầu hết X, x' G X ). Từ (3.10), cho c E Mm ta có :
^ cic ịk { x i>x i') = ^ CjCy< 0 0 ; ) , $ ( % ; ) ) = Ci<ĩ>(*i)
i,j i,j i
> 0 (3.42)
Do xác định dương nên các hạt nhân Mercer cũng là các hạt n hân tái lập. 3.3 Các h ạt nhân th ư ờ n g được sử dụng
Giả sử X e Rn
• Đa thức :k(x, x') = {X, x ') d,
( ||x_*'||2\
• Gaussian : k ( x , x ') = exp í — -—- f - } với ơ > 0
• Siem oid :k(x. = tan h (/cíx. . K > 0 vè
(3.43) (3.44) Sigmoid :k(x, x' ) = tanh(/c(x, x') + d ) , K > 0 và ứ < 0 (3.45) Đa thức không đồng n h ất : k ( x ,x ') = ( (x , x') + c ) đ, d E M,c > 0 RBF : k ( x , x r) = f ( d { x , x') ) (3.46)
C H Ư Ơ N G 4
PH Ư Ơ N G PHÁP V E C T O R TỤ A (SVM) 4.1 Phân chia bằng siêu phẵng.
Giả sử ta có không gian tích J Ï và các vector x i,...,x m G H , thì một siêu
phẳng trong o-c có thể được biểu diễn như sau :
[x e H \ < w, x > +b = 0},w e H , b 6 R ( 4 .1 )
Trong công thức trên, w là vector trực giao với mặt siêu phẳng. Neu w có chiều dài đơn vị thì <w,x> là chiều dài theo trục X của w (Hình 4.1 ). Trong công thức trên ta có thể nhân w và b với một sổ khác không để tạo nên một siêu phằng khác .
Hình 4.1 Một siêu phẳng phân lớp các đổi tượng thành hai lớp
Định nghĩa 4.1 (S iêu p h ẳ n g đạng chính tắc) Cặp < w ,b >E H X R được gọi là dạng chính tắc của siêu p h ẳ n g (4. Ị) với Xị, E l i , nếu ta cỏ tỷ lệ
ììĩiĩĩị=i m |< w, Xị > +b\ = 1 (4.2)
với đại lượng trên thì ta phát biêu rằng những điểm gần siêu phảng nhất có khoáng cách là y/| IvvIỊ (Hình 4.2Ì
Note: < W 1 X ị > + b = + l <w> &i>+b = - 1 => <w>(Xj-*x->>= 2 -> < Ị|5 |.(l,-«2)i>=|ệỊ| Hình 4.2 Siêu phẳng dạng chính tắc
Với điều kiện (4.2) thì ta có hai siêu phẳng thoả mãn hai cặp giá trị <w,b> và <-w,-b>, hai siêu phẳng có chiều khác nhau theo hai hàm quyết định sau :
f wy - M ^ { ± 1}
X ” fw ,b (x) = sg n (< w , x > + ố ) (4.3) Đe đi tìm siêu phẳng ta phải quan tâm đến khái niệm lề, là khoảng cách đển siêu phẳng từ các điểm dữ liệu gần siêu phẳng nhất.
4.2 Vai trò của lề tro n g siêu phẵng.
Định nghĩa 4.2 (Hình học) Với siêu phẳng {x E H I < w, X > +b = 0} chúng ta gọi
P{w.b)(x,y) := y(< w ,b> + bvv ) (4.4)
là biêu diễn hình học lề của điểm ( x , y ) G K X {±1} . Giả trị nhở nhất
P(w,b) := P(.w,b )(X i.yõ (4.5)
được gọi là diễn hình học lề của điêm (X ị, y ị) , ..., (xm, ym) , tức khi đó ta đã lấy trung bình các mẫu
Với điểm (x,y) đã được phân lớp chính xác, thì lề chính là khoảng cách từ
X đến siêu phẳng, tất nhiên các điểm trên siêu phẳng có giá trị bằng không.
, / w b \
( w , S ) := (77-77,7]— i ĩ ) , (4.6)
' V||w|| \\w\\J
Khi đó vector trọng số có chiều dài đơn vị, ta tính được y ( < w, X > + b) Biểu thức (X , x ) , là độ dài hình chiếu của X lên vector trực giao w, cộng thêm phẩn bù b ta có được khoảng cách từ X đến siêu phẳng. Để giá trị của lề là dương thì ta nhân thêm với y, khi đó nếu một điểm được phân lớp đúng thì lề có giá trị dương, ngược lại lề có giá trị âm.
Do đó, giá trị của lề và độ dài vector trọng số w có ý nghĩa rất quan trọng trona thuật toán phân lớp bằng vector tựa. Với tập dữ liệu huấn luyện có siêu phẳng phân lóp có giá trị lề lớn sẽ làm chúng ta có thế tin tưởng hơn khi thực hiện phân lớp với dừ liệu kiếm tra.
Với giả thuyết các dừ liệu huấn luyện và kiểm tra có cùng xác suất phân bổ, ta coi các dừ liệu kiếm tra (trong H ) nằm gần ít nhất với một mẫu trong dừ liệu huấn luvện. Giả sir các dữ liệu đều có nhiễu, với một mẫu huấn luyện (x,y) thì ta có dữ liệu kiếm tra (x+Ax,v), trong đó Ax G K giới hạn bởi r >0. Khi đó ta sẽ phân lớp hoàn toàn các dữ liệu huấn luyện với lề p > r, và các dữ liệu kiếm tra cũng sẽ được phân lớp đúng (Hình 4.3)
Giả sử, siêu phẳng có phần bù b=0, khi đó f(x)=sgn<w,x>, ta có định lý tìm cận trên của lồi trong phân lớp với lề.
Định lý 4.3 : Giả sử hàm quyết định f(x)=<w,x> với |Ịw|| <Ầ và 11*11 < R, R >0, x>0. Cho p > 0, V là lỗi cua lề hằng tỉ số của dữ liệu huấn luyện với lề nhó hơn
P /IM I
Với phản bố p khi sinh dữ liệu, xác suất ít nhất bằng 1 — ô khi sinh m dữ liệu huấn luyện, với mọi p > 0 vằ ố E (0,1), thì xác suất một mẫu kiểm tra với phân bố p bị phân bố sai cỏ chặn trên là ;
v + M ( ^ ì n 2 m + ì n ( i / s ) ) ( 4' 7 )
trong đó c là hằng sổ.
4.3 Sicu phẳng tối ưu - Phân lóp tuyến tính
Giả sử với tập dữ liệu (xi,yi),...,(xm,ym), Xj 6 K , Ỵị 6{ ± l } ,i= l,...,m , có ít nhất một giá trị âm và một giá trị dương của Ỵi. Ta đi tìm hàm quyết định f(w.b)(x)=sgn(<w,x>+b) thoả mãn
f{ w ,b )(x ì)= y i (4.8)
Nếu như tồn tại hàm/ như thế thì (4.2) sẽ thành
y j ( < X ị , w > + ố ) > 1 (4.9)
Khi đó ta có bài toán tối ưu hoá cơ sở :
1
minimizew eHjb eM ĩ (w) = ị \\w\\2 (4.10)
với y i ( < w,Xi > +b) > 1, mọi i sao cho i=l,...,m (4.11) Đây là bài toán đổi ngẫu, do đó ta sử dụng phương pháp lagrange để giải bài toán này.
Như ta đã biết bài toán Lagrange
L{w, b, à) = ì IM I2 - ^ Uị (yi(< x it w > +b) - 1) (4.12)
với a = (a i,...,a m) là bội số lagrange . Lagrange phải đạt giá trị cực đại theo otj và cực tiêu theo w và b. Do vậy, tại điếm yên ngựa, đạo hàm của L theo các biến phải băng không :
Theo điều kiện KKT thì bội a t- & 0 tại điểm yên ngựa, và do (4.11) và với i=l,..,m ta có
Vậy, các điếm dừ liệu X ị có ữj >0 sẽ là các vector tựa 4.3.1 Đ ánh giá lỗi
Để đánh giá lồi khi phân lớp các dữ liệu kiểm tra ta dùng phương pháp loại bỏ một (leave-one-out). Ý tưởng chính của phương pháp này là, loại bỏ một dừ liệu mẫu khỏi dừ liệu huấn luyện, rồi luyện với các dữ liệu còn lại. Lặp lại quá trình trên với tất cả các dữ liệu trong tập dữ liệu huấn luyện ta sẽ được giá trị lỗi trung bình. Trong trường hợp đặc biệt là dữ liệu có duy nhất một mẫu thì mức lồi sẽ là 0 hoặc 1.
Cụ thể, khi ta loại bỏ mẫu dữ liệu Xị*, giải bài toán với các mẫu dữ liệu còn lại, thì các khả năng có thế xảy ra là :
1) y j * ( < X j, w> + b ) > l : Tìm được các vector tựa, các mẫu được phân lớp đúng, không có mẫu nào nằm trên lề.
2) yi*(<Xj, w> +b) =1 : Thì X j. thoả mãn (4.11), w không thay đổi mặc dù <Xj
có thể thay đổi. Nếu Xj* là vector tựa (ơị.>0) thì nó được giữ lại trong tập dừ liệu huấn luyện.
3) 0 < y i * ( < X j, \v> +b) < 1 : Thì Xj* năm trong lê, nhưng vân thuộc vê một lớp, Xj* được phân lớp đúng.
4) y i * ( < X ị, w> +b) < 0: Thì Xj* được phân lớp sai.
d d — L (w , b, a ) = 0, b, a ) = 0, ơ b OW ( 4 . 1 3 ) m a t f i = 0, i = 1 ( 4 . 1 4 ) ( 4 . 1 5 ) C í j [ y j ( < w , Xi > + ò ) — 1] = 0 (4.16)
4.3.2 Bài toán qui hoặch toàn phương của tìm lề phân lớp tối ưu
Đe giải bài toán tối ưu, thay (4.14), (4.15) vào (4.12 ) ta có :
Z Tĩl a ^ y ^ ị < X ị , X j >, (4.17) i,/=1 'i,/=l với ữị >0 , i = l, Z m ccrfi = 0. i=i
Thay (4.15) vào hàm quyết định (4.3) ta có biểu thức trong không gian tích đế xác định các mẫu cần phân lớp với vector tựa
f ự ) = sgn ( aiyi < X , X I >
yến bằng vector tựa
r /
1F 1 A • Ft <v 1 • A1 ♦, A I **
(4.18) (4.19)
(4.20)
4.4 Phân lóp phi tuyến bang vector tựa
Đe phân lớp đổi với các dữ liệu phi tuyến ta phải sử dụng hàm hạt nhân để chuyển đổi dữ liệu các dừ liệu đầu vào ( x v G X sang không gian đặc trưng nhiều chiều bằng ánh xạ 0 : Xị X ị, sau đó chúng ta sẽ giải bài toán phân lóp trong trường hợp tuyến tính.
< <t>(x), > = k ( x ,x ì ) (4.24) Từ đó ta có hàm quyết định theo dạng của công thức (4.20) như sau :
R a) o A R ’ b) không gian dữ hều vào ‘1 xl n v 2 ... ị X V H 3 Ẳ/7Ô«g gĩữ« (âftfC /rang N 4--- —- - * /(.v) = sgn{ \i\x ị + w -.Y- +U'3\ + ồ) R ? X Ó )
///>?/? 4.4 : Vỉ dụ : B ăng cách ánh xạ không gian dữ liệu phi tuyên đâu vào (a) sang không gian đặc trưng nhiều chiều J-C = E3 (qua ánh xạ <p). Xây dựng siêu phảng (c), vector tựa (b) tương ứng với mặt phảng quyết định p h i tuyển ờ không
gian đầu vào M2(d). Ở đây, x l,x 2 biêu thị cho các vector đầu vào, wl,\v2,\v3 là các vector trọng số của siêu phảng trong “K .
f i x ) = s g n Phân lớp / ( * ) = sgnf ài Slj k(x, xi ) + b) Các trọng số đối sánh, vd :k(x,xi) = (x.xỂ) d k ( X ' X i ) = exp ( - | | x - Xi\\2Ị c ) k( x , x i) = tanh (k( x, x i) + ổ) Các v e c t o r tự a ( X |.. .X4)
Hình 4.5 : Ví dụ về SVMs trong không gian p h i tuyển.Hàm hạt nhân k chọn tuy theo cách phân lớp (vd: Hàm đa thức, hàm cơ sở xuyên tâm, mạng nơron,...). Các tham sổ khác có được khi huấn luyện dữ liệu và giai bài toán qui hoặch toàn phương(ngưỡng b, trọng sổ). Với Xi các vector tựa, trọng sổ Ải-yiữi tìm được từ các hệ sổ nhân của hàm lagrange.
Thông qua hàm hạt nhân mà bài toán học máy có thế được áp dụng với nhiều không gian đầu vào khác nhau. Trên thực tế, có một số hàm hạt nhân cơ bảnt thường được sử dụng trong phân lớp là :
• Phân lớp đa thức bàng hàm đa thức bậc d :
k ( x , x ị ) = < x , x ị > d (4 .2 6 )
• Hàm phân lớp xuyên tâm với hàm Gaussian có c >0
k ( x , x ị) = exp
• M ạng nơron
k ( x , x i ) = tanh(/c < X, X[ > + 8 ) (4.28)
(với K > 0 , 0 G M, là giá trị học được và giá trị dịch chuyến ngang) Đe tìm được hàm quyết định (4.25) chúng ta đi giải bài toán quy hoặch toàn phương sau :
m m m a x i m i z e ữ W ( a) = 2>- X a iaj yi yj k( Xi ' Xj ) (4.29) i = l 7 = 1 Và thoả mãn (4.18) và (4. ] 9) Trong (4.29) ta có thế thấy :