Sự giống và khác nhau giữa khai phá dữ liệu và máy học

Một phần của tài liệu Một số kỹ thuật vector tựa (SVM) trong khai phá dữ liệu và ứng dụng vào nhận dạng (Trang 35)

23 .2.2 Tim ra các luật

2.4 Sự giống và khác nhau giữa khai phá dữ liệu và máy học

Có cùng mục tiêu là “học từ dừ liệu”, các thuật toán trong máy học đóng một vai trò nòng cốt trong khai phá dữ liệu. Tuy nhiên, các thuật toán nàv cần được phát triển để phù hợp với các yêu cầu và những thách thức mới của khai phá dừ liệu.

Một trong những thách thức đó là mức độ nhiễu cao trong dữ liệu của khai phá dừ liệu, tiêu chuẩn có thế giải quyết bài toán với độ nhiễu của dữ liệu cao trớ thành một trong nhừng tiêu chuấn quan trọng nhất để đánh giá một hệ thống khai phá dừ liệu.

Thách thức tiếp theo đối với khai phá dừ liệu là kích thước dữ liệu cần xử lý ngày càng lớn. Các thuộc tính trong máy học cũng như số lượng các đối tượng dữ liệu thường ít hon nhiều so với khai phá dữ liệu. Khai phá dữ liệu có thể phái xử lý một khối lượng khổng lồ, thường ở múc TB (hàng ngàn GB), do vậy thời gian xử lý là rất dài.

Hơn thế nữa, các thuật toán máy học thường sử dụng bộ nhớ trong để tính toán, lưu trừ, xử lý dữ liệu. Dù cho kích thước của bộ nhớ trong của máy tính đã đươc tăng lên đáng kể, nhưng điều đó cũng chằng thể theo kịp sự tăng lên về kích thước của dừ liệu. Chính vi thế, các kỹ thuật như xác suất, lấy mẫu, xử lý song song đang được áp dụng để các hệ thống khai phá dữ liệu có thể đáp ứng được với các bài toán thực tế.

Mọi phát triển trong khai phá dữ liệu đều nhằm đến các ứng dụng cụ thể và các đặc tính dừ liệu cụ thể trong các ứng dụng đó, trong khi máy học thường tập trung vào xử lý tri thức dạng lý hiệu và ở mức khái niệm.

Là các kha năng chọn ra d đặc trưng và là số chiều của không gian K .

Với không gian các ảnh đầu vào có kích thước 16x]6, và cần chọn ra 5 đặc trung đơn thì có khoảng Ỉ0U) khả năng.

Để có thế giải cảc bài toán có dừ liệu nhiều chiều thì việc ánh sang các không gian tuyến tính gặp nhiều khó khăn. Do vậy, để tính tích vô hướng trong không gian R N mà không cần phải ánh xạ thì ta dùng hàm hạt nhân

3.1.2 Hàm hat nhân

Để tính tích vô hướng dạng < í>(x), ^ ( x ' ) > chúng ta biểu diễn hàm hạt nhân như sau :

k ( x , x ' ) = < <Ị>(x), O ( x ') > , (3.7) Như vậy, ta có thể tính được giá trị tích vô hướng trong J{ mà không phải tín h ánh x ạ 4>.

Ví dụ, nếu xét đến thứ tự cùa các đặc trưng đơn, với N=d=2 và ánh xạ

( [ x ] ị [ x ] ị [ x ] 1[x]2, [x}2[x]1) (3.8) Thi tích vô hướng trong không gian H được tính như sau :

< 4>(x),4>(x') >= [x]Ị[x'ìỉ + [ x ] ị W l + 2[x]1M 2M 1[x']2

—< x , x ' > 2 3.9)

Tức hàm hạt nhân được tính bàng bình phương tích vô hướng trong không gian đầu vào

3.1.3 Hàm hat nhân đa thức

M ệnh đề 3.1: Cho để ánh xạ X E R N sang vector CẬx), d là d đặc trưng đơn có thứ tự của X. Khi đó, hạt nhân tương ứng để tính tích vô hướng của các vector đã được ánh xạ bởi C/ là :

k(x,x') =< Q (x), Q (x ') >=< x,x' >d . (3.10)

Ký hiệu Cd thể hiện ánh xạ đặc trưng, còn ký hiệu 4>d để thể hiện ánh xạ không tính đến thứ tự của các đặc trưng. Lấy phần phần bù của số lần xuất hiện

giống nhau các đặc trưng đơn trong Cd bằng cách lấy căn bậc hai sổ lần xuất hiện giong nhau các đặc trưng đơn, và từ (3.10) ta có :

Nếu như trong (3.3), tất cả các jị chỉ khác nhau ờ một giá trị, thì hệ số của đại lượng đó trong được tính bàng . Ví dụ, với ta có :

T" \ \ a) X \ . ■7 \ t *.? \ b) Hình 3. ! Ví dụ về phán lớp nhị phân khi ảnh xạ sang không gian đặc truvg

Giả sử, trong không gian đầu vào (a) biên quyết định có hình ellipse. Nhiệm vụ của bài toán phân lớp là đi tìm biên quyết định dựa trên các dừ liệu huấn luyện gồm có hai lớp (lớp khoanh tròn và lớp gạch chéo). Khi dùng ánh xạ phi tuyến

để ánh xạ sang không gian đặc trưng (b), hình elíp sẽ thành một siêu phẳng song song với ZỊ (nên các điểm dữ liệu đều nằm trên mặt (z/ ,z2)). Qua hạt nhân đa thức (3.11),(3.12) việc tính tính vô hướng trong không gian ba chiều qua hàm hạt nhân mà không phải tính ánh xạ

3.2 Biếu diễn sự đồng dạng trong không gian tuyến tính

3.2.1 Các hạt n h ân xác định dư ơ n g

Định nghĩa 3.3 : (Ma trận Gram) Cho hàm k : X 2 —> K (K = <c hoặc K = E và các mầu Xị, e X , ma trận K kích thước m X/W có các phần tử

K ij:= k (X i,X j) ( 3 . 1 3 )

đươc gọi là ma trận Gram (hay ma trận hạt nhân ) của k với X ị ,..., x m .

Địch nghĩa 3.4 (Ma trận xác định dương) Ma trận phức K kích thước m thoả mãn

CịCj Kjj > 0, VCị e c (3.14)

i j

đirơc gọi là xác định dương. Tương tự, ma trận thưc K kích thước m * m thoả mãn (3.15) với VCj e E, được gọi là xác định dương.

Địah nghĩa 3.6 (Hạt nhân xác định dương) Cho tập X khác rồng. Hàm k trên X X X với V m € E X tạo thành một ma trân Gram xác định dương gọi là hạt nhân xác định dương. Thông thường, chúng ta gọi ngắn gọn là mệt hạt nhân.

Chú ý : Một hàm k tạo thành một toán tử T k qua

(Tk) 0 0 = Ị k ( x , x ' ) f ( x ' ) d x ' ( 3 .1 5 )

X

đuực gọi là hạt nhân của T k.

Các hạt nhân có thể coi là các tích vô hướng được tổng quát hoá, do đó moi tích vô hướng là một hạt nhân. Một tính chất quan trong của tích vô hướng là bất đẳng thức Cauchy, vậy nên đổi với hạt nhân cũng có tính chất này :

Mệnh đề 3.7 : Neu k là một hạt nhân xác định dương, và x lt x 2 G X thì :

Giả sử k là hạt nhân dương giá trị thực, X là tập khác rồng. Ta định nghĩa một ánh xạ từ X vào không gian của các hàm ảnh xạ từ X vào K như sau :

Rx := {/: X -* M} qua

<£>:X -* R x

X y ~ > k(.,x ). (3.20)

Trong đó o ( x ) thể hiện cho hàm gán giá trị k (x \x ) cho x ' G X , nghĩa là 0 0 ) 0 = k ( . , x ) (h ìn h 3.2)

3.2.2 Tái lập ánh xạ hạt nhân

X x '

Hình 3.2 Minh hoạ moi liên hệ giữa ánh xạ đặc trưng với hạt nhân

(ánh xạ 3.20). Với mỗi mẫu dữ liệu (x hoặc X ’ như trong hình) được biểu diễn lại với hàm hạt nhàn sang các mẫu dữ liệu khác. Trong hình, hạt nhân được giả sử cỏ đồ thị hình chuông, ví dụ như hàm Gaussian k ( x , x ') = ex p ( —\\x — x '\\2Ị

(2<J2)). Tron% các công thức, chúng ta biếu diễn cấu trúc của tích vô hướng trong các hàm không gian, như là k ( x , x ') = < cp(x),<p(x') >.

Chúng ta xây dựng một không gian tích vô hướng của các mẫu dừ liệu là các ảnh đầu vào bằng hàm <í>. Các bước thực hiện để xây dựng một không gian đặc trưng với <í>

1 ) Chuyển anh của <t> vào một không gian vector

2) Định nghĩa một tích vô hướng dạng song tuyến xác địng dương 3) Kiểm tra xem tích vô hướng đó có thoả mãn k ( x , x ') = <

Đê xây dựng được một không gian tích vô hướng thig ta phải định nghĩa được một không gian vector bàng cách sử dụng tổ hợp tuyến tính :

f ( . ) = Y ^ a lk C , x l). (3.21)

=1

Trong đó, m E u ,a ị 6 R ,X j, G X là bất kỳ, tiếp theo chúng ta định nghĩa một tích vô hướng giữa f và một hàm khác như sau :

m '

g { . ) = Y j Pj k{.,x]), (3.22)

7 = 1

Trong đó m ' G M,ị3j G £ X , lúc đó tích vô hướng được tính n h ư sau : < f>9 > = 'Y J 'Y j a iỊ3 jk(xi>x j). (3.23) Í=1 j= 1 Rõ ràng : m' <f >9 > = Ỵ j P j f ( xj)> j= 1 m < f , g > = Ỵ a i g ( x i ) . i = l

từ hai công thức trên cho ta thấy<.,.> là song tuyến, và đổi xứng vì

< f , g > = < g , f >. Hơn thế, nó là xác định dương, từ k không xác định dương và với bất kỳ f như trong công thức (3.20) chúng ta có :

m

< / , / > = aịC tịkiX i.X ị) > 0 (3.26)

i.j=1

Kết luận là hạt nhân xác định dương được định nghĩa trên không gian các hàm. Với các ham và các hệ sổ Ỵi,...,Yn G chúng ta có :

(3.24)

n n n

ỵ YiYj(fitfj) = £ rift • Y 'Y ifi) > 0. (3.27)

i , j- 1 i = i ; = 1

Trong đó vế trái của đẳng thức ỉà song tuyến của còn vế phải của bất đảng thức là từ (3.26)

Bước cuối cùng của việc chứng minh nó là một tích vô hướng ta sử dụng một tính chất của của <t> suy ra từ định nghĩa cho tất cả các hàm (3.21), chúng ta có :

< k { . , x ) , / > = / ( * ) (3.28)

k: thể hiện cho độ đánh giá, cụ thể :

< k { . , x ) , k { . , x ' ) >= k ( x , x ' ) (3.29) Vì có các tính chất đó mà các hạt nhân xác định k còn được gọi là các hạt nhân tái lập.

Từ (3.28) và mệnh đề Cauchy (3.6) chúng ta có :

l/OOI2 = \ {k(. , x)J)\ 2 < k{x, x). (f , f ). (3.30)

Do đó ( f , f ) — 0 ta suy được ra ( .,.) = 0. Đó là tính chất cuối chứng minh rằng (.,. ) là một tích vô hướng.

Kết luận, theo (3.20) ta đã chứng minh được rằng bất kỳ hạt nhân xác địr.h dươníĩ nào đều có thể coi là một tích vô hướng trong một không gian khác. Tù tính chất của hạt nhân tái lập ta có :

< 4>(x)J<t>(x') > = k ( x , x ' ) . (3.31) 3.2.3 Tái lập không gian hạt nhân Hilbert

Như đã nói ớ phần trên, ta đã biết cách định nghĩa một không gian các hàm có phụ thuộc trên không gian đặc trưng và một hạt nhân cho trước. Những kh3ng gian như vậy được gọi là các không gian tích vô hướng hay là các không gian tiền Hilbert.

Không gian thoả mãn tính chất (3.28) và (3.29) được gọi là không gian hạt nhân Hilbert tái lập (RKHS - Reproducing Kernel Hilbert Space), và được định nghĩa như sau :

Định nghĩa 3.9 : Cho X là một tập khác rỗng (thường được gọi là tập chỉ số) và

J Ï là một không gian Hilbert các hàm f : X -> M. Khi đó H được gọi là một không gian hạt nhân Hilbert tái lập có tích vô hướng (có 11/11 := y j { f , f ) )

nếu tồn tại một hàm k: X X X -» E có các tính chất sau : 1 ) k có tín h c h ấ t tái lập ự , k ( x , . ) ) = f ( x ) , V f e H ] (3.33) Cụ thể : (k(x, . ), k( x' , . )) = k(x, x f). (3.34) 2) k mở rộng J-C, có nghĩa 1 à K = s p a n { k ( x, . )| X £ X}, X là mở rộng của tập X .

Tống quát hơn, ta có thể định nghĩa RKHS là không gian các hàm / trên

X mà mọi hàm lượng giá (các ánh xạ / »—* / ( * ' ) , x ' 6 X ) là liên tục. Khi đó

với mồi x ' E X tồn tại duy nhất một hàm của Xk(x,x ’) thoả măn :

/ ( * ' ) = ( 3 . 3 5 )

RKHS xác định duy nhất một k. Thực vậy, giả sử có tồn tại hai hạt nhân k

k cùng mở rộng ra một RKHS K . Khi đó, từ (3.33) ta có :

{ k ( x , . ) , k ’ (x' , . ) ) x — k ( x , x ' ) = k ' ( x ' , x ) . (3.36)

0 đắmg thức thứ hai, đó chính là tính đối xứng của tích vô hướng,vậy ta có điều cần chứng minh.

3.2.4 Ảnh xa hat nhân Mercer• •

Trong phần 3.2.2 chúng ta đã biết bất kỳ một hạt nhân xác định dương nào đều có thể biểu diễn thành một tích vô hướng trong một không gian tuyến tính. Điều đó được thực hiện bằng cách xây dựng một không gian (Hilbert). Và khi cho hai không gian Hilbert đẳng cấu cùng kích thước thì có thể định nghĩa được một ánh xạ tuyển tính một-một giữa hhai không gian mà vẫn giữ được tích vô hướng. Trong phần này, chúng ta tiếp tục xây dựng một không gian Hilbert khác, chúng ta sử dụng định lý Mercer, định lý Mercer cho ta cái nhìn sâu hơn

vào không gian hình học của không gian đặc trưng. Trong SVM, các cách sử dụng hạt nhân thường được trình bày qua định lý Mercer

Định lý 3.10 (Mercer) Giả sử k e Lco( X 2) là hàm đối xứng giá trị thực mà toán từ nguyên

Tk:L2m - * L 2( X)

cTkf ) ( x) := J k ( x, x' ) f ( x' ) dạ{ x' ) (3.37)

X

Là xác định dương; do đỏ với mọi / € L2(X), chúng ta có

k ( x , x ' ) f { x ) f ( x ' ) d ị x ( x ) d ị i ( x ' ) > 0. (3.38)

X 2

Cho ìpj E L2( X ) ỉ à hàm eigen trực giao với Tk có các giá trị eigen Ằj>0(sắp xếp không tăng), khi đỏ:

1) 4 ) . 6 ỉ ,

2) k ( x , x ') = Ip j(x )\p j(x ')p h ủ hầu h ế tất cá các (x,x ’)

, Nk g M hoặc N tf = 00 thì dãy sẽ hội tụ và hội tụ đều với hầu hết tất cú (x,x ’).

M ệnh đề 3.11 (Ảnh xạ hạt nhản Mercer) Nếu như hạt nhân k thoá mãn các điều kiện của định lý 3.10, chúng í a có thể xây dụng một ánh xạ vào một không gian k, trong đó k thực sự là một tích vô hướng,

<4>(x),<p ự ) ) =k ( x , x ' ) , (3.39)

với hầu hết tat cả X, x f G X. Hơn nữa, với mọi 8>0 thì tồn tại một ảnh xạ 0 n

vào một khôn<ịgian tích vô hướng n chiều (n 6 N phụ th u ộ c vào £):

\ k ( x ,x ') - <On ( x ) , ^ ( x ' ) ) | < £ (3.40)

hầu hết với mọi X, x' 6 X .

Cả các hạt nhân Mercer và các hạt nhân xác định dương đều có thể biểu diễn dưới dạng các tích vô hướng trong không gian Hilbert. Trong mệnh đề dưới đây là tnrờng hợp cả hai loại hạt nhân trên là giống nhau

M ệnh đề 3.12 (Các hạt nhân Mercer là xác định dương) Giả sử X = [a, b] một đoạn compact và cho k: [a, ồ] X [a, b] -* € là liên tục. Do đó k chỉ ỉà một hạt nhân xác định dương khỉ và chỉ khi

Jr b r b

j '

a J a

k ( x , x ' ) f ( x ) f ( x ' ) d x dx' > 0 (3.41)

với môi hàm liên tục / : X -> c.

Với không gian đặc trưng tái lập (Mệnh đề 3.11) ta dề thấy các hạt nhân Mercer cùng là xác định dương (với hầu hết X, x' G X ). Từ (3.10), cho c E Mm ta có :

^ cic ịk { x i>x i') = ^ CjCy< 0 0 ; ) , $ ( % ; ) ) = Ci<ĩ>(*i)

i,j i,j i

> 0 (3.42)

Do xác định dương nên các hạt nhân Mercer cũng là các hạt n hân tái lập. 3.3 Các h ạt nhân th ư ờ n g được sử dụng

Giả sử X e Rn

Đa thức :k(x, x') = {X, x ') d,

( ||x_*'||2\

• Gaussian : k ( x , x ') = exp í — -—- f - } với ơ > 0

• Siem oid :k(x. = tan h (/cíx. . K > 0

(3.43) (3.44) Sigmoid :k(x, x' ) = tanh(/c(x, x') + d ) , K > 0 và ứ < 0 (3.45) Đa thức không đồng n h ất : k ( x ,x ') = ( (x , x') + c ) đ, d E M,c > 0 RBF : k ( x , x r) = f ( d { x , x') ) (3.46)

C H Ư Ơ N G 4

PH Ư Ơ N G PHÁP V E C T O R TỤ A (SVM) 4.1 Phân chia bằng siêu phẵng.

Giả sử ta có không gian tích J Ï và các vector x i,...,x m G H , thì một siêu

phẳng trong o-c có thể được biểu diễn như sau :

[x e H \ < w, x > +b = 0},w e H , b 6 R ( 4 .1 )

Trong công thức trên, w là vector trực giao với mặt siêu phẳng. Neu w có chiều dài đơn vị thì <w,x> là chiều dài theo trục X của w (Hình 4.1 ). Trong công thức trên ta có thể nhân w và b với một sổ khác không để tạo nên một siêu phằng khác .

Hình 4.1 Một siêu phẳng phân lớp các đổi tượng thành hai lớp

Định nghĩa 4.1 (S iêu p h ẳ n g đạng chính tắc) Cặp < w ,b >E H X R được gọi là dạng chính tắc của siêu p h ẳ n g (4. Ị) với Xị, E l i , nếu ta cỏ tỷ lệ

ììĩiĩĩị=i m |< w, Xị > +b\ = 1 (4.2)

với đại lượng trên thì ta phát biêu rằng những điểm gần siêu phảng nhất có khoáng cách là y/| IvvIỊ (Hình 4.2Ì

Note: < W 1 X ị > + b = + l <w> &i>+b = - 1 => <w>(Xj-*x->>= 2 -> < Ị|5 |.(l,-«2)i>=|ệỊ| Hình 4.2 Siêu phẳng dạng chính tắc

Với điều kiện (4.2) thì ta có hai siêu phẳng thoả mãn hai cặp giá trị <w,b> và <-w,-b>, hai siêu phẳng có chiều khác nhau theo hai hàm quyết định sau :

f wy - M ^ { ± 1}

X ” fw ,b (x) = sg n (< w , x > + ố ) (4.3) Đe đi tìm siêu phẳng ta phải quan tâm đến khái niệm lề, là khoảng cách đển siêu phẳng từ các điểm dữ liệu gần siêu phẳng nhất.

4.2 Vai trò của lề tro n g siêu phẵng.

Định nghĩa 4.2 (Hình học) Với siêu phẳng {x E H I < w, X > +b = 0} chúng ta gọi

P{w.b)(x,y) := y(< w ,b> + bvv ) (4.4)

là biêu diễn hình học lề của điểm ( x , y ) G K X {±1} . Giả trị nhở nhất

P(w,b) := P(.w,b )(X i.yõ (4.5)

được gọi là diễn hình học lề của điêm (X ị, y ị) , ..., (xm, ym) , tức khi đó ta đã lấy trung bình các mẫu

Với điểm (x,y) đã được phân lớp chính xác, thì lề chính là khoảng cách từ

X đến siêu phẳng, tất nhiên các điểm trên siêu phẳng có giá trị bằng không.

, / w b \

( w , S ) := (77-77,7]— i ĩ ) , (4.6)

' V||w|| \\w\\J

Khi đó vector trọng số có chiều dài đơn vị, ta tính được y ( < w, X > + b) Biểu thức (X , x ) , là độ dài hình chiếu của X lên vector trực giao w, cộng thêm phẩn bù b ta có được khoảng cách từ X đến siêu phẳng. Để giá trị của lề là dương thì ta nhân thêm với y, khi đó nếu một điểm được phân lớp đúng thì lề có giá trị dương, ngược lại lề có giá trị âm.

Do đó, giá trị của lề và độ dài vector trọng số w có ý nghĩa rất quan trọng trona thuật toán phân lớp bằng vector tựa. Với tập dữ liệu huấn luyện có siêu phẳng phân lóp có giá trị lề lớn sẽ làm chúng ta có thế tin tưởng hơn khi thực hiện phân lớp với dừ liệu kiếm tra.

Với giả thuyết các dừ liệu huấn luyện và kiểm tra có cùng xác suất phân bổ, ta coi các dừ liệu kiếm tra (trong H ) nằm gần ít nhất với một mẫu trong dừ

Một phần của tài liệu Một số kỹ thuật vector tựa (SVM) trong khai phá dữ liệu và ứng dụng vào nhận dạng (Trang 35)