Các bài toán chính trong khai phá dữ liệu

Một phần của tài liệu Một số kỹ thuật vector tựa (SVM) trong khai phá dữ liệu và ứng dụng vào nhận dạng (Trang 32)

2.3.2.1 Phân lớp và p h â n cụm

Phân lớp và phân cụm là hai bài toán khá gần nhau. Một lớp có thể hiểu là một tập các mẫu dữ liệu có sự tương tự nhau, hay có quan hệ gần nhau và được gán một nhãn để phân biệt với các lớp khác. Một cụm có thể hiểu là một tập hợp các đối tượng có cùng các đặc trưng.

Cho tnrớc một tập các lớp dữ liệu đã gắn nhãn, hệ thống phải đưa ra dự đoán cho một đối tượng xem nó có thể nằm trong lớp nào. Ví dụ, tập dữ liệu các thông tin cá nhân của những người có thẻ tín dụng trong ngân hàng được sử dụng để phân lớp một khách hàng mới xem họ có thể nằm trong lớp khách hàng

nào. Hav với các thông tin vê tuôi, trình độ học vân, mức lương hệ thông khai phá dừ liệu sè sử dụng các kỹ thuật phân cụm đê đưa ra các nhóm khách hàne nhàm phục vụ cho chiến lược kinh doanh sau này.

Nói chung, việc phân cụm có thể làm việc với tập dữ liệu chưa được gán nhân. Một số phưang pháp phân lớp có thổ sử dụng phương pháp phân cụm đế phân cụm dừ liệu thành các cụm dừ liệu nhỏ, trước khi tiến hành phân lớp, ví dụ như mạng nơron RBF .

2.3.2.2 Tìm ra các luât

Quá trình tỉm ra các luật là quá trình tìm ra cách biểu diễn dữ liệu theo cách có thể diễn giải được dựa trên các tri thức thu lượm được từ tập dừ liệu. Đối với một người khai thác thông tin, họ mong muốn biết được tại sao lại có các kết quả phân lớp như thế, điều gì đang diễn ra trong không gian dừ liệu đa chiều, đặc trưng nào ảnh hưởng lớn đến các kết quả của quá trình khai phá đừ liệu,...Ví dụ, một miêu tả súc tích một phản ứng của thị trường có tác dụng rất hCru ích cho việc đưa ra quyết định của nhà đầu tư.

Một bộ phân lớp sau quá trình học từ tập dữ liệu huấn luyện sẽ có được tri thức biếu hiện là các trọng sổ phân lớp, ví dụ như các trọng sổ trong mạng nơron. Tuy vậy, rất khó khăn khi phải diễn giải các trọng số đó thành các kiến thức theo cách suy nghĩ hằng ngày. Do đó, người ta thường sử luật IF-THEN để biểu diễn các giá trị thông tin trong tập dừ liệu.

Bài toán tìm ra các luật có thể chia thành hai nhóm chính như sau.

• Tìm ra mối quan hệ giừa các thuộc tính của dữ liệu đầu vào và các nhãn đầu ra của các lóp trong tập dừ liệu được gán nhãn

• Luật kết hợp : Tìm ra quan hệ giừa các thuộc tính trong một lớp dữ liệu (có thể chưa được gán nhãn). Luật kết hợp thường được sử dụng để đưa ra quan hệ giữa các mục trong một giao dịch dữ liệu. ‘X => Y ’ , trong đó X,Y là tập các mục tin, thì ‘X => Y ’ có thể hiểu là nếu một giao dịch T e D có X, thì giao dịch đó cũng sẽ có z (D tập giao dịch dừ liệu). Một tham số điều kiện khả năng p

dùng đề đánh giá độ tin cậy của luật. Ví dụ : “Một khách hàng khi mua bơ thì cũng sẽ mua bánh mỳ với xác xuất là p ”.

HÀM HẠT NHÂN

Hạt nhân k xác định bởi tích vô hướng trong không gian đặc trung K qua ánh xạ

<D : X H» 3f

X X := 4>(X), (3.1)

là : k ( x , x r) =< ộ ( x ) ( ộ ( x ') > (3.2) Với miền đầu vào X có thể chỉ là một tập họp các đổi tượng riêng biệt

3.1 Tích vô hưổĩig các đặc trưng 3.1.1 Đặc trung đơn

Ta xét X là tập con các vector trong R n (N 6 N) có thể xây dựng được tích vô hướng dạng chính tắc. Giả sử X e X , trong đó có d chiều mang nhiều thông tin nhất (nên ta gọi là đặc trưng đơn) :

[x j i ì ' [xj z] ••• [xjd\' (3 -3 )

Trong đó j lt £ {1, Đối với bài toán nhận dạng mẫu, các mẫu được tiền xử lý bằng cách ánh xạ vào không gian đặc trưng jhf với tất cả d thành phần.

Xét ví dụ đơn giản sau : X — R2 , ta lấy 2 đặc trưng đơn, ta có

= E 3, (3.4)

( M i, \x\i) Qxị ị \ x\ ị \x\t \x\2), (3.5)

Với miền dữ liệu đầu vào N chiều thì :

CHƯƠNG 3

(d + N - 1)!

• Mạng nơron Perceptron nhiều lớp • Mạng nơron mờ

• Mạng nơron RBF • Vector tựa (SVM) • Thuật toán di truyền

2.4 Sự giống và khác nhau giữa khai phá dữ liệu và máy học

Có cùng mục tiêu là “học từ dừ liệu”, các thuật toán trong máy học đóng một vai trò nòng cốt trong khai phá dữ liệu. Tuy nhiên, các thuật toán nàv cần được phát triển để phù hợp với các yêu cầu và những thách thức mới của khai phá dừ liệu.

Một trong những thách thức đó là mức độ nhiễu cao trong dữ liệu của khai phá dừ liệu, tiêu chuẩn có thế giải quyết bài toán với độ nhiễu của dữ liệu cao trớ thành một trong nhừng tiêu chuấn quan trọng nhất để đánh giá một hệ thống khai phá dừ liệu.

Thách thức tiếp theo đối với khai phá dừ liệu là kích thước dữ liệu cần xử lý ngày càng lớn. Các thuộc tính trong máy học cũng như số lượng các đối tượng dữ liệu thường ít hon nhiều so với khai phá dữ liệu. Khai phá dữ liệu có thể phái xử lý một khối lượng khổng lồ, thường ở múc TB (hàng ngàn GB), do vậy thời gian xử lý là rất dài.

Hơn thế nữa, các thuật toán máy học thường sử dụng bộ nhớ trong để tính toán, lưu trừ, xử lý dữ liệu. Dù cho kích thước của bộ nhớ trong của máy tính đã đươc tăng lên đáng kể, nhưng điều đó cũng chằng thể theo kịp sự tăng lên về kích thước của dừ liệu. Chính vi thế, các kỹ thuật như xác suất, lấy mẫu, xử lý song song đang được áp dụng để các hệ thống khai phá dữ liệu có thể đáp ứng được với các bài toán thực tế.

Mọi phát triển trong khai phá dữ liệu đều nhằm đến các ứng dụng cụ thể và các đặc tính dừ liệu cụ thể trong các ứng dụng đó, trong khi máy học thường tập trung vào xử lý tri thức dạng lý hiệu và ở mức khái niệm.

Là các kha năng chọn ra d đặc trưng và là số chiều của không gian K .

Với không gian các ảnh đầu vào có kích thước 16x]6, và cần chọn ra 5 đặc trung đơn thì có khoảng Ỉ0U) khả năng.

Để có thế giải cảc bài toán có dừ liệu nhiều chiều thì việc ánh sang các không gian tuyến tính gặp nhiều khó khăn. Do vậy, để tính tích vô hướng trong không gian R N mà không cần phải ánh xạ thì ta dùng hàm hạt nhân

3.1.2 Hàm hat nhân

Để tính tích vô hướng dạng < í>(x), ^ ( x ' ) > chúng ta biểu diễn hàm hạt nhân như sau :

k ( x , x ' ) = < <Ị>(x), O ( x ') > , (3.7) Như vậy, ta có thể tính được giá trị tích vô hướng trong J{ mà không phải tín h ánh x ạ 4>.

Ví dụ, nếu xét đến thứ tự cùa các đặc trưng đơn, với N=d=2 và ánh xạ

( [ x ] ị [ x ] ị [ x ] 1[x]2, [x}2[x]1) (3.8) Thi tích vô hướng trong không gian H được tính như sau :

< 4>(x),4>(x') >= [x]Ị[x'ìỉ + [ x ] ị W l + 2[x]1M 2M 1[x']2

—< x , x ' > 2 3.9)

Tức hàm hạt nhân được tính bàng bình phương tích vô hướng trong không gian đầu vào

3.1.3 Hàm hat nhân đa thức

M ệnh đề 3.1: Cho để ánh xạ X E R N sang vector CẬx), d là d đặc trưng đơn có thứ tự của X. Khi đó, hạt nhân tương ứng để tính tích vô hướng của các vector đã được ánh xạ bởi C/ là :

k(x,x') =< Q (x), Q (x ') >=< x,x' >d . (3.10)

Ký hiệu Cd thể hiện ánh xạ đặc trưng, còn ký hiệu 4>d để thể hiện ánh xạ không tính đến thứ tự của các đặc trưng. Lấy phần phần bù của số lần xuất hiện

giống nhau các đặc trưng đơn trong Cd bằng cách lấy căn bậc hai sổ lần xuất hiện giong nhau các đặc trưng đơn, và từ (3.10) ta có :

Nếu như trong (3.3), tất cả các jị chỉ khác nhau ờ một giá trị, thì hệ số của đại lượng đó trong được tính bàng . Ví dụ, với ta có :

T" \ \ a) X \ . ■7 \ t *.? \ b) Hình 3. ! Ví dụ về phán lớp nhị phân khi ảnh xạ sang không gian đặc truvg

Giả sử, trong không gian đầu vào (a) biên quyết định có hình ellipse. Nhiệm vụ của bài toán phân lớp là đi tìm biên quyết định dựa trên các dừ liệu huấn luyện gồm có hai lớp (lớp khoanh tròn và lớp gạch chéo). Khi dùng ánh xạ phi tuyến

để ánh xạ sang không gian đặc trưng (b), hình elíp sẽ thành một siêu phẳng song song với ZỊ (nên các điểm dữ liệu đều nằm trên mặt (z/ ,z2)). Qua hạt nhân đa thức (3.11),(3.12) việc tính tính vô hướng trong không gian ba chiều qua hàm hạt nhân mà không phải tính ánh xạ

3.2 Biếu diễn sự đồng dạng trong không gian tuyến tính

3.2.1 Các hạt n h ân xác định dư ơ n g

Định nghĩa 3.3 : (Ma trận Gram) Cho hàm k : X 2 —> K (K = <c hoặc K = E và các mầu Xị, e X , ma trận K kích thước m X/W có các phần tử

K ij:= k (X i,X j) ( 3 . 1 3 )

đươc gọi là ma trận Gram (hay ma trận hạt nhân ) của k với X ị ,..., x m .

Địch nghĩa 3.4 (Ma trận xác định dương) Ma trận phức K kích thước m thoả mãn

CịCj Kjj > 0, VCị e c (3.14)

i j

đirơc gọi là xác định dương. Tương tự, ma trận thưc K kích thước m * m thoả mãn (3.15) với VCj e E, được gọi là xác định dương.

Địah nghĩa 3.6 (Hạt nhân xác định dương) Cho tập X khác rồng. Hàm k trên X X X với V m € E X tạo thành một ma trân Gram xác định dương gọi là hạt nhân xác định dương. Thông thường, chúng ta gọi ngắn gọn là mệt hạt nhân.

Chú ý : Một hàm k tạo thành một toán tử T k qua

(Tk) 0 0 = Ị k ( x , x ' ) f ( x ' ) d x ' ( 3 .1 5 )

X

đuực gọi là hạt nhân của T k.

Các hạt nhân có thể coi là các tích vô hướng được tổng quát hoá, do đó moi tích vô hướng là một hạt nhân. Một tính chất quan trong của tích vô hướng là bất đẳng thức Cauchy, vậy nên đổi với hạt nhân cũng có tính chất này :

Mệnh đề 3.7 : Neu k là một hạt nhân xác định dương, và x lt x 2 G X thì :

Giả sử k là hạt nhân dương giá trị thực, X là tập khác rồng. Ta định nghĩa một ánh xạ từ X vào không gian của các hàm ảnh xạ từ X vào K như sau :

Rx := {/: X -* M} qua

<£>:X -* R x

X y ~ > k(.,x ). (3.20)

Trong đó o ( x ) thể hiện cho hàm gán giá trị k (x \x ) cho x ' G X , nghĩa là 0 0 ) 0 = k ( . , x ) (h ìn h 3.2)

3.2.2 Tái lập ánh xạ hạt nhân

X x '

Hình 3.2 Minh hoạ moi liên hệ giữa ánh xạ đặc trưng với hạt nhân

(ánh xạ 3.20). Với mỗi mẫu dữ liệu (x hoặc X ’ như trong hình) được biểu diễn lại với hàm hạt nhàn sang các mẫu dữ liệu khác. Trong hình, hạt nhân được giả sử cỏ đồ thị hình chuông, ví dụ như hàm Gaussian k ( x , x ') = ex p ( —\\x — x '\\2Ị

(2<J2)). Tron% các công thức, chúng ta biếu diễn cấu trúc của tích vô hướng trong các hàm không gian, như là k ( x , x ') = < cp(x),<p(x') >.

Chúng ta xây dựng một không gian tích vô hướng của các mẫu dừ liệu là các ảnh đầu vào bằng hàm <í>. Các bước thực hiện để xây dựng một không gian đặc trưng với <í>

1 ) Chuyển anh của <t> vào một không gian vector

2) Định nghĩa một tích vô hướng dạng song tuyến xác địng dương 3) Kiểm tra xem tích vô hướng đó có thoả mãn k ( x , x ') = <

Đê xây dựng được một không gian tích vô hướng thig ta phải định nghĩa được một không gian vector bàng cách sử dụng tổ hợp tuyến tính :

f ( . ) = Y ^ a lk C , x l). (3.21)

=1

Trong đó, m E u ,a ị 6 R ,X j, G X là bất kỳ, tiếp theo chúng ta định nghĩa một tích vô hướng giữa f và một hàm khác như sau :

m '

g { . ) = Y j Pj k{.,x]), (3.22)

7 = 1

Trong đó m ' G M,ị3j G £ X , lúc đó tích vô hướng được tính n h ư sau : < f>9 > = 'Y J 'Y j a iỊ3 jk(xi>x j). (3.23) Í=1 j= 1 Rõ ràng : m' <f >9 > = Ỵ j P j f ( xj)> j= 1 m < f , g > = Ỵ a i g ( x i ) . i = l

từ hai công thức trên cho ta thấy<.,.> là song tuyến, và đổi xứng vì

< f , g > = < g , f >. Hơn thế, nó là xác định dương, từ k không xác định dương và với bất kỳ f như trong công thức (3.20) chúng ta có :

m

< / , / > = aịC tịkiX i.X ị) > 0 (3.26)

i.j=1

Kết luận là hạt nhân xác định dương được định nghĩa trên không gian các hàm. Với các ham và các hệ sổ Ỵi,...,Yn G chúng ta có :

(3.24)

n n n

ỵ YiYj(fitfj) = £ rift • Y 'Y ifi) > 0. (3.27)

i , j- 1 i = i ; = 1

Trong đó vế trái của đẳng thức ỉà song tuyến của còn vế phải của bất đảng thức là từ (3.26)

Bước cuối cùng của việc chứng minh nó là một tích vô hướng ta sử dụng một tính chất của của <t> suy ra từ định nghĩa cho tất cả các hàm (3.21), chúng ta có :

< k { . , x ) , / > = / ( * ) (3.28)

k: thể hiện cho độ đánh giá, cụ thể :

< k { . , x ) , k { . , x ' ) >= k ( x , x ' ) (3.29) Vì có các tính chất đó mà các hạt nhân xác định k còn được gọi là các hạt nhân tái lập.

Từ (3.28) và mệnh đề Cauchy (3.6) chúng ta có :

l/OOI2 = \ {k(. , x)J)\ 2 < k{x, x). (f , f ). (3.30)

Do đó ( f , f ) — 0 ta suy được ra ( .,.) = 0. Đó là tính chất cuối chứng minh rằng (.,. ) là một tích vô hướng.

Kết luận, theo (3.20) ta đã chứng minh được rằng bất kỳ hạt nhân xác địr.h dươníĩ nào đều có thể coi là một tích vô hướng trong một không gian khác. Tù tính chất của hạt nhân tái lập ta có :

< 4>(x)J<t>(x') > = k ( x , x ' ) . (3.31) 3.2.3 Tái lập không gian hạt nhân Hilbert

Như đã nói ớ phần trên, ta đã biết cách định nghĩa một không gian các hàm có phụ thuộc trên không gian đặc trưng và một hạt nhân cho trước. Những kh3ng gian như vậy được gọi là các không gian tích vô hướng hay là các không gian tiền Hilbert.

Không gian thoả mãn tính chất (3.28) và (3.29) được gọi là không gian hạt nhân Hilbert tái lập (RKHS - Reproducing Kernel Hilbert Space), và được định nghĩa như sau :

Định nghĩa 3.9 : Cho X là một tập khác rỗng (thường được gọi là tập chỉ số) và

J Ï là một không gian Hilbert các hàm f : X -> M. Khi đó H được gọi là một không gian hạt nhân Hilbert tái lập có tích vô hướng (có 11/11 := y j { f , f ) )

nếu tồn tại một hàm k: X X X -» E có các tính chất sau : 1 ) k có tín h c h ấ t tái lập ự , k ( x , . ) ) = f ( x ) , V f e H ] (3.33) Cụ thể : (k(x, . ), k( x' , . )) = k(x, x f). (3.34) 2) k mở rộng J-C, có nghĩa 1 à K = s p a n { k ( x, . )| X £ X}, X là mở rộng của tập X .

Tống quát hơn, ta có thể định nghĩa RKHS là không gian các hàm / trên

X mà mọi hàm lượng giá (các ánh xạ / »—* / ( * ' ) , x ' 6 X ) là liên tục. Khi đó

với mồi x ' E X tồn tại duy nhất một hàm của Xk(x,x ’) thoả măn :

/ ( * ' ) = ( 3 . 3 5 )

RKHS xác định duy nhất một k. Thực vậy, giả sử có tồn tại hai hạt nhân k

k cùng mở rộng ra một RKHS K . Khi đó, từ (3.33) ta có :

{ k ( x , . ) , k ’ (x' , . ) ) x — k ( x , x ' ) = k ' ( x ' , x ) . (3.36)

0 đắmg thức thứ hai, đó chính là tính đối xứng của tích vô hướng,vậy ta có điều cần chứng minh.

3.2.4 Ảnh xa hat nhân Mercer• •

Trong phần 3.2.2 chúng ta đã biết bất kỳ một hạt nhân xác định dương nào đều có thể biểu diễn thành một tích vô hướng trong một không gian tuyến tính. Điều đó được thực hiện bằng cách xây dựng một không gian (Hilbert). Và khi cho hai không gian Hilbert đẳng cấu cùng kích thước thì có thể định nghĩa được một ánh xạ tuyển tính một-một giữa hhai không gian mà vẫn giữ được tích vô hướng. Trong phần này, chúng ta tiếp tục xây dựng một không gian Hilbert khác, chúng ta sử dụng định lý Mercer, định lý Mercer cho ta cái nhìn sâu hơn

vào không gian hình học của không gian đặc trưng. Trong SVM, các cách sử dụng hạt nhân thường được trình bày qua định lý Mercer

Định lý 3.10 (Mercer) Giả sử k e Lco( X 2) là hàm đối xứng giá trị thực mà toán từ nguyên

Tk:L2m - * L 2( X)

cTkf ) ( x) := J k ( x, x' ) f ( x' ) dạ{ x' ) (3.37)

X

Là xác định dương; do đỏ với mọi / € L2(X), chúng ta có

k ( x , x ' ) f { x ) f ( x ' ) d ị x ( x ) d ị i ( x ' ) > 0. (3.38)

X 2

Cho ìpj E L2( X ) ỉ à hàm eigen trực giao với Tk có các giá trị eigen Ằj>0(sắp xếp không tăng), khi đỏ:

1) 4 ) . 6 ỉ ,

2) k ( x , x ') = Ip j(x )\p j(x ')p h ủ hầu h ế tất cá các (x,x ’)

, Nk g M hoặc N tf = 00 thì dãy sẽ hội tụ và hội tụ đều với hầu hết tất cú (x,x ’).

M ệnh đề 3.11 (Ảnh xạ hạt nhản Mercer) Nếu như hạt nhân k thoá mãn các điều kiện của định lý 3.10, chúng í a có thể xây dụng một ánh xạ vào một không gian k, trong đó k thực sự là một tích vô hướng,

<4>(x),<p ự ) ) =k ( x , x ' ) , (3.39)

Một phần của tài liệu Một số kỹ thuật vector tựa (SVM) trong khai phá dữ liệu và ứng dụng vào nhận dạng (Trang 32)

Tải bản đầy đủ (PDF)

(76 trang)