Một số giải thuật phân lớp dữ liệu tập trung- 123docz.net

Chương 3 PHÂN LỚP DỮ LIỆU TẬP TRUNG VÀ PHÂN TÁN

3.1 Một số giải thuật phân lớp dữ liệu tập trung

Như đã trình bày trong chương 1, có nhiều kĩ thuật được sử dụng cho việc xây dựng các phân lớp như SVM, NB, NB tăng cường, cây quyết định, K lân cận gần nhất. Trong phần này, tác giả trình bày giải thuật thường được sử dụng trong các ứng dụng là NB, TANB. Những giải thuật được chấp nhận không chỉ bởi tính đơn giản trong quá trình cài đặt mà còn là hiệu quả đạt được khi áp dụng vào những bài toán thực tế (xem [20],[23],[49],[62]).

3.1.1 Phân lớp Nạve Bayes

Phân lớp NB là phân lớp thống kê được xây dựng dựa trên định lý Bayes với giả thiết các biến độc lập với nhau. Trong giải thuật NB, mỗi mẫu x được biểu diễn bởi một tập các giá trị thuộc tính, có nghĩa là x = a ,a ,...,a 1 2 n , giá trị lớp của mẫu x là một giá trị trong tập hữu hạn C = c ,c ,...,c 1 2 m . Ta giả sử rằng, các giá trị thuộc tính hoàn toàn độc lập với giá trị của các lớp cho trước.

Tập dữ liệu huấn luyện D = (x ,y ),(x ,y ),...,(x ,y )  1 1 2 2 n n  là tập dữ liệu đã được gán nhãn, trong đó x i là các mẫu dữ liệu huấn luyện, y i là giá trị lớp của mẫu dữ liệu tương ứng. Trong suốt quá trình học, một giả thiết sẽ được đưa ra dựa trên nguồn dữ liệu mẫu. Quá trình đánh giá là việc tiên đoán giá trị lớp cho mẫu x được đưa ra. Với x = a ,a ,...,a 1 2 n , giá trị lớp c của mẫu x cần thỏa mãn:

 

j 

MAP j 1 2 n

c C

c = arg max P c | a ,a ,...,a (*)

Áp dụng định lý Bayes đối với đẳng thức (*) ta có:

 

j j

1 2 n j j

MAP 1 2 n j j

c C c C

1 2 n

P(a ,a ,...,a |c )P(c )

c (x)= arg max = arg maxP(a ,a ,...,a |c )P(c ) P(a ,a ,...,a )

Với giả định các thuộc tính giá trị là độc lập với nhau, khi đó xác suất của các thuộc tính a ,a ,...,a 1 2 n đối với giá trị lớp c j được tính bằng tích các xác suất thành phần của các thuộc tính, 1 2 n j  n i j

i=1

P(a ,a ,...,a |c )= p(a |c ) . Trong đó, các xác suất

P(c ) j và P(a |c ) i j được tính dựa trên tần suất xuất hiện của các giá trị trong nguồn dữ liệu huấn luyện. Ví dụ, đối với lớp c, P = c t c

t , t c là số lượng mẫu trong lớp c, còn t là tổng số lượng mẫu có trong dữ liệu huấn luyện. Cách tính xác suất này nhìn chung là hoàn toàn đúng đắn, tuy nhiên độ chính xác sẽ giảm trong trường hợp t c không đủ lớn. Khi đó, cách tiếp cận dựa trên Bayes [41] sẽ sử dụng ước lượng dựa trên k (hay còn gọi là ước lượng Laplace), được định nghĩa là t +k c p

t +k . Trong đó, p là ước lượng ban đầu của xác suất mà chúng ta cần tính (ví dụ, p = 1

m nếu có m lớp), k là hằng số hay còn được gọi là kích thước mẫu tương ứng.

Phân loại Naive Bayes Giai đoạn học:

Với mỗi lớp c j và mỗi giá trị thuộc tính a i , tính xác suất P(c ) j và P(a |c ) dựa vào tần số của chúng trong dữ liệu huấn luyện. i j

Giai đoạn phân loại:

Với một trường hợp mới x = <a 1 , a 2 , ...,a n > sẽ được phân loại như sau:

 

NB j i j

c C i=1

C = arg maxP(c ) P(a |c )

Ví dụ 3.1:

Cho nguồn dữ liệu về chơi thể thao dưới dạng bảng sau:

Outlook Temperature Humidity Windy Class

Sunny Hot High False N

Sunny Hot High True N

Overcast Hot High False Y

Rain Mild High False Y

Rain Cool Normal False Y

Rain Cool Normal True N

Overcast Cool Normal True Y

Sunny Mild High False N

Sunny Cool Normal False Y

Rain Mild Normal False Y

Sunny Mild Normal True Y

Overcast Mild High True Y

Overcast Hot Normal False Y

Overcast Mild High True N

Y : Play N: Do not Play

Bảng 3.1 Nguồn dữ liệu PlaySport cho phân lớp Naive Bayes

Áp dụng định lý Bayes ta có: p(C|X) với X = <x 1 ,x 2 ,…,x n > là xác suất để bộ X thuộc vào lớp C. Ta có P(C=N|Outlook=Sunny,Temperature=Hot, Humidity=High,Windy=False) là xác suất để bộ < Sunny,Hot,High, False> thuộc lớp N. Ý tưởng cho việc này chính là gán lớp C cho mẫu X với xác suất p(C|X) là lớn nhất. Trong đó C là một trong các lớp đã được xác định sẵn, ở đây, C {N,Y} .

Thực hiện phân lớp cho ví dụ trên.

o Ta xác định các P(x i |C) . với x i là các giá trị thuộc tính. C{N,Y}.

o Ta tính xác suất cho từng giá trị của các thuộc tính Outlook, Temperature, Humidity, Windy.

o P(Y) = 9/14; P(N) = 5/14

Outlook

Temperature

Humidity

P(High|Y) = 3/9 P(High|N) = 4/5 P(Normal|Y) = 6/9 P(Normal|N) = 1/5

Windy

P(True|Y) = 3/9 P(True|N) = 3/5 P(False|Y) = 6/9 P(False|N) = 2/5

Với một mẫu x = <Rain,Hot,High,False>, ta cần xác định xem mẫu này thuộc lớp N hay lớp Y?

0.010582

9 9 9 9 14

0.018286

5 5 5 5 14

Như vậy, ta có thể phân X vào lớp N, nghĩa là không chơi thể thao.

3.1.2 TANB

Phân lớp TANB là phân lớp được phát triển dựa trên phân lớp NB. Nếu như phân lớp NB được xây dựng với giả định rằng các thuộc tính là độc lập với nhau thì

phân lớp TANB lại quan tâm đến sự ảnh hưởng lẫn nhau của các thuộc tính (xem [12],[23],[33])

Trong cấu trúc NB, chỉ tồn tại các cung đi từ thuộc tính class đến các thuộc tính khác, nghĩa là các thuộc tính độc lập với nhau trong việc đánh giá thuộc tính class. Các thuộc tính chỉ phụ thuộc vào thuộc tính class. Còn trong cấu trúc tăng cường (augmented) tồn tại các cung đi thuộc tính này đến thuộc tính kia.

Một cung đi từ thuộc tính A i đến thuộc tính A j chỉ ra rằng: ảnh hưởng của thuộc tính A j lên việc đánh giá thuộc tính class cũng phụ thuộc vào giá trị của thuộc tính A i . Trong hình 3.3, ta thấy rằng: ở thuộc tính A 3 , ngoài cung đi từ thuộc tính C đến còn tồn tại một cung đi thuộc tính A 1 sang, điều đó có nghĩa là việc đánh giá thuộc tính C của thuộc tính A 3 còn phụ thuộc vào giá trị của thuộc tính A 1 .

Như vậy, để có thể xây dựng được phân lớp TANB, ta cần xây dựng được một cấu trúc tăng cường. Chow & Liu (1968) đã mô tả một thủ tục cho việc xây dựng một cây Bayes dựa trên dữ liệu. Thủ tục này sử dụng cây bao trùm cực đại (maximal weighted spanning tree) để giảm đi độ phức tạp của việc tính độ tương thích cực đại (maximum likelihood).

Hình 3.2. Ví dụ về mạng Nạve Bayes

Hình 3.3. Ví dụ về mạng Augmented Bayes