Mơ hình Nạve Bayes

Một phần của tài liệu (LUẬN văn THẠC sĩ) kết hợp học quan hệ và học thống kê cho phân lớp dữ liệu đa quan hệ luận văn ths công nghệ thông tin 1 01 10 (Trang 41 - 45)

CHƢƠNG 4 THỰC NGHIỆM VÀ KẾT QUẢ

3.1 Mơ hình Nạve Bayes

3.1.1. Mơ hình Nạve Bayes (NB).

Mơ hình NB là mơ hình phân lớp thống kê được xây dựng dựa trên định lý Bayes với giả thiết các biến độc lập với nhau ([25], [11]). Trong giải thuật NB, mỗi mẫu x được biểu diễn bởi một tập các giá trị thuộc tính, cĩ nghĩa là

1 2 n

x = a ,a ,...,a , giá trị lớp của mẫu x là một giá trị trong tập hữu hạn

1 2 m

C = c ,c ,...,c . Ta giả sử rằng, các giá trị thuộc tính hồn tồn độc lập với giá trị của các lớp cho trước. Mơ hình NB nhằm xây dựng mơ hình biểu diễn phân bố xác suất P(ci | a1,…an).

Tập dữ liệu huấn luyện D = (x ,y ),(x ,y ),...,(x ,y ) 1 1 2 2 n n  là tập dữ liệu đã được gán nhãn, trong đĩ xi là các mẫu dữ liệu huấn luyện, yi là giá trị lớp của mẫu dữ liệu tương ứng. Trong suốt quá trình học, một giả thiết sẽ được đưa ra dựa trên nguồn dữ liệu mẫu. Quá trình đánh giá là việc tiên đốn giá trị lớp cho mẫu x được đưa ra. Với x = a ,a ,...,a1 2 n , giá trị lớp c của mẫu x cần thỏa mãn:

 

j

MAP j 1 2 n

c C

c = arg max P c | a ,a ,...,a (*) Áp dụng định lý Bayes đối với đẳng thức (*) ta cĩ:

  j j 1 2 n j j MAP 1 2 n j j c C c C 1 2 n P(a ,a ,...,a |c )P(c )

c (x)= arg max = arg maxP(a ,a ,...,a |c )P(c )

P(a ,a ,...,a )

Với giả định các thuộc tính giá trị là độc lập với nhau, khi đĩ xác suất của các thuộc tính a ,a ,...,a1 2 n đối với giá trị lớp cj được tính bằng tích các xác suất thành phần của các thuộc tính, 1 2 n j n i j

i=1

P(a ,a ,...,a |c )= p(a |c ). Trong đĩ, các xác suất P(c )j và P(a |c )i j được tính dựa trên tần suất xuất hiện của các giá trị trong nguồn dữ liệu huấn luyện. Ví dụ, đối với lớp c, c

c

t P =

t , tclà số lượng mẫu trong lớp c, cịn t là tổng số lượng mẫu cĩ trong dữ liệu huấn luyện.

Phân loại Naive Bayes

Giai đoạn học:

Với mỗi lớp cj và mỗi giá trị thuộc tính ai, tính xác

suất P c( )jP a c( | )i j dựa vào tần số của chúng trong dữ liệu

huấn luyện.

Giai đoạn phân loại:

Với một trường hợp mới x = <a1, a2, ...,an> sẽ được phân loại

như sau:   j n NB j i j i=1

C = arg maxP(c ) P(a |c ) C

c

Giải thuật 3.1. Phân loại Naive Bayes

Ví dụ 3.1.

Cho nguồn dữ liệu về chơi thể thao dưới dạng bảng sau:

Outlook Temperature Humidity Windy Class

Sunny Hot High False N

Sunny Hot High True N

Overcast Hot High False Y

Rain Mild High False Y

Rain Cool Normal False Y

Rain Cool Normal True N

Overcast Cool Normal True Y

Sunny Mild High False N

Sunny Cool Normal False Y

Rain Mild Normal False Y

Sunny Mild Normal True Y

Overcast Mild High True Y

Overcast Hot Normal False Y

Overcast Mild High True N

Y : Play N: Do not Play

Bảng 3.1. Nguồn dữ liệu PlaySport cho phân lớp Naive Bayes

Áp dụng định lý Bayes ta cĩ: p(C|X) với X = <x1,x2,…,xn> là xác suất để bộ X thuộc vào lớp C. Ta cĩ P(C=N|Outlook=Sunny,Temperature=Hot, Humidity=High, Windy=False) là xác suất để bộ <Sunny,Hot,High, False> thuộc

lớp N. Ý tưởng cho việc này chính là gán lớp C cho mẫu X với xác suất p(C|X) là lớn nhất. Trong đĩ C là một trong các lớp đã được xác định sẵn, ở đây, C {N,Y}.

 Ta xác định các P(xi|C). với xi là các giá trị thuộc tính. C{N,Y}.

 Ta tính xác suất cho từng giá trị của các thuộc tính Outlook, Temperature, Humidity, Windy.  P(Y) = 9/14; P(N) = 5/14 Outlook P(Sunny|Y) = 2/9 P(Sunny|N) = 3/5 P(Overcast|Y) = 4/9 P(Overcast|N) = 0/5 P(Rain|Y) = 3/9 P(Rain | N) = 2/5 Temperature P(Hot|Y) = 2/9 P(Hot|N) = 2/5 P(Mild|Y) = 4/9 P(Mild| N) = 2/5 P(Cool|Y) = 3/9 P(Cool|N) = 1/5 Humidity P(High|Y) = 3/9 P(High|N) = 4/5 P(Normal|Y) = 6/9 P(Normal|N) = 1/5 Windy P(True|Y) = 3/9 P(True|N) = 3/5 P(False|Y) = 6/9 P(False|N) = 2/5

Với một mẫu x = <Rain,Hot,High,False>, ta cần xác định xem mẫu này thuộc lớp N hay lớp Y?

P(X|Y) P(Y) = P(Rain|Y)  P(Hot|Y)  P(High|Y)  P(False|Y)  P(Y) =

    

3 2 3 6 9

0.010582

P(X|N) P(N) = P(Rain|N)  P(Hot|N)  P(High|N)  P(False|N)  P(N) =

    

2 2 4 2 5

0.018286

5 5 5 5 14

Như vậy, ta cĩ thể phân X vào lớp N, nghĩa là khơng chơi thể thao.

3.1.2. Một số mở rộng của mơ hình Nạve Bayes 3.1.2.1. Mơ hình Tree Augmented Nạve Bayes (TAN) 3.1.2.1. Mơ hình Tree Augmented Nạve Bayes (TAN)

Mơ hình TAN ([25], [11]) là mơ hình phân lớp được phát triển dựa trên mơ hình NB. Nếu như mơ hình NB được xây dựng với giả định rằng các thuộc tính là độc lập với nhau thì mơ hình TAN lại quan tâm đến sự ảnh hưởng lẫn nhau của các thuộc tính.

Trong mơ hình NB, chỉ tồn tại các cung đi từ thuộc tính nhãn lớp (class) đến các thuộc tính khác, nghĩa là các thuộc tính độc lập với nhau trong việc đánh giá thuộc tính nhãn lớp. Các thuộc tính chỉ phụ thuộc vào thuộc tính nhãn lớp. Cịn trong cấu trúc tăng cường (augmented) tồn tại các cung đi thuộc tính này đến thuộc tính kia. Trong mơ hình TAN, các phụ thuộc được biểu diễn trong dạng cây với mỗi đặc trưng cĩ nhiều nhất là một đặc trưng mức cha hay cĩ nhiều nhất một phụ thuộc vào đặc trưng khác. Điều này cĩ nghĩa là số các tham số trong một mơ hình TAN là O(n) với n là số các đặc trưng hay thuộc tính.

Một cung đi từ thuộc tính Ai đến thuộc tính Aj chỉ ra rằng: ảnh hưởng của thuộc tính Aj lên việc đánh giá thuộc tính class cũng phụ thuộc vào giá trị của thuộc tính Ai. Trong hình 3.2, ta thấy rằng: ở thuộc tính A3, ngồi cung đi từ thuộc tính C đến cịn tồn tại một cung đi thuộc tính A1 sang, điều đĩ cĩ nghĩa là việc đánh giá thuộc tính C của thuộc tính A3 cịn phụ thuộc vào giá trị của thuộc tính A1.

3.1.2.2. Mơ hình BN Augmented Nạve Bayes

Mơ hình BN Augmented Nạve Bayes (BAN) là mở rộng của mơ hình TAN ([25], [11]). Với mơ hình BAN, các đặc trưng cĩ thể cĩ nhiều hơn một nút đặc trưng cha khác. Hay nĩi cách khác, mơ hình BAN cĩ thể biểu diễn sự phụ thuộc của một đặc trưng vào một số các đặc trưng khác.

Hình 3.3. Mơ hình BAN

Trong ví dụ trong hình 3.3, thuộc tính A3 cĩ hai phụ thuộc vào các thuộc tính A1 và A2.`

3.2. Kết hợp FOIL và mơ hình xác suất 3.2.1. Kết hợp FOIL và mơ hình Nạve Bayes 3.2.1. Kết hợp FOIL và mơ hình Nạve Bayes 3.2.1.1. Cách tiếp cận

Một phần của tài liệu (LUẬN văn THẠC sĩ) kết hợp học quan hệ và học thống kê cho phân lớp dữ liệu đa quan hệ luận văn ths công nghệ thông tin 1 01 10 (Trang 41 - 45)

Tải bản đầy đủ (PDF)

(89 trang)