Phân lớp dữ liệu Bayesian

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu một số phương pháp phân lớp dữ liệu và ứng dụng trong phân lớp nấm (mushroom) với công cụ weka​ (Trang 44 - 47)

Bộ phân lớp Bayesian là một giải thuật thuộc lớp giải thuật phân lớp thống kê, nĩ cĩ thể dữ đốn xác suất của một phần tử dữ liệu thuộc vào một lớp là bao nhiều. Phân lớp Bayesian dựa trên định lý Bayes (định lý được đặt theo then tác giả của nĩ là Thomas Bayes). Một classifier đơn giản của Bayesian đĩ là Naive Bayes, so với việc thực thi của classifier cây quyết định và mạng nơron, classifier Bayesian đưa ra độ chính xác cao và nhanh khi áp dụng vào các cơ sở dữ liệu lớn.

Mục 2.3.1 nĩi lại các khái niệm xác suất cơ bản và định lý Bayes. Sau đĩ ta sẽ xem phân lớp Nạve Bayes trong 2.3.2

2.3.1 Định lý Bayes

Gọi X là một chứng cứ (evidience) (trong bài tốn phân lớp thì X sẽ là một

phần tử đữ liệu), Y là một giả thiết nào để cho X thuộc về một lớp một lớp C nào đĩ. Trong bài tốn phân lớp chúng ta muốn xác định giá trị P (Y |X) là xác suất để giả thiết Y là đúng với chứng cứ X thuộc vào lớp C với điều khiện ta biết các thơng tin mơ tả X. P (Y |X) là một xác suất hậu nghiệm (posterior probability hay posteriori

probability) của Y với điều kiện X.

Giả sử tập dữ liệu khách hàng của chúng ta được mơ tả bởi các thuộc tính tuổi và thu nhập, và một khách hàng X cĩ tuổi là 35 và thu nhập là $40.000. Giả sử

Y là giả thiết khách hàng đĩ sẽ mua máy tính, thì P (Y /X) phảm ánh xác suất người

dùng X sẽ mua máy tính, thì P (Y |X) phản ánh xác suất người dùng X sẽ mua máy tính với điều kiện ta biết tuổi và thu nhập của người đĩ.

Ngược lại P(Y) là xác suất tiền nghiệm (prior probability hay priori

probability) của Y. Trong ví dụ trên, nĩ là xác suất một khách hàng sẽ mua máy tính mà khơng cần biết các thơng tin về tuổi hay thu nhập của họ. Hay nĩi cách khác, xác suất này khơng phụ thuộc vào X. Tương tự P (X |Y) là xác suất của X với điều

kiện Y, nĩ là một xác hậu nghiệm. Vì dụ, nĩ là xác suất người dùng X (cĩ tuổi là 35 và thu thập là $40.000) sẽ mua máy tính với điều kiện ta đã biết là người dùng đĩ sẽ mua máy tính. Cuối cùng P(X) là xác suất tiền nghiệm cảu X. Trong ví dụ trên, nĩ

sẽ là xác suất một người trong tập dữ liệu sẽ xĩ tuổi 34 và thu nhập $40.000. Các xác suất này sẽ được tính dựa vào định lý Bayes như sau:

( ) P XY(( )) P X Y P Y( ( )) ( ) P Y X P X P X = = (2.9) Với: ( )

P X : Xác suất của sử kiện X xảy ra, Khơng quan tâm đến Y

( )

P Y : Xác suất của sử kiện Y xảy ra, Khơng quan tâm đến X

( )

P X Y : Xác suất (cĩ điều kiện) của sự kiện X xảy ra, nếu biết rằng sự kiện Y xảy ra

( )

P Y X : Xác suất hậu nghiệm của Y nếu biết X

Thuật tốn bayes dựa trên định lý Bayes áp dụng cho các bài tốn giả định điều kiện độc lập. Nghĩa là giả định đặc trưng của một lớp xảy ra khơng ảnh hưởng hay phụ thuộc vào đặc trưng của lớp khác

2.3.2 Phân lớp Nạve Bayes

Bộ phân lớp Nạve Bayes hay là bộ phân lớp Bayes đơn giản (simple Bayes classifier) hoạt động như sau:

1) Gọi D là tâp dữ liệu huấn luyện, trong đĩ mỗi phần tử dữ liệu X được biểu diễn bằng một vector chứa n giá trị thuộc tính A1, A2, ..., An, X= {x1, x2, ..., xn}.

2) Giả sử cĩ m lớp C1, C2, ..., Cm; Cho một phần tử dữ liệu X, bộ phân lớp sẽ gán nhãn cho X là lớp cĩ xác suất hậu nghiệm lớn nhất. Cụ thể, bộ phân lớp Bayes sẽ dự đốn X thuộc vào lớp Ci nếu và chỉ nếu:

( i ) ( j )

P C XP C X với (1 i m i,  j) (2.10)

Ci: Phân lớp i, với i= {1, 2 …, m}

( ) ( ( )i) ( )i i P X C P C P C X P X = (2.11)

3) Để tìm giá trị xác suất lớn nhất, ta nhận thấy trong cơng thức (2.10) thì giá trị P(X) là giống nhau với mọi lớp nên ta khơng cần tìm. Do đĩ ta chỉ cần tìm giá trị lớn nhất của P(X|Ci) x P(Ci). chú ý rằng P(Ci) được ước lượng bằng cơng thức

( ) i

i D P C

D

= , trong đĩ Di là tập các phần tử dữ liệu thuộc vào lớp Ci. nếu xác suất

tiền nghiệm P(Ci) cũng khơng xác định được thì ta coi chúng bằng nhau P(C1) = P(C2) = ...=P(Cm), khi đĩ ta chỉ cần tìm giá trị P(X|Ci) lớn nhất.

4) Khi số lượng các thuộc tính mơ tả dữ liệu là lớn thì chi phí tính tốn P(X|Ci) là rất lớn, do đĩ để làm giảm độ phức tạp, giải thuật Nạve Bayes giả thiết các thuộc tính là độc lập nhau hay khơng cĩ sự phụ thuộc nào giữa các thuộc tính. Khi đĩ ta cĩ thể tính: ( ) ( ) ( 1 ) ( ) 1 ... n i k i i n i k P X C P x C P x C P x C = = =   (2.12) Khi đĩ xác suất xảy ra của một điều kiện x mới là

( ) ( ) ( ) 1 max n i k i k P c P x C = = (2.13) Trong đĩ:

P(Ci): được tính dựa trên tần suất xuất hiện tài liệu trong tập huấn luyện. P(xk|Ci): được tính từ những tập thuộc tính đã được tính trong q trình huấn

luyện

Bước tính thuật tốn Bayes:

Bước 1: Huấn luyện tập dữ liệu: Tính xác suất P(Ci) Tính xác suất P(xk|Ci)

Bước 2: Lớp của giá trị mới được gắn cho lớp cĩ xác suất lớn nhật theo cơng thức:

( ) ( ) ( ) 1 max n i k i k P c P x C = =

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu một số phương pháp phân lớp dữ liệu và ứng dụng trong phân lớp nấm (mushroom) với công cụ weka​ (Trang 44 - 47)