Bộ phân lớp naive bayes

Một phần của tài liệu Tìm hiểu khả năng phân lớp dữ liệu với WEKA (Trang 28)

Chương II. Phân Lớp Trong Khai Phá Dữ Liệu

Bộ phân lớp naive bayes

gian các biến thể hiện X gồm các thể hiện được mô tả bởi tập thuộc tính A1 , A2,

… An . Không gian các thể hiện X là tập học. Khi có thể hiện mới với giá trị < a1 , a2, … an >, bộ phân lớp sẽ xuất giá trị hàm phân lớp f(x) là một trong các Vi

Tiếp cận Bayes lấy giá trị có xác suất cao nhất VMAP cho thể hiện mới. Chữ MAP viết tắt của cụm từ Maximum A Posterior

Sử dụng định lý Bayes ta có:

Trong công thức trên có hai số hạng cần quan tâm là P(vj) và P(a1 , a2, … an). Ta tính P(vj) bằng cách đếm số lần xuất hiện của giá trị đích vj trong tập học. Để tính P(a1 , a2, … an) ta giả thuyết ban đầu các thuộc tính là độc lập nhau. Nói cách khác, xác suất của một thể hiện quan sát được < a1 , a2, … an > trên mỗi lớp vj là tích các khả năng của từng thuộc tính riêng biệt trên vj

Do vậy, công thức trên được viết lại là:

Bộ phân lớp Bayes liên quan đến bước học trong đó P(vj) và P(a1 , a2, … an) được tính dựa trên tập học.

Để phân lớp ta dùng công thức :

Với ví dụ về việc chơi tennis, ta có thể tính các xác suất sau:

Cuối cùng ta có P(p)=9/14 và P(n)=5/14

Lưu ý: P(xi |C) được ước lượng như là tần suất tương đối của những mẫu có giá trị xi của thuộc tính thứ i trong lớp C.

Nếu thuộc tính thứ i là liên tục P(xi |C) được ước lượng thông qua hàm mật độ Gauss

Đối với ví dụ play-tennis ở trên, phân lớp X cho mẫu chưa tìm thấy như sau: X=<mưa,nóng,cao,không>

P(X|p)·P(p) =

P(mưa|p)·P(nóng|p)·P(cao|p)·P(không|p)·P(p) = 3/9·2/9·3/9·6/9·9/14 = 0.010582

P(X|n)·P(n) =

P(mưa|n)·P(nóng|n)·P(cao|n)·P(không|n)·P(n) = 2/5·2/5·4/5·2/5·5/14 = 0.018286

Mẫu X được phân vào lớp n (không chơi tennis)

Chương III. Giới Thiệu Weka Và Khả Năng

Một phần của tài liệu Tìm hiểu khả năng phân lớp dữ liệu với WEKA (Trang 28)

Tải bản đầy đủ (DOC)

(63 trang)
w