Chương II. Phân Lớp Trong Khai Phá Dữ Liệu
Bộ phân lớp naive bayes
gian các biến thể hiện X gồm các thể hiện được mô tả bởi tập thuộc tính A1 , A2,
… An . Không gian các thể hiện X là tập học. Khi có thể hiện mới với giá trị < a1 , a2, … an >, bộ phân lớp sẽ xuất giá trị hàm phân lớp f(x) là một trong các Vi
Tiếp cận Bayes lấy giá trị có xác suất cao nhất VMAP cho thể hiện mới. Chữ MAP viết tắt của cụm từ Maximum A Posterior
Sử dụng định lý Bayes ta có:
Trong công thức trên có hai số hạng cần quan tâm là P(vj) và P(a1 , a2, … an). Ta tính P(vj) bằng cách đếm số lần xuất hiện của giá trị đích vj trong tập học. Để tính P(a1 , a2, … an) ta giả thuyết ban đầu các thuộc tính là độc lập nhau. Nói cách khác, xác suất của một thể hiện quan sát được < a1 , a2, … an > trên mỗi lớp vj là tích các khả năng của từng thuộc tính riêng biệt trên vj
Do vậy, công thức trên được viết lại là:
Bộ phân lớp Bayes liên quan đến bước học trong đó P(vj) và P(a1 , a2, … an) được tính dựa trên tập học.
Để phân lớp ta dùng công thức :
Với ví dụ về việc chơi tennis, ta có thể tính các xác suất sau:
Cuối cùng ta có P(p)=9/14 và P(n)=5/14
Lưu ý: P(xi |C) được ước lượng như là tần suất tương đối của những mẫu có giá trị xi của thuộc tính thứ i trong lớp C.
Nếu thuộc tính thứ i là liên tục P(xi |C) được ước lượng thông qua hàm mật độ Gauss
Đối với ví dụ play-tennis ở trên, phân lớp X cho mẫu chưa tìm thấy như sau: X=<mưa,nóng,cao,không>
P(X|p)·P(p) =
P(mưa|p)·P(nóng|p)·P(cao|p)·P(không|p)·P(p) = 3/9·2/9·3/9·6/9·9/14 = 0.010582
P(X|n)·P(n) =
P(mưa|n)·P(nóng|n)·P(cao|n)·P(không|n)·P(n) = 2/5·2/5·4/5·2/5·5/14 = 0.018286
Mẫu X được phân vào lớp n (không chơi tennis)
Chương III. Giới Thiệu Weka Và Khả Năng