b. Phân loại các kỹ thuật học máy
2.2.2. Thuật tốn Nạve Bayes
Trong đĩ:
- H (Hypothesis) là giả thuyết và E (Evidence) là chứng cứ hỗ trợ cho giả thuyết H.
- P(E|H): xác suất E xảy ra khi H xảy ra (xác suất cĩ điều kiện, khả năng của E khi H đúng) thường gọi là xác suất tiên nghiệm.
- P(H|E): xác suất hậu nghiệm của H nếu biết E.
Một số thuật tốn phân lớp dữ liệu được đề xuất dựa trên cơng thức (2.2). Trong mục tiếp theo, luận văn sẽ khảo sát thuật tốn Naive Bayes và mạng Bayes.
2.2.2.Thuật tốn Nạve Bayes
Thuật tốn phân lớp Naive Bayes (Naive Bayes Classification - NBC) thường được gọi ngắn gọn là thuật tốn là Naive Bayes [19]. Thuật tốn Naive Bayes dựa trên định lý Bayes (2.2) để đưa ra các phán đốn cũng như phân loại dữ liệu dựa trên các dữ liệu được quan sát và thống kê.
Xét bài tốn phân lớp dữ liệu (1.1)-(1.2). Mơ hình phân lớp dữ liệu Bayes được xây dựng dựa trên cơng thức (2.2) với mỗi lớp dữ liệu ci C = {c1, c2, …, cm} như sau:
- Lựa chọn sự kiện H = “Dữ liệu mẫu thuộc lớp ci”; E = “Thỏa mãn điều kiện đối với một số thuộc tính thuộc A”.
- Tính các xác suất P(E), P(H) và P(E|H) trong tập các mẫu dữ liệu huấn luyện.
- Tính xác suất P(H|E) theo cơng thức (2.2).
- Lựa chọn E sao cho xác suất P(H|E) đạt giá trị lớn nhất.
Để thực hiện phân lớp đối với dữ liệu mới z = (z1, z2, …, zk) ta sẽ tiến hành như sau:
- Tính xác suất P(H|( z1, z2, …, zk)) theo cơng thức (2.2) theo nghĩa các thuộc tính của Z xét trên E tương ứng;
- Xuất kết quả xếp dữ liệu Z vào lớp ci ứng với lớp cĩ xác suất tính được ở bước trên là lớn nhất.