Bƣớc 1: Huấn luyện Naive Bayes (dựa vào tập dữ liệu), tính và
.
Bƣớc 2: Phân lớp , ta cần tính xác suất thuộc từng phân lớp khi đã biết trƣớc Anew
. Anew đƣợc gán vào lớp có xác suất lớn nhất theo công thức:
Ví dụ:
Bảng 2.1: Minh họa tập dữ liệu mẫu về kết quả học tập của sinh viên Nguồn [tác giả]
TT Nơi ở Điểm vào Kinh tế Giới tính Kết quả
1 Nông thôn Trung bình Thấp Nữ Rớt
2 Thành thị Cao Trung bình Nam Đậu
3 Nông thôn Thấp Trung bình Nam Rớt
4 Thành thị Trung bình Trung bình Nữ Đậu
5 Thành thị Trungbình Cao Nữ Đậu
6 Nông thôn Cao Cao Nam Đậu
7 Nông thôn Trungbình Cao Nữ Đậu
8 Thành thị Thấp Thấp Nam Rớt
Áp dụng phân lớp Naive Bayes vào tập dữ liệu mẫu trong bảng trên để phân lớp cho một thể hiện mới sau đây <Nông thôn, trung bình, trung bình, nam>
(có kết quả là Đậu (Đ) hay kết quả Rớt (R)).
Bước 1: Ta có 2 lớp Đ=“Đậu”, R= “Rớt”, tổng số mẫu =8
Ta thu đƣợc:
Số mẫu đƣợc phân lớp Đ là 5 Xác suất Đậu: P(Đ)=5/8 Số mẫu đƣợc phân lớp R là 3 Xác suất Rớt: P(R)=3/8
Theo công thức (4) ta tính xác suất phân bố trên từng lớp cho thể hiện mới
<Nông thôn, trung bình, trung bình, nam> bằng cách sử dụng công thức Bayes
Đặt X1(lớp Đ) = ∐ và X2 (lớp R) = ∐
X1 = P(Đ).P(Noio = Nongthon|Đ).P(Diemvao = trungbinh|Đ). P(Kinhte=trungbinh|Đ). P(Gioitinh=Nam|Đ)
X2 = P(R).P(Noio = Nongthon|R).P(Diemvao = trungbinh|R). P(Kinhte=trungbinh|R). P(Gioitinh=Nam|R)
Ta lần lƣợt tính xác suất của các thuộc tính sau:
Nơi ở
P(Thành thị| Đ) =3/5 P(Thành thị| R) =1/3 P(Nông thôn| Đ) =2/5 P(Nông thôn| R) =2/3
Điểm vào P(Cao| Đ) =2/5 P(Cao| R) =0/3 P(Trung bình| Đ)=3/5 P(Trung bình| R)=1/3 P(Thấp| Đ) =0/5 P(Thấp| R) =2/3 Kinh tế P(Cao| Đ) =3/5 P(Cao| R) =0/3 P(Trung bình| Đ)=2/5 P(Trung bình| R)=1/3 P(Thấp| Đ) =0/5 P(Thấp| R) =2/3 Gtinh P(Nam| Đ) =2/5 P(Nam| R) =2/3 P(Nữ| Đ) =3/5 P(Nữ| R) =1/3
Bước 2: Phân lớp cho mẫu mới
X <Nông thôn, trung bình, trung bình, nam>
Vậy X1(lớp Đ) = 5/8*2/5*3/5*2/5*2/5 =0.024 X2(lớp R) = 3/8*2/3*1/3*1/3*2/3 =0.0123
CNB = max (X1(lớp Đ) ;X2(lớp R)) =X2(lớp Đ)
Vậy X thuộc lớp Đ nghĩa là với sinh viên sống nông thôn, điểm vào trung bình,
kinh tế gia đình có thu nhập trung bình và là nam thì kết quả là Đậu.
Để tránh trƣờng hợp giá trị P(Xk|Ci) = 0 do không có mẫu nào trong DL huấn luyện thỏa mãn tử số, ta làm trơn bằng cách thêm một số mẫu ảo:
Khi đó: Công thức tính đã làm trơn Laplace
| |
Trong đó:
|Ci,D|: số mẫu huấn luyện thuộc phân lớp i. |D|: số mẫu trong tập huấn luyện.
m: số phân lớp
Công thức tính đã làm trơn Laplace:
| { }| | |
Trong đó:
|| { }|: số mẫu thuộc phân lớp i có đặc trƣng thứ k. | |: Số mẫu của tập huấn luyện thuộc phân lớp i. r: Số giá trị có thể có của đặc trƣng thứ k
Ví dụ: Làm trơn Laplace B1: Ƣớc lƣợng
với C1=“Đậu”; C2=“Rớt” Theo công thức làm trơn Laplace:
Xác suất lớp Đậu là:
Xác suất lớp Rớt là:
Ta lần lƣợt tính xác suất của các thuộc tính sau:
Nơi ở
P(Thành thị| Đ) =4/7 P(Thành thị| R) =2/5 P(Nông thôn| Đ) =3/7 P(Nông thôn| R) =3/5
Điểm vào P(Cao| Đ) =3/8 P(Cao| R) =1/6 P(Trung bình| Đ)=4/8 P(Trung bình| R)=2/6 P(Thấp| Đ) =1/8 P(Thấp| R) =3/6 Kinh tế P(Cao| Đ) =4/8 P(Cao| R) =1/6 P(Trung bình| Đ)=3/8 P(Trung bình| R)=2/6 P(Thấp| Đ) =1/8 P(Thấp| R) =3/6 Gtinh P(Nam| Đ) =3/7 P(Nam| R) =3/5 P(Nữ| Đ) =4/7 P(Nữ| R) =2/5
B2: Phân loại
X <Nông thôn, thấp, trung bình, nam>
X1(lớp Đ) = =0.00516 X2(lớp R) = =0.024 CNB = max (X1(lớp Đ) ; X2(lớp R)) = X2(lớp R) X thuộc lớp Rớt