Tùy thuộc vào tính chính xác bản chất của mô hình xác suất, phân lớp naive Bayes có thể được tạo ra rất hiệu quả trong học máy.. Vào năm 2004 phân tích các vấn đề của phân lớp Bayes đã c
Trang 1HÀ NỘI – 2014 LỜI CẢM ƠN
Trang 2
Trước tiên, tôi xin gửi lời cảm ơn chân thành và sự biết ơn sâu sắc tới thầy Trần Tuấn Vinh đã tận tình hướng dẫn tôi trong suốt quá trình thực hiện khóa luận này
Tôi xin bày tỏ lời cảm ơn sâu sắc đến các thầy cô giáo đã giảng dạy tôi trong suốt 4 năm học qua, đã cho tôi những kiến thức quý báu để tôi có thể vững bước trên con đường đi của mình
Trong quá trình góp nhặt kiến thức các thầy cô bạn bè là những người đã cùng tôi sát cánh trong suốt thời gian tôi học tập và nghiên cứu dưới mái trường Đại học Sư phạm Hà Nội 2
Trong những nỗ lực đó, không thể không kể đến công lao to lớn không
gì có thể đền đáp được của cha mẹ những người đã sinh thành, dưỡng dục tôi nên người, luôn nhắc nhở động viên tôi hoàn thành tốt nhiệm vụ
Hà Nội, tháng 5 năm 2014
Sinh viên
Trần Thị Hà
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan đề tài “Phân lớp naive Bayes và ứng dụng” là kết quả
mà tôi đã trực tiếp nghiên cứu, tìm hiểu được Trong quá trình nghiên cứu, tôi
có sử dụng tài liệu của một số tác giả khác Tuy nhiên, đó chỉ là cơ sở để tôi rút ra được vấn đề cần tìm hiểu ở đề tài của mình Đây là kết quả của riêng cá nhân tôi, hoàn toàn không trùng khớp với kết quả của tác giả nào khác
Nếu sai tôi xin chịu hoàn toàn trách nhiệm
Hà Nội, tháng 5 năm 2014
Sinh viên
Trần Thị Hà
Trang 4MỤC LỤC
MỞ ĐẦU 1
Chương I LÝ THUYẾT CHUNG [1] 2
1.1 Biến cố ngẫu nhiên 2
1.1.1 Hiện tượng ngẫu nhiên 2
1.1.2 Phép thử và biến cố 2
1.1.3 Quan hệ giữa các biến cố 3
1.2 Xác suất của biến cố 3
1.2.1 Định nghĩa xác suất dạng cổ điển 3
1.2.2 Tính chất của xác suất 3
1.3 Công thức tính xác suất 4
1.3.1 Công thức cộng xác suất 4
1.3.2 Xác suất có điều kiện 4
1.4 Công thức Bayes 5
Chương II GIỚI THIỆU VỀ PHÂN LỚP NAIVE BAYES VÀ PHÂN TÍCH TRONG KHAI PHÁ DỮ LIỆU 8
2.1 Kỹ thuật phân lớp dữ liệu trong khai phá dữ liệu 8
2.2 Giới thiệu phân lớp naive Bayes 8
2.2.1 Định nghĩa 8
2.2.2 Các mô hình xác suất naive Bayes 9
2.2.3 Ước lượng tham số 11
2.2.4 Chỉnh sửa mẫu 12
2.2.5 Xác định một phân lớp từ mô hình xác suất 12
2.2.6 Phương pháp phân lớp Bayes 13
2.2.7 Giới thiệu thuật toán naive Bayes 13
2.2.8 Phân lớp naive Bayes 14
Chương III ỨNG DỤNG CỦA BAYES 21
Trang 53.1 Thuật toán phân loại văn bản naive Bayes 21
3.2 Lọc thư rác 22
3.2.1 Định nghĩa thư rác 22
3.2.2 Tác hại của thư rác 22
Chương IV MỘT SỐ VÍ DỤ MINH HỌA CHO NAIVE BAYES TRONG MATLAB [5] 25
KẾT LUẬN 31
DANH MỤC TÀI LIỆU THAM KHẢO 33
Trang 6MỞ ĐẦU
Xác suất thống kê là bộ môn rất quan trọng và có nhiều ứng dụng trong thực tế, giúp con người rút ra thông tin từ dữ liệu quan sát, nhằm giải quyết các bài toán trong cuộc sống
Trong khóa luận này trình bày một tiếp cận thống kê trong việc dự đoán
sự kiện dựa vào lí thuyết Bayes Lý thuyết nói về việc tính xác suất của sự kiện dựa vào các kết quả thống kê các sự kiện trong quá khứ Sau việc tính toán mỗi sự kiện được gán xác suất (tùy thuộc vào mỗi phương pháp đánh giá) ứng với khả năng có thể xảy ra với sự kiện đó Và cuối cùng dựa vào ngưỡng để phân loại cho các sự kiện
Sau phần lí thuyết chung chúng ta sẽ tìm hiểu về các bài toán trong thực
tế được ứng dụng từ lý thuyết Bayes: Thuật toán phân loại văn bản và lọc thư rác trong các thư điện tử Naive Bayes cũng được sử dụng trong Matlab-một ngôn ngữ lập trình thực hành bậc cao được sử dụng để giải quyết các bài toán
về kĩ thuật
Trang 7Chương I
LÝ THUYẾT CHUNG [1]
1.1 Biến cố ngẫu nhiên
1.1.1 Hiện tượng ngẫu nhiên
Người ta chia các hiện tượng xảy ra trong cuộc sống hàng ngày làm hai loại: Tất nhiên và ngẫu nhiên
- Những hiện tượng mà khi thực hiện trong một điều kiện sẽ cho ra kết
quả như nhau được gọi là hiện tượng tất nhiên
- Những hiện tượng mà cho dù khi được thực hiện ở trong cùng một điều
kiện vẫn có thể cho ra các kết quả khác nhau được gọi là những hiện tượng ngẫu nhiên
- Hiện tượng ngẫu nhiên chính là đối tượng khảo sát của lí thuyết xác suất
1.1.2 Phép thử và biến cố
- Để quan sát các hiện tượng ngẫu nhiên, người ta cho các hiện tượng này xuất hiện nhiều lần Việc thực hiện một quan sát về một hiện tượng ngẫu nhiên nào đó, để xem hiện tượng này có xảy ra hay không được gọi là một phép thử
- Khi thực hiện một phép thử, ta không thể dự đoán được kết quả xảy ra Tuy nhiên ta có thể liệt kê được tất cả các kết quả có thể xảy ra
- Tập hợp tất cả các kết quả có thể xảy ra của một phép thử được gọi là không gian mẫu của phép thử kí hiệu Biến cố không thể xảy ra được gọi
Trang 81.1.3 Quan hệ giữa các biến cố
- Quan hệ kéo theo: Biến cố A được gọi là kéo theo biến cố B khi và chỉ khi A xảy ra thì B xảy ra Kí hiệu:AB
- Quan hệ tương đương: Hai biến cố A và B được gọi là tương đương với nhau khi và chỉ khi A B và B A Kí hiệu: AB
- Tổng của hai biến cố: Biến cố C được gọi là tổng của hai biến cố A và
B, kí hiệu: C AB hay C AB, C xảy ra khi và chỉ khi ít nhất một trong hai biến cố A và B xảy ra
- Hiệu của hai biến cố A và B, kí hiệu C A| B, C xảy ra khi và chỉ khi
A xảy ra nhưng B không xảy ra
- Tích của hai biến cố A và B, kí hiệu C A.B, C xảy ra khi và chỉ khi
cả A lẫn B đều xảy ra
1.2 Xác suất của biến cố
1.2.1 Định nghĩa xác suất dạng cổ điển
Xét một phép thử với không gian mẫu ={1,2, ,n} và biến cố
Trang 9Xét phép một thử, ta có các công thức cộng xác suất sau:
- Nếu A và B là hai biến cố tùy ý: PAB P A P B P AB
- Nếu A và B là hai biến cố xung khắc thì P(AB) P A P B Nếu
họ {Ai} (i=1,2,…,n) xung khắc từng đôi thì
)(
)()()
(A1 A2 A n P A1 P A2 P A n
Chú ý: P(A)1P(A),P(A) P(AB)P(A B)
1.3.2 Xác suất có điều kiện
1.3.2.1 Định nghĩa: Cho biến cố B với P B 0
Xác suất của A khi biết B xảy ra là:
)(
)()
|(
B P
AB P B A
Khi biết B xảy ra, xác suất của A | B tỉ lệ với A B, vậy:
B P
AB P B A
Với k là hệ số tỉ lệ để tính k, ta chọn AB
Vậy:
)(.)(.)
|(
1P B B k P BB k P B
Do đó:
) (
1
B P
k
Vậy:
)(
)()(.)(
1)
|(
B P
AB P AB P B P B A
Trang 10Nhận xét: Khi tính P(A|B) với điều kiện B đã xảy ra, nghĩa là ta đã hạn chế không gian mẫu Ω xuống còn B và hạn chế A xuống còn A∩B
1.3.3 Công thức xác suất toàn phần
Cho không gian xác suất (,C,P) Giả sử A1,A2,…,An là nhóm đầy đủ sự kiện và B là sự kiện bất kì trong C
P B
P
1
)
|()
()
1.4 Công thức Bayes
Định lý Bayes
Định lí Bayes cho phép tính xác suất xảy ra của một sự kiện ngẫu nhiên
A khi biết sự kiện liên quan B đã xảy ra Xác suất này được kí hiệu là
A B
P | và đọc là “xác suất của A nếu có B” Đại lượng này được gọi là xác suất có điều kiện hay xác suất hậu nghiệm vì nó được rút ra từ giá trị được cho của B hoặc phụ thuộc vào giá trị đó
Theo định lí Bayes, xác suất xảy ra A khi biết B sẽ phụ thuộc vào 3 yếu tố:
- Xác suất xảy ra A của riêng nó, không quan tâm đến B, kí hiệu là
A
P và đọc là xác suất của A, đây được gọi là xác suất tiền nghiệm, nó là tiền nghiệm theo nghĩa rằng nó không quan tâm đến bất kì thông tin nào về B
Trang 11- Xác suất xảy ra B của riêng nó, không quan tâm đến A, kí hiệu là
B
P và đọc là “xác suất của B” Đại lượng này còn được gọi là hằng số chuẩn hóa, vì nó luôn giống nhau, không phụ thuộc vào sự kiện A đang muốn biết
- Xác suất xảy ra B khi biết A xảy ra, kí hiệu là PB| A và đọc là “xác suất của B với điều kiện A” Nó là một xác suất hậu nghiệm và P B là một xác suất tiền nghiệm của B Đại lượng này được gọi là khả năng xảy ra B khi biết A đã xảy ra Chú ý không nhầm lẫn giữa khả năng xảy ra A khi biết B và xác suất xảy ra B khi biết A
Khi biết 3 đại lượng này xác suất cuả A khi biết B cho bởi công thức:
)(
)()
|()
|(
B P
A P A B P B A
i i
i
A B P A P
A B P A P B
A P
1
)
|()
(
)
|()
()
|(
Xác suất PA i |B được gọi là xác suất hậu nghiệm, còn P A i gọi là xác suất tiền nghiệm
Ví dụ suy luận Bayes đơn giản
Bánh quy từ hộp nào?
Để minh họa, giả sử có hai hộp đựng đầy bánh quy Hộp thứ nhất có 10 chiếc bánh quy sôcôla và 30 chiếc bánh quy bơ Hộp thứ hai đựng mỗi loại bánh 20 chiếc Bé Khoai chọn ngẫu nhiên một hộp, rồi nhặt đại một chiếc
Trang 12bánh Ta có thể giả thiết rằng bé Khoai còn rất nhỏ nên không phân biệt hộp này hộp kia và bé thích tất cả các loại bánh kẹo nên bánh loại nào với bé cũng vậy Và chiếc bánh mà bé Khoai chọn là một chiếc bánh quy bơ Vậy khả năng Khoai nhặt chiếc bánh đó từ trong hộp thứ nhất là bao nhiêu?
Một cách trực quan, có vẻ rõ ràng là câu trả lời phải lớn hơn 1/2, do trong hộp 1 có nhiều bánh quy bơ hơn Câu trả lời chính xác được tính theo định lý Bayes Giả sử H1 tương ứng với hộp 1 và H2 tương ứng với hộp 2 Ta biết rằng đối với bé Khoai, hai hộp là như nhau, do đó, P(H1) = P(H2),
và tổng của chúng phải bằng 1, do đó cả hai đều bằng 0.5 Dữ liệu D là quan sát về chiếc bánh quy bơ Từ nội dung của hai hộp bánh, ta biết rằng
D | H1
P = 30/40 = 0.75 và PD | H2 = 20/40 = 0.5 Khi đó, công thức Bayes cho ra kết quả:
6.05.0
*5.075.0
*5.0
75.0
*5.0)
|()
()
|()
(
)
|()
()
|
(
2 2
1 1
1 1
H D P H P D
H
P
Trước khi quan sát thấy chiếc bánh mà bé Khoai nhặt, xác suất cho việc Khoai chọn hộp 1 là xác suất tiền nghiệm,P H1 , có giá trị 0.5 Sau khi đã nhìn thấy chiếc bánh, ta chỉnh lại xác suất đó thành PH1 |D, có giá trị 0.6 Nên lưu ý là việc ta tin rằng việc quan sát thấy chiếc bánh quy bơ nên có ảnh hưởng theo cách nào đó tới xác suất tiền nghiệm P H1 đã tạo nên xác suất hậu nghiệm PH| D, với giá trị tăng từ 0.5 lên 0.6 Điều này phản ánh trực giác của ta rằng chiếc bánh có khả năng được lấy từ hộp 1 hơn, do hộp này có tỉ lệ bánh quy bơ so với bánh quy sôcôla cao hơn hộp kia Quyết định được cho dưới dạng một xác suất, điều này khác với thống kê cổ điển
Trang 13Chương II GIỚI THIỆU VỀ PHÂN LỚP NAIVE BAYES VÀ PHÂN TÍCH
TRONG KHAI PHÁ DỮ LIỆU 2.1 Kỹ thuật phân lớp dữ liệu trong khai phá dữ liệu
Kĩ thuật phân lớp dữ liệu trong khai phá dữ liệu là một trong những vấn
đề nghiên cứu mở rộng hiện nay; tập trung chủ yếu vào thống kê, học máy và mạng nơron Kĩ thuật phân lớp được đánh giá là một kĩ thuật khai phá dữ liệu được sử dụng rộng rãi nhất với nhiều mở rộng Sự kết hợp của kỹ thuật phân lớp và cơ sở dữ liệu là một lĩnh vực hứa hẹn bởi vì đáp ứng được một vấn đề hết sức quan trọng của ứng dụng cơ sở dữ liệu đó là tính uyển chuyển cao
2.2 Giới thiệu phân lớp naive Bayes
Ví dụ: Một trái cây có thể được coi là một quả táo nếu có màu đỏ chung quanh và đường kính khoảng 10 cm Mặc dù các đặc trưng này phụ thuộc vào
sự tồn tại của các đặc trưng khác, phân lớp naive Bayes xem xét tất cả các đặc tính độc lập góp phần vào khái niệm trái cây này là quả táo
Tùy thuộc vào tính chính xác bản chất của mô hình xác suất, phân lớp naive Bayes có thể được tạo ra rất hiệu quả trong học máy Trong nhiều ứng dụng thực tế, tham số ước lượng cho các mô hình naive Bayes sử dụng các phương pháp maximum likelihood (ước lượng hợp lí cực đại), nói cách khác,
Trang 14với phương pháp này một ứng dụng dựa trên mô hình naive Bayes thì sẽ không phải sử dụng xác suất Bayes cũng như phương pháp Bayes
Mặc dù với giả định đơn giản hơn nhưng dễ nhận thấy rằng phân lớp naive Bayes thường hoạt động khá tốt trong nhiều tình huống phức tạp Vào năm 2004 phân tích các vấn đề của phân lớp Bayes đã cho thấy rằng có một
số giả thuyết giải thích cho tính hiệu quả của phân lớp naive Bayes.[2]
So sánh toàn diện với các phương pháp phân lớp trong năm 2006 cho thấy phân lớp Bayes làm tốt hơn bởi nhiều tiếp cận như là boosted trees hoặc random forests.[3]
Một lợi thế của phân lớp naive Bayes là nó đòi hỏi một số lượng nhỏ dữ liệu huấn luyện để ước lượng các tham số (giá trị trung bình và phương sai của các tham số) cần thiết cho việc phân loại Bởi vì các biến được giả định là độc lập, chỉ những phương sai của các tham số cho mỗi lớp cần được xác định
rõ và không phải toàn bộ ma trận hiệp phương sai
2.2.2 Các mô hình xác suất naive Bayes
Mô hình xác suất cho một phân lớp là một mô hình có điều kiện phụ thuộc biến C với một số lượng nhỏ của các kết quả hay các lớp, phụ thuộc một vài biến đặc trưng F1 cho tới Fn
), ,
|(C F1 F n p
Vấn đề là nếu lượng đặc trưng n là lớn hay khi một đặc trưng có thể chiếm một số lượng lớn các giá trị, thì dựa vào một mô hình trên bảng xác suất thì không thể làm được Bởi vậy chúng ta nâng cấp các mô hình để dễ
xử lý
Bằng cách sử dụng định lý Bayes có được:
), ,(
)
|, ,()
(), ,
|(
1
1 1
n
n n
F F p
C F F p C p F
F C
Trong thực hành, chỉ cần quan tâm tới tử số của phân số, khi mà mẫu số
Trang 15không phụ thuộc vào C và các giá trị của các đặc trưng của Fi đã cho nên mẫu
số là hằng Tử số tương đương với mô hình xác suất:
), ,
|
(C F1 F n
p
), ,()
p
),
|, ,()
|()
(C p F1 C p F2 F C F1
),,
|, ,(),
|()
|()
1 2
1 | ) ( | , ) ( | , , ) , , | , , , (
F C
p F
C F
C
p
1 3
2 1
F C p
Trang 16trong các thuật ngữ của r tham số, sau đó các mô hình naive Bayes tương ứng
có (k-1) + nrk tham số Trong thực tế, thường k=2 (phân loại nhị phân) và r =
1 (phân phối Bernoulli) là phổ biến và như vậy tổng số lượng các tham số của
mô hình naive Bayes là 2n+1, ở đây n là số các đặc trưng nhị phân sử dụng cho các dự đoán
2.2.3 Ước lượng tham số
Tất cả các mô hình tham số (lớp tiền nghiệm và hàm phân phối xác suất đặc trưng) có thể được xấp xỉ với những tần số tương đối trong tập huấn luyện Maximum likelihood là ước lượng của xác suất Một lớp tiền nghiệm
có thể được tính bằng cách giả sử các lớp có xác suất ngang nhau Prior = 1/số lớp hoặc tính bằng cách ước lượng cho lớp xác suất từ tập huấn luyện (tiền nghiệm cho một lớp đã đưa ra = số mẫu trong lớp/tổng số mẫu) Để ước lượng các tham số cho hàm phân phối đặc trưng hoặc mô hình sinh ra không phải tham số cho những đặc trưng từ tập huấn luyện.[4]
Nếu tham số đang giải quyết những dữ liệu liên tục, một giả thuyết đặc trưng đó là tiếp tục kết hợp những giá trị với mỗi lớp được phân phối theo phân phối Gaussian
Ví dụ: Giả sử tập huấn luyện chứa liên tiếp một thuộc tính x Đầu tiên chúng ta phân đoạn dữ liệu bởi các lớp sau đó tính toán số trung bình và phương sai của x trong mỗi lớp Để c là giá trị trung bình của x kết hợp với lớp c và để 2
c
là phương sai của giá trị x kết hợp với lớp c thì xác suất của một vài giá trị đã cho trong một lớp, Pxv|c có thể tính bằng cách đặt v vào phương trình cho bởi hàm phân phối được tham số hóa bởi c và c2
Đó là:
2
2 2
v x
Trang 17Phương pháp chung khác để xử lí tiếp các giá trị là sử dụng các giá trị
rời rạc Nói chung, phương pháp phân phối là lựa chọn tốt hơn nếu sử dụng
một lượng nhỏ dữ liệu huấn luyện vì nó sẽ học để phù hợp với sự phân phối
của dữ liệu Trước đây naive Bayes được sử dụng khi một số lượng lớn dữ
liệu có thể sử dụng (giống như nhiều mô hình tính toán phức tạp có thể thực
hiện chính xác hơn), phương pháp rời rạc thường được ưu tiên hơn phương
pháp phân phối
2.2.4 Chỉnh sửa mẫu
Nếu một lớp và giá trị đặc trưng không bao giờ xảy ra cùng với nhau
trong tập huấn luyện thì ước tính xác suất dựa vào tần số sẽ được 0 Điều này
khó giải quyết vì nó sẽ xóa tất cả các thông tin trong các xác suất khi chúng
được nhân rộng Vì vậy, mong muốn kết hợp một mẫu nhỏ chỉnh sửa trong tất
cả xác suất, ước tính rằng xác suất như vậy không bao giờ được thiết lập
chính xác 0
2.2.5 Xác định một phân lớp từ mô hình xác suất
Các thảo luận cho đến nay đã bắt nguồn từ những mô hình đặc trưng
độc lập, đó là, mô hình xác suất naive Bayes Phân lớp naive Bayes kết hợp
mô hình này với một luật quyết định Đó là một luật chung để chọn ra các
giả thuyết có khả năng xảy ra nhất, điều này được biết đến như là maximum
a posteriori hay luật quyết định MAP Phân lớp tương ứng được xác định
f f Classify
1
(
Sự thật có thể áp dụng rộng rãi các giả định độc lập nhưng chúng thường
không chính xác, phân lớp naive Bayes có vài thuộc tính làm cho nó hữu ích
trong thực hành Đặc biệt, sự tách riêng của lớp có điều kiện phân phối đặc
trưng có nghĩa là mỗi phân phối có thể được ước tính độc lập như là một phân
Trang 18phối một chiều Điều này giúp giảm bớt những vấn đề bắt nguồn từ những trở ngại của kích thước như yêu cầu của bộ dữ liệu đó là quy mô theo cấp số nhân Toàn bộ phân lớp là mạnh đủ để bỏ qua các thiếu sót nghiêm trọng của
nó trong những mô hình xác suất naive
2.2.6 Phương pháp phân lớp Bayes
Lý thuyết Bayes cung cấp một tiếp cận theo xác suất để suy diễn Nó dựa trên giả thuyết rằng số lượng của khuynh hướng bị chi phối bởi phân bố xác suất và quyết định tối ưu có thể được tạo bởi sự suy luận về những xác suất đi liền với dữ liệu được quan sát Đây là vấn đề quan trọng của học máy bởi vì nó cung cấp một tiếp cận định lượng cho việc xem xét cẩn thận bằng chứng hỗ trợ những giả thuyết thay đổi
Học theo xác suất: Tính các xác suất rõ ràng cho các giả thuyết, một trong những hướng thiết thực cho một số vấn đề thuộc loại học
Tính tăng dần: Mỗi ví dụ huấn luyện có thể tăng hoặc giảm dần khả năng đúng của một giả thuyết Kiến thức trước có thể kết hợp với dữ liệu được quan sát
Tiên đoán xác suất: Tiên đoán nhiều không gian giả thuyết, được đo bởi xác suất của nó
Tiêu chuẩn: Thậm chí khi phương thức Bayes khó tính toán, chúng cũng cung cấp một tiêu chuẩn tốt nhất cho việc tạo quyết định tối ưu so với những phương pháp khác
2.2.7 Giới thiệu thuật toán naive Bayes
Naive Bayes (NB) là phương pháp phân loại dựa vào xác suất được sử dụng rộng rãi trong lĩnh vực học máy [Mitchell, 1996] [Joachims, 1997] [Jason, 2001], được sử dụng lần đầu tiên trong lĩnh vực phân loại bởi Maron vào năm 1961 [Maron, 1961] sau đó trở nên phổ biến dùng trong nhiều lĩnh vực như trong các công cụ tìm kiếm [Rijsbergen et al, 1970], các bộ lọc email
Trang 19[Sahami et al, 1998]…
2.2.8 Phân lớp naive Bayes
Bộ phân lớp naive Bayes hay bộ phân lớp Bayes đơn giản (simple Bayes classifier) hoạt động như sau:
1 Gọi D là tập dữ liệu huấn luyện, trong đó mỗi phần tử dữ liệu X được biểu diễn bằng một vectơ chứa n giá trị thuộc tính A1,A2,…,An,
x x xn
2 Giả sử có m lớp C1,C2,…,Cm; Cho một phần tử dữ liệu X, bộ phân lớp
sẽ gán nhãn cho X là lớp có xác suất hậu nghiệm lớn nhất Cụ thể, bộ phân lớp Bayes sẽ dự đoán X thuộc vào lớp Ci nếu và chỉ nếu:
C X PC X
P i | j | 1i m,i j (1) Giá trị này sẽ được tính dựa vào định lí Bayes:
)(
)()
|()
|(
X P
C P C X P X C
P i i i (2)
3 Để tìm giá trị xác suất lớn nhất, ta nhận thấy trong công thức (1) thì giá trị P ( X) là giống nhau với mọi lớp nên ta không cần tính Do đó ta chỉ cần tìm giá trị lớn nhất của P(X |C i)*P C i
Chú ý rằng P(C i) được ước lượng bằng công thức
D
D C