thì chúng tôi trích ra ø token ở trong email đó.Cách chọn mẫu tập thuộc tính để xét thông thường'là chọn ra ø token một cách ngẫu nhiên, tuy nhiên nhận thấy rằng những foken trung tính ( khả năng spam là 0.4-0.6
thì không có tác dụng lắm trong việc nhận dạng email spam ) nên ta chọn
n token này Với định hướng là chọn những token đặc trưng cho một email spam và email non-spam, chúng tôi chọn những token có khả năng spam cao nhất và thấp nhất. Như vậy chúng tôi chọn ø token có khoảng cách giữa xác suất spam của chúng với giá trị trung tính 0.5 là cao nhất Chúng ta gọi giá trị này là giá trị “đặc trưng”. Như vậy ta sẽ chọn được những
token hoặc là có khả năng spam cao nhất (xác suất spam cao nhất ) hoặc là
những token có khả năng non-spam cao nhất ( xác suất spam thấp nhất ). Nếu có k (k > 2) token có cùng giá trị “đặc trưng “, bởi vì khả năng xuất hiện của k token này ngang nhau, do đó hoàn toàn không mắt tính tổng quát, chúng tôi chọn token đầu tiên trong k token có cùng giá trị “ đặc trưng “này. Sau khi chọn được ø token này chúng tôi sẽ tra trong bảng
băm thứ 3 ( lưu token và khả năng spam của nó) để lấy ra khả năng spam riêng của mỗi token. Nếu không tìm thấy khả năng spam riêng cho token trong bảng băm,có nghĩa là token này là mới — chưa có trong cơ sớ dữ liệu
token của ta.Một token chưa từng xuất hiện trong kho ngữ liệu học thì khả
năng spam của nó tương đối thấp [7], chúng tôi lấy giá trị trung tính 0.4. Từ đó chúng tôi tính khả năng tổng hợp một email chứa n token này là
spam.
Cách tính khả năng tổng hợp :chúng tôi dựa vào Công thức 4-7
mr P(C=e)[]PŒ, =x€=c)
P(C=clX=x)= = x
) P(C=k}][?Œ ,=x,ÌC=k)
ke[ spam,non—spam _ } i=l
Thế thì xác suất spam tổng hợp của một email € được xét là :
r um P(C = spam)[ [PŒ, =x, C =e) P(C =spam | X =x)= ä 3 P(C=k)[]Pœ ,=x,lC=k) ke. {sBãm,non—spam } Ví dụ