vào các thông tin này để nâng cao hiệu quả phân lọai email spam. Một ví dụ đơn giản : nếu ta biết được rằng 95 % email html là email spam, và ta lại
nhận được một email html, như vậy có thể dựa vào xác suất biết trước 95% email html là email spam để tính được xác suất email mà ta nhận được là
luận rằng email đó là spam, tuy nhiên kết luận này không chính xác lắm Nhưng nếu ta có được nhiều xác suất biết trước như vậy, thì kết luận sẽ trở nên đáng tin cậy hơn. Để có được các xác suất biết trước này, sử dụng phương pháp Naïve Bayesian huấn luyện tập mẫu (email) ban đầu, sau đó sẽ
sử dụng các xác suất này ứng dụng vào phân lọai một mẫu (email) mới.
4.3.1 Phân loại email dựa trên thuật toán Naïve Bayesian
Giả thiết mỗi một email được đại diện bởi một vector thuộc tính
đặc trưng x= (X,x;....X„) VỚI +,,x;,...,*,„, là giá trị của©ác thuộc tính X¡,X;....X„ tương ứng trong không gian vector đặc trưng X.Theo M
Sahami et al [9] ta sử dụng các giá trị nhị phân, X,=l nếu các đặc điểm
của X, có trong email, ngược lại X,=0.
Ta tính giá trị tương hỗ MI (X,C) (Mutual Information) mà mỗi một đại diện của X thuộc về loại C như sau:
PŒ =x,C=c) MI(X,C)= Ý` P(XSÉC=ejlog TC CĐhC=9— MI(X,C)= Ý` P(XSÉC=ejlog TC CĐhC=9—
( \ v°, ( , ©Llog P(X =x)P(C =c) ce{| spam,non — spam
Công thức 4-5 :công thức tính độ tương hỗ MI
Sau đó(fa chọn các thuộc tính có giá trị MI cao nhất.Các xác suất
P(X), P(C), P(X,C) được tính dựa trên dữ liệu học
Dựa vào công thức xác suất Bayes và công thức xác suất đầy đủ ta
có được xác suất một email với vector đặc trưng x. thuộc về loại c là: