Điểm như : tiêu đề, nội dung, có đính kèm tập tin hay không, Ta có thể dựa

Một phần của tài liệu khóa luận tìm hiểu các hướng tiếp cận phân loại email và xây dựng phần mềm mail client hỗ trợ tiếng việt (Trang 37 - 38)

vào các thông tin này để nâng cao hiệu quả phân lọai email spam. Một ví dụ đơn giản : nếu ta biết được rằng 95 % email html là email spam, và ta lại

nhận được một email html, như vậy có thể dựa vào xác suất biết trước 95% email html là email spam để tính được xác suất email mà ta nhận được là

luận rằng email đó là spam, tuy nhiên kết luận này không chính xác lắm Nhưng nếu ta có được nhiều xác suất biết trước như vậy, thì kết luận sẽ trở nên đáng tin cậy hơn. Để có được các xác suất biết trước này, sử dụng phương pháp Naïve Bayesian huấn luyện tập mẫu (email) ban đầu, sau đó sẽ

sử dụng các xác suất này ứng dụng vào phân lọai một mẫu (email) mới.

4.3.1 Phân loại email dựa trên thuật toán Naïve Bayesian

Giả thiết mỗi một email được đại diện bởi một vector thuộc tính

đặc trưng x= (X,x;....X„) VỚI +,,x;,...,*,„, là giá trị của©ác thuộc tính X¡,X;....X„ tương ứng trong không gian vector đặc trưng X.Theo M

Sahami et al [9] ta sử dụng các giá trị nhị phân, X,=l nếu các đặc điểm

của X, có trong email, ngược lại X,=0.

Ta tính giá trị tương hỗ MI (X,C) (Mutual Information) mà mỗi một đại diện của X thuộc về loại C như sau:

PŒ =x,C=c) MI(X,C)= Ý` P(XSÉC=ejlog TC CĐhC=9— MI(X,C)= Ý` P(XSÉC=ejlog TC CĐhC=9—

( \ v°, ( , ©Llog P(X =x)P(C =c) ce{| spam,non — spam

Công thức 4-5 :công thức tính độ tương hỗ MI

Sau đó(fa chọn các thuộc tính có giá trị MI cao nhất.Các xác suất

P(X), P(C), P(X,C) được tính dựa trên dữ liệu học

Dựa vào công thức xác suất Bayes và công thức xác suất đầy đủ ta

có được xác suất một email với vector đặc trưng x. thuộc về loại c là:

Một phần của tài liệu khóa luận tìm hiểu các hướng tiếp cận phân loại email và xây dựng phần mềm mail client hỗ trợ tiếng việt (Trang 37 - 38)