Khái niệm về spam Các hướng tiếp cận xử lý với spam Một số khái niệm xác suất Phương pháp phân loại Nạve Bayesian Chọn ngưỡng phân loại email Nội dung báo cáo... Spam là những
Trang 1 Giáo viên hướng dẫn : PGS.TS Lê Thanh Hương
Sinh viên :
◦ Bùi Văn Hiếu
◦ Lê Quang Huy
◦ Ma Đình hành
◦ Đỗ Tùng Linh
◦ Đặng Hoàng Anh
Phân loại thư rác
Trang 2 Khái niệm về spam
Các hướng tiếp cận xử lý với spam
Một số khái niệm xác suất
Phương pháp phân loại Nạve Bayesian
Chọn ngưỡng phân loại email
Nội dung báo cáo
Trang 3 Spam là những email được phát tán một
cách rộng rãi không theo bất cứ một yêu
cầu nào của người nhận với số lượng lớn
(unsolicited bulk email(UBE)), hay những
email quảng cáo được gửi mà không có yêu cầu của người nhận (unsolicited commercial email (UCE))
Khái niệm về spam
Trang 4 Complaining to Spammers' ISPs
Mail Blacklists /Whitelists
Mail volume
Genetic Algorithms
Rule-Based
Machine Learning
Các hướng tiếp cận xử lý với spam
Trang 5 Xác suất có điều kiện :
P(A/B) = P(AB)/P(B) Hay P(A/B) x P(B) = P(B/A) x P(A) = P(AB)
Xác suất đầy đủ :
Giả sử B1,B2,…,Bn là một nhóm đầy đủ các biến
cố Xét biến cố A sao cho A xảy ra chỉ khi một trong các biến cố B1,B2,…,Bn xảy ra
P(A) = ∑P(Bi) P(A/Bi)
Một số khái niệm xác suất
Trang 6 Theo Charles Elkan cho X1,X2,…,Xn là các thuộc tính với các giá trị rời rạc được dùng
để dự đốn một lớp riêng biệt C cho một tập mẫu , tập các lớp mà mẫu cĩ thể thuộc về
là C ={c1,c2,…,cm} Cho một mẫu huấn
luyện với giá trị các thuộc tính tương ứng là x1,…, xn , dự đốn mẫu thuộc về lớp c€ C
khi xác suất P(C=c/X1=x1 ^X2=x2 ^ …
^Xn=xn) cĩ giá trị lớn nhất
Phương pháp phân loai Nạve
Bayesian
Trang 7 Với X1, X2,…,Xn độc lập với nhau :
Phương pháp phân loại Nạve Bayesian
Trang 8 Tập các lớp mà mỗi email cĩ thể thuộc về
là C = {spam, non-spam}
Phân loại email dựa trên thuật tốn Nạve Bayesian
Trang 9 Trong phân loại email , có hai loại sai lầm : sai lầm nhận một email là spam mặc dù
thực tế nó là non-spam (false positive) và sai lầm thứ hai là nhận một email là
non-spam mặc dù nó là non-spam (false negative)
Rõ ràng là sai lầm thứ nhất là nghiêm trọng hơn bởi vì người sử dụng có thể chấp nhận một email spam vượt qua bộ lọc nhưng
không chấp nhận một email hợp lệ quan
trọng lại bị bộ lọc chặn lại
Chọn ngưỡng phân loại
Giả sử N ->S và S -> N tương ứng với hai lỗi sai trên đây Sử dụng luật quyết định Bayes dựa trên chi phí , ta giả sử rằng lỗi N->S có chi phí gấp lần lỗi S->N , chúng ta phân
loại một email là spam dựa vào tiêu chuân sau :
Chọn ngưỡng phân loại
Chương trình sử dụng tập mẫu từ nguồn :
http://
www.aueb.gr/users/ion/data/enron-spam/
Chương trình có sử dụng 1500 thư mẫu là spam và 3672 thư mẫu là non-spam
Chạy thử nghiệm với 15 mail là spam và 15 mail là non-spam cho kết quả
Đánh giá hiệu năng chương
trình
Trang 12Hiệu năng
Đánh giá hiệu năng chương trình
Trang 13Demo
Trang 14Cảm ơn vì đã lắng nghe !