Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 14 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
14
Dung lượng
111,57 KB
Nội dung
Giáo viên hư ng d n : PGS.TS Lê Thanh Hươngớ ẫ Sinh viên : ◦ Bùi Văn Hi uế ◦ Lê Quang Huy ◦ Ma Đình hành ◦ Đ Tùng Linhỗ ◦ Đ ng Hoàng Anhặ Phân lo i thư rácạ Khái ni m v spamệ ề Các hư ng ti p c n x lý v i spamớ ế ậ ử ớ M t s khái ni m xác su tộ ố ệ ấ Phương pháp phân lo i Naïve Bayesianạ Ch n ngư ng phân lo i emailọ ỡ ạ N i dung báo cáoộ Spam là nh ng email đư c phát tán m t cách ữ ợ ộ r ng rãi không theo b t c m t yêu c u nào ộ ấ ứ ộ ầ c a ngư i nh n v i s lư ng l n (unsolicited ủ ờ ậ ớ ố ợ ớ bulk email(UBE)), hay nh ng email qu ng cáo ữ ả đư c g i mà không có yêu c u c a ngư i ợ ử ầ ủ ờ nh n (unsolicited commercial email (UCE))ậ Khái ni m v spamệ ề Complaining to Spammers' ISPs Mail Blacklists /Whitelists Mail volume Genetic Algorithms Rule-Based Machine Learning Các hư ng ti p c n x lý v i ớ ế ậ ử ớ spam Xác su t có đi u ki n :ấ ề ệ P(A/B) = P(AB)/P(B) Hay P(A/B) x P(B) = P(B/A) x P(A) = P(AB) Xác su t đ y đ :ấ ầ ủ Gi s B1,B2,…,Bn là m t nhóm đ y đ các bi n c . Xét ả ử ộ ầ ủ ế ố bi n c A sao cho A x y ra ch khi m t trong các bi n c ế ố ả ỉ ộ ế ố B1,B2,…,Bn x y raả P(A) = ∑P(Bi) P(A/Bi) M t s khái ni m xác su tộ ố ệ ấ Theo Charles Elkan cho X1,X2,…,Xn là các thu c tính v i các giá tr r i r c đư c dùng ộ ớ ị ờ ạ ợ đ d đoán m t l p riêng bi t C cho m t t p ể ự ộ ớ ệ ộ ậ m u , t p các l p mà m u có th thu c v là ẫ ậ ớ ẫ ể ộ ề C ={c1,c2,…,cm} . Cho m t m u hu n luy n ộ ẫ ấ ệ v i giá tr các thu c tính tương ng là x1,…, ớ ị ộ ứ xn , d đoán m u thu c v l p c€ C khi xác ự ẫ ộ ề ớ su t P(C=c/X1=x1 ^X2=x2 ^ …^Xn=xn) có ấ giá tr l n nh t ị ớ ấ Phương pháp phân loai Naïve Bayesian V i X1, X2,…,Xn đ c l p v i nhau :ớ ộ ậ ớ Phương pháp phân lo i Naïve ạ Bayesian T p các l p mà m i email có th thu c v là ậ ớ ỗ ể ộ ề C = {spam, non-spam} Phân lo i email d a trên thu t ạ ự ậ toán Naïve Bayesian Trong phân lo i email , có hai lo i sai l mO: ạ ạ ầ sai l m nh n m t email là spam m c dù th c ầ ậ ộ ặ ự t nó là non-spam (false positive) và sai l m ế ầ th hai là nh n m t email là non-spam m c ứ ậ ộ ặ dù nó là spam (false negative) . Rõ ràng là sai l m th nh t là nghiêm tr ng hơn b i vì ầ ứ ấ ọ ở ngư i s d ng có th ch p nh n m t email ờ ử ụ ể ấ ậ ộ spam vư t qua b l c nhưng không ch p ợ ộ ọ ấ nh n m t email h p l quan tr ng l i b b ậ ộ ợ ệ ọ ạ ị ộ l c ch n l i.ọ ặ ạ Ch n ngư ng phân lo i emailọ ỡ ạ Gi s N ->S và S -> N tương ng v i hai l i ả ử ứ ớ ỗ sai trên đây . S d ng lu t quy t đ nh Bayes ử ụ ậ ế ị d a trên chi phí , ta gi s r ng l i N->S có ự ả ử ằ ỗ chi phí g p l n l i S->N , chúng ta phân lo i ấ ầ ỗ ạ m t email là spam d a vào tiêu chuân sauO:ộ ự Ch n ngư ng phân lo i emailọ ỡ ạ [...]...Đánh giá hi ệu năng chương trình Chương trình sử dụng tập mẫu từ nguồn : http:// www.aueb.gr/users/ion/data/enron-spam/ Chương trình có sử dụng 1500 thư mẫu là spam và 3672 thư mẫu là non-spam Chạy thử nghiệm với 15 mail là spam và 15 mail là non-spam cho kết quả Đánh giá hi ệu năng chương trình Hi ệu năng N->S 26,67% N->N 73,33% S->S 86,67% S->N 13,33% Demo C . Hoàng Anhặ Phân lo i thư rác Khái ni m v spamệ ề Các hư ng ti p c n x lý v i spamớ ế ậ ử ớ M t s khái ni m xác su tộ ố ệ ấ Phương pháp phân lo i Naïve Bayesianạ Ch n ngư ng phân lo i. pháp phân loai Naïve Bayesian V i X1, X2,…,Xn đ c l p v i nhau :ớ ộ ậ ớ Phương pháp phân lo i Naïve ạ Bayesian T p các l p mà m i email có th thu c v là ậ ớ ỗ ể ộ ề C = {spam, non-spam} Phân. hư ng ti p c n x lý v i ớ ế ậ ử ớ spam Xác su t có đi u ki n :ấ ề ệ P(A/B) = P(AB)/P(B) Hay P(A/B) x P(B) = P(B/A) x P(A) = P(AB) Xác su t đ y đ :ấ ầ ủ Gi s B1,B2,…,Bn là m t nhóm đ y đ các bi