1. Trang chủ
  2. » Công Nghệ Thông Tin

slike môn xử lý ngôn ngữ tự nhiên nhóm 21 phân loại thư rác

14 384 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 14
Dung lượng 111,57 KB

Nội dung

 Giáo viên hư ng d n : PGS.TS Lê Thanh Hươngớ ẫ  Sinh viên : ◦ Bùi Văn Hi uế ◦ Lê Quang Huy ◦ Ma Đình hành ◦ Đ Tùng Linhỗ ◦ Đ ng Hoàng Anhặ Phân lo i thư rácạ  Khái ni m v spamệ ề  Các hư ng ti p c n x lý v i spamớ ế ậ ử ớ  M t s khái ni m xác su tộ ố ệ ấ  Phương pháp phân lo i Naïve Bayesianạ  Ch n ngư ng phân lo i emailọ ỡ ạ N i dung báo cáoộ  Spam là nh ng email đư c phát tán m t cách ữ ợ ộ r ng rãi không theo b t c m t yêu c u nào ộ ấ ứ ộ ầ c a ngư i nh n v i s lư ng l n (unsolicited ủ ờ ậ ớ ố ợ ớ bulk email(UBE)), hay nh ng email qu ng cáo ữ ả đư c g i mà không có yêu c u c a ngư i ợ ử ầ ủ ờ nh n (unsolicited commercial email (UCE))ậ Khái ni m v spamệ ề  Complaining to Spammers' ISPs  Mail Blacklists /Whitelists  Mail volume  Genetic Algorithms  Rule-Based  Machine Learning Các hư ng ti p c n x lý v i ớ ế ậ ử ớ spam  Xác su t có đi u ki n :ấ ề ệ P(A/B) = P(AB)/P(B) Hay P(A/B) x P(B) = P(B/A) x P(A) = P(AB) Xác su t đ y đ :ấ ầ ủ Gi s B1,B2,…,Bn là m t nhóm đ y đ các bi n c . Xét ả ử ộ ầ ủ ế ố bi n c A sao cho A x y ra ch khi m t trong các bi n c ế ố ả ỉ ộ ế ố B1,B2,…,Bn x y raả P(A) = ∑P(Bi) P(A/Bi) M t s khái ni m xác su tộ ố ệ ấ  Theo Charles Elkan cho X1,X2,…,Xn là các thu c tính v i các giá tr r i r c đư c dùng ộ ớ ị ờ ạ ợ đ d đoán m t l p riêng bi t C cho m t t p ể ự ộ ớ ệ ộ ậ m u , t p các l p mà m u có th thu c v là ẫ ậ ớ ẫ ể ộ ề C ={c1,c2,…,cm} . Cho m t m u hu n luy n ộ ẫ ấ ệ v i giá tr các thu c tính tương ng là x1,…, ớ ị ộ ứ xn , d đoán m u thu c v l p c€ C khi xác ự ẫ ộ ề ớ su t P(C=c/X1=x1 ^X2=x2 ^ …^Xn=xn) có ấ giá tr l n nh t ị ớ ấ Phương pháp phân loai Naïve Bayesian  V i X1, X2,…,Xn đ c l p v i nhau :ớ ộ ậ ớ Phương pháp phân lo i Naïve ạ Bayesian  T p các l p mà m i email có th thu c v là ậ ớ ỗ ể ộ ề C = {spam, non-spam} Phân lo i email d a trên thu t ạ ự ậ toán Naïve Bayesian  Trong phân lo i email , có hai lo i sai l mO: ạ ạ ầ sai l m nh n m t email là spam m c dù th c ầ ậ ộ ặ ự t nó là non-spam (false positive) và sai l m ế ầ th hai là nh n m t email là non-spam m c ứ ậ ộ ặ dù nó là spam (false negative) . Rõ ràng là sai l m th nh t là nghiêm tr ng hơn b i vì ầ ứ ấ ọ ở ngư i s d ng có th ch p nh n m t email ờ ử ụ ể ấ ậ ộ spam vư t qua b l c nhưng không ch p ợ ộ ọ ấ nh n m t email h p l quan tr ng l i b b ậ ộ ợ ệ ọ ạ ị ộ l c ch n l i.ọ ặ ạ Ch n ngư ng phân lo i emailọ ỡ ạ  Gi s N ->S và S -> N tương ng v i hai l i ả ử ứ ớ ỗ sai trên đây . S d ng lu t quy t đ nh Bayes ử ụ ậ ế ị d a trên chi phí , ta gi s r ng l i N->S có ự ả ử ằ ỗ chi phí g p l n l i S->N , chúng ta phân lo i ấ ầ ỗ ạ m t email là spam d a vào tiêu chuân sauO:ộ ự Ch n ngư ng phân lo i emailọ ỡ ạ [...]...Đánh giá hi ệu năng chương trình   Chương trình sử dụng tập mẫu từ nguồn : http:// www.aueb.gr/users/ion/data/enron-spam/   Chương trình có sử dụng 1500 thư mẫu là spam và 3672 thư mẫu là non-spam Chạy thử nghiệm với 15 mail là spam và 15 mail là non-spam cho kết quả Đánh giá hi ệu năng chương trình Hi ệu năng N->S 26,67% N->N 73,33% S->S 86,67% S->N 13,33% Demo C . Hoàng Anhặ Phân lo i thư rác  Khái ni m v spamệ ề  Các hư ng ti p c n x lý v i spamớ ế ậ ử ớ  M t s khái ni m xác su tộ ố ệ ấ  Phương pháp phân lo i Naïve Bayesianạ  Ch n ngư ng phân lo i. pháp phân loai Naïve Bayesian  V i X1, X2,…,Xn đ c l p v i nhau :ớ ộ ậ ớ Phương pháp phân lo i Naïve ạ Bayesian  T p các l p mà m i email có th thu c v là ậ ớ ỗ ể ộ ề C = {spam, non-spam} Phân. hư ng ti p c n x lý v i ớ ế ậ ử ớ spam  Xác su t có đi u ki n :ấ ề ệ P(A/B) = P(AB)/P(B) Hay P(A/B) x P(B) = P(B/A) x P(A) = P(AB) Xác su t đ y đ :ấ ầ ủ Gi s B1,B2,…,Bn là m t nhóm đ y đ các bi

Ngày đăng: 23/10/2014, 23:20

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w