1. Trang chủ
  2. » Công Nghệ Thông Tin

báo cáo môn môn xử lý ngôn ngữ tự nhiên

19 506 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 19
Dung lượng 164,82 KB

Nội dung

Sau đó ận được một lượng lớn các bi n pháp tr ng tr v m t xã h i và hành chính đã có tác d ng , th ph m đã b ện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ừ ị về mặt xã hội và hà

Trang 1

M c l c ục lục ục lục

Chương 1 : Mở đầu 2

Chương 2 : Tổng quan 4

2.1 Các cách thức con người xử lý với spam 4

2.2 Các phương pháp tiếp cận 5

2.2.1 Complaining to Spammers' ISPs : 5

2 2.2.Mail Blacklists /Whitelists 5

2.2.3.Mail volume 6

2.2.4.Genetic Algorithms 7

2.2.5.Rule-Based (hay là Heuristic) 7

2.2.6 Machine Learning (Máy học ) 8

Chương 3 : Phương pháp phân loại Nạve Bayesian và ứng dụng phân loại email 9

3.1 Một số khái niệm sác xuất cĩ liên quan 9

3.1.1.Đinh nghĩa xác suất 9

3.1.2.Xác suât cĩ điều kiện , cơng thức xác suất đầy đủ - cơng thức xác suất Bayes 10

3.2.Phương pháp phân loại Nạve Bayesian 10

3.3 Phân loại email bằng phương pháp Naive Bayesian 11

3.3.1 Phân loại email dựa trên thuật tốn Naive Bayesian 11

3.3.2 Chọn ngưỡng phân loại email 12

Chương 4 : Cài đặt chương trình phân loại email dựa trên phương pháp phân loại Naive Bayesian .14 4.1 Khái niệm Token 14

4.2 Vector thuộc tính 14

4.3 Chọn ngưỡng phân loại 15

Tài liệu tham khảo 18

1

Trang 2

Ch ương 1 : Mở đầu ng 1 : M đ u ở đầu ầu

Th i đ i ngày nay là th i đ i bùng n thông tin , Internet đã tr nên quen thu c và ổ thông tin , Internet đã trở nên quen thuộc và ở nên quen thuộc và ộc và không th thi u đ i v i m i qu c gia và xã h i Liên l c qua Internet đã tr nên ph ỗi quốc gia và xã hội Liên lạc qua Internet đã trở nên phổ ộc và ở nên quen thuộc và ổ thông tin , Internet đã trở nên quen thuộc và

bi n , và email là m t phộc và ương tiện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ng ti n liên l c có chi phí th p , nhanh chóng và hi u qu ện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ấp , nhanh chóng và hiệu quả ện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ả

nh t trên Internet H ng ngày m i ngấp , nhanh chóng và hiệu quả ằng ngày mỗi người sử dụng email đều nhận được một lượng lớn ỗi quốc gia và xã hội Liên lạc qua Internet đã trở nên phổ ư i s d ng email đ u nh n đử dụng email đều nhận được một lượng lớn ụng email đều nhận được một lượng lớn ều nhận được một lượng lớn ận được một lượng lớn ược một lượng lớnc m t lộc và ược một lượng lớnng l n email , tuy nhiên không ph i t t c các email mà ta nh n đả ấp , nhanh chóng và hiệu quả ả ận được một lượng lớn ược một lượng lớnc đ u ch a thông tin mà ều nhận được một lượng lớn ứa thông tin mà

ta quan tâm Nh ng email mà ta không mu n nh n y là email Spam Ngững email mà ta không muốn nhận ấy là email Spam Ngược lại , ận được một lượng lớn ấp , nhanh chóng và hiệu quả ược một lượng lớnc l i ,

nh ng email không ph i là spam g i là non-spam –email h p l đững email mà ta không muốn nhận ấy là email Spam Ngược lại , ả ọi là non-spam –email hợp lệ được người dùng chấp ợc một lượng lớn ện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ược một lượng lớnc ngư i dùng ch p ấp , nhanh chóng và hiệu quả

nh n ận được một lượng lớn

Spam chính là nh ng email đững email mà ta không muốn nhận ấy là email Spam Ngược lại , ược một lượng lớnc phát tán m t cách r ng rãi không theo b t c ộc và ộc và ấp , nhanh chóng và hiệu quả ứa thông tin mà

m t yêu c u nào c a ngộc và ư i nh n v i s lận được một lượng lớn ược một lượng lớnng l n (unsolicited bulk email(UBE)), hay

nh ng email qu ng cáo đững email mà ta không muốn nhận ấy là email Spam Ngược lại , ả ược một lượng lớn ử dụng email đều nhận được một lượng lớnc g i mà không có yêu c u c a ngư i nh n (unsolicited ận được một lượng lớn commercial email (UCE))

Nhiều nhận được một lượng lớnu ngư i trong chúng ta nghĩ rằng ngày mỗi người sử dụng email đều nhận được một lượng lớnng spam là mộc và t vấp , nhanh chóng và hiệu quả n đều nhận được một lượng lớn m i, nhưng thực ra

nó đã xuấp , nhanh chóng và hiệu quả t hiện liên lạc có chi phí thấp , nhanh chóng và hiệu quả n khá lâu – ít nhấp , nhanh chóng và hiệu quả t là từ năm 1975 Vào lúc kh i th y, ngở nên quen thuộc và ư i dùng h u

h t là các chuyên gia v máy tính, h có th g i hàng tá th m chí hàng trăm email đ n ều nhận được một lượng lớn ọi là non-spam –email hợp lệ được người dùng chấp ở nên quen thuộc và ận được một lượng lớn các nhóm tin (newsgroup) và spam h u nh ch liên quan đ n các email g i b i các ư ỉ liên quan đến các email gởi bởi các ở nên quen thuộc và ở nên quen thuộc và nhóm tin Usenet ,gây ra tình tr ng không th ki m soát được một lượng lớnc các email nh n Sau đó ận được một lượng lớn các bi n pháp tr ng tr v m t xã h i và hành chính đã có tác d ng , th ph m đã b ện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ừ ị về mặt xã hội và hành chính đã có tác dụng , thủ phạm đã bị ều nhận được một lượng lớn ặt xã hội và hành chính đã có tác dụng , thủ phạm đã bị ộc và ụng email đều nhận được một lượng lớn ị về mặt xã hội và hành chính đã có tác dụng , thủ phạm đã bị

tr ng ph t , công khai hay bí m t , nh ng ngừ ận được một lượng lớn ững email mà ta không muốn nhận ấy là email Spam Ngược lại , ư i này nhanh chóng được một lượng lớnc đ a vào m t ư ộc và danh sách và m t kĩ thu t l c spam s m nh t xu t hi n đó là “bad sender”-l c email ộc và ận được một lượng lớn ọi là non-spam –email hợp lệ được người dùng chấp ấp , nhanh chóng và hiệu quả ấp , nhanh chóng và hiệu quả ện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ọi là non-spam –email hợp lệ được người dùng chấp

c a nh ng ngững email mà ta không muốn nhận ấy là email Spam Ngược lại , ư i g i đở nên quen thuộc và ược một lượng lớnc xem là x uấp , nhanh chóng và hiệu quả

WWW (World-Wide Web) đã mang th gi i Internet đ n nhi u ngều nhận được một lượng lớn ư i , và h ện liên lạc có chi phí thấp , nhanh chóng và hiệu quả

qu c a nó là nhi u ngả ều nhận được một lượng lớn ư i không ph i là chuyên gia trong th gi i máy tính cũng đả ược một lượng lớnc

ti p xúc nhi u v i Internet , nó cho phép truy c p đ n nh ng thông tin và d ch v mà ều nhận được một lượng lớn ận được một lượng lớn ững email mà ta không muốn nhận ấy là email Spam Ngược lại , ị về mặt xã hội và hành chính đã có tác dụng , thủ phạm đã bị ụng email đều nhận được một lượng lớn

trư c đây là không được một lượng lớnc phép Ch trong vòng 2-3 năm chúng ta đã ch ng ki n s bùngỉ liên quan đến các email gởi bởi các ứa thông tin mà ự

n s ngổ thông tin , Internet đã trở nên quen thuộc và ư i s d ng Internet và t t nhiên m t cách nhanh chóng t đây, nh ng kĩ ử dụng email đều nhận được một lượng lớn ụng email đều nhận được một lượng lớn ấp , nhanh chóng và hiệu quả ộc và ừ ững email mà ta không muốn nhận ấy là email Spam Ngược lại , thu t ngăn ch n spam trận được một lượng lớn ặt xã hội và hành chính đã có tác dụng , thủ phạm đã bị ư c đây đã không còn thích h p Spam thợc một lượng lớn ư ng theo sau nh ngững email mà ta không muốn nhận ấy là email Spam Ngược lại ,

qu ng cáo thả ương tiện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ng m i chéo kéo khách hàng (nh ng email qu ng cáo thững email mà ta không muốn nhận ấy là email Spam Ngược lại , ả ương tiện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ng m i được một lượng lớnc

g i mà không có yêu c u ) Spam đã và đang gây tác h i đ n ngở nên quen thuộc và ư i s d ng Internet và ử dụng email đều nhận được một lượng lớn ụng email đều nhận được một lượng lớn

t c đ độc và ư ng truy n Internet V i ngều nhận được một lượng lớn ư i s d ng email , spam gây ra cho h c m giác ử dụng email đều nhận được một lượng lớn ụng email đều nhận được một lượng lớn ọi là non-spam –email hợp lệ được người dùng chấp ả

b c b i và m t th i gian và ti n b c đ xóa chúng , đôi khi h có th b m t nh ng ự ộc và ấp , nhanh chóng và hiệu quả ều nhận được một lượng lớn ọi là non-spam –email hợp lệ được người dùng chấp ị về mặt xã hội và hành chính đã có tác dụng , thủ phạm đã bị ấp , nhanh chóng và hiệu quả ững email mà ta không muốn nhận ấy là email Spam Ngược lại , email quan tr ng ch vì xóa nh m , t c đ trên m ng xọi là non-spam –email hợp lệ được người dùng chấp ỉ liên quan đến các email gởi bởi các ộc và ương tiện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ng s ng c a Internet (Internet Backbone) cũng b spam là cho ch m l i vì s lị về mặt xã hội và hành chính đã có tác dụng , thủ phạm đã bị ận được một lượng lớn ược một lượng lớnng spam được một lượng lớnc chuy n đi trên m ng là

Trang 3

email spam được một lượng lớnc phát tán qua Internet , trên 40% lược một lượng lớnng email trên m ng là spam , g n đây đã đ t con s 50% Cho dù được một lượng lớnc nh n di n là k thù c a c ng đ ng (public ận được một lượng lớn ện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ẻ thù của cộng đồng (public ộc và ồng (public

enemy) Internet , nhuwng spam đã và đang mang l i l i nhu n Trong s 100000 emailợc một lượng lớn ận được một lượng lớn spam phát tán , ch c n m t email có ph n h i là đã có th bù đ p chi phí đ u t ỉ liên quan đến các email gởi bởi các ộc và ả ồng (public ắp chi phí đầu tư ư

Đ ngăn ch n spam , nhi u nhà khoa h c , các t ch c , các cá nhân đã nghiên ặt xã hội và hành chính đã có tác dụng , thủ phạm đã bị ều nhận được một lượng lớn ọi là non-spam –email hợp lệ được người dùng chấp ổ thông tin , Internet đã trở nên quen thuộc và ứa thông tin mà

c u và phát tri n nh ng kĩ thu t phân lo i và l c email , tuy nhiên các spammer – ứa thông tin mà ững email mà ta không muốn nhận ấy là email Spam Ngược lại , ận được một lượng lớn ọi là non-spam –email hợp lệ được người dùng chấp

nh ng ngững email mà ta không muốn nhận ấy là email Spam Ngược lại , ư i t o nên spam và phát tán chúng cũng tìm m i cách vọi là non-spam –email hợp lệ được người dùng chấp ược một lượng lớnt qua các b l c ộc và ọi là non-spam –email hợp lệ được người dùng chấp này Cu c chi n gi a các spammer và nh ng ngộc và ững email mà ta không muốn nhận ấy là email Spam Ngược lại , ững email mà ta không muốn nhận ấy là email Spam Ngược lại , ư i ch ng spam v n còn đang ti p ẫn còn đang tiếp

di n và d% ư ng nh không có h i k t Th c t cho th y , nhu c u có m t phư ồng (public ự ấp , nhanh chóng và hiệu quả ộc và ương tiện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ng pháp

và công c ch ng spam h u hi u là r t c n thi t ụng email đều nhận được một lượng lớn ững email mà ta không muốn nhận ấy là email Spam Ngược lại , ện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ấp , nhanh chóng và hiệu quả

3

Trang 4

Ch ương 1 : Mở đầu ng 2 : T ng quan ổng quan

2.1 Các cách th c con ng ức con người xử lý với spam ười xử lý với spam ử lý với spam i x lý v i spam ới spam

Trên th gi i đã có nhi u t ch c , công ty phát tri n nhi u cách th c khác nhau ều nhận được một lượng lớn ổ thông tin , Internet đã trở nên quen thuộc và ứa thông tin mà ều nhận được một lượng lớn ứa thông tin mà

đ gi i quy t v n đ spam Có nhi u h th ng đả ấp , nhanh chóng và hiệu quả ều nhận được một lượng lớn ều nhận được một lượng lớn ện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ược một lượng lớnc xây d ng s n m t “danh sách ự ẵn một “danh sách ộc và đen” (Blacklist)ch a các tên mi n mà t đó spam đứa thông tin mà ều nhận được một lượng lớn ừ ược một lượng lớnc t o ra và phát tán , và dĩ nhiên là các email đ n t các tên mi n này hoàn toàn b khóa (block out ) M t s h thông căn ừ ều nhận được một lượng lớn ị về mặt xã hội và hành chính đã có tác dụng , thủ phạm đã bị ộc và ện liên lạc có chi phí thấp , nhanh chóng và hiệu quả

c vào header c a email (nh ng trứa thông tin mà ững email mà ta không muốn nhận ấy là email Spam Ngược lại , ư ng nh n i g i (from) , tiêu đ (subject)…) và loai ư ơng tiện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ở nên quen thuộc và ều nhận được một lượng lớn

b nh ng email có đ a ch xu t phát t nh ng spammer (ng' ững email mà ta không muốn nhận ấy là email Spam Ngược lại , ị về mặt xã hội và hành chính đã có tác dụng , thủ phạm đã bị ỉ liên quan đến các email gởi bởi các ấp , nhanh chóng và hiệu quả ừ ững email mà ta không muốn nhận ấy là email Spam Ngược lại , ư i phát tán spam ) Vài h ện liên lạc có chi phí thấp , nhanh chóng và hiệu quả

th ng khác l i tìm ki m trong n i dung c a email , nh ng d u v t cho th y có s t n ộc và ững email mà ta không muốn nhận ấy là email Spam Ngược lại , ấp , nhanh chóng và hiệu quả ấp , nhanh chóng và hiệu quả ự ồng (public

t i c a spam ch ng h n email có quá nhi u d u than , s ch cái đ( ều nhận được một lượng lớn ấp , nhanh chóng và hiệu quả ững email mà ta không muốn nhận ấy là email Spam Ngược lại , ược một lượng lớnc vi t hoa nhi u ều nhận được một lượng lớn

m t cách b t bình thộc và ấp , nhanh chóng và hiệu quả ư ng…

Tuy nhiên các spammer ngày càng tinh vi , vì th các kĩ thu t dùng đ ch ng ận được một lượng lớn spam cũng ph i đả ược một lượng lớn ả c c i ti n , và chính nh ng c i ti n này càng thôi thúc các spammerững email mà ta không muốn nhận ấy là email Spam Ngược lại , ả

tr nên ranh ma và tinh vi h n … K t qu là nh hi n nay, các email spam g n nh ở nên quen thuộc và ơng tiện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ả ư ện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ư

gi ng v i m t email thông thộc và ư ng Tuy nhiên email spam có m t đi u không bao gi ộc và ều nhận được một lượng lớn thay đ i là b n ch t c a nó B n ch t đó chính là m c tiêu qu ng cáo s n ph m hay ổ thông tin , Internet đã trở nên quen thuộc và ả ấp , nhanh chóng và hiệu quả ả ấp , nhanh chóng và hiệu quả ụng email đều nhận được một lượng lớn ả ả ẩm hay

d ch v Nó là c s cho phị về mặt xã hội và hành chính đã có tác dụng , thủ phạm đã bị ụng email đều nhận được một lượng lớn ơng tiện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ở nên quen thuộc và ương tiện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ng pháp l c email d a trên n i dung (content based ọi là non-spam –email hợp lệ được người dùng chấp ự ộc và filtering) Theo đó , chúng ta c g ng phát hi n ra các ngôn ng qu ng cáo (sales-pitch ắp chi phí đầu tư ện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ững email mà ta không muốn nhận ấy là email Spam Ngược lại , ả language) thay vì chú ý đ n các ch s thông kê c a email ch ng h n nh có bao nhiêu ỉ liên quan đến các email gởi bởi các ( ư

l n xu t hi n ch “h0t chixxx!”…’ấp , nhanh chóng và hiệu quả ện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ững email mà ta không muốn nhận ấy là email Spam Ngược lại ,

M t đi u quan tr ng c n ph i cân nh c đ n khi l c spam là cái giá ph i tr khi ộc và ều nhận được một lượng lớn ọi là non-spam –email hợp lệ được người dùng chấp ả ắp chi phí đầu tư ọi là non-spam –email hợp lệ được người dùng chấp ả ả

l c sai N u m t b l c t ch i nh n h u h t các email g i đ n ho c đánh d u m t ọi là non-spam –email hợp lệ được người dùng chấp ộc và ộc và ọi là non-spam –email hợp lệ được người dùng chấp ừ ận được một lượng lớn ử dụng email đều nhận được một lượng lớn ặt xã hội và hành chính đã có tác dụng , thủ phạm đã bị ấp , nhanh chóng và hiệu quả ộc và email th t s quan tr ng nào đó là spam thì đi u đó còn t h n c vi c nh n t t c ận được một lượng lớn ự ọi là non-spam –email hợp lệ được người dùng chấp ều nhận được một lượng lớn ện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ơng tiện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ả ện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ận được một lượng lớn ấp , nhanh chóng và hiệu quả ả email spam được một lượng lớn ử dụng email đều nhận được một lượng lớnc g i đ n Ngược một lượng lớnc l i , n u có quá nhi u email spam vều nhận được một lượng lớn ược một lượng lớn ược một lượng lớnt đ c b l c ộc và ọi là non-spam –email hợp lệ được người dùng chấp thì rõ ràng b l c ho t đ ng không hi u qu , không đáp ng độc và ọi là non-spam –email hợp lệ được người dùng chấp ộc và ện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ả ứa thông tin mà ược một lượng lớnc yêu c u c a ngư i

s d ng ử dụng email đều nhận được một lượng lớn ụng email đều nhận được một lượng lớn

Trang 5

2.2 Các ph ương 1 : Mở đầu ng pháp ti p c n ếp cận ận

2.2.1 Complaining to Spammers' ISPs :

Ý t ưởng: ng:

Tìm cách làm tăng chi phí g i spam c a các spammer b ng nh ng l i than ử dụng email đều nhận được một lượng lớn ằng ngày mỗi người sử dụng email đều nhận được một lượng lớn ững email mà ta không muốn nhận ấy là email Spam Ngược lại , phi n, ph n ánh đ n các n i cung c p d ch v m ng(Internet Service Provider - ISP) ều nhận được một lượng lớn ả ơng tiện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ấp , nhanh chóng và hiệu quả ị về mặt xã hội và hành chính đã có tác dụng , thủ phạm đã bị ӏch vụ mạng(Internet Service Provider - ISP) ụng email đều nhận được một lượng lớn Khi chúng ta bi t chính xác nh ng email spam th c s đững email mà ta không muốn nhận ấy là email Spam Ngược lại , ự ự ược một lượng lớn ử dụng email đều nhận được một lượng lớnc g i đ n t d ch v ISP ừ ị về mặt xã hội và hành chính đã có tác dụng , thủ phạm đã bị ụng email đều nhận được một lượng lớn nào , ta sẽ ph n ánh l i v i d ch v đó và d ch v này sẽ t ch i cung c p d ch v cho ả ị về mặt xã hội và hành chính đã có tác dụng , thủ phạm đã bị ụng email đều nhận được một lượng lớn ị về mặt xã hội và hành chính đã có tác dụng , thủ phạm đã bị ụng email đều nhận được một lượng lớn ừ ấp , nhanh chóng và hiệu quả ị về mặt xã hội và hành chính đã có tác dụng , thủ phạm đã bị ụng email đều nhận được một lượng lớn các spammer dùng g i spam.ử dụng email đều nhận được một lượng lớn

Đ c đi m : ặc điểm : ểm :

Đây cũng là gi i pháp ch ng spam đ u tiên Nh ng l i than phi n cũng có tác ả ững email mà ta không muốn nhận ấy là email Spam Ngược lại , ều nhận được một lượng lớn

d ng c a nó Nh ng n i g i spam sẽ b vô hi u hóa , khi đó các spammer ph i đăng ký ụng email đều nhận được một lượng lớn ững email mà ta không muốn nhận ấy là email Spam Ngược lại , ơng tiện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ử dụng email đều nhận được một lượng lớn ị về mặt xã hội và hành chính đã có tác dụng , thủ phạm đã bị ện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ả

m t tài kho n m i v i nhà cung c p d ch v ISP đ có th ti p t c phát tán các email ộc và ả ấp , nhanh chóng và hiệu quả ị về mặt xã hội và hành chính đã có tác dụng , thủ phạm đã bị ụng email đều nhận được một lượng lớn ụng email đều nhận được một lượng lớn spam c a mình D n d n vi c chuy n n i cung c p d ch v sẽ làm các spammer t n ện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ơng tiện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ấp , nhanh chóng và hiệu quả ị về mặt xã hội và hành chính đã có tác dụng , thủ phạm đã bị ụng email đều nhận được một lượng lớn nhi u chi phí và khi chúng ta phát hi n càng s m thì chi phí trên c a các spammer càng ều nhận được một lượng lớn ện liên lạc có chi phí thấp , nhanh chóng và hiệu quả tăng nhi uều nhận được một lượng lớn

Cách này cũng g p ph i nh ng khó khăn đó là không th bi t chính xác nh ng ặt xã hội và hành chính đã có tác dụng , thủ phạm đã bị ả ững email mà ta không muốn nhận ấy là email Spam Ngược lại , ững email mà ta không muốn nhận ấy là email Spam Ngược lại , email spam này th c s đ n t đâu do các spammer đã khéo léo che gi u đi ph n ự ự ừ ấp , nhanh chóng và hiệu quả header c a email đ n đi ngu n g c Do đó c n ph i hi u bi t v header c a email ẩm hay ồng (public ả ều nhận được một lượng lớn

đ hi u rõ email spam này th t s đi đ n đâu ận được một lượng lớn ự

2 2.2.Mail Blacklists /Whitelists

Ý t ưởng: ng :

M t danh sách đen (Blacklist) các đ a ch email hay các máy ch email (mail server) ộc và ị về mặt xã hội và hành chính đã có tác dụng , thủ phạm đã bị ỉ liên quan đến các email gởi bởi các chuyên dùng c a các spammer sẽ được một lượng lớnc thi t l p và d a vào đó ta có th ngăn ch n ận được một lượng lớn ự ặt xã hội và hành chính đã có tác dụng , thủ phạm đã bị email spam được một lượng lớnc phân tán t nh ng n i này ừ ững email mà ta không muốn nhận ấy là email Spam Ngược lại , ơng tiện liên lạc có chi phí thấp , nhanh chóng và hiệu quả

Vi c thi t l p danh sách các đ a ch email đen hay máy ch g i email này sẽ do ện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ận được một lượng lớn ị về mặt xã hội và hành chính đã có tác dụng , thủ phạm đã bị ỉ liên quan đến các email gởi bởi các ử dụng email đều nhận được một lượng lớn

m t nhóm tình nguy n xác nh n M t s nhà cung c p d ch v m ng ISP sẽ dùng danh ộc và ện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ận được một lượng lớn ộc và ấp , nhanh chóng và hiệu quả ị về mặt xã hội và hành chính đã có tác dụng , thủ phạm đã bị ụng email đều nhận được một lượng lớn sách đen ki u này và t đ ng t ch i nh n email t nh ng máy ch hay email trong ự ộc và ừ ận được một lượng lớn ừ ững email mà ta không muốn nhận ấy là email Spam Ngược lại ,

5

Trang 6

danh sách đó Nh v y , nh ng email spam sẽ đư ận được một lượng lớn ững email mà ta không muốn nhận ấy là email Spam Ngược lại , ược một lượng lớnc phân lo i và ch n ngay tai máy chặt xã hội và hành chính đã có tác dụng , thủ phạm đã bị

nh n email ận được một lượng lớn

Đ c đi m : ặc điểm : ểm :

Phương tiện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ng pháp này bư c đ u lo i được một lượng lớnc kho ng 50% email spamả

Khuy t đi m c a phương tiện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ng pháp này là chúng không th đương tiện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ng đ u v i h n m t ơng tiện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ộc và

n a s server mà spam đang s d ng hi n nay Và n u xác nh n danh sách đen này ử dụng email đều nhận được một lượng lớn ử dụng email đều nhận được một lượng lớn ụng email đều nhận được một lượng lớn ện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ận được một lượng lớn

vi c dùng nó đ ng nghĩa v i vi c b qua m t lện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ồng (public ện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ' ộc và ược một lượng lớnng l n email h p l ợc một lượng lớn ện liên lạc có chi phí thấp , nhanh chóng và hiệu quả

Phương tiện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ng pháp này có th b qua m t n u nh các spammer g i l i email thông ị về mặt xã hội và hành chính đã có tác dụng , thủ phạm đã bị ặt xã hội và hành chính đã có tác dụng , thủ phạm đã bị ư ử dụng email đều nhận được một lượng lớn qua m t máy ch SMTP (Simple email Transfer Protocol) có ngu n g c h p pháp khôngộc và ồng (public ợc một lượng lớn

k tên trong danh sách “Blacklist”

Ngoài ra , danh sách này không ch t ch i nh n email t các đ a ch IP (Internet ỉ liên quan đến các email gởi bởi các ừ ận được một lượng lớn ừ ị về mặt xã hội và hành chính đã có tác dụng , thủ phạm đã bị ỉ liên quan đến các email gởi bởi các Protocol ) t nh ng n i chuyên dùng g i spam mà nó còn t ch i luôn c nh ng email ừ ững email mà ta không muốn nhận ấy là email Spam Ngược lại , ơng tiện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ử dụng email đều nhận được một lượng lớn ừ ả ững email mà ta không muốn nhận ấy là email Spam Ngược lại ,

mà có tên mi n n m trong danh sách “Blacklist” này ều nhận được một lượng lớn ằng ngày mỗi người sử dụng email đều nhận được một lượng lớn

Cách này được một lượng lớnc áp d ng tai m c nhà cung c p d ch v m ng (ISP) và th t h u ụng email đều nhận được một lượng lớn ứa thông tin mà ấp , nhanh chóng và hiệu quả ị về mặt xã hội và hành chính đã có tác dụng , thủ phạm đã bị ụng email đều nhận được một lượng lớn ận được một lượng lớn ững email mà ta không muốn nhận ấy là email Spam Ngược lại ,

d ng v i ngụng email đều nhận được một lượng lớn ư i dùng n u h s d ng m t ISP đáng tin c y.ọi là non-spam –email hợp lệ được người dùng chấp ử dụng email đều nhận được một lượng lớn ụng email đều nhận được một lượng lớn ộc và ận được một lượng lớn

Ngược một lượng lớnc l i v i vi c thi t l p m t danh sách đen “Blacklist” ta còn có th thi t l pện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ận được một lượng lớn ộc và ận được một lượng lớn

m t danh sách “Whitelist” V i nh ng đ a ch g i email (ho c tên mi n domains) n m ộc và ững email mà ta không muốn nhận ấy là email Spam Ngược lại , ị về mặt xã hội và hành chính đã có tác dụng , thủ phạm đã bị ỉ liên quan đến các email gởi bởi các ử dụng email đều nhận được một lượng lớn ặt xã hội và hành chính đã có tác dụng , thủ phạm đã bị ều nhận được một lượng lớn ằng ngày mỗi người sử dụng email đều nhận được một lượng lớn trong danh sách này sẽ được một lượng lớnc các ISP t đ ng ch p nh n email g i t nó M c đ nh t t ự ộc và ấp , nhanh chóng và hiệu quả ận được một lượng lớn ử dụng email đều nhận được một lượng lớn ừ ặt xã hội và hành chính đã có tác dụng , thủ phạm đã bị ị về mặt xã hội và hành chính đã có tác dụng , thủ phạm đã bị ấp , nhanh chóng và hiệu quả

c nh ng email khác sẽ b t ch i ả ững email mà ta không muốn nhận ấy là email Spam Ngược lại , ị về mặt xã hội và hành chính đã có tác dụng , thủ phạm đã bị ừ

N u các spammer g i email spam v i ph n “sender” c a email có cùng tên mi n ử dụng email đều nhận được một lượng lớn ều nhận được một lượng lớn

được một lượng lớnc ch p nh n trong “Whitelist” thì email spam v n có th đ n đấp , nhanh chóng và hiệu quả ận được một lượng lớn ẫn còn đang tiếp ược một lượng lớnc tay ngư i nh n.ận được một lượng lớn

2.2.3.Mail volume

Ý t ưởng: ng :

B l c sẽ ng d ng thu t toán đ ki m tra sô lộc và ọi là non-spam –email hợp lệ được người dùng chấp ứa thông tin mà ụng email đều nhận được một lượng lớn ận được một lượng lớn ược một lượng lớnng email nh n đận được một lượng lớn ược một lượng lớn ừ ộc và c t m t máy ch (host) c th trong các l n k t n i sau cùng (cách này đã đụng email đều nhận được một lượng lớn ược một lượng lớnc b l c Spamshield c a ộc và ọi là non-spam –email hợp lệ được người dùng chấp Kai s d ng N u s lử dụng email đều nhận được một lượng lớn ụng email đều nhận được một lượng lớn ược một lượng lớnng email nh n đận được một lượng lớn ược một lượng lớnc l n h n m t ngơng tiện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ộc và ưỡng nào đó thì các email ng nào đó thì các email

đó sẽ được một lượng lớnc phân lo i là spam)

Đ c đi m : ặc điểm : ểm :

B l c t ra hi u qu trong vi c phân lo i đúng t t c các email h p l trong ộc và ọi là non-spam –email hợp lệ được người dùng chấp ' ện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ả ện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ấp , nhanh chóng và hiệu quả ả ợc một lượng lớn ện liên lạc có chi phí thấp , nhanh chóng và hiệu quả

đi u ki n v i m t ngều nhận được một lượng lớn ện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ộc và ưỡng nào đó thì các email ng phân lo i đ cao N u b l c độc và ọi là non-spam –email hợp lệ được người dùng chấp ược một lượng lớn ử dụng email đều nhận được một lượng lớn ụng email đều nhận được một lượng lớnc s d ng cho cá nhân , thf

nó ho t đ ng r t hi u qu Có th xem đây là m t u đi m c a b l c b i vì v i email ộc và ấp , nhanh chóng và hiệu quả ện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ả ộc và ư ộc và ọi là non-spam –email hợp lệ được người dùng chấp ở nên quen thuộc và

cá nhân thì nh ng k g i email qu ng cáo ph i thi t l p nhi u k t n i h n đ g i m t ững email mà ta không muốn nhận ấy là email Spam Ngược lại , ẻ thù của cộng đồng (public ử dụng email đều nhận được một lượng lớn ả ả ận được một lượng lớn ều nhận được một lượng lớn ơng tiện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ử dụng email đều nhận được một lượng lớn ộc và

Trang 7

s lược một lượng lớnng email gi ng nhau Đi u này làm cho các email qu ng cáo đó d dàng b phát ều nhận được một lượng lớn ả % ị về mặt xã hội và hành chính đã có tác dụng , thủ phạm đã bị

hi n d a trên vi c phân tích s lện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ự ện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ược một lượng lớnng email

M t h n ch c a b l c này là t l ch p nh n phân lo i sai FAR (false ặt xã hội và hành chính đã có tác dụng , thủ phạm đã bị ộc và ọi là non-spam –email hợp lệ được người dùng chấp ỉ liên quan đến các email gởi bởi các ện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ấp , nhanh chóng và hiệu quả ận được một lượng lớn

acceptance rate) c a nó còn khá cao

FAR =n S → N

n S

n S → N: S email spam mà b l c nh n là non-spam0ộc và ọi là non-spam –email hợp lệ được người dùng chấp ận được một lượng lớn

n S:S email spam th c s đ n b l cự ự ộc và ọi là non-spam –email hợp lệ được người dùng chấp

2.2.4.Genetic Algorithms

Ý t ưởng: : ng

B l c d a trên thu t toán di truy n (Genetic Algorithms) s d ng các b nh n ộc và ọi là non-spam –email hợp lệ được người dùng chấp ự ận được một lượng lớn ều nhận được một lượng lớn ử dụng email đều nhận được một lượng lớn ụng email đều nhận được một lượng lớn ộc và ận được một lượng lớn

d ng đ c tr ng (feature detectors) đ ghi đi m cho m i email Th c t , nh ng featureặt xã hội và hành chính đã có tác dụng , thủ phạm đã bị ư ỗi quốc gia và xã hội Liên lạc qua Internet đã trở nên phổ ự ững email mà ta không muốn nhận ấy là email Spam Ngược lại , detectors này là m t t p các lu t độc và ận được một lượng lớn ận được một lượng lớn ược một lượng lớnc xây d ng d a trên các kinh nghi m đã có ự ự ện liên lạc có chi phí thấp , nhanh chóng và hiệu quả

(empirical rules) và áp d ng vào m i email đ thu v m t giá tr sụng email đều nhận được một lượng lớn ỗi quốc gia và xã hội Liên lạc qua Internet đã trở nên phổ ều nhận được một lượng lớn ộc và ị về mặt xã hội và hành chính đã có tác dụng , thủ phạm đã bị

Thu t toán di truy n này đận được một lượng lớn ều nhận được một lượng lớn ược một lượng lớnc bi u di n là nh ng cây (trees) và đ% ững email mà ta không muốn nhận ấy là email Spam Ngược lại , ược một lượng lớnc k t h p ợc một lượng lớn

v i m t t p hu n luy n cùng v i m t hàm thích h p fitness function.ộc và ận được một lượng lớn ấp , nhanh chóng và hiệu quả ện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ộc và ợc một lượng lớn

C ch ti n hóa (Evolutionary mechanism) c a thu t toán : thu t toán th c hi nơng tiện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ận được một lượng lớn ận được một lượng lớn ự ện liên lạc có chi phí thấp , nhanh chóng và hiệu quả hai thao tác c b n là phép lai crossover và đ t bi n mutation M c đích ti n trình này ơng tiện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ả ộc và ụng email đều nhận được một lượng lớn

là tìm được một lượng lớnc m t giá tr score nh nh t d a trên hàm fitness function Giá tr score sau ộc và ị về mặt xã hội và hành chính đã có tác dụng , thủ phạm đã bị ' ấp , nhanh chóng và hiệu quả ự ị về mặt xã hội và hành chính đã có tác dụng , thủ phạm đã bị

đó sẽ được một lượng lớn ử dụng email đều nhận được một lượng lớn ụng email đều nhận được một lượng lớnc s d ng đ phân lo i email là spam hay non-spam

Đ c đi m ặc điểm : ểm : :

Đây là hư ng ti p c n phân lo i email d a trên n i dung Hận được một lượng lớn ự ộc và ư ng ti p c n hi u ận được một lượng lớn ện liên lạc có chi phí thấp , nhanh chóng và hiệu quả

qu nh t cho b l c t i m c ISP đả ấp , nhanh chóng và hiệu quả ộc và ọi là non-spam –email hợp lệ được người dùng chấp ứa thông tin mà ược một lượng lớnc đánh giá là d a trên thu t toán di chuy n ự ận được một lượng lớn ều nhận được một lượng lớn

Genetic Algorithms

Đi m không thu n l i c a thu t toán di chuy n là đòi h i kh năng x lý ph i ận được một lượng lớn ợc một lượng lớn ận được một lượng lớn ều nhận được một lượng lớn ' ả ử dụng email đều nhận được một lượng lớn ả

l n

Hư ng ti p c n này đận được một lượng lớn ược một lượng lớn ứa thông tin mà c ng d ng trong trình l c spam Spamassassin Nó ụng email đều nhận được một lượng lớn ọi là non-spam –email hợp lệ được người dùng chấp

ho t d ng r t hi u qu t i m c ISP và độc và ấp , nhanh chóng và hiệu quả ện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ả ứa thông tin mà ược một lượng lớnc nhi u ngều nhận được một lượng lớn ư i đánh giá là m t trong nh ng ộc và ững email mà ta không muốn nhận ấy là email Spam Ngược lại ,

b l c ho t đ ng hi u qu nh t t i m c ISPộc và ọi là non-spam –email hợp lệ được người dùng chấp ộc và ện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ả ấp , nhanh chóng và hiệu quả ứa thông tin mà

Đi m y u c a trình l c Spamassassin là ho t đ ng v i hi u qu ch a cao t i ọi là non-spam –email hợp lệ được người dùng chấp ộc và ện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ả ư

m c ngứa thông tin mà ư i dùng cá nhân

7

Trang 8

2.2.5.Rule-Based (hay là Heuristic)

Ý t ưởng: ng :

D a vào lu t tìm ki m các m u có d u hi u là spam nh các t và ng xác đ nh ,ự ận được một lượng lớn ẫn còn đang tiếp ấp , nhanh chóng và hiệu quả ện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ư ừ ững email mà ta không muốn nhận ấy là email Spam Ngược lại , ị về mặt xã hội và hành chính đã có tác dụng , thủ phạm đã bị hàng lo t các ch hoa và d u ch m than , ph n header c a email sai đ nh d ng , ngày ững email mà ta không muốn nhận ấy là email Spam Ngược lại , ấp , nhanh chóng và hiệu quả ấp , nhanh chóng và hiệu quả ị về mặt xã hội và hành chính đã có tác dụng , thủ phạm đã bị trong email là tở nên quen thuộc và ương tiện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ng lai ho c quá kh Đó là cách h u h t ph n l n các trình l c ặt xã hội và hành chính đã có tác dụng , thủ phạm đã bị ứa thông tin mà ọi là non-spam –email hợp lệ được người dùng chấp spam ho t đ ng năm 2002ộc và

Đ c đi m ặc điểm : ểm :

Hi u su t c a trình l c d a trên lu t (rule-based filters) khác nhau r t nhi u ện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ấp , nhanh chóng và hiệu quả ọi là non-spam –email hợp lệ được người dùng chấp ự ận được một lượng lớn ấp , nhanh chóng và hiệu quả ều nhận được một lượng lớn Cách đ n gi n nh t là lo i b các email mà có ch a nh ng t x u nào đó Nh ng đây ơng tiện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ả ấp , nhanh chóng và hiệu quả ' ứa thông tin mà ững email mà ta không muốn nhận ấy là email Spam Ngược lại , ừ ấp , nhanh chóng và hiệu quả ư cũng là đi m y u đ các spammer có th l i d ng đ qua m t các b l c ki u này b ngợc một lượng lớn ụng email đều nhận được một lượng lớn ặt xã hội và hành chính đã có tác dụng , thủ phạm đã bị ộc và ọi là non-spam –email hợp lệ được người dùng chấp ằng ngày mỗi người sử dụng email đều nhận được một lượng lớn cách c g ng tránh s d ng nh ng t x u và thay b ng nh ng t t t – đắp chi phí đầu tư ử dụng email đều nhận được một lượng lớn ụng email đều nhận được một lượng lớn ững email mà ta không muốn nhận ấy là email Spam Ngược lại , ừ ấp , nhanh chóng và hiệu quả ằng ngày mỗi người sử dụng email đều nhận được một lượng lớn ững email mà ta không muốn nhận ấy là email Spam Ngược lại , ừ ược một lượng lớn ử dụng email đều nhận được một lượng lớn ụng email đều nhận được một lượng lớnc s d ng nhi u trong email non-spam Trong khi đó các email non-spam thì b lo i b n u vô ều nhận được một lượng lớn ị về mặt xã hội và hành chính đã có tác dụng , thủ phạm đã bị ' tình ch a m t vài t x u d ng này Đi u này , d n đ n kh năng l c sai còn caoứa thông tin mà ộc và ừ ấp , nhanh chóng và hiệu quả ều nhận được một lượng lớn ẫn còn đang tiếp ả ọi là non-spam –email hợp lệ được người dùng chấp

M t đi u b t l i khác là các lu t d ng này đ u là tĩnh Khi các spammer tìm ra ộc và ều nhận được một lượng lớn ấp , nhanh chóng và hiệu quả ợc một lượng lớn ận được một lượng lớn ều nhận được một lượng lớn

được một lượng lớnc m t phộc và ương tiện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ng pháp m i đ vược một lượng lớnt qua thì nh ng ngững email mà ta không muốn nhận ấy là email Spam Ngược lại , ư i vi t trình l c l i ph i vi t ọi là non-spam –email hợp lệ được người dùng chấp ả

nh ng lu t m i đ l c các spam Nh ng spammer chuyên nghi p thì có th ki m tra ững email mà ta không muốn nhận ấy là email Spam Ngược lại , ận được một lượng lớn ọi là non-spam –email hợp lệ được người dùng chấp ững email mà ta không muốn nhận ấy là email Spam Ngược lại , ện liên lạc có chi phí thấp , nhanh chóng và hiệu quả

được một lượng lớnc nh ng email trên các h thông l c d a trên lu t trững email mà ta không muốn nhận ấy là email Spam Ngược lại , ện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ọi là non-spam –email hợp lệ được người dùng chấp ự ận được một lượng lớn ư c khi g i chúng đi ử dụng email đều nhận được một lượng lớn

N u b l c độc và ọi là non-spam –email hợp lệ được người dùng chấp ược một lượng lớnc xây d ng d a trên lu t ph c t p thì v n phát huy tác d ng l c ự ự ận được một lượng lớn ứa thông tin mà ẫn còn đang tiếp ụng email đều nhận được một lượng lớn ọi là non-spam –email hợp lệ được người dùng chấp spam hi u qu Ví d nh trình l c Spamassassin l c lên đ n 90-95% spamện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ả ụng email đều nhận được một lượng lớn ư ọi là non-spam –email hợp lệ được người dùng chấp ọi là non-spam –email hợp lệ được người dùng chấp

M t đi u thu n l i là b l c d a trên lu t tĩnh thì d cài đ t.ộc và ều nhận được một lượng lớn ận được một lượng lớn ợc một lượng lớn ộc và ọi là non-spam –email hợp lệ được người dùng chấp ự ận được một lượng lớn % ặt xã hội và hành chính đã có tác dụng , thủ phạm đã bị

2.2.6 Machine Learning (Máy h c ) ọc )

Ý t ưởng: ng :

Áp d ng các phụng email đều nhận được một lượng lớn ương tiện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ng pháp máy h c trong các bài toán phân lo i , đ c bi t là ọi là non-spam –email hợp lệ được người dùng chấp ặt xã hội và hành chính đã có tác dụng , thủ phạm đã bị ện liên lạc có chi phí thấp , nhanh chóng và hiệu quả phân lo i văn b n vào bài toán phân lo i email , các thu t toán máy h c nh Naiyve ả ận được một lượng lớn ọi là non-spam –email hợp lệ được người dùng chấp ư Bayesian , AdaBosst , Support Vector Machine … đã được một lượng lớn ử dụng email đều nhận được một lượng lớn ụng email đều nhận được một lượng lớnc s d ng trong lĩnh v c phân ự

lo i văn b n , nh n d ng , … v i hi u qu cao Ý tả ận được một lượng lớn ện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ả ưở nên quen thuộc và ng là tìm cách xây d ng m t b ự ộc và ộc và phân lo i nh m phân lo i cho m t m u m i b ng cách hu n luy n nh ng m u đã có ằng ngày mỗi người sử dụng email đều nhận được một lượng lớn ộc và ẫn còn đang tiếp ằng ngày mỗi người sử dụng email đều nhận được một lượng lớn ấp , nhanh chóng và hiệu quả ện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ững email mà ta không muốn nhận ấy là email Spam Ngược lại , ẫn còn đang tiếp

s n ẵn một “danh sách

Đ c đi m ặc điểm : ểm :

Phương tiện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ng pháp này có th áp d ng m c Server hay Client ụng email đều nhận được một lượng lớn ở nên quen thuộc và ứa thông tin mà

H n ch là c n ph i có m t kho ng li u (corpus) hu n luy n ban đ u đ cho máy ả ộc và ững email mà ta không muốn nhận ấy là email Spam Ngược lại , ện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ấp , nhanh chóng và hiệu quả ện liên lạc có chi phí thấp , nhanh chóng và hiệu quả

h c , vi c hu n luy n m t nhi u th i gian M t h n ch n a là hi u qu phân lo i phọi là non-spam –email hợp lệ được người dùng chấp ện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ấp , nhanh chóng và hiệu quả ện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ấp , nhanh chóng và hiệu quả ều nhận được một lượng lớn ộc và ững email mà ta không muốn nhận ấy là email Spam Ngược lại , ện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ả ụng email đều nhận được một lượng lớn thu c vào kho ng li u dùng đ hu n luy n ộc và ững email mà ta không muốn nhận ấy là email Spam Ngược lại , ện liên lạc có chi phí thấp , nhanh chóng và hiệu quả ấp , nhanh chóng và hiệu quả ện liên lạc có chi phí thấp , nhanh chóng và hiệu quả

Trang 10

Ch ương 1 : Mở đầu ng 3 : Ph ương 1 : Mở đầu ng pháp phân lo i ại Nạve Bayesian và ng d ng phân ức con người xử lý với spam ục lục

3.1 M t s khái ni m sác xu t cĩ liên quan ột số khái niệm sác xuất cĩ liên quan ố khái niệm sác xuất cĩ liên quan ệm sác xuất cĩ liên quan ất cĩ liên quan

Gieo m t đ ng ti n trên m t m t ph ng : đĩ là m t phép th ộc và ồng (public ều nhận được một lượng lớn ộc và ặt xã hội và hành chính đã cĩ tác dụng , thủ phạm đã bị ( ộc và ử dụng email đều nhận được một lượng lớn

K t qu cĩ th x y ra khi gieo đ ng ti n :”Xu t hi n m t s p” ho c “xuât hi n m t ả ả ồng (public ều nhận được một lượng lớn ấp , nhanh chĩng và hiệu quả ện liên lạc cĩ chi phí thấp , nhanh chĩng và hiệu quả ặt xã hội và hành chính đã cĩ tác dụng , thủ phạm đã bị ấp , nhanh chĩng và hiệu quả ặt xã hội và hành chính đã cĩ tác dụng , thủ phạm đã bị ện liên lạc cĩ chi phí thấp , nhanh chĩng và hiệu quả ặt xã hội và hành chính đã cĩ tác dụng , thủ phạm đã bị

ng a”ử dụng email đều nhận được một lượng lớn

“Xu t hi n m t s p” –Đĩ là m t bi n c ấp , nhanh chĩng và hiệu quả ện liên lạc cĩ chi phí thấp , nhanh chĩng và hiệu quả ặt xã hội và hành chính đã cĩ tác dụng , thủ phạm đã bị ấp , nhanh chĩng và hiệu quả ộc và

“Xu t hiên m t ng a”- Đĩ là m t bi n cấp , nhanh chĩng và hiệu quả ặt xã hội và hành chính đã cĩ tác dụng , thủ phạm đã bị ử dụng email đều nhận được một lượng lớn ộc và

3.1.1.Đinh nghĩa xác su t ất cĩ liên quan

D ng c đi n :ổ thơng tin , Internet đã trở nên quen thuộc và

Xác su t c a bi n c A là m t s khơng âm , ký hi u P(A) , bi u th kh năng x yấp , nhanh chĩng và hiệu quả ộc và ện liên lạc cĩ chi phí thấp , nhanh chĩng và hiệu quả ị về mặt xã hội và hành chính đã cĩ tác dụng , thủ phạm đã bị ả ả

ra bi n c A và được một lượng lớnc xác đ nh nh sauị về mặt xã hội và hành chính đã cĩ tác dụng , thủ phạm đã bị ư

P(A)=m n= S trư ng h p thu n l i cho A/S trợc một lượng lớn ận được một lượng lớn ợc một lượng lớn ư ng h p cĩ th cĩ khi phép th ợc một lượng lớn ử dụng email đều nhận được một lượng lớn

th c hi nự ện liên lạc cĩ chi phí thấp , nhanh chĩng và hiệu quả

(Nh ng kh năng ho c các bi n c s c p – n u chúng x y ra thì suy ra A x y raững email mà ta khơng muốn nhận ấy là email Spam Ngược lại , ả ặt xã hội và hành chính đã cĩ tác dụng , thủ phạm đã bị ơng tiện liên lạc cĩ chi phí thấp , nhanh chĩng và hiệu quả ấp , nhanh chĩng và hiệu quả ả ả – g i là nh ng trọi là non-spam –email hợp lệ được người dùng chấp ững email mà ta khơng muốn nhận ấy là email Spam Ngược lại , ư ng h p thu n l i cho A)ợc một lượng lớn ận được một lượng lớn ợc một lượng lớn

Đ nh nghĩa xác su t theo phị về mặt xã hội và hành chính đã cĩ tác dụng , thủ phạm đã bị ấp , nhanh chĩng và hiệu quả ương tiện liên lạc cĩ chi phí thấp , nhanh chĩng và hiệu quả ng pháp th ng kê :

Làm đi làm l i m t phép th nào đĩ n l n mà cĩ m l n bi n c A xu t hi n thì t ộc và ử dụng email đều nhận được một lượng lớn ấp , nhanh chĩng và hiệu quả ện liên lạc cĩ chi phí thấp , nhanh chĩng và hiệu quả ỉ liên quan đến các email gởi bởi các

s m/n g i là t n su t c a bi n c Aọi là non-spam –email hợp lệ được người dùng chấp ấp , nhanh chĩng và hiệu quả

Ngày đăng: 23/10/2014, 23:20

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w