1. Trang chủ
  2. » Công Nghệ Thông Tin

slike môn xử lý ngôn ngữ tự nhiên nhóm 21 phân loại thư rác

14 384 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 14
Dung lượng 111,57 KB

Nội dung

 Khái niệm về spam Các hướng tiếp cận xử lý với spam  Một số khái niệm xác suất  Phương pháp phân loại Nạve Bayesian  Chọn ngưỡng phân loại email Nội dung báo cáo...  Spam là những

Trang 1

 Giáo viên hướng dẫn : PGS.TS Lê Thanh Hương

 Sinh viên :

◦ Bùi Văn Hiếu

◦ Lê Quang Huy

◦ Ma Đình hành

◦ Đỗ Tùng Linh

◦ Đặng Hoàng Anh

Phân loại thư rác

Trang 2

 Khái niệm về spam

 Các hướng tiếp cận xử lý với spam

 Một số khái niệm xác suất

 Phương pháp phân loại Nạve Bayesian

 Chọn ngưỡng phân loại email

Nội dung báo cáo

Trang 3

 Spam là những email được phát tán một

cách rộng rãi không theo bất cứ một yêu

cầu nào của người nhận với số lượng lớn

(unsolicited bulk email(UBE)), hay những

email quảng cáo được gửi mà không có yêu cầu của người nhận (unsolicited commercial email (UCE))

Khái niệm về spam

Trang 4

 Complaining to Spammers' ISPs

 Mail Blacklists /Whitelists

 Mail volume

 Genetic Algorithms

 Rule-Based

 Machine Learning

Các hướng tiếp cận xử lý với spam

Trang 5

 Xác suất có điều kiện :

P(A/B) = P(AB)/P(B) Hay P(A/B) x P(B) = P(B/A) x P(A) = P(AB)

Xác suất đầy đủ :

Giả sử B1,B2,…,Bn là một nhóm đầy đủ các biến

cố Xét biến cố A sao cho A xảy ra chỉ khi một trong các biến cố B1,B2,…,Bn xảy ra

P(A) = ∑P(Bi) P(A/Bi)

Một số khái niệm xác suất

Trang 6

 Theo Charles Elkan cho X1,X2,…,Xn là các thuộc tính với các giá trị rời rạc được dùng

để dự đốn một lớp riêng biệt C cho một tập mẫu , tập các lớp mà mẫu cĩ thể thuộc về

là C ={c1,c2,…,cm} Cho một mẫu huấn

luyện với giá trị các thuộc tính tương ứng là x1,…, xn , dự đốn mẫu thuộc về lớp c€ C

khi xác suất P(C=c/X1=x1 ^X2=x2 ^ …

^Xn=xn) cĩ giá trị lớn nhất

Phương pháp phân loai Nạve

Bayesian

Trang 7

 Với X1, X2,…,Xn độc lập với nhau :

Phương pháp phân loại Nạve Bayesian

Trang 8

 Tập các lớp mà mỗi email cĩ thể thuộc về

là C = {spam, non-spam}

Phân loại email dựa trên thuật tốn Nạve Bayesian

Trang 9

 Trong phân loại email , có hai loại sai lầm : sai lầm nhận một email là spam mặc dù

thực tế nó là non-spam (false positive) và sai lầm thứ hai là nhận một email là

non-spam mặc dù nó là non-spam (false negative)

Rõ ràng là sai lầm thứ nhất là nghiêm trọng hơn bởi vì người sử dụng có thể chấp nhận một email spam vượt qua bộ lọc nhưng

không chấp nhận một email hợp lệ quan

trọng lại bị bộ lọc chặn lại

Chọn ngưỡng phân loại

email

Trang 10

 Giả sử N ->S và S -> N tương ứng với hai lỗi sai trên đây Sử dụng luật quyết định Bayes dựa trên chi phí , ta giả sử rằng lỗi N->S có chi phí gấp lần lỗi S->N , chúng ta phân

loại một email là spam dựa vào tiêu chuân sau :

Chọn ngưỡng phân loại

email

Trang 11

 Chương trình sử dụng tập mẫu từ nguồn :

 http://

www.aueb.gr/users/ion/data/enron-spam/

 Chương trình có sử dụng 1500 thư mẫu là spam và 3672 thư mẫu là non-spam

 Chạy thử nghiệm với 15 mail là spam và 15 mail là non-spam cho kết quả

Đánh giá hiệu năng chương

trình

Trang 12

Hiệu năng

Đánh giá hiệu năng chương trình

Trang 13

Demo

Trang 14

Cảm ơn vì đã lắng nghe !

Ngày đăng: 23/10/2014, 23:20

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w