Đề tài Phân loại thư rác bằng giải thuật Naive Bayes Đề tài Ứng dụng phương pháp phân loại văn bản Naive Bayes vào việc xây dựng chương trình mail client với khả năng lọc thư rác tự động Giáo viên hướ[.]
TRƯỜNG ĐẠI HỌC THỦY LỢI KHOA CÔNG NGHỆ THÔNG TIN Đề tài : Ứng dụng phương pháp phân loại văn Naive Bayes vào việc xây dựng chương trình mail client với khả lọc thư rác tự động Giáo viên hướng dẫn : PGS.TS Nguyễn Đăng Tộ KS Nguyễn Mạnh Hiển Sinh viên thực : Phạm Thị Thơm Lớp : 43TH NHIỆM VỤ ĐỒ ÁN Nghiên cứu giải thuật phân loại văn Naive Bayes Ứng dụng giải thuật cho phân loại thư rác Sử dụng giao thức truyền nhận mail SMTP(truyền mail), POP3, IMAP4(nhận mail) Xây dựng chương trình mail client hoàn chỉnh với khả lọc thư rác tự động giải thuật phân loại văn Naive Bayes Cài đặt chương trình ngơn ngữ java cho ứng dụng mail client chạy máy khách NỘI DUNG BÁO CÁO Tổng quan thư rác cần thiết phải lọc thư rác Giải thuật phân loại văn Naive Bayes Các giao thức truyền nhận mail ngơn ngữ lập trình java Các tính kết thực thi chương trình Nhận xét hướng phát triển chương trình Kết luận TỔNG QUAN VỀ THƯ RÁC Thư rác(spam) vấn nạn lớn với người sử dụng Email Con số thống kê tăng trưởng spam: Những người sử dụng email nhận khoảng 110 thư không mong muốn hàng tuần Hàng ngày có 50% thư điện tử gửi thư rác Radicati Group dự đoán tỉ lệ spam chiếm 70% tổng số mail vào năm 2007 70 07 GIẢI THUẬT NAIVE BAYES Naive Bayes coi xác suất xuất c ác từ văn độc lập thống kê Cơ sở phương pháp dựa định lí Bayes xác suất Cần tính xác suất để văn rơi vào lớp văn khác Tài liệu cần phân loại gán cho lớp văn có xác suất lớn CƠNG THỨC TÍNH XÁC SUẤT CỦA GIẢI THUẬT BAYES Xác suất để tài liệu di thuộc vào lớp văn ck P (c k ) * P ( d i | c k ) P (c k | d i ) = P(d i ) Xác suất hậu nghiệm cao Lớp di = arg max { P(ck |di )} = arg max {P(ck )*P(di |ck )} 1≤ k ≤ N 1≤ k ≤ N CÔNG THỨC NAIVE BAYES CHO PHÂN LOẠI EMAIL Ý tưởng dựa xác suất xuất từ hay cụm từ lớp mail Xác suất email thư rác: P( x | c1 ) * P (c1 ) P (c1 | x) = P ( x | c1 ) * P(c1 ) + P ( x | c2 ) * P(c2 ) Trong : c1 lớp thư rác, c2 lớp thư hợp lệ x email Cơng thức tính P(x|ci) P(x|ci) = P(w1|ci)*P(w2|ci)*…*P(wn|ci) Trong đó: P(wk|ci) xác suất xuất từ wk lớp văn ci (k=1n; i=1,2) BIỂU DIỄN TỪ KHÓA (ĐẶC TRƯNG) sender subject content content Đếm loại spamword Tập spamword Loại stopword Tách từ đơn Tập từ khóa (đặc trưng) GIỚI THIỆU VỀ CÁC GIAO THỨC CHUYỂN NHẬN MAIL SMTP: Chuyển thư từ client đến server server với POP3: Lấy thư từ server client IMAP4: Lấy thư từ server client để lại server MƠ HÌNH GỬI NHẬN THƯ ĐIỆN TỬ P PO P T SM P T SM User P PO User Gửi nhận thư qua Internet SƠ ĐỒ LỌC THƯ RÁC BẰNG GIẢI THUẬT NAIVE BAYES HAM SPAM Bayes filter Mơ hình lọc thư kết hợp CHƯƠNG TRÌNH MAIL CLIENT Được viết ngơn ngữ Java Giao diện thân thiện dễ sử dụng Các chức – Chức MailClient – Chức lọc thư rác NHỮNG KẾT QUẢ ĐẠT ĐƯỢC Chương trình thực thi máy khách hỗ trợ đầy đủ giao thức mail SMTP, POP3, IMAP4 Thông tin người sử dụng mã hóa đảm bảo tính bảo mật cao Chương trình chạy hệ điều hành khác CÁC CHỨC NĂNG CỦA MỘT MAIL CLIENT Nhận, gửi đọc email Các chức trả lời, chuyển tiếp, chép, xoá, di chuyển,… email Chức tạo sổ địa Chức cấu hình lại sở liệu Chức thay đổi giao diện hệ thống số chức khác CHỨC NĂNG LỌC THƯ RÁC Lọc thư rác giải thuật Naive Bayes Lọc thư rác theo tiêu đề Lọc thư rác theo địa ỨNG DỤNG CHƯƠNG TRÌNH TRONG HỆ THỐNG WRU Hệ thống mail.wru.edu.vn hệ thống mail trường Đại Học Thủy Lợi Giao thức sử dụng để gửi thư : SMTP Giao thức nhận thư : POP3 Máy chủ mailserver : mail.wru.edu.vn Hòm thư thử nghiệm : thompt@.wru.edu.vn GIAO DIỆN CHÍNH CỦA CHƯƠNG TRÌNH