Một số giải pháp lọc nội dung cho hệ thống thư điện tử smtp và ứng dụng

81 4 0
Một số giải pháp lọc nội dung cho hệ thống thư điện tử smtp và ứng dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

1 MỤC LỤC DANH MỤC CÁC TỪ VIẾT TẮT……………………………………………… .iii DANH MỤC HÌNH VẼ ………………………………………………………… v LỜI MỞ ĐẦU…………………………………………………………………… …6 CHƯƠNG 1: TỔNG QUAN VỀ THƯ ĐIỆN TỬ ……………………………… 1.1 Khái niệm thư điện tử ………………………………………………………… 1.1.1 Thư điện tử gì?, …………………… …………………………… 1.1.2 Kiến trúc hoạt động hệ thống thư điện tử……………………… 1.2 Giới thiệu số giao thức sử dụng để gửi nhận thư điện tử ………… 12 1.2.1 Giao thức gửi thư SMTP (Simple Mail Transfer Protocol)………… 12 1.2.2 Giao thức POP (Post Office Protocol)……………………………… 17 1.2.3 Giao thức IMAP (Internet Message Access Protocol)……………… 20 CHƯƠNG 2: THƯ RÁC VÀ CÁC PHƯƠNG PHÁP LỌC THƯ RÁC …… 24 2.1 Thư rác ……………………………………………………………………… 24 2.1.1 Khái niệm thư điện tử rác ………………………………………… 24 2.1.2 Các đặc điểm nhận dạng thư điện tử rác …………………………… 24 2.1.3 Phân loại thư điện tử rác …………………………………………… 26 2.2 Các phương pháp lọc thư rác ……………………………………………… 29 2.2.1 Kỹ thuật chứng thực thư điện tử .30 2.2.2 Domain Keys (DK)………………………………………………… …33 2.2.3 Phương pháp lọc theo từ khóa……………………………………… 35 2.2.4 Sử dụng DNS Blacklist…………………………………………… … 36 2.2.5 Kiểm tra người nhận………………………………………………… 38 2.2.6 Chặn IP……………………………………………………………… 38 2.3 Kỹ thuật lọc theo nội dung…………………………………………………… 38 2.3.1 Sử dụng lọc Bayesian………………………………………….… 38 2.3.2 Sử dụng lọc theo thuật tốn Nạve Bayes ……………………………… 44 2.3.3 Lọc sử dụng phương pháp Heuristic……………………………… 49 Một số giải pháp lọc nội dung cho hệ thống thư điện tử SMTP ứng dụng CHƯƠNG 3: XÂY DỰNG BỘ LỌC THƯ TỰ ĐỘNG DỰA TRÊN KỸ THUẬT NAÏVE BAYES ………………………………… 56 3.1 Phân tích câu…………………………………………………………… 57 3.2 Xây dựng lọc thư điện tử tự động………………………………… 58 3.2.1 Tiến trình thu thập nội dung…………………………………… .60 3.2.2 Tiền xử lý……………………………………… ……………… 61 3.2.3 Phân tích nội dung thư………………………………………… …62 3.2.3.1 Thư tiếng Anh………………………………………… 62 3.2.3.2 Thư tiếng Việt………………………….……………… 62 3.2.4 Phân tích từ đơn………………………………………………… 63 3.2.5 Phân tích từ ghép ………………………………………………… 64 3.3 Quy trình lọc thư rác tiếng Việt……………………………………… 66 3.4 Cài đặt thực nghiệm ………………………………………………… 68 3.5 Kết thực nghiệm ………………………………………………… 71 3.5.1 Danh sách từ đơn ………………………………………………… 71 3.5.2 Danh sách từ ghép ……………………………………………… 73 3.5.3 Danh sách từ đơn từ ghép…………………………………… 75 KẾT LUẬN ………………………………………………………………… 78 TÀI LIỆU THAM KHẢO ……………………………………………………………… .79 Một số giải pháp lọc nội dung cho hệ thống thư điện tử SMTP ứng dụng DANH MỤC CÁC TỪ VIẾT TẮT TT TỪ VIẾT TẮT SMTP POP TỪ ĐẦY ĐỦ TIẾNG ANH NGHĨA TIẾNG VIỆT Simple Mail Transfer Giao thức truyền thư Protocol điện tử Post Office Protocol Giao thức nhận thư điện tử IMAP SPF Internet Message Access Giao thức truy cập Protocol thư điện tử Sender Policy Framework Giao thức chứng thực thư điện tử DK DomainKeys Giao thức chứng thực xác thực tên miền người gửi MTA Message Transfer Agent) Tác nhân truyền tải thư điện tử MUA Mail User Agent Tác nhân người dùng điện tử DNSBL DNSBL (DNS-based Blocklist) Danh sách đen IP Internet Protocol Giao thức liên mạng Một số giải pháp lọc nội dung cho hệ thống thư điện tử SMTP ứng dụng User Agent Tác nhân người dùng 10 UA 11 Spammer Người gửi thư rác 12 Client Máy trạm 13 Port Cổng 14 Server Máy chủ 15 Header Tiêu đề 16 routers Bộ định tuyến 17 Address Kiểm tra địa thư Debugging 18 Mail Chuyển thư Forwarding 19 Mail Cổng thư Gatewaying 20 save lưu trữ 21 delete Xóa 22 reply Trả lời Một số giải pháp lọc nội dung cho hệ thống thư điện tử SMTP ứng dụng DANH MỤC HÌNH VẼ Hình 1.1: Mơ hình trao đổi thư điện tử…………………………………………………… Hình 1.2 : Mơ hình trạm phục vụ thư (mail Server)……………………… 11 Hình 1.3: Mơ hình sử dụng SMTP (Nguồn: RFC 5321, Simple Mail Transfer Protocol)………………………………………………………………………………… 12 Hình 1.4: Mơ hình hoạt động giao thức POP3 ……………………………………….18 Hình 2.1: Việt Nam lọt top 10 quốc gia gửi nhiều thư điện tử rác giới ……….27 Hình 2.2: Top 10 quốc gia có tỷ lệ thư rác/đầu người cao - Ảnh: ST……………… 28 Hình 2.3: hoạt động SPF động……………………………………………………… 31 Hình 2.4: Hiệu phương pháp SPF động……………………………………………….32 Hình 2.5: Khung ID người gửi thi hành MTA ………………… 34 Hình 2.6: DNS Blacklist………………………………………………………………… 37 Hình 2.7: Chặn IP………………………………………………………… .38 Hình 2.8: Hoạt động lọc thư rác Bayesian………………………… 40 Hình 2.9: Mơ tả bước xây dựng phân lớp…………………………………………… 47 Bảng 2.10: Các phần mềm chống thư rác có quyền………………………………… 52 Bảng 2.11: Các phần mềm chống thư rác mã nguồn mở…………………………………… 52 Hình 3.1: Mơ hình tổng quát……………………………………………………………….60 Hình 3.2: Tiến trình học từ……………………………………………………………… 61 Hình 3.3: Quy trình tách từ với thư tiếng Việt…………………………………………….63 Bảng 3.4: Thống kê độ dài từ từ điển………………………………………….65 Bảng 3.5: Ví dụ minh họa phân tích từ đơn……………………………………………… 68 Hình 3.6 : Giao diện xử lý văn VLSP ……………………………………………… 69 Hình 3.7: Nạp liệu từ đơn với Nạve Bayes ……………………………………………71 Hình 3.8: Phân lớp từ đơn với Nạve Bayes………………………………………… .71 Hình 3.9: Nạp liệu từ ghép với Nạve Bayes………………………………………… 73 Hình 3.10: Phân lớp từ ghép với Nạve Bayes…………………………………………… 73 Hình 3.11: Nạp liệu từ đơn từ ghép với Nạve Bayes……………………………….75 Hình 3.12: Phân lớp từ đơn từ ghép với Naïve Bayes………………………………….75 Bảng 3.13: Kết phân loại thư tiếng Việt………………………………………………77 Một số giải pháp lọc nội dung cho hệ thống thư điện tử SMTP ứng dụng LỜI MỞ ĐẦU Truyền thơng qua internet nói chung giao dịch trực tuyến thư điện tử nói riêng trở thành nhu cầu thiếu người thời đại Công nghệ thông tin Mỗi người sử dụng internet tạo cho nhiều tài khoản email để liên hệ với gia đình, bạn bè cơng việc Chính điều mà kẻ phát tán thư rác (spammer) tìm đủ cách để thu thập địa email người dùng, để từ sử dụng thơng tin vào mục đích gửi thư quảng cáo, bán danh sách địa email người dùng cho doanh nghiệp khác để thu lợi khoản tiền lớn Spams ngày nhiều chúng không ngừng tăng theo cấp “số nhân“ Spams, ngồi thơng điệp quảng cáo, tiếp thị thơng thường spammers, số hackers cịn lợi dụng việc phát tán thư rác để công vào email Server, lợi dụng thư rác để “lừa đảo” trực tuyến hay cài đặt virus, Trojan vào máy tính người dùng Sự xuất gia tăng thư rác khơng gây khó chịu làm thời gian người nhận mà ảnh hưởng tới đường truyền Internet làm chậm tốc độ xử lý máy chủ thư điện tử, gây thiệt hại lớn kinh tế Trong phạm vi đề tài, hướng dẫn PGS.TS Nguyễn Văn Tam, học viên chọn đề tài “Một số giải pháp lọc nội dung cho hệ thống thư điện tử SMTP ứng dụng” nhằm đề xuất giải pháp xây dựng lọc nội dung tự động phương pháp tách từ đơn, từ ghép áp dụng thuật tốn Nạve bayes để phân loại thư hợp lệ thư rác Một số giải pháp lọc nội dung cho hệ thống thư điện tử SMTP ứng dụng CHƯƠNG TỔNG QUAN VỀ THƯ ĐIỆN TỬ 1.1 Khái niệm thư điện tử 1.1.1 Thư điện tử gì? Thư điện tử thơng điệp gửi từ máy tính đến máy tính khác mạng máy tính mang nội dung cần thiết từ người gửi đến người nhận Do thư điện tử gửi qua lại mạng sử dụng tín hiệu điện tốc độ truyền nhanh Ngồi người sử dụng gửi nhận thư riêng điện giao dịch với file đính kèm hình ảnh, cơng văn tài liệu chí nhạc hay chương trình phần mềm… Thư điện tử gọi tắt E-mail (Electronic Mail) E-Mail có nhiều cấu trúc khác tùy thuộc vào hệ thống máy vi tính người sử dụng Mặc dù khác cấu trúc tất có chung mục đích gửi nhận thư điện tử từ nơi đến nơi khác nhanh chóng Ngày nhờ phát triển mạnh mẽ Internet, người ta gửi điện thư tới quốc gia toàn giới Với lợi ích nên thư điện tử trở thành nhu cầu cần phải có người sử dụng máy vi tính 1.1.2 Kiến trúc hoạt động hệ thống thư điện tử Muốn gửi thư điện tử người gửi cần phải có account máy chủ thư Một máy chủ có nhiều account Mỗi account mang tên khác (userid) Mỗi account có hộp thư riêng (mailbox) cho account Thơng thường tên hộp thư giống tên account Ngoài máy vi tính phải nối trực tiếp gián tiếp với hệ thống Internet muốn gửi nhận thư điện tử toàn cầu Người sử dụng máy vi tính nhà gửi nhận thư điện tử cách kết nối máy vi tính họ Một số giải pháp lọc nội dung cho hệ thống thư điện tử SMTP ứng dụng với máy vi tính khác máy modem Có số nơi cấp phát account thư điện tử miễn phí cho máy vi tính nhà dùng modem để kết nối với máy vi tính để chuyển nhận thư điện tử hotmail.com yahoo.com v.v  Đường thư Mỗi thư truyền thống phải tới bưu cục khác đường đến với người dùng Tương tự thư điện tử chuyển từ máy máy chủ thư điện tử (mail server) tới máy chủ tư điện tử khác internet Khi thư chuyển đến đích chứa hộp thư điện tử máy chủ thư điện tử nhận người nhận Tồn q trình xử lý xảy vài phút, cho phép nhanh chóng liên lạc với người toàn giới cánh nhanh chóng thời điểm dù ngày hay đêm  Gửi, nhận chuyển thư Để nhận thư điện tử bạn cần phải có tài khoản (account) thư điện tử Nghĩa bạn phải có địa để nhận thư Một thuận lợi với thư thơng thường bạn nhận thư điện tử từ đâu Bạn cần kết nối vào Server thư điện tử để lấy thư máy tính Để gửi thư bạn cần phải có kết nối vào internet truy nhập vào máy chủ thư điện tử để chuyển thư Thủ tục tiêu chuẩn sử dụng để gửi thư SMTP (Simple Mail Transfer Protocol) Nó kết hợp với thủ tục POP (Post Office Protocol) IMAP để lấy thư Một số giải pháp lọc nội dung cho hệ thống thư điện tử SMTP ứng dụng Hình 1.1: Mơ hình trao đổi thư điện tử Trên thực tế có nhiều hệ thống vi tính khác hệ thống lại có cấu trúc chuyển nhận thư điện tử khác Vì có khác biệt nên việc chuyển nhận thư điện tử hai hệ thống khác khó khăn bất tiện Do vậy, người ta đặt nghi thức chung cho thư điện tử Có nghĩa hệ thống máy vi tính đồng ý với nghi thức chung gọi Simple Mail Transfer Protocol viết tắt SMTP (Nghi Thức Đơn Giản Chuyển Vận Thư Từ) Nhờ vào SMTP mà chuyển vận thư từ điện tử Internet trở thành dễ dàng nhanh chóng cho tất người sử dụng máy vi tính cho dù họ có sử dụng hệ thống máy vi tính khác Khi gửi thư điện tử máy tính người sử dụng cần phải định hướng đến máy chủ SMTP Máy chủ tìm kiếm địa thư điện tử (tương tự địa điền phong bì) sau chuyển tới máy chủ người nhận chứa lấy Người gửi gửi thư điện tử đến giới mà có địa thư điện tử Một số giải pháp lọc nội dung cho hệ thống thư điện tử SMTP ứng dụng 10  Chuyển thư (Send Mail) Sau người sử dụng máy vi tính dùng chương trình thư để viết thư ghi rõ địa người nhận máy tính chuyển thư điện đến hộp thư người nhận SMTP sử dụng nghi thức TCP (TCP protocol) để chuyển vận thư Vì nghi thức TCP hữu hiệu có phần kiểm sốt thất lạc mát việc gửi thư điện tử có hiệu suất cao Khi nhận mệnh lệnh gửi người sử dụng, máy vi tính dùng nghi thức TCP liên lạc với máy vi tính người nhận để chuyển thư Đơi máy vi tính người nhận bị tắt điện đường dây kết nối từ máy gửi tới máy nhận tạm thời bị hư hỏng tạm thời nơi (tranmission wire failure), là máy chuyển tiếp (routers) tuyến đường liên lạc hai máy tạm thời bị hư (out of order) máy gửi khơng cách liên lạc với máy nhận Gặp trường hợp máy gửi tạm thời giữ thư khu vực dự trữ tạm thời Máy gửi sau tìm cách liên lạc với máy nhận để chuyển thư Những việc xảy máy vi tính người sử dụng khơng hay biết Nếu khoảng thời gian mà máy vi tính nơi gửi khơng liên lạc với máy nhận máy gửi gửi thơng báo cho người gửi nói việc vận chuyển thư điện tử không thành cơng • Nhận Thư (Receive Mail) Nếu máy gửi liên lạc với máy nhận việc chuyển thư tiến hành Trước nhận thư máy nhận kiểm sốt tên người nhận có hộp thư máy nhận hay không Nếu tên người nhận thư có hộp thư máy nhận thư nhận lấy thư bỏ vào hộp thư người nhận Trường hợp máy nhận kiểm sốt thấy tên người nhận khơng có hộp thư máy nhận khước từ việc nhận thư Trong trường hợp khước từ Một số giải pháp lọc nội dung cho hệ thống thư điện tử SMTP ứng dụng 67 - Lớp thư rác ký hiệu là: spam - Lớp thư bình thường ký hiệu là: ham -Xác suất để thư điện tử thư rác: P(spam | content) Word1, Word2, Word3, Wordm từ đặc trưng xuất content P( spam | content )  P(content | spam) * P( spam) Total Trong total xác định Total = P(content|spam)*P(spam) + P (content|ham)* P(ham) Với P(content|ham) P(content|spam) tính P(content|ham) =  P(word P(content|spam) = i | ham)  P( word | spam) i Cuối cùng, P(spam) P(ham) tính cơng thức P( spam)  TotalSpam TotalMessage P(ham)  TotalHam TotalMessage Trả kết quả: Trong q trình phân lớp thư, ngồi lớp thư rác thư hợp lệ, xác suất spam > 0.7 phân vào lớp thư spam, xác suất spam < 0.3 phân vào thư bình thường, cịn trường hợp ngược lại đưa vào phân lớp thứ ba: lớp thư trung tín Những thư thuộc lớp chờ người duyệt thư định phân loại thư hợp lệ hay thư rác theo giá trị sai số x Xác suất xác định thư rác thay đổi để làm tăng độ tin cậy cho trình lọc thư spam P(spam) > P(ham) + x => thư rác P(spam) thư bình thường Một số giải pháp lọc nội dung cho hệ thống thư điện tử SMTP ứng dụng 68 Dưới ví dụ áp dụng cơng thức tính tỉ lệ spam tỉ lệ ham theo công thức Bayes Tần số xuất Từ đơn Ham Spam Total All messages 400 600 1000 With “bán” 300 100 400 With “mua” 10 90 100 Bảng 3.5: Ví dụ minh họa phân tích từ đơn Áp dụng cơng thức tính P( spam | token)  P( spam) * P(token | spam) P(token) Thu giá trị sau P(spam|“bán”) = P(600/1000) * P(300/600) / P(400/1000) = 0.6*0.5/0.4=0.75=75% P(ham|“bán”) = P(400/1000) * P(100/400)/P(400/1000) = 0.4*0.25/0.4=0.25=25% P(spam|“mua”) = P(600/1000) * P(90/600) / P(100/1000) = 0.6*0.15/0.1=0.9=90% P(ham|“mua”) = P(400/1000) *P(10/400) /P(100/1000) = 0.4*0.025/0.1=0.1=10% 3.4 Cài đặt thực nghiệm Việc xử lý ngữ nghĩa tiếng Việt phức tạp làm nhiều thời gian, dựa vào bảng thống kê 3.4 cho thấy từ ghép tiếng Việt chủ yếu loại từ có độ dài tiếng, việc tách từ học viên thực cho từ ghép có độ dài tối đa tiếng Quá trình thử nghiệm lọc nội dung thư tiếng Việt, học viên lấy internet thư tiếng Việt gồm 50 thư hợp lệ 50 thư rác tham gia q trình lọc thư cách sử dụng cơng cụ VLSP (Vietnamese Language and Speech Một số giải pháp lọc nội dung cho hệ thống thư điện tử SMTP ứng dụng 69 Processing) xử lý văn để phân tích câu gồm tách thư hợp lệ thư rác thành câu đơn, từ đơn, từ ghép Hình 3.6: Giao diện xử lý văn VLSP Sau tập hợp thành danh sách từ đơn, từ ghép cho huấn luyện công cụ Weka với danh sách từ đơn, từ ghép, từ đơn từ ghép Công cụ Weka huấn luyện đếm số lần xuất từ danh sách từ đơn, từ ghép, từ đơn từ ghép cho kết xác suất phân loại thư spam, thư hợp lệ dựa công thức naive Bayes Thực cài đặt - Công cụ VLSP Một số giải pháp lọc nội dung cho hệ thống thư điện tử SMTP ứng dụng 70 http://vlsp.vietlp.org:8080/demo/?page=seg_pos_chunk - Công cụ Weka 3.6.9 http://www.cs.waikato.ac.nz/ml/weka/ - Java JRE 1.7.0 Cơ sở liệu sử dụng: - 50 thư hợp lệ 50 thư rác thu thập internet Sử dụng công cụ VLSP để tách câu đơn, từ đơn, từ ghép Sau có từ đơn, từ ghép thư hợp lệ, thư rác tạo danh sách từ đơn, danh sách từ ghép, danh sách từ đơn ghép sau: + Danh sách từ đơn: tạo file danhsach_tu_don, danh sách gồm 424 từ thuộc tính + Danh sách từ ghép: tạo file danhsach_tu_ghep, danh sách gồm 304 từ thuộc tính + Danh sách từ đơn ghép: tạo file danhsach_tudon_ghep, danh sách gồm 735 từ đơn ghép, gồm thuộc tính sau khởi động Weka, chọn Exploer, chọn Preproces, chọn Open để mở file liệu tạo Một số giải pháp lọc nội dung cho hệ thống thư điện tử SMTP ứng dụng 71 Hình 3.7: Nạp liệu từ đơn với Naïve Bayes 3.5 Kết thực nghiệm 3.5.1 Danh sách từ đơn Chạy huấn luyện danh sách từ đơn Naïve bayes thu kết sau: Hình 3.8: Phân lớp từ đơn với Naïve Bayes Instances: 604 Attributes: Danh sach tu don Lop Test mode:10-fold cross-validation Một số giải pháp lọc nội dung cho hệ thống thư điện tử SMTP ứng dụng 72 === Classifier model (full training set) === Naive Bayes Classifier Class spam ham (0.5) (0.5) Time taken to build model: seconds Attribute === Stratified cross-validation === === Summary === Correctly Classified Instances 353 83.2547 % Incorrectly Classified Instances 71 16.7453 % Kappa statistic 0.6646 Mean absolute error 0.3561 Root mean squared error 0.3813 Relative absolute error 71.2189 % Root relative squared error 76.2649 % Total Number of Instances 424 Ignored Class Unknown Instances 180 === Detailed Accuracy By Class === TP Rate 0.995 0.668 Weighted Avg 0.833 FP Rate Precision 0.332 0.752 0.005 0.993 0.169 0.872 Recall 0.995 0.668 0.833 F-Measure 0.857 0.799 0.828 ROC Area Class 0.764 spam 0.917 ham 0.84 === Confusion Matrix === a b < classified as 212 | a = spam 70 141 | b = ham Giải thích: Kết : Attribute phân lớp Lớp spam (0.5), ham (0.5) tần số tổng tập huấn luyện Kết 2: Weka phân lớp liệu vào lớp: spam ham Trong mục classified as (phân loại) có hai lớp ma trận 2×2 Weka thay a spam b ham Các hàng thể từ thực thuộc lớp Số lượng trường hợp phân loại xác tổng đường chéo ma trận Như Recall (độ trung thực) - spam = 211/212 = 0.99% - ham = 141/211 = 0.66 % Một số giải pháp lọc nội dung cho hệ thống thư điện tử SMTP ứng dụng 73 3.5.2 Danh sách từ ghép Chạy huấn luyện danh sách từ ghép Naïve bayes thu kết sau: Hình 3.9: Nạp liệu từ ghép với Nạve Bayes Hình 3.10: Phân lớp từ ghép với Naïve Bayes Một số giải pháp lọc nội dung cho hệ thống thư điện tử SMTP ứng dụng 74 Instances: 604 Attributes: Danh sach tu ghep Classe Test mode:10-fold cross-validation === Classifier model (full training set) === Naive Bayes Classifier Attribute Class ham spam (0.46) (0.54) Time taken to build model: seconds === Stratified cross-validation === === Summary === Correctly Classified Instances 225 74.0132 % Incorrectly Classified Instances 79 25.9868 % Kappa statistic 0.4532 Mean absolute error 0.4278 Root mean squared error 0.4415 Relative absolute error 86.1863 % Root relative squared error 88.6136 % Total Number of Instances 304 Ignored Class Unknown Instances 300 === Detailed Accuracy By Class === TP Rate 0.446 0.988 Weighted Avg 0.74 FP Rate Precision 0.012 0.969 0.554 0.679 0.306 0.812 Recall 0.446 0.988 0.74 F-Measure 0.611 0.805 0.716 ROC Area Class 0.907 ham 0.462 spam 0.665 === Confusion Matrix === a b < classified as 62 77 | a = ham 163 | b = spam Giải thích: Kết : Attribute phân lớp Lớp spam (0.54), ham (0.46) tần số tổng tập huấn luyện Kết 2: Weka phân lớp liệu vào lớp: spam ham Trong mục classified as (phân loại) có hai lớp ma trận 2×2 Weka thay a ham b spam Các hàng thể từ thực thuộc lớp Số lượng trường hợp phân loại xác tổng đường chéo ma trận Một số giải pháp lọc nội dung cho hệ thống thư điện tử SMTP ứng dụng 75 Như Recall (độ trung thực) - spam = 163/165 = 0.98% - ham = 62/139 = 0.44 % 3.5.3 Danh sách từ đơn từ ghép Chạy huấn luyện danh sách từ đơn từ ghép Naïve bayes thu kết sau: Hình 3.11: Nạp liệu từ đơn từ ghép với Nạve Bayes Hình 3.12: Phân lớp từ đơn từ ghép với Naïve Bayes Một số giải pháp lọc nội dung cho hệ thống thư điện tử SMTP ứng dụng 76 Instances : 4627 Attributes : danh sach tu don_tu ghep Phan loai Test mode:10-fold cross-validation === Classifier model (full training set) === Naïve Bayes Classifier Class spam ham (0.51) (0.49) Time taken to build model: seconds Attribute === Stratified cross-validation === === Summary === Correctly Classified Instances 576 78.3673 % Incorrectly Classified Instances 159 21.6327 % Kappa statistic 0.5619 Mean absolute error 0.3886 Root mean squared error 0.4095 Relative absolute error 77.7835 % Root relative squared error 81.9227 % Total Number of Instances 735 Ignored Class Unknown Instances 3892 === Detailed Accuracy By Class === TP Rate 0.987 0.569 Weighted Avg 0.784 FP Rate 0.431 0.013 0.228 Precision Recall F-Measure ROC Area Class 0.708 0.987 0.824 0.47 spam 0.976 0.569 0.719 0.97 ham 0.838 0.784 0.773 0.713 === Confusion Matrix === a b  classified as 373 | a = spam 154 203 | b = ham Giải thích: Kết : Attribute phân lớp Lớp spam (0.51), ham (0.49) tần số tổng tập huấn luyện Kết 2: Weka phân lớp liệu vào lớp: spam ham Trong mục classified as (phân loại) có hai lớp ma trận 2×2 Weka thay a spam b ham Các hàng thể từ thực thuộc lớp Số lượng trường hợp phân loại xác tổng đường chéo ma trận Như Recall (độ trung thực) Một số giải pháp lọc nội dung cho hệ thống thư điện tử SMTP ứng dụng 77 - spam = 373/379 = 0.98% - ham = 203/356 = 0.56 % Như kết phân loại thư gồm 50 thư rác 50 thư hợp lệ sau tiền xử lý công cụ tách từ thực chạy công cụ Weka, kết thể bảng thống kê Thử nghiệm Kết phân loại Độ xác Spam Ham Spam Ham Từ đơn 211/212 141/211 99% 66% Từ ghép 163/165 62/139 98% 44% Từ đơn từ ghép 373/379 203/356 98% 56% Bảng 3.13: Kết phân loại thư tiếng Việt Dựa kết thực nghiệm, cho thấy việc lọc thư spam tiếng Việt theo từ đơn cho kết cao (99%) so với kết lọc từ ghép, từ đơn từ ghép Chương luận văn trình bày giải pháp cho lọc thư áp dụng kỹ thuật Nạve bayes, chủ yếu cho tiếng Việt khơng dấu với phương pháp tách từ đơn, ghép thư Sau tập hợp thành danh sách từ đơn, từ ghép, từ đơn từ ghép, áp dụng thuật tốn Nạve Bayes cơng cụ Weka dựa danh sách từ đơn lẫn từ ghép phân tích để xác định tần số xuất từ, qua phân lớp thư thuộc lớp thư hợp lệ thư rác Trên học viên thử nghiệm 50 thư hợp lệ 50 thư rác, độ xác phân loại đạt kết khả quan thể hướng tiếp cận luận văn Một số giải pháp lọc nội dung cho hệ thống thư điện tử SMTP ứng dụng 78 KẾT LUẬN Hiện thư rác ngày phát triển gây thiệt hại lớn kinh tế gây nhiều khó chịu cho người dùng Số lượng thư rác ngày tăng, nội dung cấu trúc chúng thay đổi cần có hệ thống lọc tốt để loại bỏ số lượng thư rác lớn giảm lo lắng phiền toái cho người sử dụng email Luận văn trình bày gồm ba chương nêu lên khái niệm thư điện tử, lợi ích sử dụng thư điện tử, kiến trúc thư điện tử, giao thức gửi nhận thư điện tử Luận văn nhấn mạnh giải pháp lọc thư spam phần mềm sử dụng phương pháp thống kê mạng bayesian, Heuristic, Naive Bayes đưa ý tưởng lọc thư dựa phương pháp phân loại văn tách từ đơn từ ghép, sau dựa vào tần suất xuất từ danh sách từ đơn, từ ghép, áp dụng thuật toán Naive Bayes để phân loại thư hợp lệ thư không hợp lệ đem lại hiệu cao Một số giải pháp lọc nội dung cho hệ thống thư điện tử SMTP ứng dụng 79 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Nguyễn Ngọc Cương, 2012 An ninh mạng tác chiến tin học, NXB Công an nhân dân [2] Vũ Đình Cường, Phương Lan,2009 Thư rác phương pháp phát tán cách phòng chống, NXB Lao động xã hội [3] Từ Minh Phương, Phạm Văn Cường, Nguyễn Duy Phương, Hoàng Trọng Huy (2006) Báo cáo đề tài “Nghiên cứu xây dựng hệ thống lọc thư rác có khả lọc thư rác tiếng Anh tiếng Việt” Học viện Bưu Viễn thơng, 2006 [4] Đinh Thị Phương Thu, Hoàng Vĩnh Sơn, Huỳnh Quyết Thắng, Phương án xây dựng tập mẫu cho toán phân lớp văn tiếng Việt, nguyên lý, giải thuật, thử nghiệm đánh giá kết quả, Tạp chí Khoa học cơng nghệ, 2005 Tiếng Anh [5] Aha, D W., Kibler, D and Albert, M.K.: 1991, Instance-based learning algorithms, Machine Learning [6] Dinh Dien, “Tu Tieng Viet” , Proceeding of ICMLC2002 Conference, Beijing, November 2002 [7] H David D Lewis, Ph.D.Ornarose, Inc & David D Lewis Consulting, Naïve Bayes Text Classification for Spam Filtering , 2007 [8] Ion Androutsopoulos, John Koutsias V.Chandrinos and Contstantine D.Spyropoulos “An Experimental Comparision of Naïve Bayes and keyword-based anti-spam Filtering with persional email message” Một số giải pháp lọc nội dung cho hệ thống thư điện tử SMTP ứng dụng 80 [9] Johan Hovold () Naïve Bayes Spam filtering using Word-Position-Based attributes Department of Computer Science Lund University [10] Mehran Sahami, Susan Dumais, David Heckerman and Eric Horvitz (1998) A Bayesian Approach toFiltering Junk E-Mail Proceedings of AAAI-98 Workshop on Learning for Text Categorization [11] Mehran Sahami, Susan Dumais, David Heckerman, Eric Horvitz () “A bayesian approach to filtering junk email (mehran sahami, susan dumais, david heckerman, eric horvitz)” [12] S J Delany and P Cunningham, ‘An analysis of case-based editing in a spam filtering system’, in 7th European Conference on Case-Based Reasoning (ECCBR 2004), eds., P Funk and P Gonz´alez-Calero, volume 3155 of LNAI, pp 128–141 Springer, (2004) Website [13] Quang T Le,2003, từ điển VietFun, http://www.dict.vietfun.com, 2003 [14] Mladen Adamovic,2006, About Online-Utility.org,http://www.onlineutility.org/text/analyzer.jsp,december 2009 [15] Gary Robinson and Tim Peters, 2002, SpamBayes,2002,SpamBayes, http://spambayes.sourceforge.net/, august 2002 [16] Hồ Tú Bảo,(), Xử lý văn tiếng Việt, http://vlsp.vietlp.org:8080/demo/?page=seg_pos_chunk [17] The University of Waikato, NewZealand, 1997, Weka, http://www.cs.waikato.ac.nz/ml/weka/ , 2013 Một số giải pháp lọc nội dung cho hệ thống thư điện tử SMTP ứng dụng ... phân loại thư hợp lệ thư rác Một số giải pháp lọc nội dung cho hệ thống thư điện tử SMTP ứng dụng CHƯƠNG TỔNG QUAN VỀ THƯ ĐIỆN TỬ 1.1 Khái niệm thư điện tử 1.1.1 Thư điện tử gì? Thư điện tử thông... vào nội dung thư điện tử Một số giải pháp lọc nội dung cho hệ thống thư điện tử SMTP ứng dụng 25 - Để ý trường To tiêu đề (header) thư điện tử, khơng thấy tên địa thư điện tử, thư điện tử giả... sử dụng lệnh POP3 để thực chức sau: - Nhận xóa thư điện tử máy chủ thư điện tử Một số giải pháp lọc nội dung cho hệ thống thư điện tử SMTP ứng dụng 18 - Nhận khơng xóa thư điện tử máy chủ thư điện

Ngày đăng: 15/03/2023, 14:30

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan