Các thử nghiệm

Một phần của tài liệu luận văn thạc sĩ nghiên cứu phân loại thư rác dựa trên kỹ thuật học máy naive bayes (Trang 46 - 50)

- Thử nghiệm 1: Thƣc hiện với đầu vào huấn luyện là bộ dữ liệu enronl 1027 thƣ (382 thƣ rác, 645 thƣ bình thƣờng). Thực hiện kiểm tra bộ lọc với các bộ dữ liệu từ enron2 đến enron6. Kết quả phân loại thƣ rác cho trên Bảng 3.2.

Bảng 3.2: Kết quả thử nghiệm với bộ huấn luyện enron1

Đầu vào email lọc Kết quả

Thƣ rác phân loại đƣợc Thƣ rác phân loại đúng

bộ dữ liệu từ enronl đến enron5. Kết quả phân loại thƣ rác cho trên Bảng 3.3.

Bảng 3.3: Kết quả thử nghiệm với bộ huấn luyện enron6

Đầu vào email lọc Kết quả

Kết quả tổng hợp độ chính xác của các trƣờng hợp thử nghiệm cho trên Bảng 3.4.

Bảng 3.4: Kết quả tổng hợp độ chính xác của các trƣờng hợp thử nghiệm

Bộ Đầu vào email lọc

huấn Kết quả luyện Enron1 Độ chính xác Enron6 Độ chính xác 3.3. Một số nhận xét

Từ kết quả tổng hợp trên Bảng 3,4 cĩ thể thấy, trung bình độ chính xác khi huấn luyện bằng tập Enron 1 là 93,77% và trung bình độ chính xác khi huấn luyện bằng tập Enron 6 là 95,49%. Rõ ràng, khi sử dụng tập huấn luyện cĩ kích thƣớc lớn hơn (Enron 6), độ chính xác phân loại thƣ rác tăng đáng kể.

Phƣơng pháp Nạve Bayes nhìn chung đơn giản, chi phí tính tốn thấp, nên cĩ tốc độ huấn luyện, lọc email nhanh, thích hợp với việc lọc email trực tuyến. Độ chính xác của phƣơng pháp Nạve Bayes đạt khá cao, trung bình trên 93%, cĩ khả năng ứng dụng hiệu quả trong thực tế.

3.4 Kết luận chƣơng

Chƣơng 3 trình bày các kết quả thử nghiệm mơ hình lọc thƣ rác dựa trên thuật tốn học máy Nạve Bayes. Các kết quả thử nghiệm cho thấy phƣơng pháp Nạve Bayes đơn giản, chi phí tính tốn thấp, cĩ tốc độ huấn luyện, lọc email nhanh, thích hợp với việc lọc email trực tuyến. Mơ hình cần đƣợc thử nghiệm trên nhiều tập email hơn để cĩ đánh giá tổng quát hơn.

KẾT LUẬN

Luận văn nghiên cứu khái quát về thƣ điện tử và vấn đề thƣ rác – một vấn đề gây nhiều phiền tối cho đơng đảo ngƣời dùng Internet. Việc nghiên cứu các phƣơng pháp lọc thƣ rác hiệu quả với độ chính xác cao và tốc độ lọc nhanh là vấn đề cần đƣợc tiếp tục quan tâm.

Kết quả đạt đƣợc của luận văn:

 Nghiên cứu khái quát về email, dịch vụ email, các vấn đề bảo mật và các biện pháp đảm bảo an tồn cho email và dịch vụ email.

 Nghiên cứu khái quát về thƣ rác và vấn đề lọc thƣ rác.

 Xây dựng và thử nghiệm mơ hình lọc thƣ rác dựa trên Nạve Bayes.

Hƣớng phát triển:

 Thử nghiệm mơ hình lọc thƣ rác đã xây dựng trên một số tập dữ liệu thực tế để cĩ đánh giá tồn diện hơn.

DANH MỤC CÁC TÀI LIỆU THAM KHẢO [1]. RFC 821, https://tools.ietf.org/html/rfc821, truy nhập tháng 10/2016. [2]. RFC 5321, https://tools.ietf.org/html/rfc5321, truy nhập tháng 10/2016. [3]. RFC 1939, https://tools.ietf.org/html/rfc1939, truy nhập tháng 10/2016. [4]. RFC 2060, https://tools.ietf.org/html/rfc2060, truy nhập tháng 10/2016. [5]. RFC 822, https://tools.ietf.org/html/rfc822, truy nhập tháng 10/2016. [6]. RFC 4870, https://tools.ietf.org/html/rfc4870, truy nhập tháng 10/2016. [7]. RFC 7208, https://tools.ietf.org/html/rfc7208, truy nhập tháng 10/2016.

[8]. Ayahiko Niimi, Hirofumi Inomata, Masaki Miyamoto and Osamu Konishi,

Evaluation of Bayesian Spam Filter and SVM Spam Filter, School of Systems Information Science, Future University-Hakodate, 2004.

[9].M. Crispin, INTERNET MESSAGE ACCESS PROTOCOL - VERSION4rev1, University of Washington, December 1996.

[10]. Jonathan B. Postel, SIMPLE MAIL TRANSFER PROTOCOL, Information Sciences Institute, University of Southern California, August 1982.

[11]. J. Myers, Carnegie Mellon, M. Rose, Post Office Protocol - Version 3, Dover Beach Consulting, Inc., May 1996.

[12]. J. Han and M. Kamber, Data mining: concepts and techniques. San Francisco: Morgan Kaufmann Publishers, 2006.

[13]. Peter Norvig, How to Write a Spelling Corrector, November 2015,

[14]. M.F. Porter, 1980, An algorithm for suffix stripping, Program, 14(3) pp 130−137.

Một phần của tài liệu luận văn thạc sĩ nghiên cứu phân loại thư rác dựa trên kỹ thuật học máy naive bayes (Trang 46 - 50)

Tải bản đầy đủ (DOCX)

(50 trang)
w