Kết quả so khớp với giá trị tham số r thay đổi- 123docz.net

r DR (%) FPR (%) Acc (%) Thời gian (s)

7 75.50 29.62 74.82 24.7

8 82.34 42.52 79.15 25.59

9 87.77 54.41 82.15 24.95

10 91.81 60.51 84.84 26.57

Việc lựa chọn 9/10 file email HAM để huấn luyện và 1 file email HAM cịn lại đưa vào quá trình test cùng với file các email SPAM được lựa chọn ngẫu nhiên, nên kết quả ở các lần chạy sẽ cĩ sự khác nhau, tuy nhiên cả 3 số liệu DR, FPR, Acc và thời gian chạy đều khơng chênh lệch quá lớn.

Với kết quả trên ta cĩ nhận xét: - Về khả năng phát hiện:

Với r càng lớn thì kích thước bộ dị (bảng A) càng lớn, đồng nghĩa với việc mức độ kiểm tra, so khớp sẽ chặt chẽ hơn. Do vậy, r càng lớn xác suất email HAM bị phân loại thành email SPAM càng lớn. Và ngược lại, r càng

nhỏ thì mức độ kiểm tra sẽ ít chặt chẽ hơn, dẫn đến nhiều email SPAM được phân loại là email HAM.

Những email HAM mang tính quan trọng hơn rất nhiều, do vậy khi phân loại email HAM và email SPAM, cần lựa chọn giá trị của r hợp lí để các email HAM ít bị phân loại thành email SPAM. Làm thế nào để tìm ra giá trị r hợp lý cũng là một hướng phát triển tốt.

- Về thời gian chạy chương trình: Thời gian chạy chương trình tùy thuộc vào kích thước của bảng băm là chủ yếu, với giá trị r lớn thì bảng băm cĩ kích thước lớn hơn nên việc tạo bảng cũng lâu hơn.

KẾT LUẬN

Đề tài đã đạt được những kết quả sau đây:

- Tìm hiểu tổng quan về thư rác, các phương pháp phân loại thư rác hiện đang sử dụng như: blacklisting, whitelisting, heuristic filtering, challenge/ response… Các phương pháp học máy như: SVM, Naive Bayes, kNN, Nnet. Đồng thời đánh giá ưu nhược điểm của các phương pháp.

- Tìm hiểu về hệ miễn dịch sinh học và hệ miễn dịch nhân tạo, các khái niệm cơ bản như: Self, Nonself, bộ dị…một số thuật tốn trong hệ miễn dịch nhân tạo.

- Nghiên cứu thuật tốn chọn lọc tiêu cực dạng r-chunk và r-contiguous và đưa ra phương pháp ứng dụng các thuật tốn trên cho quá trình phân loại thư rác.

- Xây dựng chương trình mơ phỏng sử dụng thuật tốn chọn lọc tiêu cực trong hệ miễn dịch nhân tạo và áp dụng vào quá trình huấn luyện cũng như phân loại thư rác, đồng thời đánh giá chương trình bằng thơng số như: TP, TN, FP, FN và các độ đo như: DR, FPR và Acc.

- Thử nghiệm phương pháp sinh tập bộ dị dạng r-chunk với các bộ dữ liệu chuẩn TREC'07, SpamBase và so sánh kết quả với một số phương pháp học máy khác.

Hướng phát triển

- Cần nghiên cứu khâu tiền xử lý văn bản, xây dựng các mẫu huấn luyện tiêu chuẩn cũng như lựa chọn tham số hợp lý cho ℓ và r để cĩ thể nâng cao độ chính xác phân loại của giải thuật hơn nữa.

- Nâng khả năng lọc thư rác với các loại email chứa nội dung là hình ảnh, ký tự lạ,…và cĩ đính kèm tệp tin.

- Kết hợp với các thuật tốn học máy khác để cĩ thể cải thiện được hiệu suất và độ chính xác.

- Xây dựng hệ thống Webmail cho một cơ quan hoặc tổ chức và tích hợp bộ lọc vào hệ thống.

- Xây dựng bộ lọc theo mức độ phù hợp cho một số nhĩm đối tượng cụ thể như: cùng chung sở thích, cùng nơi làm việc, cùng lĩnh vực nghiên cứu…

DANH MỤC CÁC CƠNG TRÌNH CƠNG BỐ

[1]. Vu Duc Quang, Vu Manh Xuan, Nguyen Van Truong, Phung Thi Thu Trang (2015), Email SPAM Filtering Using R-Chunk Detector-Based Negative Selection Algorithm, Journal of Science and Technology, Thai Nguyen University, 135 (05), 185-189.

TÀI LIỆU THAM KHẢO

Tiếng Việt

[1]. Nguyễn Xuân Hồi, Nguyễn Văn Trường, Vũ Mạnh Xuân, (2007), Hệ miễn dịch nhân tạo và ứng dụng, Tạp chí Khoa học và Cơng nghệ Đại học Thái Nguyên, 13-18.

[2]. Phạm Đình Lựu, (2005), Sinh Lý Học Y Khoa, Đại Học Y Dược TP. Hồ Chí Minh.

[3]. Lương Quốc Sơn, (2012), Nghiên cứu xây dựng bộ lọc thư rác hỗ trợ song ngữ Anh – Việt, Luận văn Thạc sĩ CNTT, Đại học Lạc Hồng.

Tiếng Anh

[4]. Csaba Gulyás, (2006), Creation of a Bayesian network-based meta SPAM filter, using the analysis of different SPAM filters.

[5]. Forrest et al, Self-Nonself Discrimination in a Computer, (1994), in Proceedings of 1994 IEEE Symposium on Research in Security and Privacy,

Oakland, CA, 202-212.

[6]. Jonathan A. Zdziarski, Ending Spam, (2005), Bayesian Content Filtering and the Art of Statistical Language Classification, No Starch Press.

[7]. M. Elberfeld, J. Textor, (2009), Efficient algorithms for string-based negative selection, Proceedings of the 8th International Conference on Artificial Immune Systems, LNCS 5666, 109-121.

[8]. Mike Spykerman, Typical SPAM characteristics, Red Earth Software, 2003.

[9]. T. Stibor et al, (2004), An investigation of r-chunk detector generation on higher alphabets, GECCO 2004, LNCS 3102, 299-30.

[10]. Tarek M Mahmoud, Alaa Ismail El Nashar, Tarek Abd-El-Hafeez, Marwa Khairy, (2014), “An Efficient Three-phase Email SPAM Filtering

Technique”, British Journal of Mathematics & Computer Science4(9): 1184- 1201.

[11]. Terri Oda, (2005), A SPAM-Detecting Artiﬁcial ImmuneSystem, Master of Computer Science, Carleton University, Ottawa, Canada.

Kết quả so khớp với giá trị tham số r thay đổi

Hệ miễn dịch sinh học

Hệ miễn dịch nhân tạo