Giao diện chương trình và kết quả

Hình 3.7 Giao diện chương trình

- Hộp Select a value r: Đặt giá trị cho r. - Nút Test:

+ Tạo tập bộ dị từ các file email HAM.

+ Cho file email HAM cịn lại (khơng sử dụng để tạo bộ dị) và file email SPAM qua tập bộ dị thực hiện so khớp.

+ Tính tốn và kết luận về khả năng phát hiện của tập bộ dị, hiển thị kết quả tại vùng Results.

- Nút Exit: Thốt khỏi chương trình.

Sau đây là kết quả thử nghiệm trên các hàm, luật,… trong WEKA và chương trình sử dụng PNSA trên cơ sở dữ liệu Spambase.

Với 100% email HAM và email SPAM đưa vào quá trình phân loại. Với giá trị r = 8, chương trình sử dụng PNSA cho kết quả như sau:

Trong 2788 email HAM, chương trình sử dụng NSA cho kết quả: - Số lượng email HAM phân loại đúng là TN = 2668.

- Số lượng email phân loại sai thành email SPAM là FP = 120. Trong 1813 email SPAM, chương trình sử dụng PNSA cho kết quả:

- Số lượng email SPAM phân loại đúng là TP = 1499.

- Số lượng email phân loại sai thành email HAM là FN = 314. Và các kết quả:

- DR: 82.67% - FPR: 4.31% - Acc: 90.56%

Các phương pháp phân loại trong WEKA đều sử dụng tồn bộ 2788 email HAM và 1813 email SPAM vào quá trình kiểm tra (phát hiện, phân loại) nên trong chương trình PNSA cũng sẽ sử dụng tồn bộ các email HAM và email SPAM thay vì chỉ sử dụng file email HAM chưa dùng vào quá trình huấn luyện + email SPAM. (Đơn vị tính 3 thơng số DR, FPR, Acc: %).

Phương pháp TP TN FN FP DR FPR Acc BayessianLogisticRegression 1758 1986 55 802 96.97 28.77 81.37 NaiveBayesUpdateable 1725 1923 88 865 95.15 31.03 79.29 bayes.DMNBtext 1617 2662 196 126 89.19 4.52 93.00 functions.logistic 1607 2645 206 143 88.64 5.13 92.41 functions.RBFNetwork 1568 2143 245 645 86.49 23.13 80.66 funtions.Spegasos 1544 2661 269 127 85.16 4.56 91.39 lazy.TB1 1592 2585 221 203 87.81 7.28 90.78 misc.HyperPipes 163 2777 1650 11 8.99 0.39 63.90 rules.ComnunctiveRule 1276 2437 537 351 70.38 12.59 80.70 trees.RandomTree 1621 2563 192 225 89.41 8.07 90.94 PNSA 1499 2668 314 120 82.67 4.31 90.56

Dựa vào bảng trên ta thấy:

- Phương pháp PNSA cho kết quả chính xác hơn 90% nằm trong những phương pháp cho kết quả chính xác nhất.

Bảng 3.4. So sánh PNSA với một số phương pháp cho kết quả tốt hơn

Phương pháp TP TN FN FP DR FPR Acc bayes.DMNBtext 1617 2662 196 126 89.19 4.52 93.00 functions.logistic 1607 2645 206 143 88.64 5.13 92.41 functions.Spegasos 1544 2661 269 127 85.16 4.56 91.39 lazy.TB1 1592 2585 221 203 87.81 7.28 90.78 trees.RandomTree 1621 2563 192 225 89.41 8.07 90.94 PNSA 1499 2668 314 120 82.67 4.31 90.56

Ta nhận thấy rằng, phương pháp PNSA cho kết quả xấp xỉ với các phương pháp trong WEKA về độ chính xác tổng thể. PNSA cĩ khả năng phát hiện các email SPAM kém hơn thể hiện ở thơng số TP và FN.Tuy nhiên, PNSA phân loại các email HAM tốt hơn, thể hiện các thơng số TN, FP.

- PNSA cho kết quả cao hơn về độ chính xác tổng thể so với các phương pháp trong bảng dưới:

Bảng 3.5. So sánh PNSA với một số phương pháp cho kết quả thấp hơn Phương pháp TP TN FN FP DR FPR Acc BayessianLogisticRegression 1758 1986 55 802 96.97 28.77 81.37 NaiveBayesUpdateable 1725 1923 88 865 95.15 31.03 79.29 functions.RBFNetwork 1568 2143 245 645 86.49 23.13 80.66 misc.HyperPipes 163 2777 1650 11 8.99 0.39 63.90 rules.ComnunctiveRule 1276 2437 537 351 70.38 12.59 80.70 PNSA 1499 2668 314 120 82.67 4.31 90.56 Các phương pháp BayessianLogisticRegression, NaiveBayesUpdateable cho khả năng phát hiện email SPAM rất tốt, nhưng kéo theo đĩ nhiều email HAM bị phân loại thành email SPAM thể hiện: trong 2788 email HAM thì BayessianLogisticRegression cĩ 802 email bị coi là email SPAM, NaiveBayesUpdateable cĩ 865 email bị coi là email SPAM.

Thơng thường, các email HAM cĩ chứa thơng tin quan trọng hơn, do vậy việc các email HAM được phân loại thành email SPAM gây ra lo ngại hơn so với việc các email SPAM bị phân loại nhầm thành email HAM. Xét về mặt này, Pb NSA cho khả năng phân loại tốt hơn 5 phương pháp trên.

3.2.7. Đánh giá

Khả năng phát hiện của chương trình phụ thuộc vào độ chặt chẽ của bảng băm A, bảng A cĩ mức độ chặt chẽ cao hay thấp cịn tùy thuộc vào việc ta đặt giá trị của r. Giá trị r càng cao mức độ kiểm tra (so khớp) càng chặt chẽ và ngược lại.

Trong chương trình, sẽ thử nghiệm giá trị của r trong đoạn [7,10], trong đoạn giá trị này bộ dị cho những kết quả tốt nhất.

Bảng 3.6. Kết quả so khớp với giá trị tham số r thay đổi

r DR (%) FPR (%) Acc (%) Thời gian (s)

7 75.50 29.62 74.82 24.7

9 87.77 54.41 82.15 24.95

10 91.81 60.51 84.84 26.57

Việc lựa chọn 9/10 file email HAM để huấn luyện và 1 file email HAM cịn lại đưa vào quá trình test cùng với file các email SPAM được lựa chọn ngẫu nhiên, nên kết quả ở các lần chạy sẽ cĩ sự khác nhau, tuy nhiên cả 3 số liệu DR, FPR, Acc và thời gian chạy đều khơng chênh lệch quá lớn.

Test áp dụng thuật tốn để lọc các nội dung cụ thể

Với kết quả trên ta cĩ nhận xét: - Về khả năng phát hiện:

Với r càng lớn thì kích thước bộ dị (bảng A) càng lớn, đồng nghĩa với việc mức độ kiểm tra, so khớp sẽ chặt chẽ hơn. Do vậy, r càng lớn xác suất email HAM bị phân loại thành email SPAM càng lớn. Và ngược lại, r càng nhỏ thì mức độ kiểm tra sẽ ít chặt chẽ hơn, dẫn đến nhiều email SPAM được phân loại là email HAM.

Những email HAM mang tính quan trọng hơn rất nhiều, do vậy khi phân loại email HAM và email SPAM, cần lựa chọn giá trị của r hợp lí để các email HAM ít bị phân loại thành email SPAM. Làm thế nào để tìm ra giá trị r hợp lý cũng là một hướng phát triển tốt.

- Về thời gian chạy chương trình: Thời gian chạy chương trình tùy thuộc vào kích thước của bảng băm là chủ yếu, với giá trị r lớn thì bảng băm cĩ kích thước lớn hơn nên việc tạo bảng cũng lâu hơn.

KẾT LUẬN

Đề tài đã đạt được những kết quả sau đây:

- Tìm hiểu tổng quan về thư rác, các phương pháp phân loại thư rác hiện đang sử dụng như: lọc thư giác thơng quan việc đưa ra luật lệ nhằm hạn chế, ngăn chặn việc gửi thư giác, lọc dựa trên địa chỉ IP, lọc dựa trên chuỗi hỏi/đáp, lọc dựa trên mạng xã hội, lọc dựa trên lọc nội dung... Đồng thời đánh giá ưu nhược điểm của các phương pháp.

- Tìm hiểu về thuật tốn chọn lọc tiêu cực, thuật tốn chọn lọc tích cực, các khái niệm cơ bản như: Self, Nonself, bộ dị…một số thuật tốn trong hệ miễn dịch nhân tạo.

- Nghiên cứu thuật tốn chọn lọc tiêu cực dạng r-chunk và r-contiguous và đưa ra phương pháp ứng dụng các thuật tốn trên cho quá trình phân loại thư rác.

- Xây dựng chương trình mơ phỏng sử dụng thuật tốn kết hợp chọn lọc tiêu cực và chọn lọc tích cực PNSA trong hệ miễn dịch nhân tạo và áp dụng vào quá trình huấn luyện cũng như phân loại thư rác, đồng thời đánh giá chương trình bằng thơng số như: TP, TN, FP, FN và các độ đo như: DR, FPR và Acc trên bộ dữ liệu mẫu sưu tầm của đơn vị. Thử nghiệm phương pháp sinh tập bộ dị dạng r- chunk với các bộ dữ liệu chuẩn TREC'07, SpamBase và so sánh kết quả.

Hướng phát triển

- Cần nghiên cứu khâu tiền xử lý văn bản, xây dựng các mẫu huấn luyện tiêu chuẩn cũng như lựa chọn tham số hợp lý cho ℓ và r để cĩ thể nâng cao độ chính xác phân loại của giải thuật hơn nữa.

- Nâng khả năng lọc thư rác với các loại email chứa nội dung là hình ảnh, ký tự lạ,…và cĩ đính kèm tệp tin.

- Kết hợp với các thuật tốn học máy khác để cĩ thể cải thiện được hiệu suất và độ chính xác.

- Xây dựng hệ thống Webmail cho một cơ quan hoặc tổ chức và tích hợp bộ lọc vào hệ thống.

- Xây dựng bộ lọc theo mức độ phù hợp cho một số nhĩm đối tượng cụ thể như: cùng chung sở thích, cùng nơi làm việc, cùng lĩnh vực nghiên cứu…

TÀI LIỆU THAM KHẢO

Tài liệu tiếng Việt

[1] Từ Minh Phương, Phạm Văn Cường, Nguyễn Duy Phương, Hồng Trọng Huy (2006). Báo cáo đề tài “Nghiên cứu xây dựng hệ thống lọc thư rác cĩ khả năng lọc thư rác tiếng Anh và tiếng Việt”. Học viện Bưu chính Viễn thơng, 2006.

[2] Nghị định của chính phủ số 90/2008/NĐ-CP ngày 13 tháng 08 năm 2008 về chống thư rác, Việt nam, 2018.

[3] http://tuyengiao.vn/print/91935/lao-de-nghi-viet-nam-tang-

cuong-hop-tac-ve-an-ninh-mang, truy cập 05 tháng 05 năm 2019.

Tài liệu tiếng Anh

[4]. Dipak R. Kawade, and Kavita S. Oza, SMS Spam Classification using WEKA, International journal of Electronics Communication and Computer Technology, 5 (2015), 43-47.

[5] Fernando Esponda, Stephanie Forrest, and Paul Helman, A Formal Framework for Positive and Negative Detection Schemes, IEEE transactions on systems, man, and cybernetics, 34 (2004), 357 - 372.

[6] Forrest, S., Hofmeyr, S. and Somayaji, A., Computer Immunology, Communications of the ACM, 40 (1997), 88 - 96.

[7] Fuyong Zhang, Deyu Qi, A Positive Selection Algorithm for classification, Journal of Computational Information Systems, 8 (2012), 207 - 215.

[8] Sin-Eon Kim, Jung-Tae Jo, and Sang-Hyun Choi, 2015, SMS Spam Filterinig Using Keyword Frequency Ratio, International Journal of Security and Its Applications, 9(1), 329-336.

[9] Van Truong Nguyen, Xuan Hoai Nguyen and Chi Mai Luong, A Novel Combination of Negative and Positive Selection in Artificial Immune Systems, Vietnam National University, Hanoi Journal of Science: Comp. Science & Com. Eng. 31(1), 22-31, 2015.

[10]

Cornelis.Robat.Spam,URL:http://www.thocp.net/reference/internet/spam.ht m, 28/12/2006.

Thuật tốn sinh tập bộ dị r-chunk

Các nghiên cứu gần đây