1. Trang chủ
  2. » Luận Văn - Báo Cáo

Hệ miễn dịch nhân tạo và ứng dụng cho lọc thư rác

104 153 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 104
Dung lượng 1,57 MB

Nội dung

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN TRUYỀN THÔNG Phùng Thị Thu Trang HỆ MIỄN DỊCH NHÂN TẠO ỨNG DỤNG CHO LỌC THƯ RÁC LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái Nguyên - 2015 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN TRUYỀN THÔNG Phùng Thị Thu Trang HỆ MIỄN DỊCH NHÂN TẠO ỨNG DỤNG CHO LỌC THƯ RÁC Chuyên ngành: KHOA HỌC MÁY TÍNH : Mã số 60 48 01 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH : HƯỚNG DẪN KHOA HỌC TS VŨ MẠNH XUÂN Thái Nguyên - 2015 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn i LỜI CAM ĐOAN Tôi xin cam đoan luận văn tự thân tơi tìm hiểu, nghiên cứu hướng dẫn TS Vũ Mạnh Xuân Các chương trình thực nghiệm thân tơi lập trình, kết hoàn toàn trung thực Các tài liệu tham khảo trích dẫn thích đầy đủ TÁC GIẢ LUẬN VĂN Phùng Thị Thu Trang ii LỜI CẢM ƠN Tôi xin bày tỏ lời cảm ơn chân thành tới tập thể thầy cô giáo Viện công nghệ thông tin – Viện Hàn lâm Khoa học Công nghệ Việt Nam, thầy cô giáo Trường Đại học Công nghệ thông tin truyền thông - Đại học Thái Nguyên dạy dỗ suốt trình học tập chương trình cao học trường Đặc biệt tơi xin bày tỏ lòng biết ơn sâu sắc tới thầy giáo TS Vũ Mạnh Xuân quan tâm, định hướng đưa góp ý, gợi ý, chỉnh sửa q báu cho tơi q trình làm luận văn tốt nghiệp Cũng bạn bè, đồng nghiệp, gia đình người thân quan tâm, giúp đỡ chia sẻ với tơi suốt q trình làm luận văn tốt nghiệp Dù có nhiều cố gắng chắn không tránh khỏi thiếu sót mong nhận đóng góp ý kiến thầy, cô bạn để luận văn hồn thiện Tơi xin chân thành cảm ơn! Thái Nguyên, tháng 08 năm 2015 Phùng Thị Thu Trang MỤC LỤC DANH MỤC CÁC HÌNH VẼ vi DANH MỤC CÁC BẢNG vii MỞ ĐẦU .8 Chương NGHI N C U T NG QUAN VỀ TH RÁC 1.1 Giới thiệu thư rác 1.1.1 Lịch sử 1.1.2 Định nghĩa 1.1.3 Mục đích gửi thư rác 1.1.4 Các đặc tính thư rác 1.1.5 Các kỹ thuật tạo thư rác 1.2 Các kỹ thuật phát ngăn chặn thư rác .8 1.2.1 Kỹ thuật blacklisting 1.2.2 Kỹ thuật whitelisting 1.2.3 Kỹ thuật heuristic filtering 11 1.2.4 Kỹ thuật challenge/ response 13 1.2.5 Phân tích định hướng phát triển ứng dụng thử nghiệm 14 1.3 Kỹ thuật dùng học máy 15 1.3.1 Support vector Machine (SVM) 16 1.3.2 K–Nearest Neighbor (kNN) 18 1.3.3 Naïve Bayes (NB) 19 1.3.4 Mạng Neural (Nnet) 21 Chương HỆ MIỄN DỊCH NHÂN TẠO .23 2.1 Hệ miễn dịch 23 2.1.1 Hệ miễn dịch sinh học 23 2.1.2 Hệ miễn dịch nhân tạo 27 2.2 Một số định nghĩa .31 2.2.1 Self 32 2.2.2 NonSelf 32 2.2.3 Bộ dò 32 2.2.4 Tập dò ChunkD(S, r) ContD(S, r) 32 2.2.5 Khả phát tập dò 33 2.2.6 Hole 34 2.3 Thuật toán sinh tập dò r-chunk .34 2.3.1 Thuật toán 35 2.3.2 Độ phức tạp thuật toán 36 2.4 Thuật toán sinh tập dò dạng r – contiguous 38 2.4.1 Thuật toán 38 2.4.2 Độ phức tạp thuật toán 39 2.5 Các nghiên cứu gần .42 Chương CÀI ĐẶT THỬ NGHIỆM .44 3.1 ng dụng hệ miễn dịch nhân tạo lọc thư rác 44 3.1.1 Phát biểu toán 44 3.1.2 Cơ sở liệu TREC'07 45 3.1.3 Thiết kế phần mềm 46 3.1.4.Phân tích thuật tốn 47 3.1.5 Giao diện chương trình kết 48 3.1.6 Đánh giá 51 3.2 So sánh với thuật toán WEKA .51 3.2.1 Phát biểu toán 51 3.2.2 Cơ sở liệu SpamBase 52 3.2.3 Phần mềm WEKA 54 3.2.4 Thiết kế phần mềm 57 3.2.5 Phân tích thuật toán 58 3.2.6 Giao diện chương trình kết 61 3.2.7 Đánh giá 65 KẾT LUẬN .67 DANH MỤC CÁC CƠNG TRÌNH CƠNG BỐ .69 TÀI LIỆU THAM KHẢO .70 DANH SÁCH KÍ HIỆU, TỪ VIẾT TĂT Viết tắt Viết đầy đủ |X| Lực lượng tập X CSDL Cơ sở liệu HAM Thư bình thường HMD Hệ miễn dịch ISP Internet Service Provider MHC Major Histocompatibility Complex NSA Negative Selection Algorithm-Thuật toán chọn lọc tiêu cực SPAM Thư rác SVM Support vector Machine WEKA Waikato Environment for Knowledge Analysis DANH MỤC CÁC HÌNH VẼ Hình 1.1: So sánh thư rác với thư điện tử khác Hình 1.2 Mơ hình SVM 17 Hình 1.3 Siêu phẳng h phân chia liệu 17 Hình 2.1 Các tầng miễn dịch sinh học 24 Hình 2.2 Một số quan hệ miễn dịch sinh học 26 Hình 2.3 Cấu trúc phân tầng HMD nhân tạo 27 Hình 2.4 Sơ đồ khối thuật tốn chọn lọc tích cực 29 Hình 2.5 Sơ đồ khối thuật tốn chọn lọc tiêu cực 31 Hình 3.1 Giao diện chương trình lọc spam CSDL TREC'07 49 Hình 3.2 Kết trình test 50 Hình 3.3 Giao diện phần mềm Weka 55 Hình 3.4 Giao diện Weka Explorer 55 Hình 3.5 Giao diện Weka Explorer sau chọn CSDL Spambase 56 Hình 3.6 Phân loại liệu 57 Hình 3.7 Giao diện chương trình 61 - Lần lượt đọc dòng file HAM.txt, sinh ngẫu nhiên số nn  [1,10] ghi dòng liệu vào file: HSub nn.txt - Đóng file vừa tạo 3.2.5.2 Q trình huấn luyện – Tạo tập dò (Training) Input: Chọn 10 file: HSub i.txt (i=1,…,10) r Output: Tập dò lưu bảng băm kích thước: (ℓ-r+1) Thuật tốn Q trình huấn luyện sau: - Đọc dòng file đầu vào, từ tạo mảng chuỗi lưu trữ giá trị 57 thuộc tính (trừ thuộc tính cuối) - Thống kê lại chuỗi thuộc tính cho khơng giá trị trùng - Chuyển đổi theo quy tắc dãy thuộc tính sang dạng dãy nhị phân - Mỗi thuộc tính email ứng với dãy nhị phân, kết hợp dãy nhị phân 57 thuộc tính lại ta dãy nhị phân email giá trị dòng liệu file chuyển sang dạng nhị phân có độ dài - Duyệt ℓ - r + dãy độ dài r dãy nhị phân, áp dụng cách tính tốn phương pháp tạo tập dò bảng băm để xây dựng bảng A 3.2.5.3 Quá trình kiểm tra – phân biệt HAM/SPAM (testing) Input: Bảng băm tạo; File email HAM lại file emailSPAM.txt Output: Các số liệu: Acc, DR, FPR Thuật toán Thiết lập thơng số sau có giá trị 0: TN, FP, TP, FN, Acc, DR, FPR *) Kiểm tra khả phát email HAM - Đọc dòng liệu file email HAM lại, ta dựng dãy nhị phân dựa vào mảng chứa dãy nhị phân tạo trình huấn luyện cho dòng liệu Từ ta có dãy nhị phân email - Chuyển ℓ - r + dãy nhị phân độ dài r email từ hệ nhị phân sang hệ số 10 lưu số nguyên k + Nếu xuất trường hợp A[k, j]= (các đoạn bit từ j đến bit thứ j + r - với j=1,…, ℓ - r + 1) tăng giá trị FP thêm (kết luận email kiểm tra SPAM) + Nếu tồn A[k, j]= tăng giá trị TN thêm (kết luận email kiểm tra HAM) *) Kiểm tra khả phát email SPAM - Đọc dòng liệu file thư SPAM: SPAM.txt, ta dựng dãy nhị phân dựa vào mảng chứa dãy nhị phân tạo q trình huấn luyện cho dòng liệu Từ ta có dãy nhị phân email - Chuyển ℓ - r + dãy nhị phân độ dài r email từ hệ nhị phân sang hệ số 10 lưu số nguyên k + Nếu xuất trường hợp A[k, j]= (các đoạn bit từ j đến bit thứ j + r - với j=1,…, ℓ - r + 1) tăng giá trị TP thêm (kết luận email kiểm tra SPAM) + Nếu tồn A[k, j]= tăng giá trị FN thêm (kết luận email kiểm tra HAM) *) Sau trình kiểm tra trên, tính tốn thơng số: DR, FPR, Acc 3.2.6 Giao diện chƣơng trình kết Hình 3.7 Giao diện chƣơng trình Chức đối tượng giao diện: - Nút Open File HAM…: Mở file email HAM - Nút Open File SPAM…: Mở file email SPAM - Hộp Select a value r: Đặt giá trị cho r - Nút Split File: Chia file nguồn chương trình (file email HAM – HAM.txt, file emailSPAM – SPAM.txt) - Nút Test: + Tạo tập dò từ file email HAM + Cho file email HAM lại (khơng sử dụng để tạo dò) file email SPAM qua tập dò thực so khớp + Tính tốn kết luận khả phát tập dò, hiển thị kết vùng Results - Nút Exit: Thốt khỏi chương trình Sau kết thử nghiệm hàm, luật,… WEKA chương trình sử dụng NSA sở liệu Spambase Với 100% email HAM email SPAM đưa vào trình phân loại Với giá trị r = 8, chương trình sử dụng NSA cho kết sau: Trong 2788 email HAM, chương trình sử dụng NSA cho kết quả: - Số lượng email HAM phân loại TN = 2668 - Số lượng email phân loại sai thành email SPAM FP = 120 Trong 1813 email SPAM, chương trình sử dụng NSA cho kết quả: - Số lượng email SPAM phân loại TP = 1499 - Số lượng email phân loại sai thành email HAM FN = 314 kết quả: - DR: 82.67% - FPR: 4.31% - Acc: 90.56% Các phương pháp phân loại WEKA sử dụng toàn 2788 email HAM 1813 email SPAM vào trình kiểm tra (phát hiện, phân loại) nên chương trình NSA sử dụng tồn email HAM email SPAM thay sử dụng file email HAM chưa dùng vào trình huấn luyện + email SPAM (Đơn vị tính thông số DR, FPR, Acc: %) Bảng 3.3 Kết thử nghiệm WEKA NSA Phƣơng pháp TP TN FN FP DR FPR Acc BayessianLogisticRegression 1758 1986 55 802 96.97 28.77 81.37 NaiveBayesUpdateable 1725 1923 88 865 95.15 31.03 79.29 bayes.DMNBtext 1617 2662 196 126 89.19 4.52 93.00 functions.logistic 1607 2645 206 143 88.64 5.13 92.41 functions.RBFNetwork 1568 2143 245 645 86.49 23.13 80.66 funtions.Spegasos 1544 2661 269 127 85.16 4.56 91.39 lazy.TB1 1592 2585 221 203 87.81 7.28 90.78 11 0.39 63.90 misc.HyperPipes 163 2777 1650 8.99 rules.ComnunctiveRule 1276 2437 537 351 70.38 12.59 80.70 trees.RandomTree 1621 2563 192 225 89.41 8.07 90.94 NSA 1499 2668 314 120 82.67 4.31 90.56 Dựa vào bảng ta thấy: - Phương pháp NSA cho kết xác 90% nằm phương pháp cho kết xác Bảng 3.4 So sánh NSA với số phƣơng pháp cho kết tốt Phƣơng pháp TP TN FN FP DR FPR Acc bayes.DMNBtext 1617 2662 196 126 89.19 4.52 93.00 functions.logistic 1607 2645 206 143 88.64 5.13 92.41 functions.Spegasos 1544 2661 269 127 85.16 4.56 91.39 lazy.TB1 1592 2585 221 203 87.81 7.28 90.78 trees.RandomTree 1621 2563 192 225 89.41 8.07 90.94 NSA 1499 2668 314 120 82.67 4.31 90.56 Ta nhận thấy rằng, phương pháp NSA cho kết xấp xỉ với phương pháp WEKA độ xác tổng thể NSA có khả phát email SPAM thể thông số TP FN.Tuy nhiên, NSA phân loại email HAM tốt hơn, thể thông số TN, FP - NSA cho kết cao độ xác tổng thể so với phương pháp bảng dưới: Bảng 3.5 So sánh NSA với số phƣơng pháp cho kết thấp Phƣơng pháp TP TN BayessianLogisticRegression 1758 1986 FN FP DR FPR Acc 55 802 96.97 28.77 81.37 NaiveBayesUpdateable 1725 1923 88 865 95.15 31.03 79.29 functions.RBFNetwork 1568 2143 245 645 86.49 23.13 80.66 misc.HyperPipes 163 2777 1650 11 8.99 0.39 63.90 rules.ComnunctiveRule 1276 2437 537 351 70.38 12.59 80.70 NSA 1499 2668 314 120 82.67 Các phương pháp 4.31 90.56 BayessianLogisticRegression, NaiveBayesUpdateable cho khả phát email SPAM tốt, kéo theo nhiều email HAM bị phân loại thành email SPAM thể hiện: 2788 email HAM BayessianLogisticRegression có 802 email bị coi email SPAM, NaiveBayesUpdateable có 865 email bị coi email SPAM Thơng thường, email HAM có chứa thơng tin quan trọng hơn, việc email HAM phân loại thành email SPAM gây lo ngại so với việc email SPAM bị phân loại nhầm thành email HAM Xét mặt này, NSA cho khả phân loại tốt phương pháp 3.2.7 Đánh giá Khả phát chương trình phụ thuộc vào độ chặt chẽ bảng băm A, bảng A có mức độ chặt chẽ cao hay thấp tùy thuộc vào việc ta đặt giá trị r Giá trị r cao mức độ kiểm tra (so khớp) chặt chẽ ngược lại Trong chương trình, thử nghiệm giá trị r đoạn [7,10], đoạn giá trị dò cho kết tốt Bảng 3.6 Kết so khớp với giá trị tham số r thay đổi r DR (%) FPR (%) Acc (%) Thời gian (s) 75.50 29.62 74.82 24.7 82.34 42.52 79.15 25.59 87.77 54.41 82.15 24.95 10 91.81 60.51 84.84 26.57 Việc lựa chọn 9/10 file email HAM để huấn luyện file email HAM lại đưa vào q trình test với file email SPAM lựa chọn ngẫu nhiên, nên kết lần chạy có khác nhau, nhiên số liệu DR, FPR, Acc thời gian chạy không chênh lệch lớn Với kết ta có nhận xét: - Về khả phát hiện: Với r lớn kích thước dò (bảng A) lớn, đồng nghĩa với việc mức độ kiểm tra, so khớp chặt chẽ Do vậy, r lớn xác suất email HAM bị phân loại thành email SPAM lớn ngược lại, r nhỏ mức độ kiểm tra chặt chẽ hơn, dẫn đến nhiều email SPAM phân loại email HAM Những email HAM mang tính quan trọng nhiều, phân loại email HAM email SPAM, cần lựa chọn giá trị r hợp lí để email HAM bị phân loại thành email SPAM Làm để tìm giá trị r hợp lý hướng phát triển tốt - Về thời gian chạy chương trình: Thời gian chạy chương trình tùy thuộc vào kích thước bảng băm chủ yếu, với giá trị r lớn bảng băm có kích thước lớn nên việc tạo bảng lâu KẾT LUẬN Đề tài đạt kết sau đây: - Tìm hiểu tổng quan thư rác, phương pháp phân loại thư rác sử dụng như: blacklisting, whitelisting, heuristic filtering, challenge/ response… Các phương pháp học máy như: SVM, Naive Bayes, kNN, Nnet Đồng thời đánh giá ưu nhược điểm phương pháp - Tìm hiểu hệ miễn dịch sinh học hệ miễn dịch nhân tạo, khái niệm như: Self, Nonself, dò…một số thuật tốn hệ miễn dịch nhân tạo - Nghiên cứu thuật toán chọn lọc tiêu cực dạng r-chunk r-contiguous đưa phương pháp ứng dụng thuật tốn cho q trình phân loại thư rác - Xây dựng chương trình mơ sử dụng thuật toán chọn lọc tiêu cực hệ miễn dịch nhân tạo áp dụng vào trình huấn luyện phân loại thư rác, đồng thời đánh giá chương trình thơng số như: TP, TN, FP, FN độ đo như: DR, FPR Acc - Thử nghiệm phương pháp sinh tập dò dạng r-chunk với liệu chuẩn TREC'07, SpamBase so sánh kết với số phương pháp học máy khác Hướng phát triển - Cần nghiên cứu khâu tiền xử lý văn bản, xây dựng mẫu huấn luyện tiêu chuẩn lựa chọn tham số hợp lý cho ℓ r để nâng cao độ xác phân loại giải thuật - Nâng khả lọc thư rác với loại email chứa nội dung hình ảnh, ký tự lạ,…và có đính kèm tệp tin - Kết hợp với thuật tốn học máy khác để cải thiện hiệu suất độ xác - Xây dựng hệ thống Webmail cho quan tổ chức tích hợp lọc vào hệ thống - Xây dựng lọc theo mức độ phù hợp cho số nhóm đối tượng cụ thể như: chung sở thích, nơi làm việc, lĩnh vực nghiên cứu… DANH MỤC CÁC CƠNG TRÌNH CƠNG BỐ [1] Vu Duc Quang, Vu Manh Xuan, Nguyen Van Truong, Phung Thi Thu Trang (2015), Email SPAM Filtering Using R-Chunk Detector-Based Negative Selection Algorithm, Journal of Science and Technology, Thai Nguyen University, 135 (05), 185-189 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Nguyễn Xuân Hoài, Nguyễn Văn Trường, Vũ Mạnh Xuân, (2007), Hệ miễn dịch nhân tạo ứng dụng, Tạp chí Khoa học Công nghệ Đại học Thái Nguyên, 13-18 [2] Phạm Đình Lựu, (2005), Sinh Lý Học Y Khoa, Đại Học Y Dược TP Hồ Chí Minh [3] Lương Quốc Sơn, (2012), Nghiên cứu xây dựng lọc thư rác hỗ trợ song ngữ Anh – Việt, Luận văn Thạc sĩ CNTT, Đại học Lạc Hồng Tiếng Anh [4] Csaba Gulyás, (2006), Creation of a Bayesian network-based meta SPAM filter, using the analysis of different SPAM filters [5] Forrest et al, Self-Nonself Discrimination in a Computer, (1994), in Proceedings of 1994 IEEE Symposium on Research in Security and Privacy, Oakland, CA, 202-212 [6] Jonathan A Zdziarski, Ending Spam, (2005), Bayesian Content Filtering and the Art of Statistical Language Classification, No Starch Press [7] M Elberfeld, J Textor, (2009), Efficient algorithms for string-based negative selection, Proceedings of the th International Conference on Artificial Immune Systems, LNCS 5666, 109-121 [8] Mike Spykerman, Typical SPAM characteristics, Red Earth Software, 2003 [9] T Stibor et al, (2004), An investigation of r-chunk detector generation on higher alphabets, GECCO 2004, LNCS 3102, 299-30 [10] Tarek M Mahmoud, Alaa Ismail El Nashar, Tarek Abd-El-Hafeez, Marwa Khairy, (2014), “An Efficient Three-phase Email SPAM Filtering Technique”, British Journal of Mathematics & Computer Science4(9): 11841201 [11] Terri Oda, (2005), A SPAM-Detecting Artificial ImmuneSystem, Master of Computer Science, Carleton University, Ottawa, Canada ... pháp lọc thư rác - Nghiên cứu ứng dụng hệ miễn dịch nhân tạo trình huấn luyện liệu lọc thư rác - Lập trình thử nghiệm lọc thư rác ứng dụng Hệ miễn dịch nhân tạo - So sánh phương pháp sử dụng hệ miễn. .. toán miễn dịch áp dụng cho toán lọc thư rác để áp dụng cho khơng gian liệu lớn Đối tƣợng phạm vi nghiên cứu - Nghiên cứu lý thuyết hệ miễn dịch sinh học hệ miễn dịch nhân tạo - ng dụng hệ miễn dịch. .. nhau, chủ yếu áp dụng vào lĩnh vực an ninh mạng an ninh máy tính Với lý trên, đề tài Hệ miễn dịch nhân tạo ứng dụng cho lọc thư rác tập trung nghiên cứu hệ miễn dịch nhân tạo ứng dụng số kỹ thuật

Ngày đăng: 19/11/2018, 02:13

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w