Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 85 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
85
Dung lượng
513,19 KB
Nội dung
ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG Phùng Thị Thu Trang HỆ MIỄN DỊCH NHÂN TẠO VÀ ỨNG DỤNG CHO LỌC THƢ RÁC LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái Nguyên - 2015 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG Phùng Thị Thu Trang HỆ MIỄN DỊCH NHÂN TẠO VÀ ỨNG DỤNG CHO LỌC THƢ RÁC Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60 48 01 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH HƢỚNG DẪN KHOA HỌC: TS VŨ MẠNH XUÂN Thái Nguyên - 2015 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn i LỜI CAM ĐOAN Tôi xin cam đoan luận văn tự thân tìm hiểu, nghiên cứu hướng dẫn TS Vũ Mạnh Xn Các chương trình thực nghiệm thân tơi lập trình, kết hồn tồn trung thực Các tài liệu tham khảo trích dẫn thích đầy đủ TÁC GIẢ LUẬN VĂN Phùng Thị Thu Trang Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ii LỜI CẢM ƠN Tôi xin bày tỏ lời cảm ơn chân thành tới tập thể thầy cô giáo Viện công nghệ thông tin – Viện Hàn lâm Khoa học Công nghệ Việt Nam, thầy cô giáo Trường Đại học Công nghệ thông tin truyền thông - Đại học Thái Nguyên dạy dỗ chúng tơi suốt q trình học tập chương trình cao học trường Đặc biệt tơi xin bày tỏ lòng biết ơn sâu sắc tới thầy giáo TS Vũ Mạnh Xuân quan tâm, định hướng đưa góp ý, gợi ý, chỉnh sửa quý báu cho tơi q trình làm luận văn tốt nghiệp Cũng bạn bè, đồng nghiệp, gia đình người thân quan tâm, giúp đỡ chia sẻ với tơi suốt q trình làm luận văn tốt nghiệp Dù có nhiều cố gắng chắn khơng tránh khỏi thiếu sót mong nhận đóng góp ý kiến thầy, cô bạn để luận văn hồn thiện Tơi xin chân thành cảm ơn! Thái Nguyên, tháng 08 năm 2015 Phùng Thị Thu Trang Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn iii MỤC LỤC DANH MỤC CÁC HÌNH VẼ vi DANH MỤC CÁC BẢNG vii MỞ ĐẦU Chương NGHI N C U T NG QUAN VỀ TH RÁC 1.1 Giới thiệu thư rác 1.1.1 Lịch sử 1.1.2 Định nghĩa .4 1.1.3 Mục đích gửi thư rác 1.1.4 Các đặc tính thư rác 1.1.5 Các kỹ thuật tạo thư rác 1.2 Các kỹ thuật phát ngăn chặn thư rác 1.2.1 Kỹ thuật blacklisting 1.2.2 Kỹ thuật whitelisting .9 1.2.3 Kỹ thuật heuristic filtering 11 1.2.4 Kỹ thuật challenge/ response 13 1.2.5 Phân tích định hướng phát triển ứng dụng thử nghiệm 14 1.3 Kỹ thuật dùng học máy 15 1.3.1 Support vector Machine (SVM) 16 1.3.2 K–Nearest Neighbor (kNN) 18 1.3.3 Naïve Bayes (NB) 19 1.3.4 Mạng Neural (Nnet) 21 Chương HỆ MIỄN DỊCH NHÂN TẠO 23 2.1 Hệ miễn dịch 23 2.1.1 Hệ miễn dịch sinh học 23 2.1.2 Hệ miễn dịch nhân tạo 27 2.2 Một số định nghĩa 31 2.2.1 Self 32 2.2.2 NonSelf 32 2.2.3 Bộ dò 32 2.2.4 Tập dò ChunkD(S, r) ContD(S, r) 32 2.2.5 Khả phát tập dò 33 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn iv 2.2.6 Hole 34 2.3 Thuật tốn sinh tập dị r-chunk 34 2.3.1 Thuật toán 35 2.3.2 Độ phức tạp thuật toán 36 2.4 Thuật tốn sinh tập dị dạng r – contiguous 38 2.4.1 Thuật toán 38 2.4.2 Độ phức tạp thuật toán 39 2.5 Các nghiên cứu gần 42 Chương CÀI ĐẶT THỬ NGHIỆM 44 3.1 ng dụng hệ miễn dịch nhân tạo lọc thư rác 44 3.1.1 Phát biểu toán 44 3.1.2 Cơ sở liệu TREC'07 45 3.1.3 Thiết kế phần mềm 46 3.1.4.Phân tích thuật tốn 47 3.1.5 Giao diện chương trình kết 48 3.1.6 Đánh giá 51 3.2 So sánh với thuật toán WEKA 51 3.2.1 Phát biểu toán 51 3.2.2 Cơ sở liệu SpamBase 52 3.2.3 Phần mềm WEKA 54 3.2.4 Thiết kế phần mềm 57 3.2.5 Phân tích thuật tốn 58 3.2.6 Giao diện chương trình kết 61 3.2.7 Đánh giá 65 KẾT LUẬN 67 DANH MỤC CÁC CƠNG TRÌNH CƠNG BỐ 69 TÀI LIỆU THAM KHẢO 70 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn v DANH SÁCH KÍ HIỆU, TỪ VIẾT TĂT Viết tắt Viết đầy đủ |X| Lực lượng tập X CSDL Cơ sở liệu HAM Thư bình thường HMD Hệ miễn dịch ISP Internet Service Provider MHC Major Histocompatibility Complex NSA Negative Selection Algorithm-Thuật toán chọn lọc tiêu cực SPAM Thư rác SVM Support vector Machine WEKA Waikato Environment for Knowledge Analysis Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn vi DANH MỤC CÁC HÌNH VẼ Hình 1.1: So sánh thư rác với thư điện tử khác Hình 1.2 Mơ hình SVM 17 Hình 1.3 Siêu phẳng h phân chia liệu .17 Hình 2.1 Các tầng miễn dịch sinh học 24 Hình 2.2 Một số quan hệ miễn dịch sinh học 26 Hình 2.3 Cấu trúc phân tầng HMD nhân tạo 27 Hình 2.4 Sơ đồ khối thuật tốn chọn lọc tích cực 29 Hình 2.5 Sơ đồ khối thuật toán chọn lọc tiêu cực 31 Hình 3.1 Giao diện chương trình lọc spam CSDL TREC'07 49 Hình 3.2 Kết trình test 50 Hình 3.3 Giao diện phần mềm Weka 55 Hình 3.4 Giao diện Weka Explorer 55 Hình 3.5 Giao diện Weka Explorer sau chọn CSDL Spambase .56 Hình 3.6 Phân loại liệu 57 Hình 3.7 Giao diện chương trình 61 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn vii DANH MỤC CÁC BẢNG Bảng 1.1 Các phần mềm chống thư rác 14 Bảng 2.1 Sự tương quan hệ miễn dịch với môi trường mạng 31 Bảng 3.1 Kết chạy chương trình với test 50 Bảng 3.2 So sánh kết .51 Bảng 3.3 Kết thử nghiệm WEKA NSA .63 Bảng 3.4 So sánh NSA với số phương pháp cho kết tốt 63 Bảng 3.5 So sánh NSA với số phương pháp cho kết thấp 64 Bảng 3.6 Kết so khớp với giá trị tham số r thay đổi 65 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn viii MỞ ĐẦU Email phương tiện truyền thông phổ biến nay, ngày giới có hàng tỉ email gửi số nửa dạng thư rác (email spam) Email spam email gửi với số lượng lớn nhằm mục đích quảng cáo, ăn cắp thơng tin, lây lan virus… Đây email mà người nhận không mong đợi Có nhiều kỹ thuật lọc thư rác khác như: Blacklisting, Whitelisting, Heuristic filtering, Challenge/ Response, Throttling, Address obfuscation, Collaborative filtering,…Tuy nhiên, đa số phần mềm chống thư rác dựa header thư địa từ người gửi nhằm tăng tốc độ Các phương pháp học máy gần quan tâm nhiều chúng có khả thích nghi cao với tiến hóa thư rác phương pháp dựa xác suất Naïve Bayes, phương pháp học máy vectơ hỗ trợ (Support vector machine), phương pháp phân loại dựa láng giềng gần (k-nearest neighbors) Hệ miễn dịch nhân tạo hệ thống thích nghi lấy ý tưởng học thuyết miễn dịch chức năng, nguyên tắc, mô hình miễn dịch quan sát được, áp dụng giải tốn thực tế Nó có nhiều ứng dụng khác nhau, chủ yếu áp dụng vào lĩnh vực an ninh mạng an ninh máy tính Với lý trên, đề tài “Hệ miễn dịch nhân tạo ứng dụng cho lọc thư rác” tập trung nghiên cứu hệ miễn dịch nhân tạo ứng dụng số kỹ thuật cải tiến thuật toán miễn dịch áp dụng cho tốn lọc thư rác để áp dụng cho không gian liệu lớn Đối tƣợng phạm vi nghiên cứu - Nghiên cứu lý thuyết hệ miễn dịch sinh học hệ miễn dịch nhân tạo Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 58 - Bước 1: Chia email thường file nguồn (HAM.txt) ngẫu nhiên thành 10 phần email SPAM file nguồn (SPAM.txt) thành 10 phần tương ứng 10 file email HAM 10 file email SPAM - Bước 2: Đọc số liệu file email thường để huấn luyện Bước 3: Tiến hành kiểm tra (testing), thực với file email thường lại tất email SPAM Số lượng email HAM email SPAM mà chương trình phát tính tốn quy đổi số liệu: DR = TP/(TP + FN) FPR = FP/(TN + FP) Acc = (TP + TN) /(TP + TN + FP + FN) Chương trình thực lặp bước hai ba mười lần, lần tính tốn cho số liệu Sau lấy giá trị trung bình mười lần tính tốn 3.2.5 Phân tích thuật tốn 3.2.5.1 Q trình chia file nguồn (Split file) Input: file chứa số liệu thống kê 58 thuộc tính email HAM - HAM.txt Output: 10 file email HAM: HSub 1.txt, HSub 2.txt, …, HSub 10.txt Thuật toán Trong sở liệu Spambase Data Set sử dụng có số liệu thống kê thuộc tính 4601 email ghi dịng Trong đó, có 1813 email SPAM 2788 email HAM, ta tạo file HAM.txt chứa 2788 email HAM SPAM.txt chứa 1813 email SPAM Sử dụng nút Open File HAM giao diện để tìm đường dẫn tới file HAM.txt Quá trình chia sau: - Kiểm tra thư mục bin\Debug có file HSub i.txt SSub i.txt (i=1,…,10) chưa, chưa có tạo file Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 59 - Lần lượt đọc dòng file HAM.txt, sinh ngẫu nhiên số nn∈[1,10] ghi dòng liệu vào file: HSub nn.txt - Đóng file vừa tạo 3.2.5.2 Quá trình huấn luyện – Tạo tập dị (Training) Input: Chọn 10 file: HSub i.txt (i=1,…,10) Output: Tập dị lưu bảng băm kích thước: 2r.(ℓ-r+1) Thuật tốn Q trình huấn luyện sau: - Đọc dịng file đầu vào, từ tạo mảng chuỗi lưu trữ giá trị 57 thuộc tính (trừ thuộc tính cuối) - Thống kê lại chuỗi thuộc tính cho khơng cịn giá trị trùng - Chuyển đổi theo quy tắc dãy thuộc tính sang dạng dãy nhị - Mỗi thuộc tính email ứng với dãy nhị phân, kết hợp phân dãy nhị phân 57 thuộc tính lại ta dãy nhị phân email giá trị dòng liệu file chuyển sang dạng nhị phân có độ dài - Duyệt ℓ - r + dãy độ dài r dãy nhị phân, áp dụng cách tính tốn phương pháp tạo tập dò bảng băm để xây dựng bảng A 3.2.5.3 Quá trình kiểm tra – phân biệt HAM/SPAM (testing) Input: Bảng băm tạo; File email HAM lại file emailSPAM.txt Output: Các số liệu: Acc, DR, FPR Thuật tốn Thiết lập thơng số sau có giá trị 0: TN, FP, TP, FN, Acc, DR, FPR *) Kiểm tra khả phát email HAM Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 60 - Đọc dòng liệu file email HAM lại, ta dựng dãy nhị phân dựa vào mảng chứa dãy nhị phân tạo q trình huấn luyện cho dịng liệu Từ ta có dãy nhị phân email - Chuyển ℓ - r + dãy nhị phân độ dài r email từ hệ nhị phân sang hệ số 10 lưu số nguyên k + Nếu xuất trường hợp A[k, j]= (các đoạn bit từ j đến bit thứ j + r - với j=1,…, ℓ - r + 1) tăng giá trị FP thêm (kết luận email kiểm tra SPAM) + Nếu tồn A[k, j]= tăng giá trị TN thêm (kết luận email kiểm tra HAM) *) Kiểm tra khả phát email SPAM - Đọc dòng liệu file thư SPAM: SPAM.txt, ta dựng dãy nhị phân dựa vào mảng chứa dãy nhị phân tạo q trình huấn luyện cho dịng liệu Từ ta có dãy nhị phân email - Chuyển ℓ - r + dãy nhị phân độ dài r email từ hệ nhị phân sang hệ số 10 lưu số nguyên k + Nếu xuất trường hợp A[k, j]= (các đoạn bit từ j đến bit thứ j + r - với j=1,…, ℓ - r + 1) tăng giá trị TP thêm (kết luận email kiểm tra SPAM) + Nếu tồn A[k, j]= tăng giá trị FN thêm (kết luận email kiểm tra HAM) *) Sau q trình kiểm tra trên, tính tốn thơng số: DR, FPR, Acc Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 61 3.2.6 Giao diện chƣơng trình kết Hình 3.7 Giao diện chƣơng trình Chức đối tượng giao diện: - Nút Open File HAM…: Mở file email HAM - Nút Open File SPAM…: Mở file email SPAM - Hộp Select a value r: Đặt giá trị cho r - Nút Split File: Chia file nguồn chương trình (file email HAM – HAM.txt, file emailSPAM – SPAM.txt) - Nút Test: + Tạo tập dò từ file email HAM + Cho file email HAM cịn lại (khơng sử dụng để tạo dò) file email SPAM qua tập dị thực so khớp + Tính toán kết luận khả phát tập dò, hiển thị kết vùng Results - Nút Exit: Thốt khỏi chương trình Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 62 Sau kết thử nghiệm hàm, luật,… WEKA chương trình sử dụng NSA sở liệu Spambase Với 100% email HAM email SPAM đưa vào trình phân loại Với giá trị r = 8, chương trình sử dụng NSA cho kết sau: Trong 2788 email HAM, chương trình sử dụng NSA cho kết quả: - Số lượng email HAM phân loại TN = 2668 - Số lượng email phân loại sai thành email SPAM FP = 120 Trong 1813 email SPAM, chương trình sử dụng NSA cho kết quả: - Số lượng email SPAM phân loại TP = 1499 - Số lượng email phân loại sai thành email HAM FN = 314 - DR: 82.67% - FPR: 4.31% - Acc: 90.56% Các phương pháp phân loại WEKA sử dụng toàn 2788 email HAM 1813 email SPAM vào trình kiểm tra (phát hiện, phân loại) nên chương trình NSA sử dụng toàn email HAM email SPAM thay sử dụng file email HAM chưa dùng vào trình huấn luyện + email SPAM (Đơn vị tính thơng số DR, FPR, Acc: %) Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 63 Bảng 3.3 Kết thử nghiệm WEKA NSA Dựa vào bảng ta thấy: - Phương pháp NSA cho kết xác 90% nằm phương pháp cho kết xác Bảng 3.4 So sánh NSA với số phƣơng pháp cho kết tốt Phƣơng pháp bayes.DM functions functions.S lazy.T trees.Rand NS 64 Ta nhận thấy rằng, phương pháp NSA cho kết xấp xỉ với phương pháp WEKA độ xác tổng thể NSA có khả phát email SPAM thể thông số TP FN.Tuy nhiên, NSA phân loại email HAM tốt hơn, thể thông số TN, FP - NSA cho kết cao độ xác tổng thể so với phương pháp bảng dưới: Bảng 3.5 So sánh NSA với số phƣơng pháp cho kết thấp Các phương pháp BayessianLogisticRegression, NaiveBayesUpdateable cho khả phát email SPAM tốt, kéo theo nhiều email HAM bị phân loại thành email SPAM thể hiện: 2788 email HAM BayessianLogisticRegression có 802 email bị coi email SPAM, NaiveBayesUpdateable có 865 email bị coi email SPAM Thơng thường, email HAM có chứa thơng tin quan trọng hơn, việc email HAM phân loại thành email SPAM gây lo ngại so với việc email SPAM bị phân loại nhầm thành email HAM Xét mặt này, NSA cho khả phân loại tốt phương pháp Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 65 3.2.7 Đánh giá Khả phát chương trình phụ thuộc vào độ chặt chẽ bảng băm A, bảng A có mức độ chặt chẽ cao hay thấp cịn tùy thuộc vào việc ta đặt giá trị r Giá trị r cao mức độ kiểm tra (so khớp) chặt chẽ ngược lại Trong chương trình, thử nghiệm giá trị r đoạn [7,10], đoạn giá trị dò cho kết tốt Bảng 3.6 Kết so khớp với giá trị tham số r thay đổi r 10 Việc lựa chọn 9/10 file email HAM để huấn luyện file email HAM lại đưa vào trình test với file email SPAM lựa chọn ngẫu nhiên, nên kết lần chạy có khác nhau, nhiên số liệu DR, FPR, Acc thời gian chạy không chênh lệch lớn Với kết ta có nhận xét: - Về khả phát hiện: Với r lớn kích thước dị (bảng A) lớn, đồng nghĩa với việc mức độ kiểm tra, so khớp chặt chẽ Do vậy, r lớn xác suất email HAM bị phân loại thành email SPAM lớn Và ngược lại, r Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 66 nhỏ mức độ kiểm tra chặt chẽ hơn, dẫn đến nhiều email SPAM phân loại email HAM Những email HAM mang tính quan trọng nhiều, phân loại email HAM email SPAM, cần lựa chọn giá trị r hợp lí để email HAM bị phân loại thành email SPAM Làm để tìm giá trị r hợp lý hướng phát triển tốt - Về thời gian chạy chương trình: Thời gian chạy chương trình tùy thuộc vào kích thước bảng băm chủ yếu, với giá trị r lớn bảng băm có kích thước lớn nên việc tạo bảng lâu Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 67 KẾT LUẬN Đề tài đạt kết sau đây: - Tìm hiểu tổng quan thư rác, phương pháp phân loại thư rác sử dụng như: blacklisting, whitelisting, heuristic filtering, challenge/ response… Các phương pháp học máy như: SVM, Naive Bayes, kNN, Nnet Đồng thời đánh giá ưu nhược điểm phương pháp - Tìm hiểu hệ miễn dịch sinh học hệ miễn dịch nhân tạo, khái niệm như: Self, Nonself, dò…một số thuật toán hệ miễn dịch nhân tạo - Nghiên cứu thuật toán chọn lọc tiêu cực dạng r-chunk r-contiguous đưa phương pháp ứng dụng thuật tốn cho q trình phân loại thư rác - Xây dựng chương trình mơ sử dụng thuật tốn chọn lọc tiêu cực hệ miễn dịch nhân tạo áp dụng vào trình huấn luyện phân loại thư rác, đồng thời đánh giá chương trình thông số như: TP, TN, FP, FN độ đo như: DR, FPR Acc - Thử nghiệm phương pháp sinh tập dò dạng r-chunk với liệu chuẩn TREC'07, SpamBase so sánh kết với số phương pháp học máy khác Hướng phát triển - Cần nghiên cứu khâu tiền xử lý văn bản, xây dựng mẫu huấn luyện tiêu chuẩn lựa chọn tham số hợp lý cho ℓ r để nâng cao độ xác phân loại giải thuật - Nâng khả lọc thư rác với loại email chứa nội dung hình ảnh, ký tự lạ,…và có đính kèm tệp tin Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 68 - Kết hợp với thuật toán học máy khác để cải thiện hiệu suất độ xác - Xây dựng hệ thống Webmail cho quan tổ chức tích hợp lọc vào hệ thống - Xây dựng lọc theo mức độ phù hợp cho số nhóm đối tượng cụ thể như: chung sở thích, nơi làm việc, lĩnh vực nghiên cứu… Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 69 DANH MỤC CÁC CƠNG TRÌNH CƠNG BỐ [1] Vu Duc Quang, Vu Manh Xuan, Nguyen Van Truong, Phung Thi Thu Trang (2015), Email SPAM Filtering Using R-Chunk Detector-Based Negative Selection Algorithm, Journal of Science and Technology, Thai Nguyen University, 135 (05), 185-189 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 70 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Nguyễn Xuân Hoài, Nguyễn Văn Trường, Vũ Mạnh Xuân, (2007), Hệ miễn dịch nhân tạo ứng dụng, Tạp chí Khoa học Cơng nghệ Đại học [2] Phạm Đình Lựu, (2005), Sinh Lý Học Y Khoa, Đại Học Y Dược TP Hồ [3] Lương Quốc Sơn, (2012), Nghiên cứu xây dựng lọc thư rác hỗ trợ song ngữ Anh – Việt, Luận văn Thạc sĩ CNTT, Đại học Lạc Hồng Tiếng Anh [4] Csaba Gulyás, (2006), Creation of a Bayesian network-based meta SPAM filter, using the analysis of different SPAM filters [5] Forrest et al, Self-Nonself Discrimination in a Computer, (1994), in Proceedings of 1994 IEEE Symposium on Research in Security and Privacy, [6] Jonathan A Zdziarski, Ending Spam, (2005), Bayesian Content Filtering and the Art of Statistical Language Classification, No Starch Press [7] M Elberfeld, J Textor, (2009), Efficient algorithms for string-based negative selection, Proceedings of the 8th International Conference on Artificial Immune Systems, LNCS 5666, 109-121 [8] Mike Spykerman, Typical SPAM characteristics, Red Earth Software, 2003 [9] T Stibor et al, (2004), An investigation of r-chunk detector generation on higher alphabets, GECCO 2004, LNCS 3102, 299-30 [10] Tarek M Mahmoud, Alaa Ismail El Nashar, Tarek Abd-El-Hafeez, Marwa Khairy, (2014), “An Efficient Three-phase Email SPAM Filtering Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 71 Technique”, British Journal of Mathematics & Computer Science4(9): 11841201 [11] Terri Oda, (2005), A SPAM-Detecting Artificial ImmuneSystem, Master of Computer Science, Carleton University, Ottawa, Canada Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ... pháp lọc thư rác - Nghiên cứu ứng dụng hệ miễn dịch nhân tạo trình huấn luyện liệu lọc thư rác - Lập trình thử nghiệm lọc thư rác ứng dụng Hệ miễn dịch nhân tạo - So sánh phương pháp sử dụng hệ miễn. .. nhau, chủ yếu áp dụng vào lĩnh vực an ninh mạng an ninh máy tính Với lý trên, đề tài ? ?Hệ miễn dịch nhân tạo ứng dụng cho lọc thư rác? ?? tập trung nghiên cứu hệ miễn dịch nhân tạo ứng dụng số kỹ thuật... tiến thuật toán miễn dịch áp dụng cho tốn lọc thư rác để áp dụng cho không gian liệu lớn Đối tƣợng phạm vi nghiên cứu - Nghiên cứu lý thuyết hệ miễn dịch sinh học hệ miễn dịch nhân tạo Số hóa Trung