Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 80 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
80
Dung lượng
862,64 KB
Nội dung
ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG Phùng Thị Thu Trang HỆ MIỄN DỊCH NHÂN TẠO VÀ ỨNG DỤNG CHO LỌC THƢ RÁC LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái Nguyên - 2015 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG Phùng Thị Thu Trang HỆ MIỄN DỊCH NHÂN TẠO VÀ ỨNG DỤNG CHO LỌC THƢ RÁC Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60 48 01 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH HƢỚNG DẪN KHOA HỌC: TS VŨ MẠNH XUÂN Thái Nguyên - 2015 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn i LỜI CAM ĐOAN Tôi xin cam đoan luận văn tự thân tơi tìm hiểu, nghiên cứu hướng dẫn TS Vũ Mạnh Xuân Các chương trình thực nghiệm thân tơi lập trình, kết hoàn toàn trung thực Các tài liệu tham khảo trích dẫn thích đầy đủ TÁC GIẢ LUẬN VĂN Phùng Thị Thu Trang Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ii LỜI CẢM ƠN Tôi xin bày tỏ lời cảm ơn chân thành tới tập thể thầy cô giáo Viện công nghệ thông tin – Viện Hàn lâm Khoa học Công nghệ Việt Nam, thầy cô giáo Trường Đại học Công nghệ thông tin truyền thông - Đại học Thái Nguyên dạy dỗ chúng tơi suốt q trình học tập chương trình cao học trường Đặc biệt tơi xin bày tỏ lòng biết ơn sâu sắc tới thầy giáo TS Vũ Mạnh Xuân quan tâm, định hướng đưa góp ý, gợi ý, chỉnh sửa q báu cho tơi q trình làm luận văn tốt nghiệp Cũng bạn bè, đồng nghiệp, gia đình người thân quan tâm, giúp đỡ chia sẻ với tơi suốt q trình làm luận văn tốt nghiệp Dù có nhiều cố gắng chắn khơng tránh khỏi thiếu sót mong nhận đóng góp ý kiến thầy, cô bạn để luận văn hồn thiện Tơi xin chân thành cảm ơn! Thái Nguyên, tháng 08 năm 2015 Phùng Thị Thu Trang Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn iii MỤC LỤC DANH MỤC CÁC HÌNH VẼ vi DANH MỤC CÁC BẢNG vii MỞ ĐẦU .8 Chương NGHI N C U T NG QUAN VỀ TH RÁC 1.1 Giới thiệu thư rác 1.1.1 Lịch sử 1.1.2 Định nghĩa 1.1.3 Mục đích gửi thư rác 1.1.4 Các đặc tính thư rác 1.1.5 Các kỹ thuật tạo thư rác 1.2 Các kỹ thuật phát ngăn chặn thư rác .8 1.2.1 Kỹ thuật blacklisting 1.2.2 Kỹ thuật whitelisting 1.2.3 Kỹ thuật heuristic filtering 11 1.2.4 Kỹ thuật challenge/ response 13 1.2.5 Phân tích định hướng phát triển ứng dụng thử nghiệm 14 1.3 Kỹ thuật dùng học máy 15 1.3.1 Support vector Machine (SVM) 16 1.3.2 K–Nearest Neighbor (kNN) 18 1.3.3 Naïve Bayes (NB) 19 1.3.4 Mạng Neural (Nnet) 21 Chương HỆ MIỄN DỊCH NHÂN TẠO 23 2.1 Hệ miễn dịch 23 2.1.1 Hệ miễn dịch sinh học 23 2.1.2 Hệ miễn dịch nhân tạo 27 2.2 Một số định nghĩa .31 2.2.1 Self 32 2.2.2 NonSelf 32 2.2.3 Bộ dò 32 2.2.4 Tập dò ChunkD(S, r) ContD(S, r) 32 2.2.5 Khả phát tập dò 33 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn iv 2.2.6 Hole 34 2.3 Thuật tốn sinh tập dị r-chunk .34 2.3.1 Thuật toán 35 2.3.2 Độ phức tạp thuật toán 36 2.4 Thuật tốn sinh tập dị dạng r – contiguous 38 2.4.1 Thuật toán 38 2.4.2 Độ phức tạp thuật toán 39 2.5 Các nghiên cứu gần .42 Chương CÀI ĐẶT THỬ NGHIỆM .44 3.1 ng dụng hệ miễn dịch nhân tạo lọc thư rác 44 3.1.1 Phát biểu toán 44 3.1.2 Cơ sở liệu TREC'07 45 3.1.3 Thiết kế phần mềm 46 3.1.4.Phân tích thuật tốn 47 3.1.5 Giao diện chương trình kết 48 3.1.6 Đánh giá 51 3.2 So sánh với thuật toán WEKA .51 3.2.1 Phát biểu toán 51 3.2.2 Cơ sở liệu SpamBase 52 3.2.3 Phần mềm WEKA 54 3.2.4 Thiết kế phần mềm 57 3.2.5 Phân tích thuật tốn 58 3.2.6 Giao diện chương trình kết 61 3.2.7 Đánh giá 65 KẾT LUẬN .67 DANH MỤC CÁC CƠNG TRÌNH CƠNG BỐ .69 TÀI LIỆU THAM KHẢO 70 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn v DANH SÁCH KÍ HIỆU, TỪ VIẾT TĂT Viết tắt Viết đầy đủ |X| Lực lượng tập X CSDL Cơ sở liệu HAM Thư bình thường HMD Hệ miễn dịch ISP Internet Service Provider MHC Major Histocompatibility Complex NSA Negative Selection Algorithm-Thuật toán chọn lọc tiêu cực SPAM Thư rác SVM Support vector Machine WEKA Waikato Environment for Knowledge Analysis Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn vi DANH MỤC CÁC HÌNH VẼ Hình 1.1: So sánh thư rác với thư điện tử khác Hình 1.2 Mơ hình SVM 17 Hình 1.3 Siêu phẳng h phân chia liệu 17 Hình 2.1 Các tầng miễn dịch sinh học 24 Hình 2.2 Một số quan hệ miễn dịch sinh học 26 Hình 2.3 Cấu trúc phân tầng HMD nhân tạo 27 Hình 2.4 Sơ đồ khối thuật tốn chọn lọc tích cực 29 Hình 2.5 Sơ đồ khối thuật tốn chọn lọc tiêu cực 31 Hình 3.1 Giao diện chương trình lọc spam CSDL TREC'07 49 Hình 3.2 Kết trình test 50 Hình 3.3 Giao diện phần mềm Weka 55 Hình 3.4 Giao diện Weka Explorer 55 Hình 3.5 Giao diện Weka Explorer sau chọn CSDL Spambase 56 Hình 3.6 Phân loại liệu 57 Hình 3.7 Giao diện chương trình 61 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn vii DANH MỤC CÁC BẢNG Bảng 1.1 Các phần mềm chống thư rác 14 Bảng 2.1 Sự tương quan hệ miễn dịch với môi trường mạng 31 Bảng 3.1 Kết chạy chương trình với test 50 Bảng 3.2 So sánh kết 51 Bảng 3.3 Kết thử nghiệm WEKA NSA 63 Bảng 3.4 So sánh NSA với số phương pháp cho kết tốt 63 Bảng 3.5 So sánh NSA với số phương pháp cho kết thấp 64 Bảng 3.6 Kết so khớp với giá trị tham số r thay đổi 65 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn viii MỞ ĐẦU Email phương tiện truyền thông phổ biến nay, ngày giới có hàng tỉ email gửi số nửa dạng thư rác (email spam) Email spam email gửi với số lượng lớn nhằm mục đích quảng cáo, ăn cắp thông tin, lây lan virus… Đây email mà người nhận khơng mong đợi Có nhiều kỹ thuật lọc thư rác khác như: Blacklisting, Whitelisting, Heuristic filtering, Challenge/ Response, Throttling, Address obfuscation, Collaborative filtering,…Tuy nhiên, đa số phần mềm chống thư rác dựa header thư địa từ người gửi nhằm tăng tốc độ Các phương pháp học máy gần quan tâm nhiều chúng có khả thích nghi cao với tiến hóa thư rác phương pháp dựa xác suất Naïve Bayes, phương pháp học máy vectơ hỗ trợ (Support vector machine), phương pháp phân loại dựa láng giềng gần (k-nearest neighbors) Hệ miễn dịch nhân tạo hệ thống thích nghi lấy ý tưởng học thuyết miễn dịch chức năng, ngun tắc, mơ hình miễn dịch quan sát được, áp dụng giải tốn thực tế Nó có nhiều ứng dụng khác nhau, chủ yếu áp dụng vào lĩnh vực an ninh mạng an ninh máy tính Với lý trên, đề tài “Hệ miễn dịch nhân tạo ứng dụng cho lọc thư rác” tập trung nghiên cứu hệ miễn dịch nhân tạo ứng dụng số kỹ thuật cải tiến thuật toán miễn dịch áp dụng cho toán lọc thư rác để áp dụng cho khơng gian liệu lớn Đối tƣợng phạm vi nghiên cứu - Nghiên cứu lý thuyết hệ miễn dịch sinh học hệ miễn dịch nhân tạo Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 57 Hình 3.6 Phân loại liệu - Bước Chọn hàm, luật,… phân loại mục Classify nhấn nút Choose Thiết lập số tùy chọn mục Test options, ta chọn sử dụng phương pháp Cross-validation - Bước Nhấn nút Start để thực hiện, theo dõi kết vùng Classifier output Để tìm hiểu chức khác phần mềm Weka chi tiết cách sử dụng bạn đọc tìm hiểu tại: https://www.cs.waikato.ac.nz/ml/weka/ 3.2.4 Thiết kế phần mềm Việc thử nghiệm chương trình thực theo quy tắc: Tenfold cross validation, thực sau: Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 58 - Bước 1: Chia email thường file nguồn (HAM.txt) ngẫu nhiên thành 10 phần email SPAM file nguồn (SPAM.txt) thành 10 phần tương ứng 10 file email HAM 10 file email SPAM - Bước 2: Đọc số liệu file email thường để huấn luyện - Bước 3: Tiến hành kiểm tra (testing), thực với file email thường lại tất email SPAM Số lượng email HAM email SPAM mà chương trình phát tính tốn quy đổi số liệu: DR = TP/(TP + FN) FPR = FP/(TN + FP) Acc = (TP + TN) /(TP + TN + FP + FN) Chương trình thực lặp bước hai ba mười lần, lần tính tốn cho số liệu Sau lấy giá trị trung bình mười lần tính tốn 3.2.5 Phân tích thuật tốn 3.2.5.1 Q trình chia file nguồn (Split file) Input: file chứa số liệu thống kê 58 thuộc tính email HAM - HAM.txt Output: 10 file email HAM: HSub 1.txt, HSub 2.txt, …, HSub 10.txt Thuật toán Trong sở liệu Spambase Data Set sử dụng có số liệu thống kê thuộc tính 4601 email ghi dịng Trong đó, có 1813 email SPAM 2788 email HAM, ta tạo file HAM.txt chứa 2788 email HAM SPAM.txt chứa 1813 email SPAM Sử dụng nút Open File HAM giao diện để tìm đường dẫn tới file HAM.txt Quá trình chia sau: - Kiểm tra thư mục bin\Debug có file HSub i.txt SSub i.txt (i=1,…,10) chưa, chưa có tạo file Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 59 - Lần lượt đọc dòng file HAM.txt, sinh ngẫu nhiên số nn [1,10] ghi dòng liệu vào file: HSub nn.txt - Đóng file vừa tạo 3.2.5.2 Quá trình huấn luyện – Tạo tập dò (Training) Input: Chọn 10 file: HSub i.txt (i=1,…,10) Output: Tập dò lưu bảng băm kích thước: 2r.(ℓ-r+1) Thuật tốn Q trình huấn luyện sau: - Đọc dòng file đầu vào, từ tạo mảng chuỗi lưu trữ giá trị 57 thuộc tính (trừ thuộc tính cuối) - Thống kê lại chuỗi thuộc tính cho khơng giá trị trùng - Chuyển đổi theo quy tắc dãy thuộc tính sang dạng dãy nhị phân - Mỗi thuộc tính email ứng với dãy nhị phân, kết hợp dãy nhị phân 57 thuộc tính lại ta dãy nhị phân email giá trị dòng liệu file chuyển sang dạng nhị phân có độ dài - Duyệt ℓ - r + dãy độ dài r dãy nhị phân, áp dụng cách tính tốn phương pháp tạo tập dị bảng băm để xây dựng bảng A 3.2.5.3 Quá trình kiểm tra – phân biệt HAM/SPAM (testing) Input: Bảng băm tạo; File email HAM lại file emailSPAM.txt Output: Các số liệu: Acc, DR, FPR Thuật toán Thiết lập thơng số sau có giá trị 0: TN, FP, TP, FN, Acc, DR, FPR *) Kiểm tra khả phát email HAM Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 60 - Đọc dòng liệu file email HAM lại, ta dựng dãy nhị phân dựa vào mảng chứa dãy nhị phân tạo trình huấn luyện cho dịng liệu Từ ta có dãy nhị phân email - Chuyển ℓ - r + dãy nhị phân độ dài r email từ hệ nhị phân sang hệ số 10 lưu số nguyên k + Nếu xuất trường hợp A[k, j]= (các đoạn bit từ j đến bit thứ j + r - với j=1,…, ℓ - r + 1) tăng giá trị FP thêm (kết luận email kiểm tra SPAM) + Nếu toàn A[k, j]= tăng giá trị TN thêm (kết luận email kiểm tra HAM) *) Kiểm tra khả phát email SPAM - Đọc dòng liệu file thư SPAM: SPAM.txt, ta dựng dãy nhị phân dựa vào mảng chứa dãy nhị phân tạo trình huấn luyện cho dịng liệu Từ ta có dãy nhị phân email - Chuyển ℓ - r + dãy nhị phân độ dài r email từ hệ nhị phân sang hệ số 10 lưu số nguyên k + Nếu xuất trường hợp A[k, j]= (các đoạn bit từ j đến bit thứ j + r - với j=1,…, ℓ - r + 1) tăng giá trị TP thêm (kết luận email kiểm tra SPAM) + Nếu toàn A[k, j]= tăng giá trị FN thêm (kết luận email kiểm tra HAM) *) Sau trình kiểm tra trên, tính tốn thơng số: DR, FPR, Acc Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 61 3.2.6 Giao diện chƣơng trình kết Hình 3.7 Giao diện chƣơng trình Chức đối tượng giao diện: - Nút Open File HAM…: Mở file email HAM - Nút Open File SPAM…: Mở file email SPAM - Hộp Select a value r: Đặt giá trị cho r - Nút Split File: Chia file nguồn chương trình (file email HAM – HAM.txt, file emailSPAM – SPAM.txt) - Nút Test: + Tạo tập dò từ file email HAM + Cho file email HAM cịn lại (khơng sử dụng để tạo dị) file email SPAM qua tập dò thực so khớp + Tính tốn kết luận khả phát tập dò, hiển thị kết vùng Results - Nút Exit: Thoát khỏi chương trình Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 62 Sau kết thử nghiệm hàm, luật,… WEKA chương trình sử dụng NSA sở liệu Spambase Với 100% email HAM email SPAM đưa vào trình phân loại Với giá trị r = 8, chương trình sử dụng NSA cho kết sau: Trong 2788 email HAM, chương trình sử dụng NSA cho kết quả: - Số lượng email HAM phân loại TN = 2668 - Số lượng email phân loại sai thành email SPAM FP = 120 Trong 1813 email SPAM, chương trình sử dụng NSA cho kết quả: - Số lượng email SPAM phân loại TP = 1499 - Số lượng email phân loại sai thành email HAM FN = 314 Và kết quả: - DR: 82.67% - FPR: 4.31% - Acc: 90.56% Các phương pháp phân loại WEKA sử dụng toàn 2788 email HAM 1813 email SPAM vào trình kiểm tra (phát hiện, phân loại) nên chương trình NSA sử dụng toàn email HAM email SPAM thay sử dụng file email HAM chưa dùng vào trình huấn luyện + email SPAM (Đơn vị tính thơng số DR, FPR, Acc: %) Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 63 Bảng 3.3 Kết thử nghiệm WEKA NSA Phƣơng pháp TP TN FN FP DR FPR Acc BayessianLogisticRegression 1758 1986 55 802 96.97 28.77 81.37 NaiveBayesUpdateable 1725 1923 88 865 95.15 31.03 79.29 bayes.DMNBtext 1617 2662 196 126 89.19 4.52 93.00 functions.logistic 1607 2645 206 143 88.64 5.13 92.41 functions.RBFNetwork 1568 2143 245 645 86.49 23.13 80.66 funtions.Spegasos 1544 2661 269 127 85.16 4.56 91.39 lazy.TB1 1592 2585 221 203 87.81 7.28 90.78 11 0.39 63.90 misc.HyperPipes 163 2777 1650 8.99 rules.ComnunctiveRule 1276 2437 537 351 70.38 12.59 80.70 trees.RandomTree 1621 2563 192 225 89.41 8.07 90.94 NSA 1499 2668 314 120 82.67 4.31 90.56 Dựa vào bảng ta thấy: - Phương pháp NSA cho kết xác 90% nằm phương pháp cho kết xác Bảng 3.4 So sánh NSA với số phƣơng pháp cho kết tốt Phƣơng pháp TP TN FN FP DR FPR Acc bayes.DMNBtext 1617 2662 196 126 89.19 4.52 93.00 functions.logistic 1607 2645 206 143 88.64 5.13 92.41 functions.Spegasos 1544 2661 269 127 85.16 4.56 91.39 lazy.TB1 1592 2585 221 203 87.81 7.28 90.78 trees.RandomTree 1621 2563 192 225 89.41 8.07 90.94 NSA 1499 2668 314 120 82.67 4.31 90.56 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 64 Ta nhận thấy rằng, phương pháp NSA cho kết xấp xỉ với phương pháp WEKA độ xác tổng thể NSA có khả phát email SPAM thể thông số TP FN.Tuy nhiên, NSA phân loại email HAM tốt hơn, thể thông số TN, FP - NSA cho kết cao độ xác tổng thể so với phương pháp bảng dưới: Bảng 3.5 So sánh NSA với số phƣơng pháp cho kết thấp Phƣơng pháp TP TN FN FP DR FPR Acc BayessianLogisticRegression 1758 1986 55 802 96.97 28.77 81.37 NaiveBayesUpdateable 1725 1923 88 865 95.15 31.03 79.29 functions.RBFNetwork 1568 2143 245 645 86.49 23.13 80.66 misc.HyperPipes 163 2777 1650 11 8.99 0.39 63.90 rules.ComnunctiveRule 1276 2437 537 351 70.38 12.59 80.70 NSA 1499 2668 314 120 82.67 Các phương pháp 4.31 90.56 BayessianLogisticRegression, NaiveBayesUpdateable cho khả phát email SPAM tốt, kéo theo nhiều email HAM bị phân loại thành email SPAM thể hiện: 2788 email HAM BayessianLogisticRegression có 802 email bị coi email SPAM, NaiveBayesUpdateable có 865 email bị coi email SPAM Thơng thường, email HAM có chứa thơng tin quan trọng hơn, việc email HAM phân loại thành email SPAM gây lo ngại so với việc email SPAM bị phân loại nhầm thành email HAM Xét mặt này, NSA cho khả phân loại tốt phương pháp Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 65 3.2.7 Đánh giá Khả phát chương trình phụ thuộc vào độ chặt chẽ bảng băm A, bảng A có mức độ chặt chẽ cao hay thấp tùy thuộc vào việc ta đặt giá trị r Giá trị r cao mức độ kiểm tra (so khớp) chặt chẽ ngược lại Trong chương trình, thử nghiệm giá trị r đoạn [7,10], đoạn giá trị dò cho kết tốt Bảng 3.6 Kết so khớp với giá trị tham số r thay đổi r DR (%) FPR (%) Acc (%) Thời gian (s) 75.50 29.62 74.82 24.7 82.34 42.52 79.15 25.59 87.77 54.41 82.15 24.95 10 91.81 60.51 84.84 26.57 Việc lựa chọn 9/10 file email HAM để huấn luyện file email HAM cịn lại đưa vào q trình test với file email SPAM lựa chọn ngẫu nhiên, nên kết lần chạy có khác nhau, nhiên số liệu DR, FPR, Acc thời gian chạy không chênh lệch lớn Với kết ta có nhận xét: - Về khả phát hiện: Với r lớn kích thước dị (bảng A) lớn, đồng nghĩa với việc mức độ kiểm tra, so khớp chặt chẽ Do vậy, r lớn xác suất email HAM bị phân loại thành email SPAM lớn Và ngược lại, r Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 66 nhỏ mức độ kiểm tra chặt chẽ hơn, dẫn đến nhiều email SPAM phân loại email HAM Những email HAM mang tính quan trọng nhiều, phân loại email HAM email SPAM, cần lựa chọn giá trị r hợp lí để email HAM bị phân loại thành email SPAM Làm để tìm giá trị r hợp lý hướng phát triển tốt - Về thời gian chạy chương trình: Thời gian chạy chương trình tùy thuộc vào kích thước bảng băm chủ yếu, với giá trị r lớn bảng băm có kích thước lớn nên việc tạo bảng lâu Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 67 KẾT LUẬN Đề tài đạt kết sau đây: - Tìm hiểu tổng quan thư rác, phương pháp phân loại thư rác sử dụng như: blacklisting, whitelisting, heuristic filtering, challenge/ response… Các phương pháp học máy như: SVM, Naive Bayes, kNN, Nnet Đồng thời đánh giá ưu nhược điểm phương pháp - Tìm hiểu hệ miễn dịch sinh học hệ miễn dịch nhân tạo, khái niệm như: Self, Nonself, dị…một số thuật tốn hệ miễn dịch nhân tạo - Nghiên cứu thuật toán chọn lọc tiêu cực dạng r-chunk r-contiguous đưa phương pháp ứng dụng thuật toán cho trình phân loại thư rác - Xây dựng chương trình mơ sử dụng thuật tốn chọn lọc tiêu cực hệ miễn dịch nhân tạo áp dụng vào trình huấn luyện phân loại thư rác, đồng thời đánh giá chương trình thơng số như: TP, TN, FP, FN độ đo như: DR, FPR Acc - Thử nghiệm phương pháp sinh tập dò dạng r-chunk với liệu chuẩn TREC'07, SpamBase so sánh kết với số phương pháp học máy khác Hướng phát triển - Cần nghiên cứu khâu tiền xử lý văn bản, xây dựng mẫu huấn luyện tiêu chuẩn lựa chọn tham số hợp lý cho ℓ r để nâng cao độ xác phân loại giải thuật - Nâng khả lọc thư rác với loại email chứa nội dung hình ảnh, ký tự lạ,…và có đính kèm tệp tin Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 68 - Kết hợp với thuật toán học máy khác để cải thiện hiệu suất độ xác - Xây dựng hệ thống Webmail cho quan tổ chức tích hợp lọc vào hệ thống - Xây dựng lọc theo mức độ phù hợp cho số nhóm đối tượng cụ thể như: chung sở thích, nơi làm việc, lĩnh vực nghiên cứu… Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 69 DANH MỤC CÁC CƠNG TRÌNH CÔNG BỐ [1] Vu Duc Quang, Vu Manh Xuan, Nguyen Van Truong, Phung Thi Thu Trang (2015), Email SPAM Filtering Using R-Chunk Detector-Based Negative Selection Algorithm, Journal of Science and Technology, Thai Nguyen University, 135 (05), 185-189 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 70 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Nguyễn Xuân Hoài, Nguyễn Văn Trường, Vũ Mạnh Xuân, (2007), Hệ miễn dịch nhân tạo ứng dụng, Tạp chí Khoa học Cơng nghệ Đại học Thái Nguyên, 13-18 [2] Phạm Đình Lựu, (2005), Sinh Lý Học Y Khoa, Đại Học Y Dược TP Hồ Chí Minh [3] Lương Quốc Sơn, (2012), Nghiên cứu xây dựng lọc thư rác hỗ trợ song ngữ Anh – Việt, Luận văn Thạc sĩ CNTT, Đại học Lạc Hồng Tiếng Anh [4] Csaba Gulyás, (2006), Creation of a Bayesian network-based meta SPAM filter, using the analysis of different SPAM filters [5] Forrest et al, Self-Nonself Discrimination in a Computer, (1994), in Proceedings of 1994 IEEE Symposium on Research in Security and Privacy, Oakland, CA, 202-212 [6] Jonathan A Zdziarski, Ending Spam, (2005), Bayesian Content Filtering and the Art of Statistical Language Classification, No Starch Press [7] M Elberfeld, J Textor, (2009), Efficient algorithms for string-based negative selection, Proceedings of the 8th International Conference on Artificial Immune Systems, LNCS 5666, 109-121 [8] Mike Spykerman, Typical SPAM characteristics, Red Earth Software, 2003 [9] T Stibor et al, (2004), An investigation of r-chunk detector generation on higher alphabets, GECCO 2004, LNCS 3102, 299-30 [10] Tarek M Mahmoud, Alaa Ismail El Nashar, Tarek Abd-El-Hafeez, Marwa Khairy, (2014), “An Efficient Three-phase Email SPAM Filtering Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn 71 Technique”, British Journal of Mathematics & Computer Science4(9): 11841201 [11] Terri Oda, (2005), A SPAM-Detecting Artificial ImmuneSystem, Master of Computer Science, Carleton University, Ottawa, Canada Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn ... pháp lọc thư rác - Nghiên cứu ứng dụng hệ miễn dịch nhân tạo trình huấn luyện liệu lọc thư rác - Lập trình thử nghiệm lọc thư rác ứng dụng Hệ miễn dịch nhân tạo - So sánh phương pháp sử dụng hệ miễn. .. nhau, chủ yếu áp dụng vào lĩnh vực an ninh mạng an ninh máy tính Với lý trên, đề tài ? ?Hệ miễn dịch nhân tạo ứng dụng cho lọc thư rác? ?? tập trung nghiên cứu hệ miễn dịch nhân tạo ứng dụng số kỹ thuật... tiến thuật toán miễn dịch áp dụng cho toán lọc thư rác để áp dụng cho khơng gian liệu lớn Đối tƣợng phạm vi nghiên cứu - Nghiên cứu lý thuyết hệ miễn dịch sinh học hệ miễn dịch nhân tạo Số hóa Trung