(Luận văn) hệ miễn dịch nhân tạo và ứng dụng cho lọc thư rác

ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG Phùng Thị Thu Trang lu an n va gh tn to HỆ MIỄN DỊCH NHÂN TẠO VÀ ỨNG DỤNG p ie CHO LỌC THƢ RÁC d oa nl w u nf va an lu ll LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH oi m z at nh z m co l gm @ an Lu Thái Nguyên - 2015 n va ac th Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn si ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG Phùng Thị Thu Trang lu an n va HỆ MIỄN DỊCH NHÂN TẠO VÀ ỨNG DỤNG to p ie gh tn CHO LỌC THƢ RÁC oa nl w Chuyên ngành: KHOA HỌC MÁY TÍNH d Mã số: 60 48 01 01 nf va an lu lm ul z at nh oi LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH z @ m co l gm HƢỚNG DẪN KHOA HỌC: TS VŨ MẠNH XUÂN an Lu Thái Nguyên - 2015 n va ac th Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn si i LỜI CAM ĐOAN Tôi xin cam đoan luận văn tự thân tơi tìm hiểu, nghiên cứu hướng dẫn TS Vũ Mạnh Xuân Các chương trình thực nghiệm thân tơi lập trình, kết hồn tồn trung thực Các tài liệu tham khảo trích dẫn thích đầy đủ TÁC GIẢ LUẬN VĂN lu an n va p ie gh tn to Phùng Thị Thu Trang d oa nl w nf va an lu z at nh oi lm ul z m co l gm @ an Lu http://www.lrc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN ac th si ii LỜI CẢM ƠN Tôi xin bày tỏ lời cảm ơn chân thành tới tập thể thầy cô giáo Viện công nghệ thông tin – Viện Hàn lâm Khoa học Công nghệ Việt Nam, thầy cô giáo Trường Đại học Công nghệ thông tin truyền thông - Đại học Thái Nguyên dạy dỗ suốt trình học tập chương trình cao học trường lu Đặc biệt tơi xin bày tỏ lịng biết ơn sâu sắc tới thầy giáo TS Vũ Mạnh an Xuân quan tâm, định hướng đưa góp ý, gợi ý, chỉnh sửa quý va n báu cho tơi q trình làm luận văn tốt nghiệp Cũng bạn bè, tn to đồng nghiệp, gia đình người thân quan tâm, giúp đỡ chia sẻ với tơi Dù có nhiều cố gắng chắn không tránh khỏi p ie gh suốt trình làm luận văn tốt nghiệp nl w thiếu sót mong nhận đóng góp ý kiến thầy, d oa bạn để luận văn hồn thiện lu nf va an Tơi xin chân thành cảm ơn! z at nh oi lm ul Thái Nguyên, tháng 08 năm 2015 z m co l gm @ Phùng Thị Thu Trang an Lu http://www.lrc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN ac th si iii MỤC LỤC DANH MỤC CÁC HÌNH VẼ vi DANH MỤC CÁC BẢNG vii MỞ ĐẦU .8 Chương NGHI N C U T NG QUAN VỀ TH RÁC 1.1 Giới thiệu thư rác 1.1.1 Lịch sử 1.1.2 Định nghĩa 1.1.3 Mục đích gửi thư rác 1.1.4 Các đặc tính thư rác lu an n va p ie gh tn to 1.1.5 Các kỹ thuật tạo thư rác 1.2 Các kỹ thuật phát ngăn chặn thư rác .8 1.2.1 Kỹ thuật blacklisting 1.2.2 Kỹ thuật whitelisting 1.2.3 Kỹ thuật heuristic filtering 11 1.2.4 Kỹ thuật challenge/ response 13 1.2.5 Phân tích định hướng phát triển ứng dụng thử nghiệm 14 1.3 Kỹ thuật dùng học máy 15 nl w d oa 1.3.1 Support vector Machine (SVM) 16 1.3.2 K–Nearest Neighbor (kNN) 18 1.3.3 Naïve Bayes (NB) 19 1.3.4 Mạng Neural (Nnet) 21 Chương HỆ MIỄN DỊCH NHÂN TẠO 23 2.1 Hệ miễn dịch 23 nf va an lu z at nh oi lm ul z 2.1.1 Hệ miễn dịch sinh học 23 2.1.2 Hệ miễn dịch nhân tạo 27 2.2 Một số định nghĩa .31 2.2.1 Self 32 2.2.2 NonSelf 32 2.2.3 Bộ dò 32 2.2.4 Tập dò ChunkD(S, r) ContD(S, r) 32 2.2.5 Khả phát tập dò 33 m co l gm @ an Lu http://www.lrc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN ac th si iv 2.2.6 Hole 34 2.3 Thuật tốn sinh tập dị r-chunk .34 2.3.1 Thuật toán 35 2.3.2 Độ phức tạp thuật toán 36 2.4 Thuật tốn sinh tập dị dạng r – contiguous 38 2.4.1 Thuật toán 38 2.4.2 Độ phức tạp thuật toán 39 2.5 Các nghiên cứu gần .42 lu an n va ie gh tn to Chương CÀI ĐẶT THỬ NGHIỆM .44 3.1 ng dụng hệ miễn dịch nhân tạo lọc thư rác 44 3.1.1 Phát biểu toán 44 3.1.2 Cơ sở liệu TREC'07 45 3.1.3 Thiết kế phần mềm 46 3.1.4.Phân tích thuật tốn 47 3.1.5 Giao diện chương trình kết 48 3.1.6 Đánh giá 51 p 3.2 So sánh với thuật toán WEKA .51 3.2.1 Phát biểu toán 51 3.2.2 Cơ sở liệu SpamBase 52 3.2.3 Phần mềm WEKA 54 3.2.4 Thiết kế phần mềm 57 d oa nl w an lu nf va 3.2.5 Phân tích thuật tốn 58 3.2.6 Giao diện chương trình kết 61 3.2.7 Đánh giá 65 lm ul z at nh oi KẾT LUẬN .67 DANH MỤC CÁC CÔNG TRÌNH CƠNG BỐ .69 TÀI LIỆU THAM KHẢO 70 z m co l gm @ an Lu http://www.lrc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN ac th si v DANH SÁCH KÍ HIỆU, TỪ VIẾT TĂT lu Viết đầy đủ |X| Lực lượng tập X CSDL Cơ sở liệu HAM Thư bình thường HMD Hệ miễn dịch ISP Internet Service Provider MHC Major Histocompatibility Complex NSA Negative Selection Algorithm-Thuật toán chọn lọc tiêu cực an Viết tắt n va gh tn to Thư rác p ie SPAM Support vector Machine d WEKA oa nl w SVM Waikato Environment for Knowledge Analysis nf va an lu z at nh oi lm ul z m co l gm @ an Lu http://www.lrc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN ac th si vi DANH MỤC CÁC HÌNH VẼ lu an n va p ie gh tn to Hình 1.1: So sánh thư rác với thư điện tử khác Hình 1.2 Mơ hình SVM 17 Hình 1.3 Siêu phẳng h phân chia liệu 17 Hình 2.1 Các tầng miễn dịch sinh học 24 Hình 2.2 Một số quan hệ miễn dịch sinh học 26 Hình 2.3 Cấu trúc phân tầng HMD nhân tạo 27 Hình 2.4 Sơ đồ khối thuật tốn chọn lọc tích cực 29 Hình 2.5 Sơ đồ khối thuật toán chọn lọc tiêu cực 31 Hình 3.1 Giao diện chương trình lọc spam CSDL TREC'07 49 Hình 3.2 Kết trình test 50 Hình 3.3 Giao diện phần mềm Weka 55 Hình 3.4 Giao diện Weka Explorer 55 Hình 3.5 Giao diện Weka Explorer sau chọn CSDL Spambase 56 Hình 3.6 Phân loại liệu 57 Hình 3.7 Giao diện chương trình 61 d oa nl w nf va an lu z at nh oi lm ul z m co l gm @ an Lu http://www.lrc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN ac th si vii DANH MỤC CÁC BẢNG lu Bảng 1.1 Các phần mềm chống thư rác 14 Bảng 2.1 Sự tương quan hệ miễn dịch với môi trường mạng 31 Bảng 3.1 Kết chạy chương trình với test 50 Bảng 3.2 So sánh kết 51 Bảng 3.3 Kết thử nghiệm WEKA NSA 63 Bảng 3.4 So sánh NSA với số phương pháp cho kết tốt 63 Bảng 3.5 So sánh NSA với số phương pháp cho kết thấp 64 Bảng 3.6 Kết so khớp với giá trị tham số r thay đổi 65 an n va p ie gh tn to d oa nl w nf va an lu z at nh oi lm ul z m co l gm @ an Lu http://www.lrc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN ac th si viii MỞ ĐẦU Email phương tiện truyền thông phổ biến nay, ngày giới có hàng tỉ email gửi số nửa dạng thư rác (email spam) Email spam email gửi với số lượng lớn nhằm mục đích quảng cáo, ăn cắp thông tin, lây lan virus… Đây email mà người nhận khơng mong đợi Có nhiều kỹ thuật lọc thư rác khác như: Blacklisting, lu Whitelisting, Heuristic filtering, Challenge/ Response, Throttling, Address an obfuscation, Collaborative filtering,…Tuy nhiên, đa số phần mềm chống va n thư rác dựa header thư địa từ người gửi nhằm tăng tốc độ gh tn to Các phương pháp học máy gần quan tâm nhiều chúng có khả ie thích nghi cao với tiến hóa thư rác phương pháp dựa xác p suất Naïve Bayes, phương pháp học máy vectơ hỗ trợ (Support vector neighbors) d oa nl w machine), phương pháp phân loại dựa láng giềng gần (k-nearest an lu Hệ miễn dịch nhân tạo hệ thống thích nghi lấy ý tưởng học nf va thuyết miễn dịch chức năng, ngun tắc, mơ hình miễn dịch quan lm ul sát được, áp dụng giải toán thực tế Nó có nhiều ứng dụng khác nhau, z at nh oi chủ yếu áp dụng vào lĩnh vực an ninh mạng an ninh máy tính Với lý trên, đề tài “Hệ miễn dịch nhân tạo ứng dụng cho lọc thư rác” tập trung nghiên cứu hệ miễn dịch nhân tạo ứng dụng số kỹ z thuật cải tiến thuật toán miễn dịch áp dụng cho toán lọc thư rác để co l gm Đối tƣợng phạm vi nghiên cứu @ áp dụng cho không gian liệu lớn m - Nghiên cứu lý thuyết hệ miễn dịch sinh học hệ miễn dịch nhân tạo an Lu http://www.lrc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN ac th si 57 lu an n va tn to - Bước Chọn hàm, luật,… phân loại mục Classify nhấn nút p ie gh Hình 3.6 Phân loại liệu w Choose Thiết lập số tùy chọn mục Test options, ta chọn sử oa nl dụng phương pháp Cross-validation d - Bước Nhấn nút Start để thực hiện, theo dõi kết vùng Classifier nf va an lu output Để tìm hiểu chức khác phần mềm Weka chi tiết cách sử lm ul dụng bạn đọc tìm hiểu tại: https://www.cs.waikato.ac.nz/ml/weka/ z at nh oi z gm @ 3.2.4 Thiết kế phần mềm m co validation, thực sau: l Việc thử nghiệm chương trình thực theo quy tắc: Tenfold cross an Lu http://www.lrc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN ac th si 58 - Bước 1: Chia email thường file nguồn (HAM.txt) ngẫu nhiên thành 10 phần email SPAM file nguồn (SPAM.txt) thành 10 phần tương ứng 10 file email HAM 10 file email SPAM - Bước 2: Đọc số liệu file email thường để huấn luyện - Bước 3: Tiến hành kiểm tra (testing), thực với file email thường lại tất email SPAM Số lượng email HAM email SPAM mà chương trình phát tính tốn quy đổi số liệu: DR = TP/(TP + FN) lu FPR = FP/(TN + FP) an Acc = (TP + TN) /(TP + TN + FP + FN) va n Chương trình thực lặp bước hai ba mười lần, lần tính gh tn to tốn cho số liệu Sau lấy giá trị trung bình mười lần tính tốn ie 3.2.5 Phân tích thuật tốn p 3.2.5.1 Q trình chia file nguồn (Split file) nl w Input: file chứa số liệu thống kê 58 thuộc tính email HAM - HAM.txt an lu Thuật toán d oa Output: 10 file email HAM: HSub 1.txt, HSub 2.txt, …, HSub 10.txt nf va Trong sở liệu Spambase Data Set sử dụng có số liệu thống kê lm ul thuộc tính 4601 email ghi dịng Trong đó, có 1813 email z at nh oi SPAM 2788 email HAM, ta tạo file HAM.txt chứa 2788 email HAM SPAM.txt chứa 1813 email SPAM Sử dụng nút Open File HAM giao diện để tìm đường dẫn tới file z l gm Quá trình chia sau: @ HAM.txt co - Kiểm tra thư mục bin\Debug có file HSub i.txt m SSub i.txt (i=1,…,10) chưa, chưa có tạo file an Lu http://www.lrc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN ac th si 59 - Lần lượt đọc dòng file HAM.txt, sinh ngẫu nhiên số nn  [1,10] ghi dòng liệu vào file: HSub nn.txt - Đóng file vừa tạo 3.2.5.2 Quá trình huấn luyện – Tạo tập dị (Training) Input: Chọn 10 file: HSub i.txt (i=1,…,10) Output: Tập dị lưu bảng băm kích thước: 2r.(ℓ-r+1) Thuật tốn Q trình huấn luyện sau: lu - Đọc dòng file đầu vào, từ tạo mảng chuỗi lưu trữ an giá trị 57 thuộc tính (trừ thuộc tính cuối) va n - Thống kê lại chuỗi thuộc tính cho khơng giá trị trùng - Chuyển đổi theo quy tắc dãy thuộc tính sang dạng dãy nhị p ie gh tn to phân nl w - Mỗi thuộc tính email ứng với dãy nhị phân, kết hợp d oa dãy nhị phân 57 thuộc tính lại ta dãy nhị phân an lu email giá trị dòng liệu file chuyển sang dạng nhị nf va phân có độ dài lm ul - Duyệt ℓ - r + dãy độ dài r dãy nhị phân, áp dụng cách z at nh oi tính tốn phương pháp tạo tập dị bảng băm để xây dựng bảng A 3.2.5.3 Quá trình kiểm tra – phân biệt HAM/SPAM (testing) Input: Bảng băm tạo; File email HAM lại file emailSPAM.txt z l gm Thuật toán @ Output: Các số liệu: Acc, DR, FPR an Lu http://www.lrc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN m *) Kiểm tra khả phát email HAM co Thiết lập thơng số sau có giá trị 0: TN, FP, TP, FN, Acc, DR, FPR ac th si 60 - Đọc dòng liệu file email HAM lại, ta dựng dãy nhị phân dựa vào mảng chứa dãy nhị phân tạo q trình huấn luyện cho dịng liệu Từ ta có dãy nhị phân email - Chuyển ℓ - r + dãy nhị phân độ dài r email từ hệ nhị phân sang hệ số 10 lưu số nguyên k + Nếu xuất trường hợp A[k, j]= (các đoạn bit từ j đến bit thứ j + r - với j=1,…, ℓ - r + 1) tăng giá trị FP thêm (kết lu luận email kiểm tra SPAM) an + Nếu tồn A[k, j]= tăng giá trị TN thêm (kết luận va n email kiểm tra HAM) ie gh tn to *) Kiểm tra khả phát email SPAM - Đọc dòng liệu file thư SPAM: SPAM.txt, ta p dựng dãy nhị phân dựa vào mảng chứa dãy nhị phân tạo email d oa nl w trình huấn luyện cho dịng liệu Từ ta có dãy nhị phân an lu - Chuyển ℓ - r + dãy nhị phân độ dài r email từ hệ nhị nf va phân sang hệ số 10 lưu số nguyên k lm ul + Nếu xuất trường hợp A[k, j]= (các đoạn bit từ z at nh oi j đến bit thứ j + r - với j=1,…, ℓ - r + 1) tăng giá trị TP thêm (kết luận email kiểm tra SPAM) + Nếu tồn A[k, j]= tăng giá trị FN thêm (kết luận z @ email kiểm tra HAM) m co l gm *) Sau q trình kiểm tra trên, tính tốn thông số: DR, FPR, Acc an Lu http://www.lrc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN ac th si 61 3.2.6 Giao diện chƣơng trình kết lu an n va gh tn to ie Hình 3.7 Giao diện chƣơng trình p Chức đối tượng giao diện: nl w - Nút Open File HAM…: Mở file email HAM d oa - Nút Open File SPAM…: Mở file email SPAM an lu - Hộp Select a value r: Đặt giá trị cho r nf va - Nút Split File: Chia file nguồn chương trình (file email HAM – - Nút Test: z at nh oi lm ul HAM.txt, file emailSPAM – SPAM.txt) + Tạo tập dò từ file email HAM + Cho file email HAM cịn lại (khơng sử dụng để tạo dò) file z email SPAM qua tập dò thực so khớp @ thị kết vùng Results m an Lu http://www.lrc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN co - Nút Exit: Thốt khỏi chương trình l gm + Tính tốn kết luận khả phát tập dò, hiển ac th si 62 Sau kết thử nghiệm hàm, luật,… WEKA chương trình sử dụng NSA sở liệu Spambase Với 100% email HAM email SPAM đưa vào trình phân loại Với giá trị r = 8, chương trình sử dụng NSA cho kết sau: Trong 2788 email HAM, chương trình sử dụng NSA cho kết quả: - Số lượng email HAM phân loại TN = 2668 - Số lượng email phân loại sai thành email SPAM FP = 120 Trong 1813 email SPAM, chương trình sử dụng NSA cho kết quả: lu - Số lượng email SPAM phân loại TP = 1499 an - Số lượng email phân loại sai thành email HAM FN = 314 va n Và kết quả: to gh tn - DR: 82.67% p ie - FPR: 4.31% - Acc: 90.56% nl w Các phương pháp phân loại WEKA sử dụng toàn 2788 d oa email HAM 1813 email SPAM vào trình kiểm tra (phát hiện, phân an lu loại) nên chương trình NSA sử dụng tồn email HAM nf va email SPAM thay sử dụng file email HAM chưa dùng vào trình z at nh oi lm ul huấn luyện + email SPAM (Đơn vị tính thơng số DR, FPR, Acc: %) z m co l gm @ an Lu http://www.lrc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN ac th si 63 Bảng 3.3 Kết thử nghiệm WEKA NSA Phƣơng pháp TP TN FN FP DR FPR Acc 1758 1986 55 802 96.97 28.77 81.37 NaiveBayesUpdateable 1725 1923 88 865 95.15 31.03 79.29 bayes.DMNBtext 1617 2662 196 126 89.19 4.52 93.00 functions.logistic 1607 2645 206 143 88.64 5.13 92.41 functions.RBFNetwork 1568 2143 245 645 86.49 23.13 80.66 funtions.Spegasos 1544 2661 269 127 85.16 4.56 91.39 lazy.TB1 1592 2585 221 203 87.81 7.28 90.78 11 0.39 63.90 lu BayessianLogisticRegression an n va 163 2777 1650 8.99 rules.ComnunctiveRule 1276 2437 537 351 70.38 12.59 80.70 trees.RandomTree 1621 2563 192 225 89.41 8.07 90.94 NSA 1499 2668 314 120 82.67 4.31 90.56 p ie gh tn to misc.HyperPipes w oa nl Dựa vào bảng ta thấy: d - Phương pháp NSA cho kết xác 90% nằm lu nf va an phương pháp cho kết xác Bảng 3.4 So sánh NSA với số phƣơng pháp cho kết tốt lm ul bayes.DMNBtext 1617 functions.logistic 1607 functions.Spegasos TN FN FP DR FPR Acc 126 89.19 4.52 93.00 2645 206 143 88.64 5.13 92.41 1544 2661 269 127 85.16 4.56 91.39 lazy.TB1 1592 2585 221 203 87.81 7.28 90.78 trees.RandomTree 1621 2563 192 225 89.41 8.07 90.94 NSA 1499 2668 314 120 4.31 90.56 @ co 82.67 m an Lu http://www.lrc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN l 196 z 2662 gm TP z at nh oi Phƣơng pháp ac th si 64 Ta nhận thấy rằng, phương pháp NSA cho kết xấp xỉ với phương pháp WEKA độ xác tổng thể NSA có khả phát email SPAM thể thông số TP FN.Tuy nhiên, NSA phân loại email HAM tốt hơn, thể thông số TN, FP - NSA cho kết cao độ xác tổng thể so với phương pháp bảng dưới: Bảng 3.5 So sánh NSA với số phƣơng pháp cho kết thấp Phƣơng pháp TP TN FN FP DR FPR Acc lu an 1758 1986 55 802 96.97 28.77 81.37 NaiveBayesUpdateable 1725 1923 88 865 95.15 31.03 79.29 functions.RBFNetwork 1568 2143 245 645 86.49 23.13 80.66 n va BayessianLogisticRegression 163 ie gh tn to misc.HyperPipes p rules.ComnunctiveRule 11 8.99 0.39 63.90 1276 2437 537 351 70.38 12.59 80.70 1499 2668 314 120 82.67 phương pháp 4.31 90.56 BayessianLogisticRegression, d oa Các nl w NSA 2777 1650 an lu NaiveBayesUpdateable cho khả phát email SPAM tốt, nf va kéo theo nhiều email HAM bị phân loại thành email SPAM thể hiện: lm ul 2788 email HAM BayessianLogisticRegression có 802 email bị coi email SPAM, NaiveBayesUpdateable có 865 email bị coi email SPAM z at nh oi Thơng thường, email HAM có chứa thơng tin quan trọng hơn, việc email HAM phân loại thành email SPAM gây lo ngại z so với việc email SPAM bị phân loại nhầm thành email HAM Xét @ m co l gm mặt này, NSA cho khả phân loại tốt phương pháp an Lu http://www.lrc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN ac th si 65 3.2.7 Đánh giá Khả phát chương trình phụ thuộc vào độ chặt chẽ bảng băm A, bảng A có mức độ chặt chẽ cao hay thấp tùy thuộc vào việc ta đặt giá trị r Giá trị r cao mức độ kiểm tra (so khớp) chặt chẽ ngược lại lu Trong chương trình, thử nghiệm giá trị r đoạn [7,10], an đoạn giá trị dò cho kết tốt va n Bảng 3.6 Kết so khớp với giá trị tham số r thay đổi FPR (%) Acc (%) Thời gian (s) 75.50 29.62 74.82 24.7 82.34 42.52 79.15 25.59 87.77 54.41 82.15 24.95 60.51 84.84 26.57 p ie gh tn DR (%) to r d 91.81 an lu 10 oa nl w nf va Việc lựa chọn 9/10 file email HAM để huấn luyện file email HAM lm ul lại đưa vào trình test với file email SPAM lựa chọn z at nh oi ngẫu nhiên, nên kết lần chạy có khác nhau, nhiên số liệu DR, FPR, Acc thời gian chạy không chênh lệch lớn Với kết ta có nhận xét: z @ - Về khả phát hiện: l gm Với r lớn kích thước dị (bảng A) lớn, đồng nghĩa với co việc mức độ kiểm tra, so khớp chặt chẽ Do vậy, r lớn xác suất m email HAM bị phân loại thành email SPAM lớn Và ngược lại, r an Lu http://www.lrc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN ac th si 66 nhỏ mức độ kiểm tra chặt chẽ hơn, dẫn đến nhiều email SPAM phân loại email HAM Những email HAM mang tính quan trọng nhiều, phân loại email HAM email SPAM, cần lựa chọn giá trị r hợp lí để email HAM bị phân loại thành email SPAM Làm để tìm giá trị r hợp lý hướng phát triển tốt - Về thời gian chạy chương trình: Thời gian chạy chương trình tùy thuộc vào kích thước bảng băm chủ yếu, với giá trị r lớn bảng băm lu có kích thước lớn nên việc tạo bảng lâu an n va p ie gh tn to d oa nl w nf va an lu z at nh oi lm ul z m co l gm @ an Lu http://www.lrc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN ac th si 67 KẾT LUẬN Đề tài đạt kết sau đây: - Tìm hiểu tổng quan thư rác, phương pháp phân loại thư rác sử dụng như: blacklisting, whitelisting, heuristic filtering, challenge/ response… Các phương pháp học máy như: SVM, Naive Bayes, kNN, Nnet Đồng thời đánh giá ưu nhược điểm phương pháp - Tìm hiểu hệ miễn dịch sinh học hệ miễn dịch nhân tạo, khái niệm như: Self, Nonself, dị…một số thuật tốn hệ miễn dịch nhân lu tạo an - Nghiên cứu thuật toán chọn lọc tiêu cực dạng r-chunk r-contiguous va n đưa phương pháp ứng dụng thuật tốn cho q trình phân loại thư gh tn to rác ie - Xây dựng chương trình mơ sử dụng thuật toán chọn lọc tiêu cực p hệ miễn dịch nhân tạo áp dụng vào trình huấn luyện phân nl w loại thư rác, đồng thời đánh giá chương trình thơng số như: TP, TN, FP, d oa FN độ đo như: DR, FPR Acc an lu - Thử nghiệm phương pháp sinh tập dò dạng r-chunk với liệu z at nh oi Hướng phát triển lm ul máy khác nf va chuẩn TREC'07, SpamBase so sánh kết với số phương pháp học - Cần nghiên cứu khâu tiền xử lý văn bản, xây dựng mẫu huấn luyện tiêu chuẩn lựa chọn tham số hợp lý cho ℓ r để nâng cao độ z gm @ xác phân loại giải thuật - Nâng khả lọc thư rác với loại email chứa nội dung hình ảnh, ký m co l tự lạ,…và có đính kèm tệp tin an Lu http://www.lrc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN ac th si 68 - Kết hợp với thuật tốn học máy khác để cải thiện hiệu suất độ xác - Xây dựng hệ thống Webmail cho quan tổ chức tích hợp lọc vào hệ thống - Xây dựng lọc theo mức độ phù hợp cho số nhóm đối tượng cụ thể như: chung sở thích, nơi làm việc, lĩnh vực nghiên cứu… lu an n va p ie gh tn to d oa nl w nf va an lu z at nh oi lm ul z m co l gm @ an Lu http://www.lrc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN ac th si 69 DANH MỤC CÁC CƠNG TRÌNH CƠNG BỐ [1] Vu Duc Quang, Vu Manh Xuan, Nguyen Van Truong, Phung Thi Thu Trang (2015), Email SPAM Filtering Using R-Chunk Detector-Based Negative Selection Algorithm, Journal of Science and Technology, Thai Nguyen University, 135 (05), 185-189 lu an n va p ie gh tn to d oa nl w nf va an lu z at nh oi lm ul z m co l gm @ an Lu http://www.lrc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN ac th si 70 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Nguyễn Xuân Hoài, Nguyễn Văn Trường, Vũ Mạnh Xuân, (2007), Hệ miễn dịch nhân tạo ứng dụng, Tạp chí Khoa học Công nghệ Đại học Thái Nguyên, 13-18 [2] Phạm Đình Lựu, (2005), Sinh Lý Học Y Khoa, Đại Học Y Dược TP Hồ Chí Minh [3] Lương Quốc Sơn, (2012), Nghiên cứu xây dựng lọc thư rác hỗ trợ lu song ngữ Anh – Việt, Luận văn Thạc sĩ CNTT, Đại học Lạc Hồng an Tiếng Anh va n [4] Csaba Gulyás, (2006), Creation of a Bayesian network-based meta gh tn to SPAM filter, using the analysis of different SPAM filters p ie [5] Forrest et al, Self-Nonself Discrimination in a Computer, (1994), in Proceedings of 1994 IEEE Symposium on Research in Security and Privacy, oa nl w Oakland, CA, 202-212 [6] Jonathan A Zdziarski, Ending Spam, (2005), Bayesian Content Filtering d an lu and the Art of Statistical Language Classification, No Starch Press nf va [7] M Elberfeld, J Textor, (2009), Efficient algorithms for string-based lm ul negative selection, Proceedings of the 8th International Conference on z at nh oi Artificial Immune Systems, LNCS 5666, 109-121 [8] Mike Spykerman, Typical SPAM characteristics, Red Earth Software, 2003 z gm @ [9] T Stibor et al, (2004), An investigation of r-chunk detector generation on higher alphabets, GECCO 2004, LNCS 3102, 299-30 l co [10] Tarek M Mahmoud, Alaa Ismail El Nashar, Tarek Abd-El-Hafeez, m Marwa Khairy, (2014), “An Efficient Three-phase Email SPAM Filtering an Lu http://www.lrc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN ac th si 71 Technique”, British Journal of Mathematics & Computer Science4(9): 11841201 [11] Terri Oda, (2005), A SPAM-Detecting Artiﬁcial ImmuneSystem, Master of Computer Science, Carleton University, Ottawa, Canada lu an n va p ie gh tn to d oa nl w nf va an lu z at nh oi lm ul z m co l gm @ an Lu http://www.lrc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN ac th si