Hệ miễn dịch nhân tạo và ứng dụng cho lọc thư rác

75 568 1
Hệ miễn dịch nhân tạo và ứng dụng cho lọc thư rác

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

i LỜI CAM ĐOAN Tôi xin cam đoan luận văn tự thân tìm hiểu, nghiên cứu hướng dẫn TS Vũ Mạnh Xuân Các chương trình thực nghiệm thân lập trình, kết hoàn toàn trung thực Các tài liệu tham khảo trích dẫn thích đầy đủ TÁC GIẢ LUẬN VĂN Phùng Thị Thu Trang ii LỜI CẢM ƠN Tôi xin bày tỏ lời cảm ơn chân thành tới tập thể thầy cô giáo Viện công nghệ thông tin – Viện Hàn lâm Khoa học Công nghệ Việt Nam, thầy cô giáo Trường Đại học Công nghệ thông tin truyền thông - Đại học Thái Nguyên dạy dỗ suốt trình học tập chương trình cao học trường Đặc biệt xin bày tỏ lòng biết ơn sâu sắc tới thầy giáo TS Vũ Mạnh Xuân quan tâm, định hướng đưa góp ý, gợi ý, chỉnh sửa quý báu cho trình làm luận văn tốt nghiệp Cũng bạn bè, đồng nghiệp, gia đình người thân quan tâm, giúp đỡ chia sẻ với suốt trình làm luận văn tốt nghiệp Dù có nhiều cố gắng chắn không tránh khỏi thiếu sót mong nhận đóng góp ý kiến thầy, cô bạn để luận văn hoàn thiện Tôi xin chân thành cảm ơn! Thái Nguyên, tháng 08 năm 2015 Phùng Thị Thu Trang iii MỤC LỤC DANH MỤC CÁC HÌNH VẼ vi DANH MỤC CÁC BẢNG vii MỞ ĐẦU Chương NGHIÊN CỨU TỔNG QUAN VỀ THƯ RÁC 1.1 Giới thiệu thư rác 1.1.1 Lịch sử 1.1.2 Định nghĩa 1.1.3 Mục đích gửi thư rác 1.1.4 Các đặc tính thư rác 1.1.5 Các kỹ thuật tạo thư rác 1.2 Các kỹ thuật phát ngăn chặn thư rác 1.2.1 Kỹ thuật blacklisting 1.2.2 Kỹ thuật whitelisting 1.2.3 Kỹ thuật heuristic filtering 11 1.2.4 Kỹ thuật challenge/ response 13 1.2.5 Phân tích định hướng phát triển ứng dụng thử nghiệm 14 1.3 Kỹ thuật dùng học máy 15 1.3.1 Support vector Machine (SVM) 16 1.3.2 K–Nearest Neighbor (kNN) 17 1.3.3 Naïve Bayes (NB) 19 1.3.4 Mạng Neural (Nnet) 20 Chương HỆ MIỄN DỊCH NHÂN TẠO 22 2.1 Hệ miễn dịch 22 2.1.1 Hệ miễn dịch sinh học 22 2.1.2 Hệ miễn dịch nhân tạo 26 2.2 Một số định nghĩa 30 2.2.1 Self 30 2.2.2 NonSelf 30 2.2.3 Bộ dò 31 2.2.4 Tập dò ChunkD(S, r) ContD(S, r) 31 2.2.5 Khả phát tập dò 32 2.2.6 Hole 32 iv 2.3 Thuật toán sinh tập dò r-chunk 33 2.3.1 Thuật toán 33 2.3.2 Độ phức tạp thuật toán 34 2.4 Thuật toán sinh tập dò dạng r – contiguous 37 2.4.1 Thuật toán 37 2.4.2 Độ phức tạp thuật toán 38 2.5 Các nghiên cứu gần 40 Chương CÀI ĐẶT THỬ NGHIỆM 42 3.1 Ứng dụng hệ miễn dịch nhân tạo lọc thư rác 42 3.1.1 Phát biểu toán 42 3.1.2 Cơ sở liệu TREC'07 43 3.1.3 Thiết kế phần mềm 44 3.1.4.Phân tích thuật toán 45 3.1.5 Giao diện chương trình kết 46 3.1.6 Đánh giá 48 3.2 So sánh với thuật toán WEKA 49 3.2.1 Phát biểu toán 49 3.2.2 Cơ sở liệu SpamBase 49 3.2.3 Phần mềm WEKA 51 3.2.4 Thiết kế phần mềm 55 3.2.5 Phân tích thuật toán 55 3.2.6 Giao diện chương trình kết 58 3.2.7 Đánh giá 62 KẾT LUẬN 64 DANH MỤC CÁC CÔNG TRÌNH CÔNG BỐ 66 TÀI LIỆU THAM KHẢO 67 v DANH SÁCH KÍ HIỆU, TỪ VIẾT TĂT Viết tắt Viết đầy đủ |X| Lực lượng tập X CSDL Cơ sở liệu HAM Thư bình thường HMD Hệ miễn dịch ISP Internet Service Provider MHC Major Histocompatibility Complex NSA Negative Selection Algorithm-Thuật toán chọn lọc tiêu cực SPAM Thư rác SVM Support vector Machine WEKA Waikato Environment for Knowledge Analysis vi DANH MỤC CÁC HÌNH VẼ Hình 1.1: So sánh thư rác với thư điện tử khác Hình 1.2 Mô hình SVM 16 Hình 1.3 Siêu phẳng h phân chia liệu 17 Hình 2.1 Các tầng miễn dịch sinh học 23 Hình 2.2 Một số quan hệ miễn dịch sinh học 25 Hình 2.3 Cấu trúc phân tầng HMD nhân tạo 26 Hình 2.4 Sơ đồ khối thuật toán chọn lọc tích cực 28 Hình 2.5 Sơ đồ khối thuật toán chọn lọc tiêu cực 29 Hình 3.1 Giao diện chương trình lọc spam CSDL TREC'07 47 Hình 3.2 Kết trình test 47 Hình 3.3 Giao diện phần mềm Weka 52 Hình 3.4 Giao diện Weka Explorer 53 Hình 3.5 Giao diện Weka Explorer sau chọn CSDL Spambase 53 Hình 3.6 Phân loại liệu 54 Hình 3.7 Giao diện chương trình 58 vii DANH MỤC CÁC BẢNG Bảng 1.1 Các phần mềm chống thư rác 14 Bảng 2.1 Sự tương quan hệ miễn dịch với môi trường mạng 30 Bảng 3.1 Kết chạy chương trình với test 48 Bảng 3.2 So sánh kết 48 Bảng 3.3 Kết thử nghiệm WEKA NSA 60 Bảng 3.4 So sánh NSA với số phương pháp cho kết tốt 60 Bảng 3.5 So sánh NSA với số phương pháp cho kết thấp 61 Bảng 3.6 Kết so khớp với giá trị tham số r thay đổi 62 MỞ ĐẦU Email phương tiện truyền thông phổ biến nay, ngày giới có hàng tỉ email gửi số nửa dạng thư rác (email spam) Email spam email gửi với số lượng lớn nhằm mục đích quảng cáo, ăn cắp thông tin, lây lan virus… Đây email mà người nhận không mong đợi Có nhiều kỹ thuật lọc thư rác khác như: Blacklisting, Whitelisting, Heuristic filtering, Challenge/ Response, Throttling, Address obfuscation, Collaborative filtering,…Tuy nhiên, đa số phần mềm chống thư rác dựa header thư địa từ người gửi nhằm tăng tốc độ Các phương pháp học máy gần quan tâm nhiều chúng có khả thích nghi cao với tiến hóa thư rác phương pháp dựa xác suất Naïve Bayes, phương pháp học máy vectơ hỗ trợ (Support vector machine), phương pháp phân loại dựa láng giềng gần (k-nearest neighbors) Hệ miễn dịch nhân tạo hệ thống thích nghi lấy ý tưởng học thuyết miễn dịch chức năng, nguyên tắc, mô hình miễn dịch quan sát được, áp dụng giải toán thực tế Nó có nhiều ứng dụng khác nhau, chủ yếu áp dụng vào lĩnh vực an ninh mạng an ninh máy tính Với lý trên, đề tài “Hệ miễn dịch nhân tạo ứng dụng cho lọc thư rác” tập trung nghiên cứu hệ miễn dịch nhân tạo ứng dụng số kỹ thuật cải tiến thuật toán miễn dịch áp dụng cho toán lọc thư rác để áp dụng cho không gian liệu lớn Đối tượng phạm vi nghiên cứu - Nghiên cứu lý thuyết hệ miễn dịch sinh học hệ miễn dịch nhân tạo - Ứng dụng hệ miễn dịch nhân tạo vào trình lọc thư rác - Đánh giá hiệu suất phương pháp đề xuất với số cách tiếp cận học máy khác Naive Bayes, Support Vector Machine, … Nội dung đề tài - Tìm hiểu, đánh giá ưu nhược điểm số phương pháp lọc thư rác - Nghiên cứu ứng dụng hệ miễn dịch nhân tạo trình huấn luyện liệu lọc thư rác - Lập trình thử nghiệm lọc thư rác ứng dụng Hệ miễn dịch nhân tạo - So sánh phương pháp sử dụng hệ miễn dịch nhân tạo với số phương pháp khác Kết đề tài nhóm tác giả công bố báo đăng tạp chí Khoa học Công nghệ Đại học Thái nguyên (số 135 (05), 2015, trang 185) Chương NGHIÊN CỨU TỔNG QUAN VỀ THƯ RÁC Một dịch vụ mà Internet mang lại dịch vụ thư điện tử, phương tiện giao tiếp đơn giản, tiện lợi, rẻ hiệu người Tuy nhiên lợi ích dịch vụ thư điện tử mang lại mà số lượng thư trao đổi Internet ngày tăng, hầu hết số thư thư rác (email spam) Thư rác thường gửi với số lượng lớn, không người dùng mong đợi, với nhiều mục đích khác như: quảng cáo, đính kèm virus, gây phiền toái khó chịu cho người dùng, làm giảm tốc độ truyền internet tốc độ xử lý email server, gây thiệt hại lớn kinh tế Chương khái quát vấn đề thư rác, ảnh hưởng thư rác sống phương pháp ngăn chặn thư rác Các khái niệm kết chương tham khảo [1], [2], [3], [4], [6], [8] 1.1 Giới thiệu thư rác 1.1.1 Lịch sử Có thể chia lịch sử thư rác thành giai đoạn sau: 1.1.1.1 Giai đoạn thứ – năm đầu thư rác Nhiều ý kiến cho thư rác phát tán mạng diện rộng vào năm 1978, quảng cáo từ Digital Equipment Corporation (DEC) Do dịch vụ thư điện tử lúc chưa phát triển nên người phát tán thư rác (spammer) phải đánh thủ công địa thư điện tử muốn gửi có khoảng 320 tổng số địa thư điện tử mà spammer muốn gửi nhận thư rác lần phát tán Vào 1988 xuất kiểu thư rác khác thư rác lừa đảo (như lừa đảo làm việc từ thiện, lừa đảo kiếm tiền) 1.1.1.2 Giai đoạn thứ hai – thư rác gửi thông qua phần mềm Đầu thập niên 1990, với phát triển Internet mang đến vấn nạn số 54 WEKA thống kê đưa thuộc tính có sở liệu hiển thị giao diện, hộp Attributes nhấn nút All để chọn tất thuộc tính - Bước Chọn thẻ Classify để chọn sử dụng phương pháp phân loại Hình 3.6 Phân loại liệu - Bước Chọn hàm, luật,… phân loại mục Classify nhấn nút Choose Thiết lập số tùy chọn mục Test options, ta chọn sử dụng phương pháp Cross-validation - Bước Nhấn nút Start để thực hiện, theo dõi kết vùng Classifier output Để tìm hiểu chức khác phần mềm Weka chi tiết cách sử dụng bạn đọc tìm hiểu tại: https://www.cs.waikato.ac.nz/ml/weka/ 55 3.2.4 Thiết kế phần mềm Việc thử nghiệm chương trình thực theo quy tắc: Tenfold cross validation, thực sau: - Bước 1: Chia email thường file nguồn (HAM.txt) ngẫu nhiên thành 10 phần email SPAM file nguồn (SPAM.txt) thành 10 phần tương ứng 10 file email HAM 10 file email SPAM - Bước 2: Đọc số liệu file email thường để huấn luyện - Bước 3: Tiến hành kiểm tra (testing), thực với file email thường lại tất email SPAM Số lượng email HAM email SPAM mà chương trình phát tính toán quy đổi số liệu: DR = TP/(TP + FN) FPR = FP/(TN + FP) Acc = (TP + TN) /(TP + TN + FP + FN) Chương trình thực lặp bước hai ba mười lần, lần tính toán cho số liệu Sau lấy giá trị trung bình mười lần tính toán 3.2.5 Phân tích thuật toán 3.2.5.1 Quá trình chia file nguồn (Split file) Input: file chứa số liệu thống kê 58 thuộc tính email HAM - HAM.txt Output: 10 file email HAM: HSub 1.txt, HSub 2.txt, …, HSub 10.txt Thuật toán Trong sở liệu Spambase Data Set sử dụng có số liệu thống kê thuộc tính 4601 email ghi dòng Trong đó, có 1813 email SPAM 2788 email HAM, ta tạo file HAM.txt chứa 2788 email HAM SPAM.txt chứa 1813 email SPAM Sử dụng nút Open File HAM giao diện để tìm đường dẫn tới file HAM.txt Quá trình chia sau: 56 - Kiểm tra thư mục bin\Debug có file HSub i.txt SSub i.txt (i=1,…,10) chưa, chưa có tạo file - Lần lượt đọc dòng file HAM.txt, sinh ngẫu nhiên số nn  [1,10] ghi dòng liệu vào file: HSub nn.txt - Đóng file vừa tạo 3.2.5.2 Quá trình huấn luyện – Tạo tập dò (Training) Input: Chọn 10 file: HSub i.txt (i=1,…,10) Output: Tập dò lưu bảng băm kích thước: 2r.(ℓ-r+1) Thuật toán Quá trình huấn luyện sau: - Đọc dòng file đầu vào, từ tạo mảng chuỗi lưu trữ giá trị 57 thuộc tính (trừ thuộc tính cuối) - Thống kê lại chuỗi thuộc tính cho không giá trị trùng - Chuyển đổi theo quy tắc dãy thuộc tính sang dạng dãy nhị phân - Mỗi thuộc tính email ứng với dãy nhị phân, kết hợp dãy nhị phân 57 thuộc tính lại ta dãy nhị phân email giá trị dòng liệu file chuyển sang dạng nhị phân có độ dài - Duyệt ℓ - r + dãy độ dài r dãy nhị phân, áp dụng cách tính toán phương pháp tạo tập dò bảng băm để xây dựng bảng A 3.2.5.3 Quá trình kiểm tra – phân biệt HAM/SPAM (testing) Input: Bảng băm tạo; File email HAM lại file emailSPAM.txt Output: Các số liệu: Acc, DR, FPR Thuật toán Thiết lập thông số sau có giá trị 0: TN, FP, TP, FN, Acc, DR, FPR 57 *) Kiểm tra khả phát email HAM - Đọc dòng liệu file email HAM lại, ta dựng dãy nhị phân dựa vào mảng chứa dãy nhị phân tạo trình huấn luyện cho dòng liệu Từ ta có dãy nhị phân email - Chuyển ℓ - r + dãy nhị phân độ dài r email từ hệ nhị phân sang hệ số 10 lưu số nguyên k + Nếu xuất trường hợp A[k, j]= (các đoạn bit từ j đến bit thứ j + r - với j=1,…, ℓ - r + 1) tăng giá trị FP thêm (kết luận email kiểm tra SPAM) + Nếu toàn A[k, j]= tăng giá trị TN thêm (kết luận email kiểm tra HAM) *) Kiểm tra khả phát email SPAM - Đọc dòng liệu file thư SPAM: SPAM.txt, ta dựng dãy nhị phân dựa vào mảng chứa dãy nhị phân tạo trình huấn luyện cho dòng liệu Từ ta có dãy nhị phân email - Chuyển ℓ - r + dãy nhị phân độ dài r email từ hệ nhị phân sang hệ số 10 lưu số nguyên k + Nếu xuất trường hợp A[k, j]= (các đoạn bit từ j đến bit thứ j + r - với j=1,…, ℓ - r + 1) tăng giá trị TP thêm (kết luận email kiểm tra SPAM) + Nếu toàn A[k, j]= tăng giá trị FN thêm (kết luận email kiểm tra HAM) *) Sau trình kiểm tra trên, tính toán thông số: DR, FPR, Acc 58 3.2.6 Giao diện chương trình kết Hình 3.7 Giao diện chương trình Chức đối tượng giao diện: - Nút Open File HAM…: Mở file email HAM - Nút Open File SPAM…: Mở file email SPAM - Hộp Select a value r: Đặt giá trị cho r - Nút Split File: Chia file nguồn chương trình (file email HAM – HAM.txt, file emailSPAM – SPAM.txt) - Nút Test: + Tạo tập dò từ file email HAM + Cho file email HAM lại (không sử dụng để tạo dò) file email SPAM qua tập dò thực so khớp + Tính toán kết luận khả phát tập dò, hiển thị kết vùng Results - Nút Exit: Thoát khỏi chương trình 59 Sau kết thử nghiệm hàm, luật,… WEKA chương trình sử dụng NSA sở liệu Spambase Với 100% email HAM email SPAM đưa vào trình phân loại Với giá trị r = 8, chương trình sử dụng NSA cho kết sau: Trong 2788 email HAM, chương trình sử dụng NSA cho kết quả: - Số lượng email HAM phân loại TN = 2668 - Số lượng email phân loại sai thành email SPAM FP = 120 Trong 1813 email SPAM, chương trình sử dụng NSA cho kết quả: - Số lượng email SPAM phân loại TP = 1499 - Số lượng email phân loại sai thành email HAM FN = 314 Và kết quả: - DR: 82.67% - FPR: 4.31% - Acc: 90.56% Các phương pháp phân loại WEKA sử dụng toàn 2788 email HAM 1813 email SPAM vào trình kiểm tra (phát hiện, phân loại) nên chương trình NSA sử dụng toàn email HAM email SPAM thay sử dụng file email HAM chưa dùng vào trình huấn luyện + email SPAM (Đơn vị tính thông số DR, FPR, Acc: %) 60 Bảng 3.3 Kết thử nghiệm WEKA NSA Phương pháp TP TN FN FP DR FPR Acc BayessianLogisticRegression 1758 1986 55 802 96.97 28.77 81.37 NaiveBayesUpdateable 1725 1923 88 865 95.15 31.03 79.29 bayes.DMNBtext 1617 2662 196 126 89.19 4.52 93.00 functions.logistic 1607 2645 206 143 88.64 5.13 92.41 functions.RBFNetwork 1568 2143 245 645 86.49 23.13 80.66 funtions.Spegasos 1544 2661 269 127 85.16 4.56 91.39 lazy.TB1 1592 2585 221 203 87.81 7.28 90.78 11 0.39 63.90 misc.HyperPipes 163 2777 1650 8.99 rules.ComnunctiveRule 1276 2437 537 351 70.38 12.59 80.70 trees.RandomTree 1621 2563 192 225 89.41 8.07 90.94 NSA 1499 2668 314 120 82.67 4.31 90.56 Dựa vào bảng ta thấy: - Phương pháp NSA cho kết xác 90% nằm phương pháp cho kết xác Bảng 3.4 So sánh NSA với số phương pháp cho kết tốt Phương pháp TP TN FN FP DR FPR Acc bayes.DMNBtext 1617 2662 196 126 89.19 4.52 93.00 functions.logistic 1607 2645 206 143 88.64 5.13 92.41 functions.Spegasos 1544 2661 269 127 85.16 4.56 91.39 lazy.TB1 1592 2585 221 203 87.81 7.28 90.78 trees.RandomTree 1621 2563 192 225 89.41 8.07 90.94 NSA 1499 2668 314 120 82.67 4.31 90.56 Ta nhận thấy rằng, phương pháp NSA cho kết xấp xỉ với phương pháp WEKA độ xác tổng thể NSA có khả phát 61 email SPAM thể thông số TP FN.Tuy nhiên, NSA phân loại email HAM tốt hơn, thể thông số TN, FP - NSA cho kết cao độ xác tổng thể so với phương pháp bảng dưới: Bảng 3.5 So sánh NSA với số phương pháp cho kết thấp Phương pháp TP TN FN FP DR FPR Acc BayessianLogisticRegression 1758 1986 55 802 96.97 28.77 81.37 NaiveBayesUpdateable 1725 1923 88 865 95.15 31.03 79.29 functions.RBFNetwork 1568 2143 245 645 86.49 23.13 80.66 misc.HyperPipes 163 2777 1650 11 8.99 0.39 63.90 rules.ComnunctiveRule 1276 2437 537 351 70.38 12.59 80.70 NSA 1499 2668 314 120 82.67 4.31 Các phương pháp 90.56 BayessianLogisticRegression, NaiveBayesUpdateable cho khả phát email SPAM tốt, kéo theo nhiều email HAM bị phân loại thành email SPAM thể hiện: 2788 email HAM BayessianLogisticRegression có 802 email bị coi email SPAM, NaiveBayesUpdateable có 865 email bị coi email SPAM Thông thường, email HAM có chứa thông tin quan trọng hơn, việc email HAM phân loại thành email SPAM gây lo ngại so với việc email SPAM bị phân loại nhầm thành email HAM Xét mặt này, NSA cho khả phân loại tốt phương pháp 62 3.2.7 Đánh giá Khả phát chương trình phụ thuộc vào độ chặt chẽ bảng băm A, bảng A có mức độ chặt chẽ cao hay thấp tùy thuộc vào việc ta đặt giá trị r Giá trị r cao mức độ kiểm tra (so khớp) chặt chẽ ngược lại Trong chương trình, thử nghiệm giá trị r đoạn [7,10], đoạn giá trị dò cho kết tốt Bảng 3.6 Kết so khớp với giá trị tham số r thay đổi r DR (%) FPR (%) Acc (%) Thời gian (s) 75.50 29.62 74.82 24.7 82.34 42.52 79.15 25.59 87.77 54.41 82.15 24.95 10 91.81 60.51 84.84 26.57 Việc lựa chọn 9/10 file email HAM để huấn luyện file email HAM lại đưa vào trình test với file email SPAM lựa chọn ngẫu nhiên, nên kết lần chạy có khác nhau, nhiên số liệu DR, FPR, Acc thời gian chạy không chênh lệch lớn Với kết ta có nhận xét: - Về khả phát hiện: Với r lớn kích thước dò (bảng A) lớn, đồng nghĩa với việc mức độ kiểm tra, so khớp chặt chẽ Do vậy, r lớn xác suất email HAM bị phân loại thành email SPAM lớn Và ngược lại, r nhỏ mức độ kiểm tra chặt chẽ hơn, dẫn đến nhiều email SPAM phân loại email HAM Những email HAM mang tính quan trọng nhiều, phân loại email HAM email SPAM, cần lựa chọn giá trị r hợp lí để 63 email HAM bị phân loại thành email SPAM Làm để tìm giá trị r hợp lý hướng phát triển tốt - Về thời gian chạy chương trình: Thời gian chạy chương trình tùy thuộc vào kích thước bảng băm chủ yếu, với giá trị r lớn bảng băm có kích thước lớn nên việc tạo bảng lâu 64 KẾT LUẬN Đề tài đạt kết sau đây: - Tìm hiểu tổng quan thư rác, phương pháp phân loại thư rác sử dụng như: blacklisting, whitelisting, heuristic filtering, challenge/ response… Các phương pháp học máy như: SVM, Naive Bayes, kNN, Nnet Đồng thời đánh giá ưu nhược điểm phương pháp - Tìm hiểu hệ miễn dịch sinh học hệ miễn dịch nhân tạo, khái niệm như: Self, Nonself, dò…một số thuật toán hệ miễn dịch nhân tạo - Nghiên cứu thuật toán chọn lọc tiêu cực dạng r-chunk r-contiguous đưa phương pháp ứng dụng thuật toán cho trình phân loại thư rác - Xây dựng chương trình mô sử dụng thuật toán chọn lọc tiêu cực hệ miễn dịch nhân tạo áp dụng vào trình huấn luyện phân loại thư rác, đồng thời đánh giá chương trình thông số như: TP, TN, FP, FN độ đo như: DR, FPR Acc - Thử nghiệm phương pháp sinh tập dò dạng r-chunk với liệu chuẩn TREC'07, SpamBase so sánh kết với số phương pháp học máy khác Hướng phát triển - Cần nghiên cứu khâu tiền xử lý văn bản, xây dựng mẫu huấn luyện tiêu chuẩn lựa chọn tham số hợp lý cho ℓ r để nâng cao độ xác phân loại giải thuật - Nâng khả lọc thư rác với loại email chứa nội dung hình ảnh, ký tự lạ,…và có đính kèm tệp tin - Kết hợp với thuật toán học máy khác để cải thiện hiệu suất độ xác 65 - Xây dựng hệ thống Webmail cho quan tổ chức tích hợp lọc vào hệ thống - Xây dựng lọc theo mức độ phù hợp cho số nhóm đối tượng cụ thể như: chung sở thích, nơi làm việc, lĩnh vực nghiên cứu… 66 DANH MỤC CÁC CÔNG TRÌNH CÔNG BỐ [1] Vu Duc Quang, Vu Manh Xuan, Nguyen Van Truong, Phung Thi Thu Trang (2015), Email SPAM Filtering Using R-Chunk Detector-Based Negative Selection Algorithm, Journal of Science and Technology, Thai Nguyen University, 135 (05), 185-189 67 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Nguyễn Xuân Hoài, Nguyễn Văn Trường, Vũ Mạnh Xuân, (2007), Hệ miễn dịch nhân tạo ứng dụng, Tạp chí Khoa học Công nghệ Đại học Thái Nguyên, 13-18 [2] Phạm Đình Lựu, (2005), Sinh Lý Học Y Khoa, Đại Học Y Dược TP Hồ Chí Minh [3] Lương Quốc Sơn, (2012), Nghiên cứu xây dựng lọc thư rác hỗ trợ song ngữ Anh – Việt, Luận văn Thạc sĩ CNTT, Đại học Lạc Hồng Tiếng Anh [4] Csaba Gulyás, (2006), Creation of a Bayesian network-based meta SPAM filter, using the analysis of different SPAM filters [5] Forrest et al, Self-Nonself Discrimination in a Computer, (1994), in Proceedings of 1994 IEEE Symposium on Research in Security and Privacy, Oakland, CA, 202-212 [6] Jonathan A Zdziarski, Ending Spam, (2005), Bayesian Content Filtering and the Art of Statistical Language Classification, No Starch Press [7] M Elberfeld, J Textor, (2009), Efficient algorithms for string-based negative selection, Proceedings of the 8th International Conference on Artificial Immune Systems, LNCS 5666, 109-121 [8] Mike Spykerman, Typical SPAM characteristics, Red Earth Software, 2003 [9] T Stibor et al, (2004), An investigation of r-chunk detector generation on higher alphabets, GECCO 2004, LNCS 3102, 299-30 [10] Tarek M Mahmoud, Alaa Ismail El Nashar, Tarek Abd-El-Hafeez, Marwa Khairy, (2014), “An Efficient Three-phase Email SPAM Filtering 68 Technique”, British Journal of Mathematics & Computer Science4(9): 11841201 [11] Terri Oda, (2005), A SPAM-Detecting Arti cial ImmuneSystem, Master of Computer Science, Carleton University, Ottawa, Canada

Ngày đăng: 13/08/2016, 16:58

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan