Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 66 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
66
Dung lượng
2,21 MB
Nội dung
ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG PHẠM VĂN DƯƠNG NGHIÊN CỨU MỘT SỐ THUẬT TOÁN LỌC THƯ RÁC VÀ ỨNG DỤNG TRONG LỌC EMAIL NỘI BỘ CỦA VIỄN THÔNG TỈNH BẮC KẠN LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái Nguyên - 2017 ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG PHẠM VĂN DƯƠNG NGHIÊN CỨU MỘT SỐ THUẬT TOÁN LỌC THƯ RÁC VÀ ỨNG DỤNG TRONG LỌC EMAIL NỘI BỘ CỦA VIỄN THÔNG TỈNH BẮC KẠN Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Người hướng dẫn khoa học: TS NGUYỄN HẢI MINH Thái Nguyên - 2017 LỜI CAM ĐOAN Tôi xin cam đoan luận văn cơng trình nghiên cứu riêng cá nhân tôi, không chép tự nghiên cứu, đọc, dịch tài liệu, tổng hợp thực Nội dung lý thuyết trong luận văn tơi có sử dụng số tài liệu tham khảo trình bày phần tài liệu tham khảo Các số liệu, chương trình phần mềm kết luận văn trung thực chưa cơng bố cơng trình khác Thái Nguyên, tháng năm 2017 Học viên thực Phạm Văn Dương LỜI CẢM ƠN Lời đầu tiên, em xin gửi lời biết ơn sâu sắc đến TS Nguyễn Hải Minh người tận tình hướng dẫn, bảo, giúp đỡ em suốt trình làm luận văn Em xin gửi lời cảm ơn đến thầy cô giáo trường Đại học Công nghệ thông tin Truyền thông, thầy cô Viện Công nghệ thông tin truyền đạt kiến thức giúp đỡ em suốt trình học Và cuối xin gửi lời cảm ơn tới đồng nghiệp, gia đình bạn bè người ủng hộ, động viên tạo điều kiện giúp đỡ để tơi có kết ngày hơm Thái Nguyên, tháng năm 2017 Học viên Phạm Văn Dương MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC CÁC HÌNH VẼ, BẢNG BIỂU TRONG LUẬN VĂN MỞ ĐẦU Chương THƯ RÁC VÀ CÁC PHƯƠNG PHÁP LỌC THƯ RÁC 1.1 Một số khái niệm 1.1.1 Định nghĩa thư rác 1.1.2 Phân loại thư rác 1.2 Các phương pháp lọc thư rác 10 1.2.1 Lọc thư rác thông qua việc đưa luật lệ nhằm hạn chế, ngăn chặn việc gửi thư rác 10 1.2.2 Lọc thư rác dựa địa IP 11 1.2.3 Lọc dựa chuỗi hỏi/ đáp 13 1.2.4 Phương pháp lọc dựa mạng xã hội 13 1.2.5 Phương pháp lọc nội dung 14 Chương TỔNG QUAN CÁC THUẬT TOÁN NSA, PSA, PNSA TRONG LỌC THƯ RÁC 19 2.1 Cơ sở lý thuyết hệ miễn dịch nhân tạo 19 2.1.1 Khái niệm hệ miễn dịch nhân tạo 19 2.1.2 Phạm vi ứng dụng hệ miễn dịch nhân tạo 19 2.1.3 Cấu trúc hệ miễn dịch nhân tạo 20 2.2 Cơ sở lý thuyết thuật toán chọn lọc tiêu cực (Negative Selection Algorithms - NSA) 24 2.3 Cơ sở lý thuyết thuật tốn chọn lọc tích cực (Positive Selection Algorithms – PSA) 26 2.4 Cơ sở lý thuyết thuật toán cải tiến chọn lọc thư rác (Positive and Negative Selection Algorithms – PNSA) 27 2.4.1 Một số định nghĩa 27 2.4.2 Thuật tốn sinh tập dị r-chunk 30 2.4.3 Thuật tốn sinh tập dị dạng r – contiguous 33 2.5 Các nghiên cứu gần 36 Chương KẾT QUẢ CÀI ĐẶT CÁC THUẬT TOÁN 38 3.1 Tổng quan ứng dụng CNTT tỉnh Bắc Kạn 38 3.2 Mơ hình tổng qt 39 3.3 Mô hình thực tế ứng dụng lọc email Spam hệ thống email nội Viễn tông tỉnh Bắc Kạn 40 3.4 Ứng dụng hệ miễn dịch nhân tạo lọc thư rác 40 3.4.1 Phát biểu toán 41 3.4.2 Cơ sở liệu TREC'07 42 3.4.3 Phương pháp 42 3.4.4 Phân tích thuật tốn 43 3.4.5 Đánh giá 45 3.5 So sánh với thuật toán WEKA 46 3.5.1 Phát biểu toán 46 3.5.2 Cơ sở liệu SpamBase 46 3.5.3 Phần mềm WEKA 49 3.5.4 Thiết kế phần mềm 52 3.5.5 Phân tích thuật tốn kết hợp chọn lọc tích cực chọn lọc tiêu cực PNSA 53 3.5.6 Giao diện chương trình kết 56 3.5.7 Đánh giá 59 KẾT LUẬN 61 TÀI LIỆU THAM KHẢO 63 CÁC HÌNH VẼ, BẢNG BIỂU TRONG LUẬN VĂN Hinh 1.1: Tất thư điện tử Hinh 1.2 : Mơ tả tổng quan q trình hoạt động honeyd 15 Hình 2.1: Cấu trúc phân tầng HMD nhân tạo 20 Hình 2.2: Kháng thể nhận diện kháng nguyên dựa vào phần bù 22 Hình 2.3 Sơ đồ khối thuật toán chọn lọc tiêu cực 25 Hình 2.4 Sơ đồ khối thuật tốn chọn lọc tích cực 27 Hình 3.1 Mơ hình tổng qt q trình gửi nhận thư điện tử 39 Hình 3.2 Mơ hình mạng nội Viễn Thơng Tỉnh Bắc Kạn 40 Hình 3.3 Giao diện phần mềm Weka 50 Hình 3.4 Giao diện Weka Explorer 51 Hình 3.5 Giao diện Weka Explorer sau chọn CSDL Spambase 51 Hình 3.6 Phân loại liệu 52 Hình 3.7 Giao diện chương trình 56 Bảng 2.1 Kết bảng băm A 33 Bảng 2.2 Các thông số bảng băm A 34 Bảng 3.1 Kết chạy chương trình với test 45 Bảng 3.2 So sánh kết 45 Bảng 3.3 Kết thử nghiệm WEKA PNSA 57 Bảng 3.4 So sánh PNSA với số phương pháp cho kết tốt 58 Bảng 3.5 So sánh PNSA với số phương pháp cho kết thấp 58 Bảng 3.6 Kết so khớp với giá trị tham số r thay đổi 59 MỞ ĐẦU Mạng Internet đời mang lại cho người tiện ích to lớn quan trọng, tiện ích dịch vụ thư điện tử Vì, phương tiện giao tiếp đơn giản, tiện lợi, rẻ hiệu giúp người gắn kết liên lạc với thường xuyên Tuy nhiên, lợi dụng tính mở cơng nghệ chế trao đổi thư mà hàng ngày người dùng nhận số thư ngồi mong đợi thư rác (Spam) Thư rác thường gửi với số lượng lớn thường mục đích quảng cáo, trí đính kèm mã độc dạng Virus gây phiền toài cho người dùng, làm giảm tốc độ xử lý máy chủ mail server Thư rác (spam) thư điện tử gửi hàng loạt với nội dung mà người nhận không mong đợi, không muốn xem, hay chứa nội dung không liên quan đến người nhận thường sử dụng để gửi thông tin quảng cáo Do có giá thành tương đối thấp so với phương pháp quảng cáo khác, thư rác chiếm tỷ lệ lớn ngày tăng tổng số thư điện tử gửi qua Internet Sự xuất gia tăng thư rác khơng gây khó chịu làm thời gian người nhận mà ảnh hưởng tới đường truyền Internet làm chậm tốc độ xử lý máy chủ thư điện tử, gây thiệt hại lớn kinh tế Xuất phát từ lý đó, đề tài đặt vấn đề nghiên cứu số thuật toán LỌC THƯ RÁC, thuật tốn cơng bố gần để đề xuất mơ hình thực nghiệm dịch vụ email thực tế Qua hướng tới xây dựng ứng dụng cách tích hợp thêm số Module hỗ trợ sử dụng dịch vụ sử dụng email Nội dung luận văn gồm có chương: Dự kiến nội dung báo cáo luận văn gồm: Phần mở đầu, chương chính, phần kết luận, tài liệu tham khảo, phụ lục Bố cục trình bày sau: Phần mở đầu: Nêu lý chọn đề tài hướng nghiên cứu Chương 1: THƯ RÁC VÀ CÁC PHƯƠNG PHÁP LỌC THƯ RÁC Chương 2: TỔNG QUAN CÁC THUẬT TOÁN NSA, PSA, PNSA TRONG LỌC THƯ RÁC Chương 3: KẾT QUẢ CÀI ĐẶT CÁC THUẬT TOÁN Phần kết luận: Tóm tắt kết đạt hướng phát triển đề tài Chương THƯ RÁC VÀ CÁC PHƯƠNG PHÁP LỌC THƯ RÁC Một dịch vụ Internet mang lại dịch vụ thư điện tử, phương pháp giao tiếp đơn giản, tiện lợi, rẻ hiệu người Tuy nhiên, lợi ích dịch vụ thư điện tử mang lại mà số lượng thư trao đổitrên Internet ngày tăng hầu hết số thư thư rác(Email spam) Thư rác thường gửi với số lượng lớn, người dùng khơng mong đợi với nhiều mục đích khác như: Quảng cáo, đính kèm virus, gây phiền tối khó chịu cho người dùng, làm giảm tốc độ Internet tốc độ xử lý server, gây thiệt hại lớn kinh tế Chương khái quát vấn đề thư rác, ảnh hưởng thư rác sống phương pháp ngăn chặn thư rác Các khái niệm chương tham khảo [1], [2], [3], [4] 1.1.Một số khái niệm 1.1.1 Định nghĩa thư rác Có nhiều tranh cãi việc đâu định nghĩa xác thư rác (spam email), thư rác mang tính cá nhân hóa nên khó mà nói lên nghĩa thư rác Nhiều ý kiến cho thư rác “thư điện tử (email) không mong muốn” Định nghĩa khơng thực xác, nhân viên nhận thư điện tử công việc từ sếp họ, thư điện tử người nhân viên không mong muốn chúng thư rác Lại có ý kiến khác cho thư rác “thư điện tử thương mại không yêu cầu từ phía người nhận” - thư bao gồm thư điện tử quảng cáo sản phẩm thư điện tử lừa gạt Nhưng định nghĩa khơng thực xác, làm người nghĩ thư rác giống thư đáng bỏ (junk mail) Sau đưa định nghĩa thông dụng thư rác giải thích đặc điểm để phân biệt thư rác với thư thông thường [1,2]: 50 khai thác liệu thực tế, sử dụng giảng thuật giải Machine Learning nhiều trường đại học lớn giới WEKA viết ngôn ngữ Java JDK, cấu trúc gồm 600 lớp tổ chức thành 10 packages Với chức chính: - Khảo sát liệu: Tiền xử lí liệu, phân lớp, gom nhóm liệu, khai thác luật kết hợp - Thực nghiệm mơ hình: cung cấp phương tiện để kiểm chứng đánh giá mơ hình học - Biểu diễn trực quan liệu nhiều dạng đồ thị… Trong luận văn, chủ yếu sử dụng phần mềm để khảo sát liệu nhằm so sánh với chương trình xây dựng Giao diện phần mềm WEKA: Hình 3.3 Giao diện phần mềm Weka Từ giao diện WEKA thực bước: - Bước Chọn nút tác vụ Explorer, giao diện Weka Explorer xuất 51 Hình 3.4 Giao diện Weka Explorer - Bước Tại thẻ Preprocess chọn nút Open file… để nạp tệp sở liệu Thông thường sở liệu lưu dạng *.arff *.csv Hình 3.5 Giao diện Weka Explorer sau chọn CSDL Spambase 52 WEKA thống kê đưa thuộc tính có sở liệu hiển thị giao diện, hộp Attributes nhấn nút All để chọn tất thuộc tính Hình 3.6 Phân loại liệu - Bước Chọn hàm, luật,… phân loại mục Classify nhấn nút Choose Thiết lập số tùy chọn mục Test options, ta chọn sử dụng phương pháp Cross-validation - Bước Nhấn nút Start để thực hiện, theo dõi kết vùng Classifier output 3.5.4 Thiết kế phần mềm Việc thử nghiệm chương trình thực theo quy tắc: Tenfold cross validation, thực sau: - Bước 1: Chia email thường file nguồn (HAM.txt) ngẫu nhiên thành 10 phần email SPAM file nguồn (SPAM.txt) thành 10 phần tương ứng 10 file email HAM 10 file email SPAM - Bước 2: Đọc số liệu file email thường để huấn luyện 53 - Bước 3: Tiến hành kiểm tra (testing), thực với file email thường lại tất email SPAM Số lượng email HAM email SPAM mà chương trình phát tính tốn quy đổi số liệu: DR = TP/(TP + FN) FPR = FP/(TN + FP) Acc = (TP + TN) /(TP + TN + FP + FN) Chương trình thực lặp bước hai ba mười lần, lần tính tốn cho số liệu Sau lấy giá trị trung bình mười lần tính tốn 3.5.5 Phân tích thuật tốn kết hợp chọn lọc tích cực chọn lọc tiêu cực PNSA 3.5.5.1 Quá trình chia file nguồn (Split file) Input: file chứa số liệu thống kê 58 thuộc tính email HAM HAM.txt Output: 10 file email HAM: HSub 1.txt, HSub 2.txt, …, HSub 10.txt Thuật toán Trong sở liệu Spambase Data Set sử dụng có số liệu thống kê thuộc tính 4601 email ghi dịng Trong đó, có 1813 email SPAM 2788 email HAM, ta tạo file HAM.txt chứa 2788 email HAM SPAM.txt chứa 1813 email SPAM Sử dụng nút Open File HAM giao diện để tìm đường dẫn tới file HAM.txt Quá trình chia sau: - Kiểm tra thư mục bin\Debug có file HSub i.txt SSub i.txt (i=1,…,10) chưa, chưa có tạo file - Lần lượt đọc dòng file HAM.txt, sinh ngẫu nhiên số nn[1,10] ghi dòng liệu vào file: HSub nn.txt - Đóng file vừa tạo 54 3.5.5.2 Quá trình huấn luyện – Tạo tập dò (Training) Input: Chọn 10 file: HSub i.txt (i=1,…,10) Output: Tập dò lưu bảng băm kích thước: 2r.(ℓ-r+1) Thuật tốn Q trình huấn luyện sau: - Đọc dòng file đầu vào, từ tạo mảng chuỗi lưu trữ giá trị 57 thuộc tính (trừ thuộc tính cuối) - Thống kê lại chuỗi thuộc tính cho khơng cịn giá trị trùng - Chuyển đổi theo quy tắc dãy thuộc tính sang dạng dãy nhị - Mỗi thuộc tính email ứng với dãy nhị phân, kết hợp dãy nhị phân 57 thuộc tính lại ta dãy nhị phân email giá trị dòng liệu file chuyển sang dạng nhị phân có độ dài - Duyệt ℓ - r + dãy độ dài r dãy nhị phân, áp dụng cách tính tốn phương pháp tạo tập dị bảng băm để xây dựng bảng A 3.5.5.3 Quá trình kiểm tra – phân biệt HAM/SPAM (testing) Input: Bảng băm tạo; File email HAM lại file emailSPAM.txt Output: Các số liệu: Acc, DR, FPR Thuật toán Thiết lập thơng số sau có giá trị 0: TN, FP, TP, FN, Acc, DR, FPR *) Kiểm tra khả phát email HAM - Đọc dòng liệu file email HAM lại, ta dựng dãy nhị phân dựa vào mảng chứa dãy nhị phân tạo trình huấn luyện cho dịng liệu Từ ta có dãy nhị phân email 55 - Chuyển ℓ - r + dãy nhị phân độ dài r email từ hệ nhị phân sang hệ số 10 lưu số nguyên k + Nếu xuất trường hợp A[k, j]= (các đoạn bit từ j đến bit thứ j + r - với j=1,…, ℓ - r + 1) tăng giá trị FP thêm (kết luận email kiểm tra SPAM) + Nếu toàn A[k, j]= tăng giá trị TN thêm (kết luận email kiểm tra HAM) *) Kiểm tra khả phát email SPAM - Đọc dòng liệu file thư SPAM: SPAM.txt, ta dựng dãy nhị phân dựa vào mảng chứa dãy nhị phân tạo trình huấn luyện cho dịng liệu Từ ta có dãy nhị phân email - Chuyển ℓ - r + dãy nhị phân độ dài r email từ hệ nhị phân sang hệ số 10 lưu số nguyên k + Nếu xuất trường hợp A[k, j]= (các đoạn bit từ j đến bit thứ j + r - với j=1,…, ℓ - r + 1) tăng giá trị TP thêm (kết luận email kiểm tra SPAM) + Nếu toàn A[k, j]= tăng giá trị FN thêm (kết luận email kiểm tra HAM) *) Sau q trình kiểm tra trên, tính tốn thơng số: DR, FPR, Acc 56 3.5.6 Giao diện chương trình kết Hình 3.7 Giao diện chương trình Chức đối tượng giao diện: - Hộp Select a value r: Đặt giá trị cho r - Nút Test: + Tạo tập dò từ file email HAM + Cho file email HAM cịn lại (khơng sử dụng để tạo dò) file email SPAM qua tập dị thực so khớp + Tính toán kết luận khả phát tập dò, hiển thị kết vùng Results - Nút Exit: Thốt khỏi chương trình Sau kết thử nghiệm hàm, luật,… WEKA chương trình sử dụng PNSA sở liệu Spambase Với 100% email HAM email SPAM đưa vào trình phân loại Với giá trị r = 8, chương trình sử dụng PNSA cho kết sau: Trong 2788 email HAM, chương trình sử dụng PNSA cho kết quả: - Số lượng email HAM phân loại TN = 2668 - Số lượng email phân loại sai thành email SPAM FP = 120 Trong 1813 email SPAM, chương trình sử dụng PNSA cho kết quả: 57 - Số lượng email SPAM phân loại TP = 1499 - Số lượng email phân loại sai thành email HAM FN = 314 Và kết quả: - DR: 82.67% - FPR: 4.31% - Acc: 90.56% Các phương pháp phân loại WEKA sử dụng toàn 2788 email HAM 1813 email SPAM vào trình kiểm tra (phát hiện, phân loại) nên chương trình PNSA sử dụng tồn email HAM email SPAM thay sử dụng file email HAM chưa dùng vào trình huấn luyện + email SPAM (Đơn vị tính thơng số DR, FPR, Acc: %) Bảng 3.3 Kết thử nghiệm WEKA PNSA Phương pháp BayessianLogisticRegressio n NaiveBayesUpdateable bayes.DMNBtext functions.logistic functions.RBFNetwork funtions.Spegasos lazy.TB1 misc.HyperPipes rules.ComnunctiveRule trees.RandomTree PNSA TP TN FN FP DR FPR Acc 1758 1986 55 802 96.97 28.77 81.37 1725 1617 1607 1568 1544 1592 163 1276 1621 1499 1923 2662 2645 2143 2661 2585 2777 2437 2563 2668 88 196 206 245 269 221 1650 537 192 314 865 126 143 645 127 203 11 351 225 120 95.15 89.19 88.64 86.49 85.16 87.81 8.99 70.38 89.41 82.67 31.03 4.52 5.13 23.13 4.56 7.28 0.39 12.59 8.07 4.31 79.29 93.00 92.41 80.66 91.39 90.78 63.90 80.70 90.94 90.56 Dựa vào bảng ta thấy: - Phương pháp PNSA cho kết xác 90% nằm phương pháp cho kết xác 58 Bảng 3.4 So sánh PNSA với số phương pháp cho kết tốt Phương pháp TP TN FN FP DR FPR Acc bayes.DMNBtext 1617 2662 196 126 89.19 4.52 93.00 functions.logistic 1607 2645 206 143 88.64 5.13 92.41 functions.Spegasos 1544 2661 269 127 85.16 4.56 91.39 lazy.TB1 1592 2585 221 203 87.81 7.28 90.78 trees.RandomTree 1621 2563 192 225 89.41 8.07 90.94 PNSA 1499 2668 314 120 82.67 4.31 90.56 Ta nhận thấy rằng, phương pháp PNSA cho kết xấp xỉ với phương pháp WEKA độ xác tổng thể PNSA có khả phát email SPAM thể thông số TP FN.Tuy nhiên, PNSA phân loại email HAM tốt hơn, thể thông số TN, FP - PNSA cho kết cao độ xác tổng thể so với phương pháp bảng dưới: Bảng 3.5 So sánh PNSA với số phương pháp cho kết thấp Phương pháp TP TN BayessianLogisticRegression 1758 1986 FN FP DR FPR Acc 55 802 96.97 28.77 81.37 88 865 95.15 31.03 79.29 NaiveBayesUpdateable 1725 1923 functions.RBFNetwork 1568 2143 245 645 86.49 23.13 80.66 misc.HyperPipes 163 2777 1650 11 rules.ComnunctiveRule PNSA Các phương 0.39 63.90 1276 2437 537 351 70.38 12.59 80.70 1499 2668 314 pháp 8.99 120 82.67 4.31 90.56 BayessianLogisticRegression, NaiveBayes Updateable cho khả phát email SPAM tốt, kéo theo nhiều email HAM bị phân loại thành email SPAM thể hiện: 2788 59 email HAM BayessianLogisticRegression có 802 email bị coi email SPAM, NaiveBayesUpdateable có 865 email bị coi email SPAM Thơng thường, email HAM có chứa thơng tin quan trọng hơn, việc email HAM phân loại thành email SPAM gây lo ngại so với việc email SPAM bị phân loại nhầm thành email HAM Xét mặt này, PNSA cho khả phân loại tốt phương pháp 3.5.7 Đánh giá Khả phát chương trình phụ thuộc vào độ chặt chẽ bảng băm A, bảng A có mức độ chặt chẽ cao hay thấp cịn tùy thuộc vào việc ta đặt giá trị r Giá trị r cao mức độ kiểm tra (so khớp) chặt chẽ ngược lại Trong chương trình, thử nghiệm giá trị r đoạn [7,10], đoạn giá trị dò cho kết tốt Bảng 3.6 Kết so khớp với giá trị tham số r thay đổi r DR (%) FPR (%) Acc (%) Thời gian (s) 75.50 29.62 74.82 24.7 82.34 42.52 79.15 25.59 87.77 54.41 82.15 24.95 10 91.81 60.51 84.84 26.57 Việc lựa chọn 9/10 file email HAM để huấn luyện file email HAM cịn lại đưa vào q trình test với file email SPAM lựa chọn ngẫu nhiên, nên kết lần chạy có khác nhau, nhiên số liệu DR, FPR, Acc thời gian chạy không chênh lệch lớn 60 Test áp dụng thuật toán để lọc nội dung cụ thể Với kết ta có nhận xét: - Về khả phát hiện: Với r lớn kích thước dị (bảng A) lớn, đồng nghĩa với việc mức độ kiểm tra, so khớp chặt chẽ Do vậy, r lớn xác suất email HAM bị phân loại thành email SPAM lớn Và ngược lại, r nhỏ mức độ kiểm tra chặt chẽ hơn, dẫn đến nhiều email SPAM phân loại email HAM Những email HAM mang tính quan trọng nhiều, phân loại email HAM email SPAM, cần lựa chọn giá trị r hợp lí để email HAM bị phân loại thành email SPAM Làm để tìm giá trị r hợp lý hướng phát triển tốt - Về thời gian chạy chương trình: Thời gian chạy chương trình tùy thuộc vào kích thước bảng băm chủ yếu, với giá trị r lớn bảng băm có kích thước lớn nên việc tạo bảng lâu 61 KẾT LUẬN Đề tài đạt kết sau đây: - Tìm hiểu tổng quan thư rác, phương pháp phân loại thư rác sử dụng như: lọc thư giác thông quan việc đưa luật lệ nhằm hạn chế, ngăn chặn việc gửi thư giác, lọc dựa địa IP, lọc dựa chuỗi hỏi/đáp, lọc dựa mạng xã hội, lọc dựa lọc nội dung Đồng thời đánh giá ưu nhược điểm phương pháp - Tìm hiểu thuật toán chọn lọc tiêu cực, thuật toán chọn lọc tích cực, khái niệm như: Self, Nonself, dị…một số thuật tốn hệ miễn dịch nhân tạo - Nghiên cứu thuật toán chọn lọc tiêu cực dạng r-chunk rcontiguous đưa phương pháp ứng dụng thuật tốn cho q trình phân loại thư rác - Xây dựng chương trình mơ sử dụng thuật toán kết hợp chọn lọc tiêu cực chọn lọc tích cực PNSA hệ miễn dịch nhân tạo áp dụng vào trình huấn luyện phân loại thư rác, đồng thời đánh giá chương trình thơng số như: TP, TN, FP, FN độ đo như: DR, FPR Acc - Thử nghiệm phương pháp sinh tập dò dạng r-chunk với liệu chuẩn TREC'07, SpamBase so sánh kết với số phương pháp học máy khác Hướng phát triển - Cần nghiên cứu khâu tiền xử lý văn bản, xây dựng mẫu huấn luyện tiêu chuẩn lựa chọn tham số hợp lý cho ℓ r để nâng cao độ xác phân loại giải thuật - Nâng khả lọc thư rác với loại email chứa nội dung hình ảnh, ký tự lạ,…và có đính kèm tệp tin 62 - Kết hợp với thuật tốn học máy khác để cải thiện hiệu suất độ xác - Xây dựng hệ thống Webmail cho quan tổ chức tích hợp lọc vào hệ thống - Xây dựng lọc theo mức độ phù hợp cho số nhóm đối tượng cụ thể như: chung sở thích, nơi làm việc, lĩnh vực nghiên cứu… 63 TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt [1] Bùi Ngọc Lan (2006) Lọc thư rác dựa tính chất mạng xã hội Khóa luận tốt nghiệp Trường Đại học Công nghệ, Đại học Quố c gia Hà Nộ i [2] Từ Minh Phương, Phạm Văn Cường, Nguyễn Duy Phương, Hoàng Trọng Huy (2006) Báo cáo đề tài “Nghiên cứu xây dựng hệ thống lọc thư rác có khả lọc thư rác tiếng Anh tiếng Việt” Học viện Bưu Viễn thơng, 2006 Tài liệu tiếng Anh [3] Dipak R Kawade, and Kavita S Oza, SMS Spam Classification using WEKA, International journal of Electronics Communication and Computer Technology, (2015), 43-47 [4] Fernando Esponda, Stephanie Forrest, and Paul Helman, A Formal Framework for Positive and Negative Detection Schemes, IEEE transactions on systems, man, and cybernetics, 34 (2004), 357 - 372 [5] Forrest, S., Hofmeyr, S and Somayaji, A., Computer Immunology, Communications of the ACM, 40 (1997), 88 - 96 [6] Fuyong Zhang, Deyu Qi, A Positive Selection Algorithm for classification, Journal of Computational Information Systems, (2012), 207 - 215 [7] Sin-Eon Kim, Jung-Tae Jo, and Sang-Hyun Choi, 2015, SMS Spam Filterinig Using Keyword Frequency Ratio, International Journal of Security and Its Applications, 9(1), 329-336 [8] Van Truong Nguyen, Xuan Hoai Nguyen and Chi Mai Luong, A Novel Combination of Negative and Positive Selection in Artificial Immune Systems, Vietnam National University, Hanoi Journal of Science: Comp Science & Com Eng 31(1), 22-31, 2015 64 [9] Nguyen Van Truong, Pham Dinh Lam, Vu Duc Quang Some impovements of selection algorithms fo spam email filtering [10] Johan Hovold () Naïve Bayes Spam filtering using WordPosition-Based attributes Department of Computer Science Lund University Thái Nguyên, ngày 10 tháng 04 năm 2017 Học viên Phạm Văn Dương ... NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG PHẠM VĂN DƯƠNG NGHIÊN CỨU MỘT SỐ THUẬT TOÁN LỌC THƯ RÁC VÀ ỨNG DỤNG TRONG LỌC EMAIL NỘI BỘ CỦA VIỄN THÔNG TỈNH BẮC KẠN Chuyên ngành: Khoa học máy tính Mã số: 60... 1.2.5 Phương pháp lọc nội dung Phương pháp lọc nội dung để phân loại thư rác quan tâm, nghiên cứu ứng dụng nhiều Phương pháp dựa vào nội dung chủ đề thư để phân biệt thư rác thư hợp lệ Phương... thư? ??ng áp dụng cho lọc thư server Lọc thư rác dựa xác suất thống kê học máy Đầu tiên phân loại thư thành thư rác thư hợp lệ Một thuật tốn áp dụng để trích chọn đánh trọng số cho đặc trưng thư rác theo