Luận văn thạc sĩ nghiên cứu một số thuật toán lọc thư rác và ứng dụng trong lọc email nội bộ của viễn thông tỉnh bắc kạn

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG PHẠM VĂN DƯƠNG NGHIÊN CỨU MỘT SỐ THUẬT TOÁN LỌC THƯ RÁC VÀ ỨNG DỤNG TRONG LỌC EMAIL NỘI BỘ CỦA VIỄN THÔNG TỈNH BẮC KẠN LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái Nguyên - 2017 ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG PHẠM VĂN DƯƠNG NGHIÊN CỨU MỘT SỐ THUẬT TOÁN LỌC THƯ RÁC VÀ ỨNG DỤNG TRONG LỌC EMAIL NỘI BỘ CỦA VIỄN THÔNG TỈNH BẮC KẠN Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Người hướng dẫn khoa học: TS NGUYỄN HẢI MINH Thái Nguyên - 2017 LỜI CAM ĐOAN Tôi xin cam đoan luận văn cơng trình nghiên cứu riêng cá nhân tôi, không chép tự nghiên cứu, đọc, dịch tài liệu, tổng hợp thực Nội dung lý thuyết trong luận văn tơi có sử dụng số tài liệu tham khảo trình bày phần tài liệu tham khảo Các số liệu, chương trình phần mềm kết luận văn trung thực chưa cơng bố cơng trình khác Thái Nguyên, tháng năm 2017 Học viên thực Phạm Văn Dương LỜI CẢM ƠN Lời đầu tiên, em xin gửi lời biết ơn sâu sắc đến TS Nguyễn Hải Minh người tận tình hướng dẫn, bảo, giúp đỡ em suốt trình làm luận văn Em xin gửi lời cảm ơn đến thầy cô giáo trường Đại học Công nghệ thông tin Truyền thông, thầy cô Viện Công nghệ thông tin truyền đạt kiến thức giúp đỡ em suốt trình học Và cuối xin gửi lời cảm ơn tới đồng nghiệp, gia đình bạn bè người ủng hộ, động viên tạo điều kiện giúp đỡ để tơi có kết ngày hơm Thái Nguyên, tháng năm 2017 Học viên Phạm Văn Dương MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC CÁC HÌNH VẼ, BẢNG BIỂU TRONG LUẬN VĂN MỞ ĐẦU Chương THƯ RÁC VÀ CÁC PHƯƠNG PHÁP LỌC THƯ RÁC 1.1 Một số khái niệm 1.1.1 Định nghĩa thư rác 1.1.2 Phân loại thư rác 1.2 Các phương pháp lọc thư rác 1.2.1 Lọc thư rác thông qua việc đưa luật lệ nhằm hạn chế, ngăn chặn việc gửi thư rác 1.2.2 Lọc thư rác dựa địa IP 1.2.3 Lọc dựa chuỗi hỏi/ đáp 1.2.4 Phương pháp lọc dựa mạng xã hội 1.2.5 Phương pháp lọc nội dung Chương TỔNG QUAN CÁC THUẬT TOÁN NSA, PSA, PNSA TRONG LỌC THƯ RÁC 2.1 Cơ sở lý thuyết hệ miễn dịch nhân tạo 2.1.1 Khái niệm hệ miễn dịch nhân tạo 2.1.2 Phạm vi ứng dụng hệ miễn dịch nhân tạo 2.1.3 Cấu trúc hệ miễn dịch nhân tạo 2.2 Cơ sở lý thuyết thuật toán chọn lọc tiêu cực (Negative Selection Algorithms - NSA) 2.3 Cơ sở lý thuyết thuật tốn chọn lọc tích cực (Positive Selection Algorithms – PSA) 2.4 Cơ sở lý thuyết thuật toán cải tiến chọ Negative Selection Algorithms – PNSA) 2.4.1 Một số định nghĩa 2.4.2 Thuật tốn sinh tập dị r-chunk 2.4.3 Thuật toán sinh tập dò dạng r – contiguous 2.5 Các nghiên cứu gần Chương KẾT QUẢ CÀI ĐẶT CÁC THUẬT TOÁN 3.1 Tổng quan ứng dụng CNTT tỉnh Bắ 3.2 Mơ hình tổng qt 3.3 Mơ hình thực tế ứng dụng lọc email Spam hệ thống email nội Viễn tông tỉnh Bắc Kạn 3.4 Ứng dụng hệ miễn dịch nhân tạo lọc thư rác 3.4.1 Phát biểu toán 3.4.2 Cơ sở liệu TREC'07 3.4.3 Phương pháp 3.4.4 Phân tích thuật tốn 3.4.5 Đánh giá 3.5 So sánh với thuật toán WEKA 3.5.1 Phát biểu toán 3.5.2 Cơ sở liệu SpamBase 3.5.3 Phần mềm WEKA 3.5.4 Thiết kế phần mềm 3.5.5 Phân tích thuật tốn kết hợp chọn lọc tích cực chọn lọc tiêu cực PNSA 3.5.6 Giao diện chương trình kết 3.5.7 Đánh giá KẾT LUẬN TÀI LIỆU THAM KHẢO CÁC HÌNH VẼ, BẢNG BIỂU TRONG LUẬN VĂN Hinh 1.1: Tất thư điện tử Hinh 1.2 : Mô tả tổng quan trình hoạt động honeyd Hình 2.1: Cấu trúc phân tầng HMD nhân tạo Hình 2.2: Kháng thể nhận diện kháng nguyên dựa vào phần bù Hình 2.3 Sơ đồ khối thuật toán chọn lọc tiêu cực Hình 2.4 Sơ đồ khối thuật tốn chọn lọc tích cực Hình 3.1 Mơ hình tổng qt q trình gửi nhận thư điện tử Hình 3.2 Mơ hình mạng nội Viễn Thơng Tỉnh Bắc Kạn Hình 3.3 Giao diện phần mềm Weka Hình 3.4 Giao diện Weka Explorer Hình 3.5 Giao diện Weka Explorer sau chọn CSDL Spambase Hình 3.6 Phân loại liệu Hình 3.7 Giao diện chương trình Bảng 2.1 Kết bảng băm A Bảng 2.2 Các thông số bảng băm A Bảng 3.1 Kết chạy chương trình với test Bảng 3.2 So sánh kết Bảng 3.3 Kết thử nghiệm WEKA PNSA Bảng 3.4 So sánh PNSA với số phương pháp cho kết tốt Bảng 3.5 So sánh PNSA với số phương pháp cho kết thấp 58 Bảng 3.6 Kết so khớp với giá trị tham số r thay đổi 59 MỞ ĐẦU Mạng Internet đời mang lại cho người tiện ích to lớn quan trọng, tiện ích dịch vụ thư điện tử Vì, phương tiện giao tiếp đơn giản, tiện lợi, rẻ hiệu giúp người gắn kết liên lạc với thường xuyên Tuy nhiên, lợi dụng tính mở công nghệ chế trao đổi thư mà hàng ngày người dùng nhận số thư ngồi mong đợi thư rác (Spam) Thư rác thường gửi với số lượng lớn thường mục đích quảng cáo, trí đính kèm mã độc dạng Virus gây phiền toài cho người dùng, làm giảm tốc độ xử lý máy chủ mail server Thư rác (spam) thư điện tử gửi hàng loạt với nội dung mà người nhận không mong đợi, không muốn xem, hay chứa nội dung không liên quan đến người nhận thường sử dụng để gửi thơng tin quảng cáo Do có giá thành tương đối thấp so với phương pháp quảng cáo khác, thư rác chiếm tỷ lệ lớn ngày tăng tổng số thư điện tử gửi qua Internet Sự xuất gia tăng thư rác khơng gây khó chịu làm thời gian người nhận mà ảnh hưởng tới đường truyền Internet làm chậm tốc độ xử lý máy chủ thư điện tử, gây thiệt hại lớn kinh tế Xuất phát từ lý đó, đề tài đặt vấn đề nghiên cứu số thuật toán LỌC THƯ RÁC, thuật tốn cơng bố gần để đề xuất mơ hình thực nghiệm dịch vụ email thực tế Qua hướng tới xây dựng ứng dụng cách tích hợp thêm số Module hỗ trợ sử dụng dịch vụ sử dụng email Nội dung luận văn gồm có chương: Dự kiến nội dung báo cáo luận văn gồm: Phần mở đầu, chương chính, phần kết luận, tài liệu tham khảo, phụ lục Bố cục trình bày sau: Phần mở đầu: Nêu lý chọn đề tài hướng nghiên cứu Chương 1: THƯ RÁC VÀ CÁC PHƯƠNG PHÁP LỌC THƯ RÁC Chương 2: TỔNG QUAN CÁC THUẬT TOÁN NSA, PSA, PNSA TRONG LỌC THƯ RÁC Chương 3: KẾT QUẢ CÀI ĐẶT CÁC THUẬT TỐN Phần kết luận: Tóm tắt kết đạt hướng phát triển đề tài Chương THƯ RÁC VÀ CÁC PHƯƠNG PHÁP LỌC THƯ RÁC Một dịch vụ Internet mang lại dịch vụ thư điện tử, phương pháp giao tiếp đơn giản, tiện lợi, rẻ hiệu người Tuy nhiên, lợi ích dịch vụ thư điện tử mang lại mà số lượng thư trao đổitrên Internet ngày tăng hầu hết số thư thư rác(Email spam) Thư rác thường gửi với số lượng lớn, người dùng không mong đợi với nhiều mục đích khác như: Quảng cáo, đính kèm virus, gây phiền tối khó chịu cho người dùng, làm giảm tốc độ Internet tốc độ xử lý server, gây thiệt hại lớn kinh tế Chương khái quát vấn đề thư rác, ảnh hưởng thư rác sống phương pháp ngăn chặn thư rác Các khái niệm chương tham khảo [1], [2], [3], [4] 1.1 Một số khái niệm 1.1.1 Định nghĩa thư rác Có nhiều tranh cãi việc đâu định nghĩa xác thư rác (spam email), thư rác mang tính cá nhân hóa nên khó mà nói lên nghĩa thư rác Nhiều ý kiến cho thư rác “thư điện tử (email) không mong muốn” Định nghĩa không thực xác, nhân viên nhận thư điện tử công việc từ sếp họ, thư điện tử người nhân viên không mong muốn chúng thư rác Lại có ý kiến khác cho thư rác “thư điện tử thương mại không yêu cầu từ phía người nhận” - thư bao gồm thư điện tử quảng cáo sản phẩm thư điện tử lừa gạt Nhưng định nghĩa khơng thực xác, làm người nghĩ thư rác giống thư đáng bỏ (junk mail) Sau đưa định nghĩa thơng dụng thư rác giải thích đặc điểm để phân biệt thư rác với thư thông thường [1,2]: 50 khai thác liệu thực tế, sử dụng giảng thuật giải Machine Learning nhiều trường đại học lớn giới WEKA viết ngôn ngữ Java JDK, cấu trúc gồm 600 lớp tổ chức thành 10 packages Với chức chính: - Khảo sát liệu: Tiền xử lí liệu, phân lớp, gom nhóm liệu, khai thác luật kết hợp - Thực nghiệm mơ hình: cung cấp phương tiện để kiểm chứng đánh giá mơ hình học - Biểu diễn trực quan liệu nhiều dạng đồ thị… Trong luận văn, chủ yếu sử dụng phần mềm để khảo sát liệu nhằm so sánh với chương trình xây dựng Giao diện phần mềm WEKA: Hình 3.3 Giao diện phần mềm Weka Từ giao diện WEKA thực bước: Bước Chọn nút tác vụ Explorer, giao diện Weka Explorer xuất 51 Hình 3.4 Giao diện Weka Explorer - Bước Tại thẻ Preprocess chọn nút Open file… để nạp tệp sở liệu Thông thường sở liệu lưu dạng *.arff *.csv Hình 3.5 Giao diện Weka Explorer sau chọn CSDL Spambase 52 WEKA thống kê đưa thuộc tính có sở liệu hiển thị giao diện, hộp Attributes nhấn nút All để chọn tất thuộc tính Hình 3.6 Phân loại liệu Bước Chọn hàm, luật,… phân loại mục Classify nhấn nút Choose Thiết lập số tùy chọn mục Test options, ta chọn sử dụng phương pháp Cross-validation Bước Nhấn nút Start để thực hiện, theo dõi kết vùng Classifier output 3.5.4 Thiết kế phần mềm Việc thử nghiệm chương trình thực theo quy tắc: Tenfold cross validation, thực sau: - Bước 1: Chia email thường file nguồn (HAM.txt) ngẫu nhiên thành 10 phần email SPAM file nguồn (SPAM.txt) thành 10 phần tương ứng 10 file email HAM 10 file email SPAM - Bước 2: Đọc số liệu file email thường để huấn luyện 53 - Bước 3: Tiến hành kiểm tra (testing), thực với file email thường lại tất email SPAM Số lượng email HAM email SPAM mà chương trình phát tính tốn quy đổi số liệu: DR = TP/(TP + FN) FPR = FP/(TN + FP) Acc = (TP + TN) /(TP + TN + FP + FN) Chương trình thực lặp bước hai ba mười lần, lần tính tốn cho số liệu Sau lấy giá trị trung bình mười lần tính tốn 3.5.5 Phân tích thuật tốn kết hợp chọn lọc tích cực chọn lọc tiêu cực PNSA 3.5.5.1 Quá trình chia file nguồn (Split file) Input: file chứa số liệu thống kê 58 thuộc tính email HAM HAM.txt Output: 10 file email HAM: HSub 1.txt, HSub 2.txt, …, HSub 10.txt Thuật toán Trong sở liệu Spambase Data Set sử dụng có số liệu thống kê thuộc tính 4601 email ghi dịng Trong đó, có 1813 email SPAM 2788 email HAM, ta tạo file HAM.txt chứa 2788 email HAM SPAM.txt chứa 1813 email SPAM Sử dụng nút Open File HAM giao diện để tìm đường dẫn tới file HAM.txt Quá trình chia sau: - Kiểm tra thư mục bin\Debug có file HSub i.txt SSub i.txt (i=1,…,10) chưa, chưa có tạo file - Lần lượt đọc dòng file HAM.txt, sinh ngẫu nhiên số nn[1,10] ghi dòng liệu vào file: HSub nn.txt - Đóng file vừa tạo 54 3.5.5.2 Q trình huấn luyện – Tạo tập dò (Training) Input: Chọn 10 file: HSub i.txt (i=1,…,10) Output: Tập dị lưu bảng băm kích thước: 2r.(ℓ-r+1) Thuật tốn Quá trình huấn luyện sau: - Đọc dịng file đầu vào, từ tạo mảng chuỗi lưu trữ giá trị 57 thuộc tính (trừ thuộc tính cuối) Thống kê lại chuỗi thuộc tính cho khơng cịn giá trị trùng Chuyển đổi theo quy tắc dãy thuộc tính sang dạng dãy nhị - Mỗi thuộc tính email ứng với dãy nhị phân, kết hợp dãy nhị phân 57 thuộc tính lại ta dãy nhị phân email giá trị dòng liệu file chuyển sang dạng nhị phân có độ dài - Duyệt ℓ - r + dãy độ dài r dãy nhị phân, áp dụng cách tính tốn phương pháp tạo tập dị bảng băm để xây dựng bảng A 3.5.5.3 Quá trình kiểm tra – phân biệt HAM/SPAM (testing) Input: Bảng băm tạo; File email HAM lại file emailSPAM.txt Output: Các số liệu: Acc, DR, FPR Thuật toán Thiết lập thơng số sau có giá trị 0: TN, FP, TP, FN, Acc, DR, FPR *) Kiểm tra khả phát email HAM - Đọc dòng liệu file email HAM lại, ta dựng dãy nhị phân dựa vào mảng chứa dãy nhị phân tạo trình huấn luyện cho dịng liệu Từ ta có dãy nhị phân email 55 - Chuyển ℓ - r + dãy nhị phân độ dài r email từ hệ nhị phân sang hệ số 10 lưu số nguyên k + Nếu xuất trường hợp A[k, j]= (các đoạn bit từ j đến bit thứ j + r - với j=1,…, ℓ - r + 1) tăng giá trị FP thêm (kết luận email kiểm tra SPAM) + Nếu toàn A[k, j]= tăng giá trị TN thêm (kết luận email kiểm tra HAM) *) Kiểm tra khả phát email SPAM - Đọc dòng liệu file thư SPAM: SPAM.txt, ta dựng dãy nhị phân dựa vào mảng chứa dãy nhị phân tạo trình huấn luyện cho dịng liệu Từ ta có dãy nhị phân email - Chuyển ℓ - r + dãy nhị phân độ dài r email từ hệ nhị phân sang hệ số 10 lưu số nguyên k + Nếu xuất trường hợp A[k, j]= (các đoạn bit từ j đến bit thứ j + r - với j=1,…, ℓ - r + 1) tăng giá trị TP thêm (kết luận email kiểm tra SPAM) + Nếu toàn A[k, j]= tăng giá trị FN thêm (kết luận email kiểm tra HAM) *) Sau q trình kiểm tra trên, tính tốn thơng số: DR, FPR, Acc 56 3.5.6 Giao diện chương trình kết Hình 3.7 Giao diện chương trình Chức đối tượng giao diện: + - Hộp Select a value r: Đặt giá trị cho r - Nút Test: + Tạo tập dò từ file email HAM Cho file email HAM lại (khơng sử dụng để tạo dị) file email SPAM qua tập dò thực so khớp + Tính tốn kết luận khả phát tập dò, hiển thị kết vùng Results - Nút Exit: Thốt khỏi chương trình Sau kết thử nghiệm hàm, luật,… WEKA chương trình sử dụng PNSA sở liệu Spambase Với 100% email HAM email SPAM đưa vào trình phân loại Với giá trị r = 8, chương trình sử dụng PNSA cho kết sau: Trong 2788 email HAM, chương trình sử dụng PNSA cho kết quả: - Số lượng email HAM phân loại TN = 2668 Số lượng email phân loại sai thành email SPAM FP = 120 Trong 1813 email SPAM, chương trình sử dụng PNSA cho kết quả: 57 - Số lượng email SPAM phân loại TP = 1499 Số lượng email phân loại sai thành email HAM FN = 314 Và kết quả: - DR: 82.67% - FPR: 4.31% - Acc: 90.56% Các phương pháp phân loại WEKA sử dụng toàn 2788 email HAM 1813 email SPAM vào trình kiểm tra (phát hiện, phân loại) nên chương trình PNSA sử dụng tồn email HAM email SPAM thay sử dụng file email HAM chưa dùng vào trình huấn luyện + email SPAM (Đơn vị tính thơng số DR, FPR, Acc: %) Bảng 3.3 Kết thử nghiệm WEKA PNSA Dựa vào bảng ta thấy: - Phương pháp PNSA cho kết xác 90% nằm phương pháp cho kết xác 58 Bảng 3.4 So sánh PNSA với số phương pháp cho kết tốt Phươ bayes.D functio function laz trees.Ra P Ta nhận thấy rằng, phương pháp PNSA cho kết xấp xỉ với phương pháp WEKA độ xác tổng thể PNSA có khả phát email SPAM thể thông số TP FN.Tuy nhiên, PNSA phân loại email HAM tốt hơn, thể thông số TN, FP PNSA cho kết cao độ xác tổng thể so với phương pháp bảng dưới: Bảng 3.5 So sánh PNSA với số phương pháp cho kết thấp Các phương pháp BayessianLogisticRegression, NaiveBayes Updateable cho khả phát email SPAM tốt, kéo theo nhiều email HAM bị phân loại thành email SPAM thể hiện: 2788 59 email HAM BayessianLogisticRegression có 802 email bị coi email SPAM, NaiveBayesUpdateable có 865 email bị coi email SPAM Thơng thường, email HAM có chứa thông tin quan trọng hơn, việc email HAM phân loại thành email SPAM gây lo ngại so với việc email SPAM bị phân loại nhầm thành email HAM Xét mặt này, PNSA cho khả phân loại tốt phương pháp 3.5.7 Đánh giá Khả phát chương trình phụ thuộc vào độ chặt chẽ bảng băm A, bảng A có mức độ chặt chẽ cao hay thấp tùy thuộc vào việc ta đặt giá trị r Giá trị r cao mức độ kiểm tra (so khớp) chặt chẽ ngược lại Trong chương trình, thử nghiệm giá trị r đoạn [7,10], đoạn giá trị dò cho kết tốt Bảng 3.6 Kết so khớp với giá trị tham số r thay đổi r 10 Việc lựa chọn 9/10 file email HAM để huấn luyện file email HAM lại đưa vào trình test với file email SPAM lựa chọn ngẫu nhiên, nên kết lần chạy có khác nhau, nhiên số liệu DR, FPR, Acc thời gian chạy không chênh lệch lớn 60 Test áp dụng thuật toán để lọc nội dung cụ thể Với kết ta có nhận xét: - Về khả phát hiện: Với r lớn kích thước dị (bảng A) lớn, đồng nghĩa với việc mức độ kiểm tra, so khớp chặt chẽ Do vậy, r lớn xác suất email HAM bị phân loại thành email SPAM lớn Và ngược lại, r nhỏ mức độ kiểm tra chặt chẽ hơn, dẫn đến nhiều email SPAM phân loại email HAM Những email HAM mang tính quan trọng nhiều, phân loại email HAM email SPAM, cần lựa chọn giá trị r hợp lí để email HAM bị phân loại thành email SPAM Làm để tìm giá trị r hợp lý hướng phát triển tốt - Về thời gian chạy chương trình: Thời gian chạy chương trình tùy thuộc vào kích thước bảng băm chủ yếu, với giá trị r lớn bảng băm có kích thước lớn nên việc tạo bảng lâu 61 KẾT LUẬN Đề tài đạt kết sau đây: Tìm hiểu tổng quan thư rác, phương pháp phân loại thư rác sử dụng như: lọc thư giác thông quan việc đưa luật lệ nhằm hạn chế, ngăn chặn việc gửi thư giác, lọc dựa địa IP, lọc dựa chuỗi hỏi/đáp, lọc dựa mạng xã hội, lọc dựa lọc nội dung Đồng thời đánh giá ưu nhược điểm phương pháp - Tìm hiểu thuật tốn chọn lọc tiêu cực, thuật tốn chọn lọc tích cực, khái niệm như: Self, Nonself, dị…một số thuật tốn hệ miễn dịch nhân tạo Nghiên cứu thuật toán chọn lọc tiêu cực dạng r-chunk rcontiguous đưa phương pháp ứng dụng thuật tốn cho q trình phân loại thư rác - Xây dựng chương trình mơ sử dụng thuật toán kết hợp chọn lọc tiêu cực chọn lọc tích cực PNSA hệ miễn dịch nhân tạo áp dụng vào trình huấn luyện phân loại thư rác, đồng thời đánh giá chương trình thông số như: TP, TN, FP, FN độ đo như: - Thử nghiệm phương pháp sinh tập dò dạng r-chunk với liệu chuẩn TREC'07, SpamBase so sánh kết với số phương pháp học máy khác Hướng phát triển - Cần nghiên cứu khâu tiền xử lý văn bản, xây dựng mẫu huấn luyện tiêu chuẩn lựa chọn tham số hợp lý cho ℓ r để nâng cao độ xác phân loại giải thuật - Nâng khả lọc thư rác với loại email chứa nội dung hình ảnh, ký tự lạ,…và có đính kèm tệp tin 62 - Kết hợp với thuật toán học máy khác để cải thiện hiệu suất độ xác - Xây dựng hệ thống Webmail cho quan tổ chức tích hợp lọc vào hệ thống - Xây dựng lọc theo mức độ phù hợp cho số nhóm đối tượng cụ thể như: chung sở thích, nơi làm việc, lĩnh vực nghiên cứu… 63 TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt [1] Bùi Ngọc Lan (2006) Lọc thư rác dựa tính chất mạng xã hội Khóa luận tốt nghiệp Trường Đại học Công nghệ, Đại học Quố c gia Hà Nộ i [2] Từ Minh Phương, Phạm Văn Cường, Nguyễn Duy Phương, Hoàng Trọng Huy (2006) Báo cáo đề tài “Nghiên cứu xây dựng hệ thống lọc thư rác có khả lọc thư rác tiếng Anh tiếng Việt” Học viện Bưu Viễn thơng, 2006 Tài liệu tiếng Anh [3] Dipak R Kawade, and Kavita S Oza, SMS Spam Classification using WEKA, International journal of Electronics Communication and Computer Technology, (2015), 43-47 [4] Fernando Esponda, Stephanie Forrest, and Paul Helman, A Formal Framework for Positive and Negative Detection Schemes, IEEE transactions on systems, man, and cybernetics, 34 (2004), 357 - 372 [5] Forrest, S., Hofmeyr, S and Somayaji, A., Computer Immunology, Communications of the ACM, 40 (1997), 88 - 96 [6] Fuyong Zhang, Deyu Qi, A Positive Selection Algorithm for classification, Journal of Computational Information Systems, (2012), 207 - 215 [7] Sin-Eon Kim, Jung-Tae Jo, and Sang-Hyun Choi, 2015, SMS Spam Filterinig Using Keyword Frequency Ratio, International Journal of Security and Its Applications, 9(1), 329-336 [8] Van Truong Nguyen, Xuan Hoai Nguyen and Chi Mai Luong, A Novel Combination of Negative and Positive Selection in Artificial Immune Systems, Vietnam National University, Hanoi Journal of Science: Comp Science & Com Eng 31(1), 22-31, 2015 64 [9] Nguyen Van Truong, Pham Dinh Lam, Vu Duc Quang Some impovements of selection algorithms fo spam email filtering [10] Johan Hovold () Naïve Bayes Spam filtering using Word- Position-Based attributes Department of Computer Science Lund University Thái Nguyên, ngày 10 tháng 04 năm 2017 Học viên Phạm Văn Dương ... NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG PHẠM VĂN DƯƠNG NGHIÊN CỨU MỘT SỐ THUẬT TOÁN LỌC THƯ RÁC VÀ ỨNG DỤNG TRONG LỌC EMAIL NỘI BỘ CỦA VIỄN THÔNG TỈNH BẮC KẠN Chuyên ngành: Khoa học máy tính Mã số: 60... hướng nghiên cứu Chương 1: THƯ RÁC VÀ CÁC PHƯƠNG PHÁP LỌC THƯ RÁC Chương 2: TỔNG QUAN CÁC THUẬT TOÁN NSA, PSA, PNSA TRONG LỌC THƯ RÁC Chương 3: KẾT QUẢ CÀI ĐẶT CÁC THUẬT TOÁN Phần kết luận: Tóm... thư? ??ng áp dụng cho lọc thư server Lọc thư rác dựa xác suất thống kê học máy Đầu tiên phân loại thư thành thư rác thư hợp lệ Một thuật toán áp dụng để trích chọn đánh trọng số cho đặc trưng thư rác

Luận văn thạc sĩ nghiên cứu một số thuật toán lọc thư rác và ứng dụng trong lọc email nội bộ của viễn thông tỉnh bắc kạn

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan

Luận văn thạc sĩ nghiên cứu một số thuật toán lọc thư rác và ứng dụng trong lọc email nội bộ của viễn thông tỉnh bắc kạn​

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan

Luận văn thạc sĩ nghiên cứu một số thuật toán lọc thư rác và ứng dụng trong lọc email nội bộ của viễn thông tỉnh bắc kạn