Nghiên cứu một số thuật toán lọc thư rác và ứng dụng trong lọc email nội bộ của viễn thông bắc kạn tt

10 10 0
Nghiên cứu một số thuật toán lọc thư rác và ứng dụng trong lọc email nội bộ của viễn thông bắc kạn tt

Đang tải... (xem toàn văn)

Thông tin tài liệu

20 [9] Nguyen Van Truong, Pham Dinh Lam, Vu Duc Quang Some impovements of selection algorithms fo spam email filtering [10] Johan Hovold () Naïve Bayes Spam filtering using WordPosition-Based attributes Department of Computer Science Lund University MỤC LỤC MỤC LỤC MỞ ĐẦU Chương THƯ RÁC VÀ CÁC PHƯƠNG PHÁP LỌC THƯ RÁC 1.1 Một số khái niệm 1.1.1 Định nghĩa thư rác 1.1.2 Phân loại thư rác 1.2 Các phương pháp lọc thư rác 1.2.1 Lọc thư rác thông qua việc đưa luật lệ nhằm hạn chế, ngăn chặn việc gửi thư rác 1.2.2 Lọc thư rác dựa địa IP 1.2.3 Lọc dựa chuỗi hỏi/ đáp 1.2.4 Phương pháp lọc dựa mạng xã hội 1.2.5 Phương pháp lọc nội dung Chương TỔNG QUAN CÁC THUẬT TOÁN NSA, PSA, PNSA TRONG LỌC THƯ RÁC 2.1 Cơ sở lý thuyết hệ miễn dịch nhân tạo 2.1.1 Khái niệm hệ miễn dịch nhân tạo 2.1.2 Phạm vi ứng dụng hệ miễn dịch nhân tạo 2.1.3 Cấu trúc hệ miễn dịch nhân tạo 2.2 Cơ sở lý thuyết thuật toán chọn lọc tiêu cực (Negative Selection Algorithms - NSA) 2.3 Cơ sở lý thuyết thuật tốn chọn lọc tích cực (Positive Selection Algorithms – PSA) 2.4 Cơ sở lý thuyết thuật toán cải tiến chọn lọc thư rác (Positive and Negative Selection Algorithms – PNSA) 2.4.1 Một số định nghĩa 2.4.2 Thuật tốn sinh tập dị r-chunk 2.4.3 Thuật toán sinh tập dò dạng r – contiguous 19 2.5 Các nghiên cứu gần Chương KẾT QUẢ CÀI ĐẶT CÁC THUẬT TOÁN 3.1 Tổng quan ứng dụng CNTT tỉnh Bắc Kạn 3.2 Mơ hình tổng qt 3.3 Mơ hình thực tế ứng dụng lọc email Spam hệ thống email nội Viễn tông tỉnh Bắc Kạn 10 3.4 Ứng dụng hệ miễn dịch nhân tạo lọc thư rác 10 3.4.1 Phát biểu toán 10 3.4.2 Cơ sở liệu TREC'07 11 3.4.3 Phân tích thuật tốn 12 3.1.5 Đánh giá 13 3.5 So sánh với thuật toán WEKA 13 3.5.1 Phát biểu toán 13 3.5.2 Cơ sở liệu SpamBase 13 3.5.3 Phần mềm WEKA 13 3.2.4 Thiết kế phần mềm 14 3.2.5 Phân tích thuật tốn kết hợp chọn lọc tích cực chọn lọc tiêu cực PNSA 14 3.2.6 Giao diện chương trình kết 15 KẾT LUẬN 17 TÀI LIỆU THAM KHẢO 19 TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt [1] Bùi Ngọc Lan (2006) Lọc thư rác dựa tính chất mạng xã hội Khóa luận tốt nghiệp Trường Đại học Công nghệ, Đại học Quố c gia Hà Nộ i [2] Từ Minh Phương, Phạm Văn Cường, Nguyễn Duy Phương, Hoàng Trọng Huy (2006) Báo cáo đề tài “Nghiên cứu xây dựng hệ thống lọc thư rác có khả lọc thư rác tiếng Anh tiếng Việt” Học viện Bưu Viễn thơng, 2006 Tài liệu tiếng Anh [3] Dipak R Kawade, and Kavita S Oza, SMS Spam Classification using WEKA, International journal of Electronics Communication and Computer Technology, (2015), 43-47 [4] Fernando Esponda, Stephanie Forrest, and Paul Helman, A Formal Framework for Positive and Negative Detection Schemes, IEEE transactions on systems, man, and cybernetics, 34 (2004), 357 372 [5] Forrest, S., Hofmeyr, S and Somayaji, A., Computer Immunology, Communications of the ACM, 40 (1997), 88 - 96 [6] Fuyong Zhang, Deyu Qi, A Positive Selection Algorithm for classification, Journal of Computational Information Systems, (2012), 207 - 215 [7] Sin-Eon Kim, Jung-Tae Jo, and Sang-Hyun Choi, 2015, SMS Spam Filterinig Using Keyword Frequency Ratio, International Journal of Security and Its Applications, 9(1), 329-336 [8] Van Truong Nguyen, Xuan Hoai Nguyen and Chi Mai Luong, A Novel Combination of Negative and Positive Selection in Artificial Immune Systems, Vietnam National University, Hanoi Journal of Science: Comp Science & Com Eng 31(1), 22-31, 2015 18 - Kết hợp với thuật toán học máy khác để cải thiện hiệu suất độ xác - Xây dựng hệ thống Webmail cho quan tổ chức tích hợp lọc vào hệ thống - Xây dựng lọc theo mức độ phù hợp cho số nhóm đối tượng cụ thể như: chung sở thích, nơi làm việc, lĩnh vực nghiên cứu… MỞ ĐẦU Mạng Internet đời mang lại cho người tiên ích to lớn quan trọng, tiện ích dịch vụ thư điện tử Vì, phương tiện giao tiếp đơn giản, tiện lợi, rẻ hiệu giúp người gắn kết liên lạc với thường xuyên Tuy nhiên, lợi dụng tính mở cơng nghệ chế trao đổi thư mà hàng ngày người dùng nhận số thư ngồi mong đợi thư rác (Spam) Thư rác thường gửi với số lượng lớn thường mục đích quảng cáo, trí đính kèm mã độc dạng Virus gây phiền toài cho người dùng, làm giảm tốc độ xử lý máy chủ mail server Thư rác (spam) thư điện tử gửi hàng loạt với nội dung mà người nhận không mong đợi, không muốn xem, hay chứa nội dung không liên quan đến người nhận thường sử dụng để gửi thơng tin quảng cáo Do có giá thành tương đối thấp so với phương pháp quảng cáo khác, thư rác chiếm tỷ lệ lớn ngày tăng tổng số thư điện tử gửi qua Internet Sự xuất gia tăng thư rác khơng gây khó chịu làm thời gian người nhận mà ảnh hưởng tới đường truyền Internet làm chậm tốc độ xử lý máy chủ thư điện tử, gây thiệt hại lớn kinh tế Xuất phát từ lý đó, đề tài đặt vấn đề nghiên cứu số thuật toán LỌC THƯ RÁC, thuật toán cơng bố gần để đề xuất mơ hình thực nghiệm dịch vụ email thực tế Qua hướng tới xây dựng ứng dụng cách tích hợp thêm số Module hỗ trợ sử dụng dịch vụ sử dụng email 4 17 Nội dung luận văn gồm có chương: Dự kiến nội dung báo cáo luận văn gồm: Phần mở đầu, chương chính, phần kết luận, tài liệu tham khảo, phụ lục Bố cục trình bày sau: Phần mở đầu: Nêu lý chọn đề tài hướng nghiên cứu Chương 1: THƯ RÁC VÀ CÁC PHƯƠNG PHÁP LỌC THƯ RÁC Chương 2: TỔNG QUAN CÁC THUẬT TOÁN NSA, PSA, PNSA TRONG LỌC THƯ RÁC Chương 3: KẾT QUẢ CÀI ĐẶT CÁC THUẬT TỐN Phần kết luận: Tóm tắt kết đạt hướng phát triển đề tài KẾT LUẬN Đề tài đạt kết sau đây: - Tìm hiểu tổng quan thư rác, phương pháp phân loại thư rác sử dụng như: lọc thư giác thông quan việc đưa luật lệ nhằm hạn chế, ngăn chặn việc gửi thư giác, lọc dựa địa IP, lọc dựa chuỗi hỏi/đáp, lọc dựa mạng xã hội, lọc dựa lọc nội dung Đồng thời đánh giá ưu nhược điểm phương pháp - Tìm hiểu thuật tốn chọn lọc tiêu cực, thuật tốn chọn lọc tích cực, khái niệm như: Self, Nonself, dị…một số thuật tốn hệ miễn dịch nhân tạo - Nghiên cứu thuật toán chọn lọc tiêu cực dạng r-chunk rcontiguous đưa phương pháp ứng dụng thuật toán cho trình phân loại thư rác - Xây dựng chương trình mơ sử dụng thuật tốn kết hợp chọn lọc tiêu cực chọn lọc tích cực PNSA hệ miễn dịch nhân tạo áp dụng vào trình huấn luyện phân loại thư rác, đồng thời đánh giá chương trình thơng số như: TP, TN, FP, FN độ đo như: DR, FPR Acc - Thử nghiệm phương pháp sinh tập dò dạng r-chunk với liệu chuẩn TREC'07, SpamBase so sánh kết với số phương pháp học máy khác Chương THƯ RÁC VÀ CÁC PHƯƠNG PHÁP LỌC THƯ RÁC 1.1 Một số khái niệm 1.1.1 Định nghĩa thư rác Thư rác (spam mail) thư điện tử không yêu cầu, không mong muốn gửi hàng loạt tới người nhận Hinh 1.1: Tất thư điện tử 1.1.2 Phân loại thư rác 1.2 Các phương pháp lọc thư rác 1.2.1 Lọc thư rác thông qua việc đưa luật lệ nhằm hạn chế, ngăn chặn việc gửi thư rác Hướng phát triển - Cần nghiên cứu khâu tiền xử lý văn bản, xây dựng mẫu huấn luyện tiêu chuẩn lựa chọn tham số hợp lý cho ℓ r để nâng cao độ xác phân loại giải thuật - Nâng khả lọc thư rác với loại email chứa nội dung hình ảnh, ký tự lạ,…và có đính kèm tệp tin 16 lazy.TB1 misc.HyperPipes rules.ComnunctiveRule trees.RandomTree PNSA 1592 163 1276 1621 1499 2585 2777 2437 2563 2668 221 1650 537 192 314 203 11 351 225 120 87.81 8.99 70.38 89.41 82.67 7.28 0.39 12.59 8.07 4.31 90.78 63.90 80.70 90.94 90.56 Bảng 3.4 So sánh PNSA với số phương pháp cho kết tốt Phương pháp TP TN FN FP DR FPR Acc bayes.DMNBtext 1617 2662 196 126 89.19 4.52 93.00 functions.logistic 1607 2645 206 143 88.64 5.13 92.41 functions.Spegasos 1544 2661 269 127 85.16 4.56 91.39 lazy.TB1 1592 2585 221 203 87.81 7.28 90.78 trees.RandomTree 1621 2563 192 225 89.41 8.07 90.94 PNSA 1499 2668 314 120 82.67 4.31 90.56 Bảng 3.5 So sánh PNSA với số phương pháp cho kết thấp Phương pháp TP BayessianLogisticRegression 1758 NaiveBayesUpdateable 1725 functions.RBFNetwork 1568 misc.HyperPipes 163 rules.ComnunctiveRule 1276 PNSA 1499 TN 1986 1923 2143 2777 2437 2668 FN 55 88 245 1650 537 314 FP 802 865 645 11 351 120 DR 96.97 95.15 86.49 8.99 70.38 82.67 FPR 28.77 31.03 23.13 0.39 12.59 4.31 1.2.2 Lọc thư rác dựa địa IP Danh sách đen (Blacklist) Danh sách trắng (Whitelist) 1.2.3 Lọc dựa chuỗi hỏi/ đáp 1.2.4 Phương pháp lọc dựa mạng xã hội 1.2.5 Phương pháp lọc nội dung Phương pháp lọc nội dung để phân loại thư rác quan tâm, nghiên cứu ứng dụng nhiều Phương pháp dựa vào nội dung chủ đề thư để phân biệt thư rác thư hợp lệ Phương pháp có ưu điểm dễ dàng thay đổi lọc để lọc loại thư rác cho phù hợp Nhược điểm phương pháp là: biết cách thức lọc nội dung nên spammer ln ln thay đổi hình thức nội dung thư rác Acc 81.37 79.29 80.66 63.90 80.70 90.56 3.2.7 Đánh giá Test áp dụng thuật toán để lọc nội dung cụ thể Hinh 1.2 : Mơ tả tổng quan q trình hoạt động honeyd Chương TỔNG QUAN CÁC THUẬT TOÁN NSA, PSA, PNSA TRONG LỌC THƯ RÁC 2.1 Cơ sở lý thuyết hệ miễn dịch nhân tạo 2.1.1 Khái niệm hệ miễn dịch nhân tạo 15 “HMD nhân tạo hệ thống thích nghi lấy ý tưởng học thuyết miễn dịch chức năng, nguyên tắc, mơ hình miễn dịch quan sát được, áp dụng giải toán thực tế.” (Castro & Timmis - 2002) Output: Các số liệu: Acc, DR, FPR *) Kiểm tra khả phát email SPAM *) Sau trình kiểm tra trên, tính tốn thơng số: DR, FPR, Acc 2.1.2 Phạm vi ứng dụng hệ miễn dịch nhân tạo HMD nhân tạo có phạm vi ứng dụng rất rộng rãi, ứng dụng phải kể đến là: - Nhận dạng mẫu - Kiểm tra lỗi dấu hiệu bất thường hệ thống - Phân tích liệu - Lập lịch - Học máy - Điều khiển tự động - Tìm kiếm tối ưu - An tồn thơng minh 3.2.6 Giao diện chương trình kết 2.1.3 Cấu trúc hệ miễn dịch nhân tạo Mơ hình chung cho hệ thống tiến hố sinh học Mơ hình cho hệ miễn dịch nhân tạo Giao diện chương trình Chức đối tượng giao diện: - Hộp Select a value r: Đặt giá trị cho r - Nút Test: + Tạo tập dò từ file email HAM + Cho file email HAM lại (khơng sử dụng để tạo dị) file email SPAM qua tập dò thực so khớp + Tính tốn kết luận khả phát tập dò, hiển thị kết vùng Results - Nút Exit: Thốt khỏi chương trình Bảng 3.3 Kết thử nghiệm WEKA PNSA Hình 2.3: Cấu trúc phân tầng HMD nhân tạo Các mơ hình trừu tượng hệ miễn dịch tương tác chúng Phương pháp BayessianLogisticRegression NaiveBayesUpdateable bayes.DMNBtext functions.logistic functions.RBFNetwork funtions.Spegasos TP 1758 1725 1617 1607 1568 1544 TN 1986 1923 2662 2645 2143 2661 FN 55 88 196 206 245 269 FP 802 865 126 143 645 127 DR 96.97 95.15 89.19 88.64 86.49 85.16 FPR 28.77 31.03 4.52 5.13 23.13 4.56 Acc 81.37 79.29 93.00 92.41 80.66 91.39 14 3.2.4 Thiết kế phần mềm - Bước 1: Chia email thường file nguồn (HAM.txt) ngẫu nhiên thành 10 phần email SPAM file nguồn (SPAM.txt) thành 10 phần tương ứng 10 file email HAM 10 file email SPAM - Bước 2: Đọc số liệu file email thường để huấn luyện - Bước 3: Tiến hành kiểm tra (testing), thực với file email thường lại tất email SPAM Số lượng email HAM email SPAM mà chương trình phát tính tốn quy đổi số liệu: DR = TP/(TP + FN) FPR = FP/(TN + FP) Acc = (TP + TN) /(TP + TN + FP + FN) Chương trình thực lặp bước hai ba mười lần, lần tính tốn cho số liệu Sau lấy giá trị trung bình mười lần tính tốn 3.2.5 Phân tích thuật tốn kết hợp chọn lọc tích cực chọn lọc tiêu cực PNSA 3.2.5.1 Quá trình chia file nguồn (Split file) Input: file chứa số liệu thống kê 58 thuộc tính email HAM - HAM.txt Output: 10 file email HAM: HSub 1.txt, HSub 2.txt, …, HSub 10.txt 3.2.5.2 Quá trình huấn luyện – Tạo tập dò (Training) Input: Chọn 10 file: HSub i.txt (i=1,…,10) Output: Tập dò lưu bảng băm kích thước: 2r.(ℓ-r+1) 3.2.5.3 Q trình kiểm tra – phân biệt HAM/SPAM (testing) Input: Bảng băm tạo; File email HAM cịn lại file emailSPAM.txt Hình 2.4: Kháng thể nhận diện kháng nguyên dựa vào phần bù 2.2 Cơ sở lý thuyết thuật toán chọn lọc tiêu cực (Negative Selection Algorithms - NSA) Bước Khởi tạo: Sản sinh quần thể tiềm P Tcell chưa trưởng thành Giả thiết tất phần tử (các quan thụ cảm self-peptide) biểu diễn xâu nhị phân ℓ bit Bước Đánh giá độ thích hợp: Xác định độ thích hợp tất T-cell P với phần tử tập Self S Bước Tạo quần thể có giá trị: Nếu độ thích hợp T-cell chưa trưởng thành với phần tử self-peptide lớn ngưỡng tương tác chéo đó, T- cell nhận diện self-peptide bị loại bỏ, trái lại T- cell bổ sung vào quần thể có giá trị A Hình 2.5 Sơ đồ khối thuật toán chọn lọc tiêu cực 2.3 Cơ sở lý thuyết thuật toán chọn lọc tích cực (Positive Selection Algorithms – PSA) Thuật tốn chọn lọc tích cực minh họa hình 2.6 tóm tắt sau: Bước Khởi tạo: Sản sinh quần thể tiềm P Tcell chưa trưởng thành Giả thiết tất phần tử biểu diễn xâu nhị phân có độ dài ℓ Bước Đánh giá độ thích hợp: Xác định độ thích hợp tất phần tử quần thể P với tất phần tử tập Self S Bước Tạo quần thể có giá trị: Nếu độ thích hợp phần tử P với phần tử S lớn ngưỡng tương tác chéo T-cell có khả nhận diện kháng ngun, chọn vào quần thể có giá trị A trái lại T-cell bị loại bỏ 13 3.1.5 Đánh giá Bảng 3.2 So sánh kết R FPR Acc Trong [10] 98.09% 0% 98.82% Apply PNSA for SPAM Filtering 99.45% 0% 99.67% 3.5 So sánh với thuật toán WEKA 3.5.1 Phát biểu toán Input: -Số nguyên dương r  [7,10], ℓ - Cơ sở liệu Spambase Data Set (lưu file *.txt) Output: Kết phát email SPAM hay email HAM thể qua 10 lần thử nghiệm với số liệu thống kê trung bình: DR (Detection Rate), FPR (False Positive Rate), Acc (Accuracy) 3.5.2 Cơ sở liệu SpamBase Trong 58 thuộc tính sở liệu này: - Có 48 thuộc tính đầu “word_freq_” nói tỉ lệ phần trăm từ thư phù hợp với nội dung thuộc tính nhắc đến 3.5.3 Phần mềm WEKA Giao diện phần mềm WEKA: Hình 2.6 Sơ đồ khối thuật tốn chọn lọc tích cực 2.4 Cơ sở lý thuyết thuật toán cải tiến chọn lọc thư rác (Positive and Negative Selection Algorithms – PNSA) S tập Self hay gọi tập tế bào cần bảo vệ A quần thể có giá trị Giao diện phần mềm Weka 12 Bước 5: Tiến hành kiểm thử với liệu test 1.000 email lấy ngẫu nhiên từ 10.000 email ban đầu tính tốn tham số DR, FPR, Acc 3.4.3 Phân tích thuật tốn 3.4.3.1 Q trình tiền xử lý liệu Trước huấn luyện email đưa qua bước tiền xử lý sau: + Loại bỏ thẻ định dạng HTML email + Loại bỏ từ nối câu từ khơng có ý nghĩa email + Các ký tự số khơng nói lên ý nghĩa email + Chuyển toàn nội dung email sang dạng nhị phân 3.4.3.2 Quá trình huấn luyện Input: 5.000 email HAM xử lý Output: Tập dị r-chunk 3.1.4.3 Q trình phân biệt self/non-self: Input: Tập dò r-chunk, tập email test gồm m email HAM n email SPAM (m + n = 1000 email) Output: Các đánh giá DR, FPR Acc Bảng 3.1 Kết chạy chương trình với test HAM SPAM 100 900 200 800 300 700 400 600 500 500 600 400 700 300 800 200 900 100 Average TP FP FN TN 894 100 793 200 695 300 596 400 496 500 399 600 297 700 200 0 800 100 0 900 DR 99.33% 99.13% 99.29% 99.33% 99.20% 99.75% 99.00% 100.00% 100.00% 99.45% FPR 0% 0% 0% 0% 0% 0% 0% 0% 0% 0% Acc 99.40% 99.30% 99.50% 99.60% 99.60% 99.90% 99.70% 100.00% 100.00% 99.67% 2.4.1 Một số định nghĩa 2.4.1.1 Self 2.4.1.2 NonSelf 2.4.1.3 Bộ dò Bộ dò r-chunk Bộ dò r-contiguous 2.4.1.4 Khả phát tập dị 2.4.1.5 Hole 2.4.2 Thuật tốn sinh tập dị r-chunk 2.4.2.1 Thuật tốn - Tư tưởng: Ta sử dụng bảng A kiểu Boolean có n hàng m cột với: n = 2r m = ℓ – r + Input: Tập xâu S, ℓ, r Output: ChunkD(S,r) 2.4.2.2 Độ phức tạp thuật toán 2.4.3 Thuật tốn sinh tập dị dạng r – contiguous 2.4.3.1 Thuật toán Input: Tập xâu S, ℓ, r Output: ContD(S,r) 2.4.3.2 Độ phức tạp thuật toán 2.5 Các nghiên cứu gần Chương KẾT QUẢ CÀI ĐẶT CÁC THUẬT TOÁN 3.1 Tổng quan ứng dụng CNTT tỉnh Bắc Kạn 3.2 Mơ hình tổng qt 10 Hình 2.1 Mơ hình tổng qt q trình gửi nhận thư điện tử 3.3 Mơ hình thực tế ứng dụng lọc email Spam hệ thống email nội Viễn tông tỉnh Bắc Kạn 11 Input: 5.000 email HAM chọn ngẫu nhiên từ CSDL TREC'07 để huấn luyện, ℓ r Output: bảng băm A biểu diễn tập dị dạng r-chunk - Q trình phân biệt self/nonself (HAM/SPAM) Input: test với test gồm 1.000 email ngẫu nhiên thay đổi tỷ lệ HAM/SPAM tương ứng từ 10% đến 90% Output: Các giá trị TP, TN, FP, FN tương ứng với test ba giá trị trung bình DR (Detection Rate), FPR (False Positive Rate), Acc (Accuracy) Trong + TP: Số lượng email SPAM kết luận + TN: Số lượng email HAM kết luận + FP: Số lượng email HAM kết luận sai thành SPAM + FN: Số lượng email SPAM kết luận sai thành HAM giá trị trung bình tính sau: DR = TP/(TP + FN) FPR = FP/(TN + FP) Acc = (TP + TN) / (TP + TN + FP + FN) 3.4.2 Cơ sở liệu TREC'07 Bộ liệu TREC'07 lưu trữ 75,419 thư điện tử có 50,199 SPAM 25,220 HAM Hình 2.2 Mơ hình mạng nội Viễn Thông Tỉnh Bắc Kạn 3.4 Ứng dụng hệ miễn dịch nhân tạo lọc thư rác 3.4.1 Phát biểu tốn - Q trình huấn luyện Phương pháp Bước 1: Đọc 5.000 email HAM 5.000 email SPAM ngẫu nhiên từ TREC'07 Bước 2: Tiền xử lý liệu cho tập email Bước 3: Đọc nội dung 5.000 email HAM sau xử lý dạng nhị phân độ dài ℓ Bước 4: Áp dụng thuật tốn CHUNK_DETECTOR_NSA để sinh tập dị ... chọn đề tài hướng nghiên cứu Chương 1: THƯ RÁC VÀ CÁC PHƯƠNG PHÁP LỌC THƯ RÁC Chương 2: TỔNG QUAN CÁC THUẬT TOÁN NSA, PSA, PNSA TRONG LỌC THƯ RÁC Chương 3: KẾT QUẢ CÀI ĐẶT CÁC THUẬT TỐN Phần kết... lọc nội dung để phân loại thư rác quan tâm, nghiên cứu ứng dụng nhiều Phương pháp dựa vào nội dung chủ đề thư để phân biệt thư rác thư hợp lệ Phương pháp có ưu điểm dễ dàng thay đổi lọc để lọc. .. SpamBase so sánh kết với số phương pháp học máy khác Chương THƯ RÁC VÀ CÁC PHƯƠNG PHÁP LỌC THƯ RÁC 1.1 Một số khái niệm 1.1.1 Định nghĩa thư rác Thư rác (spam mail) thư điện tử không yêu cầu,

Ngày đăng: 29/05/2021, 09:43

Tài liệu cùng người dùng

Tài liệu liên quan