Nghiên cứu các phương pháp lọc thư rác tại việt nam và trên thế giới, xây dựng và đề xuất phương án lọc thư rác tiếng Việt Nghiên cứu các phương pháp lọc thư rác tại việt nam và trên thế giới, xây dựng và đề xuất phương án lọc thư rác tiếng Việt luận văn tốt nghiệp thạc sĩ
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LÂM TĂNG DOAN NGHIÊN CỨU CÁC PHƯƠNG PHÁP LỌC THƯ RÁC TẠI VIỆT NAM VÀ TRÊN THẾ GIỚI, XÂY DỰNG VÀ ĐỀ XUẤT PHƯƠNG ÁN LỌC THƯ RÁC TIẾNG VIỆT Ngành: Công nghệ Thông tin Chuyên ngành: Quản lý hệ thống thông tin Mã Số: 8480205.01 LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Nguyễn Hà Nam Hà nội – 11/2020 i Mục lục LỜI CẢM ƠN iii LỜI CAM ĐOAN iv DANH MỤC HÌNH VẼ v Chương 1: Giới thiệu 1.1 1.2 1.3 1.4 Mục tiêu nghiên cứu Phương pháp nghiên cứu Cấu trúc luận văn Tổng quan thư rác 1.4.1 Định nghĩa 1.4.2 Thống kê tác hại thư rác 1.4.3 Phương pháp phân loại thư rác 1.4.4 Các loại thư rác 1.4.5 Mơ hình lọc thư rác 10 1.4.6 Quy trình hoạt động lọc thư rác 13 1.4.7 Quy trình lọc thư điện tử sử dụng học máy 14 1.4.8 Mơ hình lọc thư rác Zimbra 14 Chương Các kỹ thuật lọc thư rác thư rác 19 2.1 Các kỹ thuật giảm thiểu thư rác 19 2.1.1 Lọc IP 19 2.1.2 Danh sách xám phản hồi - thách thức 20 2.1.3 Cải thiện xác thực thư để phòng chống thư rác 20 2.1.4 Bảo vệ địa 22 2.2 Các kỹ thuật lọc thư rác 22 2.2.1 Phương thức trích xuất thư điện tử 23 2.2.2 Các kỹ thuật lọc thư rác 32 2.2.3 Các kỹ thuật lọc thư rác thông minh 35 2.3 Các nghiên cứu lọc thư rác giới 40 2.4 Một số nghiên cứu thư rác Việt Nam 42 ii Chương Đề xuất Thực nghiệm 44 3.1 Đề xuất giải pháp lọc thư rác 44 3.1.1 Mơ hình thực nghiệm vật lý 45 3.1.2 Lọc thư rác sử dụng SVM Naïve Bayes 46 3.1.3 Xây dựng quy tắc lọc tiếng Việt 48 3.2 Thực nghiệm 55 3.2.1 Dữ liệu huấn luyện 55 3.2.2 Kiểm thử hệ thống chưa cài Naïve Bayes 55 3.2.3 Kiểm thử hệ thống có Nạve Bayes 56 3.2.4 Tỉ lệ lọc sau tích hợp SVM-NB 59 3.2.5 Kiểm tra quy tắc tự xây dựng 61 KẾT LUẬN 64 TÀI LIỆU THAM KHẢO 65 iii LỜI CẢM ƠN Trước tiên xin dành lời cảm ơn chân thành sâu sắc đến thầy giáo, PGS TS Nguyễn Hà Nam – người hướng dẫn, khuyến khích, bảo tạo cho điều kiện tốt từ bắt đầu hoàn thành cơng việc Tơi xin dành lời cảm ơn chân thành tới thầy cô giáo khoa Công nghệ thông tin, trường Đại học Công nghệ, ĐHQGHN tận tình huấn luyện, cung cấp cho tơi kiến thức vô quý giá tạo điều kiện tốt cho tơi suốt q trình học tập, nghiên cứu trường Đồng thời xin cảm ơn tất người thân u gia đình tơi tồn thể bạn bè người ln giúp đỡ, động viên tơi vấp phải khó khăn, bế tắc Cuối cùng, xin chân thành cảm ơn đồng nghiệp Trường Đại Học Kinh tế - Đại học Quốc Gia Hà Nội giúp đỡ, tạo điều kiện thuận lợi cho học tập nghiên cứu chương trình thạc sĩ Đại học Công nghệ, Đại học Quốc Gia Hà Nội iv LỜI CAM ĐOAN Tôi xin cam đoan luận văn thạc sĩ công nghệ thông tin “Nghiên cứu phương pháp lọc thư rác việt nam giới, xây dựng đề xuất phương án lọc thư rác tiếng Việt” cơng trình nghiên cứu riêng tơi, khơng chép lại người khác Trong tồn nội dung luận văn, điều trình bày cá nhân tơi tổng hợp từ nhiều nguồn tài liệu Tất nguồn tài liệu tham khảo có xuất xứ rõ ràng hợp pháp Tơi xin hồn tồn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, ngày 20 tháng 12 năm 2020 Lâm Tăng Doan v DANH MỤC HÌNH VẼ Hình 1.1 Tỉ lệ thư rác điện tử từ năm 2012 đến 2018 [3] Hình 1.2 Thống kê phân loại nội dung thư rác năm 2020 [5] Hình 1.3 Mơ hình khái qt gửi, nhận thư điện tử 10 Hình 1.4 Mơ hình lọc thư rác [9] 12 Hình 1.8 Quy trình lọc nội dung thư rác [9] 13 Hình 1.9 Quy trình lọc nội dung thư điện tử [9] 14 Hình 1.5 Mơ hình xử lý thư Zimbra 15 Hình 1.6 Chi tiết điểm số tiêu đề thư rác đánh dấu Spamassassin 17 Hình 1.7 Thành phần mơ đun lọc Spamassassin [11] 17 Hình 3.1 Kiến trúc mơ hình lọc thư rác 45 Hình 3.2 Tỉ lệ xuất cụm từ 51 Hình 3.3 Thống kê cụm từ tiếng Việt xuất nhiều liệu huấn luyện 51 Hình 3.4 Các quy tắc tạo để ổn định hệ thống lọc 54 Hình 3.5 Quá trì huấn luyện liệu mẫu Naïve Bayes 55 Hình 3.6 Thư rác chưa phân loại chưa huấn luyện Nạve Bayes 56 Hình 3.7 Thư rác phân loại thư rác sau huấn luyện Nạve Bayes 56 Hình 3.8 Kết kiểm tra mass-check 57 Hình 3.9 Phân bổ điểm tập thư rác 57 Hình 3.10 Điểm thư rác có lọc Naïve Bayes 58 Hình 3.11 Thống kê khả lọc thư hệ thống 59 Hình 3.12 Tỉ lệ nhận định thư rác 59 Hình 3.13 Tỉ lệ xác lọc thư rác hợp lệ 60 Hình 3.14.Thư rác kiểm thử quy tắc tạo 62 Hình 3.15 Chi tiết tính điểm cho thư đáp ứng quy tắc tạo 62 Chương 1: Giới thiệu Mạng Internet đời mở nhiều phương thức liên lạc mới, cho phép liên lạc cách xa hàng nghìn kilomet Một phương tiện sử dụng nhiều để giao tiếp công việc cá nhân thư điện tử Thư điện tử cho phép người dùng tiếp cận hàng trăm nghìn người vịng vài giây miễn phí Do đó, số lượng người sử dụng thư điện tử cho công việc giao tiếp ngày nhiều Tuy nhiên, khả tiếp cận nhiều người dễ dàng miễn phí nên phương thức liên lạc hay bị lợi dụng cho mục đích xấu Trong vài năm gần đây, thư rác (hay gọi spam) trở thành vấn đề đáng lưu tâm doanh nghiệp người dùng cá nhân Một số thư rác có mục đích thương mại, số khác để để bày tỏ ý kiến trị tôn giáo, lừa đảo khán giả phát tán virus Thư rác trở thành công cụ phổ biến phục vụ cho mục đích xấu thư rác dễ triển khai, có khả gửi hàng loạt, chi phí thấp khả tiếp cận người dùng cao Hơn trở ngại công nghệ với sở hạ tầng thư điện tử, để theo dõi truy vết cá nhân nhóm gửi thư rác khó tốn thời gian Ngồi ra, kẻ gửi thư rác thường hay che giấu giả mạo địa thông điệp Ngay chúng truy tìm, kiến trúc phi tập trung Internet gây khó khăn cho việc thực biện pháp bảo vệ pháp lý Tại trường đại học, cán công nhân viên sinh viên sử dụng thư điện tử để trao đổi công việc, học tập Do đó, việc ngăn chặn thư rác, để làm tăng đường truyền băng thông cho người dùng, giảm lưu trữ máy chủ thư điện tử ngăn chặn phát tán thư độc hại, nội dung tuyên truyền phản động, phản cảm hay hành vi lừa đảo mạng vô cần thiết Thực tế qua trình thư thập liệu thư tiếng Việt cho thấy có nhiều thư rác Tiếng Anh hịm thư người dùng Việt, chí nhiều thư rác tiếng Việt Do đó, ta cần triển khai lọc thư rác lọc thư rác Tiếng Việt Tiếng Anh 1.1 Mục tiêu nghiên cứu Dựa theo bối cảnh trên, nhu cầu thực tế, đề tài nghiên cứu triển khai hình thành nhằm xây dựng hệ thống lọc thư rác tiếng Việt Hiện hệ thống lọc thư rác tích hợp sẵn lọc thư rác hiệu thư điện tử Tiếng Anh nhiên chưa tối ưu hóa thư điện tử tiếng Việt Các tập luận để lọc xây dựng cho thư tiếng Anh Do đó, đề tài mong muốn tối ưu nâng cao khả lọc thư rác tiếng Việt 1.2 Phương pháp nghiên cứu Phương pháp luận sử dụng đề tài bao gồm phương pháp nghiên cứu tổng hợp lý thuyết phương pháp thực nghiệm Mục lý thuyết nghiên cứu thu thập từ sách, báo tạp chí chun ngành Sau có tảng lý thuyết mơ hình thực nghiệm tiến hành Mơ hình thực nghiệm xây dựng, hỗ trợ số tảng lý thuyết Các kết thực nghiệm thu đánh giá kiểm chứng lại lý thuyết 1.3 Cấu trúc luận văn Đề tài bao gồm chương Đề tài nghiên cứu xây dựng lên từ nghiên cứu tổng quan thư rác, thảo luận tổng quan thư rác, mơ hình tổng quan gửi nhận thư điện tử phương thức xác thực để phòng chống thư rác (Chương 1) Chương trình bày phương pháp trích xuất thông tin thư điện tử, kỹ thuật giảm thiểu thư rác phổ biến chặn IP, lọc theo luật, lọc theo nhận dạng kỹ thuật lọc rác thông minh Tiếp theo, luận văn so sánh, nghiên cứu hướng lọc thư rác Việt Nam giới, để từ đưa đề xuất phù hợp Cuối cùng, Chương mô tả thực nghiệm bao gồm đề xuất mô tả kiến trúc thực nghiệm, kỹ thuật áp dụng thực nghiệm kết luận đánh giá kết thực nghiệm 1.4 Tổng quan thư rác 1.4.1 Định nghĩa Có nhiều định nghĩa khác cho thư rác Theo [1], thư rác (spam) hoạt động gửi thư điện tử không yêu cầu, với số lượng lớn số trường hợp liên tục gửi đến cá nhân mà khơng có liên hệ trước địa e-mail họ thu thập không hợp pháp, spam thường hiểu việc gửi hàng loạt thư thương mại không yêu cầu người gửi ngụy trang giả mạo danh tính, hay định nghĩa tin nhắn điện tử không yêu cầu, nội dung [1] [2] Định nghĩa có tính đến đặc điểm thư điện tử hàng loạt [2] Các định nghĩa thư rác có đặc điểm chung sau: • • • • • • • • • • • Gửi thư điện tử Sử dụng địa thu thập mà khơng có đồng ý Gửi hàng loạt Không mong muốn nhận Lặp lặp lại Nhầm mục đích thương mại tài Khơng có mục tiêu bừa bãi Khơng thể ngăn cản Ẩn danh / ngụy trang Nội dung bất hợp pháp xúc phạm Nội dung lừa đảo gian lận 1.4.2 Thống kê tác hại thư rác Thư rác chiếm phần lớn băng thông mạng, theo thống kê Statista [3], từ năm 2012 đến 2018, số lượng thư rác nhiều so với số lượng thư hợp lệ (ham) Mặc dù số lượng thư rác có giảm xuống so với năm trước từ 69% giảm xuống 55%, nhiên, thấy thư rác chiếm lượng băng thơng mạng lớn Hình 1.1 Tỉ lệ thư rác điện tử từ năm 2012 đến 2018 [3] Theo thống kê Statista [4], thư rác chiếm 53,95 phần trăm lưu lượng thư điện tử vào tháng năm 2020 Trong khoảng thời gian gần nhất, Nga chiếm phần lớn số thư rác với 20,74 % tổng lượng thư rác toàn cầu Bất chấp phổ biến nó, tỷ lệ thư rác e-mail toàn cầu thực giảm: tỷ lệ thư rác hàng năm toàn cầu năm 2018 55%, giảm so với 69% vào năm 2012 [5] Trong năm 2018, 281,1 tỷ thư điện tử gửi nhận hàng ngày [6] Phần lớn số e-mail quảng cáo gửi nhà tiếp thị ngày Trong nhiều người sử dụng cho nội dung nằm thư mục thư rác họ, e-mail tiếp thị nói chung vơ hại, gây khó chịu cho người dùng Tính đến q năm 2018, 85% thư điện tử tiếp thị đến hộp thư đến khách hàng 7% bị lọc thư rác bắt [6] Tuy nhiên, thứ cải thiện nhà tiếp thị: vào năm 2018, tỷ lệ gửi thư rác e-mail tiếp thị thương mại giảm xuống 9%, giảm từ 14% vào năm 2017 [6] Tuy nhiên, tất thư rác email quảng cáo lành tính Một phần đáng kể thư rác có tính chất độc hại hơn, nhằm phá hoại chiếm quyền điều khiển hệ thống người dùng [6] Thống kê quý năm 2020, nguồn thư rác, 9,64% khối lượng thư rác toàn cầu bắt nguồn từ IP có trụ sở Hoa Kỳ nhiên phần lớn thư rác bắt nguồn Nga chiếm 20,74 phần trăm tổng thư rác toàn cầu [6] Thư rác thư điện tử gửi không mong muốn, gây nhiều ảnh hưởng đến nhiều mặt khác nhau: • Quá tải băng thông: Thư rác chặn kênh liên lạc tạo lưu lượng băng thơng lớn (chi phí băng thơng cơng ty/doanh nghiệp phải trả tiền) Ngồi ra, có máy chủ thư phải xử lý thư rác máy chủ phải bảo trì chuyên gia trả lương cao Do đó, chi phí vận hành sở hạ tầng tăng đáng kể • Tốn thời gian Nếu thư rác đến hộp thư đến người dùng, người nhận phải xóa theo cách thủ công Một người đọc 10-20 thư điện tử ngày nhận khoảng 160-180 tin nhắn rác với thư từ công việc họ Điều có nghĩa họ dành 5-6 tháng để xóa thư rác, gây phương hại đến thời gian làm việc hiệu họ • Khó chịu phiền tối Bằng cách xóa thủ cơng thư rác, người dùng trở thành kỹ thuật viên xử lý rác thải ‘điện tử’ Việc buộc phải thực biện pháp không gây khó chịu cho người dùng, dẫn đến cảm xúc tiêu cực không 53 E (x) = y (x) * (1-y (x)) * (ydự kiến - y (x)) Với E(x) tỉ lệ lỗi trung bình Với y(x) hàm phi tuyến tính Các trọng số cập nhật cách sử dụng hàm: wi = wi + E (x) * xi * rate Với: wi trọng số 10 E(x): tỉ lễ lỗi trung bình rate: tỉ lệ học Vì lần truy cập quy tắc lọc thư rác không nhiều nên phần dốc xuống thuật tốn khó khả thi Do đó, cần sử dụng biến thể gọi Giảm dần độ dốc ngẫu nhiên.f Thay thực cập nhật hàng loạt, tập huấn luyện thực cách ngẫu nhiên, làm tăng dần cập nhật Ngoài ra, việc triển khai này, tỷ lệ học tập sửa đổi số lần xuất quy tắc cho phiên huấn luyện định Kết hợp với nhau, chúng cho phép tính tốn trọng số tốt cho quy tắc không thường xuyên xảy Cuối cùng, trọng số chuyển đổi thành điểm xuất định dạng tệp quen thuộc Trọng số (weight) chuyển đổi thành điểm (score) cách sử dụng chức score = threshold * weight/bias Với score điểm số, 11 threshold: ngưỡng weight: trọng số bias: độ biến thiên Dựa thuật toán trên, luận văn xây dựng 79 quy tắc cho lọc tiếng Việt, có nhiều 79 n-grams, nhiên, token xuất với tỉ lệ cao có nghĩa sử dụng để tạo quy tắc Quá trình phải tự sàng lọc cẩn thận từ ngữ gọi “common words” spam có tỉ lệ xuất cao dễ dẫn đến kết âm tính giả khiến cho nhiều thư điện tử hợp lệ bị đánh dấu spam Các từ ngữ “chung chung” sử dụng thường xun khơng có ý nghĩa spam loại bỏ, ví dụ “Do not”, “thư điện tử”, “sincerely” có tần suất xuất cao Trong 54 giới hạn luận văn này, 79 quy tắc xây dựng áp dụng, giúp cho việc lọc thư rác nhanh hơn, hiệu cao hệ thống chưa huấn luyện học Naïve Bayes hệ thống xây dựng lại, ví dụ: Hình 3.13 Các quy tắc tạo để ổn định hệ thống lọc Các quy tắc viết để lọc nội dung thư (body) chủ yếu nội dung thư rác nằm nội dung thư, nội dung trích xuất để xây dựng quy tắc lấy từ nội dung thư Sau quy tắc xây dựng, quy tắc lưu tệp tin có tên myrules.cf đường dẫn /opt/zimbra/data/spamassassin/localrules/ opt/zimbra/data/spamassassin/rules/ lưu trực tiếp lên file cấu hình hệ thống lưu mục ~/.spamassassin/user_pref, nơi lưu trữ tùy chỉnh người dùng 55 Khi khởi động hệ thống, Spamassassin kiểm tra thư theo quy tắc lưu đường dẫn trên, tìm thấy quy tắc khớp điểm cộng lại Điểm cuối tổng điểm quy tắc điểm tạo thuật tốn Nạve Bayes 3.2 Thực nghiệm 3.2.1 Dữ liệu huấn luyện Hệ thống cài đặt trải qua trình huấn luyện Dữ liệu mẫu thư tiếng Anh thu thập từ nguồn Spamassassin corpus Nguồn liệu tiếng Anh đánh giá có độ chuẩn cao Tuy nhiên, việc chia sẻ thư rác tiếng Việt cịn ỏi Do đó, việc thu thập liệu thư tiếng Việt cịn hạn chế số lượng Thống kê thư sử dụng để huấn luyện sau: Tổng số thư 1650 Thư rác Anh 500 Việt 223 Thư bình thường Anh Việt 642 285 Dữ liệu mẫu chia làm thư mục: spam ham Dữ liệu spam ham tiếng Anh tiếng Việt chia đồng để tránh việc “học lệch” dẫn đến sai số cao Sau phần mềm huấn luyện dựa theo thuật tốn Nạve Bayes Hình 3.14 Q trì huấn luyện liệu mẫu Nạve Bayes 3.2.2 Kiểm thử hệ thống chưa cài Naïve Bayes Khi chưa cài Naïve Bayes, phần lớn thư điện tử tiếng Việt cho thư điện tử hợp lệ, hệ thống mặc định có quy tắc tiếng Anh, chưa có quy tắc tiếng Việt hệ thống chưa huấn luyện nên thư điện tử chưa phân loại Dưới ví dụ thư rác tiếng Việt chưa phân loại spam: 56 Hình 3.15 Thư rác chưa phân loại chưa huấn luyện Nạve Bayes 3.2.3 Kiểm thử hệ thống có Nạve Bayes Sau huấn luyện tích hợp Nạve Bayes, phần lớn thư rác phân loại cho vào folder Junk đánh dấu ***SPAM*** header Hình 3.16 Thư rác phân loại thư rác sau huấn luyện Naïve Bayes Tổng kiểm tra toàn file liệu spam ham sử dụng Naïve Bayes, gồm 1650 thư, kết sau: 57 Hình 3.17: Kết kiểm tra mass-check Tổng số thư spam 723 Tổng số thư ham Số thư điện tử phát 655 Số thư điện tử phát ham 839 927 spam Tỉ lệ phát spam • • ~91% Tỉ lệ phát ham ~91% Độ xác là: ~ 91% Tỉ lệ recall là: ~91% Thống kê phân bổ điểm thư rác sau: Phân bổ điểm thư rác 350 300 250 200 150 100 50 -50 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Spam scores Number of Messages Hình 3.18: Phân bổ điểm tập thư rác 58 Có thể nhận thấy chủ yếu thư rác có phổ điểm từ 4-8, hệ thống nội đặt threshold khoảng ~ để đảm bảo có khả lọc nhiều thư rác Hệ thống nhận Naïve Bayes hiển thị điểm số BAYES, ví dụ thư lọc Naïve Bayes, chấm điểm theo luật Nạve Bayes Hình 3.19 Điểm thư rác có lọc Nạve Bayes Kiếm tra thực tế người dùng trải nghiệm hệ thống Zimbra tích hợp Nạve Bayes, kết kiểm tra chi tiết sau: Tổng số thư Số thư điện tử thực điện tử nghiệm nhận định spam 500 247 Số thư Số thư điện tử ham được nhận nhận định định là spam ham 253 19 Số thư spam nhận định ham Tỉ lệ thu hồi recall (nhận định spam) Độ xác (Precision rate) 23 91% 91.6% 59 3.2.4 Tỉ lệ lọc sau tích hợp SVM-NB Thống kê khả lọc thư SVM-NB 1% 43% 53% 3% Tổng số spam nhận định Spam nhận định Ham Tổng số ham nhận định Ham nhận định Spam Hình 3.20 Thống kê khả lọc thư hệ thống Tổng số thư Số thư điện tử thực điện tử nghiệm nhận định spam 500 275 Số thư điện tử nhận định ham 222 Số thư ham nhận định spam Số thư spam nhận định ham Tỉ lệ thu Độ hồi recall xác (nhận định spam) 13 95% Tỉ lệ recall 5% 95% Thư rác Thư rác sai Hình 3.21 Tỉ lệ nhận định thư rác 95.6% 60 Tỉ lệ lọc thư hợp lệ 4% 96% Thư hợp lệ nhận định Thư hợp lệ nhận định sai Hình 3.22 Tỉ lệ xác lọc thư rác hợp lệ • Đánh giá chung Luận văn đề xuất hệ thống Support Vectơ Machine Naïve Bayes để đạt hiệu lọc thư rác hiệu Sự kết hợp nhằm mục đích loại bỏ giả định tính độc lập tính trích xuất từ tập huấn luyện, thuật tốn Nạve Bayes áp dụng Sử dụng SVM để phân chia mẫu huấn luyện thành loại khác xác định mẫu huấn luyện phụ thuộc Loại bỏ mẫu dẫn đến tập huấn luyện với tính trùng lặp Dựa vào thử nghiệm, nhận thấy thuật tốn SVM-NB đạt độ xác tỷ lệ thu hồi cao việc phát thư rác SVM-NB hệ thống phân loại hiệu hơn, so với giải pháp dựa Naïve Bayes túy Hệ thống thiết kế cho thư điện tử có phụ thuộc mạnh mẽ nhau, điều thường hệ thống thư điện tử Với phát triển nhanh chóng hệ thống thư điện tử, thư rác khơng giới hạn cho thư điện tử dựa văn Trên thực tế, có thư điện tử rác chứa nhiều định dạng liệu khác nhau, ví dụ: hình ảnh các loại tệp đa phương tiện Hiện tại, thuật toán SVM-NB áp dụng cho phát thư rác dựa text, luận văn mở rộng SVM-NB làm cho phù hợp để lọc thư rác với định dạng liệu khác • Phân tích chi tiết kết lọc thư rác sau: Thư hợp lệ: gửi từ thư mail.vnu.vn độ xác thư hợp lệ cao độ xác thư rác lại thấp Do quan hệ tin tưởng tên miền 61 Thư rác gửi từ tên miền khác khả thư rác cao thư domain Chủ yếu thư lọc thư tiếng Việt, số thư Tiếng Anh thư lẫn tiếng Anh tiếng Việt để đảm bảo phong cách viết thư hành Đánh giá tỉ lệ lọc thư rác khả quan • Gửi thư rác từ IP blacklist Kết quả: Địa IP bị chặn nên không gửi thư IP kết nối bị kiểm tra IP nằm danh sách đen bị chặn • Gửi thư rác từ địa IP whitelist Kết quả: Thư rác cho phép qua Lý do: IP kết nối bị kiểm tra IP nằm danh sách trắng cho phép qua mà không cần kiểm tra nội dung • Gửi thư rác từ máy máy chủ mail Kết quả: Thư rác bị chặn, khơng kết nối để gửi • Gửi thư rác từ máy khơng có hostname hợp lệ Kết quả: Thư rác không gửi bị chặn kết nối • Gửi thư rác từ from mail.spammer.vn Kết quả: Thư rác nhận định spam Đây kết xác • Gửi thư rác from mail.vnu.vn Kết quả: Thư rác nhận định ham có kết nối nội thư điện tử từ tên miền nội Lý do: Có thể nhận thấy Naïve Bayes huấn luyện thư điện tử từ tên miền nội (mail.vnu.vn) huấn luyện thư hợp lệ, đánh dấu auto-learn=ham xem thư điện tử header • Gửi thư rác từ mạng Ip cục Kết quả: Thư nhận định ham IP từ địa cục (LAN) nhận định đáng tin cậy, địa thư điện tử domain 3.2.5 Kiểm tra quy tắc tự xây dựng Để củng cố thêm tăng khả lọc thư điện tử, có khả ổn định có thay đổi hệ thống sau lý chẳng 62 hạn sập máy chủ việc tìm lại nguồn data để huấn luyện lại tốn nhiều thời gian công sức, đồng thời mẫu huấn luyện có độ sai lệch cao, đó, luận văn đề xuất xây dựng thêm tập luật từ liệu có sẵn, dựa N-grams, đáp ứng đặc tính tiếng Việt bao gồm từ đơn từ kép Hệ thống cấu hình cho tự động cập nhật quy tắc (rule) từ nhà cung cấp Ngoài ra, 79 quy tắc xây dựng thêm vào Kết quả, quy tắc hệ thống lọc nhận lọc thư điện tử phù hợp với quy tắc Hình 3.23.Thư rác kiểm thử quy tắc tạo Kết quả, quy tắc hệ thống lọc nhận lọc thư điện tử phù hợp với quy tắc Hình 3.24 Chi tiết tính điểm cho thư đáp ứng quy tắc tạo 63 Thư đáp ứng quy tắc LOCAL_RULE_21, LOCAL_RULE_48, LOCAL_RULE_72, LOCAL_RULE_74, LOCAL_RULE_79 phân loại vào thư rác sau tính tổng score 5.198 vượt ngưỡng threshold (Ngưỡng threshold đến để đặt cho hệ thống máy chủ nội để nhằm test thư rác, thực tế cần đặt threshold cao để tránh thư hợp lệ, giảm tỉ lệ âm tính giả) 64 KẾT LUẬN • Nội dung thực Luận văn nghiên cứu tổng quan thư rác, phương pháp trích xuất thư điện tử, mơ kỹ thuật lọc thư rác Ngồi ra, luận văn nghiên cứu báo lọc thư rác giới Việt Nam để học tập kinh nghiệm Luận văn dựa bối cảnh nghiên cứu đặc trưng ngôn ngữ tiếng Việt, tìm hướng cho phương án lọc thư rác Tiếng Việt Sau cân nhắc khả lọc, tốc độ lọc, tính khả thi tính xác, thuật tốn Nạve Bayes kết hợp SVM (SVM-NB) lựa chọn để lọc thư rác bối cảnh Việt Nam thư điện tử sử dụng Tiếng Việt, Tiếng Anh tiếng Việt không dấu kết hợp Kết thử nghiệm cho thấy cách tiếp cận chúng tơi đạt độ xác cao phân loại thư rác tiếng Việt tiếng Anh Ngồi ra, luận văn cịn xây dựng quy tắc để lọc thư rác dựa quy tắc Ngram, giúp cho hệ thống lọc thư ổn định, giúp ích cho hệ thống lọc thư mà chưa qua huấn luyện liệu mẫu • Định hướng tương lai Thư rác Việt Nam giai đoạn phát triển, đó, độ xác hệ thống phụ thuộc nhiều vào tập huấn liệu mẫu thư rác thư hợp lệ người Việt Thư rác thư hợp lệ tiếng Anh chia sẻ nhiều corpus, nhiên, liệu thư rác Tiếng Việt chưa chia sẻ Do đó, mức độ bao qt cịn hạn chế Vì vậy, với nghiên cứu tiếp tục tập hợp để có huấn luyện lớn chuẩn nhằm cải thiện độ xác phương pháp Vấn nạn thư rác Việt Nam trở thành ngày phức tạp Người dùng nhận thư rác chữ nhiều định dạng khác HTML, ảnh, ảnh động, Do đó, cần có nghiên cứu sâu vấn đề để đề xuất phương pháp tối ưu lọc thư rác bối cảnh Phương hướng nghiên cứu đề xuất tích hợp thêm modun OCR để lọc thư rác ảnh chữ song song để tăng cường khả mức độ lọc thư rác hệ thống 65 TÀI LIỆU THAM KHẢO [16] A Annadatha & M Stamp, "Image spam analysis and detection," J Comput Virol Hack Tech , vol 14, pp 39-52, 2018 [37] A H A & S A T., "YouTube Spam Comments Detection Using Artificial Neural Network," Journal of Engineering and Applied Sciences, , vol 13, no 22, pp 96389642., 2018 [2] A., Granacher, D Harz, J., Kader, J., Noll, & M., Usher, Unsolicited bulk email detection using URL tree hashes, Washington, DC: U.S.: Patent and Trademark Office, 2020 [21] A.J Saleh, A Karim,B., Shanmugam, S., Azam, K., Kannoorpatti, M., Jonkman, M., & F.,D., Boer, " An intelligent spam detection model based on artificial immune system.," Information 10, vol 10, no 6, p 209, 2019 [14] A.T Sabri, A.H Mohammads, B Al-Shargabi & M.A Hamdeh, "Developing new continuous learning approach for spam detection using artificial neural network (CLA_ANN).," European Journal of Scientific Research, vol 42, no 3, pp 525-535, 2010 [19] Biggio, B., Fumera, G., Pillai, I., & Roli, F (2011), "A survey and experimental evaluation of image spam filtering techniques," Pattern recognition letters, vol 32, no 10, pp 1436-1446, 2011 [39] C & C G T., "Xgboost: A scalable tree boosting system.," in In Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining , 785-794, 2016 [11] C., Taylor, A., McDonald, D., Rusenko, P.B., Koetter, R.,Hildebrandt & M., Back, Linux Email: Set up and Run a Small Office Email Server., 2005 [13] D.R Amancio, C.H Comin, D Casanova, G Travieso, O.M Bruno, and F.A Rodrigues, F.A., "A Systematic Comparison of Supervised Classifiers-Supporting Information," 2014 [31] DD.Quan, Q A Tran and F Jiang, , "Automated generation of ham rules for Vietnamese spam filtering," in The 2014 Seventh IEEE Symposium on Computational Intelligence for Security and Defense Applications (CISDA), Hanoi, 2014 [20] E Tan, L Guo, S Chen, X Zhang & Y Zhao, "Spammer Behavior Analysis and Detection in User Generated Content on Social Networks," IEEE 32nd International Conference on Distributed Computing Systems, pp 305-314, 2012 [41] E.G.,Dada, J.S., Bassi, H Chiroma, A.O, Adetunmbi and O.E, Ajibuwa, "Machine learning for email spam filtering: review, approaches and open research problems," Heliyon, vol 5, no 6, p e01802, 2019 [40] G., Jain, M., Sharma, M., & B., Agarwal., "Spam detection in social media using convolutional and long short term memory neural network," Annals of Mathematics and Artificial Intelligence, vol 85, no 1, pp 21-44, 2019 [9] H Bhuiyan, A, Ashiquzzaman, T.I Juthi, S Biswas, J Ara, "A survey of existing email spam filtering methods considering machine learning techniques," Global Journal of Computer Science and Technology, 2018 [24] H Bhuiyan, A.Ashiquzzaman, T.I Juthi, S.Biswas & J.Ara, "A Survey of Existing EMail Spam Filtering," Global Journal of Computer Science and Technology: Computer Software & Data Engineering, vol 18, no 2, pp 22-29, 2018 66 [32] H Nguyen, H Nguyen, T., Vu, N Tran, & K.Hoang, "Internet and genetics algorithmbased text categorization for documents in Vietnamese," in Research, Innovation and Vision of the Future, the 3rd Int Conf in Computer Science RIVF, 2005 [4] J Clement, "Global spam categories 2019," 14 2020 [Online] Available: https://www.statista.com/statistics/263452/most-common-content-of-spam-messagesworldwide-by-category/ [Accessed 2020] [5] J Clement, "Global spam volume as percentage of total e-mail traffic from January 2014 to March 2020, by month," 24 June 2020 [Online] Available: https://www.statista.com/statistics/420391/spam-email-traffic-share/ [Accessed 2020] [1] J., M., Rao, & D.,H., Reiley, "The economics of spam.," Journal of Economic Perspectives, vol 26, no 3, pp 87-110, 2012 [18] K & C D M., "Image Spam Detection: A Review.," in In International Conference on Advances in Computer science and electronics engineering., 2017 [38] M & S S M.A., "Using an Artificial Neural Network to Improve Email Security.," In Implementing Computational Intelligence Techniques for Security Systems Design, pp 131-145, 2020 [33] N D L V D V a B N.Long, "Detecting Vietnamses spams using a muti-objective evolutionary approach," Tạp chí Nghiên cứu KH&CN quân sự, pp 203-216, 2017 [26] N.F Rusland, N Wahid, S., Kasim, S., & H Hafit, "Analysis of Naïve Bayes Algorithm for Email Spam Filtering across Multiple Datasets," IOP Conference Series: Materials Science and Engineering, vol 226, no 1, 2017 [30] N.T.Anh, T.Q Anh and N.B Binh, "Vietnamese spam detection based on language classification," in Second International Conference on Communications and Electronics, Hoian, 2008 [8] R Băohme and T Holz, "The Effect of Stock Spam on Financial Markets," in The Workshop on the Economics of Information Security (WEIS) 2006, University of Cambridge, 2006 [27] S C I & Ü A.S Yüksel, "Design of a Machine Learning Based Predictive Analytics System for Spam Problem," Acta Physica Polonica, 2017 [23] S Mohammed, O Mohammed, J Fiaidhi, S Fong and T.H Kim, "Classifying unsolicited bulk email (UBE) using python machine learning techniques.," International Journal of Hybrid Information Technology, vol 6, no 1, pp 43-56, 2013 [7] Silva, J A T.d.,A Al-Khatib, & P.Tsigaris, " Spam emails in academia: issues and costs.," Scientometrics, , vol 122, no 2, pp 1171-1188, 2020 [3] Statista, [Online] Available: https://www.statista.com/statistics/270899/global-email-spam-rate/ [Accessed September 2020] [25] T B Shahi & A Yadav, "Mobile SMS spam filtering for Nepali text using naïve bayesian and support vector machine," International Journal of Intelligence Science, vol 4, no 1, p 24, 2013 [35] T V V.D Lung, "Bayesian Spam Filtering for Vietnamese Emails," in 2012 International Conference on Computer & Information Science (ICCIS), 2012 [10] T., Ichimura, K., Mera & A., Hara, "A Knowledge Acquisition Method of Judgment Rules for Spam E-mail by using Self Organizing Map and Automatically Defined Groups by Genetic Programming," 2010 [34] T.A Nguyen, Q.A Tran and N.B.Nguyen, "Vietnamese spam detection based on language classifcation," in The Second Internatonal Conference on Communications and Electronics (ICCE 2008), 2008 [15] Tan, A Janecek & Y., "Iterative improvement of the multiplicative update nmf algorithm using nature-inspired optimization," IEEE, vol 3, pp 1688-1672, 2011 67 [22] U Pandey and S.Chakraverty, "A review of text classification approaches for e-mail management International Journal of Engineering and Technology," vol 3, no 2, p 137, 2011 [28] U.K Sah & N Parmar, "An approach for malicious spam detection in email with comparison with different classifiers," 2017 [17] Uehara, P & M Wan, "Spam Detection Using Sobel Operators and OCR.," in 2012 26th International Conference on Advanced Information Networking and Applications Workshops, 2012 [36] V Mardi, A., Kini, V.,M., Sukanya & S Rachana, "Text-Based Spam Tweets Detection Using Neural Networks," In Advances in Computing and Intelligent Systems, pp 401-408, 2020 [29] V.K Singh & S.Bhardwaj, "Spam Detection using Classification Techniques and Global Training set," Intelligent Computing and Information and Communication, 2018 [12] Y Tan, Anti-Spam Techniques Based on Artificial Immune System, CRC Press, 2016 ... Chương Đề xuất Thực nghiệm 3.1 Đề xuất giải pháp lọc thư rác Đặc trưng thư điện tử tiếng Việt thư có dấu khơng có dấu thư tiếng Việt thư Tiếng Anh Tuy nhiên, để lọc thư rác, phần lớn thư rác thư. .. điện tử tiếng Việt Các tập luận để lọc xây dựng cho thư tiếng Anh Do đó, đề tài mong muốn tối ưu nâng cao khả lọc thư rác tiếng Việt 1.2 Phương pháp nghiên cứu Phương pháp luận sử dụng đề tài... 2.2.3 Các kỹ thuật lọc thư rác thông minh 35 2.3 Các nghiên cứu lọc thư rác giới 40 2.4 Một số nghiên cứu thư rác Việt Nam 42 ii Chương Đề xuất Thực nghiệm 44 3.1 Đề xuất giải pháp