Đánh giá một số cách thức tính xác suất spam của Token ứng dụng trong phân loại thư rác

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	6
Dung lượng	0,99 MB

Nội dung

Phân loại thư rác là bài toán được quan tâm nghiên cứu từ rất lâu trên thế giới với nhiều hướng tiếp cận khác nhau. Tính năng phân loại thư rác được tích hợp vào module phân loại thư rác của Mail Server hay Mail Client. Hiện nay, khi mà các phương pháp truyền thống vẫn có những điểm yếu nhất định thì phương pháp phân loại dựa trên nội dung tỏ ra hiệu quả với việc sử dụng các kĩ thuật trong học máy thống kê.

Nguyễn Tu Trung, Nguyễn Ngọc Hưng, Phạm Thanh Giang ĐÁNH GIÁ MỘT SỐ CÁCH THỨC TÍNH XÁC SUẤT SPAM CỦA TOKEN ỨNG DỤNG TRONG PHÂN LOẠI THƯ RÁC Nguyễn Tu Trung, Nguyễn Ngọc Hưng, Phạm Thanh Giang Viện Công nghệ thông tin, Viện Khoa học Công nghệ Việt Nam Tóm tắt: Phân loại thư rác tốn quan tâm nghiên cứu từ lâu giới với nhiều hướng tiếp cận khác Tính phân loại thư rác tích hợp vào module phân loại thư rác Mail Server hay Mail Client Hiện nay, mà phương pháp truyền thống có điểm yếu định phương pháp phân loại dựa nội dung tỏ hiệu với việc sử dụng kĩ thuật học máy thống kê Trong đó, phân loại thư rác dựa Bayes với ưu điểm đơn giản, dễ sử dụng sử tốc độ nhanh nên cài đặt phổ biến hệ thống Mail Server hay Mail Client Bài báo trình bày đánh giá số cách thức tính xác suất Spam Token thông qua ứng dụng phân loại thư rác Từ khóa: Thư rác, phân loại thư rác, Bayes, học máy thống kê, Token, Spam, Ham I MỞ ĐẦU Một dịch vụ mà Internet mang lại dịch vụ thư điện tử, phương tiện giao tiếp đơn giản, tiện lợi, rẻ hiệu người cộng đồng sử dụng dịch vụ Internet Tuy nhiên lợi ích dịch vụ thư điện tử mang lại mà số lượng thư trao đổi Internet ngày tăng, đa số số hững thư thư rác (spam) Thư rác (spam mail) thư điện tử không yêu cầu, không mong muốn gửi hàng loạt tới người nhận Thư rác thường gửi với số lượng lớn, không người dùng mong đợi, thường với mục đích quảng cáo, đính kèm virus, gây phiền tối hó chịu cho người dùng, làm giảm tốc độ truyền internet tốc độ xử lý email server, gây thiệt hại lớn kinh tế Theo thống kê kaspersky năm 2014 [12], Tỷ lệ thư rác lưu lượng truy cập email tháng Hai tăng 4.2% so với tháng trước, đạt trung bình 69.9% Tuy nhiên, tỷ lệ thấp 1.2% so với tháng Hai năm 2013 Ba nguồn phát tán thư rác hàng đầu gồm có Trung Quốc (23%), Mỹ (19.1%) Hàn Quốc (12.8%) Việt Nam đứng vị trí thứ với 2.95%, giảm so với tháng Một chiếm 3.1% Những kẻ lừa đảo thường nhắm mục tiêu đến trang mạng xã hội (27.3%), dịch vụ thư điện tử (19.34%) tổ chức toán trực tuyến (16.73%) Theo [13], tình hình thư rác quý III 2015, tỷ lệ thư rác lưu lượng email giảm so với Quý II, kỹ thuật lừa đảo người dùng vượt qua lọc email ngày trở nên tinh vi Trong Quý III 2015, tỷ lệ thư rác chiếm 54.2% toàn lưu lượng email, giảm 0,8% so với quý II Đã có thay đổi lớn top quốc gia mục tiêu công email Quý III 2015 Đứng vị trí đầu Đức chiếm 18.47 (giảm 1.12% so với quý II) Đứng vị trí thứ Brazil thứ Nga với tỷ lệ 7.56% (tăng 2.82% so với quý II) Về nguồn gốc phát tán thư rác, Mỹ quốc gia có nguồn thư rác lớn chiếm 15.34% Việt Nam đứng thứ hai với 8.42% (tăng 5.04% so với quý II) Xếp vị trí thứ Trung Quốc chiếm tỷ lệ 7.15%, không thay đổi so với quý II Tiếp sau nước Nga (5.79%), Đức (4.39%), Pháp (3.32%) Có nhiều phương pháp lọc thư rác khác Mỗi phương pháp có ưu nhược điểm riêng Trong đó, phương pháp lọc nội dung để phân loại thư rác quan tâm, nghiên cứu ứng dụng nhiều Phương pháp dựa vào nội dung chủ đề thư để phân biệt thư rác thư hợp lệ Phương pháp có ưu điểm dễ dàng thay đổi lọc để lọc loại thư rác cho phù hợp Trong phương pháp học dựa nội dung, lọc thư rác sử dụng kĩ thuật học máy thổng kê phương pháp có triển vọng với nhiều ứng dụng thương mại Hotmail, Google, Yahoo Các phương pháp học máy xác suất thống kê cho phép phân loại thư rác chưa xuất trước Trong [1], Awad trình bày đánh giá, so sánh số phương pháp học máy (Bayesian classiﬁcation, k-NN, ANNs, SVMs ) cho vấn đề lọc thư rác Trong [6], Shahar Yifrah Guy Lev trình Tác giả liên hệ: Nguyễn Tu Trung Email: trungnt.sremis@gmail.com Đến toàn soạn: 12/2017 , chỉnh sửa: 4/2018 , chấp nhận đăng: 8/2018 SỐ 03 (CS.01) 2018 TẠP CHÍ KHOA HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THƠNG 27 ĐÁNH GIÁ MỘT SỐ CÁCH THỨC TÍNH XÁC SUẤT SPAM CỦA TOKEN ỨNG DỤNG TRONG PHÂN LOẠI THƯ RÁC bày báo dự án xây dựng lọc thư rác sử dụng kỹ thuật học máy Trong [10], tác giả so sánh hiệu lọc thư rác khác sử dụng Naïve Bayes, SVM, KNN Các kết thử nghiệm cho thấy lọc sử dụng kĩ thuật cho độ xác cao Đặc thù kĩ thuật dựa nội dung phải phân tích từ nội dụng tính giá trị token hay đặc trưng Một số lượng token, đặc trưng lớn phương pháp SVMs, ANNs có tốc độ huấn luyện chậm Trong kĩ thuật lọc thư rác dựa học máy thống kê, kĩ thuật Bayes tỏ đơn giản, hiệu quả, tốc độ thực thi nhanh, giai đoạn phân loại mà huấn luyện Thuật toán Bayes áp dụng vào chương trình lọc thư rác spambayes, cho kết lọc hiệu Có lẽ, lý mà lọc sử dụng kĩ thuật cài đặt phổ biến hệ thống Mail Server (Zimbra), Mail Client Các phân mềm Mail Client Outlook, Outlook Express, Thunderbird/Mozilla Mail & Newsgroups, Eudora, hay Opera Mail Các thuật tốn Nạve Bayes thuật tốn kinh điển( kĩ thuật Bayes Nạve Bayes phổ biến lọc thư điện tử chống Spam nguồn mở [9] Có nhiều phiên Naïve Bayes Trong [9], tác giả thảo luận, thử nghiệm đánh giá hiệu lọc Spam phiên Trong [5], Phan Hữu Tiếp cộng trình bày quy trình lọc thưc rác tiếng Việt dựa thuật tốn Nạve Bayes việc xử lý tách câu tiếng Việt Trong [7], Tianda cộng trình bày so sánh phân loại thư rác sử dụng kĩ thuật Naïve Bayes phân loại thư rác sử dụng phân loại thư rác kĩ thuật luật kết hợp Trong [4], tác giả thảo luận quy trình lọc thư rác thống kê sử dụng kĩ thuật phân loại Naïve Bayes Một cách thuận tiện, đơn giản để cài đặt thuật toán Bayes việc lọc thư rác thuật toán Paul Graham [8][4] biến thể khác Tim Peter Các thuật toán phân tích, đánh giá đưa đề xuất cách tính xác suất spam token Trong đó, cải tiến Paul Graham cho độ xác cao Trong [2], Jialin cộng thảo luận, đánh giá phương pháp lọc SMS rác sử dụng SVM MTM (message topic model) Trong báo này, tập trung nghiên cứu việc sử dụng kĩ thuật Bayes ứng dụng vấn đề lọc thư rác thông qua việc đánh giá số cách thức tính xác suất Spam token từ việc phân tích cơng thức tính xác suất Spam Paul Graham Nhiều nghiên cứu gần đánh giá hiệu phương pháp học máy việc phân loại thư rác thông thường so sánh kĩ thuật với thuật tốn Nạve Bayes, mà không trực tiếp so sánh với cải tiến hiệu Paul Graham Đây lý mà nhóm chúng tơi viết báo Các phần trình bày sau Phần trình bày vấn đề lọc thư rác dựa Bayes Phần trình bày số cách thức tính xác suất Spam khác token Các thử nghiệm trình bày phần Kết luận trình bày phần II PHÂN LOẠI THƯ RÁC DỰA TRÊN BAYES Kĩ thuật phân loại thư rác dựa Bayes trình bày [3][5] Coi email biểu diễn vectơ thuộc tính đặc trưng ⃗ với giá trị thuộc tính tương ứng không gian đặc trưng (space model) Ta sử dụng giá trị nhị phân để mô tả email có đặc điểm hay khơng, giả xử email có đặc điểm ta đặt thuộc tính , email khơng có đặc điểm ta có thuộc tính Từ thuyết xác suất Bayes xác suất đầy đủ có cơng thức tính xác suất mail với vectơ ⃗ thuộc vào lớp c sau: ⃗ ( ⃗) ⃗⃗ ⃗ (1) ⃗⃗ ⃗ ∑ ⃗ Để đơn giản tính ta phải giả sử độc lập Khi biểu thức (1) tương đương với biểu thức sau: ⃗ ⃗) ∏ ∑ (2) ∏ Giá trị sử dụng rộng rãi để đánh hạng cho thuộc tính giá trị tương hỗ MI (mutual information), ta lấy thuộc tính có giá trị MI lớn Ta tính giá trị tương hỗ MI mà đại diện X thuộc loại C sau: ∑ (3) Một email coi spam nếu: ⃗⃗ ⃗) ⃗⃗ ⃗) ( ( (4) Với ngưỡng cho trước để xem xét so sánh với tỉ lệ xác suất Spam hay Ham thư Trong đó, Spam: thư rác, Ham: thư hợp lệ Giả sử thuộc tính ⃗ ( độc lập ta có: ⃗) ⃗ ( ⃗) (5) Khi (4) tương đương với: ( ⃗ ⃗) với (6) B Công thức Paul Graham Theo [8][4], Paul Graham đề xuất cách tính xác suất làm Spam token Cơng thức Paul Graham không đơn giản, thuận tiện cho việc cài đặt mà cho độ xác phân loại thư rác cao Cơng thức tính xác suất Spam token w sau: (7) Trong đó, SA(w): số lần xuất token w kho thư rác A Lọc thư rác dựa Bayes SỐ 03 (CS.01) 2018 TẠP CHÍ KHOA HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THÔNG 28 Nguyễn Tu Trung, Nguyễn Ngọc Hưng, Phạm Thanh Giang HA(w): số lần xuất token w kho thư hợp lệ STM: tổng số thư kho thư rác  Chưa xem xét tổng số tần suất tất token, HTM: tổng số thư kho thư hợp lệ Hệ số “2” để tăng khả nhận thư hợp lệ Bảng I Bảng liệu huấn luyện [4] Số lần xuất Token Spam Ham 165 12 45 378 253 59 26 291 38 207 126 221 26 171 142 76 185 212 389 56 26 21 39 391 332 1235 42 579 35 39 1829 137 2008 118 1435 253 270 337 10 98 87 287 89 930 446 1948 141 13 58 19 786 450 A Advised As Chance Clarins Exercise For Free Fun Girlfriend Have Her I Just Much Now Paying Receive Regularly Take Tell The Time To Too Trial Vehicle Viagra You Your  Chỉ phụ thuộc vào số lần xuất token w tổng số thư kho thư rác thư hợp lệ  Chưa xem xét số thư chứa token kho thư rác thư hợp lệ Khi này, token xuất thư hay nhiều thư  Hệ số “2” tăng khả nhận nhầm thư rác thành thư hợp lệ P(S|w) Trong trường hợp số lần xuất token xấp xỉ tổng số thư kho thư rác xuất kho hợp lệ Khi này, tỉ lệ “SA(w)/STM” gần tới tỉ lệ “HA(w)/HTM” dần tới Ta có xác suất Spam token w theo gần tới (theo công thức 7) Từ đây, theo công thức (8), xác suất Spam thư chứa token cao Nói cách khác, xác suất Spam thư chứa token gần bị ảnh hưởng token Ví dụ, thư xuất token lần, token khác thư có xác suất spam khơng cao thư bị cho Spam cao Điều bất hợp lý 0.2512473 0.4177898 0.0086009 0.7635468 0.2950775 0.2787054 0.3417015 0.8226372 0.9427419 0.8908609 0.2668504 0.4471509 0.0155078 0.6726596 0.5396092 0.6222218 0.8671995 0.8142107 0.2062346 0.5541010 0.6820062 0.3331618 0.5441787 0.3340176 0.4993754 0.8339739 0.4762651 0.8375393 0.5554363 0.6494897 Dựa theo phân tích trên, nhận thấy sau: Xác suất Spam token phụ thuộc yếu tố sau: a) Số lần xuất token w kho thư rác thư hợp lệ b) Tổng số thư kho thư rác thư hợp lệ c) Tổng số tần suất tất token d) Số thư chứa token kho thư rác thư hợp lệ Ngoài ra, việc thay đổi hệ số “2” trường hợp khác để tăng cường khả nhận biết thư rác hay thư hợp lệ Từ đây, đưa số công thức tính xác suất Spam token như sau  Phụ thuộc vào yếu tố a-c, ta công thức: Tập liệu huấn luyện [4] gồm có 432 thư rác 2170 thư hợp lệ [4] (10) Khi này, xác suất Spam thư E tính theo cơng thức: (10.1) ∏ ∏ (8) ∏ Trong đó, (10.2) (9)  Phụ thuộc vào yếu tố a-b, ta công thức: III MỘT SỐ CẢI TIẾN TRONG CÁCH TÍNH XÁC SUẤT SPAM CỦA TOKEN (11) Từ công thức (7), có số nhận xét sau: 1) Việc tính xác suất Spam token SỐ 03 (CS.01) 2018 (Paul Graham) TẠP CHÍ KHOA HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THÔNG (11.1) 29 ĐÁNH GIÁ MỘT SỐ CÁCH THỨC TÍNH XÁC SUẤT SPAM CỦA TOKEN ỨNG DỤNG TRONG PHÂN LOẠI THƯ RÁC (11.2)  Phụ thuộc vào yếu tố b-d, ta công thức: (12) (12.1) (12.2)  Phụ thuộc vào yếu tố c-d, ta công thức: (13) (13.1) (13.2)  Phụ thuộc vào yếu tố a-b-d, ta công thức: (14) (14.1) (14.2)  Phụ thuộc vào yếu tố a-b-c-d, ta công thức: (15) (15.1) (15.2) Nếu sử dụng nhóm cơng thức 10-12-13-14-15 vấn đề nhận xét (2) khắc phục IV THỬ NGHIỆM Tập liệu mẫu CSDMC2010_SPAM [11] Tập liệu huấn luyện bao gồm SpamTrain HamTrain A Thử nghiệm HamTrain có 2808 thư hợp lệ, SpamTrain có 1238 thư rác Tập liệu test bao gồm HamTest (141 thư hợp lệ) SpamTest (140 thư rác) Các bảng 2, thống kê độ xác phân loại Spam thông qua thống kê số Precision trường hợp: khơng có hệ số “2”, hệ số “2” để tăng cường nhận thư hợp lệ, hệ số “2” để tăng cường nhận thư rác SỐ 03 (CS.01) 2018 Bảng II Thống kê độ xác phân loại tập thư rác thư hợp lệ trường hợp khơng có hệ số Cơng thức 10.1 11.1 12.1 13.1 14.1 15.1 SPAM 62.857 98.571 98.571 90.714 98.571 94.286 HAM 96.454 92.908 90.780 94.326 85.816 92.199 Từ bảng 2, thấy độ xác nhận SPAM công thức 11.1, 12.1 14.1 cao Trong đó, độ xác nhận HAM cơng thức 10.1 cao Bảng III Thống kê độ xác phân loại tập thư rác thư hợp lệ trường hợp hệ số để tăng nhận thư hợp lệ Công thức 10.2 11.2 12.2 13.2 14.2 SPAM 83.571 89.286 87.143 82.143 93.571 HAM 96.454 96.454 95.035 95.745 92.908 15.2 80.714 93.617 Từ bảng 3, thấy độ xác nhận SPAM cơng thức 14.2 cao Trong đó, độ xác nhận HAM công thức 10.2 11.2 cao Bảng IV Thống kê độ xác phân loại tập thư rác thư hợp lệ trường hợp hệ số để tăng nhận thư rác Công thức 10.3 11.3 12.3 13.3 14.3 15.3 SPAM 97.857 99.286 99.286 98.571 99.286 98.571 HAM 92.908 82.270 80.142 85.816 79.433 86.525 Từ bảng 4, thấy độ xác nhận SPAM công thức 11.3, 12.3 14.3 cao Trong đó, độ xác nhận HAM công thức 10.3 cao B Thử nghiệm HamTrain có 2535 thư hợp lệ, SpamTrain có 1014 thư rác Tập liệu test bao gồm HamTest (414 thư hợp lệ) SpamTest (364 thư rác) Các bảng 5, thống kê độ xác phân loại Spam thông qua thống kê số Precision trường hợp: khơng có hệ số “2”, hệ số “2” để tăng cường nhận thư hợp lệ, hệ số “2” để tăng cường nhận thư rác TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 30 Nguyễn Tu Trung, Nguyễn Ngọc Hưng, Phạm Thanh Giang Bảng V Thống kê độ xác phân loại tập thư rác thư hợp lệ trường hợp khơng có hệ số Công thức 10.1 11.1 12.1 13.1 14.1 15.1 SPAM HAM 59.066 98.077 98.626 89.835 98.901 93.132 98.068 95.652 93.720 96.135 87.923 93.237 Từ bảng 5, thấy độ xác nhận SPAM cơng thức 14.1 cao Trong đó, độ xác nhận HAM công thức 10.1 cao Bảng VI Thống kê độ xác phân loại tập thư rác thư hợp lệ trường hợp hệ số để tăng nhận thư hợp lệ Công thức 10.2 11.2 SPAM 78.571 86.813 HAM 97.826 98.068 12.2 13.2 14.2 15.2 88.736 77.747 90.659 77.473 96.618 97.826 93.720 94.686 Từ bảng 6, thấy độ xác nhận SPAM công thức 14.2 cao Trong đó, độ xác nhận HAM cơng thức 11.2 cao Bảng VII Thống kê độ xác phân loại tập thư rác thư hợp lệ trường hợp hệ số để tăng nhận thư rác Công thức 10.3 11.3 12.3 13.3 14.3 15.3 SPAM 95.879 99.725 99.725 98.626 99.725 98.077 HAM 94.686 84.541 82.126 87.923 81.159 89.855 Từ bảng 7, thấy độ xác nhận SPAM cơng thức 11.3, 12.3 14.3 cao Trong đó, độ xác nhận HAM cơng thức 10.3 cao C Thử nghiệm HamTrain có 2448 thư hợp lệ, SpamTrain có 986 thư rác Tập liệu test bao gồm HamTest (501 thư hợp lệ) SpamTest (392 thư rác) Các bảng 8, 10 thống kê độ xác phân loại Spam thơng qua thống kê số Precision trường hợp: khơng có hệ số “2”, hệ số “2” để tăng cường nhận thư hợp lệ, hệ số “2” để tăng cường nhận thư rác Bảng VIII Thống kê độ xác phân loại tập thư rác thư hợp lệ trường hợp khơng có hệ số Cơng thức 10.1 11.1 12.1 13.1 14.1 15.1 SPAM 58.929 98.469 98.469 90.051 98.980 91.837 HAM 98.204 95.808 93.613 96.407 88.224 92.814 Từ bảng 8, thấy độ xác nhận SPAM cơng thức 14.1 cao Trong đó, độ xác nhận HAM cơng thức 10.1 cao Bảng IX Thống kê độ xác phân loại tập thư rác thư hợp lệ trường hợp hệ số để tăng nhận thư hợp lệ Công thức 10.2 11.2 12.2 13.2 14.2 15.2 SPAM 78.571 85.459 87.500 76.786 90.051 75.765 HAM 98.004 98.204 96.607 98.004 93.413 94.810 Từ bảng 9, thấy độ xác nhận SPAM công thức 14.2 cao Trong đó, độ xác nhận HAM công thức 11.2 cao Bảng X Thống kê độ xác phân loại tập thư rác thư hợp lệ trường hợp hệ số để tăng nhận thư rác Công thức 10.3 11.3 12.3 13.3 14.3 15.3 SPAM 95.918 99.745 99.745 98.724 99.745 97.959 HAM 94.611 85.030 82.236 87.625 82.036 89.820 Từ bảng 10, thấy độ xác nhận SPAM cơng thức 11.3, 12.3 14.3 cao Trong đó, độ xác nhận HAM cơng thức 10.3 cao V KẾT LUẬN Trong báo này, chúng tơi thảo luận, phân tích kĩ thuật lọc Spam sử dụng Bayes Từ đó, đưa số cách tính xác suất Spam token Thử nghiệm cho thấy phương án thay tốt cho lọc Spam dựa Bayes trường hợp khác Thông qua nhận xét thử nghiệm, thấy rằng:  Trong trường hợp khơng có hệ số “2”, cơng thức 11.1, 12.1 14.1 cho độ xác SỐ 03 (CS.01) 2018 TẠP CHÍ KHOA HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THƠNG 31 ĐÁNH GIÁ MỘT SỐ CÁCH THỨC TÍNH XÁC SUẤT SPAM CỦA TOKEN ỨNG DỤNG TRONG PHÂN LOẠI THƯ RÁC nhận SPAM cao nhất; công thức 10.1 cho độ xác nhận HAM cao  Trong trường hợp hệ số “2” để tăng cường nhận hợp lệ, cơng thức 14.2 cho độ xác nhận SPAM cao nhất; cơng thức 11.2 cho độ xác nhận HAM cao  Trong trường hợp hệ số “2” để tăng cường nhận rác, công thức 11.3, 12.3 14.3 cho độ xác nhận SPAM cao nhất; cơng thức 10.3 cho độ xác nhận HAM cao Như vậy, tùy vào mục đích cụ thể ứng dụng: giữ loại HAM quan trọng hay loại bỏ SPAM nguy hiểm mà chọn công thức tương ứng Trong nghiên cứu tiếp theo, dự kiến để xuất công thức tính xác suất Spam cho token sử dụng logic mờ TÀI LIỆU THAM KHẢO [1] Awad W.A and ELseuofi S.M., Machine learning methods for spam e-mail classification, International Journal of Computer Science & Information Technology (IJCSIT), Vol 3, No 1, Feb 2011, [2] [3] [4] [5] pp.173-184 Jialin ma, Yongjun zhang, Jinling liu, Intelligent SMS spam filtering using topic model, ieee international conference on intelligent networking and collaborative systems (incos), 2016 Johan Hovol, Naïve Bayes Spam filtering using WordPosition-Based attributes, Proceedings of the 15th NODALIDA conference, 2006, pp 78–87 Paul Graham, Better Bayesian filtering In Proceedings of the 2003 Spam Conference (http://spamconference.org/ proceedings2003.html), Cambridge, MA, 2003 Phan Hữu Tiếp, Vũ Đức Lung, Cao Nguyễn Thủy Tiên, Lâm Thành Hiển, Phương pháp lọc thư rác tiếng việt dựa từ ghép theo vết người sử dụng, Hội thảo “Một số vấn đề chọn lọc Công nghệ [12] http://kaspersky.nts.com.vn/ [13] http://antoanthongtin.vn/ ASSESS SOME METHODS OF CALCULATING SPAM PROBABILITY OF TOKENS APPLIED IN SPAM EMAIL CLASSYFICATION Abstract: Spam mail classification is interested in researching for long time in the world with many different approachs Spam classification functions are intergrated in Mail Server or Mail Client Currently, the traditional methods still have certain weaknesses, so statistical machine learning classification method based on the content has been proven more effective Wherein, Bayes spam classification has some advantages such as simplicity, ease of use and short execution time, so it is implemented widely in Mail Server or Mail Client systems This paper evaluates some Bayes spam classification methods based on token probability rules Keyword: Spam, Ham, Spam mail, Spam classification, Statistical machine learning, Tokens Nguyễn Tu Trung, Tốt nghiệp đại học trường ĐH Sư phạm Hà Nội năm 2007, thạc sỹ trường ĐHCông Nghệ, ĐHQGHN năm 2011, tiến sĩ, Học viện Cơng nghệ Bưu Viễn thơng năm 2018 Lĩnh vực nghiên cứu: Xử lý ảnh, xử lý tiếng nói, hệ thống thơng tin, hệ thống nhúng thơng tin truyền thông”, Cần Thơ, 2011 [6] Shahar Yifrah Guy Lev, Machine Learning Final Project Spam Email Filtering, ML Project, 2013 [7] Tianda Yang, Kai Qian, Dan Chia-Tien Lo, Spam filtering using Association Rules and Naïve Bayes Classifier, IEEE International Conference on Progress in Informatics and Computing (PIC), 2015 [8] Tianhao Sun, Spam Filtering based on Naïve Bayes Classication, May 2009 [9] Vangelis Metsis, Ion And rout sopoulos and Georgios Paliouras, Spam Filtering with Naïve Bayes–Which Naïve Bayes?, CEAS2006-Third Conference on Email and Anti-Spam, Mountain View, California USA, July 27-28, 2006 [10] Yun-Nung Chen, Che-An Lu, Chao-Yu Huang, AntiSpam Filter Based on Naïve Bayes, SVM, and KNN model, AI term project group 14, 2009 [11] http://csmining.org/index.php/spam-email-datasets.html SỐ 03 (CS.01) 2018 TẠP CHÍ KHOA HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THÔNG 32 ...ĐÁNH GIÁ MỘT SỐ CÁCH THỨC TÍNH XÁC SUẤT SPAM CỦA TOKEN ỨNG DỤNG TRONG PHÂN LOẠI THƯ RÁC bày báo dự án xây dựng lọc thư rác sử dụng kỹ thuật học máy Trong [10], tác giả so sánh hiệu lọc thư rác. .. 14.1 cho độ xác SỐ 03 (CS.01) 2018 TẠP CHÍ KHOA HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THƠNG 31 ĐÁNH GIÁ MỘT SỐ CÁCH THỨC TÍNH XÁC SUẤT SPAM CỦA TOKEN ỨNG DỤNG TRONG PHÂN LOẠI THƯ RÁC nhận SPAM cao nhất;... Spam token SỐ 03 (CS.01) 2018 (Paul Graham) TẠP CHÍ KHOA HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THÔNG (11.1) 29 ĐÁNH GIÁ MỘT SỐ CÁCH THỨC TÍNH XÁC SUẤT SPAM CỦA TOKEN ỨNG DỤNG TRONG PHÂN LOẠI THƯ RÁC

Ngày đăng: 15/05/2020, 21:32