Luận văn thạc sĩ phân loại thư rác bằng phương pháp học máy

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG -o0o - PHẠM THỊ KIM DUNG PHÂN LOẠI THƯ RÁC BẰNG PHƯƠNG PHÁP HỌC MÁY LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái nguyên, 2015 ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG -o0o - PHẠM THỊ KIM DUNG PHÂN LOẠI THƯ RÁC BẰNG PHƯƠNG PHÁP HỌC MÁY Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC PGS TS ĐỖ TRUNG TUẤN Thái nguyên, 2015 ii MỤC LỤC MỤC LỤC ii LỜI CAM KẾT iv LỜI CẢM ƠN v DANH MỤC CÁC TỪ VIẾT TẮT vi DANH MỤC HÌNH VẼ VÀ BẢNG BIỂU vii MỞ ĐẦU vii CHƯƠNG 1.TỔNG QUAN VỀ HỌC MÁY VÀ THƯ RÁC 1.1 Tổng quan vềhocc̣ máy 1.1.1 Trit́ uê nc̣ hân tạo 1.1.2 Học máy 1.1.3 Các kĩ thuật học máy 1.1.4 Một số ứng dụng học máy 1.1.5 Học có giám sát 1.2 Tổng quan về thư rác 12 1.2.1 Định nghĩa về thư rác đặc trưng thư rác 12 1.2.2 Phân loại thư rác 15 1.2.3 Đặc điểm thư rác 15 1.2.4 Tác hại thư rác 16 1.2.5 Quy trình thủ đoạn gửi thư rác 17 1.3 Biểu diễn phân loại thư rác dựa học máy có giám sát 20 1.3.1 Nhu cầu phân loại thư rác 20 1.3.2 Cách biểu diễn nội dung thư rác 23 1.4 Kết luận chương 27 CHƯƠNG PHÂN LOẠI THƯ RÁC BẰNG MỘT SỐ THUẬT TỐN HỌC MÁY CĨ GIÁM SÁT 28 2.1 Thuật tốn Nạve Bayes 28 2.1.1.Giới thiệu Thuật tốn Nạve Bayes 28 2.1.2 Mơ tả thuật tốn 28 2.1.3 Áp dụng phân loại thư rác 33 iii 2.2 Học máy theo phương pháp máy vec tơ tựa SVM 36 2.2.1 Giới thiệu SVM 36 2.2.2 Mơ tả thuật tốn 37 2.2.2 Huấn luyện SVM 40 2.2.3 Ứng dụng phân loại thư rác 40 2.3 Xây dựng mơ hình lọc thư rác dựa học máy có giám sát 41 2.3.1 Lựa chọn mơ hình thuật tốn 41 2.3.2 Xây dựng hệ thống 41 2.4 Kết luận chương 46 CHƯƠNG 3.CÀI ĐẶT THỬ NGHỆM VIỆC PHÂN LOẠI THƯ RÁC 47 3.1 Bài toán phân loại thư rác 47 3.2 Cài đặt thử nghiệm kết 50 3.2.1 Bộ liệu thử nghiệm 50 3.2.2 Môi trường cài đặt 52 3.2.3 Giao diện chương trình thử nghiệm 52 3.2.4 Kết thử nghiệm 54 3.3 Đánh giá thử nghiệm 55 3.4 Kết luận chương 56 KẾT LUẬN 57 Các kết đạt 57 Hướng phát triển luận văn 57 DANH MỤC TÀI LIỆU THAM KHẢO 58 iv LỜI CAM KẾT Dưới giúp đỡ nhiệt tình bảo chi tiết giáo viên hướng dẫn, tơi hồn thành luận văn Tơi xin cam kết luận văn thân làm nghiên cứu, không hề trùng hay chép Tài liệu sử dụng luận văn thu thập từ nguồn kiến thức hợp pháp Tác giả luận văn Phạm Thị Kim Dung v LỜI CẢM ƠN Để hồn thành chương trình cao học viết luận văn này, em nhận giúp đỡ đóng góp nhiệt tình thầy trường Đại học Công nghệ thông tin Truyền thông, Đại học Thái Nguyên Trước hết, em xin chân thành cảm ơn thầy cô khoa Đào tạo sau đại học, tận tình giảng dạy, trang bị cho em kiến thức quý báu suốt năm học qua Xin chân thành cảm ơn gia đình, bạn bè nhiệt tình ủng hộ, giúp đỡ, động viên về vật chất lẫn tinh thần thời gian học tập nghiên cứu Trong trình thực luận văn, cố gắng không tránh khỏi thiếu sót Kính mong nhận cảm thơng tận tình bảo thầy bạn vi DANH MỤC CÁC TỪ VIẾT TẮT AI Trí tuệ nhân tạo Clustering Phân cụm Computer Vision Nhìn máy ESP Email Service Provider HAM Thư điện tử không thứ rác ISP Internet Service Provider, nhà cung cấp dịch vụ Internet KNN K người láng giềng gần MI Mutual information, thông tin tương hỗ NB Phương pháp Nạve Bayes Regression Hồi qui Search Engine Máy tìm kiếm Server Máy chủ, phía máy chủ SMO Sequential Minimal Optimization SMS Short Message Service Spam Email Thư rác SQL Structured Query Language Stemming Gốc (của từ) SVM Support Vector Machine, máy vec tơ tựa TTNT Trí tuệ nhân tạo UBE Unsolicited Bulk Email, thư không lành mạnh UCE Unsolicited Commercial Email, thư khơng u cầu đến VC Kích thước Vapnik- Chervonenkis XML eXtensible Markup Language vii DANH MỤC HÌNH VẼ VÀ BẢNG BIỂU HÌNH Hình 1.1: Cấu trúc hệ thống học máy tiêu biểu cho trường hợp phân loại .6 Hình 1.2 Mơ hình thuật tốn học có giám sát Hình 1.3 Ví dụ về trang web lấy cắp địa thư người dùng 17 Hình 1.4 Một số website công ty gửi thư rác 18 Hình 1.5 Minh họa cách gửi thư rác qua máy chủ thư (open relay) 19 Hình 1.6 Số lượng thư rác từ tháng đến tháng năm 2014 21 Hình 1.7 Danh sách quốc gia phát tán thư rác quí 3/2014 Kaspersky Lab 23 Hình 2.1 Ánh xạ liệu từ khơng gian gốc sang không gian đặc trưng cho phép phân chia liệu siêu phẳng 38 Hình 2.2 Siêu phẳng với lề cực đại cho phép phân chia hình vng khỏi hình trịn khơng gian đặc trưng 38 Hình 2.3 Tiền xử lý liệu 42 Hình 2.4 Huấn luyện liệu 46 Hình 3.1: Mơ hình phân loại thư rác thuật toán Bayse SVM 48 Hình 3.2 Tập File HAM 51 Hình 3.3 Tập File SPAM 51 Hình 3.4 Giao diện chương trình phân loại thư rác Bayes SVM 52 Hình 3.5 Giao diện xử lý liệu bước huấn luyện 53 Hình 3.6 Giao diện kết thử nghiệm 53 Hình 3.7 Độ xác phân loại NB SVM 54 BẢNG Bảng 1.1 Ví dụ nội dung bốn thư 24 Bảng 1.2 Biểu diễn vec tơ cho liệu bảng 1.1 24 Bảng 2.1: Bộ liệu huấn luyện cho toán phân loại “Chơi Tennis” 31 Bảng 3.1: Độ xác phân loại hai phương pháp phân loại khác 54 MỞ ĐẦU Ngày nay, Internet mở nhiều kênh liên lạc, nhiều dịch vụ cho người sử dụng, dịch vụ mà Internet mang lại dịch vụ thư điện tử (Email), phương tiện giao tiếp đơn giản, tiện lợi hiệu cộng đồng người sử dụng dịch vụ Chính lợi ích thư mang lại nên số lượng thư trao đổi Internet ngày tăng, số không nhỏ thư rác (Spam) Trong năm gần đây, spam hay thư không mong muốn trở thành vấn nạn đe dọa khả giao tiếp người kênh liên lạc này, thách thức lớn mà khách hàng nhà cung cấp dịch vụ phải đối phó Spam trở thành hình thức quảng cáo chuyên nghiệp, phát tán virus, ăn cắp thông tin với nhiều thủ đoạn mánh khóe tinh vi Người dùng phải nhiều thời gian để xóa thư “khơng mời mà đến”, vơ ý cịn bị nhiễm virus nặng nề thơng tin thẻ tín dụng, tài khoản ngân hàng qua thư dạng phishing Theo báo cáo tình hình thư rác Kaspersky Lab vừa công bố, tỷ lệ thư rác lưu lượng truy cập thư quý3/2014 tăng 1,7 % so với quýtrước, đạt trung bình 66,9% Ba nguồn phát tán thư rác hàng đầu gồm có Mỹ (14%) Nga (6,1%) vàViệt Nam đứng vị trí thứ với 6% Để ngăn chặn spam, nhiều tổ chức, cá nhân nghiên cứu phát triển kỹ thuật phân loại thư thành nhóm; từ xác định, nhận biết thư rác thư có giá trị Tuy nhiên, người tạo nên thư rác ln tìm cách vượt qua phân loại phát tán chúng Vì vậy, cần có hệ thống phân loại đâu spam mail đâu mail tốt Xuất phát từ thực trạng đó, tơi chọn hướng nghiên cứu “Phân loại thư rác phương pháp học máy” với mục đích tìm hiểu, thử nghiệm số phương pháp tiếp cận cho toán phân loại thư, từ ngăn chặn thư spam hiệu Nội dung luận văn trình bày theo chương Tổ chức cấu trúc sau: Chương Tổng quan về học máy thư rác: Chương giới thiệu tổng quát về học máy thư rác bao gồm khái niệm, ứng dụng phần trình bày chi tiết về học máy có giám sát, kỹ thuật học máy có giám sát dùng cho phân loại Naïve Bayes, SVM, định,… Chương giới thiệu khái quát về thư rác, đặc trưng thư rác biểu diễn thư rác dựa học máy có giám sát; Chương Phân loại thư rác số thuật tốn có giám sát: Nội dung chương sâu nghiên cứu hai thuật tốn học máy có giám sát Naïve Bayes phương pháp SVM (Support Vector Machine) Chương Cài đặt, thử nghiệm đánh giá thuật toán: Phần đầu chương giới thiệu toán phân loại thư rác, liệu thử nghiệm cài đặt chi tiết hai thuật toán đề cập chương Phần cuối chương trình bày kết thu đưa đánh giá về hai thuật toán sử dụng toán lọc thư rác Cuối luận văn phần kết luận danh sách tài liệu tham khảo Phần thực nghiệm về phân loại thư rác trình bày thêm phần phụ lục luận văn Mô hinh̀ h phân loại thư rác thuật tốn Bayes SVM cóthểmơ tảnhư hình sau: 48 ĐẦU VÀO Tập huấn luyện M dule huấn luyện thu t toán Bayes (tập thư HAM, tập thư M dule huấn luyện thu t toán SVM SPAM) Bộ huấn luyện Bayes Thư SPAM Hình 3.1: Mơ hình phân loại thư rác thuật toán Bayse SVM Các thuật tốn áp dungc̣ để phân loaịvăn đều cóthểáp dungc̣ đểphân loaị thư rác Nói chung xây dưngc̣ mơ hinhh̀ phân loại thư rác làmơṭviêcc̣ khó khăn phức tạp Hiêṇ nay, đa ̃cókhánhiều thṭtốn đươcc̣ áp dungc̣ vàcho hiêụ cao Tuy nhiên luận văn mình, tơi lựa chọn mơ hình xác xuất Nạve Bayes mơ hình SVM đểlàm sởphân loại thư rác luâṇ văn BAYES : Thuật toán sử dụng đầu vào trực tiếp file thư thư mục Erron để huấn luyện đánh giá đưa tập huấn luyện SVM : Thuật toán sử dụng đầu vào file thư thư mục Erron quy định theo luật riêng tổ hợp thành file liệu đầu vào theo quy tắc sau : 49 Giả sử mail liệu SPAM đầu vào Giả sử mail liệu HAM đầu vào Dữ liệu có 10 emails Tiếp theo tiền xử lý để liệu có định dạng mà LibSVM hiểu được, từ để huấn luyện mơ hình Liên quan đến HAM, người ta thấy thơng báo SPAM gọi HAM Theo định nghĩa thông thường, HAM thư điện tử cần thiết, không bị coi thứ rác Để định dạng liệu, cần biết libSVM học Trong máy học thường gọi “Bộ đặc tính” Trong trường hợp phân lớp tài liệu (phát spam email) xem từ đặc tính Chắc chắn từ “Viagra” có hầu hết email spam, khơng tìm thấy email thường, nên thuật toán học từ đặc điểm để phân tích email có phải spam khơng Mỗi đặc tính (từ vựng) mà SVM học phải có giá trị Trong trường hợp phân lớp nhị phân Nếu từ vựng có email true (1) khơng có false (0) 50 Để đại diện cho email, tạo vectơ giá trị true/false cho từ (lấy 10 email) Đầu tiên, chúng tơi lấy tồn từ Bước đơn giản hoá liệu đánh số cho từ, thay phải ghi Để làm điều chúng tơi đánh số nguyên theo thứ tự từ Để huấn luyện, cần cho thuật toán biết lớp email Trong trường hợp có lớp SPAM NOTSPAM Vì thuật tốn chấp nhận từ nên sửa “Not Spam” thành “NSpam” Cuối thay dấu bằng dấu hai chấm Và để tạo toàn tập huấn luyện định dạng, chúng tơi cho email dịng file input Tập hợp vào file mà dòng email, ta có file Model huấn luyện liệu đầu vào thuật toán SVM sử dụng libSVM chuẩn Những ưu điểm hai thuật tốn phân loaịnày đươcc̣ trình bày chi tiết chương 3.2 Cài đặt thử nghiệm kết 3.2.1 Bộ liệu thử nghiệm Toàn liệu dùng để huấn luyện kiểm thử chương trình lấy từ tập liệu enron mail datase, địa https://www.cs.cmu.edu/~./enron/ Đây liệu chuẩn đầy đủ dùng phổ biến nghiên cứu về văn nói chung phân loại văn nói riêng, tập liệu bao gồm nhiều thư mục, thư mục file mail lưu trữ dạng text để làm đầu vào cho chương trình Bộ liệu Erron dùng để huấn luyện chia thành HAM SPAM HAM: gồm 800 file thư chuẩn thư SPAM 51 Hình 3.2 Tập File HAM SPAM thư gồm 1496 file thư SPAM Hình 3.3 Tập File SPAM 52 Trong chương trình lấy tổng 200 thư HAM SPAM làm tập liệu để kiểm tra (tập Test) (Test_HAM = 100 file, Test_SPAM=100 file) 3.2.2 Môi trường cài đặt Cả hai thuật toán Bayes SVM đều cài đặt môi trường Java, cụ thể :  Môi trường cài đặt : Java JDK  Công cụ sử dụng : IDE Netbean 8.0.2  Giao diện phát triển : Java Swing Thư viện sử dụng : sử dụng thư viện chuẩn từ Java2s activation.jar : apache-mime4j-0.3.jar mail.jar libsvm.jar 3.2.3 Giao diện chương trình thử nghiệm Chương trình giao diện demo cho thuật tốn Nạve Bayes SVM ứng dụng phân loại thư rác với liệu thử nghiệm Enron xây dựng sau: Hình 3.4 Giao diện chương trình chính phân loại thư rác Bayes SVM 53 Để chạy chương tình demo trên, thực bước :  Bước : Chọn phương pháp phân loại Bayes SVM  Bước : Chọn tập huấn luyện HAM SPAM đầu vào  Bước : Kích nút Huấn luyện để máy học xuất hình Hình 3.5 Giao diện xử lý liệu bước huấn luyện  Bước : Chọn thư mục lọc để phân loại thư rác thư bình thường  Bước : Kích nút Bắt đầu để kiểm tra độ xác việc học liệu thử nghiệm (xem độ xác phần trăm) hình Hình 3.6 Giao diện kết thử nghiệm 54 3.2.4 Kết thử nghiệm Như đề cập chương 2, luận văn tập trung vào cài đặt thử nghiệm hai phương pháp phân loại gồm phân loại Naïve Bayes đơn giản phương pháp Support Vector Machine (SVM) Để thử nghiệm phương pháp này, luận văn xây dựng chương trình phân loại email thuật tốn Nạve Bayes ngơn ngữ Java Đối với SVM sử dụng thư viện LibSVM trình bày phần 3.2.1 Hiệu lọc thư đánh giá theo nhiều tiêu chí độ nhậy (recall), độ xác (precision), độ xác phân loại chung tức phần trăm thư phân loại khơng phụ thuộc vào thư rác hay thư bình thường Trong luận văn, tơi chủ yếu tập trung đánh giá hiệu lọc thư qua tiêu chí về độ xác (precision) định nghĩa sau: độ xác = số thư rác phát xác Tởng số thư phân loại thư rác Tiêu chí thứ ba độ xác phân loại chung tức phần trăm thư phân loại khơng phụ thuộc vào thư rác hay thư bình thường Trong luận văn, tơi chủ yếu tập trung đánh giá hiệu lọc thư qua tiêu chí về độ xác Kết thử nghiệm hai phương pháp Naïve Bayes SVM với tập liệu mẫu thể Bảng 3.1 chi tiết Hình 3.7 Bảng 3.1: Độ chính xác phân loại hai phương pháp phân loại khác Tập liệu HAM (100 thư) Hình 3.7 Độ chính xác phân loại NB SVM 55 3.3 Đánh giá thử nghiệm Theo kết thực nghiệm cho thấy phương pháp Naïve Bayes cho kết so với phương pháp SVM Tuy nhiên, phương pháp Bayes có ưu rõ rệt về tốc độ phân loại có độ phức tạp tính tốn thấp SVM địi hỏi khối lượng thời gian tính tốn lớn nhiều Trong thử nghiệm, tổng thời gian huấn luyện phân loại SVM lớn Bayes đơn giản từ 10 tới 50 lần Chúng ta thấy từ thuật toán phân lớp hai lớp SVM đến thuật tốn phân lớp đa lớp đều có đặc điểm chung yêu cầu văn nói chung thư điện tử nói riêng phải biểu diễn dạng vector đặc trưng, nhiên thuật toán khác đều phải sử dụng uớc lượng tham số ngưỡng tối ưu thuật tốn SVM tự tìm tham số tối ưu Trong phương pháp SVM phương pháp sử dụng không gian vector đặc trưng lớn (hơn 10.000 chiều) phương pháp khác có số chiều bé nhiều (như Naïve Bayes 2000, k-Nearest Neighbors 2415…) Trong cơng trình cơng bố năm 1999, Joachims [13] so sánh SVM với Naïve Bayesian, k-Nearest Neighbour, Rocchio, C4.5 đến năm 2003, Joachims chứng minh SVM làm việc tốt với đặc tính đề cập trước văn Các kết cho thấy SVM đưa độ xác phân lớp tốt so sánh với phương pháp khác Kiritchenko Matwin [10] nghiên cứu so sánh phương pháp SVM với kỹ thuật Nạve Bayesian, sau chứng minh SVM phương pháp tốt cho phân lớp thư điện tử phân lớp văn Những phân tích tác giả cho thấy SVM có nhiều điểm phù hợp cho việc ứng dụng phân lớp thư điện tử Và thực tế, thí nghiệm phân lớp thư rác tiếng Anh SVM đạt độ xác phân lớp cao tỏ xuất sắc so với phương pháp phân lớp khác Đó lý SVM lựa chọn hàng đầu cho toán phân loại thư rác 56 3.4 Kết luận chương Trong chương trình bày thử nghiệm sử dụng hai thuật tốn Nạve Bayes SVM phân loại thư rác Đã nêu yêu cầu về toán liệu đầu vào, kết hệ thống Một số trang hình minh họa trình thực nghiệm luận văn Đồng thời đánh giá kết thực nghiệm so sánh hai thuật tốn nói 57 KẾT LUẬN Các kết đạt Luận văn đề cập nhu cầu lọc thư rác công cu c̣ học máy, dùng để huấn luyện hệ thống biết thư rác, nhận dạng thư rác, ngăn chặn thư rác Chặn thư rác làm tăng hiệu khai thác hệ thống, đặc biệt hệ thống thư điện tử Luận văn trình bày hai lớp thṭtốn quan trọng tốn học máy Đó (i) thṭtốn mạng Bayes đơn giản; (ii) thuâṭtoán máy vec tơ tựa SVM Các thuâṭ toán sử duṇg để lọc thư rác hệ thống thư điện tử cụ thể Chương cuối luận văn trình bày kết thực nghiệm, cho phép lọc thư rác, tập liệu mẫu Hướng phát triển luận văn Tuy nhiên, hạn chế về mặt thời gian kiến thức nên luận văn chưa sâu vào nghiên cứu toán lọc thư rác tiếng Việt Trong tương lai, luận văn nghiên cứu hướng sau: Khi áp dungc̣ thuật toán phân loại khó khăn gặp phải làxây dưngc̣ đươcc̣ tâpc̣ hơpc̣ từ vưngc̣ vàcác mẫu huấn luyêṇ đủlớn Vấn đềnày liên quan tới viêcc̣ phân tách môṭ câu thành từ cụm từ môṭ cách chinh́ xác Luận văn tiếp tucc̣ phát triển theo hướng nghiên cứu mởrôngc̣ ứng dungc̣ bô c̣từ điển sẵn có vàxây dựng mẫu huấn luyêṇ tiêu chuẩn về thư tiếng Việt bao gồm có dấu khơng có dấu điều chinhh̉ tham sốcủa giải thuâṭphân loaịđể nâng cao đô c̣chinh́ xác 58 DANH MỤC TÀI LIỆU THAM KHẢO TIẾNG VIỆT [1] Đinh Thị Phương Thu, Hoàng Vĩnh Sơn, Huỳnh Quyết Thắng, Phương án xây dựng tập mẫu cho toán phân lớp văn tiếng Việt, nguyên lý, giải thuật, thử nghiệm đánh giá kết quả, Tạp chí Khoa học cơng nghệ, 2005 [2] Nguyễn Linh Giang, Nguyễn Mạnh Hiển (2005), “Phân loại văn tiếng Việt sử dụng support vector machines”, Chun san nghiên cứu tạp chí Bưu Viễn thơng, số 15 [3] Nguyễn Thanh Hùng (2006), “Hướng tiếp cận việc tách từ để phân loại văn tiếng Việt sử dụng thuật di truyền thống kê Internet”, Chuyên san nghiên cứu tạp chí Bưu viễn thơng, số 16 [4] Trần Ngân Bình, Võ Huỳnh Trâm, “Trí tuệ nhân tạo”, Đại học Cần thơ Phiên trực tuyến: http://voer.edu.vn/c764b3239 TIẾNG ANH [5] C BURGES (1998), “A tutorial on Support Vector Machines for pattern recognition”, Proceedings of Int Conference on Data Mining and Knowledge Discovery, Vol 2, No 2, (pp 121-167) [6] C Cortes and V Vapnik Support-Vector Networks, “Machine Learning”, 20, 1995 [7] M F Caropreso, S Matwin, and F Sebastiani “A learnerindependent evaluation of the usefulness of statistical phrases for automated text categorization” In A G Chin, editor, Text Databases and Document Management: Theory and Practice, pages 78-102 2001 [8] Androutsopoulos, G Palioras, V Karkaletsis, G Sakkis, C Spyropoulos, P Stamatopoulos (2000), “Learning to filter spam e-mail: a comparison of a Naiăve Bayesian and memory-based approach”, in: Proc 4th 59 European Conference on Principles and Practice of Knowledge Discovery in Databases (PKDD), (pp 1–13) [9] J Platt Sequential minimal optimization: “A fast algorithm for training support vector machines” Technical Report 98-14, Microsoft Research, Redmond, Washington, April 1998 [10] Kriritchenko, Matwin (2001),“Email classification with cotraining” Proceeding CASCON '01 Proceedings of the 2001 conference of the Centre for Advanced Studies on Collaborative research [11] M.F Porter, 1980, “An algorithm for suffix stripping”, Program, 14(3) pp 130−137 [12] R Bekkerman, R El-Yaniv, N Tishby, and Y Winter Distributional word clusters vs words for text categorization Journal of Machine Learning Research, 3:1183-1208, 2003 [13] T Joachims (1999), using Support Vector Machines”, (ICML), 1999 “Transductive Inference for Text Classification International Conference on Machine Learning [14] http://www.24h.com.vn/cong-nghe-thong-tin/viet-nam-phat-tan-thu- rac-dung-thu-3-the-gioi-c55a675442.html [15] thông) http://mic.gov.vn/gioithieuSPDV (bộ thông tin truyền [16]http://securelist.com/analysis/quarterly-spam-reports/67851/spam-andphishing-in-the-q3-of-2014 ... từ” phân tích lý khơng sử dụng phương pháp cho lọc thư rác Lọc thư theo nội dung trường hợp riêng toán phân loại văn thư phân loại thành thư rác thư hợp lệ dựa nội dung văn thư Bộ lọc thư rác, ... thư rác, đặc trưng thư rác biểu diễn thư rác dựa học máy có giám sát Trong phương pháp phân loại, phương pháp Bayes phương pháp đơn giản, nhanh cho độ xác phân loại tương đối tốt Phương pháp. .. phân loại nhầm thư thường thành thư rác Do vậy, đơn gán cho thư nhãn có xác suất điều kiện lớn Giả sử việc phân loại thư rác thành thư thường dễ chấp nhận phân 35 loại thư thường thành thư rác