(Luận văn thạc sĩ) nghiên cứu phân loại thư rác dựa trên kỹ thuật học máy naive bayes

HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG - TRẦN MỸ HOÀNG NGHIÊN CỨU PHÂN LOẠI THƢ RÁC DỰA TRÊN KỸ THUẬT HỌC MÁY NAÏVE BAYES CHUYÊN NGÀNH : HỆ THỐNG THÔNG TIN MÃ SỐ: 60.48.01.04 LUẬN VĂN THẠC SĨ KỸ THUẬT NGƢỜI HƢỚNG DẪN KHOA HỌC: TS HOÀNG XUÂN DẬU HÀ NỘI – 2017 Luan van i LỜI CAM ĐOAN Tơi cam đoan cơng trình nghiên cứu riêng Các số liệu, kết nêu luận văn trung thực chƣa đƣợc công bố cơng trình khác Tác giả Trần Mỹ Hoàng Luan van ii MỤC LỤC DANH MỤC HÌNH III DANH MỤC BẢNG IV DANH MỤC TỪ VIẾT TẮT V MỞ ĐẦU CHƢƠNG 1: TỔNG QUAN VỀ EMAIL VÀ VẤN ĐỀ LỌC THƢ RÁC 1.1 Khái quát email dịch vụ email 1.1.1 Giới thiệu .3 1.1.2 Các vấn đề bảo mật email dịch vụ email .10 1.1.3 Các biện pháp đảm bảo an toàn email dịch vụ email 11 1.2 Thƣ rác vấn đề lọc thƣ rác .21 1.2.1 Khái quát thư rác 21 1.2.2 Các đặc trưng thư rác 22 1.2.3 Phân loại thư rác 24 1.2.4 Tác hại thư rác .24 1.3 Kết luận chƣơng 26 CHƢƠNG 2: XÂY DỰNG MƠ HÌNH LỌC THƢ RÁC DỰA TRÊN NAÏVE BAYES 27 2.1 Thuật tốn học máy Nạve Bayes 27 2.1.1 Định lý Bayes 27 2.1.2 Thuật tốn Nạve Bayes 28 2.2 Xây dựng mơ hình lọc thƣ rác dựa Nạve Bayes 29 2.2.1 Mơ hình lọc thư rác dựa Naïve Bayes 29 2.2.2 Các bước xử lý mơ hình lọc thư rác dựa Naïve Bayes 30 2.3 Kết luận chƣơng 37 CHƢƠNG 3: THỬ NGHIỆM VÀ KẾT QUẢ 38 3.1 Giới thiệu liệu thử nghiệm .38 3.2 Các thử nghiệm kết 39 3.2.1 Tiêu chí đánh giá 39 3.2.2 Các thử nghiệm 39 3.4 Kết luận chƣơng 41 KẾT LUẬN 42 DANH MỤC CÁC TÀI LIỆU THAM KHẢO 43 Luan van iii DANH MỤC HÌNH Hình 1.1: Các thơng điệp trình gửi nhận email (S: Server, C: Client) Hình 1.2: Quá trình gửi nhận mail Hình 1.3: Hoạt động DomainKeys .15 Hình 1.4: Hoạt động SPF 17 Hình 1.5: Hoạt động Sender ID Framework 18 Hình 2.1: Mơ hình huấn luyện lọc thƣ dựa Nạve Bayes 29 Hình 2.2: Quy trình tiền xử lý liệu .30 Luan van iv DANH MỤC BẢNG Bảng 1.1: Các lệnh SMTP (RFC 821) Bảng 1.2: Các lệnh POP3 (RFC 1939) Bảng 1.3: Các lệnh IMAP4 (RFC 2060) Bảng 1.4: Khuôn dạng email Bảng 1.5: Các kiểu mô tả liệu Bảng 1.6: Các kiểu liệu thƣờng gặp 10 Bảng 3.1: Bộ liệu thử nghiệm 38 Bảng 3.2: Kết thử nghiệm với huấn luyện enron1 39 Bảng 3.3: Kết thử nghiệm với huấn luyện enron6 40 Bảng 3.4: Kết đánh giá thử nghiệm Naïve Bayes 40 Luan van v DANH MỤC TỪ VIẾT TẮT Từ viết Tiếng Anh tắt SMTP POP IMAP Tiếng Việt Simple Mail Transfer Protocol Giao thức truyền tải thƣ đơn giản Post Office Protocol Internet Message Access Protocol Giao thức bƣu cục Giao thức truy nhập tin nhắn Internet MUA Mail User Agent Đại lý ngƣời dùng thƣ MTA Mail Tranfer Agent Đại lý vận chuyển thƣ MDA Mail Delivery Agent Đại lý phân phối thƣ MIME Multi-Purpose Internet Mail Extensions Mở rộng thƣ Internet đa mục đích SPF Sender Policy Framework Khung sách ngƣời gửi ISP Internet Service Provider Nhà cung cấp dịch vụ Internet DNS Domain Name Server Dịch vụ tên miền Hypertext Markup Language Ngôn ngữ đánh dấu siêu văn DF Document Frequency Tần suất tài liệu MI Manual Information Lƣợng từ tƣơng hỗ TF Term Frequency Tần suất thuật ngữ IDF Inverse Document Frequency Tần suất tài liệu nghịch HTML Luan van MỞ ĐẦU Trong thời đại bùng nổ công nghệ thông tin nay, dịch vụ đƣợc ứng dụng từ lâu nhƣng mang ƣu điểm thay dịch vụ thƣ điện tử (email) Email phƣơng tiện giao tiếp đơn giản, tiện lợi, rẻ tiền hiệu ngƣời cộng đồng sử dụng mạng Internet Lƣợng email trao đổi hàng ngày lớn, lên đến hàng tỷ email ngày Một vấn đề gây đau đầu cho nhà cung cấp dịch vụ email ngƣời dùng email thƣ rác (spam) Thƣ rác thƣờng đƣợc gửi với số lƣợng lớn, không đƣợc ngƣời dùng mong đợi, thƣờng với mục đích quảng cáo, đính kèm virus, gây phiền tối khó chịu cho ngƣời dùng, làm giảm tốc độ đƣờng truyền Internet tốc độ xử lý máy chủ email, gây thiệt hại lớn kinh tế Đã có nhiều phƣơng pháp đƣợc nghiên cứu triển khai để giảm số lƣợng thƣ rác Nhƣ việc đƣa luật lệ để hạn chế việc gửi thƣ rác, đƣa phƣơng pháp kĩ thuật lọc thƣ rác nhƣ: lọc dựa địa IP (whitelist, blacklist), lọc dựa danh tính ngƣời gửi, lọc dựa chuỗi hỏi đáp, phƣơng pháp lọc nội dung… Trong phƣơng pháp lọc thƣ rác, phƣơng pháp lọc dựa nội dung đƣợc quan tâm nhiều đƣợc đánh giá có hiệu cao Phƣơng pháp lọc nội dung dựa việc phân tích nội dung thƣ để phân biệt thƣ rác thƣ bình thƣờng Đây tiền đề để áp dụng thuật toán học máy, nhƣng Naïve Bayes vào lọc email rác dựa nội dung chúng Nhằm nghiên cứu thử nghiệm phƣơng pháp lọc thƣ rác dựa phƣơng pháp học máy Naïve Bayes, luận văn thực đề tài “Nghiên cứu phân loại thƣ rác dựa kỹ thuật học máy Nạve Bayes” Luận văn gồm có ba chƣơng nhƣ sau: Chƣơng 1: Tổng quan email vấn đề lọc thƣ rác: Chƣơng trình bày cách tổng quan email, dịch vụ email, vấn đề bảo mật email dịch vụ email, thƣ rác vấn đề lọc thƣ rác Luan van Chƣơng 2: Xây dựng mơ hình lọc thƣ rác dựa Nạve Bayes: Chƣơng nghiên cứu thuật tốn học máy Nạve Bayes, xây dựng mơ hình lọc thƣ rác dựa thuật tốn Nạve Bayes Chƣơng 3: Thử nghiệm kết quả: Phần đầu chƣơng giới thiệu liệu thử nghiệm, phần sau thử nghiệm lọc thƣ rác dựa Nạve Bayes Từ đƣa đánh giá, nhận xét Luan van CHƢƠNG 1: TỔNG QUAN VỀ EMAIL VÀ VẤN ĐỀ LỌC THƢ RÁC 1.1 Khái quát email dịch vụ email 1.1.1 Giới thiệu Email (electronic mail), hay thƣ điện tử phƣơng pháp trao đổi thông điệp ngƣời gửi với nhiều ngƣời nhận thơng qua mạng máy tính mạng Internet Email phƣơng tiện trao đổi thông tin đƣợc sử dụng rộng rãi mạng Internet Email đƣợc gửi dạng thơng thƣờng hay mã hố đƣợc chuyển qua mạng máy tính đặc biệt mạng Internet Email chuyển từ máy nguồn tới hay nhiều máy nhận Hệ thống email hoạt động dựa mô hình lƣu chuyển tiếp (store and forward) Máy chủ email nhận, chuyển tiếp, phân phối lƣu trữ thông điệp Q trình gửi nhận email khơng u cầu ngƣời dùng (ngƣời gửi, ngƣời nhận) máy tính họ trực tuyến lúc Ngƣời dùng cần kết nối thời gian ngắn, thƣờng kết nối tới máy chủ khoảng thời gian đủ để gửi nhận thông điệp 1.1.1.1 Các giao thức gửi nhận email * Giao thức SMTP SMTP (tiếng Anh: Simple Mail Transfer Protocol - giao thức truyền tải thƣ tín đơn giản) chuẩn truyền tải thƣ điện tử qua mạng Internet đƣợc sử dụng rộng rãi SMTP đƣợc đề xuất lần vào năm 1982 chuẩn RFC 821 [1] đƣợc cập nhật, mở rộng thành Extended SMTP (ESMTP ) vào năm 2008 chuẩn RFC 5321 [2] Bảng 1.1 cung cấp chi tiết lệnh giao thức SMTP Giao tiếp SMTP máy chủ email sử dụng cổng TCP 25 Mặc dù máy chủ email thƣờng sử dụng giao thức SMTP để gửi nhận email, ứng dụng máy khách sử dụng giao thức SMTP để chuyển tiếp Để tải email, ứng dụng máy khách thƣờng sử dụng giao thức IMAP hay POP3 Luan van Bảng 1.1: Các lệnh SMTP (RFC 821) Lệnh HELO Mô tả Sử dụng để xác định ngƣời gửi thƣ Lệnh này kèm với tên host gửi thƣ Trong ESMTP (extended protocol), lệnh EHLO MAIL Khởi tạo giao dịch gửi thƣ Nó kết hợp "from" để xác định ngƣời gửi thƣ RCPT Xác định ngƣời nhận thƣ Thông báo bắt đầu nội dung thực thƣ (phần thân thƣ) Dữ liệu DATA đƣợc mã hóa thành dạng mã 128-bit ASCII đƣợc kết thúc với dịng đơn chứa dấu chấm (.) RSET Huỷ bỏ giao dịch thƣ VRFY Sử dụng để xác thực ngƣời nhận thƣ NOOP Là lệnh "no operation" xác định không thực hành động QUIT Thốt khỏi tiến trình để kết thúc phiên giao tiếp SEND Cho host nhận biết thƣ cịn phải gửi đến đầu cuối khác Hình 1.1: Các thơng điệp q trình gửi nhận email (S: Server, C: Client) Luan van 29 2.2 Xây dựng mơ hình lọc thƣ rác dựa Nạve Bayes 2.2.1 Mơ hình lọc thư rác dựa Nạve Bayes Bài tốn lọc thƣ rác thực chất toán phân loại thƣ nhận đƣợc thành hai nhóm nhóm thƣ rác nhóm thƣ bình thƣờng Mơ hình lọc thƣ rác thực luận văn gồm bƣớc: huấn luyện phân loại, nhƣ biểu diễn Hình 2.1 Hình 2.1: Mơ hình huấn luyện lọc thƣ dựa Nạve Bayes Mơ hình lọc hay phân loại thƣ đƣợc thực nhƣ sau: - Trƣớc tiên, nội dung thƣ đƣợc biểu diễn dƣới dạng đặc trƣng hay thuộc tính, đặc trƣng thƣờng từ cụm từ xuất thƣ Các đặc trƣng hợp thành vector đặc trƣng cho thƣ - Tiếp theo, giai đoạn huấn luyện, tập thƣ đƣợc gán nhãn {rác, bình thƣờng} gọi tập liệu huấn luyện hay liệu mẫu, đƣợc sử dụng để huấn luyện phân loại Luan van 30 - Sau huấn luyện xong, phân loại đƣợc sử dụng để xác định thƣ thƣ (chƣa biết nhãn) thuộc vào loại hai loại nói Trong giai đoạn huấn luyện phân loại, thuật toán phân loại làm việc với nội dung thƣ đƣợc biểu diễn dƣới dạng vector đặc trƣng Các bƣớc xử lý mơ hình lọc thƣ rác đƣợc trình bày mục 2.2.2 Các bước xử lý mơ hình lọc thư rác dựa Nạve Bayes 2.2.2.1 Tiền xử lý Phần tiền xử lý liệu đƣợc coi phần quan trọng phân loại thƣ riêng phân loại văn nói chung Có nhiều thách thức cho khâu tiền xử lý độ phức tạp, tính linh hoạt ngơn ngữ tự nhiên Ví dụ: từ đồng âm, cụm động từ, thành ngữ phong thái ngơn ngữ khác vùng miền Nhìn chung, quy trình tiền xử lý nhƣ mơ tả Hình 2.2, bao gồm bƣớc chính: Hình 2.2: Quy trình tiền xử lý liệu Bước : Loại bỏ nhiễu Khi tiến hành chuẩn bị liệu cần phải loại bỏ phần liệu không liên quan, đặc trƣng có tần suất xuất lớn nhƣng khơng có ý nghĩa Cụ thể, cần có chế ánh xạ từ, cụm từ dạng gốc mà chúng sai tả Các cơng việc bao gồm: - Đối với email có định dạng HTML cần phải loại bỏ thẻ HTML thuộc tính chúng Hơn thế, email thuộc loại thƣờng đƣợc trao đổi Luan van 31 (reply) qua lại nhiều lần bên gửi bên nhận nên chứa nhiều thông tin nhiễu cần phải đƣợc loại bỏ - Trong tiếng Anh, từ dừng (stop word) mang nghĩa ngữ pháp mà không mang nghĩa từ vựng Khi nhắc tới từ dừng ta khơng có tri thức vật, tƣợng Từ dừng bị loại bỏ khỏi văn việc đƣợc xem khơng có ảnh hƣởng tới nội dung văn Tập từ dừng đƣợc định nghĩa sẵn đặc trƣng đƣợc công nhận hợp lệ không nằm tập Các từ dừng tiếng Anh thông thƣờng mạo từ (articles), giới từ (prepositions), liên từ (conjunctions) số đại từ (pronouns) Một số ví dụ điển hình là: a, about, an, are, as, at, be, by, for, from, how, in, is, of, on, or, that, the, these, this, to, was, what, when, where, who, will, with - Số thuật ngữ chứa kí tự số (digits) đƣợc loại bỏ ngoại trừ vài kiểu riêng nhƣ: ngày tháng (dates), thời gian (times) kiểu đƣợc xác định cụ thể biểu thức quy (regular expressions) - Cắt bỏ dấu nối thƣờng đƣợc áp dụng để đối phó với liệu khơng quán Ví dụ: số ngƣời sử dụng “state-of-the-art” số khác lại sử dụng “state of the art” Nếu dấu gạch nối trƣờng hợp thứ đƣợc loại bỏ loại trừ đƣợc vấn đề khơng qn Có hai kiểu loại bỏ dấu gạch nối: (i) dấu gạch nối đƣợc thay khoảng trắng (ii) dấu gạch nối đƣợc loại bỏ mà không thêm khoảng trắng Tuy nhiên, có trƣờng hợp khó định nhƣ “pre-processing” đƣợc chuyển đổi thành “pre processing” hồn tồn khơng xác Bước 2: Sửa lỗi tả Quan sát thấy, tập email có nhiều từ đƣợc viết khơng tả thơng thƣờng chúng đƣợc coi đặc trƣng khác Các thuật toán xử lý cho kết tốt từ viết sai tả từ gốc chúng đƣợc xem đặc trƣng Vấn đề có ý kiến đề xuất phƣơng pháp ánh xạ (có quan tâm đến tần suất xuất từ bị lỗi) đƣợc cập nhật thủ cơng sử dụng thuật tốn sửa tả (spelling correction) Peter Norvig [13] Luan van 32 Quy tắc đƣợc bổ sung dần theo thời gian Theo đó, từ “thanx” đƣợc coi nhƣ “thank”, “complketed” đƣợc xem “completed” Bước 3: Đưa từ dạng gốc (Stemming) Bằng cách áp dụng thuật toán stemming đƣa đƣợc từ văn dạng gốc (stem), đƣợc đề xuất Porter từ năm 1980 [14] Ví dụ: “working” sau stemming thu đƣợc “work”, “looked” chuyển thành “look” Nhƣ nhận xét trên, tập email lớn dẫn đến có số đặc trƣng (feature) lớn Việc giảm thiểu không gian đặc trƣng cải thiện nhiều đến độ phức tạp thời gian thuật toán xử lý Thơng thƣờng, có số nhỏ chiều (dimension) có liên quan tới cụm Dữ liệu chiều khơng liên quan sinh nhiều nhiễu che khuất cụm thực Hơn nữa, số chiều tăng dẫn đến mật độ liệu trở nên thƣa điểm đƣợc xác định nhiều không gian khác Khi mật độ liệu thực thƣa, điểm đƣợc đặt nhiều chiều khác có khoảng cách tƣơng đƣơng phép đo khoảng cách trở nên vơ nghĩa Do đó, đặc trƣng có tần suất nhỏ bị loại bỏ sau bƣớc tiền xử lý liệu Mặt khác, ta phải loại bỏ bớt đặc trƣng có tần suất xuất lớn tập huấn luyện để tránh tƣợng vừa liệu Bước 4: Tách thuật ngữ Trong tiếng Anh, đơn vị có nghĩa nhỏ từ (word) Các từ đƣợc phân cách với ký tự khoảng trắng dấu câu Các từ kết hợp với để tạo thành cụm từ (phrase) Đối với toán phân loại văn bản, văn đƣợc biểu diễn vector k chiều chiều từ cụm từ Để tách tập từ, đơn giản ta dựa vào khoảng trắng dấu câu Việc tách cụm từ thơng thƣờng cần phải sử dụng thêm mơ hình học máy từ điển Bước 5: Trích chọn đặc trưng Lựa chọn đặc trƣng văn bƣớc phân loại văn Đây tiền đề quan trọng để học đƣợc phân loại hợp lí Có nhiều đặc trƣng Luan van 33 hàm chứa tài liệu, nhiên văn thông thƣờng ngƣời ta sử dụng phƣơng pháp lựa chọn đặc trƣng: Tần suất tài liệu (DF- Document frequency) - Lƣợng tin tƣơng hỗ (MI - Manual Information) Tần suất tài liệu (DF) DF số tài liệu có xuất từ (term) Ngƣời ta tính tốn tần suất tài liệu cho từ đơn tập văn mẫu Cốt lõi phƣơng pháp phải tìm không gian từ đặc trƣng, với không gian từ phổ biến (xuất thƣờng xuyên văn bản) đƣợc loại bớt, từ xuất lần (từ loại hiếm) khơng đƣợc tính vào khơng gian từ đặc trƣng Cách xác định DF kĩ thuật đơn giản để làm giảm bớt vốn từ có văn Mặc dù văn lớn phƣơng pháp đạt đến độ phức tạp tuyến tính (các giá trị DF tính đƣợc thƣờng nhỏ thực tế) nhƣng đƣợc coi phép tính gần để cải tiến hiệu thuật toán Các bƣớc phƣơng pháp lựa chọn bao gồm: + Tính DF từ văn + Sắp xếp theo chiều giảm dần DF + Loại bỏ từ phổ biến từ + Chọn đặc trƣng có DF lớn: muốn thực công việc ngƣời ta phải định ngƣỡng (coi giớn hạn để chọn từ) Với phƣơng pháp này, từ loại xuất nhiều văn có giá trị đƣợc chọn vào không gian đặc trƣng tài liệu xét Lượng từ tương hỗ (MI) MI giá trị logarit nghịch đảo xác suất xuất từ thuộc vào lớp văn c Đây tiêu chí thể phụ thuộc từ t với loại văn c Nếu kí hiệu từ loại t (term), loại văn c (category), A số lần xuất t c, B số lần xuất t c, C số lần xuất c Luan van 34 khơng có t, N tổng số tài liệu, lƣợng tin tƣơng hỗ I t c đƣợc định nghĩa nhƣ sau: đƣợc ƣớc lƣợng (2.5) Để giới hạn từ có tồn đặc trƣng lựa chọn tập hợp điểm đặc biệt từ loại hai luân phiên (2.6) ∑ { } (2.7) Bước 6: Đánh trọng số cho văn Trong không gian, lựa chọn đƣợc đặc trƣng văn văn đƣợc biểu diễn vector n chiều chiều đặc trƣng văn Trong máy tính, văn đƣợc biểu diễn vector có khơng gian từ (word) xuất văn Những từ đƣợc lựa chọn nhờ vào hai thông số Tần suất thuật ngữ (TF - Term Frequency) Tần suất tài liệu nghịch (IDF - Inverse Document Frequency) Tần suất thuật ngữ (TF) Trong giai đoạn tiền xử lí văn bản, văn đƣợc biểu diễn vector C có N chiều w1, w2 , , wN Mỗi chiều wi đại diện cho từ (term) xuất văn đƣợc đặc trƣng đại lƣợng gọi tần suất thuật ngữ (TF) số lần xuất từ tài liệu xét Luan van 35 Cho tập tài liệu (document) D tập khác gồm t thuật ngữ (term) Chúng ta mơ hình tài liệu nhƣ vector V không gian t chiều Nhƣ vậy, tần suất thuật ngữ thô số lần thuật ngữ t xuất tài liệu d (d  D), kí hiệu freq(t,d) Một cách đơn giản tần suất thuật ngữ TF(t,d) tài liệu d không chứa thuật ngữ t ngƣợc lại nhận giá trị freq(t,d) Một số cách khác tính TF(t,d) theo [12]: Kiểu logic: TF(t,d) = thuật ngữ t xuất d = trƣờng hợp khác Kiểu logarit: TF(t,d) = 1+log(freq(t,d)) freq(t,d) > = freq(t,d) = Tần suất tài liệu nghịch (IDF) Tần suất tài liệu nghịch biểu diễn nhân tố tỷ lệ hay mức độ quan trọng thuật ngữ t Tức là, thuật ngữ t xuất nhiều tài liệu độ quan trọng giảm xuống cách tỷ lệ Tần suất tài liệu nghịch thuật ngữ t tập tài liệu D, idf(t, D) [12]: (2.8) Trong đó, N tổng số tài liệu tập D, hay N = | D |, |d  D : t  d| số lƣợng tài liệu mà thuật ngữ t xuất (tức TF(t, d)  0) Nếu thuật ngữ t không xuất tập tài liệu dẫn đến phép chia cho Để tránh trƣờng hợp này, ngƣời ta thƣờng cộng thêm vào phần mẫu số tính IDF: 1+ |d  D : t  d| Luận văn sử dụng phép đo TF-IDF(d,t) đƣợc kết hợp từ hai tham số TF IDF đƣợc tính nhƣ sau [12]: 𝑇𝐹− 𝐷𝐹( , d, D) = 𝑇𝐹( , d) × 𝐷𝐹( , D) (2.9) Kết cuối khâu tiền xử lý vector biểu diễn cho văn đầu vào tƣơng ứng Đây đầu vào cho khâu kế tiếp, khâu huấn luyện liệu nhƣ đầu vào cho phần dự đoán phân loại văn Luan van 36 2.2.2.2 Huấn luyện Sử dụng liệu đầu vào vector đặc trƣng cho tài liệu (mỗi đặc trƣng đƣợc biểu diễn giá trị 𝑇𝐹− 𝐷𝐹()), bƣớc huấn luyện thực việc tính giá sử dụng thuật tốn Nạve Bayes trình bày mục 2.1 Nội dung cụ thể bƣớc huấn luyện gồm: Đầu vào:  Các vector đặc trƣng văn tập huấn luyện (Ma trận MxN, với M số vector đặc trƣng tập huấn luyện, N số đặc trƣng vector)  Tập nhãn/lớp cho vector đặc trƣng tập huấn luyện Đầu ra: Các giá trị xác suất Cơng thức tính (2.10) Trong đó:  |docsi|: số văn tập huấn luyện thuộc phân lớp i  |total docs|: số văn tập huấn luyện  m số phân lớp Cơng thức tính | | (2.11) Trong đó:  | |: Số văn phân lớp i có đặc trƣng thứ k mang giá trị xk (hay số văn lớp i, có xuất hiện/khơng xuất đặc trƣng k)   : Số văn tập huấn luyện thuộc phân lớp i Số giá trị có đặc trƣng thứ k Luan van 37 2.2.2.3 Phân loại Bƣớc phân loại sử dụng giá trị xác suất thu đƣợc bƣớc huấn luyện để phân loại văn đầu vào vào lớp phù hợp Bƣớc phân loại đƣợc thực cụ thể nhƣ sau: Đầu vào:  Vector đặc trƣng văn cần phân lớp  Các giá trị xác suất Đầu ra: Nhãn/lớp văn cần phân loại Cơng thức tính xác suất thuộc phân lớp i biết trƣớc mẫu X: ∏ (2.12) Dựa vào vector đặc trƣng văn cần phân lớp, áp dụng cơng thức tính xác suất thuộc phân lớp cho văn bản, chọn lớp có xác suất cao 2.3 Kết luận chƣơng Chƣơng trình bày khái quát định lý Bayes thuật tốn Nạve Bayes Trong phần tiếp theo, chƣơng trình bày mơ hình lọc thƣ rác dựa Naïve Bayes, với bƣớc: huấn luyện phân loại Trong chƣơng 3, luận văn sử dụng mơ hình lọc thƣ rác dựa Naïve Bayes để thực số thử nghiệm để đánh giá hiệu lọc thƣ rác Luan van 38 CHƢƠNG 3: THỬ NGHIỆM VÀ KẾT QUẢ 3.1 Giới thiệu liệu thử nghiệm Dữ liệu thử nghiệm đƣợc lấy từ tập liệu Enron mail trang web http://www.aueb.gr/users/ion/data/enron-spam/ Đây liệu cá nhân 150 nhân viên công ty Enron Houston, bang Texas, Hoa Kỳ Dữ liệu bao gồm lƣợng lớn email cá nhân, đƣợc công bố công khai sử dụng để tạo tiêu chuẩn phân loại email Bộ liệu bao gồm thƣ rác thƣ bình thƣờng Phần lớn thƣ rác khơng mang tính cá nhân, trộn lẫn thƣ bình thƣờng (đƣợc nhận ngƣời) với thƣ rác (đƣợc nhận nhiều ngƣời) tạo tiêu chuẩn hợp lý Bộ liệu có tổng cộng 21783 thƣ đƣợc chia thành phần, bao gồm thƣ mơ nhiều tình khác mà ngƣời sử dụng gặp phải thực tế Bảng 3.1: Bộ liệu thử nghiệm Tên tập liệu Enron1 Enron2 Enron3 Enron4 Enron5 Enron6 Thƣ rác 382 608 1500 3675 4000 4678 Thƣ bình thƣờng 645 961 1512 1500 2000 5187 Tổng số 1027 1569 3012 5175 6000 9865 Tất thƣ liệu đƣợc xử lý qua bƣớc xử lý sơ nhƣ sau: - Bƣớc : Loại bỏ thƣ ngƣời dùng gửi cho (bằng cách kiểm tra tên ngƣời dùng có xuất trƣờng “To:”, “Cc:” “Bcc:” hay không) - Bƣớc 2: Loại bỏ thẻ html phần header, giữ lại phần tiêu đề (Subject) phần nội dung thƣ Trong lọc thực tế, thẻ html phần header cung cấp nhiều đặc điểm có ích Tuy nhiên, việc loại bỏ thành phần đảm bảo hiệu lọc Luan van 39 - Bƣớc 3: Loại bỏ thƣ spam đƣợc viết ký tự non-Latin Do thƣ bình thƣờng liệu đƣợc viết ký tự Latin nên thƣ rác viết ký tự non-Latin dễ bị phát hiện, dó loại bỏ thƣ nhằm tăng độ khó liệu, từ tăng hiệu hoạt động hệ thống lọc 3.2 Các thử nghiệm kết 3.2.1 Tiêu chí đánh giá Hiệu lọc thƣ đƣợc đánh giá theo tiêu chí, nhƣ độ nhậy (recall), độ xác (precision), độ đo F1 Luận văn sử dụng độ xác phân loại thƣ rác đƣợc tính tốn nhƣ sau: TP: Tỷ lệ số thƣ rác đƣợc phân loại số thƣ rác thực tế FP: Tỷ lệ số thƣ bình thƣờng đƣợc phân loại thƣ rác và số thƣ bình thƣờng thực tế (3.1) Các thƣ đƣa vào huấn luyện đƣợc gán nhãn sẵn Tất thƣ rác đƣợc gán nhãn chung SPAM, thƣ bình thƣờng đƣợc gán nhãn HAM 3.2.2 Các thử nghiệm - Thử nghiệm 1: Thƣc với đầu vào huấn luyện liệu enronl 1027 thƣ (382 thƣ rác, 645 thƣ bình thƣờng) Thực kiểm tra lọc với liệu từ enron2 đến enron6 Kết phân loại thƣ rác cho Bảng 3.2 Bảng 3.2: Kết thử nghiệm với huấn luyện enron1 Đầu vào email lọc Enron2 Enron3 Enron4 Enron5 Enron6 1569 3012 5175 6000 9865 Thƣ rác phân loại đƣợc 540 1363 2905 3256 3723 Thƣ rác phân loại 516 1296 2764 3097 3599 Kết Luan van 40 Thƣ bình thƣờng phân loại thành thƣ rác 24 67 141 159 124 - Thử nghiệm 2: Thực với đầu vào huấn luyện huấn luyện enron6 9865 thƣ (4678 thƣ rác, 5187 thƣ bình thƣờng) Thực kiếm tra lọc với liệu từ enronl đến enron5 Kết phân loại thƣ rác cho Bảng 3.3 Bảng 3.3: Kết thử nghiệm với huấn luyện enron6 Đầu vào email lọc Enron1 Enron2 Enron3 Enron4 Enron5 1027 1569 3012 5175 6000 Thƣ rác phân loại đƣợc 374 576 1403 3405 3656 Thƣ rác phân loại 370 557 1376 3264 3497 19 27 141 159 Kết Thƣ bình thƣờng phân loại thành thƣ rác Kết tổng hợp độ xác trƣờng hợp thử nghiệm cho Bảng 3.4 Bảng 3.4: Kết tổng hợp độ xác trƣờng hợp thử nghiệm Bộ Đầu vào email lọc Enron1 huấn luyện Kết 1027 Enron2 Enron3 Enron4 Enron5 Enron6 1569 3012 5175 6000 9865 Enron1 Độ xác 97.14% 95.12% 88.89% 90.69% Enron6 Độ xác 99.38% 97.89% 98.09% 90.43% 91.66% 96.99% 3.3 Một số nhận xét Từ kết tổng hợp Bảng 3,4 thấy, trung bình độ xác huấn luyện tập Enron 93,77% trung bình độ xác huấn luyện tập Enron 95,49% Rõ ràng, sử dụng tập huấn luyện có kích thƣớc lớn (Enron 6), độ xác phân loại thƣ rác tăng đáng kể Luan van 41 Phƣơng pháp Naïve Bayes nhìn chung đơn giản, chi phí tính tốn thấp, nên có tốc độ huấn luyện, lọc email nhanh, thích hợp với việc lọc email trực tuyến Độ xác phƣơng pháp Nạve Bayes đạt cao, trung bình 93%, có khả ứng dụng hiệu thực tế 3.4 Kết luận chƣơng Chƣơng trình bày kết thử nghiệm mơ hình lọc thƣ rác dựa thuật tốn học máy Nạve Bayes Các kết thử nghiệm cho thấy phƣơng pháp Naïve Bayes đơn giản, chi phí tính tốn thấp, có tốc độ huấn luyện, lọc email nhanh, thích hợp với việc lọc email trực tuyến Mơ hình cần đƣợc thử nghiệm nhiều tập email để có đánh giá tổng quát Luan van 42 KẾT LUẬN Luận văn nghiên cứu khái quát thƣ điện tử vấn đề thƣ rác – vấn đề gây nhiều phiền tối cho đơng đảo ngƣời dùng Internet Việc nghiên cứu phƣơng pháp lọc thƣ rác hiệu với độ xác cao tốc độ lọc nhanh vấn đề cần đƣợc tiếp tục quan tâm Kết đạt đƣợc luận văn:  Nghiên cứu khái quát email, dịch vụ email, vấn đề bảo mật biện pháp đảm bảo an toàn cho email dịch vụ email  Nghiên cứu khái quát thƣ rác vấn đề lọc thƣ rác  Xây dựng thử nghiệm mơ hình lọc thƣ rác dựa Nạve Bayes Hƣớng phát triển:  Thử nghiệm mơ hình lọc thƣ rác xây dựng số tập liệu thực tế để có đánh giá tồn diện  Hiệu chỉnh thử nghiệm mơ hình cho lọc thƣ rác tiếng Việt Luan van 43 DANH MỤC CÁC TÀI LIỆU THAM KHẢO [1] RFC 821, https://tools.ietf.org/html/rfc821, truy nhập tháng 10/2016 [2] RFC 5321, https://tools.ietf.org/html/rfc5321, truy nhập tháng 10/2016 [3] RFC 1939, https://tools.ietf.org/html/rfc1939, truy nhập tháng 10/2016 [4] RFC 2060, https://tools.ietf.org/html/rfc2060, truy nhập tháng 10/2016 [5] RFC 822, https://tools.ietf.org/html/rfc822, truy nhập tháng 10/2016 [6] RFC 4870, https://tools.ietf.org/html/rfc4870, truy nhập tháng 10/2016 [7] RFC 7208, https://tools.ietf.org/html/rfc7208, truy nhập tháng 10/2016 [8] Ayahiko Niimi, Hirofumi Inomata, Masaki Miyamoto and Osamu Konishi, Evaluation of Bayesian Spam Filter and SVM Spam Filter, School of Systems Information Science, Future University-Hakodate, 2004 [9] M Crispin, INTERNET MESSAGE ACCESS PROTOCOL - VERSION 4rev1, University of Washington, December 1996 [10] Jonathan B Postel, SIMPLE MAIL TRANSFER PROTOCOL, Information Sciences Institute, University of Southern California, August 1982 [11] J Myers, Carnegie Mellon, M Rose, Post Office Protocol - Version 3, Dover Beach Consulting, Inc., May 1996 [12] J Han and M Kamber, Data mining: concepts and techniques San Francisco: Morgan Kaufmann Publishers, 2006 [13] Peter Norvig, How to Write a Spelling Corrector, November 2015, http://norvig.com/spell-correct.html [14] M.F Porter, 1980, An algorithm for suffix stripping, Program, 14(3) pp 130−137 Luan van ... thử nghiệm phƣơng pháp lọc thƣ rác dựa phƣơng pháp học máy Naïve Bayes, luận văn thực đề tài ? ?Nghiên cứu phân loại thƣ rác dựa kỹ thuật học máy Nạve Bayes? ?? Luận văn gồm có ba chƣơng nhƣ sau: Chƣơng... dựng mơ hình lọc thƣ rác dựa Nạve Bayes Luan van 27 CHƢƠNG 2: XÂY DỰNG MƠ HÌNH LỌC THƢ RÁC DỰA TRÊN NẠVE BAYES 2.1 Thuật tốn học máy Naïve Bayes 2.1.1 Định lý Bayes Định lý Bayes [12] cho phép... nội dung dựa việc phân tích nội dung thƣ để phân biệt thƣ rác thƣ bình thƣờng Đây tiền đề để áp dụng thuật tốn học máy, nhƣng Nạve Bayes vào lọc email rác dựa nội dung chúng Nhằm nghiên cứu thử

Định dạng
Số trang	49
Dung lượng	1,14 MB