(Luận văn) phân loại thư rác bằng phương pháp học máy

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG -o0o - PHẠM THỊ KIM DUNG lu an n va tn to p ie gh PHÂN LOẠI THƯ RÁC d oa nl w BẰNG PHƯƠNG PHÁP HỌC MÁY u nf va an lu ll LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH oi m z at nh z m co l gm @ an Lu n va Thái nguyên, 2015 ac th si ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG -o0o - PHẠM THỊ KIM DUNG lu PHÂN LOẠI THƯ RÁC an n va BẰNG PHƯƠNG PHÁP HỌC MÁY tn to ie gh Chuyên ngành: Khoa học máy tính p Mã số: 60 48 01 d oa nl w lu ll u nf va an LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH oi m z at nh NGƯỜI HƯỚNG DẪN KHOA HỌC PGS TS ĐỖ TRUNG TUẤN z m co l gm @ an Lu n va Thái nguyên, 2015 ac th si ii MỤC LỤC MỤC LỤC ii LỜI CAM KẾT iv LỜI CẢM ƠN v DANH MỤC CÁC TỪ VIẾT TẮT vi DANH MỤC HÌNH VẼ VÀ BẢNG BIỂU vii MỞ ĐẦU vii CHƯƠNG 1.TỔNG QUAN VỀ HỌC MÁY VÀ THƯ RÁC 1.1 Tổng quan về ho ̣c máy lu 1.1.1 Trí tuê ̣ nhân tạo an 1.1.2 Học máy n va 1.1.3 Các kĩ thuật học máy gh tn to 1.1.4 Một số ứng dụng học máy 1.1.5 Học có giám sát p ie 1.2 Tổng quan thư rác 12 w 1.2.1 Định nghĩa thư rác đặc trưng thư rác 12 oa nl 1.2.2 Phân loại thư rác 15 d 1.2.3 Đặc điểm thư rác 15 an lu 1.2.4 Tác hại thư rác 16 u nf va 1.2.5 Quy trình thủ đoạn gửi thư rác 17 1.3 Biểu diễn phân loại thư rác dựa học máy có giám sát 20 ll oi m 1.3.1 Nhu cầu phân loại thư rác 20 z at nh 1.3.2 Cách biểu diễn nội dung thư rác 23 1.4 Kết luận chương 27 z CHƯƠNG PHÂN LOẠI THƯ RÁC BẰNG MỘT SỐ THUẬT TOÁN HỌC @ gm MÁY CÓ GIÁM SÁT 28 l 2.1 Thuật tốn Nạve Bayes 28 m co 2.1.1.Giới thiệu Thuật tốn Nạve Bayes 28 an Lu 2.1.2 Mô tả thuật toán 28 2.1.3 Áp dụng phân loại thư rác 33 n va ac th si iii 2.2 Học máy theo phương pháp máy vec tơ tựa SVM 36 2.2.1 Giới thiệu SVM 36 2.2.2 Mơ tả thuật tốn 37 2.2.2 Huấn luyện SVM 40 2.2.3 Ứng dụng phân loại thư rác 40 2.3 Xây dựng mơ hình lọc thư rác dựa học máy có giám sát 41 2.3.1 Lựa chọn mơ hình thuật toán 41 2.3.2 Xây dựng hệ thống 41 2.4 Kết luận chương 46 CHƯƠNG 3.CÀI ĐẶT THỬ NGHỆM VIỆC PHÂN LOẠI THƯ RÁC 47 lu an 3.1 Bài toán phân loại thư rác 47 n va 3.2 Cài đặt thử nghiệm kết 50 3.2.2 Môi trường cài đặt 52 3.2.3 Giao diện chương trình thử nghiệm 52 p ie gh tn to 3.2.1 Bộ liệu thử nghiệm 50 w 3.2.4 Kết thử nghiệm 54 oa nl 3.3 Đánh giá thử nghiệm 55 d 3.4 Kết luận chương 56 lu an KẾT LUẬN 57 u nf va Các kết đạt 57 Hướng phát triển luận văn 57 ll oi m DANH MỤC TÀI LIỆU THAM KHẢO 58 z at nh z m co l gm @ an Lu n va ac th si iv LỜI CAM KẾT Dưới giúp đỡ nhiệt tình bảo chi tiết giáo viên hướng dẫn, tơi hồn thành luận văn Tơi xin cam kết luận văn thân làm nghiên cứu, không trùng hay chép Tài liệu sử dụng luận văn thu thập từ nguồn kiến thức hợp pháp Tác giả luận văn lu an va n Phạm Thị Kim Dung p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si v LỜI CẢM ƠN Để hoàn thành chương trình cao học viết luận văn này, em nhận giúp đỡ đóng góp nhiệt tình thầy trường Đại học Cơng nghệ thông tin Truyền thông, Đại học Thái Nguyên Trước hết, em xin chân thành cảm ơn thầy cô khoa Đào tạo sau đại học, tận tình giảng dạy, trang bị cho em kiến thức quý báu suốt năm học qua Xin chân thành cảm ơn gia đình, bạn bè nhiệt tình ủng hộ, giúp đỡ, động lu viên vật chất lẫn tinh thần thời gian học tập nghiên cứu an va Trong trình thực luận văn, cố gắng không n tránh khỏi thiếu sót Kính mong nhận cảm thơng tận tình bảo p ie gh tn to thầy cô bạn d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si vi DANH MỤC CÁC TỪ VIẾT TẮT Trí tuệ nhân tạo Clustering Phân cụm Computer Vision Nhìn máy ESP Email Service Provider HAM Thư điện tử không thứ rác ISP Internet Service Provider, nhà cung cấp dịch vụ Internet KNN K người láng giềng gần MI Mutual information, thơng tin tương hỗ NB Phương pháp Nạve Bayes Regression Hồi qui lu AI an n va gh tn to Máy tìm kiếm p ie Search Engine Server Máy chủ, phía máy chủ nl w Sequential Minimal Optimization Short Message Service an Thư rác u nf va Spam Email lu SMS d oa SMO Structured Query Language Stemming Gốc (của từ) SVM Support Vector Machine, máy vec tơ tựa TTNT Trí tuệ nhân tạo UBE Unsolicited Bulk Email, thư không lành mạnh UCE Unsolicited Commercial Email, thư không yêu cầu đến VC Kích thước Vapnik- Chervonenkis XML eXtensible Markup Language ll SQL oi m z at nh z m co l gm @ an Lu n va ac th si vii DANH MỤC HÌNH VẼ VÀ BẢNG BIỂU HÌNH Hình 1.1: Cấu trúc hệ thống học máy tiêu biểu cho trường hợp phân loại Hình 1.2 Mơ hình thuật tốn học có giám sát Hình 1.3 Ví dụ trang web lấy cắp địa thư người dùng 17 Hình 1.4 Một số website công ty gửi thư rác 18 Hình 1.5 Minh họa cách gửi thư rác qua máy chủ thư (open relay) 19 Hình 1.6 Số lượng thư rác từ tháng đến tháng năm 2014 21 Hình 1.7 Danh sách quốc gia phát tán thư rác quí 3/2014 lu Kaspersky Lab 23 an Ánh xạ liệu từ không gian gốc sang khơng gian đặc trưng cho phép va Hình 2.1 n phân chia liệu siêu phẳng 38 tn to Siêu phẳng với lề cực đại cho phép phân chia hình vng khỏi Hình 2.2 ie gh hình trịn khơng gian đặc trưng 38 Tiền xử lý liệu 42 p Hình 2.3 Huấn luyện liệu 46 Mơ hình phân loại thư rác thuật toán Bayse SVM 48 d oa Hình 3.1: nl w Hình 2.4 Tập File HAM 51 Hình 3.3 Tập File SPAM 51 Hình 3.4 Giao diện chương trình phân loại thư rác Bayes SVM 52 Hình 3.5 Giao diện xử lý liệu bước huấn luyện 53 Hình 3.6 Giao diện kết thử nghiệm 53 Hình 3.7 Độ xác phân loại NB SVM 54 ll u nf va an oi m z at nh z @ BẢNG lu Hình 3.2 l gm Bảng 1.1 Ví dụ nội dung bốn thư 24 Bảng 1.2 Biểu diễn vec tơ cho liệu bảng 1.1 24 m co Bảng 2.1: Bộ liệu huấn luyện cho toán phân loại “Chơi Tennis” 31 an Lu Bảng 3.1: Độ xác phân loại hai phương pháp phân loại khác 54 n va ac th si MỞ ĐẦU Ngày nay, Internet mở nhiều kênh liên lạc, nhiều dịch vụ cho người sử dụng, dịch vụ mà Internet mang lại dịch vụ thư điện tử (Email), phương tiện giao tiếp đơn giản, tiện lợi hiệu cộng đồng người sử dụng dịch vụ Chính lợi ích thư mang lại nên số lượng thư trao đổi Internet ngày tăng, số không nhỏ thư rác (Spam) Trong năm gần đây, spam hay thư không mong muốn trở thành lu vấn nạn đe dọa khả giao tiếp người kênh liên lạc này, an va thách thức lớn mà khách hàng nhà cung cấp dịch vụ phải n đối phó Spam trở thành hình thức quảng cáo chuyên nghiệp, phát tán virus, gh tn to ăn cắp thông tin với nhiều thủ đoạn mánh khóe tinh vi Người dùng ie phải nhiều thời gian để xóa thư “khơng mời mà đến”, vơ ý cịn p bị nhiễm virus nặng nề thông tin thẻ tín dụng, tài khoản oa nl w ngân hàng qua thư dạng phishing Theo báo cáo tình hình thư rác Kaspersky Lab vừa cơng bố, tỷ lệ thư rác d an lu lưu lượng truy cập thư quý 3/2014 tăng 1,7 % so với quý trước, đạt trung va bình 66,9% Ba nguồn phát tán thư rác hàng đầu gồm có Mỹ (14%) Nga (6,1%) ll u nf và Việt Nam đứng vị trí thứ với 6% oi m Để ngăn chặn spam, nhiều tổ chức, cá nhân nghiên cứu phát triển z at nh kỹ thuật phân loại thư thành nhóm; từ xác định, nhận biết thư rác thư có giá trị Tuy nhiên, người tạo nên thư rác ln tìm cách vượt z qua phân loại phát tán chúng Vì vậy, cần có hệ thống phân loại @ gm đâu spam mail đâu mail tốt Xuất phát từ thực trạng đó, chọn hướng l nghiên cứu “Phân loại thư rác phương pháp học máy” với mục đích tìm an Lu ngăn chặn thư spam hiệu m co hiểu, thử nghiệm số phương pháp tiếp cận cho tốn phân loại thư, từ Nội dung luận văn trình bày theo chương Tổ chức cấu trúc sau: n va ac th si Chương Tổng quan học máy thư rác: Chương giới thiệu tổng quát học máy thư rác bao gồm khái niệm, ứng dụng phần trình bày chi tiết học máy có giám sát, kỹ thuật học máy có giám sát dùng cho phân loại Naïve Bayes, SVM, định,… Chương giới thiệu khái quát thư rác, đặc trưng thư rác biểu diễn thư rác dựa học máy có giám sát; Chương Phân loại thư rác số thuật tốn có giám sát: Nội dung chương sâu nghiên cứu hai thuật toán học máy có giám sát Nạve Bayes phương pháp SVM (Support lu Vector Machine) an va Chương Cài đặt, thử nghiệm đánh giá thuật toán: Phần đầu n chương giới thiệu toán phân loại thư rác, liệu thử nghiệm cài to gh tn đặt chi tiết hai thuật toán đề cập chương Phần cuối chương trình bày kết thu đưa đánh giá hai thuật toán ie p sử dụng toán lọc thư rác nl w Cuối luận văn phần kết luận danh sách tài liệu tham khảo Phần d oa thực nghiệm phân loại thư rác trình bày thêm phần phụ lục luận văn ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si 45 Các xác suất P(X,Y), P(X) P(Y) tính tần suất xuất kiện tương ứng liệu huấn luyện Sau tính MI cho tất đặc trưng k-gram, n đặc trưng có MI cao lựa chọn Sau ta chọn khoảng 10000 đặc trưng có thơng số MI cao Đánh trọng số cho văn : Từ đặc trưng lựa chọn bước trước, ta thực đánh trọng số cho văn hầu hết thuật toán phân loại yêu cầu đầu vào vec tơ (được biểu diễn dạng túi từ) Các thư rác biểu diễn theo phép đo TF-IDF kết hợp giưa tần suất tài liệu tần suất tài liệu ngược lu Kết cuối khâu tiền xử lý vec tơ biểu diễn cho thư điện tử an va đầu vào tương ứng Đây đầu vào cho khâu kế tiếp, khâu huấn luyện liệu n đầu vào cho phần dự đoán phân loại thư rác tn to Ngoài cách tiếp cận này, cịn có số phương pháp tiếp cận khác gh p ie đại dựa vào từ điển Wordnet WordNet từ điển đồng nghĩa tiếng Anh, phát triển đạo George A Miller Ở danh từ, động nl w từ , tính từ trạng từ nhóm vào tập từ đồng nghĩa dựa kinh d oa nghiệm Mỗi tập khái niệm riêng biệt Các tập liên kết với an lu nghĩa quan niệm ngữ nghĩa mối quan hệ từ vựng Chúng ta sử va dụng từ điển WordNet cho bước tiền xử lý liệu cung cấp giá trị đầu ll u nf vào cho tốn mining Đó tập nghĩa thay tập thuật z at nh 2.3.2.2 Huấn luyện liệu oi m ngữ Đây hướng phát triển đồ án Bước huấn luyện liệu cài đặt thuật tốn: Nạve Bayes Support z Vector Machine Đầu vào bước túi từ đưa từ bước tiền xử lí @ gm Kết bước đưa mơ hình học máy phù hợp với tập liệu đầu vào m co l Từ mơ hình ta dự đoán việc phân loại văn đầu vào khác Đây bước nghiên cứu đồ án Việc cài đặt thuật toán mang tính hưởng tới mức độ hiệu an Lu cốt lõi hệ thống Có thể coi bước phần nhân hệ thống, ảnh n va ac th si 46 Hình 2.4 Huấn luyện liệu Hai phương pháp phân loại thử nghiệm bao gồm hai phiên phân loại Bayes đơn giản – phiên sử dụng mơ hình đa thức (Bayes đa thức) – SVM Đối với SVM, hàm nhân lựa chọn hàm RBF dựa hai yếu tố Thứ nhất, hàm nhân RBF hàm không tuyến tính đưa mẫu liệu khơng gian lu an có chiều lớn hơn, khơng giống hàm nhân tuyến tính, xử lý n va trường hợp nhãn thuộc tính lớp khơng tuyến tính Hơn nữa, hàm tn to nhân tuyến tính trường hợp đặc biệt RBF Thêm nữa, với số tham số gh định, hàm nhân sigma trường hợp hàm nhân RBF Thứ hai, hàm p ie nhân RBF có độ phức tạp tính tốn thấp Một điểm quan trọng ≤ Kij ≤ 1, w ngược lại so với hàm nhân đa thức có giá trị từ vô đến oa nl Trong số trường hợp đặc biệt, ví dụ số lượng đặc trưng d lớn (khoảng 30000 đặc trưng), hay mức độ chênh lệch số lượng đặc lu va an trưng số lượng văn mẫu qúa lớn (như có 200 đặc trưng mà có u nf tới 30000 văn hay ngược lại), phiên hàm nhân tuyến tính nên ll sử dụng Bởi trường hợp đặc biêt vậy, hàm tuyến tính đạt tốc độ m oi chạy cao đạt độ xác cao z at nh 2.4 Kết luận chương z Chương giới thiệu cụ thể hai thuật toán (i) thuâ ̣t toán Nạve @ l dụng vào tốn phân loại thư rác gm Bayes; (ii) thuâ ̣t toán SVM lựa chọn mơ hình phân loại thư rác để ứng m co Nội dung chương sở lí thuyết để áp dụng thực tế Trong chương an Lu luận văn tập trung nghiên cứu phần đưa yêu cầu toán xây dựng, cài đặt chương trình thử nghiệm để đánh giá thuật toán nêu n va ac th si 47 CHƯƠNG CÀI ĐẶT THỬ NGHỆM VIỆC PHÂN LOẠI THƯ RÁC 3.1 Bài toán phân loại thư rác Bài toán phân loa ̣i thư rác thực chấ t bài toán phân loa ̣i các thư nhâ ̣n thành hai nhóm chính là nhóm thư rác và nhóm thư bình thường Việc phân loại tiến hành sau Trước tiên, nội dung thư biểu diễn dạng đặc trưng hay thuộc tính, đặc trưng thường từ cụm từ xuất thư Tiếp theo, giai đoạn huấn luyện, tập thư lu gán nhãn {rác, bình thường} - gọi liệu huấn luyện hay liệu mẫu - sử an dụng để huấn luyện phân loại Sau huấn luyện xong, phân loại va sử dụng để xác định thư (thư chưa biết nhãn) thuộc vào loại hai loại n tn to nói Trong giai đoạn huấn luyện phân loại, thuật toán phân loại làm Ta xét bài toán phân loa ̣i thư rác da ̣ng bài toán phân loa ̣i văn bản hai p ie gh việc với nội dung thư biểu diễn dạng đặc trưng w lớp, đó: tâ ̣p liệu mẫu ban đầu là các thư rác và các thư bình thường (non- oa nl spam emails), các văn bản cần phân lớp các thư đươ ̣c gửi đế n máy khách Kết d quả đầ u của quá trình phân loa ̣i này là hai lớp văn bản: Spam (thư rác) và ham va an lu (thư bình thường) ll u nf Ta phát biểu lại tốn sau : oi m Mơ tả tốn: Xác định (phân loại) thư điện tử thư rác z at nh Đầu vào: Biểu diễn nội dung thư (dưới dạng vec tơ) Đầu ra: Thư rác (“spam email”) thư bình thường (“ham email”) z trợ SVM l gm @ Phương pháp học máy: Phân loại Naïve Bayes máy học vec tơ hỗ m co Tập liệu: Nội dung thư nhãn lớp (“spam” “ham”) hình sau: an Lu Mơ hình phân loại thư rác thuật tốn Bayes SVM có thể mơ tả n va ac th si 48 ĐẦU VÀO Tập huấn luyện M dule huấn luyện thu t toán Bayes M dule huấn luyện thu t toán SVM (tập thư HAM, tập thư SPAM) Bộ huấn luyện Bayes T p thư TEST HAM, TEST SPAM Bộ huấn luyện SVM lu an n va to p ie gh tn ĐẦU RA Thư SPAM Thư HAM d oa nl w an lu u nf va Hình 3.1: Mơ hình phân loại thư rác thuật toán Bayse SVM ll Các thuật toán áp du ̣ng để phân loa ̣i văn bản có thể áp du ̣ng để phân loa ̣i m oi thư rác Nói chung xây dựng mô hiǹ h phân loại thư rác là mơ ̣t viê ̣c khó khăn và z at nh phức tạp Hiê ̣n nay, cũng đã có khá nhiề u thuâ ̣t toán đươ ̣c áp du ̣ng và cho hiê ̣u quả cao Tuy nhiên luận văn mình, tơi lựa chọn mơ hình xác x́ t Nạve Bayes z mơ hình SVM để làm sở phân loại thư rác luâ ̣n văn gm @ BAYES : Thuật toán sử dụng đầu vào trực tiếp file thư thư mục m co l Erron để huấn luyện đánh giá đưa tập huấn luyện SVM : Thuật toán sử dụng đầu vào file thư thư mục Erron an Lu quy định theo luật riêng tổ hợp thành file liệu đầu vào theo n va quy tắc sau : ac th si 49 Giả sử mail liệu SPAM đầu vào Giả sử mail liệu HAM đầu vào lu an n va p ie gh tn to nl w d oa Dữ liệu có 10 emails Tiếp theo tiền xử lý để liệu có định dạng mà an lu LibSVM hiểu được, từ để huấn luyện mơ hình u nf va Liên quan đến HAM, người ta thấy thông báo SPAM gọi HAM Theo định nghĩa thông thường, HAM thư điện tử cần thiết, không bị coi ll oi m thứ rác z at nh Để định dạng liệu, cần biết libSVM học Trong máy học thường gọi “Bộ đặc tính” Trong trường hợp phân lớp tài liệu (phát z spam email) xem từ đặc tính Chắc chắn từ “Viagra” có @ gm hầu hết email spam, khơng tìm thấy email thường, nên thuật toán m co l học từ đặc điểm để phân tích email có phải spam khơng Mỗi đặc tính (từ vựng) mà SVM học phải có giá trị Trong trường hợp an Lu phân lớp nhị phân Nếu từ vựng có email true (1) khơng n va có false (0) ac th si 50 Để đại diện cho email, tạo vectơ giá trị true/false cho từ (lấy 10 email) Đầu tiên, chúng tơi lấy tồn từ Bước đơn giản hoá liệu đánh số cho từ, thay phải ghi Để làm điều chúng tơi đánh số ngun theo thứ tự từ Để huấn luyện, cần cho thuật tốn biết lớp email Trong trường hợp có lớp SPAM NOTSPAM Vì thuật tốn chấp nhận từ nên chúng tơi sửa “Not Spam” thành “NSpam” Cuối thay dấu bằng dấu hai chấm Và để tạo toàn tập huấn luyện định dạng, cho email dòng file input lu an Tập hợp vào file mà dòng email, ta có file Model n va huấn luyện liệu đầu vào thuật toán SVM sử dụng libSVM chuẩn tn to Những ưu điểm hai thuật toán phân loa ̣i đươ ̣c trình bày chi tiế t ie gh chương p 3.2 Cài đặt thử nghiệm kết oa nl w 3.2.1 Bộ liệu thử nghiệm Toàn liệu dùng để huấn luyện kiểm thử chương trình lấy từ d an lu tập liệu enron mail datase, địa https://www.cs.cmu.edu/~./enron/ Đây va liệu chuẩn đầy đủ dùng phổ biến nghiên cứu văn ll u nf nói chung phân loại văn nói riêng, tập liệu bao gồm nhiều z at nh cho chương trình oi m thư mục, thư mục file mail lưu trữ dạng text để làm đầu vào Bộ liệu Erron dùng để huấn luyện chia thành HAM SPAM z m co l gm @ HAM: gồm 800 file thư chuẩn thư SPAM an Lu n va ac th si 51 lu an n va tn to SPAM thư gồm 1496 file thư SPAM p ie gh Hình 3.2 Tập File HAM d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu Hình 3.3 Tập File SPAM n va ac th si 52 Trong chương trình lấy tổng 200 thư HAM SPAM làm tập liệu để kiểm tra (tập Test) (Test_HAM = 100 file, Test_SPAM=100 file) 3.2.2 Môi trường cài đặt Cả hai thuật toán Bayes SVM cài đặt môi trường Java, cụ thể :  Môi trường cài đặt : Java JDK  Công cụ sử dụng : IDE Netbean 8.0.2  Giao diện phát triển : Java Swing Thư viện sử dụng : sử dụng thư viện chuẩn từ Java2s lu an activation.jar : va n apache-mime4j-0.3.jar to gh tn mail.jar p ie libsvm.jar w 3.2.3 Giao diện chương trình thử nghiệm oa nl Chương trình giao diện demo cho thuật tốn Nạve Bayes SVM ứng dụng d phân loại thư rác với liệu thử nghiệm Enron xây dựng sau: ll u nf va an lu oi m z at nh z m co l gm @ an Lu Hình 3.4 Giao diện chương trình phân loại thư rác Bayes SVM n va ac th si 53 Để chạy chương tình demo trên, thực bước :  Bước : Chọn phương pháp phân loại Bayes SVM  Bước : Chọn tập huấn luyện HAM SPAM đầu vào  Bước : Kích nút Huấn luyện để máy học xuất hình lu an n va p ie gh tn to w Hình 3.5 Giao diện xử lý liệu bước huấn luyện oa nl  Bước : Chọn thư mục lọc để phân loại thư rác thư bình thường d  Bước : Kích nút Bắt đầu để kiểm tra độ xác việc học đối lu an với liệu thử nghiệm (xem độ xác phần trăm) ll u nf va hình oi m z at nh z m co l gm @ an Lu Hình 3.6 Giao diện kết thử nghiệm n va ac th si 54 3.2.4 Kết thử nghiệm Như đề cập chương 2, luận văn tập trung vào cài đặt thử nghiệm hai phương pháp phân loại gồm phân loại Naïve Bayes đơn giản phương pháp Support Vector Machine (SVM) Để thử nghiệm phương pháp này, luận văn xây dựng chương trình phân loại email thuật tốn Nạve Bayes ngơn ngữ Java Đối với SVM sử dụng thư viện LibSVM trình bày phần 3.2.1 Hiệu lọc thư đánh giá theo nhiều tiêu chí độ nhậy (recall), độ xác (precision), độ xác phân loại chung tức phần trăm thư phân loại không phụ thuộc vào thư rác hay thư bình thường Trong luận lu văn, chủ yếu tập trung đánh giá hiệu lọc thư qua tiêu chí độ xác (precision) định nghĩa sau: an số thư rác phát xác Tổng số thư phân loại thư rác n va độ xác = to gh tn Tiêu chí thứ ba độ xác phân loại chung tức phần trăm thư p ie phân loại không phụ thuộc vào thư rác hay thư bình thường Trong luận văn, chủ yếu tập trung đánh giá hiệu lọc thư qua tiêu chí độ xác oa nl w Kết thử nghiệm hai phương pháp Naïve Bayes SVM với tập liệu mẫu thể Bảng 3.1 chi tiết Hình 3.7 d Bảng 3.1: Độ xác phân loại hai phương pháp phân loại khác HAM (100 thư) SVM 94 % 98 % 93 % 99 % oi m SPAM (100 thư) NB ll u nf va an lu Tập liệu z at nh z 99% 98% 97% 96% 95% 94% 93% 92% 91% 90% @ gm Bayes SVM an Lu SPAM m co l HAM n va Hình 3.7 Độ xác phân loại NB SVM ac th si 55 3.3 Đánh giá thử nghiệm Theo kết thực nghiệm cho thấy phương pháp Naïve Bayes cho kết so với phương pháp SVM Tuy nhiên, phương pháp Bayes có ưu rõ rệt tốc độ phân loại có độ phức tạp tính tốn thấp SVM địi hỏi khối lượng thời gian tính tốn lớn nhiều Trong thử nghiệm, tổng thời gian huấn luyện phân loại SVM lớn Bayes đơn giản từ 10 tới 50 lần Chúng ta thấy từ thuật toán phân lớp hai lớp SVM đến thuật toán phân lớp đa lớp có đặc điểm chung yêu cầu văn nói chung thư điện tử nói riêng phải biểu diễn dạng vector đặc trưng, nhiên lu thuật toán khác phải sử dụng uớc lượng tham số ngưỡng tối ưu an va thuật tốn SVM tự tìm tham số tối ưu Trong phương pháp n SVM phương pháp sử dụng khơng gian vector đặc trưng lớn (hơn 10.000 gh tn to chiều) phương pháp khác có số chiều bé nhiều (như Naïve Bayes 2000, k-Nearest Neighbors 2415…) p ie Trong cơng trình cơng bố năm 1999, Joachims [13] so sánh SVM với nl w Naïve Bayesian, k-Nearest Neighbour, Rocchio, C4.5 đến năm 2003, d oa Joachims chứng minh SVM làm việc tốt với đặc tính an lu đề cập trước văn Các kết cho thấy SVM đưa độ u nf va xác phân lớp tốt so sánh với phương pháp khác Kiritchenko Matwin [10] nghiên cứu so sánh phương pháp SVM ll oi m với kỹ thuật Nạve Bayesian, sau chứng minh SVM phương z at nh pháp tốt cho phân lớp thư điện tử phân lớp văn Những phân tích tác giả cho thấy SVM có nhiều điểm phù z hợp cho việc ứng dụng phân lớp thư điện tử Và thực tế, thí nghiệm phân @ gm lớp thư rác tiếng Anh SVM đạt độ xác phân lớp cao tỏ xuất m co l sắc so với phương pháp phân lớp khác Đó lý SVM lựa chọn hàng đầu cho toán phân loại thư rác an Lu n va ac th si 56 3.4 Kết luận chương Trong chương trình bày thử nghiệm sử dụng hai thuật tốn Nạve Bayes SVM phân loại thư rác Đã nêu yêu cầu toán liệu đầu vào, kết hệ thống Một số trang hình minh họa trình thực nghiệm luận văn Đồng thời đánh giá kết thực nghiệm so sánh hai thuật tốn nói lu an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si 57 KẾT LUẬN Các kết đạt Luận văn đề cập nhu cầu lọc thư rác công cu ̣ học máy, dùng để huấn luyện hệ thống biết thư rác, nhận dạng thư rác, ngăn chặn thư rác Chặn thư rác làm tăng hiệu khai thác hệ thống, đặc biệt hệ thống thư điện tử Luận văn trình bày hai lớp thuâ ̣t toán quan trọng bài toán học máy Đó (i) thuâ ̣t toán mạng Bayes đơn giản; (ii) thuâ ̣t toán máy vec tơ tựa SVM Các thuâ ̣t toán sử du ̣ng để lọc thư rác hệ thống thư điện tử cụ thể lu Chương cuối luận văn trình bày kết thực nghiệm, cho phép lọc an thư rác, tập liệu mẫu va n Hướng phát triển luận văn to gh tn Tuy nhiên, hạn chế mặt thời gian kiến thức nên luận văn chưa ie sâu vào nghiên cứu toán lọc thư rác tiếng Việt Trong tương lai, luận văn có p thể nghiên cứu hướng sau: oa nl w Khi áp du ̣ng những thuật toán phân loại khó khăn gặp phải là xây dựng d đươ ̣c tâ ̣p hơ ̣p từ vựng và các mẫu huấ n luyê ̣n đủ lớn Vấ n đề này liên quan tới viê ̣c an lu phân tách mô ̣t câu thành các từ cụm từ mô ̣t cách chiń h xác Luận văn có thể va tiếp tu ̣c phát triể n theo hướng nghiên cứu mở rô ̣ng ứng du ̣ng các bô ̣ từ điể n ll u nf sẵn có và xây dựng các mẫu huấ n luyê ̣n tiêu chuẩ n thư tiếng Việt bao gồm có z at nh nâng cao đô ̣ chiń h xác oi m dấu khơng có dấu cũng điề u chỉnh các tham số của giải thuâ ̣t phân loa ̣i để z m co l gm @ an Lu n va ac th si 58 DANH MỤC TÀI LIỆU THAM KHẢO TIẾNG VIỆT [1] Đinh Thị Phương Thu, Hoàng Vĩnh Sơn, Huỳnh Quyết Thắng, Phương án xây dựng tập mẫu cho toán phân lớp văn tiếng Việt, nguyên lý, giải thuật, thử nghiệm đánh giá kết quả, Tạp chí Khoa học cơng nghệ, 2005 [2] Nguyễn Linh Giang, Nguyễn Mạnh Hiển (2005), “Phân loại văn tiếng Việt sử dụng support vector machines”, Chuyên san nghiên cứu tạp chí Bưu lu Viễn thơng, số 15 an [3] Nguyễn Thanh Hùng (2006), “Hướng tiếp cận việc tách từ để va n phân loại văn tiếng Việt sử dụng thuật di truyền thống kê Internet”, [4] Trần Ngân Bình, Võ Huỳnh Trâm, “Trí tuệ nhân tạo”, Đại học Cần thơ p ie gh tn to Chuyên san nghiên cứu tạp chí Bưu viễn thơng, số 16 w Phiên trực tuyến: http://voer.edu.vn/c764b3239 oa nl TIẾNG ANH d [5] C BURGES (1998), “A tutorial on Support Vector Machines for pattern lu an recognition”, Proceedings of Int Conference on Data Mining and Knowledge u nf va Discovery, Vol 2, No 2, (pp 121-167) ll [6] C Cortes and V Vapnik Support-Vector Networks, “Machine oi m Learning”, 20, 1995 z at nh [7] M F Caropreso, S Matwin, and F Sebastiani “A learner-independent evaluation of the usefulness of statistical phrases for automated text categorization” z Practice, pages 78-102 2001 l gm @ In A G Chin, editor, Text Databases and Document Management: Theory and m co [8] Androutsopoulos, G Palioras, V Karkaletsis, G Sakkis, C an Lu Spyropoulos, P Stamatopoulos (2000), Learning to filter spam e-mail: a comparison of a Naiăve Bayesian and memory-based approach”, in: Proc 4th n va ac th si 59 European Conference on Principles and Practice of Knowledge Discovery in Databases (PKDD), (pp 1–13) [9] J Platt Sequential minimal optimization: “A fast algorithm for training support vector machines” Technical Report 98-14, Microsoft Research, Redmond, Washington, April 1998 [10] Kriritchenko, Matwin (2001),“Email classification with co-training” Proceeding CASCON '01 Proceedings of the 2001 conference of the Centre for Advanced Studies on Collaborative research [11] M.F Porter, 1980, “An algorithm for suffix stripping”, Program, 14(3) lu an pp 130−137 va [12] R Bekkerman, R El-Yaniv, N Tishby, and Y Winter Distributional n tn to word clusters vs words for text categorization Journal of Machine Learning [13] T Joachims (1999), “Transductive Inference for Text Classification p ie gh Research, 3:1183-1208, 2003 nl w using Support Vector Machines”, International Conference on Machine Learning http://www.24h.com.vn/cong-nghe-thong-tin/viet-nam-phat-tan-thu- an lu [14] d oa (ICML), 1999 rac-dung-thu-3-the-gioi-c55a675442.html u nf va [15] http://mic.gov.vn/gioithieuSPDV (bộ thông tin truyền thông) ll m [16]http://securelist.com/analysis/quarterly-spam-reports/67851/spam-and- oi z at nh phishing-in-the-q3-of-2014 z m co l gm @ an Lu n va ac th si