Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 48 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
48
Dung lượng
1,22 MB
Nội dung
NGUYỄN VĂN SANG BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC VINH NGUYỄN VĂN SANG NGHIÊN CỨU THUẬT TOÁN NAIVE BAYES CHO BỘ LỌC THƯ RÁC NGHIÊN CỨU THUẬT TOÁN NAIVE BAYES CHO BỘ LỌC THƯ RÁC LUẬN VĂN THẠC SỸ CƠNG NGHỆ THƠNG TIN KHĨA 23 NGHỆ AN, 3/2017 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC VINH NGUYỄN VĂN SANG NGHIÊN CỨU THUẬT TOÁN NAIVE BAYES CHO BỘ LỌC THƯ RÁC Chuyên ngành: CÔNG NGHỆ THÔNG TIN Mã số: 60480201 LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN Người hướng dẫn: TS TRẦN XUÂN SANG NGHỆ AN, 2017 LỜI CAM ĐOAN Tôi xin cam đoan luận văn thạc sỹ Công nghệ thông tin “NGHIÊN CỨU THUẬT TOÁN NAIVE BAYES CHO BỘ LỌC THƯ RÁC” cơng trình học tập, nghiên cứu khoa học riêng thân tơi Những số liệu trình bày luận văn trung thực, có nguồn gốc rõ ràng, trích dẫn có tính kế thừa, phát triển từ cơng trình nghiên cứu khoa học cơng bố website Các phương pháp nêu luận văn trích từ sở lý luận trình học tập nghiên cứu Tác giả Nguyễn Văn Sang LỜI CẢM ƠN Lời đầu tiên, xin gửi lời cảm ơn sâu sắc đến Thầy hướng dẫn Tiến sĩ Trần Xuân Sang tận tình hướng dẫn giúp đỡ suốt thời gian thực luận văn Tơi bày tỏ lịng biết ơn đến q Thầy, Cơ Trường Đại Học Vinh tận tình giảng dạy truyền đạt kiến thức kinh nghiệm q báu cho lớp Cao học Cơng nghệ thơng tin – Khoá 23 suốt thời gian học tập Chân thành cảm ơn anh, chị, em đồng nghiệp Trường Cao đẳng nghề số - Bộ quốc phòng tạo điều kiện thuận lợi, truyền đạt kinh nghiệm kiến thức giúp thực đề tài Cảm ơn bạn lớp học Cao học Cơng nghệ thơng tin – Khố 23 đồn kết, gắn bó, học tập trao đổi kiến thức, động viên hỗ trợ trình học tập thực luận văn Tác giả Nguyễn Văn Sang MỤC LỤC Trang LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC DANH MỤC CÁC TỪ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ MỞ ĐẦU 10 CHƯƠNG TỔNG QUAN VỀ PHÂN LOẠI THƯ RÁC 12 1.1 Đặt vấn đề 12 1.2 Bài toán phân loại thư rác 12 1.3 Tổng quan vấn đề nghiên cứu 13 1.4 Mục tiêu luận văn 20 CHƯƠNG PHÂN LỚP NAIVE BAYES 21 2.1 Định nghĩa 21 2.2 Các mơ hình xác xuất Naive Bayes 22 2.3 Ước lượng tham số 23 2.4 Xây dựng classifier từ mơ hình xác xuất 24 2.5 Thuật toán phân loại văn Naive Bayes 25 CHƯƠNG THIẾT KẾ BỘ LỌC THƯ RÁC 26 3.1 Đặt vấn đề 27 3.2 Bài toán phân loại thư rác 30 3.3 Tiền xử lý thư điện tử 31 3.4 Dùng luật Bayes tính xác xuất 31 3.5 Huấn luyện cho lọc Bayes 33 3.6 Bộ lọc thư rác 35 CHƯƠNG THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ BỘ LỌC THƯ RÁC 40 4.1 Dữ liệu thử nghiệm 40 4.2 Thử nghiệm với thư Tiếng Việt 40 4.3 Một số nhận xét đề xuất 44 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 45 PHỤ LỤC 47 TÀI LIỆU THAM KHẢO 48 DANH MỤC CÁC TỪ VIẾT TẮT STT TỪ VIẾT TẮT VIẾT ĐẦY ĐỦ SVM Support Vector Machine KNN K–Nearest Neighbor NLP Natural Language Processing DNS Domain Name System XML eXtensible Markup Language IP Internet Protocol HTML HyperText Markup Language MTA Microsoft Technology Associate DANH MỤC CÁC BẢNG Trang Bảng 3.1 Phân tích từ đơn 38 Bảng 4.1 Bộ liệu thử nghiệm 40 Bảng 4.2 Kết phân loại thư tiếng việt 43 Bảng 4.3 Kết phân loại thư rác 43 DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Trang Hình 1.1 Khung ID người gửi thi hành MTA 16 Hình 3.1 Lưu lượng spam theo báo cáo tháng 12-2010 30 Hình 3.2 Giao diện Bộ lọc thư rác 35 Hình 3.3 Mơ hình tổng qt lọc thư rác tiếng việt 36 Hình 3.4 Quy trình tách học từ 38 Hình 4.1 Dữ liệu huấn luyện thư rác 41 Hình 4.2 Kiểm tra thư rác thứ 41 Hình 4.3 Kiểm tra thư rác thứ 42 Hình 4.4 Kiểm tra thư rác thứ 42 10 MỞ ĐẦU Sự cần thiết vấn đề nghiên cứu Hiện nay, thư điện tử (Email) trở thành phương tiện giao tiếp thông tin thiếu cho tất người, email gần thay hoàn tồn cách thức trao đổi thơng tin truyền thống thư viết tay trước đây, email không đơn trao đổi dạng văn mà gửi nhận dạng thơng tin khác như: âm thanh, hình ảnh, video clip, … Thời gian gửi email nhanh vài giây đến phút người dùng trao đổi email lúc nơi Có lẽ tiện ích tuyệt vời email mà nhiều người sử dụng email gặp rắc rối thư rác (spam email) mang lại nay; loại thư khơng mong đợi lại thường xuyên xuất hộp thư, ngồi việc gây cảm giác khó chịu cho người sử dụng đơi cịn bị rị rỉ thơng tin cá nhân gây ảnh hưởng nghiêm trọng đến vật chất tin thần cho người dùng email Những rắc rối spam mail mang lại khơng ít, nhiên lợi email khơng thể phủ nhận được, phải trao đổi thông tin với hàng ngày cho nhiều mục đích khác nhau, giải pháp tốt cho vấn đề gì? Trong luận văn này, tơi tìm hiểu tổng quan phương pháp lọc thư rác thông dụng nay, nghiên cứu áp dụng giải thuật NAIVE BAYES để xây dựng lọc thư rác Đối tượng phạm vi nghiên cứu 2.1 Đối tượng nghiên cứu (a) Nghiên cứu lý thuyết 34 (max 01 (min 99 (float (/ (min (/ b nbad) ) ( + ( (/ g ngood) ) (min / b nbad ) ) ) ) ) ) ) ) ) Trong đó: - Ngood ứng với số thư thư rác - Nbad ứng với số thư thư rác Công thức diễn tả theo biểu thức ngôn ngữ Arc Mỗi biểu thức cặp dấu ngoặc đơn Trong ngoặc danh sách với biểu thức đứng vị trí theo sau tham số Thực biểu thức từ trái qua phải Ví dụ: (0.5 phân vào lớp thư spam, xác suất spam