Ứng dụng mạng neural trong phân loại thư rác

79 14 0
Ứng dụng mạng neural trong phân loại thư rác

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG NGUYỄN THỊ THANH HOA ỨNG DỤNG MẠNG NEURAL TRONG PHÂN LOẠI THƢ RÁC LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ LỜI CAM ĐOAN Tôi cam đoan cơng trình nghiên cứu riêng Các số liệu, kết nêu luận văn trung thực chưa công bố cơng trình khác Tác giả luận văn Nguyễn Thị Thanh Hoa i Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ LỜI CẢM ƠN Lời em xin gửi lời cảm ơn chân thành đến Các quý thầy cô giáo, Trường Đại học Cơng nghệ thơng tin Truyền thơng tận tình giảng dạy, truyền đạt kiến thức, kinh nghiệm quý báu suốt thời gian em theo học trường Đặc biệt, em xin chân thành cảm ơn thầy giáo TS Phạm Thanh Giang nhiệt tình tâm huyết việc định hướng giúp đỡ em hoàn thành luận văn Em xin bày tỏ tình cảm với gia đình, đồng nghiệp, bạn bè tạo điều kiện để cá nhân em dành thời gian cho khóa học Xin chân thành cảm ơn người bạn lớp cao học CK12B, năm qua ln ln động viên, khích lệ hỗ trợ em trình học tập Trong trình thực Luận văn cố gắng hết mình, song chắn luận văn em cịn nhiều thiếu sót Em mong nhận bảo vào đóng góp tận tình thầy để luận văn em hoản thiện Thái Nguyên, Ngày 15 tháng năm 2015 Tác Giả Nguyễn Thị Thanh Hoa ii Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC BẢNG iv DANH MỤC CÁC HÌNH v LỜI MỞ ĐẦU CHƢƠNG 1: TỔNG QUAN VỀ MẠNG NƠRON NHÂN TẠO 1.1 Khái niệm mạng nơron 1.1.1 Giới thiệu 1.1.1.1 So sánh mạng nơron với máy tính truyền thống 1.1.1.2 Nơron sinh học 1.1.1.3 Chức năng, tổ chức hoạt động não người 1.1.1.4 Nơron 1.1.2 Mạng Nơron nhân tạo 10 1.1.2.1 Nơron nhân tạo 11 1.1.2.2 Mạng nơron nhân tạo 15 1.2 Đặc trƣng mạng nơron 17 1.2.1 Tính phi tuyến 17 1.2.2 Tính chất tương ứng đầu vào, đầu 17 1.2.3 Tính chất thích nghi 17 1.2.4 Tính chất đưa lời giải có chứng 18 iii Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 1.2.5 Tính chất chấp nhận sai sót 18 1.2.6 Khả cài đặt VLSI (Very-Large-Scale-Intergrated) 18 1.2.7 Tính chất đồng dạng phân tích thiết kế 19 1.3 Phân loại mạng nơron nhân tạo 19 1.3.1 Phân loại theo kiểu liên kết nơron 19 1.3.2 Một số loại mạng nơron điển hình 20 1.3.2.1 Mạng dẫn tiến (feedforward) 20 1.3.2.2 Mạng quy hồi (recurrent network) 23 1.4 Xây dựng mạng nơron 24 1.5 Huấn luyện mạng nơron 25 1.5.1 Phương pháp học 25 1.5.1.1 Học có giám sát 26 1.5.1.2 Học không giám sát 26 1.5.1.3 Học tăng cường 27 1.5.2 Thuật toán học 27 1.6 Thu thập liệu cho mạng nơron 28 1.7 Biểu diễn tri thức cho mạng nơron 30 1.8 Ứng dụng mạng nơron 33 Kết luận chƣơng 1: 34 CHƢƠNG 2: BÀI TOÁN PHÂN LOẠI THƢ RÁC 35 2.1 Giới thiệu thƣ rác 35 2.1.1 Khái niệm thư rác 35 2.1.2 Các đặc điểm thư rác 35 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 2.1.3 Phân loại thư rác 37 2.1.4 Ảnh hưởng thư rác 38 2.2 Các phƣơng pháp phân loại thƣ rác 40 2.2.1 Phương pháp phân loại theo từ khóa 40 2.2.2 Phương pháp phân loại Bayesian 41 2.2.3 Phương pháp phân loại SpamAssassin 46 2.2.4 Phương pháp phân loại dùng danh sách trắng/đen 47 2.2.5 Phương pháp phân loại dựa vào vị trí lọc 48 2.2.6 Phương pháp phân loại dựa xác nhận danh tính người gửi…50 2.2.7 Phương pháp phân loại thư rác dựa Mạng xã hội 53 Kết luận chƣơng 2: 55 CHƢƠNG 3: ỨNG DỤNG MẠNG NEURAL NGĂN CHẶN SPAM MAIL 3.1 Xây dựng kiến trúc hệ thống 56 3.1.1 Phần mềm lọc thư rác POPFile 56 3.1.3 Cơ sở liệu POPFile 57 3.2 Mơ hình phân loại thƣ rác qua Popfile 61 3.2.1 Cấu hình kết nối hệ thống mail qua Popfile 61 3.2.2 Cấu hình Outlook kết nối với Popfile 62 3.3 Huấn luyện cho Popfile 68 3.4 Kết Đánh giá 68 KẾT LUẬN 70 TÀI LIỆU THAM KHẢO 72 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ DANH MỤC CÁC BẢNG Bảng 1.1 Một số hàm kích hoạt mạng nơron 14 Bảng 3.1 Kết lọc Email POPFile sau trainning với 20 Email 66 Bảng 3.2 Kết lọc Email POPFile sau trainning với 40 Email 66 Bảng 3.3 Kết lọc Email POPFile sau trainning với 80 Email 66 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ BẢNG DANH MỤC CÁC HÌNH S TT T TÊN HÌNH RANG Hình 1.1 Mạng nơron sinh học Hình 1.2 Sơ đồ nơron sinh học Hình 1.3 Mơ hình nơron nhân tạo 10 Hình 1.4 Sự tƣơng đƣơng nơron sinh học nơron nhân tạo [10] Hình 1.5 Mơ hình phi tuyến thứ hai mạng nơron Hình 1.6 Sơ đồ đơn giản mạng nơron nhân tạo [4] 11 13 15 Hình 1.7 Mạng truyền thẳng 19 Hình 1.8 Mạng quy hồi 19 Hình 1.9 Mạng tiến với mức nơron 20 10 11 Hình 1.10 Mạng tiến kết nối đầy đủ với mức ẩn mức đầu Hình 1.11 Mạng hồi quy khơng có nơron ẩn khơng có vịng lặp tự phản hồi 21 22 12 Hình 1.12 Mạng hồi quy có nơron ẩn 22 13 Hình 1.13 Sơ đồ đồ thị có hƣớng đơn giản 23 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 14 Hình 3.1 Cơ sở liệu Popfile 51 15 Hình 3.2 Mơ hình Popfile 52 16 Hình 3.3 Giao diện Popfile 53 v 17 Hình 3.4 Giao diện phần mềm Microsoft Outlook 54 18 Hình 3.5 Truy cập chức vào tài khoản Email 55 19 Hình 3.6 Thiết lập tài khoản Email 61 20 Hình 3.7 Thêm tài khoản Email 62 21 Hình 3.8 Sửa tài khoản Email 62 22 Hình 3.9 Thay đổi tài khoản Email 63 23 Hình 3.10 Thiết lập thƣ điện tử 64 24 Hình 3.11 Huấn luyện Email POPFile 65 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 10 - Thuật toán đào tạo (Training Algorithm): Thuật toán học (Learning Algorithm): Thuật toán dùng để loại bỏ tầng liệu cũ thay tầng liệu khả dụng Việc loại bỏ diễn dựa tiêu chí sau: Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 65 Thuật toán ứng dụng (Application Algorithm): Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 66 3.2 Mơ hình phân loại thƣ rác qua Popfile Mail client PopFile MailServer Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 67 MailServer [– truyền mail cho PoPfile –>] PopFile (xử lý phân loại mail PopFile) [– truyền mail cho Mail Client –>] Mail client Hình 3.2 Mơ hình Popfile POPFile công cụ phân loại mail tự động Sau cài đặt, cấu hình đào tạo, Popfile quét tất email đến phân loại dựa vào việc luyện tập 3.2.1 Cấu hình kết nối hệ thống mail qua Popfile - Cài đặt Popfile Truy cập: http://getpopfile.org/ tải cài đặt Khởi động POPFile từ Menu Start -> Programs -> POPFile -> RunPOPFile Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 68 Hình 3.3 Giao diện Popfile Thơng thường Outlook kết nối trực tiếp đến máy chủ mail kiểm tra thư Khi muốn POPFile để phân loại mail POP3 đến cần phải cấu hình lại Outlook để làm cho sử dụng POPFile Module POP3, POPFile hoạt động máy chủ proxy có nghĩa đường dẫn xử lý mail dạng này: Outlook - POPFile - internet - mail server 3.2.2 Cấu hình Outlook kết nối với Popfile Để thiết lập việc truy cập quản lý tài khoản e-mail từ Outlook + Khởi động Microsoft Office Outlook 2007 Start > Programs > Microsoft Office > Microsoft Office Outlook 2007 để mở Outlook Sau lựa chọn phần mềm Microsoft outlook để đăng nhập, hình sử dụng phần mềm xuất sau: Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 69 Hình 3.4 Giao diện phần mềm Microsoft Outlook Sau đăng nhập vào giao diện phần mềm, người dùng lựa chọn chức Tool → Acount settings… hình truy cập vào chức cài đặt vào tài khoản E - mail Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 70 Hình 3.5 Truy cập chức vào tài khoản Email Sau lựa chọn bảng Account Settings xuất Hình 3.6 Thiết lập tài khoản Email Trong bảng “Account settings” lựa chọn “New” để cài đặt tài khoản Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 71 Hình 3.7 Thêm tài khoản Email Chọn theo mẫu chọn “Next” Hình 3.8 Sửa tài khoản Email Hộp thoại Add New E–mail Account hiển thị người dùng cần khai báo đầy đủ khai báo vào bảng Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 72 Hình 3.9 Thay đổi tài khoản Email Accounnt type: POP3 Incoming mail server: 127.0.0.1 Outgoing mail server (SMTP): Pop.ioit.ac.vn User name: Pop.ioit.ac.vn:thanhhoa.hmtu@ioit.ac.vn Sau điền đầy đủ thông tin, Email cần thiết lập thêm số chức để hệ thống MS outlook giao tiếp với máy chủ E-mail để thực việc gửi nhận thư Để thực việc người dùng cần lựa chọn “ More setting” cài đặt mở rộng Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 73 Hình 3.10 Thiết lập thư điện tử Sau hoàn thành bước cài đặt cấu hình người dùng lựa chọn “Ok” để hoàn tất việc cài đặt Bấm chọn Send/Receive kết nối Outlook Email 3.3 Huấn luyện cho Popfile Sau thiết lập tài khoản E-mail kết nối với phần mềm Microsoft Outlook Đăng nhập hệ thống 127.0.0.1 Tại giao diện cửa sổ chương trình Popfile Control Center chọn số lượng E-mail work, spam, other, personal theo yêu cầu sau bấm chọn Reclassify để thực huấn luyện Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 74 - Chọn lớp lệnh Buckets lấy kết Hình 3.12 Huấn luyện Email POPFile 3.4 Kết Đánh giá Với chương trình tơi thử nghiệm tốn nhận dạng thư rác qua mơ hình sử dụng Popfile , kết thu sau Thử nghiệm trainning 20 thư phân loại loại Kết chạy thử chương trình với 500 mail kết Tỉ lệ phân loại Độ xác Độ sai âm tính Spam 12% 80% 20% Normal 73% 88% 12% Unclassified 15% Bảng 3.1 Kết lọc Email POPFile sau trainning với 20 Email Thử nghiệm trainning 40 thư phân loại loại Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 75 Kết chạy thử chương trình với 500 mail kết Tỉ lệ phân loại Spam 14% Normal 76% Unclassified 10% Độ xác Độ sai âm tính 83% 17% 91% 9% Bảng 3.2 Kết lọc Email POPFile sau trainning với 40 Email Thử nghiệm trainning 80 thư phân loại loại Kết chạy thử chương trình với 500 mail kết Tỉ lệ phân loại Độ xác Spam 18% Normal 82% Unclassified 5% Độ sai âm tính 99% 1% 95% 5% Bảng 3.3 Kết lọc Email POPFile sau trainning với 80 Email - Từ kết thực nghiệm cho thấy phương pháp lọc Email qua POPFile train nhiều độ xác tăng KẾT LUẬN Sau thời gian nghiên cứu tìm hiểu hướng dẫn thầy giáo, TS Phạm Thanh Giang với nỗ lực thân, luận văn hoàn thành mục tiêu đề Những kết mà luận văn đạt được: Về mặt lý thuyết: - Tìm hiểu thành phần kiểu kiến trúc mạng nơron, phân biệt số loại mạng nơron Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 76 - Nắm ý nghĩa việc học hay tích luỹ, có vai trị to lớn quy tắc học, mơ hình học thuật tốn học nhiều khả ứng dụng khác - Tìm hiểu ứng dụng mạng nơron thực tế - Nắm kiến thức mơ hình mạng dẫn tiến đa mức cách xây dựng mơ hình mạng nơron thực tế - Vận dụng mạng nơron dẫn tiến đa mức giải thuật lan truyền ngược để xây dựng chương trình phân loại thư rác Về mặt thực tiễn: Đưa phương pháp xử lý với toán phân loại thư rác dựa vào phần mềm POPFile, POPFile sử dụng kỹ thuật gọi Naive Bayes để tính tốn xác suất mà từ email Thiết lập hệ thống thử nghiệm phân loại thư rác thông qua phần mềm Popfile Tuy biết điều thu nhận phần nhỏ ngành nghiên cứu lớn, tự nhận thấy gặt hái thành công định giai đoạn nghiên cứu Hướng phát triển tiếp theo: Bên cạnh kết đạt được, cịn có vấn đề chưa luận văn giải hay đề cập tới Trong thời gian tới tiếp tục nghiên cứu hoàn thiện đề tài với mục tiêu đặt sau: - Tiếp tục nghiên cứu, xây dựng mạng cho thư rác dạng hình ảnh âm - Xây dựng hệ thống phân loại thư rác tiếng Việt sử dụng mạng nơron Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 77 TÀI LIỆU THAM KHẢO Tiếng việt [1] Lê Minh Trung, Giáo trình Mạng Nơron nhân tạo, Nhà xuất Thống kê, 1999 [2] Nguyễn Đình Thúc, Trí tuệ nhân tạo Lập trình tiến hóa, Nhà xuất Giáo Dục, 2008 [3] Nguyễn Thanh Thủy, Trí tuệ nhân tạo, Các phương pháp giải vấn đề kỹ thuật xử lý tri thức, Nhà xuất Khoa học Kỹ thuật, 2007 [4] Nguyễn Trần Thiên Thanh, Trần Khải Hồng, Tìm hiểu hướng tiếp cận tốn phân loại văn xây dựng phần mềm phân loại tin tức báo điện tử, Khóa luận cử nhân tin học 2005 Tiếng Anh Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 78 [5] A.Gray and M.Haahr Personalised, Collaborative Spam Filtering, Proc.Of the Conference on Email and Anti-spam (CEAS), Mountain View, CA, USA, July 2004 [6] J Golbeck and J Hendler, Reputation Network Analysis for Email Filtering Proc Of the Conference on Email and Anti-Spam (CEAS), Mountain View, CA, USA, July 2004 [7] Deborah Fallows, Spam: How it is hurting email and degrading life on the internet, Technical report, Pew Internet and American Life Project, Oct 2003 [8] Christopher D.Manning, Hinrich Schutze, Foundations Of Statistical Natural Language Processing 1999 [9] M.T.Hagan, H.B Deuth, M.H Beale, Neural Network Design, PWS Publishing Company, Boston, MA 1996 Một số website [10] Spam Filtering Research, http://spamlinks.net/filter-research.htm [11] http://getpopfile.org/ [12].https://etd.ohiolink.edu/rws_etd/document/get/akron1216868348/ie [13].https://uwspace.uwaterloo.ca/bitstream/handle/10012/4344/thesis.f [14].http://www1.cs.columbia.edu/~sh553/publications/final-thesis.pdf [15] http://getpopfile.org/docs/faq:howitworks [16] http://en.wikipedia.org/wiki/POPFile [17] http://getpopfile.org/docs/faq:getsourcecode [18].http://sourceforge.net/projects/popfile/ Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 79 ... xác định thư rác sau đọc nội dung thư Đặc điểm sở cho giải pháp phân loại thư rác cách phân tích nội dung thư 2.1.2 Các đặc điểm thư rác Thư rác gửi cách tự động: Mục đích kẻ gửi thư rác (spammer)... ảo để gửi thư rác 2.1.3 Phân loại thư rác Hiện có phương pháp phân loại thư rác phổ biến dựa yếu tố sau: Dựa kiểu phát tán thư rác: Tính tới thời điểm tại, thư rác bị gửi thơng qua thư điện tử,... thư rác - Mức độ thư? ??ng xun xuất từ tố thư bình thư? ??ng - Số lượng thư rác mà lọc học - Số lượng thư bình thư? ??ng lọc học Khi phân tích thư rác đến, nội dung thư tách thành từ tố, tra giá trị ứng

Ngày đăng: 23/03/2021, 22:20

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan