Luận văn thạc sĩ: Nghiên cứu một số thuật toán lọc thư rác và ứng dụng trong lọc email nội bộ

58 2 0
Luận văn thạc sĩ: Nghiên cứu một số thuật toán lọc thư rác và ứng dụng trong lọc email nội bộ

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Luận văn thạc sĩ: Nghiên cứu một số thuật toán lọc thư rác và ứng dụng trong lọc email nội bộLuận văn thạc sĩ: Nghiên cứu một số thuật toán lọc thư rác và ứng dụng trong lọc email nội bộLuận văn thạc sĩ: Nghiên cứu một số thuật toán lọc thư rác và ứng dụng trong lọc email nội bộLuận văn thạc sĩ: Nghiên cứu một số thuật toán lọc thư rác và ứng dụng trong lọc email nội bộLuận văn thạc sĩ: Nghiên cứu một số thuật toán lọc thư rác và ứng dụng trong lọc email nội bộLuận văn thạc sĩ: Nghiên cứu một số thuật toán lọc thư rác và ứng dụng trong lọc email nội bộLuận văn thạc sĩ: Nghiên cứu một số thuật toán lọc thư rác và ứng dụng trong lọc email nội bộLuận văn thạc sĩ: Nghiên cứu một số thuật toán lọc thư rác và ứng dụng trong lọc email nội bộLuận văn thạc sĩ: Nghiên cứu một số thuật toán lọc thư rác và ứng dụng trong lọc email nội bộLuận văn thạc sĩ: Nghiên cứu một số thuật toán lọc thư rác và ứng dụng trong lọc email nội bộLuận văn thạc sĩ: Nghiên cứu một số thuật toán lọc thư rác và ứng dụng trong lọc email nội bộLuận văn thạc sĩ: Nghiên cứu một số thuật toán lọc thư rác và ứng dụng trong lọc email nội bộLuận văn thạc sĩ: Nghiên cứu một số thuật toán lọc thư rác và ứng dụng trong lọc email nội bộLuận văn thạc sĩ: Nghiên cứu một số thuật toán lọc thư rác và ứng dụng trong lọc email nội bộLuận văn thạc sĩ: Nghiên cứu một số thuật toán lọc thư rác và ứng dụng trong lọc email nội bộLuận văn thạc sĩ: Nghiên cứu một số thuật toán lọc thư rác và ứng dụng trong lọc email nội bộLuận văn thạc sĩ: Nghiên cứu một số thuật toán lọc thư rác và ứng dụng trong lọc email nội bộ

i ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG Khamchan PHOMTHAVONG NGHIÊN CỨU MỘT SỐ THUẬT TOÁN LỌC THƯ RÁC VÀ ỨNG DỤNG TRONG LỌC EMAIL NỘI BỘ Chuyên ngành: Khoa học máy tính Mã số: 48 0101 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Người hướng dẫn khoa học: TS NGUYỄN HẢI MINH THÁI NGUYÊN – 2019 Số hóa Trung tâm Học liệu Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn ii LỜI CẢM ƠN Để hồn thành chương trình cao học viết luận văn, nhận hướng dẫn, giúp đỡ góp ý nhiệt tình quý thầy cô trường Đại học Công nghệ Thông tin Truyền thông - Đại học Thái Nguyên Trong trình học tập rèn luyện trường Đại học Công nghệ Thông tin Truyền thông – Đai học Thái Nguyên, đến em kết thúc khóa học năm hoàn thành luận văn tốt nghiệp Để có kết em xin chân thành cảm ơn: Ban Giám hiệu trường Đại học Công nghệ Thông tin Truyền thông thầy, cô giáo trường giảng dạy, quan tâm điều kiện thuận lợi để chúng em học tập rèn luyện suốt thời gian theo học trường TS Nguyễn Hải Minh người tận tình hướng dẫn, bảo, giúp đỡ em suốt trình làm luận văn Và cuối xin gửi lời cảm ơn tới đồng nghiệp, gia đình bạn bè người ủng hộ, động viên tạo điều kiện giúp đỡ để tơi có kết ngày hơm Thái Nguyên, tháng … năm 2019 Học viên Khamchan PHOMTHAVONG Số hóa Trung tâm Học liệu Cơng nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn iii MỤC LỤC LỜI CẢM ƠN i MỤC LỤC iii DANH MỤC HÌNH ẢNH v DANH MỤC BẢNG vi MỞ ĐẦU Chương THƯ RÁC VÀ CÁC PHƯƠNG PHÁP LỌC THƯ RÁC 1.1 Một số khái niệm 1.1.1 Định nghĩa thư rác 1.1.2 Phân loại thư rác 1.2 Các phương pháp lọc thư rác 1.2.1 Lọc thư rác thông qua việc đưa luật lệ nhằm hạn chế, ngăn chặn việc gửi thư rác 1.2.2 Lọc thư rác dựa địa IP 1.2.3 Lọc dựa chuỗi hỏi/ đáp 1.2.4 Phương pháp lọc dựa mạng xã hội 1.2.5 Phương pháp lọc nội dung Chương TỔNG QUAN CÁC THUẬT TOÁN NSA, PSA, PNSA TRONG LỌC THƯ RÁC 11 2.1 Cơ sở lý thuyết hệ miễn dịch nhân tạo 11 2.1.1 Khái niệm hệ miễn dịch nhân tạo 11 2.1.2 Phạm vi ứng dụng hệ miễn dịch nhân tạo 11 2.1.3 Cấu trúc hệ miễn dịch nhân tạo 11 2.2 Cơ sở lý thuyết thuật toán chọn lọc tiêu cực (Negative Selection Algorithms - NSA) 16 2.3 Cơ sở lý thuyết thuật tốn chọn lọc tích cực (Positive Selection Algorithms – PSA) 17 2.4 Cơ sở lý thuyết thuật toán cải tiến chọn lọc thư rác (Positive and Negative Selection Algorithms – PNSA) 18 2.4.1 Một số định nghĩa 18 Số hóa Trung tâm Học liệu Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn iv 2.4.2 Thuật tốn sinh tập dị r-chunk 21 2.4.3 Thuật toán sinh tập dò dạng r – contiguous 24 2.5 Các nghiên cứu gần 27 Chương CÀI ĐẶT CÁC THUẬT TOÁN 29 3.1 Tổng quan ứng dụng CNTT Bộ Tổng tham mưu Lào 29 3.2 Mơ hình tổng qt cung cấp dịch vụ email nội đơn vị 30 3.3 Mơ hình thực tế ứng dụng lọc email Spam hệ thống email nội Tổng tham mưu Lào 30 3.4 Ứng dụng hệ miễn dịch nhân tạo lọc thư rác 31 3.4.1 Phát biểu toán 31 3.4.2 Cơ sở liệu TREC'07 32 3.4.3 Phương pháp 32 3.4.4 Phân tích thuật tốn 33 3.4.5 Đánh giá 34 3.5 So sánh với thuật toán WEKA 36 3.5.1 Phát biểu toán 36 3.5.2 Cơ sở liệu SpamBase 36 3.5.3 Phần mềm WEKA 39 3.2.4 Thiết kế phần mềm 42 3.2.5 Phân tích thuật tốn kết hợp chọn lọc tích cực chọn lọc tiêu cực PNSA 42 3.2.6 Giao diện chương trình kết 44 3.2.7 Đánh giá 47 KẾT LUẬN 50 TÀI LIỆU THAM KHẢO 51 Số hóa Trung tâm Học liệu Cơng nghệ thơng tin – ĐHTN http://lrc.tnu.edu.vn v DANH MỤC HÌNH ẢNH Hinh 1.1: Tất thư điện tử Hinh 1.2 : Mơ tả tổng quan q trình hoạt động honeyd Hình 2.1: Cấu trúc phân tầng Hệ miễn dịch nhân tạo 12 Hình 2.2: Kháng thể nhận diện kháng nguyên dựa vào phần bù 13 Hình 2.3 Sơ đồ khối thuật tốn chọn lọc tiêu cực 17 Hình 2.4 Sơ đồ khối thuật tốn chọn lọc tích cực 18 Hình 3.1 Mơ hình tổng qt q trình gửi nhận thư điện tử 30 Hinh 3.2 : Mơ hình mạng nội Tổng tham mưu Lào 30 Hinh 3.3.Giao diện phần mềm Weka 40 Hình 3.4 Giao diện Weka Explorer 40 Hình 3.5 Giao diện Weka Explorer sau chọn CSDL Spambase 41 Hình 3.6 Phân loại liệu 41 Số hóa Trung tâm Học liệu Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn vi DANH MỤC BẢNG Bảng 3.1 Kết chạy chương trình với test 34 Bảng 3.2 So sánh kết 36 Bảng 3.3 Kết thử nghiệm WEKA PNSA 45 Bảng 3.4 So sánh PNSA với số phương pháp cho kết tốt 46 Bảng 3.5 So sánh PNSA với số phương pháp cho kết thấp 47 Bảng 3.6 Kết so khớp với giá trị tham số r thay đổi 47 Số hóa Trung tâm Học liệu Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn MỞ ĐẦU Mạng Internet đời mang lại cho người tiên ích to lớn quan trọng, tiện ích dịch vụ thư điện tử Vì, phương tiện giao tiếp đơn giản, tiện lợi, rẻ hiệu giúp người gắn kết liên lạc với thường xuyên Tuy nhiên, lợi dụng tính mở cơng nghệ chế trao đổi thư mà hàng ngày người dùng nhận số thư ngồi mong đợi thư rác (Spam) Thư rác thường gửi với số lượng lớn thường mục đích quảng cáo, trí đính kèm mã độc dạng Virus gây phiền toài cho người dùng, làm giảm tốc độ xử lý máy chủ mail server Thư rác (spam) thư điện tử gửi hàng loạt với nội dung mà người nhận không mong đợi, không muốn xem, hay chứa nội dung không liên quan đến người nhận thường sử dụng để gửi thông tin quảng cáo Do có giá thành tương đối thấp so với phương pháp quảng cáo khác, thư rác chiếm tỷ lệ lớn ngày tăng tổng số thư điện tử gửi qua Internet Sự xuất gia tăng thư rác gây khó chịu làm thời gian người nhận mà ảnh hưởng tới đường truyền Internet làm chậm tốc độ xử lý máy chủ thư điện tử, gây thiệt hại lớn kinh tế Xuất phát từ lý đó, đề tài đặt vấn đề nghiên cứu số thuật toán LỌC THƯ RÁC, thuật tốn cơng bố gần để đề xuất mơ hình thực nghiệm dịch vụ email thực tế Qua hướng tới xây dựng ứng dụng cách tích hợp thêm số Module hỗ trợ sử dụng dịch vụ sử dụng email Nội dung luận văn gồm có chương: Dự kiến nội dung báo cáo luận văn gồm: Phần mở đầu, chương chính, phần kết luận, tài liệu tham khảo, phụ lục Bố cục trình bày sau: Phần mở đầu: Nêu lý chọn đề tài hướng nghiên cứu Chương 1: THƯ RÁC VÀ CÁC PHƯƠNG PHÁP LỌC THƯ RÁC Chương 2: TỔNG QUAN CÁC THUẬT TOÁN NSA, PSA, PNSA TRONG LỌC THƯ RÁC Chương 3: CÀI ĐẶT CÁC THUẬT TỐN Phần kết luận: Tóm tắt kết đạt hướng phát triển đề tài Số hóa Trung tâm Học liệu Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn Chương THƯ RÁC VÀ CÁC PHƯƠNG PHÁP LỌC THƯ RÁC 1.1 Một số khái niệm 1.1.1 Định nghĩa thư rác Có nhiều tranh cãi việc đâu định nghĩa xác thư rác (spam email), thư rác mang tính cá nhân hóa nên khó mà nói lên nghĩa thư rác Nhiều ý kiến cho thư rác “thư điện tử (email) không mong muốn” Định nghĩa khơng thực xác, nhân viên nhận thư điện tử công việc từ sếp họ, thư điện tử người nhân viên không mong muốn chúng thư rác Lại có ý kiến khác cho thư rác “thư điện tử thương mại không yêu cầu từ phía người nhận” thư bao gồm thư điện tử quảng cáo sản phẩm thư điện tử lừa gạt Nhưng định nghĩa khơng thực xác, làm người nghĩ thư rác giống thư đáng bỏ (junk mail) Sau đưa định nghĩa thông dụng thư rác giải thích đặc điểm để phân biệt thư rác với thư thông thường [1,2]: Thư rác (spam mail) thư điện tử không yêu cầu, không mong muốn gửi hàng loạt tới người nhận Một thư gửi không theo yêu cầu thư làm quen thư gửi lần đầu tiên, thư gửi hàng loạt thư gửi cho khách hàng công ty, nhà cung cấp dịch vụ Vì thư bị coi rác khơng u cầu, gửi hàng loạt Hình vẽ sau thể rõ định nghĩa thư rác: Hinh 1.1: Tất thư điện tử Số hóa Trung tâm Học liệu Cơng nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn 1.1.2 Phân loại thư rác Có nhiều cách phân loại thư rác[1] - Dựa kiểu phát tán thư rác: Tính tới thời điểm tại, thư rác bị gửi thơng qua thư điện tử, nhóm thảo luận (newsgroups), điện thoại di động (Short Message Service - SMS) dịch vụ gửi tin nhắn mạng (như Yahoo Messenger, Windows Messenger ) - Dựa vào quan hệ với người gửi thư rác: bao gồm người lạ mặt, bạn bè, người quen dịch vụ quyên góp giúp đỡ… - Dựa vào nội dung thư rác: kiểu nội dung phổ biến thư thương mại, thư trị, thư cơng nghệ, chuỗi thư (chain e-mail) loại khác (như thư phát tán virus ) - Dựa động lực người gửi: Thông thường, thư rác gửi cho mục đích quảng bá thơng tin Ngồi ra, cịn có số loại thư rác gửi tới người nhận xác định nhằm mục đích phá vỡ gây cản trở công việc người nhận hay mạng nhà cung cấp dịch vụ thư điện tử (ESP) gọi “bom thư” Thư rác cố ý gửi nhằm thông báo tin sai lệch, làm xáo trộn công việc sống người nhận Sự phân loại thư rác quan trọng không lĩnh vực tạo lọc thư rác có hiệu cao mà giúp cho việc ban hành luật chống thư rác phù hợp 1.2 Các phương pháp lọc thư rác 1.2.1 Lọc thư rác thông qua việc đưa luật lệ nhằm hạn chế, ngăn chặn việc gửi thư rác Khi tình trạng thư rác ngày tăng đường truyền internet gây nhiều phiền toái thiệt hại lớn giới nhiều quốc gia đưa luật để ngăn chặn thư rác Dưới số nội dung liên quan tới giải pháp ngăn chặn thông qua luật lệ pháp lý đưa báo điện tử viễn thông Mỹ nước giới cố gắng ban hành văn pháp luật để giải vấn đề thư điện tử rác tràn ngập Từ tháng năm 1997, bang Nevada dẫn đầu việc ban hành quy phạm pháp luật quy Số hóa Trung tâm Học liệu Công nghệ thông tin – ĐHTN http://lrc.tnu.edu.vn định hành vi phục vụ sử dụng thư tín điện tử Tính đến tháng năm 2003, có 26 bang ban hành quy phạm pháp luật quy định dịch vụ hành vi sử dụng thư tín điện tử Đến tháng 11 năm 2003, số lên đến 36 Về phía quyền liên bang, từ năm 1990, Thượng nghị viện Hạ nghị viện quan tâm đến lan rộng thư tín điện tử quấy rối thư rác, đưa nhiều dự án luật “Luật bảo vệ hộp thư không bị quấy rối” (1999), “Luật Bảo vệ người sử dụng thư điện tử”, “Luật Khống chế thư điện tử không phép” (2000), “Luật Khống chế thư rác truyền qua đường điện thoại vô tuyến” (2000) , “Luật Chống thư rác” (2001) Mười năm gần đây, Liên minh Châu Âu ban hành số lệnh, đưa quy phạm dẫn vấn đề thương mại điện tử, thông tin điện tử, bảo hộ liệu Trong lệnh nói trên, có khơng qui định có liên quan mật thiết, chí trực tiếp với phục vụ sử dụng thư điện tử “Chỉ lệnh Bảo vệ liệu cá nhân Châu Âu”, “Chỉ lệnh thông tin điện tử bảo mật liệu” Ngày 12 tháng năm 2002, Nghị Viện Liên minh Châu Âu thông qua “Chỉ lệnh Bảo mật riêng tư Thông tin điện tử Liên minh Châu Âu” Chỉ lệnh quy định: Từ 31 tháng 10 năm 2003, phạm vi Liên minh Châu Âu, chưa người nhận đồng ý trước, không gửi thư điện tử thương mại hay nhằm mục đích tuyên truyền cho cá nhân Tiếp theo sau Liên minh Châu Âu đưa qui định phục vụ sử dụng thư điện tử, nước thành viên Liên minh Châu Âu, Italia, Anh, Đan Mạch, Tây Ban Nha ban hành quy phạm pháp luật nước quy định hành vi cung cấp sử dụng thư điện tử, ngăn chặn tràn ngập thư rác Tại Lào vấn đề thư rác bắt đầu nhận quan tâm từ phía quan có trách nhiệm Bộ Thương mại soạn thảo Thông tư quản lý hoạt động quảng cáo thương mại phương tiện điện tử Trên trang báo điện tử viễn thơng, Bà Lại Việt Anh, Trưởng Phịng sách, Vụ Thương mại điện tử, Bộ Thương mại, nhận xét: mục tiêu Thông tư trước mắt tập trung Số hóa Trung tâm Học liệu Cơng nghệ thơng tin – ĐHTN http://lrc.tnu.edu.vn ... thư? ??ng áp dụng cho lọc thư server Lọc thư rác dựa xác suất thống kê học máy Đầu tiên phân loại thư thành thư rác thư hợp lệ Một thuật toán áp dụng để trích chọn đánh trọng số cho đặc trưng thư rác. .. đề tài hướng nghiên cứu Chương 1: THƯ RÁC VÀ CÁC PHƯƠNG PHÁP LỌC THƯ RÁC Chương 2: TỔNG QUAN CÁC THUẬT TOÁN NSA, PSA, PNSA TRONG LỌC THƯ RÁC Chương 3: CÀI ĐẶT CÁC THUẬT TỐN Phần kết luận: Tóm tắt... THƯ RÁC VÀ CÁC PHƯƠNG PHÁP LỌC THƯ RÁC 1.1 Một số khái niệm 1.1.1 Định nghĩa thư rác 1.1.2 Phân loại thư rác 1.2 Các phương pháp lọc thư rác 1.2.1 Lọc

Ngày đăng: 01/03/2023, 13:51

Tài liệu cùng người dùng

Tài liệu liên quan