Xây dựng một Email Client với khả năng lọc thư rác tự động bằng việc ứng dụng phương pháp phân loại văn bản Naive Bayes

80 2 0
Xây dựng một Email Client với khả năng lọc thư rác tự động bằng việc ứng dụng phương pháp phân loại văn bản Naive Bayes

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Tốc độ phát triển của các dịch vụ thư điện tử ngày nay và những lợi ích mà nó mang lại cho chúng ta là rất lớn. Qua thư điện tử người dùng không chỉ nhận được thông tin mong muốn mà còn có thể nhận được âm thanh hình ảnh, đồ họa và cả những kho dữ liệu khổng lồ mà trước đây việc trao đổi thư từ qua tay không bao giờ có được. Tuy nhiên, thư điện tử không chỉ mang đến cho con người nhiều lợi ích mà còn rất nhiều tác hại vô bổ khác, có thể gây ra những thiệt hại to lớn nếu không biết cách loại bỏ và phòng chống nó. Một trong những vấn đề nghiêm trọng cần giải quyết hiện nay trong các thư điện tử đó là nạn thư rác hay còn gọi là “spam”. Đó là những thư từ quảng cáo, hay các thư điện tử mà nội dung của nó thường có hại cho người dùng. Qua quá trình thực tập được tìm hiểu về các phương pháp phân loại văn bản tôi chọn đồ án: “Xây dựng một Email Client với khả năng lọc thư rác tự động bằng việc ứng dụng phương pháp phân loại văn bản Naive Bayes”. Qua đồ án này, tôi cố gắng nắm bắt tốt phương pháp phân loại văn bản bằng thuật toán Naive Bayes và ứng dụng phương pháp này để phân loại thư rác trong Email Client. Hi vọng kết quả của đồ án này sẽ là một chương trình lọc thư rác có hiệu quả với các dịch vụ thư điện tử hiện nay.

Đồ án tốt nghiệp Gvhd: PGS.TS Nguyễn Đăng Tộ Lời cảm ơn Trong suốt khóa học(2001 – 2006) trường Đại Học Thủy Lợi, với nỗ lực thân giúp đỡ thầy cô giáo trường đặc biệt thầy cô giáo khoa CNTT giúp tơi có vốn tri thức vững vàng để hoàn thành đồ án tốt nghiệp Trong thời gian làm đồ án, giúp đỡ giáo viên hướng dẫn mặt, từ nhiều phía tơi hồn thành đồ án thời gian qui định Tôi xin chân thành cảm ơn đến: Các thầy cô giáo khoa CNTT giảng dạy cho kiến thức chuyên môn làm sở để thực tốt đồ án tốt nghiệp tạo điều kiện cho tơi hồn thành tốt khóa học Xin cảm ơn Ths Nguyễn Thanh Tùng, KS Bùi Văn Huyến trung tâm tin học trường Đại Học Thủy Lợi tạo điều kiện giúp đỡ trang thiết bị, máy tính làm phương tiện để tơi hồn thành đồ án Đặc biệt xin gửi lời cảm ơn chân thành tới PGS.TS Nguyễn Đăng Tộ, KS Nguyễn Mạnh Hiển người theo sát bảo hướng cho tơi lời khun q báu cung cấp thông tin khoa học để định hướng tốt làm đồ án tốt nghiệp Xin cảm ơn gia đình, bạn bè giúp đỡ động viên vật chất lẫn tinh thần trình làm đồ án tốt nghiệp Mặc dù đồ án hoàn thành thời gian qui định điều kiện thời gian, đồ án tơi khơng tránh khỏi thiếu xót Vì tơi mong nhận đóng góp kiến thầy cô bạn bè tạo điều kiện cho đồ án tơi hồn thiện Hà Nội tháng năm 2006 Sinh viên thực Svth: Phạm Thị Thơm -Lớp 43TH -Khoa Công Nghệ Thông Tin Đồ án tốt nghiệp Gvhd: PGS.TS Nguyễn Đăng Tộ Mục Lục Mục Lục Chương I: Mở đầu Lí chọn đồ án 1.2 Mục tiêu 1.3 Đối tượng nghiên cứu .5 1.4 Tổng quan Email cần thiết phải phân loại Email Giới thiệu Email Khái niệm thư rác Sự cần thiết phải phân loại thư rác Phân loại thư rác .9 Chương II: Tổng quan toán phân loại văn 11 2.1 Tổng quan phân loại văn 11 2.1.1 Sự cần thiết phải phân loại văn 11 2.2.2 Định nghĩa phân loại văn .12 2.2 Tiến trình phân loại văn .12 2.3 Đặc trưng văn cách lựa chọn đặc trưng văn 14 2.3.1 Tần suất tài liệu .15 2.3.2 Lượng tin tương hỗ 15 2.4 Biểu diễn văn 16 2.4.1 Khái niệm tần số từ 17 2.4.2 Khái niệm tần suất tài liệu ngược 18 2.5 Các phương pháp phân loại văn 18 2.5.1 Nguyên mẫu 19 2.5.2 Các mơ hình xác suất Naive Bayes 19 2.5.3 Phương pháp SVM 20 2.5.4 Cây định .20 2.5.5 Mạng neuron 21 2.6 Bài toán phân loại thư rác 21 Chương III: Thuật toán Naive Bayes cách phân loại thư điện tử 24 3.1 Các công nghệ lọc thư rác 24 3.2 Thuật toán phân loại văn Bayes 24 3.3 Quá trình hoạt động lọc thư rác Bayes 28 3.3.1 Tạo sở liệu từ Bayes thích hợp .28 3.3.2 Tạo sở liệu cho thư hợp lệ 28 3.3.5 Tạo sở liệu cho thư rác 29 Svth: Phạm Thị Thơm -Lớp 43TH -Khoa Công Nghệ Thông Tin Đồ án tốt nghiệp Gvhd: PGS.TS Nguyễn Đăng Tộ 3.4 Sự hoạt động lọc thư rác thực tế 30 3.5 Các ưu điểm lọc thư rác Bayes 30 3.6 Các bước để xây dựng lọc thư rác sử dụng giải thuật Naive Bayes .32 3.6.1 Lựa chọn đặc trưng 32 3.6.2 Biểu diễn thư điện tử 35 3.6.4 Xác định ngưỡng 35 3.6.5 Thử nghiệm hệ thống lọc thư rác hiệu thực tế .35 Chương IV: Các giao thức truyền nhận thư thư viện Javamail API 37 4.1 Giới thiệu SMTP: 37 4.2 Cách thức hoạt động giao thức SMTP 37 4.3 Giới thiệu giao thức Mail POP3 IMAP .39 4.3.1 POP3 39 4.3.2 IMAP4 40 Quá trình chuyển nhận thư .44 4.4.1 Cấu trúc thư điện tử 45 4.4.2 Mơ hình gửi nhận thư điện tử 46 4.4.3 Ví dụ gửi nhận thư điện tử qua Internet Mail Client .49 Javamail các hỗ trợ gửi nhận thư điện tử 50 4.4.1 Tổng quan ngôn ngữ java .50 4.4.2 Cấu trúc môt Message 52 Chương V: Chương trình Email client chức lọc thư rác tự động giải thuật Naive Bayes 54 5.1 Cơ sở liệu cho chương trình 55 5.1.1 Tài khoản người sử dụng .55 5.1.2 Bộ liệu mẫu .55 .59 5.3 Giao diện hệ thống 60 Một số chức tiêu biểu 68 5.5 Sử dụng chương trình 73 5.5.1 Cài đặt chạy chương trình .73 5.5.2 Hướng dẫn sử dụng: 73 5.6 Kết luận định hướng phát triển .74 5.6.1 Những kết đạt 74 5.6.2 Những hạn chế .74 Định hướng phát triển 75 Phụ lục 76 Các thuật ngữ tiếng Anh dùng chương trình: .76 Thư mục nội dung đĩa CD đính kèm: 77 Svth: Phạm Thị Thơm -Lớp 43TH -Khoa Công Nghệ Thông Tin Đồ án tốt nghiệp Gvhd: PGS.TS Nguyễn Đăng Tộ Chương I: Mở đầu Lí chọn đồ án Ngày phát triển không ngừng công nghệ thông tin, đặc biệt đời Internet đưa người lên tầm cao Sự đời dịch vụ Internet làm cho nhu cầu trao đổi thông tin, tìm kiếm thơng tin người đáp ứng cách tốt nhanh Có nhiều dịch vụ phát triển công nghệ thông tin nhằm giúp công nghệ thông tin thân thiết với người dùng Một dịch vụ góp phần không nhỏ vào việc giúp người trao đổi thông tin cách nhanh chóng dịch vụ thư điện tử (electronic mail) Tốc độ phát triển dịch vụ thư điện tử ngày lợi ích mà mang lại cho lớn Qua thư điện tử người dùng không nhận thơng tin mong muốn mà cịn nhận âm hình ảnh, đồ họa kho liệu khổng lồ mà trước việc trao đổi thư từ qua tay khơng có Tuy nhiên, thư điện tử không mang đến cho người nhiều lợi ích mà cịn nhiều tác hại vơ bổ khác, gây thiệt hại to lớn cách loại bỏ phịng chống Một vấn đề nghiêm trọng cần giải thư điện tử nạn thư rác hay cịn gọi “spam” Đó thư từ quảng cáo, hay thư điện tử mà nội dung thường có hại cho người dùng Qua trình thực tập tìm hiểu phương pháp phân loại văn chọn đồ án: “Xây dựng Email Client với khả lọc thư rác tự động việc ứng dụng phương pháp phân loại văn Naive Bayes” Qua đồ án này, cố gắng nắm bắt tốt phương pháp phân loại văn thuật toán Naive Bayes ứng dụng phương pháp để phân loại thư rác Email Client Hi vọng kết đồ án chương trình lọc thư rác có hiệu với dịch vụ thư điện tử 1.2 Mục tiêu Sau thực đồ án mục tiêu mà cần đạt là: - Nắm cấu trúc thư điện tử Svth: Phạm Thị Thơm -Lớp 43TH -Khoa Công Nghệ Thông Tin Đồ án tốt nghiệp Gvhd: PGS.TS Nguyễn Đăng Tộ - Nắm trình gửi nhận thư điện tử, giao thức hỗ trợ việc gửi nhận thư điện tử - Nắm thuật toán phân loại văn Naive Bayes - Ứng dụng thuật toán Naive Bayes để phân loại Email - Xây dựng Email Client với khả lọc thư rác tự động 1.3 Đối tượng nghiên cứu Để xây dựng Email client với khả lọc thư rác tự động phương pháp phân loại văn Naive Bayes đối tượng mà tơi cần tìm hiểu bao gồm thành phần sau: - Nghiên cứu thư điện tử cách truyền nhận thư - Nghiên cứu giao thức truyền tải thư đơn giản SMTP(Simple Mail Transfer Protocol), giao thức POP3 (Post Office Protocol) IMAP4… - Nghiên cứu phương pháp phân loại văn áp dụng phổ biến - Nghiên cứu thuật toán phân loại văn Naive Bayes - Nghiên cứu ngôn ngữ lập trình java (đặc biệt JavaBean JavaMail) - Ứng dụng giải thuật phân loại văn Naive Bayes vào phân loại thư điện tử 1.4 Tổng quan Email cần thiết phải phân loại Email Giới thiệu Email Thư điện tử, hay email (là chữ viết tắt electronic mail), dịch điện thư, hệ thống chuyển nhận thư từ qua mạng máy tính Email phương tiện thông tin nhanh Một mẫu thông tin (thư từ) gửi dạng mã hố hay dạng thông thường chuyển qua mạng máy tính đặc biệt mạng Internet Nó chuyển mẫu thông tin từ máy nguồn tới hay nhiều máy nhận lúc Ngày nay, thư điện tử truyền gửi chữ, cịn truyền dạng thơng tin khác hình ảnh, âm thanh, phim, Svth: Phạm Thị Thơm -Lớp 43TH -Khoa Công Nghệ Thông Tin Đồ án tốt nghiệp Gvhd: PGS.TS Nguyễn Đăng Tộ đặc biệt phần mềm thư điện tử kiểu cịn hiển thị thư điện tử dạng sống động tương thích với kiểu tệp HTML Hai vấn nạn lớn thư điện tử là: spam mail virus email Spam mail: thư điện tử hacker lấy địa email bạn thông qua email trao đổi có kèm theo danh sách địa email mục CC (Carbon copy) gởi Internet qua trao đổi forum hay news group Các hacker này, sau thu thập địa email gộp chung thành danh sách dùng để bán lại dùng danh sách email làm email marketing nhằm mục đích thương mại Virus email: thư điện tử người tinh nghịch phá hoại kẻ muốn dùng virus để phá hoại loạt hệ thống computer với mục đích xấu Thông thường virus gởi đến địa email bạn qua tài liệu gởi kèm (attached) thường cơng vào chương trình soạn thảo văn Microsoft Word Nhưng mở ra, khơng dừng lại tài liệu văn mà lan hủy hoại nhiều chương trình ứng dụng khác, cuối toàn hệ thống computer Nếu khơng lưu trữ dự phịng tài liệu quan trọng, hệ thống điện toán bạn bị tồn tài liệu văn thư quan trọng khó cứu lại Hai vấn nạn có mối liên hệ khăng khít với Qua việc phát tán spam người gửi thư rác phát tán virus gây thiệt hại cho máy tính có cịn làm cho hệ thống mạng ngừng hoạt động khơng phát xử lí kịp thời Vấn đề nghiêm trọng cần giải thư điện tử nạn thư rác hay cịn gọi “spam” Đó thư từ quảng cáo, hay thư điện tử mà nội dung thường có hại cho người dùng Khái niệm thư rác Thư rác hay gọi spam mail thư điện tử vô bổ thường chứa loại quảng cáo gửi cách vô tội vạ chất lượng loại thư thường thấp Đơi khi, dẫn dụ người nhẹ dạ, tìm cách đọc số thể tín dụng tin tức cá nhân họ Svth: Phạm Thị Thơm -Lớp 43TH -Khoa Công Nghệ Thông Tin Đồ án tốt nghiệp Gvhd: PGS.TS Nguyễn Đăng Tộ Hình2: Spam mail: Các thư gửi từ Woodard, whonysald, tara crisp, serena555, Serena Mcclain, Santiago Ritchie, Pearl Mayers, nplroeom rrsi, Nina Garcia “Spam mail” Có thể nói thư rác hình thức “tra người dùng thư điện tử” quảng cáo Các thư rác vơ hại ngày người thư rác mà bị đầy hộp thư (có người nhận trăm thư rác ngày mà có ba nội dung khác nhau!!!) Có thể thắc mắc người ta lại lặp lặp lại thư quảng cáo chục lần cho người, đơn giản họ muốn dùng hiệu ứng tâm lí… Khi hình ảnh sản phẩm đập vào mắt đến lúc cần mua thứ có chức tương tự (hay loại) hình ảnh thương hiệu thư rác lên óc trước tiên Hoặc giả dụ đơi “lỡ tay” hay tị mị người đọc “click” vào link “lưới nhện giăng sẵn chờ mồi ” Như vậy, theo định nghĩa thư rác có hại cho máy tính (hiểu theo nghĩa vật chất), đơi cịn làm bực khó chịu làm cho thư từ khác (nhất thư gửi có nghĩa quan trọng) bị lẫn lộn đống thư mà chủ yếu thư rác Khiến cho việc tìm kiếm thời gian xố thư rác lại xố nhầm thư quan trọng Sự cần thiết phải phân loại thư rác Tốc độ phát triển thư rác (Spam mail) Svth: Phạm Thị Thơm -Lớp 43TH -Khoa Công Nghệ Thông Tin Đồ án tốt nghiệp Gvhd: PGS.TS Nguyễn Đăng Tộ Spam coi vấn đề “lớn” mạng Ferris Research hãng nghiên cứu thị trường (San Francisco - Mỹ) ước tính người sử dụng email nhận khoảng 110 thư không mong muốn hàng tuần Theo báo cáo Ủy ban thương mại liên bang (Federal Trade Commission - FTC), gần 40% số email trao đổi Mỹ spam, tăng từ số 8% thời điểm cuối năm 2001 Con số “spam” gia tăng hàng ngày nghiện cứu thống kê có 50 % thư điện tử gửi spam, Radicati Group dự đoán số 70% vào năm 2007 Tốc độ tăng trưởng Spam thống kê theo lược đồ sau: Hình 1.1 Tốc độ phát triển spam từ 2001-2004 Sự bùng nổ thư rác Việt Nam Bên cạnh virus, spyware, adware thư rác trở thành vấn đề vơ khó chịu với người sử dụng máy tính Việt Nam Chỉ có 11% người hỏi nói họ khơng phải chịu quấy nhiễu thư rác Ngoài việc làm thời gian, gây khó chịu cho người sử dụng, thư rác trở thành vấn đề khó khăn thực với hệ thống thư điện tử quan/cơng ty Việt Nam Thư rác có nhiều thư thật (Theo kết điều tra tình hình an ninh mạng Việt Nam TT ANM BKIS Đại Học Bách Khoa Hà Nội) Ngày nay, spam mail trở thành hình thức quảng cáo chuyên nghiệp, phát tán virus, ăn cắp thông tin … chương trình anti-spam cho email cần thiết Chúng ta phải nhiều thời gian để xóa email “khơng mời mà đến”, vơ ý cịn bị nhiễm virus, trojan, spyware … nặng nề thông tin thẻ tín dụng, tài khoản ngân hàng qua email dạng phishing Đối với người dùng “checkmail” mà Svth: Phạm Thị Thơm -Lớp 43TH -Khoa Công Nghệ Thông Tin Đồ án tốt nghiệp Gvhd: PGS.TS Nguyễn Đăng Tộ gặp phải thư rác gây cảm giác khó chịu làm tốn thời gian để xóa thư đơi cịn gây hậu nghiệm trọng người dùng có tính tị mị… Vì việc xây dựng hệ thống lọc thư rác cá nhân tự động cần thiết Phân loại thư rác Tổ chức hợp tác phát triển kinh tế OECD (Organization for Economic Co-operatation Development) khuyến nghị số biện pháp đối phó với spam, có việc thông qua chế tài pháp lý quốc tế, đầu tư mạnh vào hệ thống lọc thư rác, thiết lập trung tâm phản ứng nhanh liên kết ISP (Internet service Provider) toàn cầu, đồng thời tăng cường chiến dịch tuyên truyền cộng đồng nguy hại cách đối phó với thư rác Hiện giải pháp sử dụng nhiều dùng phần mềm tích hợp với hệ thống thư hoạt động theo chế “lọc theo nội dung” “lọc theo danh sách website chuyển tiếp” Một số công nghệ chống spam thú vị nghiên cứu: Tem cho e-mail: Theo hai nhà nghiên cứu Fahlman Mark Wegman thuộc Trung tâm Nghiên cứu IBM (International Business Machines) Watson, Mỹ, phương pháp chống spam hiệu u cầu người khơng có tên danh sách “khách hàng thân thiết” bạn phải mua tem cho email mà họ gửi cho bạn Một chương trình đặt nằm máy chủ email máy tính cá nhân khách hàng để đối chiếu tên người gửi với danh sách khách hàng bạn Những kẻ gửi thư rác phải cân nhắc kỹ trước bấm “send” để gửi hàng loạt email Cài mật mã: Bạn gửi email thông báo cho tất người với đoạn mật mã cài đặt sẵn email bạn, máy chủ email ISP cho phép email có đoạn mật mã qua Khai báo thông tin: Một chương trình chặn email từ người lạ, yêu cầu cung cấp đầy đủ thông tin cá nhân trước chuyển email đến người nhận Lọc email qua nội dung: Một chương trình thu thập thông tin nằm phần nội dung email để giúp cho quản trị viên máy chủ email tách thư rác khỏi hệ thống Phần mềm lướt qua toàn Svth: Phạm Thị Thơm -Lớp 43TH -Khoa Công Nghệ Thông Tin Đồ án tốt nghiệp Gvhd: PGS.TS Nguyễn Đăng Tộ thơng điệp để tìm kiếm từ khóa có liên quan đến thư rác Chẳng hạn bạn bác sĩ, thư bạn mong nhận có liên quan đến vấn đề giới tính Vì vậy, “viagra” từ khóa lọc thư quan trọng Các chế lọc thư phức tạp lọc nguyên đoạn mã lệnh đầu thông điệp, đoạn mã bám theo suốt trình luân chuyển email cung cấp thông tin chuyến Nếu site spam có tên lịch trình đó, phần mềm tự động chặn thơng điệp lại Lọc theo danh sách website chuyển tiếp: Một công nghệ lọc khác dựa danh sách site chuyển tiếp Công nghệ lọc kiểm tra chặn thông điệp truyền tải qua điểm chuyển tiếp mở rộng, tức hệ thống Internet cho phép người sử dụng dùng chúng điểm cảnh thư Những kẻ công spam (spammer) thường xuyên sử dụng điểm chuyển tiếp mở để che dấu tung tích xuất xứ Trong nhiều trường hợp, tin tặc tận dụng lỗ hổng bảo mật để “ra lệnh” cho máy chủ chuyển tiếp làm công việc spammer Đối với email cá nhân phương pháp lọc thư rác phổ biến “phân loại qua nội dung email” việc ứng dụng phương pháp phân loại văn Phân loại email thực chất phương pháp “phân loại văn hai lớp” dựa vào nội dung email gửi đến Trong đồ án tơi xin trình bày phương pháp phân loại văn phổ biến “Naive Bayes” ứng dụng phương pháp để phân loại email cá nhân Email Client Svth: Phạm Thị Thơm -Lớp 43TH -Khoa Công Nghệ Thông Tin Đồ án tốt nghiệp Gvhd: PGS.TS Nguyễn Đăng Tộ Menu Look & Feel : Svth: Phạm Thị Thơm -Lớp 43TH -Khoa Công Nghệ Thông Tin Đồ án tốt nghiệp Menu Help: Gvhd: PGS.TS Nguyễn Đăng Tộ Trợ giúp người dùng cách sử dụng chương trình cung cấp thơng tin tác giả Có hai trợ giúp tiếng Anh tiếng Việt người dùng tùy chọn hai trợ giúp Đặc biệt người sử dụng đến thăm website trường Đại Học Thủy Lợi thông qua mục Visit mySite Svth: Phạm Thị Thơm -Lớp 43TH -Khoa Công Nghệ Thông Tin Đồ án tốt nghiệp Gvhd: PGS.TS Nguyễn Đăng Tộ Một số chức tiêu biểu Chức tạo tài khoản Đầu vào Đầu Mô tả + Tên người sử dụng + Địa Email người sử dụng + Password + Incoming server + Outcoming server (SMTP server) + Giao diện login vào chương trình (nếu thành cơng) + Thông báo lỗi việc tạo tài khoản gặp vấn đề - Người dùng bắt buộc phải tạo tài khoản riêng sử dụng chương trình - Điền thơng tin theo mẫu Màn hình Chức login vào hệ thống: Đầu vào Đầu Mô tả Tài khoản người dùng khởi tạo thành cơng + Giao diện chương trình (nếu thành công) + Thông báo lỗi đăng nhập thất bại Người lựa chọn tài khoản mà minh khởi tạo nhấn nút OK để đăng nhập vào chương trình Svth: Phạm Thị Thơm -Lớp 43TH -Khoa Công Nghệ Thông Tin Đồ án tốt nghiệp Màn hình Gvhd: PGS.TS Nguyễn Đăng Tộ Svth: Phạm Thị Thơm -Lớp 43TH -Khoa Công Nghệ Thông Tin Đồ án tốt nghiệp Gvhd: PGS.TS Nguyễn Đăng Tộ Chức soạn thảo gửi thư: Đầu vào + Địa email người nhận thư (bắt buộc phải có) + chủ đề thư (tùy chọn) + File liệu đính kèm cần thiết(tùy chọn) Đầu + Thơng báo message gửi (nếu thành công) + Lỗi gây message không gửi Mô tả Người dùng bắt buộc phải đăng nhập địa email người nhận thư gửi thư thư Trong q trình soạn thảo thư người sử dụng sử dụng thêm chức copy, paste để việc soạn thảo thư diễn nhanh chóng Có thể gửi kèm theo thư file liệu với kích thước phù hợp Màn hình Svth: Phạm Thị Thơm -Lớp 43TH -Khoa Công Nghệ Thông Tin Đồ án tốt nghiệp Gvhd: PGS.TS Nguyễn Đăng Tộ Chức configure Đầu vào + thơng tin người dùng muốn thêm, sửa, xóa … Đầu +File liệu sau update Mơ tả Nếu muốn thêm, sửa xóa hay cập nhật thôn tin Spammer hay thêm vào tập mẫu spam từ cần thiết sử dụng chức Màn hình Chức tạo sổ địa chỉ: Đầu + Tên vào + Địa Mail Đầu Danh sách user addressbook Mà n hình Svth: Phạm Thị Thơm -Lớp 43TH -Khoa Công Nghệ Thông Tin Đồ án tốt nghiệp Gvhd: PGS.TS Nguyễn Đăng Tộ Chức lọc thư theo địa chỉ: Đầu vào Tên địa mail người muốn lọc thư Đầu Danh sách uer cần lọc Màn hình Việc kết hợp lọc thư rác theo nhiều cách khác giúp cho việc lọc thư rác có hiệu Đó kết hợp thuật toán Naive Bayes với việc lọc thư qua địa người gửi, qua tiêu đề thư Mà sở liệu người dùng tùy chọn cấu hình lại cho phù hợp qua chức “configures” Đây kết đáng kể mà chương trinh đạt Giao diện mô tả việc lọc thư rác qua địa người gửi tiêu đề thư sau: Đầu vào Lựa chọn người sử dụng Đầu Kết hợplọc thư rác theo tùy chọn nhấn Màn hình Svth: Phạm Thị Thơm -Lớp 43TH -Khoa Cơng Nghệ Thông Tin Đồ án tốt nghiệp Gvhd: PGS.TS Nguyễn Đăng Tộ 5.5 Sử dụng chương trình Chương trình có tổng cộng ba gói: Mail.jar, activation.jar MailClient.jar - Mail.jar: gói hãng sun kèm theo trình dịch java, ứng dụng gói dùng để hỗ trợ cho việc đọc mail gởi mail dựa vào gói người lập trình viên viết chương trình client đọc mail gởi mail cách dễ dàng thơng qua lớp sẵn có gói tin - activation.jar: gói chủ yếu sử lý biến cố liên quan tới mail đọc mail gói làm nhiệm vụ phân tích mail có file kèm khơng hay mail định dạng theo kiểu nào, cò gởi mail cần gọi thủ tục gói tin để định dạng mail theo dạng chuẩn tiến hành gởi Ngồi cịn nhiều tính khác tuỳ theo mục đích sử dụng chương trình - MailClient.jar: gói chứa source code chương trình biên dịch thành file class 5.5.1 Cài đặt chạy chương trình Vì chương trình viết ngôn ngữ Java mã nguồn mở, nên để chạy chương trình điều kiện cần trước tiên hệ điều hành dùng để chạy chương trình phải hiểu Java nghĩa máy phải có máy ảo Java chạy Để có máy ảo Java tốt nên cài đặt JDK phiên hãng Sun, (khuyến cáo nên sử dụng JDK 1.5.0) cài đặt xong JDK cần copy gói vào thư mục ổ đĩa cứng chạy File run.bat chương trình MailClient thực thi 5.5.2 Hướng dẫn sử dụng: Để sử dụng mail client người dùng phải có tài khoản định Khi khởi động chương trình yêu cầu người dùng chọn tài khoản (nếu cõ sẵn số tài khoản định) không phải tạo tài khoản Để tạo cho tài khoản kích hoạt nút “create” làm theo dẫn để tạo tài khoản Nếu thành cơng đăng nhập vào chương trình theo tài khoản lập Tất hướng dẫn cụ thể có mục Help vietnamese Các bạn sử dụng chức để xem chi tiết Svth: Phạm Thị Thơm -Lớp 43TH -Khoa Công Nghệ Thông Tin Đồ án tốt nghiệp Gvhd: PGS.TS Nguyễn Đăng Tộ 5.6 Kết luận định hướng phát triển 5.6.1 Những kết đạt Nhìn chung chương trình thực hoàn thiện cho MailClient desktop đạt kết đáng kể sau: - Các chức chương trình Email Nhận - Soạn - Gửi E-mail Cho phép kèm theo files thư Cho phép tạo Address book Cho phép chọn lựa giao thức POP3 (Default), IMAP hay SMTP - Cho phép Import Export (thư địa E-mail) sang chương trình Email khác sang dạng text, ( chức forward, reply, replyall…) Có tính bảo mật chặt chẽ (password mã hóa thành kí tự khác nhau) Dễ hiểu dễ sử dụng( giao diện thân thiện với người sử dụng) Hỗ trợ thư HTML, Plain Text với định dạng MIME, Unicode Chức lọc thư rác Thực chức lọc thư rác tự động giải thuật Naive Bayes Kết hợp lọc thư rác qua địa (sender) qua tiêu đề thư (subject) Hỗ trợ giao thức truy cập thư mục đơn LDAP (đi kèm với IMAP) 5.6.2 Những hạn chế Mặc dù có nhiều ưu điểm thời gian hạn chế kiến thức chương trình MailClient tơi cịn hạn chế sau: - Chương trình thử nghiệm số hòm thư wru trường đại học Thủy Lợi chưa có điều kiện tiếp thu “feedBack” từ người sử dụng để thay đổi cho phù hợp với yêu cầu thực tế - Mỗi logon chương hỗ trợ user chưa hỗ trợ nhiều hòm thư Svth: Phạm Thị Thơm -Lớp 43TH -Khoa Công Nghệ Thông Tin Đồ án tốt nghiệp Gvhd: PGS.TS Nguyễn Đăng Tộ - Bộ từ điển mẫu ban đầu sơ sài mang tính cá nhân sử dụng chương trình tùy theo người dùng khác cấu hình lại cho phù hợp với hịm thư - Quá trình phân loại mail bỏ qua nội dung file đính kèm cần hồn thiện phát triển để phân loại mail cách xác việc phân lọc mail kết hợp với hình thức lọc mail khác nhằm nâng cao hiệu phân loại Định hướng phát triển Để thấy rõ hiệu phân loại thư rác tự động chương trình MailClient mà tơi xây dựng, với đề tài ứng dụng dịch vụ mail trường Đại Học Thủy Lợi dịch vụ mail khác Có thể kết hợp lọc thư rác qua đặc trưng khác khác thư điện tử hoàn thiện thêm chức chương trình để nghĩa thực tế chương trình cao Một lần tơi xin gửi lời cảm ơn tới PGS.TS Nguyễn Đăng Tộ KS Nguyễn Mạnh Hiển nhiệt tình giúp đỡ tơi hồn thành đồ án Xin cảm ơn thầy cô khoa bạn bè giúp đỡ thời gian vừa qua Svth: Phạm Thị Thơm -Lớp 43TH -Khoa Công Nghệ Thông Tin Đồ án tốt nghiệp Gvhd: PGS.TS Nguyễn Đăng Tộ Phụ lục Các thuật ngữ tiếng Anh dùng chương trình: OECD: Organization for Economic Co-operatation Development: tổ chức hợp tác phát triển kinh tế FTC : Federal Trade Commission - Ủy ban thương mại liên bang Ferris Research: hãng nghiên cứu thị trường Ferris ISP: Internet services provider - nhà cung cấp dịch vụ Internet DF: document frequency - tần suất tài liệu MI: Manual Information - lượng tin tương hỗ CF-DF (catagorization frequency- DF) IDF: Inverse document frequency - tần suất tài liệu ngược Prototype: Nguyên mẫu SVM: Support vectors Machines - vector trợ giúp Dicision Trees: định Neuron network: mạng neuron User: Người sử dụng Spam mail: thư rác Ham mail: thư hợp lệ SMTP: Simple Mail Transfer Protocol - Giao thức chuyển thư đơn giản POP3: Post office protocol Version - Giao thức phân phát thư IMAP4: Internet Message Access Protocol version - Một giao thức phân phối thư điện tử DNS : Domain Service System - dịch vụ quản lí tên miền MUA: Messge User Agents - tác nhân người sử dụng MAT: Message Transfer Agent - tác nhân truyền thông điệp User Profile: Hiện trạng người sử dụng RFC 822 (Request for Comments) - Chuẩn định nghĩa cấu trúc thư RFC 821 đặc tả giao thức trao đổi thư hai trạm mạng MIME (Multipurpose Internet Mail Extension) – Mẫu x tin nhắn chuẩn Internet Host name: Tên máy tính Mailing list: danh sách gửi thư LDAP (Lightweight Directory Access Protocol ) - Giao thức truy cập thư mục đơn giản kèm theo IMAP Svth: Phạm Thị Thơm -Lớp 43TH -Khoa Công Nghệ Thông Tin Đồ án tốt nghiệp Gvhd: PGS.TS Nguyễn Đăng Tộ Cc (Carbon copy) cho biết địa người nhận (còn gọi địa đồng gửi) Bcc: (Blind carbon copy) Thư mục nội dung đĩa CD đính kèm: JDK 1.5.0 Đây chương trình cài đặt máy ảo java máy tính Các phiên java tham khảo địa website java.sun.com MailClient – thư mục chứa chương trình Baocao – thư mục chứa nội dung báo cáo tốt nghiệp Huongdan – thư mục chứa trợ giúp chương trình Svth: Phạm Thị Thơm -Lớp 43TH -Khoa Công Nghệ Thông Tin Đồ án tốt nghiệp Gvhd: PGS.TS Nguyễn Đăng Tộ Tài liệu tham khảo Yiming Yang Xin Liu – School of computer science, Carnegie Mellon University – A re- examination of text categorization method YmingYang – Carnegie Mellon University – A Study on Thresholding Strategies for Text Categorization Heide Brücher, Gerhard Knolmayer, Marc-André Mittermayer - University of Bern Institute of Information Systems – Document Classification Methods for Organizing Explicit Knowledge Thorsten Joachims School of computer science, Carnegie Mellon University – A Probabilistic Analysis of the Rocchio Algorithm tháng 3/1996 KathrinEichler keichler@sfs.uni-tuebingen.de Seminarfur Sprach wissen schaft Eberhard-Karls-Universitat Tubingen - Automatic Classification of Swedish EmailMessage - 17thAugust2005 Bart Calder, Bill Shannon, Specification vesion 1.0a JavaBeans Activation Framework Mehran Sahami – Computer Science Department Stanford University – Inductive Learning Algorithms and Representations for Text Categorization Yming Yang – School of computer science, Carnegie Mellon University – A comparative study on feature selection in categorization T.A Meyer and B Whateley Meyer:- IIMS, Massey University, Auckland, New Zealand T.A.Meyer@massey.ac.nz Whateley:- Dark Indigo, Inc., Fremont, California, USA brendon@darkindigo.com SpamBayes-Effective open-source, Bayes based, email classification system 10 JohanHovold Department of ComputerScience LundUniversity Box118, 22100Lund, Sweden johan.hovold.363@student.lu.se Naive Bayes Spam Filtering Using Word-Position-Based Attributes 11 KathrinEichler keichler@sfs.uni-tuebingen.de Seminarfur Sprachwissenschaft Eberhard-Karls-UniversitatTubingen Automatic Classification of Swedish Email Messages Svth: Phạm Thị Thơm -Lớp 43TH -Khoa Công Nghệ Thông Tin Đồ án tốt nghiệp Gvhd: PGS.TS Nguyễn Đăng Tộ 12 Copyright StatSoft, Inc., 1984-2004 STATISTICA is a trademark of StatSoft, Inc – Naive Bayes Classifier 13 Trần Tiến Dũng – java giáo trình lí thuyết tập 14 WWW.GFI.COM – Why Bayes filtering is the most effective anti-spam technology 15 John Zukowski - jaz@zukowski.net JZ Ventures, Inc – JavaMail API Fundamentals 16 ChengXiang Zhai - Department of Computer Science University of Illinois, Urbana-Champaign – Retrieval Models: Vector Space 17 Ben Kamens bjk5@fogcreek.com Fog Creek Software, Inc Bayes Filtering: Beyond Binary Classification 18 Yu-Han Chang T A.I Lab & L.C.S.ambridge, MA 02139 ychang@ai.mit.edu December 10, 1999 Email Filtering: Machine Learning Techniques and an Implementation for the UNIX Pine Mail System 19 DanielLowd lowd@cs.washington.edu DepartmentofComputerScienceandEngineering UniversityofWashington Seattle,WA98195-2350USA January17,2005 Naive Bayes Models for Probability Estimation 20 JeffersonProvost DepartmentofComputerSciences TheUniversityofTexasatAustin jp@cs.utexas.edu Naive-Bayes vs.Rule-Learning in Classification of Email 21 SeJune Hong, Jonathan Hosking, Ramesh Natarajan Multiplicative Adjustment of Class Probability: Educating Naive Bayes 22 Yirong Shenand Jing Jiang CS224N Spring 2003 Improving the Performance of NaiveBayes for TextClassification 23 Mehran Sahami, Lambda Susan Dumais y David Heckerman Eric Horvitz, Lambda Gates – A Baysian Approach to filter Junk E-Mail 24 AndrewMcCallum mccallum@justresearch.com - KamalNigam knigam@cs.cmu.edu - A Comparison of Event Models for Naive Bayes Text Classification Svth: Phạm Thị Thơm -Lớp 43TH -Khoa Công Nghệ Thông Tin Đồ án tốt nghiệp Gvhd: PGS.TS Nguyễn Đăng Tộ 25 David D Lewis, Ph.D.Ornarose, Inc & David D Lewis Consulting www.daviddlewis.com -Naive Bayes Text Classification for Spam Filtering 26 School of Information Technology and Engineering – University of Ottawa, ON, Canada - Email Classification with Co-Training 27 KaiWei kwei@cs.berkeley.edu - Improving spamfiltering by combining Naive Bayes with simple-k nearest neighbor searches Svth: Phạm Thị Thơm -Lớp 43TH -Khoa Công Nghệ Thông Tin

Ngày đăng: 28/05/2023, 16:16

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan