Phần mềm lọc thư rác POPFile

Một phần của tài liệu Ứng dụng mạng Neural trong phân loại thư rác (Trang 62)

Số hĩa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

63 Popfile là phần mềm mã nguồn mở hỗ trợ lọc thư rác trên client phương pháp

lọc thư rác của popfile là sử dụng thuật tốnNạve Bayes để phân loại. Một số

nhà nghiên cứu đã viết các moodun lọc thư rác theo thuật tốn neural vào popfile

Phiên bản đầu tiên của Popfile được viết bằng Perl bởi John Graham- Cumming. Popfile sử dụng thuật tốn Nạve Bayes để phân loại, lọc mail. Điều này cho phép các bộ lọc để "học" và phân loại email theo yêu cầu của người dùng. Thơng thường Popfile được sử dụng để lọc thư rác mail.

Chương trình làm việc trong các chế độ khác nhau. Trong chế độ phổ biến nhất, Popfile tạo cho chính mình như một Proxy giữa các ứng dụng email và POP3 server. Khi thư được tải về thơng qua POP3, xác định các bộ lọc và phân loại các mail và làm cho người dùng xác định để sửa đổi dịng tiêu đề phụ thêm tên thích hợp. Sau đĩ người dùng thiết lập quy tắc trong mail client để sắp xếp mail dựa trên sự biến đổi dịng tiêu đề. HTML dựa trên giao diện cĩ thể được sử dụng để hướng dẫn POPFile, cho phép người sử dụng để sửa chữa sai sĩt trong phân loại và do đĩ đào tạo đối với các yêu cầu cụ thể của người dùng.[14]

POPFile cĩ thể làm việc như một phần mềm ủy quyền, thay mặt người dùng để kết nối đến máy chủ thư điện tử để nhận Email, sau đĩ phân loại thư và gửi lại cho người dùng. Thư sau khi phân loại, tiêu đề của thư sẽ được sửa đổi Popfile thêm vào các thẻ vào đầu mỗi tiêu đề để phân loại thư.

Email POPFile Email

Số hĩa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

64 Hình 3.1 Cơ sở dữ liệu Popfile

Trong đĩ: Ý nghĩa một số bảng chính

- Bảng Users: Lưu thơng tin về tài khoản người dùng

- Buckets: Là bảng lưu danh mục phân loại các thư, ví dụ: Spam, other,

work, personal

- Words: Là bảng danh mục các từ khĩa được trích chọn trong quá trình

học

- Bảng History: Lưu thơng tin về lịch sử các Email nhận được quá trình

học và phân loại các email

Số hĩa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

65

- Thuật tốn đào tạo (Training Algorithm):

Thuật tốn học (Learning Algorithm):

Thuật tốn này được dùng để loại bỏ tầng dữ liệu cũ và thay thế nĩ bằng một tầng dữ liệu mới khả dụng. Việc loại bỏ cĩ thể diễn ra dựa trên các tiêu chí sau:

Số hĩa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

66

Số hĩa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

67

3.2 Mơ hình phân loại thƣ rác qua Popfile

Số hĩa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

68 MailServer [– truyền mail cho PoPfile –>] PopFile (xử lý và phân loại mail trên PopFile) [– truyền mail cho Mail Client –>] Mail client

Hình 3.2 Mơ hình Popfile (adsbygoogle = window.adsbygoogle || []).push({});

POPFile là một cơng cụ phân loại mail tự động. Sau khi được cài đặt, cấu hình và đào tạo, Popfile sẽ quét tất cả các email khi nĩ đến và phân loại nĩ dựa vào việc luyện tập.

3.2.1 Cấu hình kết nối hệ thống mail qua Popfile - Cài đặt Popfile - Cài đặt Popfile

Truy cập: http://getpopfile.org/ tải và cài đặt

Số hĩa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

69 Hình 3.3 Giao diện Popfile

Thơng thường Outlook sẽ kết nối trực tiếp đến máy chủ mail khi nĩ kiểm tra thư mới.

Khi muốn POPFile để phân loại mail POP3 đến thì cần phải cấu hình lại Outlook để làm cho nĩ sử dụng POPFile. Module POP3, POPFile này hoạt động như một máy chủ proxy cĩ nghĩa là đường dẫn xử lý mail sẽ dưới dạng như thế này:

Outlook - POPFile - internet - mail server

3.2.2 Cấu hình Outlook kết nối với Popfile

Để thiết lập việc truy cập và quản lý tài khoản e-mail từ Outlook. + Khởi động Microsoft Office Outlook 2007

Start > Programs > Microsoft Office > Microsoft Office Outlook 2007 để mở Outlook. Sau khi đã lựa chọn phần mềm Microsoft outlook để đăng nhập, màn hình sử dụng phần mềm sẽ xuất hiện như sau:

Số hĩa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

70 Hình 3.4 Giao diện chính của phần mềm Microsoft Outlook

Sau khi đăng nhập vào giao diện chính của phần mềm, người dùng lựa chọn chức năng Tool → Acount settings… như hình dưới truy cập vào chức năng cài đặt vào tài khoản E - mail

Số hĩa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

71 Hình 3.5 Truy cập chức năng vào tài khoản Email

Sau khi lựa chọn bảng Account Settings xuất hiện

Hình 3.6 Thiết lập tài khoản Email

Số hĩa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

72 Hình 3.7 Thêm tài khoản Email mới

Chọn theo mẫu rồi chọn “Next”

Hình 3.8 Sửa tài khoản Email mới

Hộp thoại Add New E–mail Account mới hiển thị người dùng cần khai báo đầy đủ các khai báo vào bảng

Số hĩa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

73 Hình 3.9 Thay đổi tài khoản Email

Accounnt type: POP3

Incoming mail server: 127.0.0.1

Outgoing mail server (SMTP): Pop.ioit.ac.vn

User name: Pop.ioit.ac.vn:thanhhoa.hmtu@ioit.ac.vn

Sau khi điền đầy đủ các thơng tin, đối với Email cần thiết lập thêm một số chức năng để hệ thống MS outlook cĩ thể giao tiếp với máy chủ E-mail để thực hiện việc gửi nhận thư. Để thực hiện việc này người dùng cần lựa chọn “ More setting” cài đặt mở rộng (adsbygoogle = window.adsbygoogle || []).push({});

Số hĩa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

74 Hình 3.10 Thiết lập thư điện tử

Sau khi hồn thành các bước cài đặt và cấu hình người dùng cĩ thể lựa chọn “Ok” để hồn tất các việc cài đặt.

Bấm chọn Send/Receive kết nối giữa Outlook và Email

3.3 Huấn luyện cho Popfile

Sau khi thiết lập tài khoản E-mail kết nối với phần mềm Microsoft Outlook . Đăng nhập hệ thống 127.0.0.1

Tại giao diện cửa sổ chương trình Popfile Control Center tơi chọn số lượng E-mail work, spam, other, personal theo yêu cầu sau đĩ bấm chọn Reclassify để thực hiện huấn luyện.

Số hĩa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

75

- Chọn lớp lệnh Buckets lấy kết quả

Hình 3.12 Huấn luyện Email trong POPFile

3.4 Kết quả và Đánh giá

Với chương trình này tơi đã thử nghiệm bài tốn nhận dạng thư rác qua mơ hình sử dụng Popfile , kết quả thu được như sau.

Thử nghiệm trainning 20 thư phân loại mỗi loại Kết quả chạy thử chương trình với 500 mail kết quả

Tỉ lệ phân loại Độ chính xác Độ sai âm tính

Spam 12% 80% 20%

Normal 73% 88% 12%

Unclassified 15%

Bảng 3.1 Kết quả lọc Email trong POPFile sau khi trainning với 20 Email Thử nghiệm trainning 40 thư phân loại mỗi loại

Số hĩa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

76 Kết quả chạy thử chương trình với 500 mail kết quả

Tỉ lệ phân loại Độ chính xác Độ sai âm tính

Spam 14% 83% 17%

Normal 76% 91% 9%

Unclassified 10%

Bảng 3.2 Kết quả lọc Email trong POPFile sau khi trainning với 40 Email Thử nghiệm trainning 80 thư phân loại mỗi loại

Kết quả chạy thử chương trình với 500 mail kết quả

Tỉ lệ phân loại Độ chính xác Độ sai âm tính

Spam 18% 99% 1%

Normal 82% 95% 5% (adsbygoogle = window.adsbygoogle || []).push({});

Unclassified 5%

Bảng 3.3 Kết quả lọc Email trong POPFile sau khi trainning với 80 Email

- Từ kết quả thực nghiệm cho thấy phương pháp lọc Email qua POPFile

càng train nhiều thì độ chính xác càng tăng

KẾT LUẬN

Sau thời gian nghiên cứu và tìm hiểu dưới sự hướng dẫn của thầy giáo,

TS Phạm Thanh Giang cùng với sự nỗ lực của bản thân, luận văn đã hồn

thành được mục tiêu đề ra.

1. Những kết quả mà luận văn đã đạt được:

Về mặt lý thuyết:

- Tìm hiểu về những thành phần cơ bản và các kiểu kiến trúc cơ bản của

Số hĩa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

77

- Nắm được ý nghĩa của việc học hay tích luỹ, trong đĩ cĩ vai trị to lớn

của các quy tắc học, mơ hình học và thuật tốn học đối với nhiều khả năng ứng dụng khác nhau.

- Tìm hiểu các ứng dụng của mạng nơron trong thực tế.

- Nắm được những kiến thức cơ bản về mơ hình mạng dẫn tiến đa mức

và cách xây dựng một mơ hình mạng nơron trong thực tế.

- Vận dụng mạng nơron dẫn tiến đa mức và giải thuật lan truyền ngược

để xây dựng chương trình phân loại thư rác.

Về mặt thực tiễn:

Đưa ra phương pháp xử lý với bài tốn phân loại thư rác dựa vào phần mềm POPFile, POPFile sử dụng một kỹ thuật gọi là Naive Bayes để tính tốn xác suất mà các từ trong một email. Thiết lập hệ thống thử nghiệm phân loại thư rác thơng qua phần mềm Popfile.

Tuy biết rằng những điều thu nhận được mới chỉ là một phần rất nhỏ trong một ngành nghiên cứu lớn, tơi tự nhận thấy đã gặt hái được những thành cơng nhất định trong giai đoạn nghiên cứu đầu tiên.

2. Hướng phát triển tiếp theo:

Bên cạnh các kết quả đã đạt được, cịn cĩ những vấn đề chưa được luận văn này giải quyết hay đề cập tới. Trong thời gian tới tơi sẽ tiếp tục nghiên cứu và hồn thiện đề tài với các mục tiêu chính được đặt ra như sau:

- Tiếp tục nghiên cứu, xây dựng mạng cho thư rác dạng hình ảnh và âm thanh

- Xây dựng được hệ thống phân loại thư rác tiếng Việt sử dụng mạng

Số hĩa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

78

TÀI LIỆU THAM KHẢO (adsbygoogle = window.adsbygoogle || []).push({});

Tiếng việt

[1]. Lê Minh Trung, Giáo trình Mạng Nơron nhân tạo, Nhà xuất bản Thống kê, 1999.

[2]. Nguyễn Đình Thúc, Trí tuệ nhân tạo Lập trình tiến hĩa, Nhà xuất bản Giáo Dục, 2008.

[3]. Nguyễn Thanh Thủy, Trí tuệ nhân tạo, Các phương pháp giải quyết vấn đề và kỹ thuật xử lý tri thức, Nhà xuất bản Khoa học và Kỹ thuật, 2007.

[4]. Nguyễn Trần Thiên Thanh, Trần Khải Hồng, Tìm hiểu các hướng tiếp cận bài tốn phân loại văn bản và xây dựng phần mềm phân loại tin tức báo điện tử, Khĩa luận cử nhân tin học 2005.

Số hĩa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

79 [5]. A.Gray and M.Haahr. Personalised, Collaborative Spam Filtering, Proc.Of the Conference on Email and Anti-spam (CEAS), Mountain View, CA, USA, July 2004.

[6]. J. Golbeck and J. Hendler, Reputation Network Analysis for Email Filtering. Proc. Of the Conference on Email and Anti-Spam (CEAS), Mountain View, CA, USA, July 2004.

[7]. Deborah Fallows, Spam: How it is hurting email and degrading life on the internet, Technical report, Pew Internet and American Life Project, Oct 2003.

[8]. Christopher D.Manning, Hinrich Schutze, Foundations Of Statistical Natural Language Processing 1999.

[9]. M.T.Hagan, H.B. Deuth, M.H. Beale, Neural Network Design, PWS Publishing Company, Boston, MA 1996.

Một số website

[10]. Spam Filtering Research, http://spamlinks.net/filter-research.htm. [11]. http://getpopfile.org/. [12].https://etd.ohiolink.edu/rws_etd/document/get/akron1216868348/ie [13].https://uwspace.uwaterloo.ca/bitstream/handle/10012/4344/thesis.f [14].http://www1.cs.columbia.edu/~sh553/publications/final-thesis.pdf [15]. http://getpopfile.org/docs/faq:howitworks. [16]. http://en.wikipedia.org/wiki/POPFile. [17]. http://getpopfile.org/docs/faq:getsourcecode. [18].http://sourceforge.net/projects/popfile/.

Một phần của tài liệu Ứng dụng mạng Neural trong phân loại thư rác (Trang 62)