Mặc dù có nhiều ưu điểm nhưng do thời gian và hạn chế về kiến thức chương trình MailClient của tôi vẫn còn những hạn chế sau:
- Chương trình mới chỉ thử nghiệm trên một số hòm thư wru của trường
đại học Thủy Lợi vì thế chưa có điều kiện tiếp thu “feedBack” từ người sử dụng để có thể thay đổi cho phù hợp với yêu cầu thực tế.
- Bộ từ điển mẫu ban đầu còn khá sơ sài và mang tính cá nhân vì thế khi sử dụng chương trình tùy theo những người dùng khác nhau có thể cấu hình lại cho phù hợp với hòm thư của mình.
- Quá trình phân loại mail bỏ qua nội dung của các file đính kèm vì thế
cần được hoàn thiện và phát triển để phân loại mail một cách chính xác hơn đó là việc phân lọc mail kết hợp với các hình thức lọc mail khác nhằm nâng cao hiệu quả phân loại.
Định hướng phát triển
Để thấy rõ được hiệu quả của phân loại thư rác tự động trong chương trình MailClient mà tôi đã xây dựng, với đề tài này có thể ứng dụng ngay trên dịch vụ mail của trường Đại Học Thủy Lợi cũng như các dịch vụ mail khác. Có thể kết hợp lọc thư rác qua các đặc trưng khác nhau khác của thư điện tử và hoàn thiện thêm các chức năng trong chương trình để nghĩa thực tế của chương trình được cao hơn.
Một lần nữa tôi xin được gửi lời cảm ơn tới PGS.TS Nguyễn Đăng Tộ
và KS Nguyễn Mạnh Hiển đã nhiệt tình giúp đỡ tôi hoàn thành đồ án này. Xin cảm ơn các thầy cô trong khoa cùng bạn bè đã giúp đỡ tôi trong thời gian vừa qua.
Phụ lục
Các thuật ngữ tiếng Anh dùng trong chương trình:
OECD: Organization for Economic Co-operatation Development: tổ chức hợp tác phát triển kinh tế
FTC : Federal Trade Commission - Ủy ban thương mại liên bang
Ferris Research: hãng nghiên cứu thị trường Ferris
ISP: Internet services provider - nhà cung cấp dịch vụ Internet
DF: document frequency - tần suất tài liệu
MI: Manual Information - lượng tin tương hỗ
CF-DF (catagorization frequency- DF)
IDF: Inverse document frequency - tần suất tài liệu ngược
Prototype: Nguyên mẫu
SVM: Support vectors Machines - vector trợ giúp
Dicision Trees: cây quyết định
Neuron network: mạng neuron
User: Người sử dụng
Spammail: thư rác
Hammail: thư hợp lệ
SMTP: Simple Mail Transfer Protocol - Giao thức chuyển thư đơn giản
POP3: Post office protocol Version 3 - Giao thức phân phát thư
IMAP4: Internet Message Access Protocol version 4 - Một giao thức phân phối thư điện tử
DNS : Domain Service System - dịch vụ quản lí tên miền
MUA: Messge User Agents - tác nhân người sử dụng
MAT: Message Transfer Agent - tác nhân truyền thông điệp
User Profile: Hiện trạng người sử dụng
RFC 822 (Request for Comments) - Chuẩn định nghĩa cấu trúc thư
RFC 821 đặc tả giao thức trao đổi thư giữa hai trạm của mạng
MIME (Multipurpose Internet Mail Extension) – Mẫu x tin nhắn chuẩn trên
Internet
Host name: Tên của máy tính
Mailing list: danh sách gửi thư
LDAP (Lightweight Directory Access Protocol ) - Giao thức truy cập thư mục
Cc (Carbon copy) cho biết địa chỉ của những người nhận kế tiếp (còn gọi là địa chỉ đồng gửi)
Bcc: (Blind carbon copy)
Thư mục và nội dung đĩa CD đính kèm:
JDK 1.5.0 Đây là chương trình cài đặt máy ảo java trên máy tính. Các phiên bản mới hơn của java có thể tham khảo tại địa chỉ website java.sun.com
MailClient – thư mục chứa chương trình
Baocao – là thư mục chứa nội dung báo cáo tốt nghiệp
Tài liệu tham khảo
1. Yiming Yang và Xin Liu – School of computer science, Carnegie
Mellon University – A re- examination of text categorization method
2. YmingYang – Carnegie Mellon University – A Study on Thresholding
Strategies for Text Categorization
3. Heide Brücher, Gerhard Knolmayer, Marc-André Mittermayer - University
of Bern Institute of Information Systems – Document Classification
Methods for Organizing Explicit Knowledge
4. Thorsten Joachims School of computer science, Carnegie Mellon
University – A Probabilistic Analysis of the Rocchio Algorithm tháng
3/1996
5. KathrinEichler keichler@sfs.uni-tuebingen.de Seminarfur Sprach wissen
schaft Eberhard-Karls-Universitat Tubingen - Automatic Classification of
Swedish EmailMessage - 17thAugust2005
6. Bart Calder, Bill Shannon, JavaBeans Activation Framework
Specification vesion 1.0a
7. Mehran Sahami – Computer Science Department Stanford University –
Inductive Learning Algorithms and Representations for Text Categorization
8. Yming Yang – School of computer science, Carnegie Mellon University –
A comparative study on feature selection in categorization
9. T.A Meyer and B Whateley Meyer:- IIMS, Massey University, Auckland, New Zealand T.A.Meyer@massey.ac.nz Whateley:- Dark Indigo, Inc., Fremont, California, USA brendon@darkindigo.com
SpamBayes-Effective open-source, Bayes based, email classification system
10. JohanHovold Department of ComputerScience LundUniversity
Box118, 22100Lund, Sweden johan.hovold.363@student.lu.se
Naive Bayes Spam Filtering Using Word-Position-Based Attributes
11. KathrinEichler keichler@sfs.uni-tuebingen.de
Seminarfur Sprachwissenschaft Eberhard-Karls-UniversitatTubingen
12. CopyrightStatSoft, Inc., 1984-2004 STATISTICA is a trademark of
StatSoft, Inc – NaiveBayes Classifier
13. Trần Tiến Dũng – java giáo trình lí thuyết và bài tập
14.WWW.GFI.COM – Why Bayes filtering is the most effective anti-spam technology
15. John Zukowski - jaz@zukowski.net JZ Ventures, Inc – JavaMail API
Fundamentals
16. ChengXiang Zhai - Department of Computer Science
University of Illinois, Urbana-Champaign – Retrieval Models: Vector Space
17. Ben Kamens bjk5@fogcreek.com Fog Creek Software, Inc.
Bayes Filtering: Beyond Binary Classification
18. Yu-Han Chang .T. A.I. Lab & L.C.S.ambridge, MA 02139
ychang@ai.mit.edu December 10, 1999
Email Filtering: Machine Learning Techniques and an Implementation for the UNIX Pine Mail System
19. DanielLowd lowd@cs.washington.edu
DepartmentofComputerScienceandEngineering UniversityofWashington Seattle,WA98195-2350USA January17,2005
Naive Bayes Models for Probability Estimation
20. JeffersonProvost DepartmentofComputerSciences
TheUniversityofTexasatAustin jp@cs.utexas.edu
Naive-Bayes vs.Rule-Learning in Classification of Email
21. SeJune Hong, Jonathan Hosking, Ramesh Natarajan Multiplicative
Adjustment of Class Probability: Educating Naive Bayes
22. Yirong Shenand Jing Jiang CS224N Spring 2003
Improving the Performance of NaiveBayes for TextClassification
23. Mehran Sahami, Lambda Susan Dumais y David Heckerman Eric Horvitz,
Lambda Gates – A Baysian Approach to filter Junk E-Mail
24. AndrewMcCallum mccallum@justresearch.com - KamalNigam
knigam@cs.cmu.edu - A Comparison of Event Models for Naive Bayes Text Classification
25. David D. Lewis, Ph.D.Ornarose, Inc. & David D. Lewis Consulting
www.daviddlewis.com -Naive Bayes Text Classification for Spam Filtering
26. School of Information Technology and Engineering – University of
Ottawa, ON, Canada - Email Classification with Co-Training
27. KaiWei kwei@cs.berkeley.edu - Improving spamfiltering by combining