Những hạn chế

Một phần của tài liệu Xây dựng một Email Client với khả năng lọc thư rác tự động bằng việc ứng dụng phương pháp phân loại văn bản Naive Bayes (Trang 74)

Mặc dù có nhiều ưu điểm nhưng do thời gian và hạn chế về kiến thức chương trình MailClient của tôi vẫn còn những hạn chế sau:

- Chương trình mới chỉ thử nghiệm trên một số hòm thư wru của trường

đại học Thủy Lợi vì thế chưa có điều kiện tiếp thu “feedBack” từ người sử dụng để có thể thay đổi cho phù hợp với yêu cầu thực tế.

- Bộ từ điển mẫu ban đầu còn khá sơ sài và mang tính cá nhân vì thế khi sử dụng chương trình tùy theo những người dùng khác nhau có thể cấu hình lại cho phù hợp với hòm thư của mình.

- Quá trình phân loại mail bỏ qua nội dung của các file đính kèm vì thế

cần được hoàn thiện và phát triển để phân loại mail một cách chính xác hơn đó là việc phân lọc mail kết hợp với các hình thức lọc mail khác nhằm nâng cao hiệu quả phân loại.

Định hướng phát triển

Để thấy rõ được hiệu quả của phân loại thư rác tự động trong chương trình MailClient mà tôi đã xây dựng, với đề tài này có thể ứng dụng ngay trên dịch vụ mail của trường Đại Học Thủy Lợi cũng như các dịch vụ mail khác. Có thể kết hợp lọc thư rác qua các đặc trưng khác nhau khác của thư điện tử và hoàn thiện thêm các chức năng trong chương trình để nghĩa thực tế của chương trình được cao hơn.

Một lần nữa tôi xin được gửi lời cảm ơn tới PGS.TS Nguyễn Đăng Tộ

KS Nguyễn Mạnh Hiển đã nhiệt tình giúp đỡ tôi hoàn thành đồ án này. Xin cảm ơn các thầy cô trong khoa cùng bạn bè đã giúp đỡ tôi trong thời gian vừa qua.

Phụ lục

Các thuật ngữ tiếng Anh dùng trong chương trình:

OECD: Organization for Economic Co-operatation Development: tổ chức hợp tác phát triển kinh tế

FTC : Federal Trade Commission - Ủy ban thương mại liên bang

Ferris Research: hãng nghiên cứu thị trường Ferris

ISP: Internet services provider - nhà cung cấp dịch vụ Internet

DF: document frequency - tần suất tài liệu

MI: Manual Information - lượng tin tương hỗ

CF-DF (catagorization frequency- DF)

IDF: Inverse document frequency - tần suất tài liệu ngược

Prototype: Nguyên mẫu

SVM: Support vectors Machines - vector trợ giúp

Dicision Trees: cây quyết định

Neuron network: mạng neuron

User: Người sử dụng

Spammail: thư rác

Hammail: thư hợp lệ

SMTP: Simple Mail Transfer Protocol - Giao thức chuyển thư đơn giản

POP3: Post office protocol Version 3 - Giao thức phân phát thư

IMAP4: Internet Message Access Protocol version 4 - Một giao thức phân phối thư điện tử

DNS : Domain Service System - dịch vụ quản lí tên miền

MUA: Messge User Agents - tác nhân người sử dụng

MAT: Message Transfer Agent - tác nhân truyền thông điệp

User Profile: Hiện trạng người sử dụng

RFC 822 (Request for Comments) - Chuẩn định nghĩa cấu trúc thư

RFC 821 đặc tả giao thức trao đổi thư giữa hai trạm của mạng

MIME (Multipurpose Internet Mail Extension) – Mẫu x tin nhắn chuẩn trên

Internet

Host name: Tên của máy tính

Mailing list: danh sách gửi thư

LDAP (Lightweight Directory Access Protocol ) - Giao thức truy cập thư mục

Cc (Carbon copy) cho biết địa chỉ của những người nhận kế tiếp (còn gọi là địa chỉ đồng gửi)

Bcc: (Blind carbon copy)

Thư mục và nội dung đĩa CD đính kèm:

JDK 1.5.0 Đây là chương trình cài đặt máy ảo java trên máy tính. Các phiên bản mới hơn của java có thể tham khảo tại địa chỉ website java.sun.com

MailClient – thư mục chứa chương trình

Baocao – là thư mục chứa nội dung báo cáo tốt nghiệp

Tài liệu tham khảo

1. Yiming Yang và Xin Liu – School of computer science, Carnegie

Mellon University – A re- examination of text categorization method

2. YmingYang – Carnegie Mellon University – A Study on Thresholding

Strategies for Text Categorization

3. Heide Brücher, Gerhard Knolmayer, Marc-André Mittermayer - University

of Bern Institute of Information Systems – Document Classification

Methods for Organizing Explicit Knowledge

4. Thorsten Joachims School of computer science, Carnegie Mellon

University – A Probabilistic Analysis of the Rocchio Algorithm tháng

3/1996

5. KathrinEichler keichler@sfs.uni-tuebingen.de Seminarfur Sprach wissen

schaft Eberhard-Karls-Universitat Tubingen - Automatic Classification of

Swedish EmailMessage - 17thAugust2005

6. Bart Calder, Bill Shannon, JavaBeans Activation Framework

Specification vesion 1.0a

7. Mehran Sahami – Computer Science Department Stanford University –

Inductive Learning Algorithms and Representations for Text Categorization

8. Yming Yang – School of computer science, Carnegie Mellon University –

A comparative study on feature selection in categorization

9. T.A Meyer and B Whateley Meyer:- IIMS, Massey University, Auckland, New Zealand T.A.Meyer@massey.ac.nz Whateley:- Dark Indigo, Inc., Fremont, California, USA brendon@darkindigo.com

SpamBayes-Effective open-source, Bayes based, email classification system

10. JohanHovold Department of ComputerScience LundUniversity

Box118, 22100Lund, Sweden johan.hovold.363@student.lu.se

Naive Bayes Spam Filtering Using Word-Position-Based Attributes

11. KathrinEichler keichler@sfs.uni-tuebingen.de

Seminarfur Sprachwissenschaft Eberhard-Karls-UniversitatTubingen

12. CopyrightStatSoft, Inc., 1984-2004 STATISTICA is a trademark of

StatSoft, Inc – NaiveBayes Classifier

13. Trần Tiến Dũng – java giáo trình lí thuyết và bài tập

14.WWW.GFI.COM – Why Bayes filtering is the most effective anti-spam technology

15. John Zukowski - jaz@zukowski.net JZ Ventures, Inc – JavaMail API

Fundamentals

16. ChengXiang Zhai - Department of Computer Science

University of Illinois, Urbana-Champaign – Retrieval Models: Vector Space

17. Ben Kamens bjk5@fogcreek.com Fog Creek Software, Inc.

Bayes Filtering: Beyond Binary Classification

18. Yu-Han Chang .T. A.I. Lab & L.C.S.ambridge, MA 02139

ychang@ai.mit.edu December 10, 1999

Email Filtering: Machine Learning Techniques and an Implementation for the UNIX Pine Mail System

19. DanielLowd lowd@cs.washington.edu

DepartmentofComputerScienceandEngineering UniversityofWashington Seattle,WA98195-2350USA January17,2005

Naive Bayes Models for Probability Estimation

20. JeffersonProvost DepartmentofComputerSciences

TheUniversityofTexasatAustin jp@cs.utexas.edu

Naive-Bayes vs.Rule-Learning in Classification of Email

21. SeJune Hong, Jonathan Hosking, Ramesh Natarajan Multiplicative

Adjustment of Class Probability: Educating Naive Bayes

22. Yirong Shenand Jing Jiang CS224N Spring 2003

Improving the Performance of NaiveBayes for TextClassification

23. Mehran Sahami, Lambda Susan Dumais y David Heckerman Eric Horvitz,

Lambda Gates – A Baysian Approach to filter Junk E-Mail

24. AndrewMcCallum mccallum@justresearch.com - KamalNigam

knigam@cs.cmu.edu - A Comparison of Event Models for Naive Bayes Text Classification

25. David D. Lewis, Ph.D.Ornarose, Inc. & David D. Lewis Consulting

www.daviddlewis.com -Naive Bayes Text Classification for Spam Filtering

26. School of Information Technology and Engineering – University of

Ottawa, ON, Canada - Email Classification with Co-Training

27. KaiWei kwei@cs.berkeley.edu - Improving spamfiltering by combining

Một phần của tài liệu Xây dựng một Email Client với khả năng lọc thư rác tự động bằng việc ứng dụng phương pháp phân loại văn bản Naive Bayes (Trang 74)

w