3. Quá trình huấn luyện và đánh giá
3.5.2. Nguồn dữ liệu dùng cho thí nghiệm và đánh giá
Các nguồn thư rác thu thập là trang rao vặt, các hãng bất động sản, các hãng mỹ phẩm, máy tính, một số tờ báo phản động như .... Nguồn thư sạch là nguồn thư của cá nhân gồm các thư được chọn từ các thư của bản thân, các thư trao đổi thơng tin hàng ngày. Một trong những loại thư nếu gửi khơng đúng đối tượng, gửi với nội dung phản động hoặc quảng cáo sẽ được coi là thư rác.
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Kết luận
Trong quá trình thực hiện đồ án tốt nghiệp này, em đã đạt được những kết quả sau:
• Tìm hiểu được những kiến thức cơ bản về hệ thống thư điện tử, thành phần của một bức thư điện tử, cách thức hoạt động của hệ thống.
• Tìm hiểu về hệ thống lọc thư rác, các phương pháp lọc thư rác, đặc biệt là phương pháp lọc thư rác dựa trên lý thuyết Bayesian.
• Tìm hiểu lý thuyết chung về phân loại văn bản.
• Nghiên cứu và thiết kế hệ thống lọc thư rác tiếng Việt trên cơng nghệ của SpamAssassin.
Bên cạnh đĩ, đồ án cần khắc phục một số điểm chưa tốt.
• Giao diện dịng lệnh của SpamAssassin cịn khĩ dùng với người chưa thơng thạo.
• Chưa huấn luyện hệ thống với một bộ dữ liệu mẫu đủ lớn (trên 1000 thư), đa dạng để cĩ kết quả chính xác và ổn định.
Hướng phát triển tiếp theo
Trong thời gian tới em dự kiến sẽ tiếp tục nghiên cứu và phát triển hệ thống theo các hướng:
• Xây dựng một giao diện quản trị hệ thống giúp cho việc thao tác, quản lý được dễ dàng, trực quan hơn.
• Huấn luyện cho hệ thống với một bộ dữ liện đủ lớn.
• Hỗ trợ thêm một số loại mã tiếng Việt khác (VNI Windows, TCVN3,...) • Nghiên cứu thêm các thuật tốn tách từ khác hiệu quả hơn cho thư tiếng
TÀI LIỆU THAM KHẢO
[1] Jonathan A. Zdziarski, Ending Spam: Bayesian Content Filtering and the Art of Statistical Language Classification, No Starch Press 2005
[2] Quang-Anh Tran, Real-time statistical rules for spam detection, Haixin Duan, Xing Li Network Research Center, Tsinghua University, Beijing 100084 , China Email: qa@ccert.edu.cn
[3]Androutsopoulos I., Koutsias, J., Chandrinos, K.V., Paliouras, G., Spyropoulos, C.D., 2000. An evaluation of Naive Bayesian anti-Spam filtering. Proceedings of the Workshop on Machine Learning in the New Information Age, 11th European Conference on Machine Learning, Barcelona, Spain
[4] Christian Kaul, Johannes Knabe, Tobias Lang, Volker Sperschneider Filtering Spam E-mail with Support Vector Machines, Publications of the Institute of Cognitive Science Volume 8-2004
[5] Alan Schwartz, SpamAssassin, O'Reilly-July 2004- 0-596-00707-8 [6]RFC2822, Internet Message Format.
[7]RFC2045-RFC2046-RFC2047-RFC2048-RFC2049, Multipurpose Internet Mail Extensions
[8]Tống Đình Quỳ, Giáo trình xác suất thống kê tốn học, Đại Học Bách Khoa Hà Nội, 2000
[9] Vũ Ngọc Tiệp, Tìm hiểu các giải thuật trích chọn từ khố , Đồ án Tốt nghiệp đại học Khoa Cơng nghệ Thơng tin, Đại học Bách Khoa Hà Nội, 2004.
[10] Gary Robinson, A Statistical Approach to the Spam Problem , The Original Monthly Magazine of the Linux Community 2003 -03-01
[11] Graham, P., Better Baysian Filtering. In Proceedings of Spam Conference
(2003). http://spamconference.org/proceedings2003.html. [12] T.M. Mitchell, Machine Learning, Mc Graw Hill (1997).
[13] Eui-Hong (Sam) Han, George Karypis, Vipin Kumar, Text Categorization Using Weight Adjusted k-Nearest Neighbor Classification, 1999.
[14] Sahami, M., Dumais,S., Heckerman, D., and Horvitr E, A Bayesian Apprach to Filtering Junk E-Mail. In Learning For Text Categorization , Papers form AAAI Workshop. Madison Wisconsin. AAAI Techniacal Report WS-98-05,1998. [15] Gary Robinson , A Statistical Approach to the Spam Problem , Linux Journal-
[16] Cormac O’Brien & Carl Vogel, Spam Filters: Bayes vs. Chi-squared; Letters vs. Words.
MƠ TẢ NỘI DUNG ĐĨA CD KÈM THEO
Trong đĩa CD kèm theo cĩ 5 thư mục : Doc, Presentation, Application, References, Abstract
• Doc: là thư mục chứa báo cáo đồ án tốt nghiệp.
• Presentation: chứa file PowerPoint trình bày luận văn
• Application : là thư mục chứa chương trình, hướng dẫn sử dụng, các bộ dữ liệu thử và mã nguồn.
• References : là thư mục chứa các tài liệu tham khảo. • Abstract : là thư mục chứa bản tĩm tắt đồ án tốt nghiệp.