Trong phần này sẽ mơ tả đĩng gĩp của luận văn trong vấn đề tích hợp để các bộ lọc thực thi trên mail proxy mFilter.
Quy trình tích hợp các mơ đun phân tích nội dung vào hệ thống lọc thƣ điện tử đƣợc tiến hành nhƣ sau:
67
Hình 24.Quy trình thực hiện lọc thƣ trong hệ thống mFilter
Spool {spamscanner/virusscanner/chuan hoa dữ liệu {lọc ảnh / xác định ngơn ngữ
{lọc tiếng Anh/ lọc tiếng Việt}}}
Quá trình này đƣợc thực hiện một các cụ thể nhƣ sau:
- Kiểm tra thƣ rác: thủ tục này đọc trong file cấu hình để tìm loại lọc thƣ rác nào
đƣợc khai báo và thực hiên lọc.
o Kiểm tra bằng bộ lọc thƣ rác spamassasin
Hàm: static spam_result as_spamassassin(char *filename, double
*score)
Đầu vào:
tTên file lƣu nội dung thƣ trong spooler của proxy mail
Score: nNgƣỡng đánh giá áp dụng khi phân loại thƣ rác.
Đầu ra: thơng báo thƣ cĩ phải là thƣ rác hay khơng?
o Kiểm tra bằng bộ lọc thƣ rác lidb
Hàm: static spam_result as_libdspam(char *filename, double
*score)
Đầu vào:
Tên file lƣu nội dung thƣ trong spooler của proxy mail
Ngƣỡng đánh giá áp dụng khi phân loại thƣ rác.
Filename: tên file
Score: ngƣỡng đánh giá áp dụng khi phân loại thƣ rác.
68
- Kiểm tra virus: thủ tục này đọc trong file cấu hình để tìm cách thức xác định
virus nào đƣợc khai báo và thực hiên lọc. Khi phát hiện ra file cĩ virus, thủ tục sẽ cố gắng thực hiện kill các tiến trình
o Kiểm tra bằng Anti virus clam antivirus daemon
Hàm: static av_result av_clamd(char *filename, char **result)
Đầu vào:
Tên file lƣu nội dung thƣ trong spooler của proxy mail
Ngƣỡng đánh giá áp dụng khi phân loại thƣ rác.Filename:
tên file
Score: ngƣỡng đánh giá áp dụng khi phân loại thƣ rác.
Đầu ra: thơng báo thƣ cĩ chứa virus hay khơng?
o Kiểm tra bằng Anti virus mksd
Hàm: static av_result av_mksd(char *filename, char **result)
Đầu vào:
Tên file lƣu nội dung thƣ trong spooler của proxy mail
Ngƣỡng đánh giá áp dụng khi phân loại thƣ rác.
Filename: tên file
Score: ngƣỡng đánh giá áp dụng khi phân loại thƣ rác.
Đầu ra: thơng báo thƣ cĩ chứa virus hay khơng?
o Kiểm tra bằng Anti virus mksd
Hàm: static av_result av_mks32(char *filename, char **name)
Đầu vào:
Tên file lƣu nội dung thƣ trong spooler của proxy mail
Ngƣỡng đánh giá áp dụng khi phân loại thƣ rác.Filename:
tên file
Score: ngƣỡng đánh giá áp dụng khi phân loại thƣ rác.
Đầu ra: thơng báo thƣ cĩ chứa virus hay khơng?
- Lọc nội dung: thủ tục thực hiện việc lọc ngẫu nghiên với các thƣ nhận, gửi để
phát hiện ra nội dung vi phạm. Quá trình lọc nội dung thƣ đc áp dụng theo trình tự: Nội dung thƣ (tiêu đề, nội dung, các thuộc tính mở rộng dạng văn bản) đƣợc đƣa lần lƣợt qua các bộ lọc. Quá trình này đƣợc lặp lại với các nội dung file đính kèm.
69
Hàm: int checkVnDoc(char * filename)
Đầu vào: tên file
Tên file lƣu nội dung thƣ trong spooler của proxy mail
Đầu ra: thơng báo thƣ bị vi phạm hay hợp lệ.
o Lọc nội dung Tiếng Anh
Hàm: int checkEnDoc(char * filename)
Đầu vào: Tên file lƣu nội dung thƣ trong spooler của proxy mail
Đầu vào: tên file
Đầu ra: thơng báo thƣ bị vi phạm hay hợp lệ.
o Lọc nội dung ảnh
Hàm: int checkImage(char * filename)
Đầu vào: Tên file lƣu nội dung thƣ trong spooler của proxy
mailĐầu vào: tên file
Đầu ra: thơng báo thƣ bị vi phạm hay hợp lệ.
3.2. Cài đặt, cấu hình
Phần này trình bày những điểm chính trong quá trình cài đặt, cấu hình thử nghiệm. Chi tiết quá trình: Tài liệu cài đặt cấu hình hệ thống lọc thƣ.
http://222.252.18.117/namdd/mFilter_setup_config_steps .doc
3.2.1. Cài đặt
Quá trình thử nghiệm cần cài đặt các thành phần
mFilter: sử dụng cơng cụ terminal thực hiện các thao tác tại thƣ mục gốc của mFilter
o Dịch mFilter: make
o Cài đặt: install mFilter
o Cấu hình mFilter: sau khi cấu hình mFilter trong file mFilter.conf,
chép file này vào thƣ mục /etc.
o Thực nghiệm : mfilter –f /etc/mFilter.conf
Mail client: cài đặt ứng dụng gửi nhận mail cho máy client. Trong quá trình thử
nghiệm mail client sử dụng ứng dụng thunderbird
3.2.2. Cấu hình
- mFilter: máy chủ mFilter cần cĩ 2 cấu hình địa chỉ mạng
70
o Ethernet 1: địa chỉ mạng trong, địa chỉ này sẽ nhận các gĩi tin từ mail
client đƣa sang.
71
Hình 25.Hình 26. Cấu hình địa chỉ mạng trong
o Cấu hình NAT: thực hiện NAT gĩi tin nhận đƣợc từ các port theo giao
72
Hình 26.Hình 27. Cấu hình NAT
73
Hình 27.Hình 28. Cấu hình địa chỉ mạng mail client 3.3. Thực nghiệm và đánh giá hệ thống
3.3. 3.4.
Áp dụng mơ hình lọc thƣ điện tử đề xuất, luận văn đã thực hiện xây dựng thử nghiệm hệ thống lọc mFilter với một số kết quả đạt đƣợc:
- Xây dựng hệ thống lọc thƣ tích hợp các bộ lọc
- Trong điều kiện thử nghiệm: sử dụng tính năng forward các thƣ từ địa chỉ thƣ
gmail tới các hịm thƣ thử nghiệm, chƣơng trình thử nghiệm đạt đƣợc một số kết quả:
o Đối với thƣ nội dung tiếng Anh: chƣơng trình đạt kết quả khá tốt. Hiệu
suất thu đƣợc 80%.
o Đối với thƣ nội dung tiếng Việt: chƣơng trình cho kết quả thấp hơn
nhiều. Hiệu suất chỉ đạt đƣợc 53.3%
o Đối với thƣ nội dung ảnh khơng lành mạnh: chƣơng trình cho kết quả
74
Thƣ vi phạm Thƣ hợp pháp Tổng
Thƣ vi phạm 12 (80%) 3 15
Thƣ hợp pháp 1 14 (93.3%) 15
Tổng 13 17 30
Bảng biểu 11.Kết quả thử nghiệm lọc thƣ tiếng Việt Thƣ vi phạm Thƣ hợp pháp Tổng
Thƣ vi phạm 8 (53.3%) 7 15
Thƣ hợp pháp 2 13 (86.67%) 15
Tổng 10 20 30
Bảng biểu 12.Kết quả thử nghiệm lọc thƣ tiếng Anh Thƣ vi phạm Thƣ hợp pháp Tổng
Thƣ vi phạm 11 (73.3%) 4 15
Thƣ hợp pháp 5 10 (66.7%) 15
Tổng 16 14 30
75
Hình 28.Hình 29. Màn hình kết quả thực thi hệ thống thử nghiệm mFilter
76
KẾT LUẬN Kết quả đạt đƣợc của luận văn:
Theo kết quả phân tích về thực trạng thƣ rác, thƣ vi phạm cho thấy yêu cầu đặt ra đối với giải pháp lọc nội dung thƣ điện tử là cần thiết, luận văn đã thực hiện:
- Phân tích các nội dung cơ bản, kỹ thuật sử dụng trong việc thực hiện lọc thƣ
điện tử (chƣơng 1).
- Khảo sát vấn đề thƣ rác, mã độc hại; đƣa ra các số liệu thống kê đặc thù đối
với vấn đề thƣ rác và trình bày các giải pháp lọc thƣ đang đƣợc áp dụng (chƣơng 1)
- Nghiên cứu vấn đề lọc thƣ nội dung áp dụng phƣơng pháp Bayesian và đề xuất
giải pháp lọc thƣ (chƣơng 2).
- Xây dựng thử nghiệm thành cơng hệ thống lọc mFilter tích hợp các bộ lọc thƣ
rác, lọc thƣ tiếng Việt, lọc tiếng Anh; tích hợp bộ kiểm tra virus.
Dựa trên thơng tin cơ sở về thƣ và vấn đề lọc thƣ đƣợc trình bày trong chƣơng một; kết hợp với mơ hình đề xuất đƣợc đƣa ra trong chƣơng hai, luận văn thực hiện xây dựng phần mềm thử nghiệm theo giải pháp đề ra dựa trên việc tích hợp các sản phẩm mã nguồn mở. Trong các trƣờng hợp thử nghiệm, chƣơng trình đã hoạt động đúng với chức năng đề ra.
Phƣơng hƣớng nghiên cứu tiếp theo
Xuất phát từ vấn đề thƣ rác, cơng tác quản lý, giải pháp lọc thƣ điện tử theo phân tích nội dung đang là hƣớng nghiên cứu đƣợc thực hiện bởi các quốc gia và nhiều tổ chức lớn. Các giải pháp đặt trọng tâm vào vấn đề nghiên cứu các phƣơng pháp phân tích nội dung tìm cách áp dụng chúng vào hệ thống thƣ điển tử. Nghiên cứu, xây dựng một một hệ thống lọc thƣ điện đạt hiệu quả cao hơn nữa là vấn đề nghiên cứu tiếp theo của luận văn này.
i
TÀI LIỆU THAM KHẢO
Tiếng Việt
1. Cục Cơng nghệ Tin học nghiệp vụ Bộ Cơng An (03/2008), “Đề tài KC.01.07/10 - Nghiên cứu, phát triển hệ thống lọc nội dung hỗ trợ quản lý và đảm bảo an tồn – an ninh thơng tin trên mạng Internet”, tài liệu kỹ thuật. 2. Cục Cơng nghệ Tin học nghiệp vụ Bộ Cơng An, “Tài liệu nghiên cứu, phân
tích và đánh giá tình hình quản lý Nhà nước về lọc nội dung trên thế giới”, báo cáo chuyên đề trong khuơn khổ đề tài nhà nƣớc mang mã số 02/2006 /HĐ - ĐTCT-KC.01/06-10.
3. Cục Cơng nghệ Tin học nghiệp vụ Bộ Cơng An, “Tài liệu nghiên cứu, phân tích và đề xuất chính sách pháp lý tại Việt nam cho vấn đề lọc nội dung thơng tin trên mạng Internet”, báo cáo chuyên đề trong khuơn khổ đề tài nhà nƣớc mang mã số 02/2006 /HĐ - ĐTCT-KC.01/06-10.
4. Cục Cơng nghệ Tin học nghiệp vụ Bộ Cơng An, “Tài liệu nghiên cứu và đánh giá tổng quan thực trạng lọc nội dung Internet trên thế giới”, báo cáo chuyên đề trong khuơn khổ đề tài nhà nƣớc mang mã số 02/2006 /HĐ - ĐTCT-KC.01/06-10.
5. Cục Cơng nghệ Tin học nghiệp vụ Bộ Cơng An,“Tài liệu nghiên cứu, phân tích và đánh giá các thuật tốn lọc văn bản theo nội dung”, báo cáo chuyên đề trong khuơn khổ đề tài nhà nƣớc mang mã số 02/2006 /HĐ - ĐTCT- KC.01/06-10.
6. Cục Cơng nghệ Tin học nghiệp vụ Bộ Cơng An, “Tài liệu nghiên cứu, phân tích và đánh giá các giải thuật lọc dựa URL, links và chuẩn PICS”, báo cáo chuyên đề trong khuơn khổ đề tài nhà nƣớc mang mã số 02/2006 /HĐ - ĐTCT-KC.01/06-10.
7. Cục Cơng nghệ Tin học nghiệp vụ Bộ Cơng An, “Tài liệu nghiên cứu, phân tích và đánh giá các giải thuật lọc ảnh”, báo cáo chuyên đề trong khuơn khổ đề tài nhà nƣớc mang mã số 02/2006 /HĐ - ĐTCT-KC.01/06-10.
8. Cục Cơng nghệ Tin học nghiệp vụ Bộ Cơng An, “Tài liệu nghiên cứu, tìm hiểu và đánh giá các kỹ thuật cho phép quản lý các luồng dữ liệu vào/ra tại một cổng Internet quốc gia”, báo cáo chuyên đề trong khuơn khổ đề tài nhà nƣớc mang mã số 02/2006 /HĐ - ĐTCT-KC.01/06-10.
9. Trƣờng Đại học Cơng nghệ - ĐHQGHN (2008), “Nghiên cứu, phân tích và đánh giá các giải thuật lọc hình ảnh trên Internet”, tài liệu kỹ thuật.
ii
10. Aas, K. and L. Eikvil (1999, June). Text categorisation: A survey. Technical report, Norwegian Computing Center, P.B. 114 Blindern, N-0314, Oslo, Norway. Technical Report 941.
11. Andrew McCallum, Kamal Nigam, A Comparison of Event Model for Naive Bayes Text Classification, Working Notes of the 1998 AAAI/ICML Workshop on Learning for Text Categorization.
12. Bayesian Whitelisting: Finding the Good Mail Among the Spam
13. Cormack, G. Statistical precision of information retrieval evaluation. In Proceedings of SIGIR 2006 (Seattle, WA, 2006).
14. Cormack, G., and Bratko, A. Batch and on-line spam filter evaluation. In Proceedings of CEAS (2006 (Mountain View, CA, 2006).
15. Dang Thanh Hai, Nguyen Huong Giang, Ha Quang Thuy (2005). Naive Bayes text classification algorithm and problem of specifying clasifying threshold in search engine. Journal of Computer Science & Cybernetics 21(2), 152-161.
16. Paul Graham, independent writer and author of "A Plan for Spam" and "Better Bayesian Filtering
17. First Conference on Email and Anti-Spam - CEAS 2004, Mountain View, CA, USA, July 30 and 31, 2004.
18. Ion Androutsopoulos, John Koutsias, Konstantinos V. Chandrinos, George Paliouras and Constantine D. Spyropoulos, An Evaluation of Naive Bayesian Anti-Spam Filtering, Software and Knowledge Engineering Laboratory, National Centre for Scientific Research “Demokritos”
19. Gordon Cormack, TREC 2006 Spam Track Overview, University of Waterloo - Waterloo, Ontario, Canada
20. Gabrilovich, E. and S. Markovitch (2006, July). Overcoming the brittleness bottleneck using Wikipedia: Enhancing text categorization with encyclopedic knowledge. In Proceedings of the 21st National Conference on Artificial Intelligence, Menlo Park, CA, pp. 1301–1306. AAAI Press.
21. Greevy, E. & Smeaton, A.F. (2004). Classifying racist texts using a support vector machine. In Proceedings of the 27th annual international ACM SIGIR conference on Research and development in information retrieval (pp. pp. 468-469). : ACM Press, Sheffield, United Kingdom
22. Hammami, M., Y. Chahir, and L. Chen (2003). Webguard: Web based adult content detection and filtering system. In WI ’03: Proceedings of the 2003 IEEE/WIC International Conference on Web Intelligence, Washington, DC, pp. 574. IEEE Computer Society.
23. Hunnisett, D. S. & Teahan, W.J. (2004). Context-based methods for text categorisation. In Proceedings of the 27th annual international ACM SIGIR conference on Research and development in information retrieval (pp. pp. 578-579). ACM Press, Sheffield, United Kingdom
iii
24. Munawar Hafiz, Ralph E Johnson, Raja Afandi, The Security Architecture of smtp-gated, University of Illinois at Urbana-Champaign, Department of Computer Science
25. Nguyen Viet Cuong, Nguyen Thi Thuy Linh Ha Quang Thuy and Phan Xuan Hieu (2006). A Maximum Entropy Model for Text Classification. In The International Conference on Internet Information Retrieval 2006, Hankuk Aviation University, December 6, 2006, Goyang-si, Korea, 134-139.
26. Susana Eyheramendy, David D. Lewis, David Madigan, On the Naive Bayes Model for Text Classification, In Artificial Intelligence & Statistics 2003. 27. Soumen Chakrabarti (2003). Mining the web- discovering knowledge from
Hypertext Data Morgan Kaufman Publishers, 2003: 183-188.
28. Scalable Centralized Bayesian Spam Mitigation with Bogofilter,Jeremy Blosser and David Josephsen, VHA, Inc.
29. Xu, J. & Croft, B. (1998). Corpus-based stemming using cooccurrence of word variants. ACM Transactions on Information Systems, 16, pp. 61-81. 30. Yi Zhang (2005). Bayesian Graphical Models for Adaptive Filtering. PhD.
Thesis, School of Computer Science, Carnegie Mellon University.
31. Zhang, D., Chen, X. & Lee, W.S. (2005). Text classification with kernels on the multinomial manifold. In Proceedings of the 28th annual international ACM SIGIR conference on Research and development in information retrieval (pp. pp. 266-273). ACM Press, Salvador, Brazil
32. Documentation for Exim http://www.exim.org/exim-html- current/doc/html/index.html
33. Documentations of Spamasssasin project:
http://spamassassin.apache.org/doc.html
34. Open spambayes project: http://sourceforge.net/spambayes 35. Software topten review: http://toptenreviews.com
36. The 10 Worst Spam Origin Countries/ The 10 Worst Spam Service ISPs