Tích hợp các bộ lọc

Một phần của tài liệu Giải pháp lọc thư điện tử theo phân tích nội dung (Trang 75)

Trong phần này sẽ mơ tả đĩng gĩp của luận văn trong vấn đề tích hợp để các bộ lọc thực thi trên mail proxy mFilter.

Quy trình tích hợp các mơ đun phân tích nội dung vào hệ thống lọc thƣ điện tử đƣợc tiến hành nhƣ sau:

67

Hình 24.Quy trình thực hiện lọc thƣ trong hệ thống mFilter

Spool  {spamscanner/virusscanner/chuan hoa dữ liệu  {lọc ảnh / xác định ngơn ngữ 

{lọc tiếng Anh/ lọc tiếng Việt}}}

Quá trình này đƣợc thực hiện một các cụ thể nhƣ sau:

- Kiểm tra thƣ rác: thủ tục này đọc trong file cấu hình để tìm loại lọc thƣ rác nào

đƣợc khai báo và thực hiên lọc.

o Kiểm tra bằng bộ lọc thƣ rác spamassasin

 Hàm: static spam_result as_spamassassin(char *filename, double

*score)

 Đầu vào:

tTên file lƣu nội dung thƣ trong spooler của proxy mail

 Score: nNgƣỡng đánh giá áp dụng khi phân loại thƣ rác.

 Đầu ra: thơng báo thƣ cĩ phải là thƣ rác hay khơng?

o Kiểm tra bằng bộ lọc thƣ rác lidb

 Hàm: static spam_result as_libdspam(char *filename, double

*score)

 Đầu vào:

 Tên file lƣu nội dung thƣ trong spooler của proxy mail

 Ngƣỡng đánh giá áp dụng khi phân loại thƣ rác.

Filename: tên file

Score: ngƣỡng đánh giá áp dụng khi phân loại thƣ rác.

68

- Kiểm tra virus: thủ tục này đọc trong file cấu hình để tìm cách thức xác định

virus nào đƣợc khai báo và thực hiên lọc. Khi phát hiện ra file cĩ virus, thủ tục sẽ cố gắng thực hiện kill các tiến trình

o Kiểm tra bằng Anti virus clam antivirus daemon

 Hàm: static av_result av_clamd(char *filename, char **result)

 Đầu vào:

 Tên file lƣu nội dung thƣ trong spooler của proxy mail (adsbygoogle = window.adsbygoogle || []).push({});

Ngƣỡng đánh giá áp dụng khi phân loại thƣ rác.Filename:

tên file

 Score: ngƣỡng đánh giá áp dụng khi phân loại thƣ rác.

 Đầu ra: thơng báo thƣ cĩ chứa virus hay khơng?

o Kiểm tra bằng Anti virus mksd

 Hàm: static av_result av_mksd(char *filename, char **result)

 Đầu vào:

 Tên file lƣu nội dung thƣ trong spooler của proxy mail

 Ngƣỡng đánh giá áp dụng khi phân loại thƣ rác.

Filename: tên file

Score: ngƣỡng đánh giá áp dụng khi phân loại thƣ rác.

 Đầu ra: thơng báo thƣ cĩ chứa virus hay khơng?

o Kiểm tra bằng Anti virus mksd

 Hàm: static av_result av_mks32(char *filename, char **name)

 Đầu vào:

 Tên file lƣu nội dung thƣ trong spooler của proxy mail

Ngƣỡng đánh giá áp dụng khi phân loại thƣ rác.Filename:

tên file

 Score: ngƣỡng đánh giá áp dụng khi phân loại thƣ rác.

 Đầu ra: thơng báo thƣ cĩ chứa virus hay khơng?

- Lọc nội dung: thủ tục thực hiện việc lọc ngẫu nghiên với các thƣ nhận, gửi để

phát hiện ra nội dung vi phạm. Quá trình lọc nội dung thƣ đc áp dụng theo trình tự: Nội dung thƣ (tiêu đề, nội dung, các thuộc tính mở rộng dạng văn bản) đƣợc đƣa lần lƣợt qua các bộ lọc. Quá trình này đƣợc lặp lại với các nội dung file đính kèm.

69

 Hàm: int checkVnDoc(char * filename)

 Đầu vào: tên file

 Tên file lƣu nội dung thƣ trong spooler của proxy mail

 Đầu ra: thơng báo thƣ bị vi phạm hay hợp lệ.

o Lọc nội dung Tiếng Anh

 Hàm: int checkEnDoc(char * filename) (adsbygoogle = window.adsbygoogle || []).push({});

Đầu vào: Tên file lƣu nội dung thƣ trong spooler của proxy mail

Đầu vào: tên file

 Đầu ra: thơng báo thƣ bị vi phạm hay hợp lệ.

o Lọc nội dung ảnh

 Hàm: int checkImage(char * filename)

 Đầu vào: Tên file lƣu nội dung thƣ trong spooler của proxy

mailĐầu vào: tên file

 Đầu ra: thơng báo thƣ bị vi phạm hay hợp lệ.

3.2. Cài đặt, cấu hình

Phần này trình bày những điểm chính trong quá trình cài đặt, cấu hình thử nghiệm. Chi tiết quá trình: Tài liệu cài đặt cấu hình hệ thống lọc thƣ.

http://222.252.18.117/namdd/mFilter_setup_config_steps .doc

3.2.1. Cài đặt

Quá trình thử nghiệm cần cài đặt các thành phần

mFilter: sử dụng cơng cụ terminal thực hiện các thao tác tại thƣ mục gốc của mFilter

o Dịch mFilter: make

o Cài đặt: install mFilter

o Cấu hình mFilter: sau khi cấu hình mFilter trong file mFilter.conf,

chép file này vào thƣ mục /etc.

o Thực nghiệm : mfilter –f /etc/mFilter.conf

Mail client: cài đặt ứng dụng gửi nhận mail cho máy client. Trong quá trình thử

nghiệm mail client sử dụng ứng dụng thunderbird

3.2.2. Cấu hình

- mFilter: máy chủ mFilter cần cĩ 2 cấu hình địa chỉ mạng

70

o Ethernet 1: địa chỉ mạng trong, địa chỉ này sẽ nhận các gĩi tin từ mail

client đƣa sang.

71

Hình 25.Hình 26. Cấu hình địa chỉ mạng trong

o Cấu hình NAT: thực hiện NAT gĩi tin nhận đƣợc từ các port theo giao

72 (adsbygoogle = window.adsbygoogle || []).push({});

Hình 26.Hình 27. Cấu hình NAT

73

Hình 27.Hình 28. Cấu hình địa chỉ mạng mail client 3.3. Thực nghiệm và đánh giá hệ thống

3.3. 3.4.

Áp dụng mơ hình lọc thƣ điện tử đề xuất, luận văn đã thực hiện xây dựng thử nghiệm hệ thống lọc mFilter với một số kết quả đạt đƣợc:

- Xây dựng hệ thống lọc thƣ tích hợp các bộ lọc

- Trong điều kiện thử nghiệm: sử dụng tính năng forward các thƣ từ địa chỉ thƣ

gmail tới các hịm thƣ thử nghiệm, chƣơng trình thử nghiệm đạt đƣợc một số kết quả:

o Đối với thƣ nội dung tiếng Anh: chƣơng trình đạt kết quả khá tốt. Hiệu

suất thu đƣợc 80%.

o Đối với thƣ nội dung tiếng Việt: chƣơng trình cho kết quả thấp hơn

nhiều. Hiệu suất chỉ đạt đƣợc 53.3%

o Đối với thƣ nội dung ảnh khơng lành mạnh: chƣơng trình cho kết quả

74

Thƣ vi phạm Thƣ hợp pháp Tổng

Thƣ vi phạm 12 (80%) 3 15

Thƣ hợp pháp 1 14 (93.3%) 15

Tổng 13 17 30

Bảng biểu 11.Kết quả thử nghiệm lọc thƣ tiếng Việt Thƣ vi phạm Thƣ hợp pháp Tổng

Thƣ vi phạm 8 (53.3%) 7 15

Thƣ hợp pháp 2 13 (86.67%) 15

Tổng 10 20 30

Bảng biểu 12.Kết quả thử nghiệm lọc thƣ tiếng Anh Thƣ vi phạm Thƣ hợp pháp Tổng

Thƣ vi phạm 11 (73.3%) 4 15

Thƣ hợp pháp 5 10 (66.7%) 15

Tổng 16 14 30

75

Hình 28.Hình 29. Màn hình kết quả thực thi hệ thống thử nghiệm mFilter

76

KẾT LUẬN Kết quả đạt đƣợc của luận văn: (adsbygoogle = window.adsbygoogle || []).push({});

Theo kết quả phân tích về thực trạng thƣ rác, thƣ vi phạm cho thấy yêu cầu đặt ra đối với giải pháp lọc nội dung thƣ điện tử là cần thiết, luận văn đã thực hiện:

- Phân tích các nội dung cơ bản, kỹ thuật sử dụng trong việc thực hiện lọc thƣ

điện tử (chƣơng 1).

- Khảo sát vấn đề thƣ rác, mã độc hại; đƣa ra các số liệu thống kê đặc thù đối

với vấn đề thƣ rác và trình bày các giải pháp lọc thƣ đang đƣợc áp dụng (chƣơng 1)

- Nghiên cứu vấn đề lọc thƣ nội dung áp dụng phƣơng pháp Bayesian và đề xuất

giải pháp lọc thƣ (chƣơng 2).

- Xây dựng thử nghiệm thành cơng hệ thống lọc mFilter tích hợp các bộ lọc thƣ

rác, lọc thƣ tiếng Việt, lọc tiếng Anh; tích hợp bộ kiểm tra virus.

Dựa trên thơng tin cơ sở về thƣ và vấn đề lọc thƣ đƣợc trình bày trong chƣơng một; kết hợp với mơ hình đề xuất đƣợc đƣa ra trong chƣơng hai, luận văn thực hiện xây dựng phần mềm thử nghiệm theo giải pháp đề ra dựa trên việc tích hợp các sản phẩm mã nguồn mở. Trong các trƣờng hợp thử nghiệm, chƣơng trình đã hoạt động đúng với chức năng đề ra.

Phƣơng hƣớng nghiên cứu tiếp theo

Xuất phát từ vấn đề thƣ rác, cơng tác quản lý, giải pháp lọc thƣ điện tử theo phân tích nội dung đang là hƣớng nghiên cứu đƣợc thực hiện bởi các quốc gia và nhiều tổ chức lớn. Các giải pháp đặt trọng tâm vào vấn đề nghiên cứu các phƣơng pháp phân tích nội dung tìm cách áp dụng chúng vào hệ thống thƣ điển tử. Nghiên cứu, xây dựng một một hệ thống lọc thƣ điện đạt hiệu quả cao hơn nữa là vấn đề nghiên cứu tiếp theo của luận văn này.

i

TÀI LIỆU THAM KHẢO

Tiếng Việt

1. Cục Cơng nghệ Tin học nghiệp vụ Bộ Cơng An (03/2008), “Đề tài KC.01.07/10 - Nghiên cứu, phát triển hệ thống lọc nội dung hỗ trợ quản lý và đảm bảo an tồn – an ninh thơng tin trên mạng Internet”, tài liệu kỹ thuật. 2. Cục Cơng nghệ Tin học nghiệp vụ Bộ Cơng An, “Tài liệu nghiên cứu, phân

tích và đánh giá tình hình quản lý Nhà nước về lọc nội dung trên thế giới”, báo cáo chuyên đề trong khuơn khổ đề tài nhà nƣớc mang mã số 02/2006 /HĐ - ĐTCT-KC.01/06-10.

3. Cục Cơng nghệ Tin học nghiệp vụ Bộ Cơng An, “Tài liệu nghiên cứu, phân tích và đề xuất chính sách pháp lý tại Việt nam cho vấn đề lọc nội dung thơng tin trên mạng Internet”, báo cáo chuyên đề trong khuơn khổ đề tài nhà nƣớc mang mã số 02/2006 /HĐ - ĐTCT-KC.01/06-10.

4. Cục Cơng nghệ Tin học nghiệp vụ Bộ Cơng An, “Tài liệu nghiên cứu và đánh giá tổng quan thực trạng lọc nội dung Internet trên thế giới”, báo cáo chuyên đề trong khuơn khổ đề tài nhà nƣớc mang mã số 02/2006 /HĐ - ĐTCT-KC.01/06-10.

5. Cục Cơng nghệ Tin học nghiệp vụ Bộ Cơng An,“Tài liệu nghiên cứu, phân tích và đánh giá các thuật tốn lọc văn bản theo nội dung”, báo cáo chuyên đề trong khuơn khổ đề tài nhà nƣớc mang mã số 02/2006 /HĐ - ĐTCT- KC.01/06-10.

6. Cục Cơng nghệ Tin học nghiệp vụ Bộ Cơng An, “Tài liệu nghiên cứu, phân tích và đánh giá các giải thuật lọc dựa URL, links và chuẩn PICS”, báo cáo chuyên đề trong khuơn khổ đề tài nhà nƣớc mang mã số 02/2006 /HĐ - ĐTCT-KC.01/06-10.

7. Cục Cơng nghệ Tin học nghiệp vụ Bộ Cơng An, “Tài liệu nghiên cứu, phân tích và đánh giá các giải thuật lọc ảnh”, báo cáo chuyên đề trong khuơn khổ đề tài nhà nƣớc mang mã số 02/2006 /HĐ - ĐTCT-KC.01/06-10.

8. Cục Cơng nghệ Tin học nghiệp vụ Bộ Cơng An, “Tài liệu nghiên cứu, tìm hiểu và đánh giá các kỹ thuật cho phép quản lý các luồng dữ liệu vào/ra tại một cổng Internet quốc gia”, báo cáo chuyên đề trong khuơn khổ đề tài nhà nƣớc mang mã số 02/2006 /HĐ - ĐTCT-KC.01/06-10.

9. Trƣờng Đại học Cơng nghệ - ĐHQGHN (2008), “Nghiên cứu, phân tích và đánh giá các giải thuật lọc hình ảnh trên Internet”, tài liệu kỹ thuật.

ii

10. Aas, K. and L. Eikvil (1999, June). Text categorisation: A survey. Technical report, Norwegian Computing Center, P.B. 114 Blindern, N-0314, Oslo, Norway. Technical Report 941.

11. Andrew McCallum, Kamal Nigam, A Comparison of Event Model for Naive Bayes Text Classification, Working Notes of the 1998 AAAI/ICML Workshop on Learning for Text Categorization.

12. Bayesian Whitelisting: Finding the Good Mail Among the Spam

13. Cormack, G. Statistical precision of information retrieval evaluation. In Proceedings of SIGIR 2006 (Seattle, WA, 2006).

14. Cormack, G., and Bratko, A. Batch and on-line spam filter evaluation. In Proceedings of CEAS (2006 (Mountain View, CA, 2006). (adsbygoogle = window.adsbygoogle || []).push({});

15. Dang Thanh Hai, Nguyen Huong Giang, Ha Quang Thuy (2005). Naive Bayes text classification algorithm and problem of specifying clasifying threshold in search engine. Journal of Computer Science & Cybernetics 21(2), 152-161.

16. Paul Graham, independent writer and author of "A Plan for Spam" and "Better Bayesian Filtering

17. First Conference on Email and Anti-Spam - CEAS 2004, Mountain View, CA, USA, July 30 and 31, 2004.

18. Ion Androutsopoulos, John Koutsias, Konstantinos V. Chandrinos, George Paliouras and Constantine D. Spyropoulos, An Evaluation of Naive Bayesian Anti-Spam Filtering, Software and Knowledge Engineering Laboratory, National Centre for Scientific Research “Demokritos”

19. Gordon Cormack, TREC 2006 Spam Track Overview, University of Waterloo - Waterloo, Ontario, Canada

20. Gabrilovich, E. and S. Markovitch (2006, July). Overcoming the brittleness bottleneck using Wikipedia: Enhancing text categorization with encyclopedic knowledge. In Proceedings of the 21st National Conference on Artificial Intelligence, Menlo Park, CA, pp. 1301–1306. AAAI Press.

21. Greevy, E. & Smeaton, A.F. (2004). Classifying racist texts using a support vector machine. In Proceedings of the 27th annual international ACM SIGIR conference on Research and development in information retrieval (pp. pp. 468-469). : ACM Press, Sheffield, United Kingdom

22. Hammami, M., Y. Chahir, and L. Chen (2003). Webguard: Web based adult content detection and filtering system. In WI ’03: Proceedings of the 2003 IEEE/WIC International Conference on Web Intelligence, Washington, DC, pp. 574. IEEE Computer Society.

23. Hunnisett, D. S. & Teahan, W.J. (2004). Context-based methods for text categorisation. In Proceedings of the 27th annual international ACM SIGIR conference on Research and development in information retrieval (pp. pp. 578-579). ACM Press, Sheffield, United Kingdom

iii

24. Munawar Hafiz, Ralph E Johnson, Raja Afandi, The Security Architecture of smtp-gated, University of Illinois at Urbana-Champaign, Department of Computer Science

25. Nguyen Viet Cuong, Nguyen Thi Thuy Linh Ha Quang Thuy and Phan Xuan Hieu (2006). A Maximum Entropy Model for Text Classification. In The International Conference on Internet Information Retrieval 2006, Hankuk Aviation University, December 6, 2006, Goyang-si, Korea, 134-139.

26. Susana Eyheramendy, David D. Lewis, David Madigan, On the Naive Bayes Model for Text Classification, In Artificial Intelligence & Statistics 2003. 27. Soumen Chakrabarti (2003). Mining the web- discovering knowledge from

Hypertext Data Morgan Kaufman Publishers, 2003: 183-188.

28. Scalable Centralized Bayesian Spam Mitigation with Bogofilter,Jeremy Blosser and David Josephsen, VHA, Inc.

29. Xu, J. & Croft, B. (1998). Corpus-based stemming using cooccurrence of word variants. ACM Transactions on Information Systems, 16, pp. 61-81. 30. Yi Zhang (2005). Bayesian Graphical Models for Adaptive Filtering. PhD.

Thesis, School of Computer Science, Carnegie Mellon University.

31. Zhang, D., Chen, X. & Lee, W.S. (2005). Text classification with kernels on the multinomial manifold. In Proceedings of the 28th annual international ACM SIGIR conference on Research and development in information retrieval (pp. pp. 266-273). ACM Press, Salvador, Brazil

32. Documentation for Exim http://www.exim.org/exim-html- current/doc/html/index.html

33. Documentations of Spamasssasin project:

http://spamassassin.apache.org/doc.html

34. Open spambayes project: http://sourceforge.net/spambayes 35. Software topten review: http://toptenreviews.com

36. The 10 Worst Spam Origin Countries/ The 10 Worst Spam Service ISPs

Một phần của tài liệu Giải pháp lọc thư điện tử theo phân tích nội dung (Trang 75)