Các tập luật xây dựng sẵn của SpamAssassin

Một phần của tài liệu Nghiên cứu và thiết kế hệ thống lọc thư rác tiếng việt trên linux (Trang 60 - 63)

1. Hệ thống lọc thư rác của SpamAssassin

1.2.4. Các tập luật xây dựng sẵn của SpamAssassin

SpamAssassin xây dựng hơn 700 luật cho ngơn ngữ tiếng Anh và hơn 2900 luật cho các ngơn ngữ khác. Hiện tại ngơn ngữ được SpamAssassin 3.0 hộ trợ là tiếng Pháp và tiếng Đức. Việc nghiên cứu các tập luật này cĩ ý nghĩa quan trọng trong chiến lược xây dựng và huấn luyện tạo ra bộ luật áp dụng cho các thư rác vi ết trong ngơn ngữ của quốc gia bạn.Các luật trong SpamAssassin được lưu giữ ở thư mục /usr/share/spamassassin bao gồm:

10_misc.cf

Tập luật 10_misc.cf định nghĩa các mẫu cho các báo cáo thư rác mà SpamAssassin đính kèm cào các thư rác.

10_plugins.cf (SpamAssassin 3.0)

Tập cấu hình này cung cấp một số chỗ thuận tiện để nạp các mơ đun thêm vào của SpamAssassin với chỉ thị loadplugin.

20_fake_helo_tests.cf

Tập cấu hình này xác định một tập luật để kiểm tra các HELO hostname giả mạo.

20_body_tests.cf

Tập luật để kiểm tra thân của thư, spam clearinghouses, ngơn ngữ của thư và vị trí địa lý của thư.

20_dnsbl_tests.cf

Tâp luật này thực hiện kiểm tra các DNS blacklists, sử dụng các hàm check_rbl( ), check_rbl_sub( ), và check_rbl_txt( ). Các blacklist này gồm cĩ các địa chỉ chính: ▪ NJABL (http://www.dnsbl.njabl.org/) ▪ SORBS (http://www.dnsbl.sorbs.net/) ▪ OPM (http://opm.blitzed.org/) ▪ Spamhaus (http://www.spamhaus.org/sbl/) ▪ DSBL (http://dsbl.org) ▪ Spamcop (http://www.spamcop.net/bl.shtml) ▪ MAPS (http://www.mail-abuse.org)

20_ratware.cf and 20_anti_ratware.cf

Tập luật 20_ratware.cf kiểm tra các dấu hiệu đặc biệt của các thư được sử dụng bởi các chương trình gửi thư hàng loạt ( gọi là ratware or spamware). Hầu hết, chúng ta kiểm tra các thơng tin của header và phải biết được đặc điểm riêng của các phần mềm gửi thư đĩ

20_head_tests.cf

Tập luật kiểm tra các thơng tin trong header, bao gồm kiểm tra các danh sách địa chỉ đen và địa chỉ trắng trong thơng tin From and To

20_porn.cf (cho tất cả các phiên bản của SpamAssassin ) và 20_drugs.cf (SpamAssassin 3.0)

Tập luật chứa các luật kiểm tra các dấu hiệu của các thư khiêu dâm, văn hĩa phẩm độc hại, thư phản động, thư quảng cáo thuốc,.. trong nội dung thư. Ngơn ngữ của thư là tiếng Anh.

20_phrases.cf

Tập luật này chứa các cụm từ thơng thường của thư rác trong tiếng Anh. Hầu hết chúng hướng dẫn bạn cách rút khỏi các mailing list hoặc hướng dẫn bạn chỉnh lại hoặc cấu hình lại các luật cho hộp thư của mình

Tập luật kiểm tra các dấu hiệu trong URI trong nội dung thư.

20_compensate.cf

Tập luật tạo ra nhằm mục đích bù cho các luật sai trong khi kiểm tra header và luật với cờ nice (điểm âm).

20_html_tests.cf

Tập luật kiểm tra các thẻ HTML trong nội dung thư

20_meta_tests.cf

Tập luật chứa các siêu luật, được kết hợp từ nhiều luật khác nhau.

23_bayes.cf

Tập luật được sinh ra bởi phương pháp lọc thư rác dựa trên lý thuyết xác suất Bayes. Chúng ta sẽ làm rõ phương pháp này sau.

25_head_tests_es.cf, 25_body_tests_es.cf, 25_head_tests_pl.cf, 25_body_tests_pl.cf (SpamAssassin 2.6x)

Các tập luật dành cho thư rác tiếng Tây Ban Nha (es) và Ba Lan (pl).

25_uribl.cf (SpamAssassin 3.0)

Tệp này nạp các URIDNSBL plug-in kiểm tra các URI trong danh sách DNS đen.

30_text_*.cf (de,es,fr,it,pl,sk)

Các tập luật này khơng định nghĩa luật mới mà là các bản dịch của các luật trong tiếng Anh ra các tiếng của nước khác. Chẳng hạn German (de), Spanish (es), French (fr), Italian (it), Polish (pl), and Slovak (sk).

50_scores.cf

Tập luật này định nghĩa điểm gán với tất cả các luật trong các tệp khác. Các điểm được độc lập ở các tệp bởi vì nĩ được tạo ra bởi thuật tốn áp dụng mỗi luật cho số lượng lớn các thư rác và thư sạch nhằm điều chỉnh các điểm để đạt được sai số nhỏ nhất

Tập luật chứa danh sách sạch các địa chỉ của các tổ chức lớn như Amazon.com, yahoo.com,…..

Các tập luật giới thiệu trên là các luật sẵn cĩ của SpamAssassin, mục đích c ủa chúng ta là xây dựng các luật áp dụng cho các thư rác tiếng Việt và chủ yếu là nội dung và tiêu đề của thư. Do đĩ, sự kết hợp giữa các luật xây dựng sẵn của SpamAssassin và luật lọc thư rác tiếng Việt áp dụng cho các hệ thống trong nước là biện pháp hiệu quả mà kinh tế.

Một phần của tài liệu Nghiên cứu và thiết kế hệ thống lọc thư rác tiếng việt trên linux (Trang 60 - 63)

Tải bản đầy đủ (PDF)

(80 trang)