Cấu trúc luật của SpamAssassin

Một phần của tài liệu Nghiên cứu và thiết kế hệ thống lọc thư rác tiếng việt trên linux (Trang 57 - 58)

1. Hệ thống lọc thư rác của SpamAssassin

1.2.2. Cấu trúc luật của SpamAssassin

Hầu hết các luật hay cịn gọi là các test của SpamAssassin thường cĩ những thành phần cơ bản sau:

• Tên luật, cấu thành bởi chữ cái hoa, số, gạch dưới. Độ dài tối đa là 22 ký tự. Luật bắt đầu bằng T_ là ký hiệu luật đang được thử nghiệm

• Dịng mơ tả, chứa tới 50 ký tự dùng để SpamAssassin báo cáo.

• Một từ khĩa xác định vị trí của bức thư được kiểm tra. Cĩ thể áp dụng cho header,body, URI trong thân thư. Khi thử luật với thân thư, cĩ thể thực hiện kiểm tra ở trạng thái thơ (chưa tiền xử lý thân thư), sau khi MIME-decoding, sau khi MIME-decoding và loại thẻ HTML, sau khi loại bỏ các ký tự trắng, xuống dịng vơ nghĩa.

• Một dịng mơ tả dấu hiệu cần phải tìm kiếm. Chẳng hạn như một thơng tin Header, một Regular expression của perl, một Blacklist để truy vấn, hay một hàm của SpamAssassin cần tính

• Một cờ xác định xem luật cĩ được áp dụng hay khơng

• Giá trị điểm của luật. Cĩ một giá trị này cĩ thể luơn được sử dụng hoặc cĩ 4 giá trị dùng trong 4 trường hợp khác nhau:

o Khi phân loại Bayesian và kiểm tra mạng khơng được sử dụng

o Khi phân loại Bayesian khơng được sử dụng cịn kiểm tra mạng được sử dụng

o Khi phân loại Bayesian được sử dụng cịn kiểm tra mạng khơng được sử dụng

o Khi phân loại Bayesian và kiểm tra mạng đều được sử dụng

Các tệp chứa tập luật thường được đặt trong /usr/share/spamassassin và cĩ đuơi là .cf. Chúng ta sẽ xem xét một vài luật điển hình

Luật kiểm tra xem From cĩ bắt đầu bằng hai chữ số hay khơng:

header FROM_STARTS_WITH_NUMS From =~ /^\d\d/

Một phần của tài liệu Nghiên cứu và thiết kế hệ thống lọc thư rác tiếng việt trên linux (Trang 57 - 58)

Tải bản đầy đủ (PDF)

(80 trang)