Sử dụng bộ lọc Bayesian

Một phần của tài liệu Giải pháp lọc thư điện tử theo phân tích nội dung (Trang 38)

Bộ lọc Bayesian hoạt động dựa trên định lý Bayes để tính tốn xác suất xảy ra một sự kiện dựa vào những sự kiện xảy ra trƣớc đĩ. Kỹ thuật tƣơng tự nhƣ vậy đƣợc sử dụng để phân loại thƣ vi phạm chính sách. Nếu một số phần văn bản xuất hiện thƣờng xuyên trong các thƣ vi phạm chính sách nhƣng thƣờng khơng xuất hiện trong các email thơng thƣờng, thì cĩ thể kết luận rằng email đĩ là thƣ vi phạm chính sách.

Trƣớc khi cĩ thể lọc email bằng bộ lọc Bayesian, ngƣời dùng cần tạo ra cơ sở dữ liệu từ khĩa và dấu hiệu (nhƣ là ký hiệu $, địa chỉ IP và các miền...) sƣu tầm từ các thƣ vi phạm chính sách lọc và các email khơng hợp lệ khác.

Mỗi từ hoặc mỗi dấu hiệu sẽ đƣợc cho một giá trị xác suất xuất hiện, giá trị này dựa trên việc tính tốn cĩ bao nhiêu từ thƣờng hay sử dụng trong thƣ vi phạm chính sách lọc, mà trong các email hợp lệ thƣờng khơng sử dụng. Việc tính tốn này đƣợc thực hiện bằng cách phân tích những email gửi đi của ngƣời dùng và phân tích các kiểu thƣ vi phạm chính sách lọc đã biết.

Để bộ lọc Bayesian hoạt động chính xác và cĩ hiệu quả cao, cần phải tạo ra cơ sở dữ liệu về các email thơng thƣờng và thƣ vi phạm chính sách lọc phù hợp với đặc thù kinh doanh của từng cơng ty. Cơ sở dữ liệu này đƣợc hình thành khi bộ lọc trải qua giai đoạn “huấn luyện”. Ngƣời quản trị phải cung cấp khoảng 1000 email thơng thƣờng và 1000 thƣ vi phạm chính sách lọc để bộ lọc phân tích tạo ra cơ sở dữ liệu cho riêng nĩ.

Một phần của tài liệu Giải pháp lọc thư điện tử theo phân tích nội dung (Trang 38)