4. Phạm vi ứng dụng
3.1.3. Ưu điểm của bộ lọc thư rác Bayes
Phương pháp Bayes nhận dạng một thư điện tử dựa vào các mơ tả, nĩ nhận ra các từ khĩa mà những từ đĩ cĩ thể nhận dạng một thư rác (spam) và cũng nhận ra các từ chứng tỏ một thư điện tử hợp lệ (ham). Ví dụ khơng phải tất cả các thư điện tử cĩ chứa các từ như “free” hay “cash” đều là thư rác. Phương pháp Bayes sẽ tìm kiếm các từ “free”, “cash” nhưng nĩ cũng nhận ra tên của người gửi thơng điệp và theo cách phân loại đĩ một thơng điệp là hợp lệ, với các từ khác máy lọc Bayes là một phương pháp tiếp cận khá thơng minh bởi vì nĩ nghiên cứu tất cả các khía cạnh của một thư điện tử như phản đối việc kiểm tra từ khĩa mà nĩ nhận dạng được một thư điện tử là thư rác trên cơ sở một từ đơn.
Bộ lọc Bayes liên tục tự thích nghi bởi sự học tập từ các thư rác mới và các thư điện tử hợp lệ đến từ bên ngồi, bộ lọc Bayes giải quyết và thích nghi với các cơng nghệ lọc thư rác kiểu mới. Lấy ví dụ khi một người tạo thư rác sử dụng từ “f-r-e-e” để thay thể cho “free” chúng rất thành cơng trong việc tránh kiểm tra các từ khĩa đến tận khi “f-r-e-e” cũng được bao hàm trong các từ khĩa của cơ sở dữ liệu. Mặt khác cũng cĩ thể sử dụng “5ex” thay thế cho “sex”. Khơng thể cĩ từ 5ex trong một thư hợp lệ và sau đĩ cĩ khả năng xảy ra là các thư rác cĩ thể tăng lên.
Cơng nghệ lọc thư bằng Bayes rất nhạy cảm với người sử dụng, nĩ học các thĩi quen của các thư điện tử trong cơng ty. Máy lọc thư rác sử dụng thuật tốn Naive Bayes cung cấp một chức năng lọc thư tự rác tự động. Trên cơ sở sử dụng các xác suất gần đúng để tính tốn các khả năng một thư điện tử cĩ thể là thư rác hay khơng. Sự tính tốn này là quá trình tìm kiếm các từ thường xuất hiện trong các thư điện tử và so sánh chúng với tập mẫu. Thuật tốn bắt đầu bằng việc học các nội dung của các thư điện tử hợp lệ và nội dung của những thư rác. Để sau đĩ khi nhận vào một
thư điện tử mới, các thơng tin cĩ sẵn từ tập mẫu, các tiến trình tiền xử lí trước sẽ được áp dụng trên cơ sở nội dung của các thư điện tử.