2.2 .Các biện pháp loại bỏ thư rác
2.2.8 .Lọc thư rác dựa vào thống kê
Lọc dựa vào thống kê lần đầu tiên được đề cập tới vào năm 1998 bởi Mehran Sahami tại hội thảo AAAI-98 về vấn đề Phân hạng văn bản. Theo đó, một máy lọc theo thống kê chính là một loại hệ thống phân loại tài liệu và nó đã thu hút được sự chú ý của rất nhiều người nghiên cứu về vấn đề học máy. Sau đó, lọc theo thống kê chính thức được cơng bố năm 2002 trên bài báo A Plan for Spam của Paul Graham. Bài báo đó sử dụng phương pháp phân loại văn bản Bayes để quyết định xem một thơng điệp có là thư rác hay khơng dựa vào một tập hợp các thông điệp đã biết rõ là thư rác hoặc không phải thư rác do người dùng chỉ định.
Khi một hệ thống lọc dựa theo thống kê được cài đặt, nó khơng u cầu bất cứ sự bảo trì nào. Thay vào đó, người dùng cuối sẽ đánh dấu các thơng điệp cho biết đó là thư rác hay khơng là thư rác và hệ thống lọc sẽ tự động học theo những phán quyết đó. Như vậy, hệ thống không thiên về tác giả phần mềm hay người quản trị hệ thống, mà thiên về người sử dụng. Điều này có nghĩa là người dùng sẽ tự chỉ dẫn cho hệ thống biết rằng thông điệp nào là thư rác, thông điệp nào không phải là thư rác và dựa vào những chỉ dẫn đó, hệ thống đưa ra quyết định cho một thơng điệp khác có là thư rác
hay khơng. Ví dụ, một nhà sinh hố học đang nghiên cứu về Viagra, nếu sử dụng phương pháp lọc theo nội dung, sẽ không thể nhận được các thông điệp có từ “Viagra”. Tuy nhiên, khi sử dụng phương pháp lọc dựa theo thống kê, ơng ta có thể nhận các thơng điệp đó nhờ vào những chỉ dẫn từ trước. Hệ thống lọc theo thống kê chủ yếu đọc nội dung của thông điệp, tuy nhiên trong nhiều trường hợp nó cũng đọc cả thơng tin phần đầu của thông điệp.
Những kẻ phán tán thư rác đã cố gắng chống lại hệ thống lọc theo thống kê bằng cách cố ý chèn thêm nhiều từ hay câu một cách ngẫu nhiên nhưng hợp lệ vào thông điệp chúng gửi đi. Chúng cố gắng giấu từ hay câu đó khéo léo sao cho người nhận khơng nhìn thấy (thơng thường các từ đó được đặt cỡ chữ rất nhỏ hoặc đặt màu trùng với màu nền). Các biện pháp đối phó kiểu gây nhiễu đó khiến cho thơng điệp gửi đi trông tự nhiên và hợp lệ hơn, tuy nhiên phần lớn chúng đều khơng có hiệu quả.
Một số phần mềm phổ biến cài đặt hệ thống lọc dựa vào thống kê như Bogofilter, DSPAM, Thunderbird, Mailwasher và các phiên bản về sau của SpamAssassin...hay dự án CRM114 thống kê theo cách băm theo từng mệnh đề và phân loại dựa trên mệnh đề sử dụng phương pháp Bayesian.