Bộ lọc BayesSpam

Một phần của tài liệu thuật toán bayes và ứng dụng (Trang 41 - 44)

Bộ lọc BayesSpam thực hiện việc lọc thư điện tử theo quy trình cách thức trình bày ở trên. Ngôn ngữ lập trình được dùng để xây dựng bộ lọc viết bằng ngôn ngữ lập trình Web PHP dưới dạng một plugin rất tiện cho việc tích hợp vào hệ thống thư điện tử. Bộ lọc chạy độc lập với mỗi người dùng. Tức là mỗi người dùng có một bộ lọc cho riêng họ. Bộ lọc BayesSpam cho phép mỗi người dùng thư điện tử tự cấu hình bộ lọc hoặc từ chối dùng bộ lọc. Người dùng gần như làm chủ được bộ lọc trong việc điều chỉnh các thông tin cấu hình. Có thể tham khảo các tính năng cung cấp cho người dùng

Hình 16: Bảng điều khiển bộ lọc dành cho mỗi người dùng thư điện tử

Một khi thư bị đánh dấu là thư rác ngay lập tức nó sẽ bị di chuyển vào sọt rác. Và tiêu đề thư sẽ bị đánh dấu thành thư rác [**SPAM/Thư rác**]. Ở hình dưới đây thư rác được cấu hình cho riêng vào thư mục ‘test’. Sau một khoảng thời gian ngắn bộ lọc tự động xây dựng lại cơ sở dữ liệu nó sẽ dùng chính những thư mà nó đã phân loại để cập nhật lại bảng xác suất như đã nói ở trên. Bộ lọc làm việc khá ổn định, tốc độ xử lý thông tin nhanh bởi thuật toán khá ngắn gọn. Mỗi khi có sự kiện mới bộ lọc ngay lập tức tự cập nhật lại cơ sở dữ liệu nhằm gia tăng khả năng lọc thư. Việc huấn luyện cho bộ lọc song song với quá trình sử dụng và phụ thuộc vào cách nhìn nhận thư rác của mỗi người. Nói khác hơn là dần dần theo thời gian sử dụng bộ lọc sẽ mang tính cách duyệt thư điện tử của chính người dùng, người mà cấu hình và huấn luyện nó.

Sau bước cấu hình chúng ta có thể dùng bộ lọc ngay chỉ cần thao tác dưới dạng report cho bộ lọc biết đâu là thư rác và có thể đánh giá lại thành không phải thư rác. Thông thường người ta hay dùng nút đánh dấu thư rác, ít khi phải dùng đến nút không phải thư rác. Lúc ban đầu cơ sở dữ liệu của bộ lọc còn nhỏ bé khả năng phân loại sẽ chưa được tốt. Người dùng phải tự nhận dạng thư đến có là thư rác không.

Nhưng hầu như các thư sau này có nội dung tương tự thư rác mà đánh dấu bởi người dùng sẽ được bộ lọc bắt rất chính xác. Như vậy rõ ràng thời gian sử dụng và cách nhìn nhận về thư rác của người dùng có yếu tố quyết định đối với khả năng phân loại của bộ lọc. Dưới đây là hình ảnh thư rác thử nghiệm để chạy bộ lọc được lấy ra từ thư mục chứa thư rác:

Hình 17: Thư rác đã bị lọc và đưa vào thư mục Test, 943 thư rác.

Làm thế nào để các Spammer tránh khỏi bộ lọc thư rác? Câu trả lời cho câu hỏi này sẽ là minh chứng cho thấy việc cố gắng ‘spam’ là vô ích khi dùng bộ lọc. Để không bị phát hiện là thư rác các spammer phải cố gắng soạn thư điện tử có nội dung khác với thư mà người bình thường cũng nghĩ được nó là thư rác đến 80% về mặt nội dung thư hay nói chính xác hơn là khác về từ ngữ dùng để viết lên nội dung thư. Sẽ có hai trường hợp xảy ra đó là nếu cứ cố gắng né tránh nội dung, từ ngữ thì bức thư sẽ không thể truyền đạt được nội dung spam. Tức là một lá thư quảng cáo thì không thể thiếu các từ ngữ như ‘mua sắm’, ‘trực tuyến’, ‘miễn phí’, ‘nhân dịp’, ‘mua hàng’,

khuyến mại’,… Không dùng các từ ngữ đó spammer không thể soạn được thư rác

quảng cáo. Như vậy không thể dùng cách này né tránh bộ lọc được. Còn một cách thứ hai đó là giữ nguyên nội dung quảng cáo nhưng không soạn thư bằng tiếng việt chuẩn nữa mà viết theo ngôn ngữ của teen. Ví dụ như thay dấu ngã thành ‘~’, dấu chấm thành ‘.’, dấu hỏi thành ‘?’…. “Khuye^’n mai. mua hang gia’ re?

nha^’t …”. Cách này khá hay về mặt kĩ thuật (làm rối loạn các thẻ từ trong cơ sở dữ

liệu nhưng không phải là không khắc phục được) nhưng có khi lại phản tác dụng vì có nhiều người rất ghét và thấy ngứa mắt với kiểu viết chữ như thế nên nhiều spammer phải từ bỏ phương án này.

Như vậy spammer vẫn xả thư rác bình thường nhưng người dùng thư không bị quấy rối quá nhiều lần khi họ báo cho bộ lọc biết đó là thư rác một vài lần. Các lần sau đó do đã được huấn luyện bộ lọc càng thông minh hơn nó sẽ lọc hết những thư rác một cách chính xác đến không ngờ. Hầu hết những người dùng trung thành với bộ lọc đều đánh giá cao khả năng lọc thư của BayesSpam rất hiệu quả và hầu như là không có sai sót. Và thực tế là nó đang hoạt động khá tốt dưới hệ thống thư điện tử của trường Công nghệ (http://mail.coltech.vnu.vn)

Một phần của tài liệu thuật toán bayes và ứng dụng (Trang 41 - 44)

Tải bản đầy đủ (PDF)

(50 trang)