Một số cải tiến cho bộ lọc BayesSpam

Trước khi đề cập đến vấn đề cải tiến ta cần quan tâm đến hạn chế hiện tại của bộ lọc đó là trong một khoảng thời gian dài người dùng thư điện tử không đăng nhập và giả sử lúc ấy người dùng nhận số lượng lớn thư sẽ dẫn đến tình trạng đăng nhập bị chậm ì ạch do chờ lọc thư đến. Để khắc phục tình trạng trên việc lọc thư cần hoạt động theo định kì mà không chờ người dùng đăng nhập. Mỗi thư là một file được đặt trong các thư mục (INBOX, SENT, TRASH,…), bộ lọc sẽ âm thầm lọc thư ngay cả khi người dùng không trực tuyến. Do đây là bộ lọc chung cho mọi người nên nó phải được xây dựng dựa trên phong cách chung, là cái nhìn chung về thư rác của tất cả người dùng. Để làm được điều này bộ lọc phải được huấn luyện kĩ lưỡng dựa trên dữ liệu thư của người dùng. Trong khóa luận này trình bày ứng dụng chọn lọc thư huấn luyện được trích chọn từ thư của tất cả người dùng trong hệ thống thư điện tử Squirrelmail đang dùng bộ lọc BayesSpam. Ứng dụng web viết bằng ngôn ngữ PHP, có giao diện đơn giản dưới đây:

Hoạt động chính của ứng dụng:

1. Tạo thư mục tập huấn luyện Corpus chứa 2 thư mục con là thư mục thư rác (SPAM) và không phải thư rác (HAM).

2. Dựa trên CSDL của bộ lọc (spamCorpus) lấy ra tên những người đang dùng bộ lọc.

3. Với mỗi người dùng, copy tất cả file thư trong thư mục sọt rác (TRASH) vào thư mục SPAM. Tương tự copy tất cả các file trong thư mục hộp thư (INBOX) vào thư mục (HAM).

4. Xử lý thư mục SPAM. Chọn lọc các thư có chỉ số Bayes cao (lớn hơn ngưỡng đưa ra) ứng với thư có xác suất là thư rác cao hơn các thư cùng loại trong thư mục. Dựa vào thuộc tính messageID của bảng ScoreCache trong CSDL.

5. Xử lý thư mục HAM. Chọn lọc các thư có chỉ số Bayes thấp (nhỏ hơn ngưỡng đưa ra) ứng với thư có xác suất không là thư rác cao hơn các thư cùng loại trong thư mục. Dựa vào messageID trong bảng ScoreCache.

Sau quá trình trên ta có được tập huấn luyện được chọn lọc từ mỗi người dùng bộ lọc. Tập huấn luyện này như là một cái nhìn chung về thư rác của tất cả mọi người dùng bộ lọc. Có thể dùng tập huấn luyện này để huấn luyện cho bộ lọc đề cập ở trên

Chương 5 Kết luận

Như đã nói từ đầu toán học thống kê đóng vai trò rất quan trọng trọng trong mọi lĩnh vực. Thống kê giúp cho việc nắm bắt đánh giá tình hình trở lên trực quan và dễ hiểu hơn. Xử lý và ứng dụng dữ liệu thống kê đem lại hiệu quả lớn lao trong việc tiên đoán và từ đó có thể xây dựng lên một hệ tự động hóa hoạt động chính xác. Hướng tiếp cận thống kê theo lý thuyết Bayes khá đơn giản nhưng đem lại hiệu quả rất cao chính vì thế mà nó được ứng dụng khá phổ biến trong hầu hết các lĩnh vực.

So với các phương pháp khác, phương pháp thống kê Bayes lập luận theo kinh nghiệm được tích lũy áp dụng vào mô hình phân loại đối tượng linh hoạt hơn, phù hợp với đặc trưng của bài toán hơn. Các cơ chế ước lượng cũng gần gũi với cách suy luận thông thường chính vì vậy mà các kết quả phân loại tương đối giống với cách phân loại thông thường.

Các kết quả đã đạt được là:

Khoá luận đã tập trung nghiên cứu về lý thuyết Bayes, từ bước cơ sở đó tìm hiểu tiếp về một ứng dụng của nó liên quan trực tiếp đến ngành công nghệ thông tin đó là ứng dụng lọc thư rác. Quá trình tìm hiểu về nguyên lý và cách thức hoạt động của bộ lọc đã rút ra được những kết luận về ưu nhược điểm của tiếp cận thống kê Bayes trong việc phân loại thư rác. Đối với vấn đề ứng dụng thực tế, khoá luận sử dụng plugin BayesSpam như một đối tượng chính để tìm hiểu và nghiên cứu. Đối với vấn đề áp dụng lý thuyết Bayes, khoá luận nghiên cứu xây dựng các công thức tính xác suất sao cho việc xử lý thông tin trở lên nhanh gọn và có độ chính xác cao.

Từ việc tìm hiểu ứng dụng BayesSpam, khoá luận đã rút ra được một số nhận định về ưu điểm và nhược điểm của bộ lọc trong quá trình hoạt động. Kết quả phân loại thư rác nhìn chung là gần giống với các kết quả đánh giá thư bởi người dùng.

Tuy nhiên, do thời gian có hạn cũng như các kiến thức chuyên môn về hệ thống thư điện tử nên các kết luận rút ra được trong quá trình nghiên cứu còn nhiều hạn chế. Dưới đây là những ưu nhược điểm chính của bộ lọc thư rác Bayes.

Những ưu điểm chính:

 Ưu điểm của bộ lọc thư rác Bayes đó là nó có thể được huấn luyện bởi chính người dùng cơ sở. Đây có thể thể nói là ưu điểm lớn nhất, nó tạo ra được nét đặc trưng về cách nhìn nhận thư rác của mỗi người dùng.

 Các thư rác mà một người dùng nhận được thường liên quan tới các hoạt động trực tuyến của người dùng. Ví dụ, một người sử dụng có thể đã được đăng ký vào một bản tin trực tuyến mà người sử dụng xem xét như là thư rác. Đang xem thông tin này có thể chứa các từ ngữ được phổ biến cho tất cả các bản tin, chẳng hạn như tên của bản tin và nguồn gốc của nó địa chỉ email. Bộ lọc thư rác Bayesian sẽ chỉ định một xác suất cao hơn dựa trên cách nhìn nhận của người sử dụng.

 Thư điện thử hợp pháp sẽ nhận được nhìn nhận theo xu hướng khác nhau đối với mỗi người. Ví dụ, trong môi trường một công ty, tên công ty của bạn và tên của khách hàng sẽ được đề cập thường xuyên. Các bộ lọc sẽ chỉ định một thư rác xác suất thấp hơn cho các email có chứa các tên đó.

 Xác suất của các từ là duy nhất đối với mỗi người dùng và có thể lớn dần theo thời gian huấn luyện, cùng với sự hiệu chỉnh việc huấn luyện mỗi khi có thư lọc sai. Kết quả là, lọc thư rác Bayesian tăng độ chính xác khi được đào tạo thường xuyên theo các quy tắc được xác định trước.

Những nhược điểm chính:

 Một kỹ thuật được sử dụng bởi Spammer nhằm cố gắng để giảm tính hiệu quả của bộ lọc thư rác là dựa vào chính nguyên tắc hoạt động của nó. Kĩ thuật này sẽ chèn các từ mà không phải là bình thường liên kết với các nội dung spam với số lượng lớn văn bản hợp pháp (thu thập từ các nguồn tin tức hợp pháp hay văn chương). Do đó giảm giá trị xác suất kết hợp của thư điện tử là thư rác, làm cho nó càng có nhiều khả năng vượt qua bộ lọc thư rác Bayes.

 Một kỹ thuật khác được sử dụng để che mắt bộ lọc thư rác Bayes đó là thay thế các văn bản bằng hình ảnh, hoặc trực tiếp đặt liên kết chứa nội dung spam đến hình ảnh. Toàn bộ nội dung của tin nhắn, hoặc một số phần của nó, được thay thế bằng một hình ảnh có cùng một nội dung được trình bày lôi cuốn người xem. Bộ lọc thư rác thường không thể phân tích hình ảnh này, mà có thể chứa các từ nhạy cảm như "khiêu dâm". Tuy nhiên, nhiều hệ thống thư điên tử đã vô hiệu hoá màn hình hiển thị của liên kết hình ảnh vì lý do bảo mật, nhưng các spammer lại gửi liên kết đến hình ảnh ở xa có thể tiếp cận với các mục tiêu spam ít hơn. Ngoài ra, một hình ảnh có kích thước lớn hơn kích thước tương đương của văn bản. Do đó, các spammer cần nhiều hơn nhu cầu băng thông để gửi tin nhắn trực tiếp bao gồm cả hình ảnh.

Do vậy, sau bước tìm hiểu lý thuyết và ứng dụng thì hướng nghiên cứu tiếp của đề tài nhằm tăng hiệu quả lọc là:

 Tìm ra cái nhìn chung về thư rác của những người dùng thư trong cùng hệ thống thư điện tử. Bằng cách rút ra những email có xác suất là thư rác cao để bổ xung vào tập huấn luyện chung cho tất cả mọi người nhằm gia tăng kinh nghiệm cho bộ lọc.

 Ngăn chặn việc Spam bằng hình ảnh bằng việc đưa ra thông báo là thư rác nếu nó có nội dung chủ yếu là đồ họa. Đơn giản nhất là không cho hiển thị hình ảnh khi người dùng duyệt thư trừ khi họ có nhu cầu xem hình ảnh thì tự họ sẽ bật hiển thị.

 Tích hợp phân tích hình ảnh để lấy ra văn bản trong hình nhằm giảm việc lọc sai do loại bỏ tất cả thư có nội dung chủ yếu đồ họa. Việc này đòi hỏi hệ thống phải mạnh cùng thuật toán phân tích hình ảnh thông minh.

 Bổ xung thêm vào tập các từ trung tính tiếng Việt cho bộ lọc nhằm tăng tốc và tiết kiệm tài nguyên cho cơ sở dữ liệu. Ví dụ như các từ trung tính tiếng việt ứng với các từ trung tính tiếng Anh như: thì, là, ở, cái, con, và, hoặc, ….

Tài liệu tham khảo

[1] Nguyễn Quốc Đại, Lý Thuyết Bayes, mạng Bayes. (2009)

[2] Nguyễn Thanh Sơn, Lê Khánh Luận; Lý thuyết xác suất và thống kê toán; Nxb Thống kê (2008)

[3] Nguyễn Duy Tiến, Trần Minh Ngọc Đại học Khoa Học Tự Nhiên, ĐHQGHN, Bài giảng của Viện Thống Kê Thế Giới IMS tại Malaysia

[4] Azam. N, Dar. H. A, Marwat. S; Comparative study on Feature Space Reduction for Spam Detection

[5] Paul Graham; A plan for spam – 2002. Xem tại địa chỉ

http://paulgraham.com/spam.html

[6] Wikipedia ; Bayesian Spam Filtering. Xem tại địa chỉ

http://en.wikipedia.org/wiki/Bayesian_spam_filtering

[7] Wikipedia ; Sequential Bayesian Filtering. Xem tại địa chỉ

Một số cải tiến cho bộ lọc BayesSpam

Các mô hình xác suất Naive Bayes

Dùng luật Bayes tính xác suất