Bộ lọc spam trên mơi trường Internet

4. Phạm vi ứng dụng

4.3.6. Bộ lọc spam trên mơi trường Internet

4.3.6.1. Chức năng gửi email

Hình 4.16 – Chức năng gửi email

Chức năng này tương tự chức năng mail bình thường: bao gồm gửi cho ai, danh sách người nhận và nội dung email

Điểm đặc biệt của hệ thống là: khi một email được gửi đi, bộ lọc spam trên

server sẽ tự động làm việc.

+ Nếu email là spam sẽ được đưa vào thư mục spam của người nhận

+ Nếu email là thư bình thường sẽ được đưa vào thư mục Inbox của người nhận + Ngồi ra, bộ lọc thư spam cịn cĩ chức năng theo vết người sử dụng, nghĩa là nếu người dùng đăng nhập sau một số lần nào đĩ thì những email khơng đọc sẽ được gán là thư spam và tự đdộng chuyển sang hộp Spam

4.3.6.2. Bộ lọc spam trên chương trình

Chức năng của hệ thống Các thư mục

+ Inbox : chứa thư bình thường + Draft: chứa thư nháp, chưa gửi đi

+ Sent: chứa các thư mà người dùng đã gửi + Spam: chứa thư rác

+ Trash: thùng rác chứa thư bỏ đi

White List , Black list: chứa danh sách các địa chỉ người sử dụng

+ White List: người dùng nằm trong danh sách này mặc định thư sẽ được đưa vào hộp Inbox mà khơng cần qua bộ lọc spam của chương trình

+ Black List: người dùng nằm trong danh sách này mặc định thư sẽ được đưa

vào hộp Spam mà khơng cần qua bộ lọc của chương trình

+ Infromation: cài đặt các thơng số chức năng riêng của chương trình.

Thơng số này dùng để thể hiện tính thơng minh của chương trình: Nếu 1 email nằm trong hộp Inbox sau bao nhiêu lần check mail mà ngưởi dùng khơng mở ra xem thì mặc định email đĩ sẽ chuyển sang hộp Spam mà khơng cần hỏi người sử dụng, giảm thời gian check mail của người dùng.

4.4.Kết quả thực ngiệm và đánh giá kết quả đạt được

4.4.1. Đối với thư spam tiếng Anh

Để bắt đầu quá trình thử nghiệm lọc thư spam tiếng Anh, đã tập trung 100 thư tiếng Anh tìm kiếm trên mạng Internet gồm 60 thư tốt và 40 thư spam tham gia quá trình lọc thư. Kết quả đạt được được thể hiện bằng bảng thống kê bên dưới

Bảng 4.1. Kết quả phân loại thư tiếng Anh Kết quả phân loại

Độ chính xác

Spam Ham

38/40 56/60 Khoảng 95%

Dựa vào kết quả của bảng thống kê cho thấy rõ việc tiếp cận của thuật tốn Nạve Bayes đối với việc lọc thư tiếng Anh cho hiệu quả khả quan. Việc tiếp cận

dựa trên phân tích từ này cĩ thể làm tiền đề cho việc lọc thư spam tiếng Việt trên cơ sở từ vựng, bao gồm từ đơn và từ ghép

4.4.2. Đối với thư spam tiếng Việt

4.4.2.1.Xây dựng bộ tựđiển tiếng Việt

Dựa trên hơn 800 tài liệu tiếng Việt tìm kiếm trên Internet, trung bình mỗi tài liệu cĩ trên 150 từ. Kết quả xây dựng bộ từ điển dựa trên nguồn tài liệu đạt được biểu hiện trên bảng dưới (việc kiểm tra tính đúng sai của từ được thực hiện thủ cơng)

Bảng 4.2. Thống kê bộ tự điển từ tiếng Việt

Loại từ Thơng số Sốlượng Tỉ lệ từđúng Từ đơn 4506 >85% Từ ghép 11980 > 80%

Bộ tự điển từ này cĩ thể sử dụng lâu dài. Quá trình học từ cĩ sẵn, điểm chủ yếu là tìm kiếm được tập huấn luyện vừa đủ lớn và bao hàm các chủ đề, lĩnh vực tiếng Việt để nâng cao tính chính xác cho bộ tự điển

4.4.2.2. Kết quả phân lớp thư tiếng Việt

Do tập huấn luyện phải là thư tiếng Việt nên phải sử dụng thống kê trên Internet, một mặt tìm email tiếng Việt, mặt khác xin sự giúp đỡ của các diễn đàn để thu thập email tiếng Việt. Để tiến trình huấn luyện được thuận lợi, tiến hành chia dữ liệu thu thập được thành 02 loại: thư rác và thư bình thường. Cuối cùng, đã thu thập

được dữ liệu thử nghiệm gồm 385 thư rác và 100 thư bình thường để bắt đầu tiến

trình huấn luyện.

Thử nghiệm tìm token từ đơn, với tập huấn luyện như trên, đã xác định được 3042 token sử dụng được

Thử nghiệm tách từ ghép, tương tự tập huấn luyện trên, đã xác định được được 5914 tokentừ ghép.

Do lĩnh vực nghiên cứu tiếng Việt phong phú như kinh tế, khoa học, xã hội, sức khỏe, thể thao… nên việc nghiên cứu ngữ nghĩa các từ, các câu sẽ rất phức tạp và để xử lý chính xác cũng mất nhiều thời gian. Ngồi ra, theo thống kê trong bảng 1 cho thấy từ ghép tiếng Việt chủ yếu là loại từ cĩ độ dài 2 tiếng, do vậy việc tách từ chúng tơi cũng chỉ thực hiện cho từ ghép cĩ độ dài tối đa 2 tiếng. Trong giới hạn đĩ, kết quả thực nghiệm phân loại 200 thư tiếng Việt (gồm 100 thư spam 100 thư ham) và bằng cách dựa vào tập huấn luyện từ đơn và từ ghép được thể hiện bằng bảng thống kê bên dưới.

Bảng 4.3. Kết quả phân loại thư tiếng Việt

Thử nghiệm trên Kết quả phân loại Độ chính xác

Spam Ham Spam Ham

Từ đơn 79/100 90/100 79% 90%

Từ ghép 94/100 92/100 94% 92%

Vừa từ đơn vừa từ ghép 85/100 80/100 85% 80%

Dựa trên kết quả thực nghiệm, cho thấy rõ việc lọc thư spam tiếng Việt theo từ ghép cho kết quả khả quan nhất (94%) so với kết quả lọc theo từ đơn (79%) và vừa từ đơn vừa từ ghép (85%). Điều này phần nào thể hiện hướng tiếp cận đúng của đề tài.

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận

Đề tài đã đạt được những kết quả sau:

- Tìm hiểu bài tốn lọc thư spam, sự ảnh hưởng của thư spam đối với người sử dụng và tài nguyên mạng.

- Tìm hiểu các phương pháp lọc thống kê và các kỹ thuật nhằm tối ưu hĩa các bước lọc thư spam đặc biệt là thuật tốn Nạve Bayes, từ đĩ chọn lọc những kỹ thuật tối ưu để xây dựng một chương trình lọc thư spam cho hiệu quả cao nhất.

- Sử dụng phương pháp tách từ đơn, từ ghép dựa trên bộ huấn luyện thư, đồng thời áp dụng thuật tốn Nạve Bayes để tiến hành lọc thư spam tiếng Việt.

- Đề xuất kỹ thuật tách câu, tách từ đơn và từ ghép trong tiếng Việt.

- Xây dựng 02 chương trình thể hiện hướng nghiên cứu, tiếp cận của đề tài. Điểm mới của đề tài này là đề xuất phương pháp lọc thư rác sử dụng thuật tốn Bayes khơng phải chỉ dựa trên các từ đơn như đối với tiếng Anh mà cịn dựa trên cả từ đơn và từ ghép trong tiếng Việt và xây dựng hệ thống lọc thư rác cĩ khả năng theo vết người sử dụng.

Kết quả thực nghiệm cho thấy hướng tiếp cận của đề tài đạt được độ chính xác cao hơn khi phân loại thư rác tiếng Việt so với phương pháp Bayesian cổ điển chỉ dùng cho các từ đơn tiếng Việt.

Hướng phát triển

Xây dựng bộ dữ liệu bao quát các lĩnh vực để cĩ thể thấy rõ hiệu quả của bộ lọc thư spam. Tập huấn luyện càng lớn thì độ chính xác của việc học từ đơn và từ ghép càng được nâng cao, gĩp phần rất lớn trong việc tính xác suất theo cơng thức Nạve Bayes.

Thư spam tại Việt Nam rất phức tạp, đơi khi người dùng nhận được thư spam cả tiếng Anh lẫn tiếng Việt. Vì vậy, hướng nghiên cứu tiếp theo là đưa ra phương pháp lọc thư rác thích hợp cho cả tiếng Anh lẫn tiếng Việt.

TÀI LIỆU THAM KHẢO

[1] Amit Sharma ,Bayesian Mail Filter for detecting spam,2008

[2] Dinh Dien, “Tu Tieng Viet” , Proceeding of ICMLC2002 Conference, Beijing, November 2002.

[3] Dinh Dien, Hoang Kiem, Nguyen Van Toan, “Vietnamese Word Semntation”, The sixth Natural Language Processing Pacific Rim Sympossium, Tokyo, Japan 2001

[4] D.Goldszmidt, Friedman, N.Geiger, Bayesian network classifiers Machine Learning, 2006

[5] Foo S., Li H, “Word Segmentation and Its Effect on Information Retrieval”, Information Processing & Management: Anh International Journal, 2004

[6] Graham, P., A plan for Spam, 2008

[7] H. Nguyen, T. Vu, N. Tran, K. Hoang , “Internet and Genertics Algorithm-base

text Categorization for Documents in Vietnamese”, Research, Innovation and

Vision of the Future, the 3rd International Conference in Computer Science, (RIVF 2005), Can Tho, Viet Nam 2005

[8] H. David D. Lewis, Ph.D.Ornarose, Inc. & David D. Lewis Consulting, Naive Bayes Text Classification for Spam Filtering , 2007

[9] Le An Ha, “A method for word segmnetation in Vietnamese”, Proceedings of Corpus Linguistics , Lancaster, UK, 2003.

[10] Scott D.Anderson, “Combining Evidence using Bayes’ Rule”, 2008

[11] Yiming Yang và Xin Liu , “A re-examination oftext categorization method” , School of computer science, Carnegie Mellon University , 2008

[12] http://www.securelist.com [13] http://www.pewinternet.org [14] http://www.dict.vietfun.com [15] http://www.vi.wikipedia.org [16] http://www.openspf.org

Bài tốn phân loại văn bản

Những nguyên tắc bộ lọc thống kê