Các nghiên cứu gần đây

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu một số thuật toán lọc thư rác và ứng dụng trong lọc email nội bộ (Trang 33 - 35)

Phân loại thư rác tự động là một lĩnh vực được chú ý nhất trong những năm gần đây. Để phân loại người ta sử dụng nhiều cách tiếp cận khác nhau như dựa trên từ khĩa, dựa trên ngữ nghĩa các từ cĩ tần số xuất hiện cao, mơ hình Maximum Entropy, tập thơ ... Một số lượng lớn các phương pháp phân loại đã được áp dụng như: mơ hình hồi quy [Fuhr et al,1991], phân loại dựa trên láng giềng gần nhất (k-nearest neighbors) [Dasarathy, 1991], phương pháp dựa trên xác suất Nạve Bayes [Joachims, 1997], cây quyết định [Fuhr et al,1991], học luật quy nạp [William & Yoram, 1996], mạng nơron (neural network) [Wiener et al, 1995], học trực tuyến [William & Yoram, 1996], và máy vector hỗ trợ (SVM-support vector machine) [Vapnik, 1995]. Hiệu quả của các phương pháp này rất khác nhau ngay cả khi áp dụng cho tiếng Anh.

Cách tiếp cận dùng hệ miễn dịch nhân tạo cho lọc thư rác được đề xuất đầu tiên bởi Terri Oda [10] cho phép hệ thống lọc thư rác cĩ khả năng học trong

mơi trường động với nội dung thay đổi liên tục theo thời gian thực. Tuy nhiên, kỹ thuật áp dụng cịn đơn giản nên tốc độ chậm và độ chính xác cịn hạn chế.

Sau đĩ Tarek M Mahmoud và Ahmed M Mahfouz đã áp dụng AIS(Hệ thống nhận dạng tự động) để lọc thư rác SMS. SMS là dạng tin nhắn văn bản được gửi giữa các điện thoại, thơng thường các tin nhắn này khơng cĩ tệp tin đính kèm nên dung lượng nhỏ vì vậy quá trình huấn luyện dễ dàng hơn, tuy nhiên việc huấn luyện và so khớp phải diễn ra trong khoảng thời gian ngắn vì SMS là dạng tin nhắn được diễn ra trong thời gian thực [Tarek M Mahmoud, 2012].

Chương 3.

CÀI ĐẶT CÁC THUẬT TỐN

Tơi là sinh viên Lào, là cán bộ được cử đi học. Với mong muốn ứng dụng những kiến thức đã học được ở trường vào thực tiễn đơn vị mình đang cơng tác nên phần tiếp theo tơi xin cung cấp một số một số thơng tin cơ bản, liên quan đến việc triển khai.

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu một số thuật toán lọc thư rác và ứng dụng trong lọc email nội bộ (Trang 33 - 35)

Tải bản đầy đủ (PDF)

(58 trang)