Cài đặt và cấu hình

Một phần của tài liệu Nghiên cứu và thiết kế hệ thống lọc thư rác tiếng việt trên linux (Trang 71 - 73)

3. Quá trình huấn luyện và đánh giá

3.2. Cài đặt và cấu hình

Chúng ta thực hiện cài đặt và cấu hình với các yêu cầu trong mục 1 được thỏa mãn. Thật vậy, các bước cài đặt được thực hiện như sau:

1. Cài đặt Mail-SpamAssassin-3.2.4

2. Thêm hai gĩi cho phần tách từ cho thư tiếng Việt

3. Thay thế Mơ đun Mail:SpamAssassin:Bayes của Mail-SpamAssassin- 3.2.4 bằng Mơ đun đã cải tiến.

4. Tạo CSDL cho SpamAssassin trong MySQL và hai b ảng viword

vistopword bằng các câu SQL như trên

5. Cập nhật hai từ điển tiếng Việt, từ điển tách từ và từ điển từ dừng

3.3.Chiến lược và cơng cụ huấn luyện

Cĩ hai chiến lược huấn luyện cho hệ thống phân loại Bayesian là huấn luyện tất cả và huấn luyện nếu cĩ lỗi. Trong chiến lược huấn luyện tất cả, bạn sẽ huấn luyện cho hệ thống tất cả các thư bạn nhận được. Chiến lược này đáp ứng sự thay đổi của thư rác nhưng lại quá nhạy cảm với các biến đổi xấu khơng thể hiện được xu hướng thay đổi. Hơn nữa nĩ cịn là một chiến lược tốn kém tài nguyên và cơng sức. Trong chiến thuật huấn luyện khi cĩ lỗi, bạn chỉ phải huấn luyện lại hệ thống cho các thư đã bị phân loại sai. Chiến thuật này tiết kiệm tài nguyên nhưng khơng đáp ứng tốt sự thay đổi của thư rác.

Dựa vào thử nghiệm của Greg Louis ( http://www.bgl.nu/bogofilter/), ơng đã chỉ ra một chiến lược khá hợp lý là áp dụng chiến thuật huấn luyện tất cả trong th ời gian đầu và chuyển sang huấn luyện khi cĩ lỗi trong giai đoạn sau. Giới hạn chuyển đổi mà ơng đưa ra là 10.000 thư.

Để nhận được độ chính xác của phương pháp, chúng ta cấu hính SpamAssassin chỉ hoạt động với phương pháp Bayesian.

Mơ đun sa-learn là giao diện chính của bạn khi thực hiện huấn luyện hệ thống. Bước đầu tiên là sưu tập cơ sở dữ liệu về thư rác và thư sạch. Các thư cĩ thể lưu trữ dưới định dạng maildir (mỗi thư một tệp) hoặc mbox format (mỗi tệp cĩ thể cĩ nhiều thư). Chú ý rằng, các thư rác nên được sưu tập một thời điểm mới đạt được hiệu quả tốt nhất.

Bước tiếp theo, chúng ta dùng mơ đun sa-learn trên mỗi thư mục thư với các tham số --spam và --ham. Trong đoạn lệnh sau là kịch bản của của quả trình học với thư mục dạng mbox với giả thiết chúng ta chạy cho từng người dùng.

Ví dụ 1. Huấn luyện qua thư mục thư dạng mbox

$ ls -F Mail

spam myproject

$ sa-learn --mbox --spam Mail/spam

$ sa-learn --mbox --ham mail/myproject

$ sa-learn --mbox --ham /var/spool/mail/$LOGNAME

Ví dụ 2: Huấn luyện qua thư mục thư dạng maildirs

INBOX/ spam/ myproject/

$ sa-learn --no-rebuild --spam mail/spam

$ sa-learn --no-rebuild --ham mail/INBOX

$ sa-learn --no-rebuild --ham mail/myproject

$ sa-learn --rebuild

Một phần của tài liệu Nghiên cứu và thiết kế hệ thống lọc thư rác tiếng việt trên linux (Trang 71 - 73)

Tải bản đầy đủ (PDF)

(80 trang)