2. Phân loại văn bản
3.2.3. Cấu hình cho Bayesian
Chúng ta sẽ tìm hiểu cách cấu hình mơ đun phân loại của SpamAssassin. Chúng hoạt động dựa trên một số chỉ thị. Mặc dù chỉ một số trong sơ chúng địi hỏi người quản trị phải cấu hình nhưng hiểu rõ chúng là đều cần thiết để hệ thống hoạt động tốt. Bao gồm các chỉ thị sau:
use_bayes
Dùng để cho phép mơ đun hoạt động. Mặc định 1 là bật, 0 là tắt
bayes_auto_learn, bayes_auto_learn_threshold_nonspam, bayes_auto_learn_threshold_spam
Chỉ thị này làm bật tắt chế độ tự động học của SpamAssassin, tức tự động thêm các thư với các điểm rất cao hoặc rất thấp là đầu vào của hệ thống phân loại. Được bật là 1 và 0 là tắt và chế độ mặc định là tắt. Và hai giá trị ngưỡng sa đĩ là chỉ các thư được đưa vào hệ thống học. Giá trị mặc định của
bayes_auto_learn_threshold_nonspam là 0.1, của
bayes_auto_learn_threshold_spam 12 và khơng thể đặt nĩ nhỏ hơn 6.
Chỉ thị này sẽ loại bỏ các header cĩ tên được đưa ra. Nĩ hiệu dụng khi đã cĩ một hệ thống chơng thư rác trước đĩ đã thêm các header đánh dấu thư rác.
bayes_ignore_from address (SpamAssassin 3.0)
Chỉ thị bỏ qua các thư cĩ địa chỉ From được kể ra. Chúng ta cĩ thể sử dụng nhiều chỉ thị này hoặc dùng các ký tự đại diện * và ?
bayes_ignore_to address (SpamAssassin 3.0)
Chỉ thị bỏ qua các thư cĩ địa chỉ To được kể ra. Chúng ta cĩ thể sử dụng nhiều chỉ thị này hoặc dùng các ký tự đại diện * và ?
bayes_learn_during_report
Khi chỉ thị này được bật, thì thư sẽ được gửi cho clearinghouse, tương tự như dùng lệnh spamassassin–report. Mặc định là được bật
bayes_path và bayes_file_mode
Mặc định, SpamAssassin sẽ chứa các cơ sở dữ liệu của phương pháp cho mỗi người dùng trong hệ thống. Cơ sở dữ liệu của người dùng nằm trong thư mục con .spamassassin của thư mục home của người đĩ và tên của chúng được bắt đầu bằng bayes_, chẳng hạn bayes_seen và bayes_toks. Bạn cĩ thể dùng chỉ thị này để thay đổi thư mục chứa cơ sở dữ liệu đĩ
bayes_path /etc/mail/spamassassin/bayes
Mặc định, các tệp được tạo ra với mode 0700. Chỉ thị bayes_file_mode cĩ thể được dùng để đặt lại mode này.
Phần sau là các chỉ thị cho hoạt động bên trong của mơ đun phân loại Bayesian. Nĩ khơng quan trọng với người quản trị nhưng đặc biệt quan trọng với người nghiên cứu, xây dựng hệ thống.
bayes_min_ham_num and bayes_min_spam_num
Chỉ thị này đặt số lượng tối thiểu của thư sạch và thư rác mà hệ thống cần phải học trước khi cĩ thể thực hiện để ngăn thư rác. Thơng thường là từ vài trăm đến nghìn. Mặc định là 200 cho mỗi loại.
bayes_use_hapaxes
Hapaxes là thẻ được thấy chỉ thấy một lần trong quá trình học. Theo đĩ, sử dụng nĩ làm cho hệ thống cĩ vẻ chính xác hơn, vì vậy mặc định là cĩ dùng các dấu hiệu đĩ.
Chỉ thị này điều khiển việc lựa chọn hàm để kết hợp xác suất của các dấu hiệu thành xác suất của cả thư. Khi bằng (1), phương pháp dựa trên hàm thống kê bình phương ; khi bằng (0), gọi hàm "Nạve Bayesian". Mặc định là hàm thống kê chi-squared
bayes_auto_expire và bayes_expiry_max_db_size
Khi bayes_auto_expire bằng (1), SpamAssassin tự động loại bỏ các dấu hiệu cũ trong quá trình học khi số lượng các dấu hiệu vượt quá bayes_expiry_max_db_size. Khi bayes_auto_expire (0), việc loại các dấu hiệu phải làm thủ cơng. Việc tự động loại bỏ khơng nhiều hơn một lần trong 12 giờ. Mặc định là tự động loại bỏ.
bayes_learn_to_journal và bayes_journal_max_size
Khi bayes_learn_to_journal bằng (1), SpamAssassin sẽ cất giữ các dữ liệu mới trong một tệp chứ khơng lưu trữ trực tiếp vào cơ sở dữ liệu. Các dữ liệu mới này được đồng bộ vào cuối ngày hoặc khi tệp lưu trữ tạm vượt quá exceeds bayes_journal_max_size byte ( mặc định 102,400). Chiến lược sử dụng này tiết kiệm được kết nối đến cơ sở dữ liệu