CÁC PHƯƠNG THỨC HUẤN LUYỆN

Một phần của tài liệu NGHIÊN CỨU BỘ LỌC THƯ SPAM TRÊN CƠ SỞ MẠNG BAYES pot (Trang 27 - 32)

 Trong các bộ lọc trên cơ sở mạng Bayes,

chúng ta cần phải huấn luyện hệ thống trước khi sử dụng, phương pháp huấn luyện tốt sẽ khi sử dụng, phương pháp huấn luyện tốt sẽ cải tiến khả năng phân lớp của bộ lọc.

 Các email phân lớp sẵn sẽ được thêm vào đầu

vào của hệ thống. Trong quá trình huấn luyện, các giá trị của các token được thay đổi theo các giá trị của các token được thay đổi theo thời gian trong từ điển token của bộ lọc để đạt được độ chính xác ngày càng cao hơn.

III. CÁC PHƯƠNG THỨC HUẤN LUYỆN

 Có một yêu cầu cần chú ý là việc ‘học’ vẫn

tiếp tục sau khi kết thúc huấn luyện, Việc huấn luyện sẽ tiếp tục bất cứ khi nào bộ lọc được sử luyện sẽ tiếp tục bất cứ khi nào bộ lọc được sử dụng.

 Ngoài ra hiệu quả của bộ lọc còn tăng thêm

bằng việc bổ sung thêm các thao tác cá nhân liên quan đến các yêu cầu sử dụng trong quá liên quan đến các yêu cầu sử dụng trong quá trình hoạt động của bộ lọc.

III. CÁC PHƯƠNG THỨC HUẤN LUYỆN

Huấn luyện với mọi thứ

“Huấn luyện với mọi thứ” hay “học không được giám sát”: tất cả các token mới được được giám sát”: tất cả các token mới được thêm vào tập dữ liệu, các giá trị của các token được cập nhật sau khi mỗi email được xử lý.

 Giải pháp này cho phép thay đổi nhanh theo

các đặc điểm của email, nhưng nó đòi hỏi nhiều tài nguyên để xử lý tất cả các token và nhiều tài nguyên để xử lý tất cả các token và các giá trị mỗi khi nhận được email.

III. CÁC PHƯƠNG THỨC HUẤN LUYỆN

Huấn luyện với các lỗi

“Huấn luyện với các lỗi”: Theo ý tưởng là các giá trị thay đổi nhanh có thể dẫn tới nhiều lỗi hơn. Trong trường hợp này các giá trị của các token trong tập dữ liệu chỉ được sửa đổi khi một lỗi được chỉ ra bởi thông tin phản hồi của người sử dụng.

 Giải pháp này sử dụng đĩa cứng ít hơn đáng kể so với giải pháp “huấn luyện với mọi thứ”. Điểm yếu của phương thức học này là khó thích nghi nhanh với các đặc trưng mới. Ví dụ khi xuất hiện một kiểu spam mới có thể mất một khoảng thời gian cho tới khi nó được xử lý chính xác.

III. CÁC PHƯƠNG THỨC HUẤN LUYỆN

Huấn luyện cho tới khi thành thạo

“Huấn luyện cho tới khi thành thạo”: giải pháp này kết hợp cả hai giải pháp trên. Nó sẽ “huấn luyện với mọi thứ” và sau khi nhận được đủ chi thức về thói quen của người sử dụng nó sẽ chỉ huấn luyện khi một lỗi xuất hiện như trong huấn “luyện với các lỗi”.

 Phương thức học kết hợp này cho ta lợi ích của cả hai giải pháp học ở trên, vấn đề duy nhất cần giải quyết là định nghĩa bộ lọc khi nào đủ tri thức để thay đổi phương thức học.

Một phần của tài liệu NGHIÊN CỨU BỘ LỌC THƯ SPAM TRÊN CƠ SỞ MẠNG BAYES pot (Trang 27 - 32)

Tải bản đầy đủ (PPT)

(35 trang)