Nhiệm vụ của lọc thư rác là tự động tìm ra các thư điện tử không mong muốn, độc hại trước khi chúng được chuyển đến người sử dụng. Nhiệm vụ của lọc thư rác là một phạm vi ứng dụng quan trọng và có qui mô lớn trong lĩnh vực học máy.
Phương pháp học tích cực đã được phát triển mạnh mẽ trong học máy để làm giảm đi chi phí gán nhãn bằng cách xác định các dữ liệu chứa thông tin mà có yêu cầu nhãn. Điều này được thể hiện trong thực tế rằng chỉ có một phần nhỏ của tập dữ liệu chưa có nhãn là cần phải được gán nhãn để huấn luyện bộ học tích cực sao cho đạt đến một hiệu suất đủ để ứng dụng trong việc phân loại. Với tốc độ học cao và yêu cầu ít các email đã gán nhãn để huấn luyện, chúng ta sẽ áp dụng phương pháp học tích cực ở trên vào bài toán lọc thư rác. Phương pháp học tích cực cho phép chọn các mẫu huấn luyện một cách tự động. Sử dụng tri thức hiện tại, bộ học tích cực không thụ động nhận các mẫu huấn luyện mà lại tích cực lựa chọn các mẫu sao cho có thể huấn luyện được một mô hình tối ưu hơn.
Kịch bản ý tưởng của học tích cực trong bài toán lọc thư rác được thể hiện qua hình 4.1. Các thư điện tử được giả sử là đến theo luồng, nghĩa là tại một thời điểm chỉ có một thư điện tử đến. Với mỗi một thư đến, bộ học sẽ đưa ra truy vấn để nhận được nhãn của thư bằng cách dự đoán đó là thư thường hay thư rác. Người dùng sẽ quan sát thư và nhãn của thư được bộ học dự đoán trước đó và thực hiện phản hồi đến bộ học tích cực, cung cấp nhãn thực sự của thư, thư đó thực sự là thư rác hay thư thường. Bộ lọc thư tích cực nhận phản hồi của người dùng sẽ xác định được sự dự đoán của mình về nhãn của thư là đúng hay sai. Nó học sẽ sử dụng nhãn thực sự của thư do người dùng phản hồi để cập nhật thêm vào tập huấn luyện, huấn luyện (cập nhật) lại mô hình để cải thiện hiệu suất lọc thư hay cải thiện dự đoán nhãn cho các thư sau.
Hình 4.1 Bộ l Có nhiều thuật to hình như thuật toán truy v mẫu không chắc chắn, truy v này đều đạt hiệu quả trong b chỉ áp dụng 2 thuật toán dựng bộ học tích cực cho b
Trong mô hình b vào thuật toán perceptron ho bày ở chương 3. Với bộ sẽ cho ta bộ lọc thư rác dựng dựa trên active SVM s thư rác tích cực này được vector hóa và được trích đó được đưa vào bộ học học của bộ lọc thư điện bộ lọc đạt hiệu quả cao.
lọc thư rác áp dụng phương pháp học tích toán được sử dụng để xây dựng bộ học
truy vấn dựa vào hội động (Query by Committee), l , truy vấn dựa vào tập dữ liệu ban đầu… C
trong bài toán lọc thư rác. Tuy nhiên trong lu án học tích cực là Perceptron và active cho bài toán lọc thư rác.
bài toán lọc thư rác bộ học tích cực được on hoặc thuật toán học tích cực dựa vào ộ họctích cực được xây dựng trên thuật ác tích cực perceptron. Bộ học tích tích SVM sẽ thu được bộ lọc thư SVM tích
ợc thể hiện trong hình 4.2. Thư điện tử ích chọn các thuộc tính đặc trưng đại di
ọc tích cực (perceptron hoặc SVM active). Qu ện tử sẽ được lặp đi lặp lại nhằm mục đích
cao.
ích cực
ọc tích cực, điển y by Committee), lấy … Các thuật toán trong luận văn này, active SVM để xây ợc xây dựng dưa ào SVM đã trình ật toán perceptron ích cực được xây cực. Các bộ lọc ử khi đến sẽ được diện cho thư, sau SVM active). Quá trình đích thu được một
Hình 4.2 Bộ lọc th