Họctích cực trong bài tốn lọc thư rác

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Tìm hiểu phương pháp học tích cực và ứng dụng cho bài toán lọc thư rác (Trang 43 - 45)

CHƯƠNG I : GIỚI THIỆU

4.2 Họctích cực trong bài tốn lọc thư rác

Nhiệm vụ của lọc thư rác là tự động tìm ra các thư điện tử khơng mong muốn, độc hại trước khi chúng được chuyển đến người sử dụng. Nhiệm vụ của lọc thư rác là một phạm vi ứng dụng quan trọng và cĩ qui mơ lớn trong lĩnh vực học máy.

Phương pháp học tích cực đã được phát triển mạnh mẽ trong học máy để làm giảm đi chi phí gán nhãn bằng cách xác định các dữ liệu chứa thơng tin mà cĩ yêu cầu nhãn. Điều này được thể hiện trong thực tế rằng chỉ cĩ một phần nhỏ của tập dữ liệu chưa cĩ nhãn là cần phải được gán nhãn để huấn luyện bộ học tích cực sao cho đạt đến một hiệu suất đủ để ứng dụng trong việc phân loại. Với tốc độ học cao và yêu cầu ít các email đã gán nhãn để huấn luyện, chúng ta sẽ áp dụng phương pháp học tích cực ở trên vào bài tốn lọc thư rác. Phương pháp học tích cực cho phép chọn các mẫu huấn luyện một cách tự động. Sử dụng tri thức hiện tại, bộ học tích cực khơng thụ động nhận các mẫu huấn luyện mà lại tích cực lựa chọn các mẫu sao cho cĩ thể huấn luyện được một mơ hình tối ưu hơn.

Kịch bản ý tưởng của học tích cực trong bài tốn lọc thư rác được thể hiện qua hình 4.1. Các thư điện tử được giả sử là đến theo luồng, nghĩa là tại một thời điểm chỉ cĩ một thư điện tử đến. Với mỗi một thư đến, bộ học sẽ đưa ra truy vấn để nhận được nhãn của thư bằng cách dự đốn đĩ là thư thường hay thư rác. Người dùng sẽ quan sát thư và nhãn của thư được bộ học dự đốn trước đĩ và thực hiện phản hồi đến bộ học tích cực, cung cấp nhãn thực sự của thư, thư đĩ thực sự là thư rác hay thư thường. Bộ lọc thư tích cực nhận phản hồi của người dùng sẽ xác định được sự dự đốn của mình về nhãn của thư là đúng hay sai. Nĩ học sẽ sử dụng nhãn thực sự của thư do người dùng phản hồi để cập nhật thêm vào tập huấn luyện, huấn luyện (cập nhật) lại mơ hình để cải thiện hiệu suất lọc thư hay cải thiện dự đốn nhãn cho các thư sau.

Hình 4.1 Bộ l Cĩ nhiều thuật to hình như thuật tốn truy v mẫu khơng chắc chắn, truy v này đều đạt hiệu quả trong b chỉ áp dụng 2 thuật tốn dựng bộ học tích cực cho b

Trong mơ hình b vào thuật tốn perceptron ho bày ở chương 3. Với bộ sẽ cho ta bộ lọc thư rác dựng dựa trên active SVM s thư rác tích cực này được vector hĩa và được trích đĩ được đưa vào bộ học học của bộ lọc thư điện bộ lọc đạt hiệu quả cao.

lọc thư rác áp dụng phương pháp học tích tốn được sử dụng để xây dựng bộ học

truy vấn dựa vào hội động (Query by Committee), l , truy vấn dựa vào tập dữ liệu ban đầu… C

trong bài tốn lọc thư rác. Tuy nhiên trong lu án học tích cực là Perceptron và active cho bài tốn lọc thư rác.

bài tốn lọc thư rác bộ học tích cực được on hoặc thuật tốn học tích cực dựa vào ộ họctích cực được xây dựng trên thuật ác tích cực perceptron. Bộ học tích tích SVM sẽ thu được bộ lọc thư SVM tích

ợc thể hiện trong hình 4.2. Thư điện tử ích chọn các thuộc tính đặc trưng đại di

ọc tích cực (perceptron hoặc SVM active). Qu ện tử sẽ được lặp đi lặp lại nhằm mục đích

cao.

ích cực

ọc tích cực, điển y by Committee), lấy … Các thuật tốn trong luận văn này, active SVM để xây ợc xây dựng dưa ào SVM đã trình ật tốn perceptron ích cực được xây cực. Các bộ lọc ử khi đến sẽ được diện cho thư, sau SVM active). Quá trình đích thu được một

Hình 4.2 Bộ lọc th

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Tìm hiểu phương pháp học tích cực và ứng dụng cho bài toán lọc thư rác (Trang 43 - 45)

Tải bản đầy đủ (PDF)

(65 trang)