Phát hiện thư rác

Một phần của tài liệu ĐB tính riêng tư cho mô hình DL (Trang 48)

Hiện nay với số lượng lớn các tin nhắn rác được gửi đến mail hàng ngày và không ngừng gia tăng tăng đòi hỏi rất cần thiết kế nhiều bộ lọc chống thư rác để phân loại chúng. Đã có rất nhiều kỹ thuật ML và cả DL cho đến nay đã được sử dụng để cải thiện khả năng phát hiện thư rác trong email. Nhưng tốt hơn hết thì RBM đã cho thấy hiệu quả cao trong lĩnh vực này, mặc dù đã được điều chỉnh về các thông số nhưng làm thế nào để nó hoạt động chuẩn xác nhất vẫn còn là một thách thức lớn. Hiểu được điều này, Da Silva và cộng sự đã trình bày một cách tiếp cận để tìm hiểu các tính năng bên trong của thư email bởi RBM để xác định nội dung độc hại hoặc nội dung lành tính. Để điểu chỉnh thông số RBM, công nghệ tối ưu hóa dựa vào tìm kiếm đã được sử dụng để đánh giá độ chắc chắn của các thông số trong bối cảnh phát hiện thư rác. Các tham số RBM là tốc độ học, giảm trọng lượng, tham số hình phạt và số lượng các đơn vị ẩn. Các tính năng được trích xuất sau đó được đưa vào bộ phân loại OPF để đánh giá độ chính xác của mô hình. Thuật toán OPF sử dụng chi phí đường dẫn chức năng để ước tính các nguyên mẫu, có nghĩa là các mẫu chính tốt nhất sẽ đại diện cho các lớp. Các thử nghiệm đã luần lượt thực hiện trên ba tập dữ liệu công khai đó là: SPAMBASE, LINGSPAM và CSDMC. Nó cho thấy độ chính xác của OPF trình phân loại sử dụng 10 tính năng đã học không được giám sát vì đầu vào cao hơn so với cái sử dụng 57 tính năng ban đầu. Do đó, RBM sẽ rất phù hợp để tìm hiểu các tính năng từ nội dung trong email.

Một phần của tài liệu ĐB tính riêng tư cho mô hình DL (Trang 48)

Tải bản đầy đủ (DOCX)

(85 trang)
w