Ứng dụng deep learning phát hiện lừa đảo, phát hiện spam và trang

Một phần của tài liệu ĐB tính riêng tư cho mô hình DL (Trang 46 - 49)

trang web phát hiện defacemen

2.3.1. Phát hiện lừa đảo

Trong phần này, mô hình đã sử dụng một số tính năng cơ bản, chẳng hạn như cấu trúc, tính năng liên kết, tính năng phần tử và tính năng danh sách từ nắm bắt các đặc điểm của email lừa đảo. Zhang et al nhằm phát hiện các cuộc tấn công email lừa đảo thông qua 3 lớp FFNN. FFNN được đề xuất bao gồm một lớp đầu vào, một lớp ẩn lớp, và một lớp đầu ra và số lượng tế bào thần kinh được mua lại bằng cách thử nghiệm các cài đặt khác

nhau. Để phù hợp với sử dụng tập dữ liệu, tanh và sigmoid được sử dụng làm các hàm kích hoạt và dào tạo về tuyên truyền khả năng phục hồi (RPROP) được sử dụng để đào tạo FFNN. Để thực hiện các đánh giá thử nghiệm, một tập dữ liệu thực gồm 4,202 ham email và 4.560 email lừa đảo được sử dụng. Để tiến hành thì một giai đoạn tiền xử lý được chạy để trích xuất các aforemen tính năng định thời từ các email bằng cách sử dụng tập lệnh Perl và chuẩn hóa tập dữ liệu giữa phạm vi [0, 1]. Cuối cùng, tập dữ liệu được đào tạo sử dụng tập hợp đào tạo để nhận các ước tính tham số và sau đó được thử nghiệm trên bộ thử nghiệm để đánh giá hiệu suất của NN using xác thực chéo. Quy trình này được lặp lại 20 lần cho sự khác biệt, kích thước ent của tập dữ liệu đào tạo và thử nghiệm. Sau khi đánh giá các chỉ số được tính toán, kết quả được so sánh với các NN khác nhau cài đặt, tức là số lượng đơn vị trong lớp ẩn và activa chức năng tion. Hơn nữa, hiệu suất của NN được so sánh với thuật toán ML nổi tiếng khác, chẳng hạn như DT, k -NN,NB và SVM, đạt độ chính xác 95,51% và điểm F1là 95,71% cho NN. Từ phân tích thống kê, chúng ta có thể kết luận rằng NN đảm bảo độ chính xác hợp lý ngay cả khi các ví dụ đào tạo khan hiếm. Tuy nhiên, các tác giả đã không điều tra tác động của thêm nhiều lớp ẩn hơn vào FFNN.

Một năm sau vào năm 2014, Mohammad et al đã đề xuất một bản cấu trúc NN để phát hiện các cuộc tấn công trang web lừa đảo. Lừa đảo các tính năng liên quan quan trọng trong việc xác định loại các trang web rất năng động. Do đó, cần có nhu cầu để cải thiện cấu trúc của mô hình cơ bản. Đề xuất của họ mô hình, tức là NN tự cấu trúc thích ứng, tự động hóa quá trình cấu trúc mạng. Điều này đạt được bằng cách cập nhật học tập xếp hạng và thêm các nơ-ron mới vào lớp ẩn. Mục đích của mô hình được thiết kế là để đạt được khả năng tổng quát hóa, tức là chuyến tàu và độ chính xác phân loại thử nghiệm phải gần với nhau càng tốt. Để đạt được điều này, trong 1.000 kỷ nguyên, việc đào tạo độ chính xác đặt là 94,07%, độ chính xác của bộ xác thực là 91,31% và độ chính xác của bộ thử nghiệm là 92,18%. Tập dữ liệu được sử dụng bao gồm 600 trang web hợp pháp và 800 trang web lừa đảo. Thông thường, số lượng mẫu hợp pháp phải nhiều hơn số lượng mẫu lừa đảo vui lòng mô phỏng kịch bản trong thế giới

giả. Ngoài ra, đối với bộ thích ứng tive framework, họ đã không cập nhật về số lượng các lớp ẩn của cấu trúc của NN.

2.3.2. Phát hiện thư rác

Hiện nay với số lượng lớn các tin nhắn rác được gửi đến mail hàng ngày và không ngừng gia tăng tăng đòi hỏi rất cần thiết kế nhiều bộ lọc chống thư rác để phân loại chúng. Đã có rất nhiều kỹ thuật ML và cả DL cho đến nay đã được sử dụng để cải thiện khả năng phát hiện thư rác trong email. Nhưng tốt hơn hết thì RBM đã cho thấy hiệu quả cao trong lĩnh vực này, mặc dù đã được điều chỉnh về các thông số nhưng làm thế nào để nó hoạt động chuẩn xác nhất vẫn còn là một thách thức lớn. Hiểu được điều này, Da Silva và cộng sự đã trình bày một cách tiếp cận để tìm hiểu các tính năng bên trong của thư email bởi RBM để xác định nội dung độc hại hoặc nội dung lành tính. Để điểu chỉnh thông số RBM, công nghệ tối ưu hóa dựa vào tìm kiếm đã được sử dụng để đánh giá độ chắc chắn của các thông số trong bối cảnh phát hiện thư rác. Các tham số RBM là tốc độ học, giảm trọng lượng, tham số hình phạt và số lượng các đơn vị ẩn. Các tính năng được trích xuất sau đó được đưa vào bộ phân loại OPF để đánh giá độ chính xác của mô hình. Thuật toán OPF sử dụng chi phí đường dẫn chức năng để ước tính các nguyên mẫu, có nghĩa là các mẫu chính tốt nhất sẽ đại diện cho các lớp. Các thử nghiệm đã luần lượt thực hiện trên ba tập dữ liệu công khai đó là: SPAMBASE, LINGSPAM và CSDMC. Nó cho thấy độ chính xác của OPF trình phân loại sử dụng 10 tính năng đã học không được giám sát vì đầu vào cao hơn so với cái sử dụng 57 tính năng ban đầu. Do đó, RBM sẽ rất phù hợp để tìm hiểu các tính năng từ nội dung trong email.

2.3.3. Phát hiện bề mặt trang web

Borgolte và cộng sự đã đề cập đến việc coi nhẹ trang web sẽ là một lỗi lớn trong cuộc tấn công vỡ có thể gây ra thiệt hại tài chính nghiêm trọng cho tổ chức và hủy hoại danh tiếng của họ. Chính vì thế, họ đã đề xuất

MEERKAT như một hệ thống giám sát kết hợp SAE và DNN để xác định

sự thay đổi của các bề mặt trang web. Nhận được sự trợ giúp từ việc chụp các bức ảnh trên màn hình của các trang web. MEERKAT tự động học nâng cao các tính năng cấp độ từ sự trình bày trực quan của một trang web khác xa so với các phương pháp tiếp cận trước đó.Điều khác biệt là nó không

dựa vào thông tin bổ sung do nhà điều hành trang web cung cấp như mã nguồn, nội dung, hoặc cấu trúc cũng như các tính năng được tạo bằng thủ công, mà nó sẽ yêu cầu URL của các trang web đó. Đồng thời áp dụng MEERKAT trên trang web được cho là lớn nhất.

Một phần của tài liệu ĐB tính riêng tư cho mô hình DL (Trang 46 - 49)

Tải bản đầy đủ (DOCX)

(85 trang)
w