Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 63 trang
THÔNG TIN TÀI LIỆU
Nội dung
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - Lê Minh Đăng PHÁT HIỆN URL ĐỘC HẠI DỰA TRÊN HỌC SÂU ĐỀ ÁN ĐỀ ÁN TỐT NGHIỆP THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) HÀ NỘI – NĂM 2023 iii MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN II DANH MỤC CHỮ VÀ KÍ HIỆU VIẾT TẮT V DANH MỤC BẢNG BIỂU VI DANH MỤC HÌNH VẼ VII LỜI MỞ ĐẦU CHƯƠNG I TỔNG QUAN VỀ URL ĐỘC HẠI VÀ PHƯƠNG PHÁP PHÁT HIỆN URL ĐỘC HẠI .3 1.1 Khái quát URL 1.1.1 Khái niệm URL 1.1.2 Các thành phần URL 1.1.3 Lịch sử phát triển 1.2 Khái quát URL độc hại 1.2.1 URL độc hại .8 1.2.2 Các dạng URL độc hại 1.3 Các phương pháp phát URL độc hại 11 1.3.1 Phát dựa danh sách đen, chữ ký 11 1.3.2 Phát dựa phân tích nội dung trang web 12 1.3.3 Phát dựa phân tích URL 13 1.3.4 Phát dựa thống kê, học máy, học sâu 14 1.4 Một số công cụ phát URL độc hại 15 1.5 Kết chương 16 CHƯƠNG II: PHÁT HIỆN URL ĐỘC HẠI DỰA TRÊN HỌC SÂU 17 2.1 Khái quát học máy học sâu 17 2.1.1 Khái quát học máy 17 2.1.2 Khái quát học sâu 21 2.1.3 Một số phương pháp học sâu 23 2.2 Mơ hình phát URL độc hại dựa học sâu 32 iv 2.2.1 Giới thiệu mơ hình 32 2.2.2 Kiến trúc mơ hình 33 2.2.3 Tiêu chuẩn đánh giá mơ hình 34 2.3 Kết chương 36 CHƯƠNG III THỬ NGHIỆM VÀ ĐÁNH GIÁ 37 3.1 Tập liệu thử nghiệm 37 3.2 Tiền xử lý liệu 38 3.3 Cài đặt, thử nghiệm kết 41 3.3.1 Môi trường thử nghiệm 41 3.3.2 Kết nhận xét 41 3.4 Cài đặt thử nghiệm mô đun phát URL độc hại 43 3.5 Nhận xét, đánh giá 45 3.6 Kết chương 46 KẾT LUẬN 47 TÀI LIỆU THAM KHẢO 48 v DANH MỤC CHỮ VÀ KÍ HIỆU VIẾT TẮT Chữ/Ký hiệu Tiếng Anh AI Artificial intelligence Tiếng Việt/Giải thích Trí tuệ nhân tạo BoW Bag of word CNN Convolutional neural network CSS Cascading style sheet DDos Distributed Denial of Service Từ chối dịch vụ phân tán DGA Domain Generation Algorithm Thuật toán sinh tên miền DNN Deep Neural Network Mạng nơ ron sâu DNS Domain name system Hệ thống tên miền FC Fully Connected FTP File Transfer Protocol HTML IP LSTM Hyper text markup language Internet protocol address Long Short Term Memory Túi đựng từ Mạng nơ ron tích chập Ngơn ngữ để định dạng trang HTML Kết nối đầy đủ Giao thức truyền tải tệp tin Ngôn ngữ đánh dấu siêu văn Giao thức mạng IP Mạng nhớ ngắn dài networks RNN Recurrent neural networks SVM Support vector machine Mạng nơ ron hồi quy Máy vector hỗ trợ TTL Time To Live URL Uniform resource locator Web World wide web Thời gian sống Địa định vị tài nguyên thống Mạng web toàn cầu vi DANH MỤC BẢNG BIỂU Bảng 2-1 Dữ liệu bệnh nhân 18 Bảng 2-2 Bảng liệu giới tính, tuổi bệnh nhân 19 Bảng 3-1 Môi trường thử nghiệm 41 Bảng 3-2 Kết thử nghiệm với CNN 42 Bảng 3-3 Kết phân loại 20 URL 44 vii DANH MỤC HÌNH VẼ Hình 1-1 Cấu trúc URL Hình 1-2 Các thành phần cụ thể URL .5 Hình 2-1 Mơ hình DNN 23 Hình 2-2 Mơ hình CNN 27 Hình 2-3 Mơ hình RNN 29 Hình 2-4 Mơ hình LSTM 31 Hình 2-5 Mơ hình phát URL độc hại dựa học sâu CNN 32 Hình 2-6 Confusion matrix TN, FN, FP, TP 34 Hình 3-1 Một số mẫu URL gán nhãn “ bad” 37 Hình 3-2 Một số URL gán nhãn “good” 37 Hình 3-3 Tỉ lệ tập Train Validation 38 Hình 3-4 Tỷ lệ số nhãn gán 38 Hình 3-5 Số domain, sub domain, domain suffix 39 Hình 3-6 Đặc điểm domain 39 Hình 3-7 Đặc điểm subdomain 40 Hình 3-8 Đặc điểm domain suffix 40 Hình 3-9 Quá trình training liệu 41 Hình 3-10 Biểu đồ trình trainning liệu 42 Hình 3-11 Kết trả Url độc hại 43 Hình 3-12 Kết trả Url an toàn 44