1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu cải tiến một số mô hình học máy và học sâu áp dụng cho bài toán phân loại DGA Botnet.

163 5 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 163
Dung lượng 2,66 MB

Nội dung

Nghiên cứu cải tiến một số mô hình học máy và học sâu áp dụng cho bài toán phân loại DGA Botnet.Nghiên cứu cải tiến một số mô hình học máy và học sâu áp dụng cho bài toán phân loại DGA Botnet.Nghiên cứu cải tiến một số mô hình học máy và học sâu áp dụng cho bài toán phân loại DGA Botnet.Nghiên cứu cải tiến một số mô hình học máy và học sâu áp dụng cho bài toán phân loại DGA Botnet.Nghiên cứu cải tiến một số mô hình học máy và học sâu áp dụng cho bài toán phân loại DGA Botnet.Nghiên cứu cải tiến một số mô hình học máy và học sâu áp dụng cho bài toán phân loại DGA Botnet.Nghiên cứu cải tiến một số mô hình học máy và học sâu áp dụng cho bài toán phân loại DGA Botnet.Nghiên cứu cải tiến một số mô hình học máy và học sâu áp dụng cho bài toán phân loại DGA Botnet.Nghiên cứu cải tiến một số mô hình học máy và học sâu áp dụng cho bài toán phân loại DGA Botnet.Nghiên cứu cải tiến một số mô hình học máy và học sâu áp dụng cho bài toán phân loại DGA Botnet.Nghiên cứu cải tiến một số mô hình học máy và học sâu áp dụng cho bài toán phân loại DGA Botnet.Nghiên cứu cải tiến một số mô hình học máy và học sâu áp dụng cho bài toán phân loại DGA Botnet.Nghiên cứu cải tiến một số mô hình học máy và học sâu áp dụng cho bài toán phân loại DGA Botnet.Nghiên cứu cải tiến một số mô hình học máy và học sâu áp dụng cho bài toán phân loại DGA Botnet.Nghiên cứu cải tiến một số mô hình học máy và học sâu áp dụng cho bài toán phân loại DGA Botnet.Nghiên cứu cải tiến một số mô hình học máy và học sâu áp dụng cho bài toán phân loại DGA Botnet.Nghiên cứu cải tiến một số mô hình học máy và học sâu áp dụng cho bài toán phân loại DGA Botnet.Nghiên cứu cải tiến một số mô hình học máy và học sâu áp dụng cho bài toán phân loại DGA Botnet.Nghiên cứu cải tiến một số mô hình học máy và học sâu áp dụng cho bài toán phân loại DGA Botnet.

BỘ GIÁO DỤC VIỆN HÀN LÂM KHOA HỌC VÀ ĐÀO TẠO VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ Tống Anh Tuấn NGHIÊN CỨU CẢI TIẾN MỘT SỐ MƠ HÌNH HỌC MÁY VÀ HỌC SÂU ÁP DỤNG CHO BÀI TOÁN PHÂN LOẠI DGA BOTNET LUẬN ÁN TIẾN SĨ NGÀNH MÁY TÍNH Hà Nội, năm 2023 BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ Tống Anh Tuấn NGHIÊN CỨU CẢI TIẾN MỘT SỐ MƠ HÌNH HỌC MÁY VÀ HỌC SÂU ÁP DỤNG CHO BÀI TOÁN PHÂN LOẠI DGA BOTNET LUẬN ÁN TIẾN SĨ NGÀNH MÁY TÍNH Mã số: 48 01 04 Xác nhận Học viện Khoa học Công nghệ Người hướng dẫn (Ký, ghi rõ họ tên) Hà Nội, năm 2023 Người hướng dẫn (Ký, ghi rõ họ tên) i LỜI CAM ĐOAN Tôi xin cam đoan đề tài nghiên cứu luận án công trình nghiên cứu tơi dựa tài liệu, số liệu tơi tự tìm hiểu nghiên cứu Chính vậy, kết nghiên cứu đảm bảo trung thực khách quan Đồng thời, kết chưa xuất nghiên cứu Các số liệu, kết nêu luận án trung thực, sai tơi hồn tồn chịu trách nhiệm trước pháp luật TÁC GIẢ LUẬN ÁN Tống Anh Tuấn ii LỜI CÁM ƠN Để hoàn thành luận án tiến sĩ này, nhận nhiều dạy, giúp đỡ từ tập thể người hướng dẫn, đồng nghiệp nhà khoa học Trước tiên, xin gửi lời cám ơn chân thành tới thầy PGS TS Hoàng Việt Long - người hướng dẫn thứ trưởng đơn vị, người định hướng, giúp đỡ mặt chuyên môn tạo điều kiện cho công tác Tôi xin gửi lời cám ơn chân thành tới thầy PGS TS Nguyễn Việt Anh - người hướng dẫn thứ hai, quan tâm, hướng dẫn chuyên môn ủng hộ tơi suốt q trình học tập học viện Tôi xin gửi lời cám ơn tới thầy PGS TS Lê Hoàng Sơn, PGS TS Nguyễn Long Giang thầy cô, nhà khoa học Viện Công nghệ thông tin, Học viện Khoa học Công nghệ giảng dạy, truyền đạt kiến thức, kỹ nghiên cứu; tạo điều kiện cho tham gia hoạt động khoa học, nhóm nghiên cứu chuyên sâu; góp ý, hướng dẫn tơi hồn thiện báo khoa học luận án suốt q trình học tập Tơi xin gửi lời cám ơn chân thành tới Ban Lãnh đạo, Phòng Đào tạo, phòng chức Học viện Khoa học Công nghệ, Viện Hàn lâm Khoa học Công nghệ Việt Nam quan tâm, hướng dẫn, tạo điều kiện thuận lợi cho q trình học tập Tơi xin gửi lời cám ơn tới Ban Giám hiệu, tập thể Khoa Công nghệ thông tin đơn vị chức Trường Đại học Kỹ thuật - Hậu cần CAND tạo điều kiện cho học tập; quan tâm, động viên giúp đỡ chuyên môn công tác Tôi xin gửi lời cám ơn tới Quỹ Đổi sáng tạo VinGroup (VinIF) tài trợ học bổng Hỗ trợ đào tạo thạc sĩ/tiến sĩ nước cho Đề tài khoa học công nghệ mã số ĐTĐL.CN-105/21-C hỗ trợ đào tạo Cuối cùng, xin bày tỏ niềm vui với vợ Lê Thị Oanh, dì Hoa gia đình động viên, giúp đỡ tơi chăm sóc nhỏ để tơi có thời gian yên tâm học tập hoàn thành luận án iii MỤC LỤC LỜI CAM ĐOAN i LỜI CÁM ƠN ii MỤC LỤC .iii DANH MỤC CÁC KÝ HIỆU vi DANH MỤC CÁC CHỮ VIẾT TẮT .vii DANH MỤC CÁC BẢNG ix DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ xi MỞ ĐẦU Chương CƠ SỞ LÝ THUYẾT VỀ DGA BOTNET 1.1 Tổng quan chung Botnet 1.1.1 Khái niệm Botnet 1.1.2 Các bước phát triển công nghệ Botnet 11 1.1.3 Một số đặc điểm Botnet 12 1.1.4 Phân loại Botnet 15 1.2 Kỹ thuật phát Botnet 19 1.2.1 Kỹ thuật phát Botnet sử dụng HoneyNet .20 1.2.2 Kỹ thuật phát Botnet sử dụng hệ thống phát xâm nhập .21 1.3 Bài toán DGA Botnet 24 1.3.1 Khái quát DGA Botnet 24 1.3.2 Bài toán phân lớp nhị phân DGA Botnet 28 1.3.3 Bài toán phân lớp đa lớp DGA Botnet .28 1.3.4 Phân biệt với toán phát URL giả mạo 29 1.3.5 Bộ liệu đánh giá cho toán DGA Botnet 30 1.3.6 Thơng số đánh giá thuật tốn .32 1.3.7 Ý nghĩa toán DGA Botnet .33 1.4 Một số nghiên cứu giải toán DGA Botnet 34 1.4.1 Hướng tiếp cận sử dụng kỹ thuật phân tích DNS 34 1.4.2 Hướng tiếp cận dựa học máy 37 1.4.3 Hướng tiếp cận dựa học sâu 40 1.5 iv Kết luận Chương .41 Chương ĐÁNH GIÁ GIẢI PHÁP PHÁT HIỆN DGA BOTNET SỬ DỤNG LÝ THUYẾT TẬP MỜ VÀ HỌC MÁY 42 2.1 Phát DGA Botnet dựa lý thuyết tập mờ 42 2.1.1 Cơ sở thuật toán phân cụm mờ 42 2.1.2 Thuật toán phát DGA Botnet với NCM .46 2.1.3 Đánh giá thảo luận 53 2.2 Phát DGA Botnet dựa học máy 56 2.2.1 Mơ hình đánh giá thuật tốn học máy 56 2.2.2 Kết đánh giá thảo luận .60 2.2.3 Mơ hình học máy kết hợp 61 2.3 Kết luận Chương .66 Chương GIẢI PHÁP PHÁT HIỆN VÀ PHÂN LOẠI DGA BOTNET SỬ DỤNG KỸ THUẬT HỌC SÂU 67 3.1 Nền tảng kỹ thuật học sâu 67 3.1.1 Mạng Recurrent Neural Network 67 3.1.2 Mạng Long-Short Term Memory 69 3.1.3 Cơ chế Attention 72 3.2 Hai mơ hình học sâu để phát phân loại DGA Botnet 74 3.2.1 Mơ hình LA_Bin07 cho phát DGA Botnet 75 3.2.2 Mô hình LA_Mul07 cho phân loại DGA Botnet 77 3.2.3 Cải tiến so với LSTM truyền thống .79 3.3 Đánh giá hai mơ hình học sâu đề xuất 82 3.3.1 Bộ liệu môi trường đánh giá 82 3.3.2 Đánh giá mơ hình LA_Bin07 cho toán phát DGA Botnet .82 3.3.3 Đánh giá mơ hình LA_Mul07 cho tốn phân loại DGA Botnet 86 3.4 Đánh giá với nghiên cứu liên quan 91 3.4.1 Đánh giá chung liệu UMUDGA 91 3.4.2 Đánh giá với số mơ hình học sâu khác 94 3.4.3 Đánh giá với số nghiên cứu khác toán phân lớp đa lớp 95 3.5 Kết luận Chương .97 v Chương BỘ DỮ LIỆU MỚI UTL_DGA22 CHUYÊN DÙNG CHO BÀI TOÁN DGA BOTNET .98 4.1 Đặt vấn đề liệu DGA Botnet .98 4.1.1 Khái quát vấn đề 98 4.1.2 Bộ liệu Botnet nói chung 100 4.1.3 Bộ liệu chuyên dùng DGA Botnet 103 4.1.4 Đặt vấn đề nghiên cứu .107 4.2 Bộ liệu UTL_DGA22 đề xuất 110 4.2.1 Xây dựng liệu 110 4.2.2 Các thuộc tính đề xuất .111 4.2.3 Cấu trúc lưu trữ liệu 119 4.3 Các họ DGA Botnet liệu UTL_DGA22 120 4.4 Đánh giá thuộc tính đề xuất 121 4.4.1 Thử nghiệm toán phân lớp nhị phân 123 4.4.2 Thử nghiệm toán phân lớp đa lớp 124 4.5 Đánh giá giải pháp đề xuất liệu UTL_DGA22 126 4.5.1 Đánh giá với thuật toán phân cụm NCM 126 4.5.2 Đánh giá với thuật toán học máy 127 4.5.3 Đánh giá với hai mơ hình học sâu LA_Bin07 LA_Mul07 128 4.6 Kết luận Chương .133 KẾT LUẬN VÀ KIẾN NGHỊ 134 DANH MỤC CÔNG BỐ LIÊN QUAN ĐẾN LUẬN ÁN 136 TÀI LIỆU THAM KHẢO a vi DANH MỤC CÁC KÝ HIỆU STT Ký hiệu Ý nghĩa 𝐶 Tập phụ âm 𝑉 Tập nguyên âm 𝑁 Tập chữ số 𝑆 Tập ký tự đặc biệt 𝑇 Tập ký tự thỏa mãn điều kiện định 𝑑𝑜𝑚 𝑇𝐹 𝐼𝐷𝐹 𝐿𝐶𝑆(𝑇, 𝑑𝑜𝑚) Thuật tốn tìm độ dài chuỗi dài 10 𝐴𝐶𝑆(𝑇, 𝑑𝑜𝑚) Thuật toán tìm độ dài trung bình chuỗi 11 𝐷𝐶𝑆(𝑇, 𝑑𝑜𝑚) 12 Thuật tốn tìm số lượng ký tự xuất tên miền 14 𝑁𝑜𝐶(𝑇, 𝑑𝑜𝑚) 𝑅𝑜𝐶(𝑇, 𝑑𝑜𝑚) 𝑖, 𝑗, 𝑘 15 𝑇𝑃 Số lượng mẫu tên miền nhãn phân loại 16 𝑇𝑁 Số lượng mẫu tên miền nhãn phân loại 17 𝐹𝑃 Số lượng mẫu tên miền nhãn phân loại 18 𝐹𝑁 Số lượng mẫu tên miền nhãn phân loại 19 𝐴𝑐𝑐 Giá trị Accuracy 20 𝑃𝑟𝑒 Giá trị Precision 21 𝑅𝑒 Giá trị Recall 22 𝐹1 Giá trị F1-score 23 𝑆𝑢𝑝 Giá trị Support 13 Một tên miền Tần suất xuất văn Nghịch đảo tần suất xuất văn Thuật tốn tìm độ chênh lệch chuỗi ký tự dài ngắn Thuật toán tìm tỉ lệ xuất ký tự tên miền Ký tự thể số đếm vòng lặp vii DANH MỤC CÁC CHỮ VIẾT TẮT STT Viết tắt Viết đầy đủ tiếng nước Viết đầy đủ Tiếng Việt AB Adaptive Boosting Tăng cường thích ứng APT Advanced Persistent Threat Tấn cơng có chủ đích CCTV Closed Circuit Televison Hệ thống giám sát truyền hình mạch đóng CNN Convolutional Neural Network Mạng neural tích chập C&C Command and Control Điều khiển kiểm sốt DDoS Distributed Denial of Service Tấn cơng từ chối dịch vụ phân tán DGA Domain Generation Algorithm Thuật toán sinh tên miền tự động DNS Domain Name Service Dịch vụ phân giải tên miền DoS Denial of Service Tấn công từ chối dịch vụ 10 DT Decision Trees Cây định 11 HEA Hard Ensemble Algorithm Thuật toán học cộng đồng cố định 12 HTTP Hyper Text Transfer Protocol Giao thức truyền tải siêu văn 13 HTTPS Hypertext Transfer Protocol Giao thức bảo mật truyền tải siêu Security văn 14 IDS Intrusion Detection System Hệ thống phát xâm nhập 15 IoT Internet of Things Internet vạn vật 16 IRC Internet Relay Chat Trò chuyện qua Internet Relay 17 kNN k-Nearest Neighbour k láng giềng gần 18 LR Logistic Regression Hồi quy logic 19 LSTM Long Short-Term Memory Bộ nhớ dài ngắn hạn (LSTM) 20 NB Naive Bayes Thuật toán Naive Bayes 21 NCM Neutrosophic C-Means Thuật toán phân cụm mờ tập Neutrosophic Set 22 NCS PhD Student Nghiên cứu sinh 23 NN Neural Networks Mạng neuron 24 N/A Not Available Khơng có sẵn 25 RF Random Forests Rừng ngẫu nhiên 26 RNN Recurrent Neural Network Mạng neuron hồi quy viii 27 SVM Support Vector Machines 28 TF-IDF 29 URL Uniform Resource Locator Địa tài nguyên đồng 30 VEA Voting Ensemble Algorithm Thuật toán học cộng đồng dựa bình chọn Term-Frequency – Document Frequency Máy vector hỗ trợ Inverse Tần suất thuật ngữ - Tần suất nghịch đảo văn

Ngày đăng: 14/07/2023, 15:20

w