Ứng dụng representation learning phát hiện tấn công botnet

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - Kiều Công Minh ỨNG DỤNG REPRESENTATION LEARNING PHÁT HIỆN TẤN CÔNG BOTNET LUẬN VĂN THẠC SỸ KỸ THUẬT (Theo định hướng ứng dụng) THÀNH PHỐ HỒ CHÍ MINH - 2023 HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - Kiều Công Minh ỨNG DỤNG REPRESENTATION LEARNING PHÁT HIỆN TẤN CÔNG BOTNET CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 8.48.01.04 LUẬN VĂN THẠC SỸ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC: TS NGUYỄN HỒNG SƠN THÀNH PHỐ HỒ CHÍ MINH - 2023 i LỜI CAM ĐOAN Tơi cam đoan luận văn: “Ứng dụng Representation Learning phát cơng Botnet” cơng trình nghiên cứu Tôi cam đoan số liệu, kết nêu luận văn trung thực chưa cơng bố cơng trình khác Khơng có sản phẩm/nghiên cứu người khác sử dụng luận văn mà khơng trích dẫn theo quy định TP Hồ Chí Minh, ngày 28 tháng 02 năm 2023 Học viên thực luận văn Kiều Công Minh ii LỜI CẢM ƠN Trong suốt trình học tập nghiên cứu thực luận văn, ngồi nỗ lực thân, tơi nhận hướng dẫn nhiệt tình quý báu quý Thầy Cô, với động viên ủng hộ gia đình, bạn bè đồng nghiệp Với lịng kính trọng biết ơn sâu sắc, tơi xin gửi lời cảm ơn chân thành tới: Ban Giám Đốc, Phòng đào tạo sau đại học quý Thầy Cô tạo điều kiện thuận lợi giúp tơi hồn thành luận văn Tôi xin chân thành cảm ơn Thầy TS Nguyễn Hồng Sơn, người thầy kính u hết lịng giúp đỡ, hướng dẫn, động viên, tạo điều kiện cho tơi suốt q trình thực hồn thành luận văn Tơi xin chân thành cảm ơn gia đình, bạn bè, đồng nghiệp quan động viên, hỗ trợ tơi lúc khó khăn để tơi học tập hoàn thành luận văn Mặc dù có nhiều cố gắng, nỗ lực, thời gian kinh nghiệm nghiên cứu khoa học hạn chế nên khơng thể tránh khỏi thiếu sót Tơi mong nhận góp ý quý Thầy Cô bạn bè đồng nghiệp để kiến thức tơi ngày hồn thiện Xin chân thành cảm ơn! TP Hồ Chí Minh, ngày 28 tháng 02 năm 2023 Học viên thực luận văn Kiều Công Minh iii DANH SÁCH HÌNH VẼ Hình 1.1 Ví dụ botnet 11 Hình 1.2 Sơ đồ cách thức công Botnet 12 Hình 1.3 Mơ hình client – server 13 Hình 1.4 Mơ hình peer-to-peer 14 Hình 1.5 Vịng đời Botnet 15 Hình 1.6 Mạng nơ-ron với hai lớp hidden 21 Hình 1.7 Mối liên hệ AI, Machine Learning Deep Learning 22 Hình 1.8 Các kỹ thuật Representation Learning 24 Hình 1.9 Kết so sánh hai phương pháp với độ đo 31 Hình 1.10 So sánh phương pháp phát 31 Hình 2.1 Thiết kế chi tiết mơ hình 33 Hình 2.2 Khởi tạo thư mục làm việc lưu trữ liệu 36 Hình 2.3 Tải xuống chụp liệu CTU-13 37 Hình 2.4 Import thư viện cần thiết 37 Hình 2.5 Chuyển liệu dạng binetflow sang csv lưu trữ vào thư mục tạo trước 38 Hình 2.6 Những thuộc tính chụp dịng liệu 38 Hình 2.7 Biểu đồ tương quan số lượng nhãn liệu 40 Hình 2.8 Biểu đồ tương quan số lượng nhãn liệu sau cân 40 Hình 2.9 Dữ liệu sau mã hóa 41 Hình 2.10 Chuyển liệu dạng hình ảnh 42 Hình 2.11 Tạo thư mục lưu trữ tương ứng cho loại Normal, Botnet C&C 42 Hình 2.12 Định nghĩa nơi lưu trữ liệu loại 43 Hình 2.13 Chia liệu di chuyển vào nơi lưu trữ tương ứng loại 43 Hình 2.14 Định nghĩa đường dẫn chứa tập chia 44 Hình 2.15 Thực khai báo mạng Resnet-18 CNN kiểm tra feature 44 iv Hình 2.16 Transform liệu sang kiểu tensor đẻ phù hợp với mô hình 44 Hình 2.17 Xây dựng hàm train trả mơ hình train 45 Hình 2.18 Trích xuất vector đặc trưng cho tập 45 Hình 2.19 Xây dựng hàm train trả mơ hình train 47 Hình 3.1 Độ biến thiên hàm mát trường hợp kích thước 192x192 49 Hình 3.2 Độ biến thiên hàm mát trường hợp kích thước 200x200 50 Hình 3.3 Độ biến thiên hàm mát trường hợp kích thước 224x224 51 Hình 3.4 Kiểm thử mơ hình 52 v DANH SÁCH BẢNG Bảng 2.1 Đặc điểm kịch mạng Botnet liệu CTU-13 33 Bảng 2.2 Lượng liệu chụp mạng botnet 34 Bảng 2.3 Phân phối nhãn NetFlows cho trường hợp tập liệu 34 Bảng 2.4 Chi tiết thuộc tính liệu 39 Bảng 3.1 Kết huấn luyện kích thước ảnh 49 Bảng 3.2 Kết thực nghiệm với tập test kích thước ảnh 52 vi DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT Viết tắt DDoS Tiếng Anh Distributed Denial of Service Tiếng Việt Tấn công từ chối dịch vụ phân tán Tấn công có chủ đích APT Advanced Persistent Threat IRC Internet Relay Chat RPC Remote procedure call Gọi hàm từ xa C&C / C2 Command and control Máy chủ điều khiển kiểm soát HTTP Hypertext tranfer protocol Giao thức truyền tải siêu văn IDS Intrusion Detection System Hệ thống phát xâm nhập P2P Peer to peer Mạng ngang hàng RL Representation Learning Học biểu diễn CNN Convolutional Neural Network Mạng nơ ron tích chập DL Deep Learning Học sâu vii MỤC LỤC LỜI CAM ĐOAN .i LỜI CẢM ƠN ii DANH SÁCH HÌNH VẼ iii DANH SÁCH BẢNG v DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT vi MỤC LỤC vii MỞ ĐẦU 1 Lý chọn đề tài Tổng quan vấn đề nghiên cứu Mục đích nghiên cứu .9 Đối tượng phạm vi nghiên cứu 4.1 Đối tượng nghiên cứu 4.2 Phạm vi nghiên cứu 10 Phương pháp nghiên cứu .10 CHƯƠNG TỔNG QUAN TẤN CÔNG BOTNET .11 VÀ REPRESENTATION LEARNING 11 1.1 Tổng quan công Botnet 11 1.1.1 Botnet gì? 11 1.1.2 Cấu trúc Botnet .13 1.1.3 Các loại công Botnet .14 1.2 Các đặc trưng Botnet 16 1.3 Tổng quan kỹ thuật phát chế phòng vệ Botnet 19 1.3.1 Phát dựa chữ ký - Signature-based Detection .19 viii 1.3.2 Phát dựa điểm bất thường - Aomaly-based Detection 19 1.4 Tổng quan ứng dụng học máy phát công Botnet 20 1.5 Mạng nơ-ron Deep Learning .21 1.5.1 Mạng nơ-ron 21 1.5.2 Deep Learning .22 1.6 Tổng quan Representation Learning 23 1.7 Các kỹ thuật Representation Learning .24 1.8 Các trình nghiên cứu liên quan 27 1.8.1 Các cơng trình nghiên cứu nước 27 1.8.2 Các cơng trình nghiên cứu giới .29 CHƯƠNG XÂY DỰNG MƠ HÌNH PHÁT HIỆN .33 TẤN CÔNG BOTNET 33 2.1 Thiết kế mô hình 33 2.2 Bộ liệu 33 2.3 Hiện thực mơ hình 36 2.3.1 Chuẩn bị xử lý liệu 36 2.3.2 Chuyển đổi phân chia liệu hình ảnh .41 2.3.3 Xây dựng mơ hình phân loại 43 CHƯƠNG THÍ NGHIỆM VÀ ĐÁNH GIÁ 48 3.1 Các trường hợp thí nghiệm .48 3.2 Luyện kiểm thử mơ hình .48 3.3 Kết nhận xét 52 KẾT LUẬN .54 1.1 Kết đạt 54 Về mặt lý thuyết 54 46 47 Hình 2.19: Xây dựng hàm train trả mơ hình train 48 CHƯƠNG THÍ NGHIỆM VÀ ĐÁNH GIÁ 3.1 Các trường hợp thí nghiệm Luận văn thực mơ hình với chụp thứ liệu CTU-13 với kích thước hình ảnh đầu vào từ liệu qua xử lý 192x192 Tuy nhiên, thực nghiệm kích thước ảnh khơng đảm bảo việc xử lý liệu áp dụng vào mơ hình đề xuất có thật hiệu quả, đồng thời ta chưa cân nhắc đến việc thay đổi kích thước ảnh hưởng đến độ xác mơ hình theo chiều hướng đâu kích thước phù hợp cho mơ hình phân loại Với mục tiêu khám phá độ phù hợp chất lượng mô hình tăng giảm điều chỉnh kích thước hình ảnh đầu vào, luận văn đề xuất việc áp dụng ba trường hợp với kích thước ảnh là: 192x192, 200x200, 224x244 Thí nghiệm thực trường hợp quan sát độ xác, độ mát thời gian thực thi mơ hình, từ hiểu ảnh hưởng kích thước ảnh với mơ hình phân loại 3.2 Luyện kiểm thử mơ hình Để thực nghiệm mơ hình xây dựng, luận văn sử dụng tính GPU Google Colab để cải thiện tốc độ tính tốn Hiện nay, Google Colab có hỗ trợ nhiều loại GPU, thường Nvidia K80s, T4s, P4s and P100s, nhiên ta tự chọn loại GPU Colab chúng thay đổi theo thời gian GPU cho phép xử lý nhiều phép tính song song với nhiều core nhanh nhiều so với CPU Sau chạy training mơ hình với kích thước trên, ta thu kết kết biến thiên hàm mát hình 3.1-3.3 Ngồi ra, thơng tin chi tiết trình huấn luyện thống kê lại bảng đây, bảng trình bày cụ thể giá trị hàm mát, thời gian thực thi số lượng epoch dùng để huấn luyện mơ hình phân loại ba trường hợp đề xuất: 49 Kích thước ảnh Thời gian thực Epoch dừng Độ mát 192x192 93 17.75% 28 phút 33 giây 200x200 46 12.33% 17 phút 02 giây 224x224 79 22.59% 30 phút 31 giây đầu vào thi Bảng 3.1: Kết huấn luyện kích thước ảnh Tương ứng với số lượng epoch sử dụng để training, kích thước ảnh 192 224 tiêu tốn nhiều thời gian so với trường hợp 200 độ mát lại thua đáng kể Điều phần nói lên phù hợp mơ hình với kích thước ảnh khác Tiếp theo, ta theo dõi biến thiên mơ hình q trình huấn luyện Mỗi biểu đồ thể biến thiên giá trị hàm mát, đường xanh tượng trưng cho tập train cam đại diện cho tập validation Từng mơ hình có độ mát giảm dần từ 100% đến khoảng 20% theo chiều tăng dần lượng epoch Hình 3.1: Độ biến thiên hàm mát trường hợp kích thước 192x192 50 Với trường hợp kích thước 192x192 ta nhận thấy đường cam xanh vị trí 80% 70%, chúng giảm khoảng 35% với epoch đồng thời giảm dần epoch tăng dần Tuy nhiên ta thấy hai đường train validation không thật fit với nhau, cụ thể từ epoch thứ 40-80 điểm liệu tập train validation dần xa Bên cạnh đó, điểm đường validation tăng giảm nhiều chưa có mượt mà, giá trị hàm mát khơng có xu hướng giảm thêm nhiều epoch giá trị từ 20 Điều chứng tỏ trường hợp kích thước đầu vào 192x192 khơng phù hợp với mơ hình phân loại tốn Hình 3.2: Độ biến thiên hàm mát trường hợp kích thước 200x200 Ngược lại với Hình 3.1, Hình 3.2 ta thấy rõ phù hợp hai đường train validation Các điểm tập validation nằm vừa vặn với tập train, độ dốc hàm mát giảm dần cách tự nhiên mượt mà Số lượng epoch sử dụng q trình huấn luyện chưa đến 50, có nghĩa mơ hình dừng lại vịng lặp mà validation đạt giá trị nhỏ Chứng tỏ kích thước ảnh đầu vào phù hợp với mơ hình phân loại 51 Hình 3.3: Độ biến thiên hàm mát trường hợp kích thước 224x224 Trường hợp 224x224 không mang lại kết khả quan so với trường hợp 200x200 Biểu đồ thể thay đổi đột ngột giá trị hàm mát epoch Cả hai đường validation train fit với ko mượt mà trường hợp trước đó, điểm giá trị đường validation xê dịch lên xuống khơng ổn định Ngồi ra, giá trị hàm mát không thay đổi nhiều so với epoch Bước cuối q trình thí nghiệm chạy kiểm thử, ta tiến hành kiểm thử mơ hình với đoạn code sau đây: 52 Hình 3.4: Kiểm thử mơ hình 3.3 Kết nhận xét Sau hoàn thành trình kiểm thử, kết ba trường hợp tổng hợp bảng đây: Kích thước ảnh đầu vào Độ xác Số điểm phân loại xác 192x192 96.29% 2336/2426 200x200 97.16% 2357/2426 224x224 93.16% 2260/2426 Bảng 3.2: Kết thực nghiệm với tập test kích thước ảnh Với ba trường hợp thí nghiệm, ta nhận kết cao độ xác 97.16% từ kích thước ảnh 200x200, mơ hình phân loại 2357 điểm xác tổng số 2426 điểm liệu Xếp thứ hai trường hợp 192x192 với độ xác 96.29% cuối 224x224 với độ xác 93.16% 53 Qua trường hợp thí nghiệm, luận văn tìm hiểu xây dựng mơ hình phân loại sử dụng Representation Learning cụ thể gray scale image khám phá ảnh hưởng kích thước ảnh đến chất lượng mơ hình Tuy nhiên, giới hạn phần cứng chạy thử mơ hình số lượng liệu kiểm nghiệm chưa nhiều mơ hình phân loại đạt kết cao cần phải cải thiện thêm, thực tế ta bỏ sót vài trường hợp đủ để hacker công làm hại đến hệ thống 54 KẾT LUẬN Kết đạt 1.1 Về mặt lý thuyết Nắm nguyên lý kỹ thuật công bản, cách thức cơng Botnet Tìm hiểu Trí tuệ nhân tạo (AI), kỹ thuật Representation Learning ứng dụng vào để phân tích liệu Các loại kiến trúc mạng CNN công nghệ Deep Learning 1.2 Về mặt thực tiễn Luận văn đưa giải pháp cảnh báo cơng dựa vào phân tích logs, cho người quản trị biết mối nguy hiểm trước có xảy cơng Đưa giải pháp phân tích logs dựa vào ứng dụng Trí tuệ nhân tạo (AI), kỹ thuật Representation Learning Xây dựng thành cơng phần mềm dựa vào phân tích pha ban đầu công để cảnh báo đến người quản trị cách sớm trước xảy cơng thực nói chung Botnet nói riêng Hạn chế Tập liệu ứng dụng nghiên cứu cũ cộng với phần cứng giới hạn nên độ xác khơng mong muốn Kết đạt chưa bao quát hết trường hợp, liệu mẫu cần training mở rộng môi trường áp dụng Hướng phát triển Tập trung nghiên cứu rút trích đặc trưng phù hợp cho q trình phân tích, tăng độ xác việc nhận dạng hành động trinh sát Nghiên cứu mơ hình cơng mạng, phương pháp trinh sát nhằm phát cảnh báo tốt Mơ hình cần cải thiện thực nghiệm với tập liệu 55 DANH MỤC TÀI LIỆU THAM KHẢO [1] M HARGRAVE, "Deep Learning," Investopedia, April 2021 [Online] Available: https://www.investopedia.com/terms/d/deep- learning.asp [2] Bansal, Ankit; Mahapatra, Sudipta;, "A Comparative Analysis of Machine Learning Techniques for Botnet Detection," in 2020 21st International Arab Conference on Information Technology (ACIT), Giza, Egypt, 2020 [3] V Distribution, "Botnet gì? Giải pháp phịng vệ Botnet FortiGuard.," 2021 [Online] Available: https://vietnetco.vn/botnet-la-gi-giai-phapphong-ve-botnet-fortiguard/4999.html [Accessed 31 May 2021] [4] Quantrimang.com, "Botnet gì? Cấu trúc cách botnet hoạt động nào?," 2021 [Online] Available:

Định dạng
Số trang	71
Dung lượng	2,04 MB