Nghiên cứu phương pháp phòng chống tấn công ddos

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Nghiên cứu phương pháp phịng chống cơng DDOS Lưu Minh Trí tri.lmcb190234@sis.hust.edu.vn Ngành Cơng nghệ thơng tin Giảng viên hướng dẫn: TS Trần Hồng Hải Trường: Cơng nghệ Thông tin – Truyền thông HÀ NỘI, 2022 TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Nghiên cứu phương pháp phịng chống cơng DDOS Lưu Minh Trí tri.lmcb190234@sis.hust.edu.vn Ngành Cơng nghệ thơng tin Giảng viên hướng dẫn: TS Trần Hoàng Hải Chữ ký GVHD Trường: Công nghệ Thông tin – Truyền thông HÀ NỘI, 2022 CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ tên tác giả luận văn : Lưu Minh Trí Đề tài luận văn: Nghiên cứu phương pháp phịng chống cơng DDoS Chun ngành: Công nghệ thông tin Mã số SV: CB190234 Tác giả, Người hướng dẫn khoa học Hội đồng chấm luận văn xác nhận tác giả sửa chữa, bổ sung luận văn theo biên họp Hội đồng ngày 28/04/2022 với nội dung sau: Sửa Chương 1, mục 1.2: Cập nhật, giới hạn lại mục tiêu cụ thể cần đạt luận văn Tại Chương 3, mục 3.5.1 (Tổng quan đánh giá phương pháp xây dựng Dataset tại): - Cập nhật bổ sung lý xây dựng liệu cần thiết bổ sung kịch công - Cập nhật lại nội dung tiếng Việt cho Bảng 3.3 so sánh liệu Tại Chương (Xây dựng liệu đề xuất): - Mô tả thêm thông tin cách thức xử lý, vấn đề kết hợp liệu mục 4.1.4 - Cập nhật lại chênh lệch phân tích, nhận định số liệu bảng số liệu bảng 4.3 - Bổ sung thêm bảng so sánh kết độ xác với loại công với bảng 4.4 Sửa lỗi tả, bổ sung thêm số thích Ngày tháng năm 2022 Giảng viên hướng dẫn Tác giả luận văn CHỦ TỊCH HỘI ĐỒNG Mẫu 1c ĐỀ TÀI LUẬN VĂN Thông tin học viên Họ tên học viên: Lưu Minh Trí Điện thoại liên lạc: 0949203453 Email: tri.lmcb190234@sis.hust.edu.vn Lớp: 2019BATTT Hệ đào tạo: Thạc sĩ kỹ thuật Luận văn tốt nghiệp thực tại: Trường Công nghệ thông tin Truyền thông, Đại học Bách Khoa Hà Nội Thời gian thực luận văn: Từ tháng 10/2020 đến tháng 04/2022 Mục đích nội dung luận văn tốt nghiệp Học máy nghiên cứu trí tuệ nhân tạo phát triển mạnh năm gần đây, mở cánh cửa cho cơng nghệ phát xâm nhập phát triển tự động hóa A.I thay phụ thuộc vào người, tốn nhiều thời gian, nguồn lực dễ bị bỏ Tuy nhiên, tính sẵn có liệu hạn chế nhiều độ hiệu nghiên cứu thiếu hụt liệu IDS chất lượng tốt kể chất lượng số lượng, liệu DDoS khan so với hình thức cơng khác Mục tiêu nghiên cứu đánh giá liệu cơng DDoS có sẵn nay, phân tích, đánh giá hiệu liệu việc phân loại lưu lượng mạng (độc hại lành tính) với đề xuất liệu công DDoS giúp nâng cao chất lượng kết học máy Các nhiệm vụ cụ thể luận văn tốt nghiệp Trên sở mục tiêu đề ra, đề tài thực số nội dung nghiên cứu cụ thể sau: Trong luận văn này, mơ hình giả lập công DoS/DDOS đề xuất thu thập liệu kết hợp với liệu uy tín khác để tạo liệu chuyên dụng công DoS/DDOS mới, khắc phục nhược điểm cân liệu công lành tính, bổ sung thêm dạng cơng cho liệu biết Đồng thời, luận văn cung cấp giải pháp hữu hiệu để xây dựng thuật toán AI cho đặc điểm hệ thống mạng cụ thể thông qua việc thay đổi phân bố lưu lượng dạng cơng Các thuật tốn machine learning sử dụng để kiểm thử hiệu liệu so sánh với liệu trước Các mục tiêu cụ thể luận văn: • Phân tích, đánh giá liệu phát công DDoS (2022), điểm yếu, điểm mạnh liệu Sự cần thiết việc xây dựng liệu • Xây dựng, đề xuất liệu giải vấn đề phân tích thơng qua việc thu mới, gắn nhãn liệu cơng phổ biến gần mơ hình mạng giả lập, kết hợp liệu cũ • Xây dựng mơ hình kiểm thử liệu với thuật toán học máy để đánh giá liệu xây dựng mơ hình học thích hợp cách gắn nhãn theo loại lưu lượng mạng, độc hại hay lành tính • Đánh giá kết mơ hình học máy, tối ưu lựa chọn tham số Phân tích, đánh giá độ xác khả phát xâm nhập liệu dựa kết đạt Phạm vi nghiên cứu Để hoàn thiện mục tiêu cụ thể đề ra, đề tài tập trung vào vấn đề cải thiện chất lượng liệu để giải vấn đề cải thiện chất lượng phát công DDoS việc áp dụng học máy Luận văn có khảo sát liệu có sẵn nay, vấn đề đề xuất liệu phân tích, đánh giá kết mơ hình học máy, lựa chọn tham số, phân tích đánh giá độ xác khả phát xâm nhập đào tạo với liệu so sánh với liệu cũ Lời cam đoan học viên Tôi – Lưu Minh Trí – Cam kết luận văn tốt nghiệp cơng trình nghiên cứu thân tơi hướng dẫn TS Trần Hoàng Hải Các kết nêu luận văn tốt nghiệp trung thực, không chép tồn văn cơng trình khác Hà Nội, ngày tháng năm 2022 Tác giả Lưu Minh Trí Xác nhận giáo viên hướng dẫn mức độ hoàn thành luận văn tốt nghiệp phép bảo vệ Hà Nội, ngày tháng năm 2022 Giảng viên hướng dẫn TS Trần Hoàng Hải Lời cảm ơn Xin chân thành cảm ơn TS Trần Hoàng Hải giúp đỡ nhiều suốt trình hồn thành luận văn Nhờ dẫn thầy, tơi có định hướng nội dung, luận điểm cách lập luận vấn đề cách khoa học, có tổ chức Thầy có góp ý tận tình giúp tơi hồn thành tốt luận văn Tóm tắt nội dung luận văn Trong năm gần đây, với phát triển đa dạng kỹ thuật công mạng, đặc biệt DoS/DDOS, giải pháp phịng chống hình cơng mạng tích cực nghiên cứu, phát triển Hệ thống phát xâm nhập (IDS) dựa học máy có nhiều lợi ích, tiết kiệm nguồn lực người, giúp giám sát, phát nhanh chóng xác cơng DoS/DDOS từ đơn giản đến phức tạp Tuy nhiên, vấn đề quan trọng ảnh hưởng đến hiệu mô hình học máy ngồi tối ưu thuật tốn liệu cho việc đào tạo Theo nghiên cứu khảo sát sử dụng liệu nay, vấn đề lớn liệu cân liệu thiếu liệu kỹ thuật công mới, dẫn đến mơ hình học máy dẫn đến hiệu phát công chưa chất lượng với công DoS/DDOS Luận văn đánh giá lại liệu có, đồng thời đề xuất liệu giải vấn đề liệu tại, với việc cập nhật kỹ thuật công DoS/DDOS khai thác rộng rãi mơ hình mạng giả lập Bộ liệu kết hợp với hai liệu uy tín CIC-IDS2017 CIC-DDOS-2019, nhằm giải vấn đề cân liệu liệu Cùng với đó, luận văn cung cấp giải pháp hữu hiệu để xây dựng thuật toán AI cho đặc điểm hệ thống mạng cụ thể thông qua việc thay đổi phân bố lưu lượng dạng công Các thuật toán học máy sử dụng để kiểm thử hiệu liệu so sánh với liệu trước đó, luận văn kì vọng xây dựng liệu tin cậy để hỗ trợ, phục vụ cho nghiên cứu phòng, chống kỹ thuật công DDoS sử dụng học máy tương lai HỌC VIÊN Ký ghi rõ họ tên MỤC LỤC CHƯƠNG GIỚI THIỆU ĐỀ TÀI 1.1 Tính cấp thiết lý chọn đề tài 1.2 Mục tiêu phạm vi đề tài 1.3 Ý nghĩa luận văn kết mong muốn 1.4 Cấu trúc luận văn CHƯƠNG TỔNG QUAN VỀ TẤN CƠNG VÀ PHỊNG CHỐNG TẤN CÔNG DDOS 2.1 Tổng quan công từ chối dịch vụ DDoS 2.1.1 Tấn công DDoS khứ, tương lai 2.1.2 Các dạng công DDoS phổ biến 2.1.3 Các công cụ công DoS/ DDoS 12 2.2 Những thách thực việc phịng, chống cơng DDoS 17 2.3 Tổng quan phương pháp phịng, chống cơng DDoS 19 2.4 2.3.1 Nhóm phương pháp phịng chống cơng lớp mạng 20 2.3.2 Nhóm phương pháp phịng chống cơng lớp ứng dụng 22 2.3.3 Nhóm phương pháp xử lý theo giai đoạn phòng chống 23 Phịng chống cơng DDOS sử dụng học máy 24 2.4.1 Tổng quan học máy 24 2.4.2 Các thuật toán học máy 25 2.4.3 Các kỹ thuật vấn đề phịng chống cơng DDoS sử dụng học máy 30 2.4.4 Phương pháp đề xuất 32 CHƯƠNG TỔNG QUAN VỀ DATASET & ĐÁNH GIÁ CÁC DATASET HIỆN TẠI 34 3.1 3.2 Các loại liệu dataset 34 3.1.1 Dữ liệu Packet-based 34 3.1.2 Dữ liệu Flow-based 35 Các đặc tính cần đánh giá Dataset 36 3.2.1 Thông tin chung 36 3.2.2 Bản chất liệu 37 3.2.3 Khối lượng liệu 38 3.2.4 Môi trường thu liệu 38 3.2.5 Đánh giá 39 3.3 3.4 3.5 Nguồn liệu Dataset 39 3.3.1 Kho liệu (Data repository) 39 3.3.2 Traffic Generators 44 Tổng quan đánh giá dataset có 45 3.4.1 DARPA 1998 45 3.4.2 KDD 1999 45 3.4.3 ISCX2012 46 3.4.4 UNSW-NB15 46 3.4.5 CIC-IDS-2017 46 3.4.6 CICDDoS2019 47 Đánh giá, khuyến nghị dataset có 48 3.5.1 Tổng quan đánh giá phương pháp xây dựng Dataset 48 3.5.2 Phương pháp lựa chọn dataset hiệu 52 CHƯƠNG XÂY DỰNG BỘ DỮ LIỆU ĐỀ XUẤT 54 4.1 4.2 4.3 Mơ hình đề xuất xây dựng liệu 54 4.1.1 Kiến trúc mạng mô 54 4.1.2 Các kịch công 55 4.1.3 Thu thập liệu 56 4.1.4 Bộ liệu 57 Mơ hình kiểm thử với thuật tốn học máy 61 4.2.1 Tiền xử lý liệu 61 4.2.2 Huấn luyện model AI 63 4.2.3 Đánh giá độ xác 63 Đánh giá kết 65 4.3.1 Lựa chọn tham số cho thuật toán Machine Learning 65 4.3.2 Kết Anomaly detection Machine Learning 67 CHƯƠNG KẾT LUẬN 70 5.1 Kết luận 70 5.2 Hướng phát triển luận văn tương lai 70 TÀI LIỆU THAM KHẢO 72 DANH MỤC HÌNH VẼ Hình 1.1 Tổng quan giải pháp đề xuẩt Hình 2.1 Minh họa công DDoS [5] Hình 2.2 Sự khác biệt DoS DDoS [5] Hình 2.3 Thống kê kỹ thuật cơng DDoS năm 2021 Nguồn: Microsoft [7] Hình 2.4 Thống kê thời gian công DDoS năm 2021 Nguồn: Microsoft[7] Hình 2.5 Minh họa Protocol attack [5] Hình 2.6 Tấn cơng DNS Amplification Nguồn: Cloudflare [5] Hình 2.7 Minh họa cơng Slowloris [5] 11 Hình 2.8 Ảnh chụp thống kê dịch vụ DDoS for Hire thị trường 14 Hình 2.9 Ảnh chụp giá công thực tế dịch vụ DDoS for Hire 14 Hình 2.10 Ảnh chụp giao diện thực công qua web 15 Hình 2.11 Tổng quan phương pháp phịng, chống cơng DDoS 19 Hình 2.12 Mơ hình học máy cho việc phát cơng DDoS 26 Hình 2.13 Thuật tốn kNN - Dữ liệu gốc [27] 27 Hình 2.14 Thuật tốn kNN - Giá trị dự đoán với k=1 [27] 27 Hình 2.15 Thuật tốn kNN - Giá trị dự đoán với k=5 [27] 27 Hình 2.16 Thuật tốn AdaBoots 28 Hình 2.17 Random Forest - Boostrap samples [27] 29 Hình 2.18 Random Forest – Feature randomness [27] 30 Hình 2.19 Random Forest - Tổng quan [27] 30 Hình 3.1 IP, ICMP, UDP, TCP header [15] 35 Hình 3.2 Các thuộc tính chung network-based dataset [15] 37 Hình 3.3 Các quốc gia Impact Cyber Trust cho phép tham gia 41 Hình 3.4 Website Netrecsec 42 Hình 3.5 Website OpenML 43 Hình 3.6 Dataset đăng tải SecRepo 43 Hình 4.1 Mơ hình mạng mô CIC-DOS-2019 [17] 54 Hình 4.2 Kiến trúc mạng mơ 54 Hình 4.3 Kiến trúc mạng mô GNS3 55 Hình 4.4 Cơng cụ cơng MHDDoS 56 Hình 4.5 Mơ hình thu thập liệu xử lý liệu thông qua wireshark, CICFlowmeter 57 Hình 4.6 Tỉ lệ phân bố liệu Benign DDoS 61 Hình 4.7 Mơ hình huấn luyện model AI 63 Hình 4.8 TP/FP/TN/FN 64 Hình 4.9 kNN - Biểu đồ phụ thuộc giá trị K accuracy 65 Hình 4.10 AdaBoost - Biểu đồ phụ thuộc giá trị n accuracy 66 Hình 4.11 Random Forest - Biểu đồ phụ thuộc giá trị n accuracy 67 Cụ thể, kỹ thuật thu là: • Amplification attack: RDP, ARD, CLDAP, CHAR, MEM • Application attack: VSE, TS3, FIVEM, MCPE Sau thu thực kịch công thu thập liệu, file lưu lượng dạng công, sau tổng hợp với CIC-IDS-2017 CIC-DOS2019 thể bảng sau: Bảng 4.2 Thống kê file lưu lượng công dataset STT Tên file Loại công tcpflood.pcap_Flow.csv TCP Flood udpflood.pcap_Flow.csv UDP Flood httpflood.pcap_Flow.csv HTTP Flood vse.pcap_Flow.csv Valve Source Engine Protocol ts3.pcap_Flow.csv Teamspeak Status Ping Protocol fivem.pcap_Flow.csv Fivem Status Ping Protocol mcpe.pcap_Flow.csv Minecraft PE Status Ping Protocol rdp.pcap_Flow.csv Remote Desktop Protocol ard.pcap_Flow.csv Apple Remote Desktop 10 cldap.pcap_Flow.csv Connection-less Lightweight Directory Access Protocol 11 char.pcap_Flow.csv Chargen attack 12 mem.pcap_Flow.csv Memcached attack 13 goldeneye.pcap_Flow.csv Goldeneye attack 14 hulk.pcap_Flow.csv Hulk attack 15 httpslow.pcap_flow.csv HTTP Slow attack 16 tftp.pcap_flow.csv TFTP attack 17 snmp.pcap_flow.csv SNMP attack 18 dns.pcap_flow.csv DNS attack 19 mssql.pcap_flow.csv MSSQL attack 20 netbios.pcap_flow.csv Netbios attack 21 ssdp.pcap_flow.csv SSDP attack 22 ldap.pcap_flow.csv LDAP attack 23 ntp.pcap_flow.csv NTP attack 24 portmap.pcap_flow.csv Portmap attack 59 Các vấn đề ghép liệu • Xử lý việc chênh lệch số feature 03 liệu: • Chạy lại cơng cụ CICFlowMeter phiên V3 với liệu PCAP, copy lại gán nhãn cũ • Xử lý lại tên feature bị thay đổi • Xử lý chênh lệch dạng cơng • Gom nhóm dạng cơng có tỉ lệ thấp (UDPLag -> UDP) • Điều chỉnh lượng data point dạng cơng • Bổ sung thêm cơng • Loại bỏ feature có vấn đề biết(~10) Ưu điểm liệu • (1) Dung lượng nhỏ Bộ liệu có dương lượng ~6GB so với 29GB CIC-DOS-2019 • (2) Phân bố nhãn: • Benign / DDoS (40% DDoS /60% Benign) (bản ~50/50%) • Phân bố loại cơng DDoS • (3) Đa dạng kỹ thuật cơng • CIC-IDS-2017: loại • CIC-DOS-2019: 13 loại • BKID 2022: 24 loại (đã nhóm lại kỹ thuật cơng gần giống) Ưu điểm kết hợp tận dụng dạng lưu lượng có sẵn liệu CIC-IDS-2017 , CIC-DOS-2019 Khi mà việc tạo lưu lượng bình thường mơ hình mạng cụ thể khó khăn Sự khó khăn đến từ việc xác định lưu lượng thời điểm di chuyển mạng liệu lành tính hay liệu cơng, đến từ việc mơ hình mạng mơ không phản ánh đầy đủ mặt số lượng đa dạng thiết bị thực tế Một ưu điểm khác tạo cân liệu cho dạng công khác Điều mơ tả hình sau: 60 DISTRIBUTION DDoS 40% Benign 60% Hình 4.6 Tỉ lệ phân bố liệu Benign DDoS Biểu đồ cho thấy tỉ lệ liệu Benign từ 77% xuống 60% tỉ lệ liệu DDoS tăng từ 23% lên đến 40% Tỉ lệ dạng liệu giúp cho thuật toán AI tập trung vào việc tìm kiếm đặc điểm dạng liệu công, giảm cân liệu so với liệu ban đầu Đồng thời tỉ lệ phản ánh liệu mạng thực tế mà đa số lưu lượng chảy mạng liệu truy cập hợp lệ Đáng ý hơn, việc tăng giảm tỉ lệ đến từ việc tăng số lượng lưu lượng cơng DDoS liệu liệu khơng gây lên trình trạng mát liệu training Ngoài ra, phân bố liệu loại cơng cải thiện, gom nhóm công tránh việc chênh lệch loại công Ví dụ hình thức cơng HTTP Slow (Slowloris, slowhttptest) góm nhóm chung HTTP Slow Sự đa dạng loại công tăng từ (2017) 13(2019) lên 24, đồng thời giảm cân số lượng loại công Như vậy, thuật tốn sử dụng khơng tập trung hồn tồn vào loại cơng mà phân bố dạng công khác Điều khiến cho hiệu loại cơng giảm xuống thuật tốn phải traning liệu với nhiều nhãn đảm bảo việc model AI thay đổi theo mong muốn người quản trị mạng theo đặc điểm hệ thống mạng cụ thể 4.2 Mơ hình kiểm thử với thuật toán học máy 4.2.1 Tiền xử lý liệu Trong phần này, tác giả rà soát lại nghiên cứu nhà nghiên cứu để định thuật toán học máy sử dụng phổ biến việc phát cơng DoS/DDOS Sau tác giả đề xuất mơ hình học máy để so sánh với thuật toán học máy khác Tiếp theo, tác giả sử dụng liệu CIC-IDS61 2017 CICDDoS2019 làm tập liệu luyện tập tập liệu kiểm thử Sau hoàn thành xong trình xử lý liệu chọn thuật tốn phù hợp, tác giả tiến hành kiểm tra đánh giá, sau chọn trường liệu có mức độ ảnh hưởng cao việc phát công DoS/DDOS mơ hình luyện tập Q trình xử lý liệu Bộ liệu CIC-IDS-2017 CICDDoS2019 có dung lượng tương đối lớn cần xử lý cẩn thận xác để mơ hình đạt hiệu tốt nhất; Việc cần xử lý loại bỏ số trường khơng cần thiết, có mức độ ảnh hưởng thấp việc phán đoán giữ lại trường có mức độ ảnh hưởng quan trọng Để thực việc này, luận văn có nghiên cứu, phân tích từ nghiên cứu trước đánh giá dataset [18] nghiên cứu ứng dụng học máy cho dataset Trong nghiên cứu, luận văn sử dụng thư viện Pandas, Scikit-Learn, Numpy để phục vụ cho trình xử lý liệu liệu Quá trình xử lý liệu viết vắn tắt sau: • Các feature flow-id, src-ip, src-port, dst-ip timestamp bị loại bỏ chúng khơng liên quan đến nhãn luồng thiết lập Các mẫu liệu chứa NaN, Inf val-ues bị loại bỏ • Do vấn đề tính tốn sai feature [18] số feature ln bị null loại bỏ (‘Bwd PSH Flags’, ‘BwdURG Flags’, ‘Fwd Avg Bytes/Bulk’, ‘Fwd Avg Pack-ets/Bulk’, ‘Fwd Avg Bulk Rate’, ‘Bwd Avg Bytes-/Bulk’, ‘Bwd Avg Packets/Bulk’, ‘Bwd Avg BulkRate’) • Loại bỏ feature bị trùng lặp file: Aver-age Packet Size" and "Packet Length Mean; FwdPacket Length Mean and Fwd Segment Size Avg • Các mẫu liệu gắn nhãn lành tính kiểu cơng tương ứng • Tồn tập liệu chia thành tập huấn luyện thử nghiệm theo tỷ lệ đến Từ liệu đặc trưng trích xuất, tác giả tiến hành kết hợp để tạo liệu Dữ liệu làm sạch, loại bỏ cột chứa thông tin không quan trọng “ flow id”, “src ip”, “ src port”, “dst ip” , “ timestamp” Sau loại bỏ tiếp hàng chứa kí tự NaN, Inf Đó lưu lượng bị lỗi thu thập thông tin Sau liệu gán lại nhãn Với toán anomaly, lưu lượng benign giữ nguyên nhãn, lưu lượng công khác gán chung nhãn DoS/DDOS với toán multiple DoS/DDOS detection, nhãn liệu giữ nguyên cho việc training model Chia liệu thành tập training data testing data Tập trainning data chiếm 80% liệu testing data chiếm 20% liệu 62 4.2.2 Huấn luyện model AI Hình 4.7 Mơ hình huấn luyện model AI Training data sử dụng để huấn luyện thuật toán machine learning deep learning để tạo model AI hoàn chỉnh 2.Testing data sử dụng để kiếm thử model AI xây dựng thông qua số accuracy, recall, f1 score 4.2.3 Đánh giá độ xác Accuracy Đây cách đơn giản để đánh giá mơ hình tốt hay xấu Trong tốn phân lớp "accuracy" hay "độ xác" tính sau: 𝑛𝑢𝑚𝑏𝑒𝑟 𝑜𝑓 𝑟𝑖𝑔ℎ𝑡 𝑝𝑟𝑒𝑑𝑖𝑐𝑡𝑖𝑜𝑛 𝑎𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = 𝑛𝑢𝑚𝑏𝑒𝑟 𝑜𝑓 𝑑𝑎𝑡𝑎 Cách đánh giá đơn giản tính tỉ lệ số điểm dự đốn tổng số điểm tập liệu kiểm thử Tuy nhiều hạn chế accuracy lại phản ánh cách tổng qt dự đốn tồn tập liệu kiểm thử, thích hợp cho việc đánh giá tổng mơ hình Với nhãn, cần tới đại lượng để đong đếm mơ hình dự đốn tốt nhãn Cụ thể với nhãn X: • TP - True Positive: Đại lượng cho ta biết số lượng liệu dự đốn nhãn X • FP - False Positive: Đại lượng cho ta biết số lượng liệu dự đoán nhãn X thực tế lại nhãn X Trong trường hợp mơ hình dự đốn sai • TN - True Negative: Đại lượng cho biết số lượng liệu dự đốn khơng phải nhãn X thực tế chúng nhãn X Trong trường hợp mơ hình dự đốn khơng dự đốn nhãn X 63 • FN - False Negative: Đại lượng cho ta biết số lượng liệu dự đốn khơng phải nhãn X thực tế chúng lại nhãn X Trong trường hợp mơ hình dự đốn sai khơng dự đốn nhãn X Hình 4.8 TP/FP/TN/FN Như với việc đánh giá nhãn thông qua đại lượng trên, biết nhãn mơ hình dự đốn tốt, có hay bị dự đốn nhầm sang nhãn khác khơng, có hay đốn thiên nhãn q khơng Tuy nhiên nhãn có tới đại lượng, điều khiến cho việc định mơ hình tốt khơng dễ dàng Cơng thức tính xác tổng hợp lại là: 𝑇𝑃 + 𝑇𝑁 𝐴𝑐𝑐𝑢𝑟𝑎𝑦 = (1) 𝑇𝑃 + 𝐹𝑃 + 𝑇𝑁 + 𝐹𝑁 Precision & Recall 𝑇𝑃 (2) 𝑇𝑃 + 𝐹𝑃 𝑇𝑃 𝑅𝑒𝑐𝑎𝑙𝑙 = (3) 𝑇𝑃 + 𝐹𝑁 Precision thể khả model dự đoán nhãn X, thấy công thức (2) , thành phần khiến cho Precision tăng hay giảm TP mà FP Chính Precision cao đồng nghĩa với việc FP nhỏ hay số nhãn dự đoán nhầm sang nhãn X thấp Recall thể khả model dự đốn khơng bị sót nhãn X, Precision, Recall phụ thuộc vào FN hay nói cách khác phụ thuộc vào khả model dự đoán sai nhãn X Thực tế ngồi Precision Recall cịn có metric tương tự (Chẳng hạn Sensitive ) Nhưng với Precision Recall tập trung vào giảm thiểu FN FP thành phần khiến cho mơ hình ta dự đốn xác F1 score Công thức 𝑥 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 𝑥 𝑟𝑒𝑐𝑎𝑙𝑙 𝐹1 𝑆𝑐𝑜𝑟𝑒 = (4) 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑟𝑒𝑐𝑎𝑙𝑙 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 64 Điều mong muốn hai tham số Precision Recall cao Tuy nhiên không may phải đánh đổi chúng, Precision cao thường kéo theo Recall thấp ngược lại Lý tham số Precision cao đồng nghĩa với việc mô hình phải chắn dám dự đốn nhãn X, điều lại khiến cho model bị dự đoán thiếu liệu thực nhãn X, ngược lại tương tự Vậy nên cần phải tổng hợp metric làm 1, để tuning model theo hướng mà lo ngại coi trọng Precision hay Recall, sử dụng F1 score làm độ đo tổng quát model 4.3 Đánh giá kết 4.3.1 Lựa chọn tham số cho thuật toán Machine Learning 4.3.1.1 KNN Với mơ hình KNN, việc chọn số lượng điểm lân cận K để dự đoán quan trọng Nếu giá trị K q nhỏ thuật tốn dự đốn khơng xác nhãn điểm cần phân lớp khơng đủ thơng tin Nếu K q lớn, thuật tốn nhiều thời gian cho training phase Điều tiêu tốn nhiều tài nguyên hệ thống KNN 0.997 0.9965 0.996 0.9955 0.995 0.9945 0.994 K=1 K =2 K=3 K=5 K=6 K=7 K=8 K = 10 accuracy Hình 4.9 kNN - Biểu đồ phụ thuộc giá trị K accuracy Biểu đồ cho thấy, với giá trị K = đồ thị đạt giá trị cực đại bắt đầu theo chiều ngang Như với K = thuật toán thu điểm local maximum mà giá trị accuracy thuật toán đạt giá trị cực đại Việc tìm điểm local maximum số tốn khả thi so với việc tìm điểm global maximum Nguyên nhân việc tìm điểm local maximum tiêu tốn thời gian training giá trị accuracy cao 65 4.3.1.2 AdaBoost Với thuật tốn AdaBoost, việc tìm số lượng stump decision (n) tham gia vào việc phân lớp quan trọng Nếu giá trị n nhỏ, số lượng định không đủ lớn dẫn đến thuật tốn khơng đạt hiệu cao việc phân lớp Các thuật toán dạng boosting chủ yếu dựa vào việc weak learner sửa lỗi cho để đạt accuracy cao Việc weak learner khiến cho thuật tốn dạng boosting khơng cịn hiệu q tốt AdaBoost 0.9975 0.997 0.9965 0.996 0.9955 0.995 0.9945 0.994 0.9935 n = 10 n = 20 n = 30 n = 50 n = 80 n = 100 n = 150 n = 200 accuracy Hình 4.10 AdaBoost - Biểu đồ phụ thuộc giá trị n accuracy Dựa vào đồ thị, với giá trị n 100, thuật toán đạt giá trị accuracy cao Như vậy, điểm local maximum điểm mà giá trị n 100 4.3.1.3 Random Forest Với thuật tốn Random Forest, việc tìm số lượng n decision tree tham gia vào việc phân lớp quan trọng Nếu giá trị n nhỏ, điều khiến cho trình lựa chọn ngẫu nhiên mẫu feature không đạt độ hiểu cao, bỏ sót nhiều mẫu feature chưa tham gia vào xây dựng decision tree 66 Random Forest 0.99955 0.9995 0.99945 0.9994 0.99935 0.9993 n = 10 n = 20 n = 30 n = 50 n = 80 n = 100 n = 150 n = 200 accuracy Hình 4.11 Random Forest - Biểu đồ phụ thuộc giá trị n accuracy Theo biểu đồ trên, với n ≥ 50 giá trị accuracy mơ hình giảm khơng đáng kể Điều chứng tỏ thuật toán đạt local maximum điểm có giá trị n 50 Khi tăng giá trị n, accuracy mơ hình giảm nhỏ đồ thị theo chiều ngang Không thế, việc tăng giá trị n ảnh hưởng nhiều đến thời gian training model đồng thời khơng tiết kiệm tài ngun máy tính 4.3.2 Kết Anomaly detection Machine Learning Bảng 4.3 Bảng so sánh accuracy, precision, recall, f1 thuật toán học máy liệu Bộ liệu Thuật toán Accuracy Precision Recall F1 CIC IDS 2017 KNN 0.9961 0.989 0.9942 0.9916 AdaBoost 0.9972 0.9945 0.9935 0.994 Random Forest 0.9994 0.9989 0.9988 0.9988 KNN 0.9921 0.981 0.9872 0.9841 AdaBoost 0.9916 0.9952 0.9912 0.9931 Random Forest 0.9991 0.9972 0.9982 0.9981 KNN 0.9967 0.9947 0.997 0.9981 AdaBoost 0.9976 0.9975 0.9964 0.9969 Random Forest 0.9996 0.9995 0.9994 0.9969 CIC DDOS 2019 BKID DDOS 2022 (đề xuất) Dựa vào bảng kết so sánh, số accuracy, precision, recall, f1 thuật toán tăng liệu BKID DDOS 2022 Accuracy, precision f1 thuật toán KNN tăng 0.06%, 0.57% 0.28% với CIC IDS 2017 0.46%, -0.14%, 0.98% với CIC-DOS-2019, đạt mức tăng cao thuật toán kiểm thử Recall tăng cao thuật toán AdaBoost 0.29%, 0.52% 67 với liệu 2017, 2019 Điều cho thấy hiệu thuật sử dụng liệu BKID DDOS 2022 cao, đặc biệt thuật toán Random Forest với accuracy đạt 99.96% Như liệu giảm tỉ lệ cảnh báo lỗi thuật toán đồng thời cải thiện tỉ lệ dự đoán nhãn so với liệu cũ Hơn nữa, chênh lệch accuracy, precision, recall, f1 thuật toán thu hẹp lại Accuracy KNN thấp 0.29% so với accuracy Random Forest liệu đề xuất, chênh lệch nhỏ 0.04% 0.41% so với liệu CIC-IDS-2017, CIC-DOS-2019 Sự chênh lệch accuracy thuật toán AdaBoost thuật toán Random Forest giảm 0.02% 0.75% với liệu 2017, 2019 Điều cho phép mơ hình AI sử dụng thuật tốn đơn giản, tiết kiệm tài nguyên máy tính, thời gian training đồng thời đạt hiệu sử dụng cần thiết Bảng 4.4 Bảng so sánh kết accuracy loại công CIC-IDS-2017 Random KNN Forest 0.9967 0.9997 Ada Boots 0.9785 CIC-DOS-2019 Random KNN Forest 0.9976 0.9993 0.9645 BKID DDOS 2022 Random KNN Forest 0.9966 0.9997 AdaBoots Ada Boots 0.9582 0.7039 TCP flood UDP flood HTIP flood VSE 0.7328 0.0465 0.9479 0.9562 0.0804 0.9805 0.9997 0.0769 0.7136 0.7209 0.396 0.9947 0.9996 0.8302 0.9985 0.9999 0.8580 0.6508 0.6984 0.285 0.9746 0.9952 0.7693 0.9948 0.9948 0.8745 0.6692 0.6847 0.0284 0.7264 0.7409 0.0198 0.8974 0.9084 0.0274 TS3 0.6847 0.7078 0.0184 0.7028 0.7193 0.0211 0.8743 0.8947 0.0398 FIVEM 0.7104 0.7129 0.291 0.6905 0.7029 0.2852 0.8947 0.923 0.3912 MCPE 0.6709 0.6912 0.1027 0.7084 0.7193 0.1872 0.9682 0.9747 0.1732 RDP 0.6302 0.6763 0.0147 0.7047 0.7395 0.0206 0.9203 0.9374 0.3957 10 ARD 0.6593 0.6603 0.047 0.7073 0.7204 0.0399 0.9491 0.9662 0.0395 11 CLDAP 0.7084 0.7392 0.0385 0.6973 0.7001 0.0187 0.9307 0.9458 0.1832 12 CHAR 0.6508 0.6904 0.0398 0.7192 0.7793 0.0376 0.9384 0.9647 0.0893 13 0.7168 0.7328 0.0371 0.8927 0.9074 0.2048 0.9183 0.9374 0.2984 0.9811 0.9956 0.4595 0.7417 0.7792 0.1304 0.7581 0.8957 0.1702 15 MEM Dos Golden Eye Dos Hulk 0.9940 0.9991 0.6153 0.8103 0.8038 0.5934 0.9698 0.9875 0.6633 16 Dos Slow 0.9691 0.9891 0.1589 0.7798 0.7864 0.0527 0.8004 0.8911 0.0724 17 TFTP 0.8016 0.8283 0.1401 0.8937 0.9074 0.2084 0.9284 0.9482 0.2839 18 SNMP 0.6904 0.7192 0.0923 0.8948 0.9037 0.0912 0.9275 0.9411 0.1827 19 DNS 0.7603 0.7732 0.0735 0.9372 0.9498 0.1834 0.9892 0.9916 0.3793 20 MSSQL 0.7839 0.8293 0.2937 0.8704 0.9132 0.329 0.9729 0.9987 0.498 21 NetBIOS 0.7295 0.7639 0.0398 0.8949 0.9138 0.193 0.9043 0.944 0.2302 22 SSDP 0.7728 0.7899 0.0398 0.8603 0.8896 0.0367 0.9062 0.927 0.0239 23 LDAP 0.5483 0.6692 0.0381 0.7793 0.8084 0.0832 0.9402 0.9503 0.492 24 NTP 0.8083 0.8206 0.2192 0.9183 0.9394 0.2201 0.9398 0.9749 0.2474 25 PortMap 0.7608 0.8034 0.1839 0.8903 0.9231 0.4092 0.932 0.9412 0.2308 TT Loại công Benign 14 68 Dựa liệu so sánh kết accuracy loại cơng, thấy việc áp dụng liệu BKID DDOS 2022 cho cải thiện đáng kể (~20%) với hầu hết hình thức cơng, đặc biệt với dạng công DDoS thu bổ sung Điều giúp cho nghiên cứu áp dụng liệu phát tốt hình thức cơng mới, nhận diện tốt hình thức cơng cụ thể Trên liệu, thuật toán Random Forrest cho kết tốt 69 CHƯƠNG KẾT LUẬN 5.1 Kết luận Luận văn đưa cách tổng quan công DDoS với cập nhật từ công cụ công, kịch công tổng hợp từ báo cáo tổ chức lớn Microsoft, Cloudflare với q trình kinh nghiệm xử lý cơng mạng, đặc biệt công DDoS tác giả Luận văn đưa giải pháp để xử lý DDoS, tổng quan, mơ hình hóa phương pháp phịng, chống công dựa nghiên cứu trước Có thể thấy mà ngăn chặn cơng truyền thống, dựa vào kinh nghiệm, tri thức chuyên gia ngày khó khăn mặt thời gian, tính sẵn sàng tự động hóa ngăn chặn hình thức cơng cần thiết việc ứng dụng học máy vào IDS cần thiết Khi đào sâu vào vấn đề này, bên cạnh thuật tốn liệu vấn đề quan trọng đóng góp cho khả nhận diện cơng hiệu cao Chính vậy, luận văn tổng hợp, đánh giá lại tất liệu cơng khai truy cập đến tại, kế thừa bổ sung khảo sát nhà nghiên cứu trước giúp nhà nghiên cứu quan sát, có tiêu chí phương pháp tham khảo để lựa chọn dataset phù hợp cho nghiên cứu Trước nhược điểm liệu nghiên cứu, tránh sai lệch kết quả, hay kết đánh giá chủ quan, luận văn tìm cách cải thiện vấn đề dựa nghiên cứu trước khảo sát áp dụng dataset phân tích Về gom nhóm, bổ sung loại công mới, luận văn tham khảo báo cáo từ tổ chức lớn kinh nghiệm thân, cơng cụ mã nguồn mở có sẵn để gom nhóm tổng hợp liệu, xây dựng mơ hình mạng mô để thu liệu công Luận văn đưa giải pháp , nghiên cứu giải vấn đề công việc trước cách đề xuất tập liệu tập trung vào công DDoS cập nhật kỹ thuật công DDoS Ngồi ra, liệu tối ưu hóa giải cân lớp không lưu lượng truy cập bình thường lưu lượng truy cập bất thường mà xen kẽ kiểu cơng tập liệu tiếng trước CIC-IDS-2017 CICDOS-2019 cách kết hợp tối ưu hóa dataset tăng mẫu lưu lượng mạng độc hại Độ xác thuật tốn học máy liệu (BKID 2022) đánh giá đưa tối ưu lựa chọn tham số 5.2 Hướng phát triển luận văn tương lai Vì thời gian kinh nghiệm thân có hạn, luận văn cịn nhiều khuyết điểm thiếu sót cần cải thiện Trong tương lai, tác giả mong muốn mở rộng tập liệu DDoS hồn thiện Về kỹ thuật cơng, tác giả mong muốn bổ sung lưu lượng truy cập DDOS For Hire giới thực (cần thêm xác nhận nhà cung cấp dịch vụ cho nghiên cứu này) để phản ánh công DDoS for Hire với chi phí thấp kỹ thuật cơng liên tục cập nhật Ngoài bổ sung thêm kỹ thuật cơng q trình xử lý thực tế Ngoài ra, báo cáo Microsoft 70 [7] thời lượng cơng diễn theo đợt sóng ngắn Luận văn mong muốn nghiên cứu, xử lý vấn đề Về kỹ thuật học máy, tác giả mong muốn tìm hiểu cải thiện để tối ưu hóa tập liệu cho thuật tốn học sâu việc tự động lựa chọn feature Tối ưu thêm với thuật toán học máy khác để tối ưu thời gian, hiệu tính tốn Đi sâu thêm việc kết hợp thuật toán với để tạo thành hệ thống bảo mật mạng nhiều lớp, thay đổi thuật tốn qua mơi trường mạng khác Về kỹ thuật thu liệu, tác giả xem xét công cụ LycoSTand [18] để cải thiện nhược điểm CICFlowmeter thu thập tính trích xuất từ lưu lượng cơng PCAP Ngồi ra, mơ hình mạng giả lập thu cần cải thiện đa dạng hơn, sát với môi trường dịch vụ thực tế 71 TÀI LIỆU THAM KHẢO Cisco Annual Internet Report - Cisco Annual Internet Report(2018–2023) White Paper,Cisco, https://www.cisco.com/c/en/us/solutions/collateral/executiveperspectives/annual-internet-report/white-paper-c11-741490.html M Antonakakis, T April, M Bailey, M Bernhard, andE Bursztein,Understanding the Mirai Botnet, p 19 C Kolias, G Kambourakis, A Stavrou, and J Voas, “DDoS in the IoT: mirai and other botnets,”Computer, vol 50, no 7,pp 80–84, 2017 DoS Glossary, https://www.cloudflare.com/en-in/learning/ddos/glossary/denial-ofservice/ Last accessed April 2022 DDoS Glossary, https://www.cloudflare.com/en-in/learning/ddos/what-is-a-ddosattack/ Last accessed April 2022 K Zetter, “Inside the cunning, unprecedented hack of ukraine’s power grid,” Mar 2016 [Online] Available: https://www.wired.com/2016/03/inside-cunningunprecedented-hack-ukraines-power-grid/ Azure DDoS Protection 2021 Q3 and Q4 DDoS attack trends, https://azure.microsoft.com/en-us/blog/azure-ddos-protection-2021-q3-and-q4-ddosattack-trends/ Last accessed April 2022 C Dartigue, H I Jang, and W Zeng, “A new data-mining basedapproach for network intrusion detection,” in 2009 Seventh AnnualCommunication Networks and Services Research Conference.IEEE,2009, pp 372–377 R Malhotra and S Kamal, “An empirical study to investigate oversampling methods for improving software defect prediction using imbalanced data,” Neurocomputing, vol 343, pp 120–140, 2019, doi: 10.1016/j.neucom.2018.04.090 10 N T Anh, L H Hoang, V D Minh and T H Hai, "BKID - A New Intrusion Detection Dataset To Mitigate The Class Imbalance Problem," 2021 15th International Conference on Advanced Computing and Applications (ACOMP), 2021, pp 106-111, doi: 10.1109/ACOMP53746.2021.00021 11 S S Gopalan, D Ravikumar, D Linekar, A Raza and M Hasib, "Balancing Approaches towards ML for IDS: A Survey for the CSE-CIC IDS Dataset," 2020 International Conference on Communications, Signal Processing, and their Applications (ICCSPA), 2021, pp 1-6, doi: 10.1109/ICCSPA49915.2021.9385742 12 DARPA Dataset [Online] Available: https://www.ll.mit.edu/r-d/datasets 13 KDDCUP’99 - http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html 14 Jindal, Rishabh & Anwar, Adnan (2021) Emerging Trends of Recently Published Datasets for Intrusion Detection Systems (IDS): A Survey 15 Ring, M et al.: A Survey of Network-based Intrusion Detection Data Sets Computers & Security 86, 147–167 (2019) 16 I Sharafaldin, A.Habibi L.Saqib Hakak, and A Ghorbani, "Developing Realistic Distributed Denial of Service (DDoS) Attack Dataset and Taxonomy", IEEE 53rd International Carnahan Conference on Security Technology, Chennai, India, 2019 17 CICDDoS2019 - https://www.unb.ca/cic/datasets/ddos-2019.html Last accessed April 2022 18 Rosay, Arnaud & Cheval, Eloïse & Carlier, Florent & Pascal, Leroux (2022) Network Intrusion Detection: A Comprehensive Analysis of CIC-IDS-2017 10.5220/0000157000003120 19 M Ring, S Wunderlich, D Scheuring, D Landes, and A Hotho "A survey of network-based intrusion detection data sets." Computers & Security 86 (2019):147167 20 Can, Duy-Cat & Le, Hoang-Quynh & Ha, Quang (2021) Detection of Distributed Denial of Service Attacks Using Automatic Feature Selection with Enhancement for Imbalance Da-taset 10.1007/978-3-030-73280-6_31 72 21 Ivandro Ortet Lopes, Deqing Zou, Francis A Ruambo, Saeed Akbar, Bin Yuan, "Towards Effective Detection of Recent DDoS Attacks: A Deep Learning Approach", Security and Communication Networks, vol 2021, Article ID 5710028, 14 pages, 2021 22 Ullah, S.; Khan, M.A.; Ahmad, J.; Jamal, S.S.; e Huma, Z.; Hassan, M.T.; Pitropakis, N.; Arshad; Buchanan, W.J HDL-IDS: A Hybrid Deep Learning Architecture for Intrusion Detection in the Internet of Vehicles Sensors 2022, 22, 1340 23 Habibi Lashkari, Arash (2018) CICFlowmeter-V4.0 (formerly known as ISCXFlowMeter) is a network traffic Bi-flow generator and analyser for anomaly detection https://github.com/ISCX/CICFlowMeter 10.13140/RG.2.2.13827.20003 24 Seifousadati, Alireza & Ghasemshirazi, Saeid & Fathian, Mohammad (2021) A Machine Learning Approach for DDoS Detection on IoT Devices 25 S T Zargar, J Joshi and D Tipper, "A Survey of Defense Mechanisms Against Distributed Denial of Service (DDoS) Flooding Attacks," in IEEE Communications Surveys & Tutorials, vol 15, no 4, pp 2046-2069, Fourth Quarter 2013, doi: 10.1109/SURV.2013.031413.00127 26 G, Dileep & Rao, Chakunta & Singh, Manoj & Satyanarayana, Gubbala (2013) A Survey on Defense Mechanisms countering DDoS Attacks in the Network International Journal of Advanced Research in Computer and Communication Engineering (IJARCCE) 2599-2606 27 Soner Yıldırım, Common Machine Learning Algorithms, https://towardsdatascience.com/11-most-common-machine-learning-algorithmsexplained-in-a-nutshell-cc6e98df93be 28 Gupta, Brij B., and Amrita Dahiya Distributed Denial of Service (DDoS) Attacks: Classification, Attacks, Challenges and Countermeasures CRC press, 2021 73

Định dạng
Số trang	85
Dung lượng	2,92 MB