Biểu đồ trên cho thấy, với giá trị K = 5 đồ thị đạt giá trị cực đại và bắt đầu đi theo chiều ngang. Như vậy với K = 5 thuật tốn thu được một điểm local maximum mà tại đây giá trị accuracy của thuật tốn đạt giá trị cực đại. Việc tìm ra điểm local maximum trong một số bài tốn là khả thi hơn so với việc tìm điểm global maximum. Nguyên nhân là vì việc tìm ra điểm local maximum tiêu tốn ít thời gian training hơn và giá trị của accuracy cũng khá cao.
0.994 0.9945 0.995 0.9955 0.996 0.9965 0.997 K = 1 K =2 K = 3 K = 5 K = 6 K = 7 K = 8 K = 10 KNN accuracy
66
4.3.1.2. AdaBoost
Với thuật tốn AdaBoost, việc tìm ra số lượng stump decision (n) tham gia vào việc phân lớp hết sức quan trọng. Nếu giá trị của n quá nhỏ, số lượng cây quyết định khơng đủ lớn dẫn đến thuật tốn khơng đạt được hiệu quả cao trong việc phân lớp. Các thuật tốn dạng boosting chủ yếu dựa vào việc các weak learner sửa lỗi cho nhau để đạt được accuracy cao. Việc quá ít weak learner khiến cho những thuật tốn dạng boosting khơng cịn hiệu quả quá tốt.
Hình 4.10. AdaBoost - Biểu đồ phụ thuộc giữa giá trị n và accuracy
Dựa vào đồ thị, với giá trị của n bằng 100, thuật tốn đạt giá trị của accuracy cao nhất. Như vậy, điểm local maximum là điểm mà tại đĩ giá trị của n bằng 100
4.3.1.3. Random Forest
Với thuật tốn Random Forest, việc tìm ra số lượng n decision tree tham gia vào việc phân lớp là hết sức quan trọng. Nếu giá trị của n quá nhỏ, điều này sẽ khiến cho quá trình lựa chọn ngẫu nhiên mẫu và feature khơng đạt được độ hiểu quả cao, vì cĩ thể bỏ sĩt rất nhiều mẫu và feature chưa được tham gia vào xây dựng bất kì decision tree nào.
0.9935 0.994 0.9945 0.995 0.9955 0.996 0.9965 0.997 0.9975 n = 10 n = 20 n = 30 n = 50 n = 80 n = 100 n = 150 n = 200 AdaBoost accuracy
67
Hình 4.11. Random Forest - Biểu đồ phụ thuộc giữa giá trị n và accuracy
Theo như biểu đồ trên, với n ≥ 50 giá trị accuracy của mơ hình giảm khơng đáng kể. Điều này chứng tỏ thuật tốn đạt local maximum tại điểm cĩ giá trị n bằng 50. Khi tăng giá trị của n, accuracy của mơ hình giảm rất nhỏ trong khi đĩ đồ thị đi theo chiều ngang. Khơng những thế, việc tăng giá trị của n cũng ảnh hưởng rất nhiều đến thời gian training model đồng thời khơng tiết kiệm được tài nguyên máy tính.
4.3.2 Kết quả Anomaly detection Machine Learning
Bảng 4.3 Bảng so sánh accuracy, precision, recall, f1 của các thuật tốn học máy giữa 3 bộ dữ liệu
Bộ dữ liệu Thuật tốn Accuracy Precision Recall F1
CIC IDS 2017 KNN 0.9961 0.989 0.9942 0.9916 AdaBoost 0.9972 0.9945 0.9935 0.994 Random Forest 0.9994 0.9989 0.9988 0.9988 CIC DDOS 2019 KNN 0.9921 0.981 0.9872 0.9841 AdaBoost 0.9916 0.9952 0.9912 0.9931 Random Forest 0.9991 0.9972 0.9982 0.9981 BKID DDOS 2022 (đề xuất) KNN 0.9967 0.9947 0.997 0.9981 AdaBoost 0.9976 0.9975 0.9964 0.9969 Random Forest 0.9996 0.9995 0.9994 0.9969
Dựa vào bảng kết quả so sánh, các chỉ số accuracy, precision, recall, f1 của các thuật tốn đều tăng trên bộ dữ liệu BKID DDOS 2022. Accuracy, precision và f1 của thuật tốn KNN tăng lần lượt 0.06%, 0.57% và 0.28% với CIC IDS 2017 và 0.46%, -0.14%, 0.98% với CIC-DOS-2019, đạt mức tăng cao nhất trong 3 thuật tốn kiểm thử. Recall tăng cao nhất đối với thuật tốn AdaBoost 0.29%, 0.52%
0.9993 0.99935 0.9994 0.99945 0.9995 0.99955 n = 10 n = 20 n = 30 n = 50 n = 80 n = 100 n = 150 n = 200 Random Forest accuracy
68
với bộ dữ liệu 2017, 2019. Điều này cho thấy hiệu năng của các thuật được sử dụng trên bộ dữ liệu BKID DDOS 2022 là rất cao, đặc biệt là thuật tốn Random Forest với accuracy đạt 99.96%. Như vậy bộ dữ liệu mới giảm được tỉ lệ cảnh báo lỗi của các thuật tốn đồng thời cũng cải thiện tỉ lệ dự đốn đúng nhãn so với bộ dữ liệu cũ. Hơn nữa, sự chênh lệch về accuracy, precision, recall, f1 của 3 thuật tốn cũng được thu hẹp lại. Accuracy của KNN thấp hơn 0.29% so với accuracy của Random Forest trên bộ dữ liệu đề xuất, sự chênh lệch này nhỏ hơn 0.04% và 0.41% so với trên bộ dữ liệu CIC-IDS-2017, CIC-DOS-2019. Sự chênh lệch về accuracy giữa thuật tốn AdaBoost và thuật tốn Random Forest cũng giảm 0.02% và 0.75% lần lượt với bộ dữ liệu 2017, 2019. Điều này cho phép các mơ hình AI cĩ thể sử dụng những thuật tốn đơn giản, tiết kiệm tài nguyên máy tính, thời gian training đồng thời vẫn đạt được hiệu năng sử dụng cần thiết.
Bảng 4.4 Bảng so sánh kết quả accuracy của từng loại tấn cơng
TT Loại tấn
cơng
CIC-IDS-2017 CIC-DOS-2019 BKID DDOS 2022 KNN Random Forest Ada Boots KNN Random Forest AdaBoots KNN Random Forest Ada Boots 1 Benign 0.9967 0.9997 0.9785 0.9976 0.9993 0.9645 0.9966 0.9997 0.9582 2 TCP flood 0.7039 0.7328 0.0465 0.9479 0.9562 0.0804 0.9805 0.9997 0.0769 3 UDP flood 0.7136 0.7209 0.396 0.9947 0.9996 0.8302 0.9985 0.9999 0.8580 4 HTIP flood 0.6508 0.6984 0.285 0.9746 0.9952 0.7693 0.9948 0.9948 0.8745 5 VSE 0.6692 0.6847 0.0284 0.7264 0.7409 0.0198 0.8974 0.9084 0.0274 6 TS3 0.6847 0.7078 0.0184 0.7028 0.7193 0.0211 0.8743 0.8947 0.0398 7 FIVEM 0.7104 0.7129 0.291 0.6905 0.7029 0.2852 0.8947 0.923 0.3912 8 MCPE 0.6709 0.6912 0.1027 0.7084 0.7193 0.1872 0.9682 0.9747 0.1732 9 RDP 0.6302 0.6763 0.0147 0.7047 0.7395 0.0206 0.9203 0.9374 0.3957 10 ARD 0.6593 0.6603 0.047 0.7073 0.7204 0.0399 0.9491 0.9662 0.0395 11 CLDAP 0.7084 0.7392 0.0385 0.6973 0.7001 0.0187 0.9307 0.9458 0.1832 12 CHAR 0.6508 0.6904 0.0398 0.7192 0.7793 0.0376 0.9384 0.9647 0.0893 13 MEM 0.7168 0.7328 0.0371 0.8927 0.9074 0.2048 0.9183 0.9374 0.2984 14 Dos Golden Eye 0.9811 0.9956 0.4595 0.7417 0.7792 0.1304 0.7581 0.8957 0.1702 15 Dos Hulk 0.9940 0.9991 0.6153 0.8103 0.8038 0.5934 0.9698 0.9875 0.6633 16 Dos Slow 0.9691 0.9891 0.1589 0.7798 0.7864 0.0527 0.8004 0.8911 0.0724 17 TFTP 0.8016 0.8283 0.1401 0.8937 0.9074 0.2084 0.9284 0.9482 0.2839 18 SNMP 0.6904 0.7192 0.0923 0.8948 0.9037 0.0912 0.9275 0.9411 0.1827 19 DNS 0.7603 0.7732 0.0735 0.9372 0.9498 0.1834 0.9892 0.9916 0.3793 20 MSSQL 0.7839 0.8293 0.2937 0.8704 0.9132 0.329 0.9729 0.9987 0.498 21 NetBIOS 0.7295 0.7639 0.0398 0.8949 0.9138 0.193 0.9043 0.944 0.2302 22 SSDP 0.7728 0.7899 0.0398 0.8603 0.8896 0.0367 0.9062 0.927 0.0239 23 LDAP 0.5483 0.6692 0.0381 0.7793 0.8084 0.0832 0.9402 0.9503 0.492 24 NTP 0.8083 0.8206 0.2192 0.9183 0.9394 0.2201 0.9398 0.9749 0.2474 25 PortMap 0.7608 0.8034 0.1839 0.8903 0.9231 0.4092 0.932 0.9412 0.2308
69
Dựa trên dữ liệu so sánh kết quả accuracy của từng loại tấn cơng, cĩ thể thấy việc áp dụng bộ dữ liệu BKID DDOS 2022 cho cải thiện đáng kể (~20%) với hầu hết các hình thức tấn cơng, đặc biệt với các dạng tấn cơng DDoS mới được thu mới bổ sung. Điều này giúp cho các nghiên cứu áp dụng bộ dữ liệu mới này cĩ thể phát hiện tốt được các hình thức tấn cơng mới, nhận diện tốt hơn các hình thức tấn cơng cụ thể. Trên cả 3 bộ dữ liệu, thuật tốn Random Forrest đều cho kết quả tốt nhất.
70
CHƯƠNG 5. KẾT LUẬN 5.1 Kết luận 5.1 Kết luận
Luận văn đã đưa ra một cách tổng quan về tấn cơng DDoS với các cập nhật mới nhất từ các cơng cụ tấn cơng, các kịch bản tấn cơng được tổng hợp từ báo cáo của các tổ chức lớn như Microsoft, Cloudflare cùng với quá trình kinh nghiệm khi đi xử lý tấn cơng mạng, đặc biệt tấn cơng DDoS của tác giả. Luận văn cũng đưa ra các giải pháp để xử lý DDoS, tổng quan, mơ hình hĩa các phương pháp phịng, chống tấn cơng dựa trên các nghiên cứu đi trước. Cĩ thể thấy khi mà ngăn chặn tấn cơng truyền thống, dựa vào kinh nghiệm, tri thức của chuyên gia ngày càng khĩ khăn về mặt thời gian, tính sẵn sàng và tự động hĩa ngăn chặn các hình thức tấn cơng mới thì sự cần thiết của việc ứng dụng học máy vào IDS là hết sức cần thiết.
Khi đào sâu vào vấn đề này, bên cạnh các thuật tốn thì bộ dữ liệu là vấn đề hết sức quan trọng đĩng gĩp cho khả năng nhận diện tấn cơng hiệu quả cao. Chính vì vậy, luận văn đã tổng hợp, đánh giá lại tất cả bộ dữ liệu cơng khai cĩ thể truy cập đến hiện tại, kế thừa bổ sung các khảo sát của các nhà nghiên cứu trước giúp các nhà nghiên cứu cĩ thể quan sát, cĩ các tiêu chí và phương pháp tham khảo để lựa chọn dataset phù hợp cho nghiên cứu của mình.
Trước các nhược điểm của các bộ dữ liệu đã nghiên cứu, tránh sai lệch kết quả, hay kết quả đánh giá chủ quan, luận văn tìm cách cải thiện vấn đề này dựa trên các nghiên cứu đi trước về khảo sát cũng như áp dụng các dataset đã phân tích. Về gom nhĩm, bổ sung các loại tấn cơng mới, luận văn tham khảo báo cáo từ tổ chức lớn và kinh nghiệm bản thân, các cơng cụ mã nguồn mở cĩ sẵn để gom nhĩm tổng hợp dữ liệu, xây dựng một mơ hình mạng mơ phỏng để thu được các dữ liệu tấn cơng mới. Luận văn đưa ra các giải pháp , nghiên cứu giải quyết các vấn đề của cơng việc trước đĩ bằng cách đề xuất một tập dữ liệu mới chỉ tập trung vào các cuộc tấn cơng DDoS và cập nhật các kỹ thuật tấn cơng DDoS mới nhất. Ngồi ra, bộ dữ liệu này tối ưu hĩa và giải quyết sự mất cân bằng lớp khơng chỉ giữa lưu lượng truy cập bình thường và lưu lượng truy cập bất thường mà cịn xen kẽ các kiểu tấn cơng của 2 tập dữ liệu nổi tiếng trước đĩ là CIC-IDS-2017 và CIC- DOS-2019 bằng cách kết hợp và tối ưu hĩa 2 dataset và tăng các mẫu lưu lượng mạng độc hại. Độ chính xác của 3 thuật tốn học máy trên bộ dữ liệu mới (BKID 2022) cũng được đánh giá và đưa ra các tối ưu trong lựa chọn tham số.
5.2 Hướng phát triển của luận văn trong tương lai
Vì thời gian và kinh nghiệm bản thân cĩ hạn, luận văn cịn nhiều khuyết điểm thiếu sĩt cần cải thiện. Trong tương lai, tác giả mong muốn cĩ thể mở rộng tập dữ liệu DDoS này hồn thiện hơn nữa.
Về kỹ thuật tấn cơng, tác giả mong muốn bổ sung lưu lượng truy cập DDOS For Hire trong thế giới thực (cần thêm xác nhận của nhà cung cấp dịch vụ cho nghiên cứu này) để phản ánh cuộc tấn cơng DDoS for Hire với chi phí thấp và các kỹ thuật tấn cơng liên tục cập nhật. Ngồi ra cũng bổ sung thêm các kỹ thuật tấn cơng mới trong quá trình xử lý thực tế. Ngồi ra, cũng như báo cáo của Microsoft
71
[7] về thời lượng của các cuộc tấn cơng diễn ra theo các đợt sĩng ngắn. Luận văn cũng mong muốn cĩ thể nghiên cứu, xử lý các vấn đề này
Về kỹ thuật học máy, tác giả cũng mong muốn tìm hiểu và cải thiện để tối ưu hĩa tập dữ liệu cho các thuật tốn học sâu trong việc tự động lựa chọn feature. Tối ưu thêm với các thuật tốn học máy khác để tối ưu thời gian, hiệu năng tính tốn. Đi sâu thêm việc kết hợp các thuật tốn với nhau để tạo thành các hệ thống bảo mật mạng nhiều lớp, thay đổi thuật tốn khi qua các mơi trường mạng khác nhau. Về kỹ thuật thu dữ liệu, tác giả cũng sẽ xem xét cơng cụ LycoSTand [18] để cải thiện nhược điểm của CICFlowmeter khi thu thập các tính năng trích xuất từ lưu lượng tấn cơng PCAP. Ngồi ra, mơ hình mạng giả lập khi thu cũng cần được cải thiện đa dạng hơn, sát hơn với mơi trường các dịch vụ trong thực tế.
72
TÀI LIỆU THAM KHẢO
1. Cisco Annual Internet Report - Cisco Annual Internet Report(2018–2023) White
Paper,Cisco, https://www.cisco.com/c/en/us/solutions/collateral/executive-
perspectives/annual-internet-report/white-paper-c11-741490.html
2. M. Antonakakis, T. April, M. Bailey, M. Bernhard, andE. Bursztein,Understanding the Mirai Botnet, p. 19.
3. C. Kolias, G. Kambourakis, A. Stavrou, and J. Voas, “DDoS in the IoT: mirai and other botnets,”Computer, vol. 50, no. 7,pp. 80–84, 2017
4. DoS Glossary, https://www.cloudflare.com/en-in/learning/ddos/glossary/denial-of- service/. Last accessed April 2022.
5. DDoS Glossary, https://www.cloudflare.com/en-in/learning/ddos/what-is-a-ddos- attack/. Last accessed April 2022.
6. K. Zetter, “Inside the cunning, unprecedented hack of ukraine’s power grid,” Mar
2016. [Online]. Available: https://www.wired.com/2016/03/inside-cunning-
unprecedented-hack-ukraines-power-grid/
7. Azure DDoS Protection 2021 Q3 and Q4 DDoS attack trends,
https://azure.microsoft.com/en-us/blog/azure-ddos-protection-2021-q3-and-q4-ddos- attack-trends/. Last accessed April 2022.
8. C. Dartigue, H. I. Jang, and W. Zeng, “A new data-mining basedapproach for network intrusion detection,” in 2009 Seventh AnnualCommunication Networks and Services Research Conference.IEEE,2009, pp. 372–377.
9. R. Malhotra and S. Kamal, “An empirical study to investigate oversampling methods for improving software defect prediction using imbalanced data,” Neurocomputing, vol. 343, pp. 120–140, 2019, doi: 10.1016/j.neucom.2018.04.090 10. N. T. Anh, L. H. Hoang, V. D. Minh and T. H. Hai, "BKID - A New Intrusion Detection Dataset To Mitigate The Class Imbalance Problem," 2021 15th International Conference on Advanced Computing and Applications (ACOMP), 2021, pp. 106-111, doi: 10.1109/ACOMP53746.2021.00021.
11. S. S. Gopalan, D. Ravikumar, D. Linekar, A. Raza and M. Hasib, "Balancing Approaches towards ML for IDS: A Survey for the CSE-CIC IDS Dataset," 2020 International Conference on Communications, Signal Processing, and their Applications (ICCSPA), 2021, pp. 1-6, doi: 10.1109/ICCSPA49915.2021.9385742. 12. DARPA Dataset [Online]. Available: https://www.ll.mit.edu/r-d/datasets
13. KDDCUP’99 - http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html
14. Jindal, Rishabh & Anwar, Adnan. (2021). Emerging Trends of Recently Published Datasets for Intrusion Detection Systems (IDS): A Survey.
15. Ring, M. et al.: A Survey of Network-based Intrusion Detection Data Sets. Computers & Security. 86, 147–167 (2019).
16. I. Sharafaldin, A.Habibi L.Saqib Hakak, and A. Ghorbani, "Developing Realistic Distributed Denial of Service (DDoS) Attack Dataset and Taxonomy", IEEE 53rd International Carnahan Conference on Security Technology, Chennai, India, 2019. 17. CICDDoS2019 - https://www.unb.ca/cic/datasets/ddos-2019.html Last accessed
April 2022.
18. Rosay, Arnaud & Cheval, Elọse & Carlier, Florent & Pascal, Leroux. (2022). Network Intrusion Detection: A Comprehensive Analysis of CIC-IDS-2017 . 10.5220/0000157000003120.
19. M. Ring, S. Wunderlich, D. Scheuring, D. Landes, and A. Hotho. "A survey of network-based intrusion detection data sets." Computers & Security 86 (2019):147- 167.
20. Can, Duy-Cat & Le, Hoang-Quynh & Ha, Quang. (2021). Detection of Distributed Denial of Service Attacks Using Automatic Feature Selection with Enhancement for Imbalance Da-taset. 10.1007/978-3-030-73280-6_31.
73 21. Ivandro Ortet Lopes, Deqing Zou, Francis A Ruambo, Saeed Akbar, Bin Yuan, "Towards Effective Detection of Recent DDoS Attacks: A Deep Learning Approach", Security and Communication Networks, vol. 2021, Article ID 5710028, 14 pages, 2021.
22. Ullah, S.; Khan, M.A.; Ahmad, J.; Jamal, S.S.; e Huma, Z.; Hassan, M.T.; Pitropakis, N.; Arshad; Buchanan, W.J. HDL-IDS: A Hybrid Deep Learning Architecture for Intrusion Detection in the Internet of Vehicles. Sensors 2022, 22, 1340.
23. Habibi Lashkari, Arash. (2018). CICFlowmeter-V4.0 (formerly known as
ISCXFlowMeter) is a network traffic Bi-flow generator and analyser for anomaly detection. https://github.com/ISCX/CICFlowMeter. 10.13140/RG.2.2.13827.20003 24. Seifousadati, Alireza & Ghasemshirazi, Saeid & Fathian, Mohammad. (2021). A
Machine Learning Approach for DDoS Detection on IoT Devices.
25. S. T. Zargar, J. Joshi and D. Tipper, "A Survey of Defense Mechanisms Against Distributed Denial of Service (DDoS) Flooding Attacks," in IEEE Communications Surveys & Tutorials, vol. 15, no. 4, pp. 2046-2069, Fourth Quarter 2013, doi: 10.1109/SURV.2013.031413.00127.
26. G, Dileep & Rao, Chakunta & Singh, Manoj & Satyanarayana, Gubbala. (2013). A Survey on Defense Mechanisms countering DDoS Attacks in the Network. International Journal of Advanced Research in Computer and Communication Engineering (IJARCCE). 2. 2599-2606.
27. Soner Yıldırım, Common Machine Learning Algorithms,
https://towardsdatascience.com/11-most-common-machine-learning-algorithms- explained-in-a-nutshell-cc6e98df93be
28. Gupta, Brij B., and Amrita Dahiya. Distributed Denial of Service (DDoS) Attacks: Classification, Attacks, Challenges and Countermeasures. CRC press, 2021.