Tổng quan và đánh giá các dataset hiện cĩ

Một phần của tài liệu Nghiên cứu phương pháp phòng chống tấn công ddos (Trang 57 - 60)

CHƯƠNG 1 GIỚI THIỆU ĐỀ TÀI

3.4 Tổng quan và đánh giá các dataset hiện cĩ

Đã cĩ nhiều bộ dữ liệu về xâm nhập mạng cho các mơ hình học máy đã được đưa vào trong những năm qua. Bảng so sánh, đánh giá chi tiết về các bộ dữ liệu cĩ thể xem ở bảng 3.5. Dưới đây là tĩm tắt một số bộ Dataset nổi bật nhất.

3.4.1 DARPA 1998

DARPA 1998 [12] là tập dữ liệu IDS cĩ sẵn đầu tiên được giới thiệu. DARPA 1998, mặc dù là một tập dữ liệu chuẩn quan trọng vào thời điểm đĩ, nhưng cĩ độ chính xác thấp và khơng đủ khả năng sao chép lưu lượng mạng theo thời gian thực. Đây là những dataset rất nổi tiếng được dùng cho Intrusion Detection System (IDS). Tuy nhiên vì được sinh ra một cách nhân tạo, những dataset này bị chỉ trích là thiếu chính xác do khơng cĩ đủ các thành phần của một traffic thực tế .

3.4.2 KDD 1999

KDD99 [13] được giới thiệu vào năm 1999 như một bản nâng cấp của DARPA 98. KDD99 được sử dụng cho Cuộc thi Cơng cụ Khai thác Dữ liệu và Khám phá Kiến thức Quốc tế lần thứ ba (The Third International Knowledge Discovery and Data Mining Tools Competition). Các bản ghi tấn cơng trong KDD99 được chia

46

thành 4 loại (ví dụ: DoS, Probe, U2R và R2L) và tập dữ liệu chứa 22 kiểu tấn cơng khác nhau[13]. Mặc dù phổ biến trong lĩnh vực an ninh mạng, KDD99 nhanh chĩng trở nên lỗi thời; tập dữ liệu thiếu hồ sơ về các cuộc tấn cơng phần mềm độc hại gần đây, cĩ số lượng gĩi tin trùng lặp cao và cĩ vấn đề mất cân bằng lớp. Các nhà nghiên cứu tại Đại học New Brunswick đã xuất bản tập dữ liệu NSL-KDD như một phiên bản KDD99 được tối ưu hĩa cao để giải quyết những sai sĩt này. NSL- KDD làm giảm sự thiên vị trong hệ thống đào tạo bằng cách loại bỏ các gĩi tin trùng lặp được tìm thấy trong KDD99 và đã tạo ra các kết quả đánh giá nhất quán và tương tự kể từ khi được phát hành [10].

3.4.3 ISCX2012

Đây là một dataset được tạo một cách khá chi tiết khi tác giả sử dụng kỹ thuật tiên tiến để tạo ra traffic thực tế. Tuy nhiên dataset này cĩ một nhược điểm cực kỳ lớn là khơng gồm những protocol thường được sử dụng ở thời điểm hiện tại, ví dụ như chỉ bao gồm HTTP mà khơng cĩ HTTPS .

3.4.4 UNSW-NB15

Dây là một dataset mới được tạo cách đây khơng lâu, bao gồm cả attack traffic và normal traffic. Các loại hình thức tấn cơng trong dataset này bao gồm Backdoor, DoS, Exploits, Fuzzers, Shellcode… Vì cĩ chứa traffic của nhiều loại hình tấn cơng, dataset được coi tồn diện hơn cho việc đánh giá các biện pháp IDS khi so sánh với các dataset trước đĩ . Tuy nhiên dataset này cĩ một nhược điểm là sự mất cân bằng giữa normal traffic và attack traffic khi normal traffic chiếm tới 87% của dataset .

3.4.5 CIC-IDS-2017

CIC-IDS-2017 được xuất bản năm 2017 bởi Viện An ninh mạng Canada (CIC) tại Đại học New Brunswick là một bộ dữ liệu IDS tương đối đầy đủ và chính xác cho đào tạo mơ hình bằng cách xem xét nhiều bộ dữ liệu IDS và đánh giá dựa trên 11 tiêu chí. Bộ dữ liệu được rất nhiều nhà nghiên cứu trên thế giới sử dụng để kiểm thử mơ hình đã cho thấy được mức độ độ tin cậy và phổ biến của nĩ.

Tuy nhiên, cĩ một vài thiếu sĩt trên tập dữ liệu này, đĩ là các mất cân bằng cao, nhiều mẫu bị thiếu giá trị, một số tính năng trích xuất từ tệp PCAP được tính tốn kém và cĩ thể ảnh hưởng đến hiệu suất của các thuật tốn ML [18]. Hạn chế chính của bộ dữ liệu này là tỷ lệ tấn cơng mạng rất mất cân đối: lưu lượng mạng lành tính chiếm 77% và lưu lượng tấn cơng mạng DoS chiếm 23% tổng số mẫu. Mặc dù cĩ 4 kiểu tấn cơng DoS hiện diện trong tập dữ liệu, nhưng kiểu DoS hulk chiếm hơn 60% tổng lưu lượng tấn cơng. Do đĩ, các mơ hình học máy được đào tạo trên tập dữ liệu này cĩ thể khơng phát hiện được các kiểu tấn cơng DoS khác với độ chính xác cao [10]

47

Bảng 3.1 Phân phối tần suất các nhãn trong CIC-IDS-2017

CIC-IDS-2017 Traffic Số lần xuất hiện % BENIGN 2,273,097 80.30% Bot 1,966 0.07% DDoS 128,027 4.52%

DoS Golden Eye 10,293 0.36%

Dos Hulk 231,073 8.16% Dos Slowhttptest 5,499 0.19% Dos Slowloris 5,796 0.20% FTP-PATATOR 7,938 0.28% Heartbleed 11 0.00% Infiltration 36 0.00% Portscan 158,930 5.61% SSH-PATATOR 5,897 0.21% WebAttack BruteForce 1,507 0.05% WebAttack SQL Injection 21 0.00% WebAttack XSS 652 0.02% Tổng 2,830,743

Điều này dẫn đến mơ hình tập trung quá lớn vào việc phân loại tấn cơng hulk, khơng phù hợp với các hạ tầng mạng khác nhau khi mà attacker tại mỗi mục tiêu lại tập trung tấn cơng theo một cách khác nhau. Hơn nữa, các dạng tấn cơng trong bộ dữ liệu chưa đa dạng, địi hỏi phải cĩ những giải pháp để khắc phục các nhược

điểm trên.

3.4.6 CICDDoS2019

CIC-DDoS-2019 là tập dữ liệu DDoS mới nhất. Hơn nữa, bộ dữ liệu này cũng bao gồm các loại tấn cơng DDoS khác nhau bao gồm tấn cơng dựa trên Phản xạ (DNS, LDAP, MSSQL, SSDP, NTP, ...) và tấn cơng dựa trên khai thác (UDP flood, SYN Flood, UDP-lag). Tuy nhiên, dữ liệu này vẫn là một tập dữ liệu mất cân bằng và thiếu các kỹ thuật tấn cơng mới [20] [21] [22].

48

Bảng 3.2 Phân phối tần suất các nhãn trong CIC-IDS-2019

CIC-DOS-2019 Traffic Số lần xuất hiện % BENIGN 4,754 0.18% TFTP 975,826 37.60% DrDoS_SNMP 257,240 9.91% DrDoS_DNS 245,654 9.47% Syn 228,521 8.81% DrDoS_MSSQL 220,052 8.48% DrDoS_NetBIOS 198,815 7.66% UDP 159,751 6.16% DrDoS_SSDP 128,614 4.96% DrDoS_LDAP DrDos_NTP Portmap UDPLag Tổng 2,594,969

Ngồi ra, các tác giả của [18] cơng bố năm 2022 về phân tích chi tiết tập dữ liệu CIC-IDS-2017 và báo cáo một số vấn đề phát hiện ra trong các luồng được trích xuất từ các gĩi mạng và đề xuất một cơng cụ trích xuất tính năng mới cĩ tên LycoSTand, cĩ sẵn dưới dạng mã nguồn mở. Nghiên cứu này đã chỉ ra một số vấn đề trong tệp csv của tập dữ liệu như trùng lặp tính năng, tính tốn sai tính năng, phát hiện sai giao thức, chấm dứt phiên TCP đầy đủ và vấn đề gắn nhãn. Tuy nhiên, để áp dụng phương pháp của tác giả cho các Dataset mới hơn như CIC-DOS-2019 thì cần nhiều thời gian và tính tốn. Ngồi ra, nghiên cứu này cũng tập trung vào việc xác định chung các kiểu tấn cơng trong IDS từ Bộ dữ liệu CIC-IDS-2017 bằng cách cải thiện độ tin cậy của các tính năng, bộ dữ liệu này khơng giải quyết được vấn đề mất cân bằng trong các kiểu tấn cơng hoặc và tập trung vào khả năng để phát hiện cuộc tấn cơng DdoS mới. Tuy nhiên, đây sẽ là hướng cải tiến trong tương lai của nhĩm nghiên cứu, nhằm nâng cao chất lượng của bộ dữ liệu gốc cũng như khắc phục nhược điểm của cơng cụ CICFlowMeter khi thu thập dữ liệu tấn cơng.

Một phần của tài liệu Nghiên cứu phương pháp phòng chống tấn công ddos (Trang 57 - 60)