CHƯƠNG 2 CƠ SỞ LÝ THUYẾT
2.2. Tập dữ liệu sử dụng cho các IDS
Nhiệm vụ của học máy là trích xuất thơng tin cĩ giá trị từ dữ liệu; do đĩ, hiệu suất của học máy phụ thuộc vào chất lượng của dữ liệu đầu vào. Hiểu dữ liệu là cơ sở của phương pháp học máy. Đối với IDS, dữ liệu được chấp nhận phải dễ dàng cĩ được và phản ánh các hành vi của máy chủ hoặc mạng. Các kiểu dữ liệu nguồn phổ biến cho IDS là các gĩi, luồng, phiên và nhật ký. Xây dựng một bộ dữ liệu là phức tạp và tốn thời gian. Sau khi một bộ dữ liệu điểm chuẩn được xây dựng, nĩ cĩ thể được sử dụng lại nhiều lần bởi nhiều nhà nghiên cứu. Ngồi sự thuận tiện, cĩ hai lợi ích khác của việc sử dụng bộ dữ liệu điểm chuẩn.
(1) Các bộ dữ liệu điểm chuẩn cĩ thẩm quyền và làm cho kết quả thử nghiệm trở nên thuyết phục hơn.
(2) Nhiều nghiên cứu được cơng bố đã được thực hiện bằng cách sử dụng bộ dữ liệu điểm chuẩn chung, cho phép so sánh kết quả nghiên cứu mới với kết quả nghiên cứu mới nghiên cứu trước đây.
Hình 2.12. Tập dữ liệu đang được sử dụng trong nghiên cứu IDS từ 2015 - 2018 Tập dữ liệu NSL-KDD được phát triển vào năm 2009, nhưng nĩ thực sự là Tập dữ liệu NSL-KDD được phát triển vào năm 2009, nhưng nĩ thực sự là phiên bản cải tiến của tập dữ liệu KDDCup99. NSL-KDD cố gắng cải thiện tập dữ liệu KDDCup99 bằng cách xĩa các bản ghi dư thừa, bao gồm số lượng ví dụ mất cân bằng và sự đa dạng của các lớp tấn cơng [12]. Tuy nhiên, nĩ vẫn kế thừa giới hạn cơ bản của tập dữ liệu.
KDDCup99 cĩ nhiều nhược điểm. Đầu tiên, tập dữ liệu này được phát triển vào năm 1999 bằng cách sử dụng hệ điều hành dựa trên Solaris để thu thập một loạt dữ liệu do triển khai dễ dàng. Tuy nhiên, cĩ những khác biệt đáng kể trong các hệ điều hành ngày nay gần giống với Solaris. Trong thời đại của Ubuntu, Windows và MAC, Solaris gần như khơng cĩ thị phần.
Thứ hai, trình thu thập lưu lượng được sử dụng trong tập dữ liệu KDD, TCPdump, rất cĩ khả năng bị quá tải và làm rơi các gĩi từ tải lưu lượng lớn. Quan trọng hơn, cĩ một số nhầm lẫn về phân phối tấn cơng của các tập dữ liệu này. Theo phân tích tấn cơng, thăm dị khơng phải là một cuộc tấn cơng trừ khi số lần lặp vượt quá một ngưỡng cụ thể, trong khi sự khơng nhất quán nhãn đã được báo cáo [13].
Thứ ba, sự xuất hiện của các cơng nghệ mới như điện tốn đám mây, phương tiện truyền thơng xã hội và internet vạn vật đã thay đổi mạnh mẽ cơ sở hạ tầng mạng. Những thay đổi này cũng sẽ dẫn đến các loại mối đe dọa mới.
23%
38% 6%
23%
21%
Hai tập dữ liệu phổ biến khác là ISCX 2012 và UNSW-NB15. ISCX 2012 là tập dữ liệu được tạo bởi Trung tâm bảo mật thơng tin xuất sắc (ISCX) tại Đại học New Brunswick vào năm 2012. Tập dữ liệu này bao gồm bảy ngày dữ liệu với nhãn mác bình thường (một) hoặc tấn cơng (hai). Tập dữ liệu khơng cĩ phân loại các loại tấn cơng, do đĩ nĩ sẽ chỉ cung cấp phân loại nhị phân. Tuy nhiên, tập dữ liệu này khơng cịn cĩ sẵn. Điều này là do trung tâm đã tạo ra một tập dữ liệu mới, được gọi là CICIDS2017 [14].
Một tập dữ liệu phổ biến khác là UNSW-NB15, tập dữ liệu này được tạo bởi Trung tâm An ninh mạng (ACCS) của Úc bằng cách sử dụng IXIA PerfectStorm để tạo ra chín loại tấn cơng. Chín loại tấn cơng này là fuzzers, analysis, backdoors, DoS, exploits, generic, reconnaissance, shellcode và worms. Tập dữ liệu cĩ tổng cộng 47 thuộc tính với hai nhãn. Nhãn đầu tiên được đặt tên là ‘label’, trong đĩ số 0 biểu thị bình thường và 1 biểu thị cho một cuộc tấn cơng. Nhãn thứ hai được đặt tên là ‘attack_cat’, cung cấp loại tấn cơng [15].