GIỚI THIỆU ĐỀ TÀI
Tính cấp thiết và lý do chọn đề tài
Trong bối cảnh công nghệ 4.0 phát triển mạnh mẽ, lĩnh vực công nghệ thông tin và truyền thông đã mang lại nhiều lợi ích cho các cơ quan, tổ chức trong các lĩnh vực chính trị, kinh tế và xã hội Tuy nhiên, bên cạnh những lợi ích đó, các tổ chức cũng phải đối mặt với nhiều rủi ro, đặc biệt là nguy cơ mất an toàn thông tin Cuộc tấn công mạng, đặc biệt là các cuộc tấn công từ chối dịch vụ phân tán (DDoS), đang trở thành một mối đe dọa lớn Những cuộc tấn công DDoS quy mô lớn có thể làm gián đoạn hoạt động của các tổ chức, gây thiệt hại kinh tế nghiêm trọng, ảnh hưởng đến uy tín và hạ tầng mạng của quốc gia, cũng như làm ảnh hưởng đến công tác chỉ đạo của Chính phủ và các hạ tầng trọng yếu như hệ thống cung cấp điện, nước, giao thông và tài chính, từ đó đe dọa đến trật tự an toàn xã hội, quốc phòng và an ninh trong thời đại chuyển đổi số hiện nay.
Kỹ thuật tấn công DDoS ngày nay rất dễ triển khai, cho phép kẻ tấn công chỉ cần vài thao tác để làm tê liệt website hoặc hệ thống mạng của tổ chức Để đối phó với sự phát triển của các phương thức tấn công mạng, các kỹ thuật phòng thủ cũng được cập nhật liên tục bởi các chuyên gia và tổ chức trong lĩnh vực an ninh mạng Một trong những giải pháp hiệu quả là hệ thống phát hiện xâm nhập (IDS), hiện đang được áp dụng rộng rãi trong các mô hình mạng hiện đại để phòng chống tấn công DDoS.
Giải pháp hiện tại gặp khó khăn do yêu cầu cao về tương tác, kinh nghiệm và tri thức của chuyên gia Việc tích hợp trí tuệ nhân tạo (AI) vào hệ thống IDS là bước tiến quan trọng, giúp tối ưu hóa hiệu suất và phát hiện các tấn công phức tạp mà không cần nhiều nhân lực Tuy nhiên, một thách thức lớn là bộ dữ liệu huấn luyện AI thường được xây dựng trên mô hình mạng giả lập, không phản ánh chính xác thực tế, dẫn đến khả năng phát hiện tấn công không đồng nhất trong các môi trường khác nhau, làm giảm tính ứng dụng rộng rãi.
Tác giả lựa chọn đề tài “Nghiên cứu về các giải pháp phòng, chống tấn công DDOS” nhằm tập trung vào việc giải quyết vấn đề cốt lõi liên quan đến Dataset cho thuật toán học máy Mục tiêu là phát triển giải pháp phát hiện tấn công DoS/DDOS một cách chủ động và tối ưu nhất.
Mục tiêu và phạm vi của đề tài
Học máy và nghiên cứu trí tuệ nhân tạo đã có những bước tiến vượt bậc trong những năm gần đây, tạo điều kiện cho sự phát triển của các công nghệ phát hiện xâm nhập tự động hóa thông qua A.I Điều này giúp giảm thiểu sự phụ thuộc vào con người và tiết kiệm thời gian đáng kể.
Tính sẵn có của dữ liệu là một yếu tố quan trọng nhưng vẫn còn hạn chế trong nghiên cứu, đặc biệt là do thiếu hụt các bộ dữ liệu IDS chất lượng tốt về cả số lượng lẫn chất lượng Các bộ dữ liệu liên quan đến tấn công DDoS cũng khan hiếm hơn so với các hình thức tấn công khác Nghiên cứu này nhằm mục đích đánh giá các bộ dữ liệu tấn công DDoS hiện có, cũng như phân tích và đánh giá hiệu quả của chúng trong việc phân loại lưu lượng mạng thành độc hại hoặc lành tính.
Trong luận văn này, một mô hình giả lập tấn công DoS/DDOS được đề xuất nhằm thu thập dữ liệu kết hợp với các bộ dữ liệu uy tín, tạo ra bộ dữ liệu chuyên dụng mới về tấn công DoS/DDOS Mô hình này khắc phục nhược điểm về sự mất cân bằng giữa dữ liệu tấn công và dữ liệu lành tính, đồng thời bổ sung thêm các dạng tấn công cho bộ dữ liệu đã biết Luận văn cũng đưa ra giải pháp hiệu quả để xây dựng thuật toán AI phù hợp với từng đặc điểm của hệ thống mạng thông qua việc điều chỉnh phân bố lưu lượng các dạng tấn công Các thuật toán machine learning được áp dụng để kiểm thử hiệu năng của bộ dữ liệu mới và so sánh với các bộ dữ liệu trước đó.
Các mục tiêu cụ thể của luận văn:
Đến năm 2022, việc phân tích và đánh giá các bộ dữ liệu phát hiện tấn công DDoS cho thấy mỗi bộ dữ liệu đều có những điểm mạnh và điểm yếu riêng Một số bộ dữ liệu cung cấp thông tin chi tiết và phong phú, trong khi những bộ khác có thể thiếu tính đại diện hoặc không cập nhật kịp thời Do đó, việc xây dựng một bộ dữ liệu mới là cần thiết để cải thiện độ chính xác và hiệu quả trong việc phát hiện các tấn công DDoS, đồng thời đáp ứng nhu cầu ngày càng cao trong lĩnh vực an ninh mạng.
Chúng tôi sẽ xây dựng và đề xuất một bộ dữ liệu mới nhằm giải quyết các vấn đề đã được phân tích Bộ dữ liệu này sẽ được tạo ra thông qua việc thu thập và gán nhãn các dữ liệu tấn công phổ biến gần đây trong mô hình mạng giả lập, đồng thời kết hợp với các bộ dữ liệu cũ để nâng cao hiệu quả phân tích.
Xây dựng mô hình kiểm thử bộ dữ liệu sử dụng các thuật toán học máy giúp đánh giá chất lượng dữ liệu và phát triển mô hình học phù hợp Quá trình này bao gồm việc gán nhãn cho dữ liệu theo các loại lưu lượng mạng, phân loại thành độc hại hoặc lành tính.
Đánh giá kết quả của các mô hình học máy là bước quan trọng để tối ưu hóa lựa chọn tham số Phân tích và đánh giá độ chính xác trong khả năng phát hiện xâm nhập của bộ dữ liệu sẽ dựa trên các kết quả đã đạt được, từ đó nâng cao hiệu quả của các mô hình này.
Hình 1.1 Tổng quan về giải pháp đề xuẩt
Ý nghĩa của luận văn và kết quả mong muốn
Luận văn này mang lại ý nghĩa khoa học quan trọng cho cộng đồng nghiên cứu, cung cấp tài liệu tham khảo hữu ích để lựa chọn các bộ Dataset phù hợp và cải thiện thuật toán học máy Điều này góp phần nâng cao hiệu quả và độ chính xác trong việc phát hiện và phòng chống tấn công DDoS, đồng thời trả lời các câu hỏi liên quan đến vấn đề này.
Hiệu quả của các loại dataset hiện nay trong việc phát hiện tấn công và đánh giá hiệu suất của các mô hình học tập có giám sát khác nhau là rất quan trọng Việc đóng góp một bộ dữ liệu mới, cân bằng sẽ giúp cải thiện những vấn đề bất cập của các bộ dữ liệu cũ Đặc biệt trong lĩnh vực an ninh thông tin, việc phát hiện và phòng chống tấn công DDoS là một chủ đề nổi bật Tác giả cũng đã gửi công trình nghiên cứu chính của mình đến hội thảo quốc gia “Công nghệ thông tin và ứng dụng trong các lĩnh vực” CITA 2022 với tiêu đề: “BKIDSet”.
2022 - Toward Generating a new DDoS Intrusion Detection Dataset”, hiện đang trong giai đoạn xét duyệt
Hiện nay, tấn công DoS/DDOS đang gia tăng và gây ra nhiều hậu quả nghiêm trọng, vì vậy nghiên cứu về phương pháp phát hiện và phòng chống loại tấn công này là rất cần thiết Các nghiên cứu hiện tại vẫn tiếp tục khẳng định tính phổ biến của tấn công DoS/DDOS, đặt ra thách thức cho việc phát triển các giải pháp hiệu quả nhằm bảo vệ hệ thống mạng.
Hiện nay, công nghệ trí tuệ nhân tạo và học máy đang đóng vai trò quan trọng trong việc giải quyết các vấn đề an ninh mạng, đặc biệt là trong việc phát hiện các cuộc tấn công từ chối dịch vụ DoS/DDOS Việc áp dụng các thuật toán này giúp bảo vệ các thiết bị kết nối Internet, đồng thời giúp các chuyên gia quản trị mạng luôn chủ động đối phó với những cuộc tấn công ngày càng tinh vi Tuy nhiên, thách thức lớn nhất trong việc nhận diện bằng học máy là phụ thuộc vào chất lượng bộ dữ liệu Do đó, việc lựa chọn và cải tiến bộ dữ liệu phù hợp sẽ nâng cao hiệu quả dạy cho các thuật toán học máy, từ đó cải thiện chất lượng phát hiện các cuộc tấn công.
Cấu trúc của luận văn
Từ nội dung nghiên cứu đã thực hiện, kết quả nghiên cứu sẽ được trình bày trong luận văn theo cấu trúc như sau:
Chương 1, luận văn trình bày tóm tắt về đề tài, mục tiêu phạm vi và ý nghĩa của luận văn
Trong chương 2, luận văn cung cấp các kiến thức cơ bản về
• Tổng quan về tấn công từ chối dịch vụ DDoS quá khứ, hiện tại, tương lai
• Các loại hình tấn công DoS/DDOS phổ biến;
• Các công cụ tấn công DoS/DDOS;
• Những thách thức trong việc phát hiện DoS/DDOS hiện nay;
• Tổng quan về các phương pháp phòng chống tấn công DoS/DDOS
• Hiểu về học máy Ý nghĩa và mục đích của việc áp dụng học máy;
• Các thuật toán học máy đang được sử dụng nhiều hiện nay trong việc phát hiện tấn công DDoS;
Trong chương 3, luận văn cung cấp các kiến thức cơ bản về:
• Tổng quan về Dataset, các loại dữ liệu và mô hình các đặc tính cần đánh giá của Dataset
• Hiểu về các nguồn dữ liệu của Dataset, đánh giá các Dataset công khai hiện nay
• Đánh giá các phương pháp xây dựng hiện có và phương án đề xuất lựa chọn Dataset hiệu quả
Trong chương 4, luận văn trình bày phương pháp xây dựng Dataset mới và mô hình đề xuất từ kiến trúc mạng mô phỏng cùng các kịch bản tấn công Bài viết cũng đề cập đến quy trình xử lý dữ liệu kiểm thử và dữ liệu luyện tập cho mô hình học máy Cuối cùng, chương này đưa ra kết luận về kết quả thử nghiệm của các thuật toán với bộ dữ liệu mới so với các bộ dữ liệu trước đó, đồng thời so sánh và đánh giá sự phù hợp của các thuật toán với các bộ dữ liệu khác nhau.
Trong chương 5, luận văn sẽ tóm tắt các công việc đã thực hiện, cung cấp những nhận định tổng quát và đề xuất các hướng phát triển trong tương lai.
TỔNG QUAN VỀ TẤN CÔNG VÀ PHÒNG CHỐNG TẤN CÔNG DDOS
Tổng quan về tấn công từ chối dịch vụ DDoS
2.1.1 Tấn công DDoS quá khứ, hiện tại và tương lai
Mối đe dọa từ các cuộc tấn công mạng đang gia tăng mạnh mẽ trong bối cảnh chuyển đổi số diễn ra trên toàn cầu, đặc biệt sau đại dịch Covid-19 Số lượng và kỹ thuật tấn công mạng liên tục thay đổi, trong khi sự phát triển của công nghệ như 5G và Internet vạn vật (IoT) đã dẫn đến sự gia tăng khổng lồ trong việc truyền dữ liệu Dự kiến đến năm 2023, số lượng thiết bị IoT trên thế giới có thể đạt 29,3 tỷ, gấp ba lần dân số hiện tại, tạo ra nguy cơ lớn do thiếu các biện pháp bảo mật hiệu quả Các thiết bị IoT trở thành công cụ hỗ trợ mạnh mẽ cho các cuộc tấn công mạng, đặc biệt là các cuộc tấn công DDoS, mà có thể được hình dung như một vụ tắc đường khiến giao thông bị tê liệt.
Hình 2.1 Minh họa về tấn công DDoS [5]
Tấn công từ chối dịch vụ (DoS) là một hình thức tấn công mạng phổ biến, trong đó kẻ tấn công gửi lượng lớn lưu lượng mạng đến máy chủ hoặc hệ thống mạng, làm cho chúng không thể cung cấp dịch vụ cho người dùng hợp lệ Các cuộc tấn công DoS thường nhắm vào các máy chủ ảo (VPS) hoặc Web Server của các doanh nghiệp lớn như ngân hàng, chính phủ và các trang thương mại điện tử Một trong những thách thức lớn trong việc ngăn chặn các cuộc tấn công này là lưu lượng mạng giả mạo rất giống với lưu lượng truy cập hợp lệ, khiến cho việc phát hiện và xử lý trở nên khó khăn hơn.
Sử dụng các gói tin với địa chỉ IP nguồn giả mạo có thể làm cho các hệ thống tường lửa mất khả năng thiết lập các quy tắc bảo mật hiệu quả.
Các cuộc tấn công DoS thường xuất phát từ một máy tấn công với nguồn tài nguyên hạn chế, dẫn đến việc thực hiện tấn công diễn ra chậm Điều này cho phép các hệ thống phát hiện tấn công dựa trên tập luật có khả năng chặn đứng những cuộc tấn công này hiệu quả.
Tấn công DDoS, một hình thức của tấn công DoS, xảy ra khi kẻ tấn công sử dụng nhiều thiết bị máy tính để làm gián đoạn lưu lượng truy cập của nạn nhân DDoS (Distributed Denial of Service) tương tự như tấn công DoS, nhưng lưu lượng tấn công gửi đến server tăng lên đáng kể Thay vì gửi trực tiếp các gói tin tấn công, kẻ tấn công điều khiển một mạng lưới máy tính bị nhiễm mã độc, gọi là máy tính zombie, để phát động tấn công Những máy tính này nhận lệnh từ kẻ tấn công và gửi gói tin đến nạn nhân, dẫn đến tình trạng tràn bộ nhớ đệm và đóng băng tài nguyên Do lưu lượng tấn công đến từ nhiều máy tính khác nhau, việc phòng chống và ngăn chặn các cuộc tấn công DDoS trở nên rất khó khăn.
Hình 2.2 Sự khác biệt giữa DoS và DDoS [5]
Tấn công DDoS đang trở thành một mối đe dọa nghiêm trọng mà nhiều nhà cung cấp dịch vụ phải đối mặt, với những thiệt hại kinh tế và cá nhân không phải là hậu quả duy nhất mà nó gây ra cho xã hội Ví dụ điển hình là cuộc tấn công vào cơ sở hạ tầng lưới điện của Ukraine vào năm 2015, khi kẻ tấn công đã kiểm soát 30 trạm biến áp, khiến gần 230.000 người bị mất điện và không có lò sưởi trong mùa đông khắc nghiệt.
Cuộc tấn công DDoS đầu tiên và nghiêm trọng nhất diễn ra vào tháng 9 năm 2016, khi hàng trăm nghìn thiết bị IoT tạo ra lưu lượng IP lên tới 620 Gbps, được gọi là Botnet Mirai Trong cùng năm đó, một cuộc tấn công DDoS khác với thông lượng 1,1 Tbps cũng đã được ghi nhận Số lượng các cuộc tấn công DDoS đã gia tăng đáng kể trong những năm qua, theo báo cáo gần đây vào đầu năm.
Vào cuối năm 2021, Microsoft đã thông báo về một cuộc tấn công DDoS khổng lồ với băng thông đạt 3,47 Tbps, được coi là lớn nhất trong lịch sử Cuộc tấn công này xuất phát từ khoảng 10.000 thiết bị tại nhiều quốc gia, bao gồm cả Việt Nam, và sử dụng nhiều kỹ thuật cũng như vectơ tấn công mới Hệ quả của các cuộc tấn công này đã dẫn đến sự gián đoạn của các dịch vụ trực tuyến quan trọng, gây ra thiệt hại lớn về kinh tế và uy tín.
Hình 2.3 Thống kê kỹ thuật tấn công DDoS năm 2021 Nguồn: Microsoft [7]
Các kỹ thuật tấn công DDoS có khả năng làm quá tải hệ thống theo nhiều cách khác nhau, với ba loại tấn công phổ biến: tấn công băng thông, tấn công giao thức và tấn công ứng dụng Thời gian kéo dài của mỗi cuộc tấn công có thể từ vài phút đến vài tháng, với lượng yêu cầu có thể rất nhỏ hoặc rất lớn Thiệt hại do các cuộc tấn công này gây ra trong lịch sử là rất nghiêm trọng.
Hình 2.4 Thống kê về thời gian tấn công DDoS năm 2021 Nguồn: Microsoft[7]
2.1.2 Các dạng tấn công DDoS phổ biến
Trong phần này, luận văn sẽ phân tích chi tiết các hình thức tấn công DoS và DDoS, nhằm làm cạn kiệt tài nguyên của hệ thống tại lớp mạng và lớp ứng dụng Bên cạnh đó, các thuật ngữ tiếng Anh sẽ được sử dụng để đảm bảo tính chính xác và đúng nghĩa của nội dung.
Nghiên cứu cho thấy, có 2 dạng tấn công DDoS phổ biến như sau
Các cuộc tấn công DDoS ở lớp mạng thường khai thác các gói tin giao thức như UDP, ICMP, TCP hoặc DNS nhằm mục đích làm cạn kiệt tài nguyên xử lý hoặc băng thông của hạ tầng mạng Những cuộc tấn công này được phân loại thành bốn dạng phổ biến.
Tấn công flooding là một phương thức tấn công mạng nhằm làm cạn kiệt băng thông của mục tiêu bảo vệ Hình thức này thực hiện bằng cách gửi một lượng lớn gói tin có kích thước lớn, bao gồm các loại tấn công như UDP flood và TCP flood.
Tấn công flooding bằng việc khai thác điểm yếu giao thức là một phương thức tấn công nhằm cạn kiệt tài nguyên của hệ thống Các kẻ tấn công lợi dụng những lỗ hổng an toàn thông tin trong các giao thức mạng, chẳng hạn như tấn công TCP SYN/SYN-ACK flood, để làm suy yếu khả năng hoạt động của hệ thống.
Hình 2.5 Minh họa Protocol attack [5]
Tấn công flooding Reflection-based là một hình thức tấn công mà kẻ tấn công gửi các yêu cầu giả mạo qua hệ thống trung gian, thay thế địa chỉ IP nguồn bằng địa chỉ IP của nạn nhân Kết quả là, các hệ thống trung gian sẽ gửi dữ liệu phản hồi về nạn nhân thay vì máy tấn công Việc thay đổi địa chỉ IP nguồn là khả thi do thiết kế không an toàn của Internet Tấn công này khai thác các điểm yếu trong bảo mật của các giao thức hoặc do lỗi cấu hình sai của các hệ thống trung gian.
Xác thực lại địa chỉ IP nguồn là một biện pháp quan trọng để ngăn chặn các cuộc tấn công, trong đó kẻ tấn công chỉ cần gửi yêu cầu giả mạo có kích thước nhỏ đến các hệ thống trung gian Các giao thức này sẽ phản hồi bằng cách gửi lại một lượng dữ liệu lớn hơn rất nhiều, có thể lên đến hàng trăm lần so với kích thước yêu cầu ban đầu.
Những thách thực trong việc phòng, chống tấn công DDoS
Trong phần này, luận văn sẽ phân tích những thách thức trong việc phát hiện và phòng chống các cuộc tấn công DDoS Việc đối phó với các hình thức tấn công DDoS ngày càng tinh vi đã trở thành một nhiệm vụ khó khăn, đòi hỏi các biện pháp phòng ngừa hiệu quả Những khó khăn này không chỉ đến từ sự đa dạng của các phương thức tấn công mà còn từ khả năng vượt qua các hệ thống bảo mật hiện có.
Kẻ tấn công có thể sử dụng nhiều phương thức khác nhau để chiếm quyền truy cập vào server và các dịch vụ, từ đó thực hiện mã thực thi nhằm khai thác hệ thống Hệ thống thông tin thường cung cấp nhiều dịch vụ như web, email và phân giải tên miền, tất cả đều kết nối trực tiếp với Internet Những dịch vụ này có thể trở thành mục tiêu cho các cuộc tấn công, bao gồm cả tấn công DDoS, nhằm làm mất tính khả dụng của chúng Do đó, việc bảo vệ an toàn cho hệ thống thông tin là rất quan trọng, yêu cầu bảo vệ tất cả các dịch vụ mà hệ thống cung cấp.
2 Nguồn tấn công đa dạng, phân tán
Các cuộc tấn công DDoS thường có nguồn gốc từ một mạng botnet với số lượng máy tính lớn, khiến việc ngăn chặn thủ công các nguồn tấn công trở nên bất khả thi Người quản trị hệ thống có thể thiết lập các quy tắc trên thiết bị mạng như Router hoặc Firewall để phát hiện và ngăn chặn các gói tin từ nguồn tấn công Tuy nhiên, số lượng quy tắc này là có hạn, và trong trường hợp tấn công DDoS sử dụng địa chỉ giả mạo, phương pháp chặn lọc IP sẽ không hiệu quả Do đó, cần áp dụng phương pháp chặn lọc dựa trên nội dung (payload) của gói tin để bảo vệ hệ thống.
3 Giao thoa giữa traffic bình thường và traffic tấn công
Trong bối cảnh tấn công DDoS, hệ thống vẫn tiếp nhận yêu cầu từ người dùng hợp lệ, tạo ra thách thức lớn trong việc phát hiện, phân loại và lọc các yêu cầu Nếu thiết lập chính sách chặn lọc ở mức độ thấp, hệ thống có thể không ngăn chặn hết các nguồn tấn công Ngược lại, nếu áp dụng chính sách chặn lọc ở mức độ cao, điều này có thể dẫn đến việc chặn cả các kết nối từ người dùng hợp lệ.
4 Hình thức tấn công đa dạng
Tấn công DDoS có thể diễn ra dưới nhiều hình thức khác nhau và tác động đến các lớp giao thức khác nhau trong Mô hình OSI Cụ thể, các cuộc tấn công này thường xảy ra ở lớp 3 (Network) và lớp 4 (Transport) thông qua các giao thức như TCP, UDP, và ICMP Ngoài ra, tấn công DDoS cũng có thể nhắm vào lớp 7 (Application) của Mô hình OSI, sử dụng các giao thức như HTTP, DNS, và VoiceIP.
5 Gia tăng đột biến truy cập bình thường (Flash crowds)
Với các dịch vụ trực tuyến, lưu lượng truy cập có thể tăng đột biến khi nhiều người dùng truy cập đồng thời Điều này có thể khiến hệ thống trông như đang bị tấn công DDoS, mặc dù thực chất đây là các truy cập hợp lệ từ người dùng.
Việc phân biệt giữa sự gia tăng đột biến các truy cập hợp lệ và các cuộc tấn công DDoS thực sự là một thách thức lớn đối với các biện pháp bảo vệ.
6 Vị trí triển khai ngăn chặn
Vị trí triển khai các phương pháp phòng, chống tấn công DDoS đóng vai trò quan trọng trong hiệu quả bảo vệ hệ thống Tùy thuộc vào vị trí triển khai, các phương pháp phòng chống sẽ khác nhau Có thể phân chia thành ba vị trí chính để thực hiện các biện pháp này: (1) Gần nguồn tấn công, giúp phát hiện và ngăn chặn sớm các cuộc tấn công.
Khi gần đến đích của một cuộc tấn công mạng, việc triển khai các biện pháp phòng chống gặp nhiều khó khăn Tại hạ tầng mạng trung gian, thường là các mạng của ISP, mỗi vị trí triển khai đều có những hạn chế riêng Nếu triển khai gần nguồn tấn công, việc chặn lọc trở nên khó khăn do tính phân tán của nguồn gửi Ngược lại, khi triển khai gần đích, băng thông kết nối của hệ thống bị tấn công thường bị giới hạn, dẫn đến khả năng quá tải trước khi các biện pháp phòng chống được áp dụng Đối với phương pháp triển khai tại ISP, thách thức lớn là phải xử lý và lưu trữ thông tin từ các thiết bị định tuyến của ISP.
Kết nối mạng của các nhà cung cấp dịch vụ Internet (ISP) có thể đạt tốc độ từ trung bình đến hàng trăm Gbps, trong khi nhiều website hiện nay được lưu trữ trên hạ tầng của ISP hoặc dịch vụ cloud Với lưu lượng dữ liệu lớn như vậy, việc kiểm soát và áp dụng các phương pháp phân tích, chặn lọc trở thành một thách thức đáng kể.
Tổng quan về các phương pháp phòng, chống tấn công DDoS
Trong phần này, luận văn tổng hợp và phân loại các phương pháp phòng chống tấn công, dựa trên các nghiên cứu đã được công bố trước đây Việc phân loại này được minh họa qua hình ảnh dưới đây, cung cấp cái nhìn tổng quan về các biện pháp bảo vệ hiệu quả.
Hình 2.11 Tổng quan các phương pháp phòng, chống tấn công DDoS
Nhóm các phương pháp phòng, chống tấn công dựa theo tiêu chí vị trí triển khai được tiếp tục phân chia làm 02 lớp phòng chống:
Phương pháp phòng chống các dạng tấn công từ tầng Network/Transport trong mô hình OSI được phân chia thành 04 nhóm chính Những phương pháp này nhằm bảo vệ hệ thống khỏi các mối đe dọa và nâng cao khả năng an ninh mạng.
• Network-based: Mạng trung gian
Phương pháp phòng, chống tấn công vào lớp Application của mô hình OSI được chia thành hai nhóm chính Các biện pháp này nhằm bảo vệ lớp Application khỏi các mối đe dọa và tấn công, đảm bảo an toàn cho dữ liệu và hệ thống.
Với nhóm các phương pháp phòng chống tấn công dựa thời điểm phòng chống được chia làm 03 giai đoạn:
2.3.1 Nhóm phương pháp phòng chống tấn công lớp mạng
Tấn công DDoS xảy ra ở lớp mạng, chủ yếu thông qua các giao thức ở lớp 4 (Transport) và lớp 3 (Network) theo mô hình OSI Để phòng chống các tấn công này, có bốn nhóm giải pháp hiệu quả cần được áp dụng.
2.3.1.1 Phương pháp pháp source-base (áp dụng ở gần nguồn tấn công)
Phương pháp này được áp dụng gần nguồn gửi các gói tin tấn công, thường tại Router biên của hệ thống mạng hoặc Router lớp truy cập của nhà cung cấp dịch vụ Ưu điểm chính là khả năng xử lý sớm nguồn tấn công, giúp hạn chế lượng gói tấn công tiêu tốn tài nguyên của mạng trung gian.
Phương pháp này gặp khó khăn trong việc triển khai rộng rãi do tính phân tán của các Router biên Bên cạnh đó, việc phát hiện tấn công từ phía source-based trở nên khó khăn hơn, vì lưu lượng từ mỗi nguồn thường nhỏ và phân tán, dẫn đến hiệu quả thấp của các thuật toán phát hiện tấn công source-based.
Một số cách để ngăn chặn các cuộc tấn công gần nguồn phổ biến hiện nay là chặn lọc tại Router biên, D-WARD, MULTOPS, sử dụng Reverse Firewall
2.3.1.2 Phương pháp destination-based (áp dụng ở phía đối tượng được bảo vệ)
Phương pháp bảo vệ dựa trên điểm đến (destination-based) được thực hiện trực tiếp tại các hệ thống cần bảo vệ, mang lại lợi ích trong việc triển khai đơn giản hơn so với phương pháp dựa trên nguồn (source-based) Việc phát hiện tấn công cũng hiệu quả hơn nhờ vào việc tập trung lưu lượng tấn công tại hệ thống đích được bảo vệ.
Mặc dù phương pháp này có ưu điểm, nhưng nhược điểm lớn là khi lưu lượng tập trung tại nguồn, nó yêu cầu nhiều tài nguyên hệ thống và ảnh hưởng đến hiệu suất xử lý Hơn nữa, phương pháp này không hiệu quả trong các cuộc tấn công Volumetric, vì khi băng thông không còn đủ cho kết nối bình thường, dịch vụ vẫn bị từ chối bất kể hiệu quả của phương pháp.
Hiện nay có một số phương pháp phòng chống tấn công destination-based gồm:
• Truy vấn ngược IP nguồn
• Sử dụng thông tin MIB
• Đánh dấu và lọc gói tin qua
2.3.1.3 Phương pháp áp dụng network-based (hạ tầng mạng trung gian)
Phương pháp này được áp dụng tại các Router trong Autonomous System (AS), nhằm phát hiện và ngăn chặn các cuộc tấn công tại hạ tầng mạng trung gian của các AS.
Lợi ích của phương pháp này là giúp phòng chống tấn công Volumetric và có thể triển khai ở các Router gần nguồn tấn công
Phương pháp này gặp nhược điểm lớn do yêu cầu tài nguyên xử lý cao từ các Router, đồng thời cần có cơ chế tương tác giữa chúng để chia sẻ thông tin Hơn nữa, khả năng phát hiện tấn công trở nên khó khăn hơn do lưu lượng tấn công thường phân tán.
Để phòng chống tấn công tại hạ tầng mạng trung gian, có thể áp dụng một số phương pháp như lọc gói tin trên Router và phát hiện, loại bỏ các Router độc hại thông qua các kỹ thuật như Watchers và Packet sampling.
2.3.1.4 Phương pháp hybrid (kết hợp)
Nhóm phương pháp hybrid được phát triển từ việc kết hợp nhiều kỹ thuật khác nhau tại các địa điểm khác nhau nhằm ngăn chặn và kiểm soát các cuộc tấn công Chẳng hạn, để phát hiện một cuộc tấn công, các kỹ thuật này được triển khai gần mục tiêu tấn công, đồng thời quá trình xử lý và lọc tấn công được phân phối theo nhiều cách khác nhau Ưu điểm nổi bật của phương pháp này là khả năng kết hợp nhiều cách tiếp cận, giúp phát hiện và ngăn chặn các cuộc tấn công một cách hiệu quả hơn.
Phương pháp này có hạn chế là cần sự phối hợp của nhiều thành phần và giải pháp để phòng chống hiệu quả Nếu các điểm triển khai bị phân tán, việc thực hiện sẽ gặp khó khăn và tốn kém Ngoài ra, các thành phần tham gia cần có kênh liên lạc đáng tin cậy để trao đổi và cập nhật thông tin kịp thời.
Dưới đây là một số cách để ngăn chặn các cuộc tấn công theo phương pháp kết hợp:
▪ Kiểm soát lưu trượng ACC
▪ Attack Diagnosis (AD) và parallel-AD
2.3.2 Nhóm phương pháp phòng chống tấn công lớp ứng dụng
Tấn công DDoS diễn ra tại lớp mạng, bao gồm các dạng tấn công qua các giao thức ở lớp 5 (Session), lớp 6 (Presentation) và lớp 7 (Application) theo mô hình OSI Để phòng chống tấn công ở lớp ứng dụng, có hai nhóm giải pháp chính mà người dùng cần áp dụng.
2.3.2.1 Phương pháp destination-based (phía đối tượng được bảo vệ)
Hầu hết các giao thức ứng dụng hoạt động theo mô hình Client-Server, trong đó server cung cấp dịch vụ như DNS, Web, FTP, và client gửi yêu cầu đến server để sử dụng dịch vụ Phương pháp dựa trên địa chỉ đích được triển khai gần các máy chủ bị tấn công, bao gồm các máy chủ cung cấp dịch vụ và Reverse Proxy Những phương pháp này theo dõi các đặc điểm trong quá trình trao đổi dữ liệu giữa client và server để phát hiện hành vi hoặc yêu cầu bất thường Khi phát hiện các yêu cầu bất thường, hệ thống sẽ chặn hoặc giới hạn tốc độ truy cập từ nguồn đó Phương pháp này cũng bao gồm các biện pháp phòng chống tấn công Reflection/Amplification, được thực hiện tại máy chủ đích, nhằm phát hiện và xử lý lưu lượng bất thường từ các giao thức như DNS.
2.3.2.2 Nhóm phương pháp kết hợp
Phòng chống tấn công DDOS sử dụng học máy
2.4.1 Tổng quan về học máy
Học máy là một nhánh của trí tuệ nhân tạo, tập trung vào nghiên cứu và phát triển các kỹ thuật giúp hệ thống tự động học hỏi từ dữ liệu, nhằm giải quyết các vấn đề cụ thể.
Thuật toán học máy được chia thành hai loại cơ bản là:
• Học có giám sát (Supervised learning)
• Học không giám sát (Unsupervised learning)
2.4.1.1 Học có giám sát (Supervised learning)
Học máy có giám sát là một lĩnh vực trong học máy và trí tuệ nhân tạo, sử dụng các tập dữ liệu có gán nhãn để huấn luyện thuật toán phân loại và dự đoán kết quả chính xác Khi dữ liệu đầu vào được đưa vào mô hình, trọng số sẽ được điều chỉnh để tối ưu hóa hiệu suất Phương pháp này thường được áp dụng để giải quyết các vấn đề quy mô lớn.
Học có giám sát là quá trình sử dụng tập dữ liệu luyện tập để đào tạo mô hình, nhằm đạt được kết quả đầu ra mong muốn Tập dữ liệu này bao gồm các đầu vào và đầu ra chính xác, giúp mô hình cải thiện khả năng học hỏi theo thời gian Thuật toán sẽ đo độ chính xác của mô hình và thực hiện điều chỉnh để giảm thiểu sai số đến mức tối thiểu.
Học máy có thể chia thành 2 loại là:
Classification involves using algorithms to accurately assign test data to specific categories It identifies particular entities within the dataset and draws conclusions about the labeled entities Commonly used algorithms for classification include Linear classifiers, Support Vector Machines (SVM), Decision Trees, K-Nearest Neighbors, and Random Forest.
Hồi quy là phương pháp phân tích nhằm xác định mối tương quan giữa các biến phụ thuộc và độc lập Các thuật toán hồi quy phổ biến bao gồm hồi quy tuyến tính, hồi quy logistic và hồi quy bậc cao.
2.4.1.2 Học không giám sát (Unsupervised learning)
Học máy không giám sát là một phương pháp học máy mà không cần sự giám sát từ người dùng Thay vào đó, mô hình tự động hoạt động và phán đoán để phát hiện các mẫu và thông tin chưa được khám phá Phương pháp này chủ yếu được áp dụng để xử lý dữ liệu không có nhãn.
Các bài toán Unsupervised learning được tiếp tục chia nhỏ thành hai loại:
• Clustering (phân nhóm): một bài toán phân nhóm toàn bộ dữ liệu X thành các nhóm nhỏ dựa trên sự liên quan giữa các dữ liệu trong mỗi nhóm
• Association là bài toán khi chúng ta muốn khám phá ra một quy luật dựa trên nhiều dữ liệu cho trước
2.4.2 Các thuật toán học máy
Hiện nay, việc phát hiện tấn công DoS/DDOS đang gặp nhiều thách thức do sự gia tăng về hình thức và kỹ thuật của các cuộc tấn công này Các phương pháp truyền thống ngày càng trở nên kém hiệu quả, trong khi các kỹ thuật học máy và xử lý dữ liệu đang chứng tỏ tính hiệu quả cao trong việc phát hiện các cuộc tấn công DoS/DDOS Nghiên cứu về ứng dụng học máy trong lĩnh vực này ngày càng được chú trọng và phát triển, mở ra hướng đi mới cho việc bảo vệ hệ thống mạng.
Kỹ thuật này thu thập dữ liệu từ môi trường ảo hóa hoặc các cuộc tấn công thực tế để luyện tập mô hình học máy Các mối quan hệ giữa các trường đặc trưng trong dữ liệu thô được xác định, sau đó dữ liệu được xử lý và đưa vào mô hình để phát hiện tấn công Cuối cùng, hiệu suất của các thuật toán được đánh giá trên nhiều bộ dữ liệu khác nhau nhằm xác định thuật toán tối ưu cho việc phát hiện các cuộc tấn công DoS/DDOS.
Sau khi tham khảo các nghiên cứu thí nghiệm nhằm xác định thuật toán phù hợp cho việc phát hiện tấn công DoS/DDOS, các nhà nghiên cứu đã chỉ ra rằng KNN là một trong những lựa chọn hiệu quả.
Random Forest và AdaBoost là hai thuật toán phổ biến trong nghiên cứu thử nghiệm, nổi bật với độ chính xác và hiệu suất cao trong việc phát hiện tấn công DoS/DDOS Trong luận văn này, tác giả áp dụng các thuật toán này vào mô hình dự đoán tấn công và tiến hành đánh giá để xác định thuật toán tốt nhất cho các bộ dữ liệu.
Hình 2.12 Mô hình học máy cho việc phát hiện tấn công DDoS
Dưới đây là một danh sách các thuật toán phổ biến, hay được sử dụng cho việc phát hiện tấn công DoS/DDOS
K-Nearest Neighbor (kNN) là một loại thuật toán học có giám sát sử dụng cho bài toán classification và regression Ý tưởng chính đằng sau kNN là giá trị hoặc lớp của điểm dữ liệu được xác định bởi các điểm dữ liệu xung quanh nó
Kỹ thuật KNN (K-Nearest Neighbors) tìm kiếm các điểm dữ liệu gần nhất dựa trên khoảng cách Euclidean, giúp phân loại điểm dữ liệu cần thiết Sau khi xác định K điểm lân cận, KNN áp dụng phương pháp bỏ phiếu đa số để gán nhãn cho điểm dữ liệu đó Một trong những ưu điểm lớn của KNN là không cần quá trình huấn luyện phức tạp, và việc dự đoán cho dữ liệu mới cũng rất đơn giản, không yêu cầu giả định về phân phối các lớp.
Trong thuật toán kNN, nếu k được đặt là 5, lớp của 5 điểm gần nhất sẽ được kiểm tra để đưa ra dự đoán theo nguyên tắc lớp đa số Đối với hồi quy kNN, giá trị dự đoán được tính bằng cách lấy trung bình của 5 điểm gần nhất Ví dụ dưới đây sẽ minh họa cho việc xem xét các điểm dữ liệu thuộc 4 lớp khác nhau.
Hình 2.13 Thuật toán kNN - Dữ liệu gốc [27]
Hình 2.14 Thuật toán kNN - Giá trị dự đoán với k=1 [27]
Việc xác định giá trị k tối ưu trong thuật toán kNN là rất quan trọng Nếu k quá thấp, mô hình sẽ trở nên quá cụ thể và không khái quát hóa tốt Thuật toán kNN cũng nhạy cảm với nhiễu, dẫn đến độ chính xác cao trên tập dữ liệu đã học nhưng lại kém hiệu quả khi dự đoán các điểm dữ liệu mới chưa từng thấy.
Mô hình overfit xảy ra khi k quá lớn, dẫn đến dự báo không chính xác trên tập huấn luyện và tập thử nghiệm Ngược lại, nếu k quá nhỏ, mô hình trở nên quá tổng quát, được gọi là underfit Thuật toán kNN dễ cài đặt và không yêu cầu giả định cho các bài toán phi tuyến tính, nhưng lại trở nên chậm khi số lượng điểm dữ liệu tăng lên do cần lưu trữ tất cả các điểm Hơn nữa, kNN cũng không hiệu quả về bộ nhớ và nhạy cảm với các yếu tố ngoại lai (outlier).
TỔNG QUAN VỀ DATASET & ĐÁNH GIÁ CÁC DATASET HIỆN TẠI
Các loại dữ liệu trong dataset
Lưu lượng mạng thường được ghi lại dưới hai dạng chính: dựa trên gói (packet-based) và dựa trên luồng (flow-based) Phương pháp thu thập packet-based thường sử dụng mirror port hoặc span port trên thiết bị mạng, cho phép thu thập thông tin payload đầy đủ Ngược lại, flow-based tổng hợp thông tin hơn và chủ yếu chứa siêu dữ liệu từ các kết nối mạng Sự khác biệt giữa việc kiểm tra gói tin đã thu và NetFlow có thể được hình dung như việc khám phá một khu rừng bằng cách đi bộ qua nó thay vì quan sát từ trên cao bằng khinh khí cầu.
Dữ liệu dựa trên gói thường được ghi lại ở định dạng pcap và bao gồm payload cùng với siêu dữ liệu, tùy thuộc vào mạng và các giao thức truyền tải được sử dụng Các giao thức chính bao gồm TCP, UDP, ICMP và IP TCP là giao thức truyền tải đáng tin cậy, cung cấp siêu dữ liệu như số thứ tự, số xác nhận, cờ TCP và giá trị tổng kiểm tra Ngược lại, UDP là giao thức ít kết nối hơn với tiêu đề nhỏ hơn, chỉ chứa bốn trường: cổng nguồn, cổng đích, độ dài và checksum ICMP, một giao thức hỗ trợ, chứa các thông báo trạng thái và có kích thước nhỏ hơn cả TCP và UDP Thêm vào đó, tiêu đề IP cũng thường có sẵn, cung cấp thông tin như địa chỉ IP nguồn và đích.
Hình 3.1 IP, ICMP, UDP, TCP header [15]
Flow-based là một định dạng thông tin cô đọng, chủ yếu chứa thông tin meta về kết nối mạng Nó tổng hợp các gói dữ liệu có cùng thuộc tính trong một khoảng thời gian thành một luồng, thường không bao gồm payload Định nghĩa mặc định của flow-based bao gồm năm thành phần: địa chỉ IP nguồn, cổng nguồn, địa chỉ IP đích, cổng đích và giao thức truyền tải, được sử dụng phổ biến trong việc đánh giá dataset.
Luồng có thể xuất hiện dưới hai định dạng: một chiều và hai chiều Định dạng một chiều tổng hợp tất cả các gói từ máy chủ A đến máy chủ B thành một lưu lượng duy nhất, trong khi các gói từ máy chủ B đến máy chủ A được tách thành một luồng đơn hướng khác Ngược lại, luồng hai chiều tổng hợp tất cả các gói giữa hai máy chủ A và B mà không phân biệt hướng đi Các định dạng luồng phổ biến bao gồm NetFlow, IPFIX, sFlow và OpenFlow.
Một số thuộc tính điển hình trong flow-based network traffic là:
• Thời gian xuất hiện lần đầu (Date first seen)
• Giao thức truyền tải (Transport protocol)
• Địa chỉ IP nguồn (Source IP address)
• Địa chỉ IP đích (Destination IP address)
• Số lượng bytes đã trao đổi (Number of transmitted bytes)
• Số lượng byte đã trao đổi 10 TCP flag (Number of transmitted packets 10 TCP flags)
Tùy thuộc vào định dạng và trình xuất luồng cụ thể, có thể trích xuất các thuộc tính như byte mỗi giây, byte mỗi gói, cờ TCP của gói đầu tiên, và entropy của payload Ngoài ra, dữ liệu dựa trên gói có thể được chuyển đổi sang dữ liệu dựa trên luồng bằng các công cụ như nfdump hoặc YAF.
Các đặc tính cần đánh giá của Dataset
Bốn thuộc tính sau đây cung cấp thông tin tổng quát về bộ dữ liệu, bao gồm năm tạo ra, tính khả dụng, và sự hiện diện của truy cập mạng bình thường cũng như độc hại.
1 Năm tạo dữ liệu (Year of Traffic Creation): Vì lưu lượng mạng có thể thay đổi khái niệm và các kịch bản tấn công mới xuất hiện hàng ngày, tuổi của một bộ dữ liệu phát hiện xâm nhập đóng một vai trò quan trọng Thuộc tính này mô tả năm tạo ra bộ dữ liệu Năm mà lưu lượng mạng cơ bản của bộ dữ liệu được thu thập có liên quan nhiều hơn đến tính cập nhật so với năm xuất bản tập dữ liệu đó
2 Cung cấp công khai (Public Availiability): Bộ dữ liệu phát hiện xâm nhập cần được công bố rộng rãi để làm cơ sở so sánh các phương pháp phát hiện xâm nhập khác nhau Hơn nữa, chất lượng của bộ dữ liệu chỉ có thể được kiểm tra bởi các bên thứ ba nếu chúng được cung cấp công khai Bảng III bao gồm ba đặc điểm khác nhau cho thuộc tính này: yes, o.r (on request), và no On request có nghĩa là quyền truy cập sẽ được cấp sau khi gửi tin nhắn đến các tác giả hoặc người chịu trách nhiệm
3 Hành vi người dùng bình thường (Normal User Behavior): Thuộc tính này cho biết tính khả dụng của hành vi người dùng bình thường trong tập dữ liệu và nhận các giá trị yes hoặc no Giá trị yes chỉ ra rằng có hành vi bình thường của người dùng trong bộ dữ liệu, nhưng nó không đưa ra bất kỳ tuyên bố nào về sự hiện diện của các cuộc tấn công Nói chung, chất lượng của một IDS chủ yếu được xác định bởi tỷ lệ phát hiện tấn công và tỷ lệ nhận diện sai của nó Do đó, sự hiện diện của hành vi người dùng bình thường là không thể thiếu để đánh giá một IDS Tuy nhiên, việc thiếu hành vi người dùng bình thường không làm cho một bộ dữ liệu không thể sử dụng được, mà chỉ ra rằng nó phải được hợp nhất với các tập dữ liệu khác hoặc với lưu lượng mạng trong thế giới thực Kỹ thuật này được gọi là overlaying hoặc là salting
Hình 3.2 Các thuộc tính chung của network-based dataset [15]
4 Lưu lượng tấn công (Attack Traffic): Bộ dữ liệu IDS bao gồm các tình huống tấn công khác nhau Thuộc tính này cho biết sự hiện diện của lưu lượng mạng độc hại trong tập dữ liệu và có giá trị yes nếu tập dữ liệu chứa ít nhất một cuộc tấn công
3.2.2 Bản chất của dữ liệu
Thuộc tính của danh mục này mô tả định dạng của tập dữ liệu và sự hiện diện của thông tin meta
1 Siêu dữ liệu (Metadata): Việc giải thích liên quan đến nội dung của lưu lượng mạng dựa trên gói và dựa trên luồng là khó khăn cho các bên thứ ba
Các tập dữ liệu cần được kèm theo metadata để cung cấp thông tin chi tiết về cấu trúc mạng, địa chỉ IP và các kịch bản tấn công Việc bổ sung metadata giúp xác định rõ ràng sự hiện diện và các yếu tố liên quan đến an ninh mạng.
2 Định dạng (Format): Các tập dữ liệu phát hiện xâm nhập mạng xuất hiện ở các định dạng khác nhau Luận văn chia chúng thành ba định dạng (xem Phần III) (1) Lưu lượng mạng dựa trên gói (ví dụ: pcap) chứa lưu lượng mạng có tải trọng (2) Lưu lượng mạng dựa trên luồng (ví dụ: NetFlow) chỉ chứa thông tin meta về các kết nối mạng (3) Các loại tập dữ liệu khác có
Theo dõi dựa trên luồng có thể được thực hiện bằng cách sử dụng các thuộc tính bổ sung từ dữ liệu dựa trên gói hoặc từ các log files trên máy chủ lưu trữ.
3 Tính ẩn danh (Anonymity): Thông thường, các tập dữ liệu phát hiện xâm nhập có thể không được công bố vì lý do bảo mật hoặc chỉ có sẵn ở dạng ẩn danh Thuộc tính này cho biết liệu dữ liệu có được ẩn danh hay không và các thuộc tính nào bị ảnh hưởng Giá trị yes (IPs) có nghĩa là địa chỉ IP được ẩn danh hoặc bị xóa khỏi tập dữ liệu Tương tự, yes (payload) chỉ ra rằng thông tin payload được ẩn danh hoặc bị xóa khỏi lưu lượng mạng dựa trên gói
Các thuộc tính trong danh mục này đặc trưng cho các bộ dữ liệu về khối lượng và thời lượng
1 Tổng số (Count): Số thuộc tính mô tả kích thước của tập dữ liệu là số lượng gói/ luồng/ điểm được chứa hoặc kích thước vật lý tính bằng Gigabyte (GB)
2 Thời lượng (Duration): Tập dữ liệu phải bao gồm lưu lượng mạng trong một thời gian dài để nắm bắt các hiệu ứng định kỳ (ví dụ: ban ngày so với ban đêm hoặc ngày trong tuần so với cuối tuần) Thời lượng thuộc tính cung cấp thời gian ghi của mỗi tập dữ liệu
3.2.4 Môi trường thu dữ liệu
Các thuộc tính trong danh mục này mô tả môi trường mạng và các điều kiện để các tập dữ liệu được thu thập
1 Loại dữ liệu (Kind of Traffic): Thuộc tính loại dữ liệu mô tả ba nguồn có thể có của lưu lượng mạng: real, emulated, hoặc synthetic Real có nghĩa là lưu lượng mạng thực đã được ghi lại trong một môi trường mạng hiệu quả Emulated có nghĩa là lưu lượng mạng thực được ghi lại trong môi trường mạng thử nghiệm hoặc mô phỏng Synthetic có nghĩa là lưu lượng mạng được tạo tổng hợp (ví dụ: thông qua trình tạo lưu lượng) và không được nắm bắt bởi một thiết bị mạng thực (hoặc ảo)
2 Loại mạng (Type of Network): Môi trường mạng trong các công ty vừa và nhỏ về cơ bản khác với các nhà cung cấp dịch vụ internet (ISP) Do đó, các môi trường khác nhau yêu cầu các hệ thống bảo mật khác nhau và các bộ dữ liệu đánh giá phải được điều chỉnh cho phù hợp với môi trường cụ thể Thuộc tính này mô tả môi trường mạng cơ bản trong đó tập dữ liệu tương ứng được tạo
3 Mạng hoàn chỉnh (Complete Network): Thuộc tính mạng hoàn chỉnh là thuộc tính chỉ việc dữ liệu có chứa toàn bộ lưu lượng mạng từ môi trường mạng có nhiều máy chủ, bộ định tuyến, hay không Nếu tập dữ liệu chỉ chứa lưu lượng mạng từ một máy chủ duy nhất (ví dụ: honeypot) hoặc chỉ một số giao thức từ lưu lượng mạng (ví dụ: lưu lượng SSH riêng), giá trị được đặt thành không
Nguồn dữ liệu của Dataset
Ngoài các tập dữ liệu từ mạng, còn tồn tại nhiều nguồn dữ liệu khác cho lưu lượng dựa trên mạng và lưu lượng dựa trên luồng Phần này sẽ cung cấp cái nhìn tổng quan ngắn gọn về các kho dữ liệu và các công cụ tạo lưu lượng.
3.3.1 Kho dữ liệu (Data repository)
Ngoài các tập dữ liệu truyền thống, có nhiều kho dữ liệu dễ dàng tìm thấy trên internet Do sự đa dạng về loại hình và cấu trúc của các kho lưu trữ này, luận văn sẽ không thể cung cấp một bảng so sánh tổng quan Thay vào đó, bài viết sẽ trình bày một cái nhìn ngắn gọn về các kho dữ liệu, được sắp xếp theo thứ tự bảng chữ cái.
AZSecure 2 là kho dữ liệu mạng của Đại học Arizona, phục vụ cho cộng đồng nghiên cứu Kho dữ liệu này bao gồm nhiều loại bộ dữ liệu với định dạng pcap, arff và các định dạng khác, trong đó có một số bộ dữ liệu được gắn nhãn và một số không.
CAIDA thu thập nhiều loại tập dữ liệu với mức độ sẵn có khác nhau, bao gồm cả truy cập công khai và theo yêu cầu, cùng với một trang tìm kiếm tiện lợi Để truy cập các dữ liệu công khai, người dùng cần điền vào một mẫu thông tin Hầu hết các dataset dựa trên mạng chỉ có thể được yêu cầu thông qua cổng IMPACT, nơi CAIDA đóng vai trò là nhà cung cấp dữ liệu, cho thấy rằng việc tiếp cận dữ liệu này không hề đơn giản.
Covert.io là blog của Jason Trost, chuyên về an ninh mạng và học máy, cung cấp hướng dẫn, kho mã nguồn trên Github, bài báo nghiên cứu và nhiều nội dung khác liên quan đến an toàn thông tin và dữ liệu lớn Blog cũng tập trung vào các bộ sưu tập về bảo mật dữ liệu Bài viết mới nhất được đăng vào ngày 16/1/2022.
DEFCON là một hội thảo thường niên dành cho hacker, nổi bật với cuộc thi ghi đoạt cờ (CTF), nơi các đội thi đấu để bảo vệ hệ thống mạng của mình đồng thời tấn công hệ thống của đối thủ Dữ liệu traffic trong cuộc thi được ghi lại dưới dạng packet-based và được công khai trên website của DEFCON Do tính chất thực chiến của cuộc thi, dữ liệu thu được chủ yếu chứa các traffic tấn công cùng với một số ít hành vi người dùng Website của DEFCON được cập nhật hàng năm với dữ liệu mới từ các cuộc thi CTF.
IMPACT 6, hay còn gọi là IMPACT Cyber Trust, là một cộng đồng gồm các nhà cung cấp dữ liệu, chuyên gia nghiên cứu bảo mật và người điều phối IMPACT được quản lý chặt chẽ và thường xuyên cập nhật, với một website chứa chỉ mục các bộ dữ liệu do cộng đồng cung cấp Một số nhà cung cấp dữ liệu tiêu biểu bao gồm DARPA, MIT Lincoln Laboratory và UCSD.
- Center for Applied Internet Data Analysis (CAIDA) Tuy nhiên các bộ dữ liệu này chỉ được tải về với tài khoản các nhà nghiên cứu thuộc 8 nước
2 https://www.azsecure-data.org/other-data.html
3 http://www.caida.org/data/overview/
5 https://www.defcon.org/html/links/dc-ctf.html
41 được Bộ quốc phòng Mỹ lựa chọn Việt Nam không nằm trong danh sách này nên luận văn không thể đào sâu tìm hiểu thêm
Hình 3.3 Các quốc gia Impact Cyber Trust cho phép tham gia
Internet Traffic Archive 7 là một kho lưu trữ dữ liệu lưu lượng truy cập internet do ACM SIGCOMM tài trợ, bao gồm 4 bộ dữ liệu dựa trên gói tin đã được ẩn danh hóa Đáng chú ý, payload đã được loại bỏ, tất cả timestamp được tương quan với gói tin đầu tiên và địa chỉ IP đã được chuyển đổi sang dạng số Bộ dữ liệu này được thu thập cách đây hơn 20 năm và hiện có thể tải về miễn phí.
Kaggle là nền tảng nổi bật cho việc chia sẻ và công bố kho dữ liệu, bao gồm nhiều bộ dữ liệu liên quan đến an toàn thông tin như KDD CUP 99 Nền tảng này không chỉ hỗ trợ tính năng tìm kiếm mà còn cho phép người dùng tải lên và khám phá các mô hình phân tích dữ liệu một cách dễ dàng.
Malware Traffic Analysis là một kho tài nguyên cung cấp các bài blog và bài tập thực hành về phân tích lưu lượng mạng, giúp nhận diện hành vi độc hại Các bài thực hành này tập trung vào lưu lượng mạng dựa trên gói tin, với các câu hỏi để hướng dẫn người dùng Dữ liệu trong kho tài nguyên này được cập nhật thường xuyên, mang đến thông tin mới nhất cho người dùng.
Mid-Atlantic CCDC 9 là một cuộc thi thường niên do Trung tâm Giám sát An ninh mạng Quốc gia Mỹ tổ chức, tương tự như DEFCON CTF Cuộc thi này công bố lưu lượng dữ liệu dựa trên gói tin, yêu cầu các đội thi bảo vệ dịch vụ mạng của họ khỏi gián đoạn Dữ liệu trong cuộc thi chủ yếu là thông tin về các cuộc tấn công, kèm theo một số hành vi người dùng bình thường Cuộc thi gần đây nhất diễn ra vào năm 2022.
7 http://ita.ee.lbl.gov/html/traces.html 45 https://www.kaggle.com/
8 http://malware-traffic-analysis.net/
MAWILab 10 là một kho dữ liệu lớn chứa thông tin về lưu lượng mạng giữa Nhật Bản và Mỹ trong thời gian dài Kể từ năm 2007, kho dữ liệu này cung cấp dữ liệu gói hàng ngày trong khoảng thời gian 15 phút Để bảo vệ quyền riêng tư, địa chỉ IP đã được ẩn danh và nội dung gói tin đã bị loại bỏ Dữ liệu này được phân loại bằng các phương pháp phát hiện bất thường khác nhau.
MWS 11 là một hội thảo thường niên về mã độc diễn ra tại Nhật Bản, tập trung vào việc chia sẻ các bộ dữ liệu MWS chứa thông tin về mạng và nhật ký máy chủ Tuy nhiên, các bộ dữ liệu này chỉ được cung cấp cho cộng đồng MWS, bao gồm các nhà nghiên cứu và học giả tại Nhật Bản Hội thảo gần nhất đã được tổ chức vào năm 2018.
NETRECSEC 12 là một nền tảng cung cấp danh sách chi tiết các tệp pcap trên internet Giống như SecRepo, NETRECSEC kết nối đến nhiều kho dữ liệu trong nghiên cứu này, đồng thời tích hợp thêm các nguồn tài nguyên khác như honeypot dump và các cuộc thi CTF.
OpenML 13 là nền tảng cập nhật thường xuyên, cho phép chia sẻ các bộ dữ liệu học máy, thuật toán và thí nghiệm Nền tảng này bao gồm các bộ dữ liệu liên quan đến an toàn thông tin, tiêu biểu như KDD CUP 99.
10 http://www.fukuda-lab.org/mawilab/
11 https://www.iwsec.org/mws/2018/en.html
12 http://www.netresec.com/?page=PcapFiles
13 https://www.openml.org/home
• RIPE Data Repository 14 RIPE data repository chứa một loạt các dataset Tuy nhiên đã nhiều năm không thấy cập nhật các bộ dữ liệu mới
Tổng quan và đánh giá các dataset hiện có
Trong những năm qua, đã có nhiều bộ dữ liệu về xâm nhập mạng được phát triển cho các mô hình học máy Bảng 3.5 cung cấp một cái nhìn chi tiết và so sánh về các bộ dữ liệu này Dưới đây là tóm tắt về một số bộ Dataset nổi bật nhất trong lĩnh vực này.
DARPA 1998 [12] là tập dữ liệu IDS có sẵn đầu tiên được giới thiệu DARPA
Vào năm 1998, mặc dù là một tập dữ liệu chuẩn quan trọng cho Hệ thống Phát hiện Xâm nhập (IDS), nhưng nó có độ chính xác thấp và không đủ khả năng sao chép lưu lượng mạng theo thời gian thực Những tập dữ liệu này, mặc dù nổi tiếng, đã bị chỉ trích vì được tạo ra một cách nhân tạo, dẫn đến việc thiếu các thành phần cần thiết của lưu lượng mạng thực tế.
KDD99 [13] được giới thiệu vào năm 1999 như một bản nâng cấp của DARPA
98 KDD99 được sử dụng cho Cuộc thi Công cụ Khai thác Dữ liệu và Khám phá Kiến thức Quốc tế lần thứ ba (The Third International Knowledge Discovery and Data Mining Tools Competition) Các bản ghi tấn công trong KDD99 được chia
Tập dữ liệu KDD99 phân loại các cuộc tấn công mạng thành 4 loại chính: DoS, Probe, U2R và R2L, với 22 kiểu tấn công khác nhau Tuy nhiên, KDD99 nhanh chóng trở nên lỗi thời do thiếu thông tin về các cuộc tấn công phần mềm độc hại gần đây, có nhiều gói tin trùng lặp và mất cân bằng lớp Để khắc phục những vấn đề này, các nhà nghiên cứu tại Đại học New Brunswick đã phát triển tập dữ liệu NSL-KDD, một phiên bản tối ưu hóa của KDD99 NSL-KDD giúp giảm thiểu sự thiên lệch trong hệ thống đào tạo bằng cách loại bỏ các gói tin trùng lặp và cung cấp kết quả đánh giá nhất quán kể từ khi ra mắt.
3.4.3 ISCX2012 Đây là một dataset được tạo một cách khá chi tiết khi tác giả sử dụng kỹ thuật tiên tiến để tạo ra traffic thực tế Tuy nhiên dataset này có một nhược điểm cực kỳ lớn là không gồm những protocol thường được sử dụng ở thời điểm hiện tại, ví dụ như chỉ bao gồm HTTP mà không có HTTPS
Dataset mới này bao gồm cả traffic tấn công và traffic bình thường, với các hình thức tấn công như Backdoor, DoS, Exploits, Fuzzers và Shellcode Sự đa dạng này giúp dataset trở nên toàn diện hơn trong việc đánh giá các biện pháp IDS so với các dataset trước Tuy nhiên, một nhược điểm lớn là sự mất cân bằng giữa traffic bình thường và traffic tấn công, trong đó traffic bình thường chiếm tới 87% tổng số dữ liệu.
CIC-IDS-2017, được phát hành vào năm 2017 bởi Viện An ninh mạng Canada tại Đại học New Brunswick, là một bộ dữ liệu IDS đầy đủ và chính xác, phục vụ cho việc đào tạo mô hình Bộ dữ liệu này đã được xây dựng dựa trên nhiều bộ dữ liệu IDS khác nhau và được đánh giá theo 11 tiêu chí Với độ tin cậy cao, CIC-IDS-2017 đã trở thành công cụ phổ biến cho nhiều nhà nghiên cứu trên toàn thế giới trong việc kiểm thử các mô hình.
Tập dữ liệu này tồn tại một số thiếu sót, bao gồm sự mất cân bằng cao, nhiều mẫu thiếu giá trị và một số tính năng trích xuất từ tệp PCAP không được tính toán chính xác, ảnh hưởng đến hiệu suất của các thuật toán học máy Tỷ lệ tấn công mạng trong bộ dữ liệu rất không đồng đều, với lưu lượng mạng lành tính chiếm 77% và lưu lượng tấn công mạng DoS chỉ chiếm 23% Mặc dù có 4 kiểu tấn công DoS trong tập dữ liệu, kiểu DoS hulk chiếm hơn 60% tổng lưu lượng tấn công, dẫn đến khả năng các mô hình học máy không phát hiện chính xác các kiểu tấn công DoS khác.
Bảng 3.1 Phân phối tần suất các nhãn trong CIC-IDS-2017
Tổng số lượng tấn công ghi nhận là 2,830,743, cho thấy rằng mô hình hiện tại quá tập trung vào việc phân loại tấn công hulk, không phù hợp với các hạ tầng mạng đa dạng Mỗi kẻ tấn công có cách thức tấn công riêng biệt tại từng mục tiêu, dẫn đến sự thiếu đa dạng trong các hình thức tấn công trong bộ dữ liệu Do đó, cần thiết phải phát triển các giải pháp để khắc phục những nhược điểm này.
CIC-DDoS-2019 là bộ dữ liệu DDoS mới nhất, bao gồm nhiều loại tấn công khác nhau như tấn công phản xạ (DNS, LDAP, MSSQL, SSDP, NTP) và tấn công khai thác (UDP flood, SYN Flood, UDP-lag) Tuy nhiên, bộ dữ liệu này vẫn tồn tại tình trạng mất cân bằng và thiếu sót các kỹ thuật tấn công mới.
Bảng 3.2 Phân phối tần suất các nhãn trong CIC-IDS-2019
DrDoS_LDAP DrDos_NTP Portmap UDPLag
Năm 2022, các tác giả đã công bố một nghiên cứu chi tiết về tập dữ liệu CIC-IDS-2017, chỉ ra nhiều vấn đề trong việc phát hiện các luồng mạng, bao gồm trùng lặp tính năng và sai sót trong việc gán nhãn Họ đã đề xuất công cụ trích xuất tính năng mới mang tên LycoSTand, có sẵn dưới dạng mã nguồn mở Nghiên cứu cũng nhấn mạnh rằng để áp dụng phương pháp này cho các tập dữ liệu mới hơn như CIC-DOS-2019, cần nhiều thời gian và tài nguyên tính toán Hơn nữa, mặc dù nghiên cứu đã cải thiện độ tin cậy của các tính năng để nhận diện các kiểu tấn công trong IDS, nhưng vẫn chưa giải quyết được vấn đề mất cân bằng trong các kiểu tấn công, đặc biệt là khả năng phát hiện các cuộc tấn công DDoS mới Nhóm nghiên cứu dự kiến sẽ tiếp tục cải tiến chất lượng của bộ dữ liệu gốc và khắc phục nhược điểm của công cụ CICFlowMeter trong việc thu thập dữ liệu tấn công.
Đánh giá, khuyến nghị về các dataset hiện có
3.5.1 Tổng quan và đánh giá về các phương pháp xây dựng Dataset hiện tại
Bảng 3.3 Tổng quan về các network-based dataset Kế thừa, bổ sung từ nghiên cứu [15]
Thông tin chung Bản chất dữ liệu Khối lượng dữ liệu Môi trường ghi dữ liệu Đánh giá
Bộ dữ liệu Năm tạo Truy cập công khai
Siêu dữ liệu Định dạng Ẩn danh Tổng Thời lượng Loại traffic
Loại network Network hoàn chỉnh
Chia sẵn Đã cân bằng Đã gán nhãn
AWID 2015 cần yêu cầu có có có khác không 37M gói 1 giờ giả lập mạng nhỏ có có không có
Booters 2013 có không có không gói có 250GB gói 2 ngày thực tế mạng nhỏ không không không không
Botnet 2010/2014 có có có có gói không 14GB gói không có thông tin giả lập mạng đa dạng có có không có
CIC-DOS-2019 2019 có có có không gói không 29GB luồng 24 giờ giả lập mạng nhỏ có không không có
CIC-IDS-2017 2017 có có có có gói, luồng 2 chiều không 3.1M luồng 5 ngày giả lập mạng nhỏ có không không có
CIDDS-001 2017 có có có có luồng 1 chiều có (IPs) 32M luồng 28 ngày giả lập và thực tế mạng nhỏ có không không có
CIDDS-002 2017 có có có có luồng 1 chiều có (IPs) 15M luồng 14 ngày giả lập mạng nhỏ có không không có
CDX 2009 có có có có gói không 14GB gói 4 ngày thực tế mạng nhỏ có không không không
CTU-13 2013 có có có có Gói, luồng có (payload) 81M luồng 125 giờ thực tế mạng trường ĐH có không không có với nhãn nền
DARPA 1998/99 có có có có gói, nhật ký log không không có thông tin
7/5 tuần giả lập mạng nhỏ có có không có
DDoS 2016 2016 có có có không gói có (IPs) 2.1M gói không có thông tin tổng hợp không có thông tin không có thông tin không không có
The 2015 IRSC lacks comprehensive packaging and does not provide any substantial information regarding the production network This absence of data raises concerns about the clarity and transparency of the information available.
ISCX 2012 2012 có có có có gói, luồng 2 chiều không 2M luồng 7 ngày giả lập mạng nhỏ có không không có
ISOT 2010 có có có có gói không 11GB gói không có thông tin giả lập mạng nhỏ có không không có
KDD CUP 99 1998 có có có không khác không 5M điểm không có thông tin giả lập mạng nhỏ có có không có
Kent 2016 2016 có có không có thông tin không luồng 1 chiều, nhật ký log có (IPs, cổng, thời gian)
130M luồng 58 ngày thực tế mạng doanh nghiệp có không không không
Kyoto 2006+ 2006 đến 2009 có có có không khác có (IPs) 93M điểm 3 năm thực tế honeypots không không không có
LBNL 2004 / 2005 có có có không gói có 160M gói 5 giờ thực tế mạng doanh nghiệp có không không không
NDSec-1 2016 cần yêu cầu không có không gói, nhật ký log không 3.5M gói không có thông tin giả lập mạng nhỏ có không không có
NGIDS-DS 2016 có có có không gói, nhật ký log không 1M gói 5 ngày giả lập mạng nhỏ có không không có
NSL-KDD 1998 có có có không khác không 150k điểm không có thông tin giả lập mạng nhỏ có có không có
PU-IDS 1998 không có thông tin có có không khác không 200k điểm không có thông tin tổng hợp mạng nhỏ có không không có
PUF 2018 không có thông tin có có không luồng 1 chiều có (IPs) 300k luồng 3 ngày thực tế mạng trường ĐH không không không có (IDS)
SANTA 2014 không có có không khác có (payload) không có thông tin không có thông tin thực tế ISP có không có thông tin không có
SSENET-2011 2011 không có thông tin có có không khác không không có thông tin
4 giờ giả lập mạng nhỏ có không không có
SSENET-2014 2011 không có thông tin có có không khác không 200k điểm 4 giờ giả lập mạng nhỏ có có có có
SSHCure 2013 / 2014 có có có không luồng 1 và 2 chiều, nhật ký log có (IPs) 2.4GB luồng
2 tháng thực tế mạng trường ĐH có không không gián tiếp
TRAbID 2017 có có có không gói có (IPs) 460M gói 8 giờ giả lập mạng nhỏ có có không có
TUIDS 2011 / 2012 cần yêu có có không gói, luồng 2 chiều không 250k luồng 21 ngày giả lập mạng cỡ vừa có có không có
Twente 2008 có không có có luồng 1 chiều có (IPs) 14M luồng 6 ngày thực tế honeypot không không không có
UGR’16 2016 có có có some luồng 1 chiều có (IPs) 16900M luồng 4 tháng thực tế ISP có có không có với nhãn nền
UNIBS 2009 cần yêu cầu có không không Luồng có (IPs) 79k luồng 3 ngày thực tế mạng trường ĐH có không không không
2017 có có không có thông tin không luồng 2 chiều, nhật ký log có (IPs và date)
90 ngày thực tế mạng doanh nghiệp có không không không
UNSW-NB15 2015 có có có có gói, khác không 2M điểm 31 giờ giả lập mạng nhỏ có có không có
Dựa trên kết quả bảng, việc phân tích các dataset cho thấy chúng đều có những đặc điểm khác nhau, như tình trạng chưa cân bằng, chưa được chia sẵn, và một số vẫn chưa được gán nhãn Chẳng hạn, dataset CIC-IDS-2017 thể hiện sự mất cân bằng rõ rệt.
Bộ dữ liệu CIC-DOS-2019 có tỷ lệ 80% benign và 20% attack, với kích thước nhẹ chỉ 843MB, phù hợp cho nhiều dạng tấn công trong hệ thống IDS Dữ liệu này không chỉ tập trung vào tấn công DDoS mà còn áp dụng chung cho các loại IDS khác Đáng chú ý, trong bộ dữ liệu này, benign chỉ chiếm 0.18% so với 99.82% là attack, cho thấy sự chênh lệch lớn giữa các dạng tấn công, đặc biệt là TFTP.
Dữ liệu môi trường thực tế thường gặp phải vấn đề về quyền riêng tư, đặc biệt là khi sử dụng dữ liệu từ các cuộc thi CTF, vì chúng thiếu thông tin người dùng bình thường Việc thu thập dữ liệu trực tiếp có thể xâm phạm quyền riêng tư và gặp phải các vấn đề pháp lý, đồng thời việc truy cập vào dataset cũng đòi hỏi nhiều thủ tục phức tạp Một số nghiên cứu tự tạo hệ thống để thu thập dữ liệu thực tế, nhưng điều này không đảm bảo tính đầy đủ của dữ liệu, dẫn đến ảnh hưởng tiêu cực đến độ chính xác và hiệu quả của dataset.
Nhiều nghiên cứu dựa vào dữ liệu từ các dataset có sẵn, nhưng những dataset này thường không đủ để phản ánh toàn bộ lưu lượng traffic của các loại hình tấn công khác nhau Hơn nữa, việc kết hợp các dữ liệu từ nhiều nguồn khác nhau với dữ liệu tự thu cũng gặp nhiều khó khăn.
Để khắc phục vấn đề này, chúng ta nên sử dụng bộ Dataset được sinh ra từ cùng một công cụ Luận văn này sẽ tập trung vào hai dataset phổ biến nhất hiện nay là CIC-IDS-2017 và CIC-DOS-2019, cả hai đều được phát triển bởi CIC Dữ liệu flow-based được tạo ra từ công cụ CICFlowmeter.
Bộ dữ liệu mới nhất về DDOS tính đến năm 2022 là CIC-DOS-2019 từ Đại học New Brunswick, Canada Dữ liệu này được thu thập trong môi trường giả lập và lưu trữ dưới dạng file PCAP Sau đó, file PCAP được chuyển đổi sang định dạng CSV với 81 đặc trưng thông qua công cụ CICFlowMeter và được gán nhãn Tuy nhiên, một số đặc trưng trong bộ dữ liệu này, giống như trong CIC-IDS-2017, đã được chứng minh là sai hoặc dư thừa Thêm vào đó, bộ dữ liệu cũng gặp khó khăn do kích thước lớn lên tới 29GB.
CSV) gây khó khăn cho việc nghiên cứu (3)
Trong chương 2, chúng tôi đã phân tích các dạng tấn công DDoS hiện nay đang được khai thác liên tục, theo báo cáo của Microsoft Các kỹ thuật tấn công này được cập nhật chi tiết tại mục 4.1.4 Việc bổ sung các hình thức tấn công mới là cần thiết để đảm bảo nhận diện chính xác, tránh các kỹ thuật vượt mặt IDS hiện tại Dataset mới nhất về DDoS là CIC-DOS-2019, nhưng hiện đã 3 năm tuổi và thiếu nhiều kỹ thuật tấn công mới như Memcached, CLDAP, và Chargen.
Luận văn này sẽ nghiên cứu và xây dựng một bộ dữ liệu tấn công mới nhằm bổ sung cho hai bộ dữ liệu hiện có là CIC-IDS-2017 và CIC-DOS-2019, dựa trên các vấn đề đã nêu.
Chúng tôi sẽ cải thiện hai bộ dữ liệu hiện có bằng cách giảm dung lượng, cân bằng tỷ lệ giữa các mẫu tấn công và mẫu bình thường, cũng như bổ sung các dữ liệu tấn công mới nhất.
3.5.2 Phương pháp lựa chọn dataset hiệu quả
Tập dữ liệu được gắn nhãn là yếu tố thiết yếu trong việc đào tạo các phương pháp khai thác dữ liệu giám sát, như thuật toán phân loại, và đánh giá các phương pháp khai thác dữ liệu giám sát cũng như không giám sát Các tập dữ liệu dựa trên mạng có thể so sánh chất lượng của các hệ thống phát hiện xâm nhập (NIDS) khác nhau, nhưng cần đảm bảo tính đại diện cho các nhiệm vụ cụ thể Cộng đồng nghiên cứu đã nhận thức rõ tầm quan trọng của dữ liệu mạng thực tế, với nhiều nguồn cung cấp dữ liệu như tập dữ liệu, kho dữ liệu và trình tạo lưu lượng Bài viết này cũng thiết lập các thuộc tính của tập dữ liệu để so sánh và xác định các tập dữ liệu phù hợp cho các kịch bản đánh giá Cuối cùng, luận văn sẽ thảo luận về các khía cạnh liên quan đến việc sử dụng tập dữ liệu có sẵn và việc tạo ra các tập dữ liệu mới.
Trong bối cảnh số lượng kịch bản tấn công ngày càng gia tăng cùng với sự phát triển của phần mềm và cấu trúc mạng phức tạp, việc có một tập dữ liệu hoàn hảo trở nên cần thiết Tập dữ liệu này cần chứa lưu lượng mạng thực, được cập nhật thường xuyên và gắn nhãn chính xác, bao gồm tất cả các loại tấn công và hành vi bình thường của người dùng Tuy nhiên, một tập dữ liệu hoàn hảo như vậy hiện không tồn tại và có thể sẽ không bao giờ được tạo ra Việc ghi nhãn lưu lượng mạng thực trong thời gian dài là một công việc tốn thời gian, khiến cho tập dữ liệu trở nên lỗi thời do sự xuất hiện liên tục của các kịch bản tấn công mới Mặc dù một số tập dữ liệu hiện có đáp ứng một số thuộc tính của tập dữ liệu hoàn hảo, nhưng hầu hết các ứng dụng không yêu cầu điều này; một tập dữ liệu thỏa mãn các tiêu chí nhất định thường đủ để đánh giá Luận văn này hy vọng sẽ giúp các nhà nghiên cứu tìm ra bộ dữ liệu phù hợp cho các kịch bản đánh giá cụ thể của họ.
Sử dụng nhiều tập dữ liệu là cần thiết trong nghiên cứu phát hiện xâm nhập, vì không có tập dữ liệu mạng nào hoàn hảo Các nghiên cứu cho thấy việc kết hợp nhiều bộ dữ liệu và nguồn dữ liệu khác nhau giúp các nhà nghiên cứu kiểm tra phương pháp của họ một cách hiệu quả hơn Điều này không chỉ giúp tránh tình trạng quá phù hợp với một tập dữ liệu duy nhất mà còn giảm thiểu ảnh hưởng của các yếu tố không mong muốn.
Việc xử lý lưu lượng mạng dựa trên luồng có sự khác biệt rõ rệt giữa môi trường sản xuất và thử nghiệm Do đó, một phương pháp tiếp cận hiệu quả là kết hợp cả dữ liệu tổng hợp và dữ liệu thực tế Để hỗ trợ việc lựa chọn dataset phù hợp, luận văn nghiên cứu sẽ tổng hợp các vấn đề liên quan và đề xuất một bộ dataset mới ở chương sau, nhằm cải thiện những khó khăn trong việc lựa chọn và đánh giá các dataset hiện tại.
XÂY DỰNG BỘ DỮ LIỆU ĐỀ XUẤT
Mô hình đề xuất xây dựng một bộ dữ liệu mới
4.1.1 Kiến trúc mạng mô phỏng
Nghiên cứu này kế thừa từ công trình [10], là nguồn cảm hứng chính cho luận văn Dựa trên mô hình mạng CIC-DOS-2019 như hình bên dưới, luận văn đã đơn giản hóa và xây dựng một mô hình tương đương nhằm đảm bảo hiệu quả của bộ dữ liệu.
Hình 4.1 Mô hình mạng mô phỏng của CIC-DOS-2019 [17]
Hệ thống mạng mô phỏng bao gồm các thành phần chính như sau:
Hình 4.2 Kiến trúc mạng mô phỏng
Hệ thống mạng gồm các phần tử chính
• ISP là đại diện cho nhà mạng cung cấp dịch vụ
• Router 1 kết nối mạng với ISP, đại diện cho các hệ thống mạng của người dùng nào đó tại bất kì đâu
• Router 2 kết nối mạng với ISP, đại diện cho hệ thống mạng doanh nghiệp có triển khai hệ thống server
• PC kết nối với Switch tại Router 2 được cài đặt hệ thống webserver bằng Nginx
• PC kết nối với Router 1 được sử dụng như là người dùng truy cập vào hệ thống cung cấp dịch vụ
Hình 4.3 Kiến trúc mạng mô phỏng trên GNS3
Kiến trúc mạng bao gồm hai máy tính Kali: máy Kali-attacker với địa chỉ IP 192.168.4.10 và máy Kali-victim với địa chỉ IP 192.168.0.20 Hai máy tính này được kết nối với nhau thông qua ba router R1, R2 và R3.
4.1.2 Các kịch bản tấn công
Low Orbit Ion Cannon (LOIC) là một công cụ mã nguồn mở được phát triển bởi Praetox Technologies, ban đầu nhằm mục đích kiểm tra tắc nghẽn mạng Tuy nhiên, LOIC đã trở thành một công cụ phổ biến cho các cuộc tấn công DoS và DDoS Công cụ này cho phép thực hiện các cuộc tấn công TCP Flood, UDP Flood và HTTP Flood bằng cách gửi một lượng lớn gói tin request, gây gián đoạn dịch vụ của mục tiêu.
Hping3 là một công cụ dòng lệnh mạnh mẽ cho phép tạo và gửi các gói tin mạng nhằm mục đích quét và chẩn đoán Tương tự như lệnh ping, hping3 gửi các gói tin ICMP đến máy chủ từ xa để kiểm tra tình trạng hoạt động của nó Ngoài ICMP, hping3 còn có khả năng tạo các gói TCP, UDP và gói tin thô, làm cho nó trở thành một công cụ bảo mật hữu ích để kiểm tra hệ thống mạng Trong kịch bản này, mô hình sử dụng LOIC kết hợp với hping3 để thực hiện tấn công UDP Flood từ máy kali-attacker đến dịch vụ Apache trên cổng 80 của máy kali-victim trong khoảng thời gian 10 phút.
MHDDOS là công cụ tấn công DDoS phổ biến nhất hiện nay, sở hữu 53 kỹ thuật tấn công trên cả Lớp 4 và Lớp 7 Đây là một dự án mã nguồn mở nổi tiếng, với hơn 900 fork và 3,9 nghìn sao trên GitHub Công cụ này sẽ được áp dụng trong kịch bản tấn công để bổ sung các kỹ thuật mà hai bộ dữ liệu trước đó chưa có, với mỗi kịch bản tấn công kéo dài 10 phút.
Hình 4.4 Công cụ tấn công MHDDoS
4.1.2.2 Kịch bản tấn công qua giao thức (Protocol attack)
• Kịch bản 1: TCP Flood sử dụng LOIC,hping3
• Kịch bản 2: UDP Flood sử dụng LOIC, hping3
• Kịch bản 3: HTTP Flood sử dụng LOIC
Tấn công sử dụng công cụ MHDDOS:
• Kịch bản 4: Valve Source Engine Protocol (VSE)
• Kịch bản 5: Teamspeak 3 Status Ping Protocol (TS3)
• Kịch bản 6: Fivem Status Ping Protocol (FIVEM)
• Kịch bản 7: Minecraft PE Status Ping Protocol (MCPE)
4.1.2.3 Kịch bản tấn công khuyến đại (Amplification attack):
Tấn công sử dụng công cụ MHDDOS:
• Kịch bản 8: Remote Desktop Protocol (RDP)
• Kịch bản 9: Apple Remote Desktop (ARD)
• Kịch bản 10: Connection-less Lightweight Directory Access Protocol (CLDAP)
Mô hình thu thập và tiền xử lý dữ liệu:
Hình 4.5 Mô hình thu thập dữ liệu và xử lý dữ liệu thông qua wireshark,
Các cuộc tấn công mạng thường được thực hiện từ máy tính của kẻ tấn công, sử dụng lưu lượng lớn để gây tắc nghẽn đường truyền hoặc làm cạn kiệt tài nguyên của máy chủ.
Sau đó, thực hiện 12 kịch bản tấn công như đã xác định
Lưu lượng mạng sẽ được chuyển qua router 1, router ISP, router 2 và đến máy tính của nạn nhân, trong khi Wireshark được đặt tại router 2 để ghi lại tất cả lưu lượng mạng truy cập vào phân vùng máy chủ Điều này cho phép model AI nắm bắt toàn bộ lưu lượng mạng mà không cần triển khai trên từng máy, tiết kiệm tài nguyên Hơn nữa, cách triển khai này hỗ trợ việc mở rộng và thêm mới thiết bị trong phân vùng mạng nội bộ mà không ảnh hưởng đến khả năng quan sát và dự đoán tình trạng mạng của model AI.
Dữ liệu pcap từ Wireshark sẽ được xử lý qua công cụ CICFlowmeter để trích xuất 80 đặc trưng lưu lượng Quá trình này đảm bảo rằng bộ dữ liệu tạo ra tương thích với các bộ dữ liệu CIC-IDS-2017 và CIC-DDOS 2019, giúp mô hình AI có thể hiểu và phân tích thông qua các đặc trưng số.
Nghiên cứu này không yêu cầu ghi lại các cuộc tấn công DoS Slowloris, DoS Goldeneye và DoS Slow httptest, vì bộ dữ liệu CIC-DOS-2019 đã bao gồm 99% lưu lượng tấn công, mà các cuộc tấn công này cũng đã được xem xét trong CIC-IDS-2017 Tuy nhiên, luận văn vẫn cần tiến hành tạo ra các cuộc tấn công UDP flood, TCP flood và HTTP flood.
CIC-DOS-2019 đã thực hiện các cuộc tấn công SYN và UDP, nhằm cải thiện khả năng cân bằng giữa các loại tấn công và tối ưu hóa lưu lượng tấn công UDP, TCP và HTTP.
Về dữ liệu truy cập bình thường
Bài luận văn này giải quyết vấn đề thu thập dữ liệu thực tế và mô phỏng chính xác lưu lượng Internet thông thường bằng cách khai thác lưu lượng mạng lành tính có sẵn trong các tập dữ liệu CIC-IDS-2017 và CIC-DOS-2019 Để giảm thiểu ảnh hưởng của sự mất cân bằng lớp, số lượng lưu lượng truy cập lành tính trong hai tập dữ liệu này đã được giảm bớt mà không làm tăng đáng kể phân loại nhóm tấn công theo hướng chủ quan.
Về dữ liệu tấn công
Luận văn sẽ sử dụng dữ liệu tấn công từ bộ CIC-DOS-2019 và CIC-IDS-2017, đồng thời thu thập dữ liệu tấn công mới trong mô hình giả lập GNS3 Dữ liệu sẽ được chuyển đổi từ định dạng PCAP sang tệp CSV bằng công cụ CICFlowMeter Tất cả các dữ liệu này đều liên quan đến các cuộc tấn công, do đó luận văn sẽ gán nhãn cho các địa chỉ này là tấn công.
Bộ dữ liệu mới này mang lại lợi ích đáng kể trong việc giải quyết vấn đề mất cân bằng lớp bằng cách tăng cường số lượng mẫu mạng độc hại Việc loại bỏ các cuộc tấn công không phải DDoS và nhóm các vectơ tấn công DDoS phổ biến như UDPLag trong CIC-DOS2019 thành UDP đã giúp cải thiện sự cân bằng giữa các loại tấn công Hiện tại, lưu lượng mạng độc hại chiếm 40% tổng lưu lượng trong BKID, trong khi con số này chỉ là 20% trong CIC-IDS-2017 và 99,817% trong CIC-DOS-2019, như được thể hiện trong bảng dưới đây.
Bảng 4.1 Phân phối các nhãn trong CIC-IDS-2017 và CIC-DOS-2019
DoS Golden Eye 10,293 0.36% DrDoS_DNS 245,654 9.47%
Cụ thể, các kỹ thuật mới thu được là:
• Amplification attack: RDP, ARD, CLDAP, CHAR, MEM
• Application attack: VSE, TS3, FIVEM, MCPE
Sau khi tiến hành các kịch bản tấn công và thu thập dữ liệu, các file lưu lượng từ các dạng tấn công đã được tổng hợp với bộ dữ liệu CIC-IDS-2017 và CIC-DOS.
2019 được thể hiện trong bảng sau:
Bảng 4.2 Thống kê các file lưu lượng tấn công trong dataset mới
STT Tên file Loại tấn công
1 tcpflood.pcap_Flow.csv TCP Flood
2 udpflood.pcap_Flow.csv UDP Flood
3 httpflood.pcap_Flow.csv HTTP Flood
4 vse.pcap_Flow.csv Valve Source Engine Protocol
5 ts3.pcap_Flow.csv Teamspeak 3 Status Ping Protocol
6 fivem.pcap_Flow.csv Fivem Status Ping Protocol
7 mcpe.pcap_Flow.csv Minecraft PE Status Ping Protocol
8 rdp.pcap_Flow.csv Remote Desktop Protocol
9 ard.pcap_Flow.csv Apple Remote Desktop
10 cldap.pcap_Flow.csv Connection-less Lightweight
11 char.pcap_Flow.csv Chargen attack
12 mem.pcap_Flow.csv Memcached attack
13 goldeneye.pcap_Flow.csv Goldeneye attack
14 hulk.pcap_Flow.csv Hulk attack
15 httpslow.pcap_flow.csv HTTP Slow attack
16 tftp.pcap_flow.csv TFTP attack
17 snmp.pcap_flow.csv SNMP attack
18 dns.pcap_flow.csv DNS attack
19 mssql.pcap_flow.csv MSSQL attack
20 netbios.pcap_flow.csv Netbios attack
21 ssdp.pcap_flow.csv SSDP attack
22 ldap.pcap_flow.csv LDAP attack
23 ntp.pcap_flow.csv NTP attack
24 portmap.pcap_flow.csv Portmap attack
Các vấn đề khi ghép các bộ dữ liệu
• Xử lý việc chênh lệch số feature giữa 03 bộ dữ liệu:
• Chạy lại công cụ CICFlowMeter cùng phiên bản V3 với dữ liệu PCAP, copy lại gán nhãn cũ
• Xử lý lại tên các feature bị thay đổi
• Xử lý chênh lệch giữa các dạng tấn công
• Gom nhóm dạng tấn công có tỉ lệ thấp (UDPLag -> UDP)
• Điều chỉnh lượng data point giữa các dạng tấn công
• Bổ sung thêm các tấn công mới
• Loại bỏ các feature có vấn đề đã biết(~10) Ưu điểm của bộ dữ liệu
• (1) Dung lượng nhỏ hơn Bộ dữ liệu mới có dương lượng ~6GB so với 29GB của CIC-DOS-2019
• (2) Phân bố đều giữa các nhãn:
• Benign / DDoS (40% DDoS /60% Benign) (bản mới nhất là
• Phân bố đều giữa các loại tấn công DDoS
• (3) Đa dạng hơn về kỹ thuật tấn công
BKID 2022 bao gồm 24 loại kỹ thuật tấn công được nhóm lại theo sự tương đồng, giúp tận dụng các dạng lưu lượng có sẵn trong bộ dữ liệu CIC-IDS-2017 và CIC-DOS-2019 Việc tạo ra lưu lượng bình thường cho một mô hình mạng cụ thể thường gặp khó khăn, do việc phân loại lưu lượng trong mạng lành tính hay tấn công, cũng như sự không chính xác của mô hình mô phỏng Một lợi ích khác của phương pháp này là tạo ra sự cân bằng dữ liệu cho các loại tấn công khác nhau.
Hình 4.6 Tỉ lệ phân bố dữ liệu Benign và DDoS
Mô hình kiểm thử với các thuật toán học máy
4.2.1 Tiền xử lý dữ liệu
Trong bài viết này, tác giả tổng hợp các nghiên cứu hiện có về các thuật toán học máy phổ biến trong việc phát hiện tấn công DoS/DDOS Tác giả sẽ đề xuất một mô hình học máy mới và so sánh hiệu suất của nó với các thuật toán khác Để thực hiện nghiên cứu, tác giả sử dụng các bộ dữ liệu như CIC-IDS.
Năm 2017 và 2019, tác giả đã sử dụng tập dữ liệu CICDDoS để luyện tập và kiểm thử Sau khi hoàn tất quá trình xử lý dữ liệu và lựa chọn thuật toán phù hợp, tác giả tiến hành đánh giá và xác định các trường dữ liệu có ảnh hưởng lớn nhất đến việc phát hiện các cuộc tấn công DoS/DDOS trong mô hình luyện tập.
Quá trình xử lý dữ liệu
Bộ dữ liệu CIC-IDS-2017 và CICDDoS2019 có kích thước lớn, đòi hỏi sự xử lý cẩn thận để tối ưu hóa hiệu quả mô hình Bước đầu tiên là loại bỏ các trường không cần thiết với ảnh hưởng thấp và giữ lại các trường quan trọng Luận văn này sẽ nghiên cứu và phân tích các nghiên cứu trước đó về đánh giá dataset cũng như ứng dụng học máy cho các bộ dữ liệu này.
Trong nghiên cứu này, luận văn áp dụng các thư viện Pandas, Scikit-Learn và Numpy để xử lý dữ liệu cho ba bộ dữ liệu khác nhau Quá trình xử lý dữ liệu được thực hiện một cách hiệu quả và chính xác.
Các tính năng như flow-id, src-ip, src-port, dst-ip và timestamp đã bị loại bỏ do không liên quan đến nhãn luồng trong thiết lập này Ngoài ra, các mẫu dữ liệu chứa giá trị NaN và Inf cũng đã được loại bỏ.
Due to issues with incorrect calculations of certain features, several features that consistently returned null values were eliminated, including 'Bwd PSH Flags', 'BwdURG Flags', 'Fwd Avg Bytes/Bulk', 'Fwd Avg Packets/Bulk', 'Fwd Avg Bulk Rate', 'Bwd Avg Bytes/Bulk', 'Bwd Avg Packets/Bulk', and 'Bwd Avg Bulk Rate'.
• Loại bỏ 4 feature bị trùng lặp trong file: Aver-age Packet Size" and "Packet Length Mean; FwdPacket Length Mean and Fwd Segment Size Avg
• Các mẫu dữ liệu được gắn nhãn là lành tính hoặc kiểu tấn công tương ứng
• Toàn bộ tập dữ liệu được chia thành tập huấn luyện và thử nghiệm theo tỷ lệ 8 đến 2
Từ những dữ liệu đặc trưng trích xuất, tác giả tiến hành kết hợp để tạo ra bộ dữ liệu mới
1 Dữ liệu được làm sạch, loại bỏ các cột chứa những thông tin không quan trọng như “ flow id”, “src ip”, “ src port”, “dst ip” , “ timestamp” Sau đó loại bỏ tiếp các hàng chứa các kí tự NaN, Inf Đó là các lưu lượng bị lỗi trong khi thu thập thông tin
2 Sau đó dữ liệu được gán lại nhãn Với bài toán anomaly, các lưu lượng benign giữ nguyên nhãn, các lưu lượng tấn công khác nhau được gán chung một nhãn là DoS/DDOS với bài toán multiple DoS/DDOS detection, các nhãn của dữ liệu được giữ nguyên cho việc training model
4 Chia dữ liệu thành 2 tập training data và testing data Tập trainning data chiếm 80% dữ liệu và testing data chiếm 20% dữ liệu
Hình 4.7 Mô hình huấn luyện model AI
1 Training data được sử dụng để huấn luyện các thuật toán machine learning và deep learning để tạo ra được model AI hoàn chỉnh
2.Testing data được sử dụng để kiếm thử model AI đã xây dựng thông qua các chỉ số như accuracy, recall, f1 score
4.2.3 Đánh giá độ chính xác
Accuracy Đây là cách đơn giản nhất để đánh giá mô hình tốt hay xấu Trong bài toán phân lớp "accuracy" hay "độ chính xác" được tính như sau:
Để đánh giá mô hình, ta có thể sử dụng chỉ số accuracy, tính bằng tỉ lệ giữa số điểm dự đoán đúng và tổng số điểm trong tập dữ liệu kiểm thử Mặc dù còn một số hạn chế, accuracy vẫn cung cấp cái nhìn tổng quát về khả năng dự đoán của mô hình trên toàn bộ tập dữ liệu, do đó rất phù hợp cho việc đánh giá tổng thể hiệu suất của mô hình.
Với mỗi nhãn, chúng ta có thể cần tới 4 đại lượng để đong đếm mô hình dự đoán tốt như thế nào trên nhãn đó Cụ thể với nhãn X:
• TP - True Positive: Đại lượng này cho ta biết số lượng dữ liệu dự đoán đúng trên nhãn X
FP - False Positive là chỉ số cho biết số lượng dữ liệu được dự đoán là nhãn X nhưng thực tế không phải là nhãn X, cho thấy mô hình đã dự đoán sai.
TN - True Negative là chỉ số cho biết số lượng dữ liệu được dự đoán không thuộc nhãn X và thực tế cũng không phải là nhãn X Khi xảy ra trường hợp này, mô hình dự đoán chính xác vì đã không xác định sai nhãn.
False Negative (FN) là chỉ số cho biết số lượng dữ liệu được dự đoán không thuộc nhãn X, nhưng thực tế lại đúng là nhãn X Điều này cho thấy mô hình đã dự đoán sai khi không nhận diện được dữ liệu là nhãn X.
Hình 4.8 TP/FP/TN/FN
Việc đánh giá từng nhãn thông qua bốn đại lượng cho phép chúng ta xác định mức độ chính xác của mô hình trong việc dự đoán nhãn, nhận diện khả năng nhầm lẫn sang nhãn khác và kiểm tra tính thiên lệch trong dự đoán Mỗi nhãn đều có những đặc điểm riêng cần được xem xét kỹ lưỡng.
4 đại lượng, điều này khiến cho việc quyết định mô hình nào tốt hơn vẫn không hề dễ dàng
Công thức về tính chính xác tổng hợp lại là:
Precision là chỉ số thể hiện khả năng của mô hình trong việc dự đoán đúng nhãn X, và nó phụ thuộc vào số lượng FP (False Positive) hơn là TP (True Positive) Khi Precision cao, điều đó đồng nghĩa với việc số lượng nhãn dự đoán nhầm sang nhãn X là thấp Trong khi đó, Recall đo lường khả năng của mô hình trong việc không bỏ sót nhãn X, và cũng phụ thuộc vào FN (False Negative), tức là khả năng dự đoán sai nhãn đúng là X Ngoài Precision và Recall, còn có các chỉ số tương tự như Sensitive, nhưng chỉ với hai chỉ số này, chúng ta đã có thể tập trung vào việc giảm thiểu FN và FP.
2 thành phần khiến cho mô hình của ta dự đoán kém chính xác
Chúng ta luôn mong muốn cả Precision và Recall đều cao, nhưng thường phải đánh đổi giữa hai tham số này Precision cao thường dẫn đến Recall thấp và ngược lại, vì khi Precision cao, mô hình cần phải rất chắc chắn mới dám dự đoán nhãn X, điều này có thể khiến nó bỏ sót những dữ liệu thực sự thuộc nhãn X Do đó, để tối ưu hóa mô hình mà không phải quá chú trọng vào một trong hai tham số, chúng ta cần kết hợp cả hai metric này thành một, và F1 score được sử dụng như một chỉ số tổng quát cho hiệu suất của mô hình.
Đánh giá kết quả
4.3.1 Lựa chọn tham số cho các thuật toán Machine Learning
Trong mô hình KNN, việc lựa chọn số lượng điểm lân cận K là yếu tố quyết định đến độ chính xác của dự đoán Nếu giá trị K quá nhỏ, thuật toán có thể đưa ra dự đoán sai về nhãn của điểm cần phân lớp do thiếu thông tin Ngược lại, nếu K quá lớn, thời gian cho giai đoạn huấn luyện sẽ kéo dài, dẫn đến việc tiêu tốn nhiều tài nguyên hệ thống.
Hình 4.9 kNN - Biểu đồ phụ thuộc giữa giá trị K và accuracy
Biểu đồ cho thấy, khi K = 5, đồ thị đạt giá trị cực đại và bắt đầu ổn định Tại điểm K = 5, thuật toán đạt được một điểm local maximum với giá trị accuracy cao nhất Việc xác định điểm local maximum thường khả thi hơn so với tìm kiếm điểm global maximum, vì nó tiêu tốn ít thời gian training và vẫn đảm bảo giá trị accuracy khá cao.
Trong thuật toán AdaBoost, việc xác định số lượng cây quyết định (n) tham gia vào quá trình phân lớp là rất quan trọng Nếu n quá nhỏ, số lượng cây quyết định không đủ để đạt được hiệu quả cao trong phân lớp Các thuật toán boosting chủ yếu dựa vào việc các weak learner hỗ trợ nhau để nâng cao độ chính xác Do đó, việc có quá ít weak learner sẽ làm giảm hiệu quả của các thuật toán này.
Hình 4.10 AdaBoost - Biểu đồ phụ thuộc giữa giá trị n và accuracy
Dựa vào đồ thị, khi giá trị của n đạt 100, thuật toán đạt được độ chính xác (accuracy) cao nhất Do đó, điểm cực đại cục (local maximum) được xác định tại giá trị n bằng 100.
Trong thuật toán Random Forest, xác định số lượng n cây quyết định tham gia vào quá trình phân lớp là rất quan trọng Nếu n quá nhỏ, hiệu quả của việc chọn mẫu và đặc trưng sẽ giảm sút, dẫn đến việc bỏ sót nhiều mẫu và đặc trưng chưa được sử dụng trong bất kỳ cây quyết định nào.
Hình 4.11 Random Forest - Biểu đồ phụ thuộc giữa giá trị n và accuracy
Theo biểu đồ, khi n ≥ 50, giá trị accuracy của mô hình giảm không đáng kể, cho thấy thuật toán đạt local maximum tại n bằng 50 Khi tăng n, accuracy chỉ giảm rất ít và đồ thị gần như đi ngang Hơn nữa, việc tăng n ảnh hưởng lớn đến thời gian huấn luyện mô hình và không tiết kiệm tài nguyên máy tính.
4.3.2 Kết quả Anomaly detection Machine Learning
Bảng 4.3 Bảng so sánh accuracy, precision, recall, f1 của các thuật toán học máy giữa 3 bộ dữ liệu
Bộ dữ liệu Thuật toán Accuracy Precision Recall F1
Based on the comparative results, the accuracy, precision, recall, and F1 scores of the algorithms improved on the BKID DDOS 2022 dataset Specifically, the KNN algorithm showed increases of 0.06%, 0.57%, and 0.28% in accuracy, precision, and F1 score, respectively, compared to the CIC IDS 2017 dataset, and increases of 0.46%, -0.14%, and 0.98% when compared to the CIC-DOS-2019 dataset, marking the highest improvement among the three tested algorithms Additionally, the AdaBoost algorithm achieved the highest recall increase of 0.29% and 0.52%.
Bộ dữ liệu BKID DDOS 2022 cho thấy hiệu năng cao của các thuật toán, đặc biệt là thuật toán Random Forest với độ chính xác đạt 99.96% So với bộ dữ liệu cũ, bộ dữ liệu mới không chỉ giảm tỷ lệ cảnh báo lỗi mà còn cải thiện tỷ lệ dự đoán đúng nhãn Sự chênh lệch về accuracy, precision, recall và f1 giữa ba thuật toán cũng được thu hẹp Cụ thể, accuracy của KNN chỉ thấp hơn Random Forest 0.29%, và sự chênh lệch này nhỏ hơn 0.04% và 0.41% so với bộ dữ liệu CIC-IDS-2017 và CIC-DOS-2019 Đối với thuật toán AdaBoost, chênh lệch với Random Forest giảm 0.02% và 0.75% so với bộ dữ liệu 2017 và 2019 Điều này cho phép các mô hình AI sử dụng thuật toán đơn giản hơn, tiết kiệm tài nguyên máy tính và thời gian training mà vẫn đạt hiệu năng cần thiết.
Bảng 4.4 Bảng so sánh kết quả accuracy của từng loại tấn công
CIC-IDS-2017 CIC-DOS-2019 BKID DDOS 2022
Dựa trên dữ liệu so sánh kết quả độ chính xác của các loại tấn công, việc sử dụng bộ dữ liệu BKID DDOS 2022 đã cải thiện đáng kể (~20%) hiệu suất phát hiện cho hầu hết các hình thức tấn công, đặc biệt là các dạng tấn công DDoS mới được bổ sung Điều này cho thấy rằng nghiên cứu dựa trên bộ dữ liệu mới có khả năng phát hiện và nhận diện hiệu quả hơn các hình thức tấn công mới Trong cả ba bộ dữ liệu, thuật toán Random Forest đạt kết quả tốt nhất.