So sánh các thuật toán học máy trong phát hiện tấn công DDoS

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	5
Dung lượng	335,46 KB

Nội dung

Bài viết So sánh các thuật toán học máy trong phát hiện tấn công DDoS hướng tới đánh giá các thuật toán học máy: Thuật toán K láng giềng gần nhất (K-nearest neighbor - KNN), cây quyết định (Decision Tree), thuật toán rừng ngẫu nhiên (Random Forest) và máy vector hỗ trợ (Support Vector Machine - SVM) trên các chỉ số đánh giá khác nhau trong việc phát hiện các cuộc tấn công DDoS. Mời các bạn cùng tham khảo!

So Sánh Thuật Toán Học Máy Phát Hiện Tấn Cơng DDoS TS Đồn Trung Sơn Khoa An ninh thông tin, Học viện An ninh nhân dân Hà Nội, Việt Nam son.doantrung@gmail.com Nguyễn Thị Khánh Trâm Đại học Công nghệ, Đại học Quốc gia Hà Nội Hà Nội, Việt Nam Khanhtramt2k23@gmail.com Tóm tắt - Tấn cơng từ chối dịch vụ xuất từ năm khởi nguyên thời đại internet Song hành phát triển bùng nổ mạng Internet, công từ chối dịch vụ ngày mạnh mẽ trở thành mối đe dọa nghiêm trọng không gian mạng Bài báo hướng tới đánh giá thuật toán học máy: Thuật toán K láng giềng gần (K-nearest neighbor - KNN), định (Decision Tree), thuật toán rừng ngẫu nhiên (Random Forest) máy vector hỗ trợ (Support Vector Machine - SVM) số đánh giá khác việc phát công DDoS Cuối năm 1999, CERT lần đầu công bố báo cáo mối đe dọa công từ chố dịch vụ, đồng thời đưa hành động ngăn chặn cụ thể để giảm thiểu mối đe dọa [2] Vài tháng sau, Internet bị công DDoS quy mô lớn [3], liên tục xuất nhiều vụ công với quy mô ngày lớn năm sau Kể từ đó, nhà nghiên cứu phân tích số cơng cụ sử dụng để khởi động công từ chối dịch vụ [4, 5, 6], đo lường tác động chúng Internet đưa số phương pháp phịng thủ [7] Theo đó, nỗ lực nghiên cứu đạt kết số sản phẩm chống DDoS hiệu đáng tin cậy cung cấp dạng thiết bị độc lập dịch vụ dựa đám mây Những năm gần đây, với phát triển mạnh mẽ trí tuệ nhân tạo, phương pháp học máy học sâu sử dụng ngày nhiều việc phát công từ chối dịch vụ Sambadi Gondi đề xuất phương pháp tiếp cận theo hướng sử dụng hồi quy tuyến tính bội để phát cơng DDoS [8] P Sangkatsanee cộng [9 xây dựng chế phát theo thời gian thực áp dụng kỹ thuật học máy Trong đề xuất 12 đặc trưng lưu lượng mạng thiết yếu, sở phân biệt liệu thơng thường DDoS Sofi cộng [10] nâng cấp tập liệu gồm 27 đặc trưng năm lớp lưu lượng truy cập khác Bốn thuật toán học máy Naive Bayes, SVM, định MLP áp dụng để xác định cơng DDoS Trong đó, thuật tốn MLP cho kết tốt Mahadev cộng [11] sử dụng trình phân loại Naive Bayes cơng cụ weka để phân tích luồng lưu lượng mạng phát mang lại độ xác 99% việc phát công DDoS S Duque cộng [12] nhận thấy thuật toán phân cụm k-mean cho hiệu tăng lên với việc sử dụng số lượng cụm Hơn nữa, lưu ý với tăng số lượng cụm số lượng kiểu liệu, tỷ lệ âm tính giả, tỷ lệ phát giảm, tỷ lệ dương tính giả tăng lên Abstract— Denial of service attacks have been around since the dawn of the internet age Along with the development and explosion of the Internet, denial of service attacks are also increasingly powerful and become a serious threat in cyberspace The article aims to evaluate the machine learning algorithms: K-nearest neighbor (KNN), Decision Tree, Random Forest and support vector machine (SVM) on different evaluation indexes in detecting the DDoS attack Từ khoá— DDoS, KNN, Decision tree, Random forest, SVM I GIỚI THIỆU Tấn công từ chối dịch vụ phân tán DDoS (Distributed Denial of Service) thực cách tăng lượng truy cập trực tuyến từ nhiều nguồn đến máy chủ Từ khiến máy chủ cạn kiệt tài nguyên lẫn băng thông DDoS lần đầu xuất vào năm 1999 Việt Nam đứng trước nguy lớn bị công phát tán công từ chối dịch vụ (DDoS) với vị trí thứ tồn cầu sau Trung Quốc, Mỹ, Pháp, Nga Brazil, đứng vị trí thứ khu vực Châu Á Thái Bình Dương đứng đầu khu vực Đông Nam Á [1] DDoS liên quan đến việc thực yêu cầu từ mạng máy tính tạo thành từ hàng triệu máy tính với địa IP khác mà quyền kiểm sốt thiết lập trước (botnet) Máy khai thác bao gồm máy tính tài nguyên nối mạng khác thiết bị IoT Chúng cộng hưởng lại tạo “đợt sóng thần” traffic Một cơng DDoS hiểu giống vụ tắc đường bất ngờ làm tắc nghẽn đường cao tốc, ngăn không cho giao thơng thơng thường đến đích Do phân tán thành nhiều điểm truy cập có dải IP khác nhau, DDoS mạnh DoS nhiều thường khó để nhận biết ngăn chặn công DDoS Các kiểu công DDoS khác nhắm vào thành phần khác kết nối mạng Dựa mục tiêu hành vi, phân loại công DDoS thành ba loại công lưu lượng/ phân mảnh, công băng thông/ khối lượng công tầng ứng dụng II NỘI DUNG A Thuật Toán Học Máy Bốn thuật toán để thực phát hành vi công từ chối dịch vụ báo đề cập đến KNN, Decision Tree, Random Forest SVM Đây thuật toán học máy cổ điển thường sử dụng phổ biến KNN Thuật tốn K hàng xóm gần (KNN) thuật tốn học có giám sát đơn giản (mà hiệu 93 vài trường hợp) học máy Khi huấn luyện, thuật toán khơng học điều từ liệu huấn luyện, tính tốn thực cần dự đoán kết liệu Với KNN, toán phân loại, nhãn điểm liệu suy trực tiếp từ K điểm liệu gần tập huấn luyện cách sử dụng thước đo khoảng cách khoảng cách Euclidean, khoảng cách Manhattan khoảng cách Minkowski Bước Chọn mẫu ngẫu nhiên từ tập liệu cho Bước Thiết lập định cho mẫu nhận kết dự đoán từ định Bước Bỏ phiếu cho kết dự đoán Bước Chọn kết dự đoán nhiều dự đốn cuối Ngồi ra, Random Forest có đặc điểm ý sau: - Tập hợp không liên quan đến thực chung tác vụ tốt so với việc tính - Giả sử độc lập với tỷ lệ lỗi, có tương quan với nhằm đảm bảo tính độc lập - Việc chọn đặc trưng phải đủ tốt để phân loại tốt so với việc chọn ngẫu nhiên - Khả dự đoán lỗi có tương quan với SVM Máy vector hỗ trợ (SVM) thuật tốn học máy có giám sát sử dụng phổ biến ngày toán phân lớp (Classification) hay hồi qui (Regression) Hình Cơng thức tính khoảng cách KNN SVM đề xuất Vladimir N Vapnik đồng nghiệp ông vào năm 1963 Nga sau trở nên phổ biến năm 90 nhờ ứng dụng giải toán phi tuyến tính (Nonlinear) Các bước thực hiện: Bước Tính tốn khoảng cách Bước Tìm láng giềng gần Bước Dự đoán nhãn Decision Tree Decision Tree - Cây Quyết định thuật tốn học có giám sát phi tham số sử dụng để phân loại hồi quy Các phương pháp tạo mơ hình có độ xác cao, ổn định dễ theo dõi, loại bỏ thuộc tính khơng cần thiết Mỗi nút tương đương với biến, cung tới nút tương ứng với giá trị biến Các tương ứng với giá trị đích dự đốn cho biến Học định phương pháp thơng dụng khai phá liệu Trong định mô tả cấu trúc mà đại diện cho lớp nhánh biểu diễn kết hợp đặc trưng dẫn dắt tới việc phân lớp Một định học cách chia tập nguồn thành tập dựa giá trị thuộc tính kiểm tra Q trình lặp lại tập thu Quá trình đệ quy kết thúc chia tiếp phần tử tập gán nhãn Cây định mơ tả cách tính tốn xác suất có điều kiện Cây định mô tả kết hợp kỹ thuật tốn học tính tốn nhằm hỗ trợ việc mơ tả, phân loại tổng qt hóa tập liệu cho trước Hình Mơ hình lựa chọn siêu phẳng SVM Ý tưởng SVM tìm siêu phẳng (Hyper Lane) để phân tách điểm liệu Siêu phẳng chia không gian thành miền khác miền chứa loại liệu Siêu phẳng tối ưu mà cần chọn siêu phẳng phân tách có lề lớn Lý thuyết học máy siêu phẳng cực tiểu hóa giới hạn lỗi mắc phải B Xử Lý Dữ Liệu Tham Số Thực Hiện Tập liệu Random forest Random Forest xây dựng nhiều định thuật toán Decision Tree, nhiên định khác (có yếu tố ngẫu nhiên) Sau kết dự đoán tổng hợp từ định Random forest thuật tốn họ có giám sát, giải tốn hồi quy phân lớp Random Forest hoạt động theo bước: Tập liệu thu thập chứa bốn loại công DDoS sau: (HTTP Flood, SIDDOS, UDP Flood) khơng có ghi thừa trùng lặp Bảng liệt kê số lượng ghi kiểu công Bảng cho thấy đặc trưng xử lý tập liệu 94 BẢNG I SỐ LƯỢNG BẢN GHI CỦA TẬP DỮ LIỆU THEO CÁC KIỂU TẤN CƠNG Kiểu cơng Số lượng ghi SIDDOS 6550 UDP Flood 201344 HTTP Flood 4110 BẢNG II STT 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 ĐẶC TRƯNG ĐÃ XỬ LÝ CỦA TẬP DỮ LIỆU Mô tả SRC ADD DES ADD PKT ID FROM NODE TO NODE PKT TYPE PKT SIZE FLAGS FID SEQ NUMBER NUMBER OF PKT NUMBER OF BYTE NODE NAME FROM NODE NAME TO PKT IN PKTOUT PKTR PKT DELAY NODE PKTRATE BYTE RATE PKT AVG SIZE UTILIZATION PKT DELAY PKT SEND TIME PKT RESEVED TIME FIRST PKT SENT LAST PKT RESEVED Loại Đơn vị liên tục Đơn vị liên tục Đơn vị liên tục Đơn vị liên tục Đơn vị liên tục Đơn vị liên tục Đơn vị liên tục Đơn vị tượng trưng Đơn vị liên tục Đơn vị liên tục Đơn vị liên tục Đơn vị liên tục Đơn vị tượng trưng Đơn vị tượng trưng Đơn vị liên tục Đơn vị liên tục Đơn vị liên tục Đơn vị liên tục Đơn vị liên tục Đơn vị liên tục Đơn vị liên tục Đơn vị liên tục Đơn vị liên tục Đơn vị liên tục Đơn vị liên tục Đơn vị liên tục Đơn vị liên tục Hình Quy trình xây dựng tập liệu Xử lý liệu Với dataset nêu trên, tiến hành xử lý liệu trước đưa vào thực nghiệm Các thông tin đầu vào phải xử lý với chi phí Do đó, làm liệu ln bước việc thiết kế mơ hình học máy Tiến hành loại bỏ đặc trưng dạng tượng trưng (Symbolic) PKT_TYPE, FLAGS, NODE_NAME_FROM , NODE_NAME_TO, PKT_CLASS đặc trưng không quan trọng SRC_ADD, DES_ADD Do tập liệu có số lượng ghi thuộc hành vi bình thường tương đối cao, để cân đối cho mơ hình học máy, lấy 10000 ghi cho nhãn Normal UDP Flood Bộ liệu đầu vào chia thành tập huấn luyện kiểm thử theo tỷ lệ 7:3 Lựa chọn siêu tham số Điều chỉnh siêu tham số (Hyperparameter Tuning) bước quan trọng kỹ thuật học máy Siêu tham số tham số người dùng xác định trước lại điều khiển q trình huấn luyện mơ hình đóng vai trị quan trọng việc định hiệu suất mơ hình Q trình điều chỉnh tham số thường thực duyệt qua lưới tham số định trước Lưới tham số giá trị xác định, ngẫu nhiên tuân theo phân phối điều kiện xác định Trong báo này, sử dụng lưới tham số có giá trị xác định bảng sau: Hệ thống thu thập liệu đề xuất thực theo bước sau: BẢNG III - Thu thập kiểm tra: tất lưu lượng mạng từ NIDS thu thập kiểm tra Thuật toán KNN DT - Định dạng liệu tiền xử lý: loại bỏ ghi thừa trùng lặp - Trích xuất đặc trưng: trích xuất tham số đặc trưng từ lưu lượng mạng thu thập gán đặc trưng cho cột liệu; chúng sử dụng vectơ tập liệu - Các phép đo thống kê: bước này, đặc trưng tính tốn bổ sung cách sử dụng phương trình thống kê RF SVM 95 LƯỚI SIÊU THAM SỐ Tên tham số Giá trị Số hàng xóm Hàm đánh giá [10, 100, 1000] Gini impurity Information gain (Entropy) Số [10, 100, 1000] [-1, 1, 3] [-1, 1, 3] 𝐶 𝛾 Hình Lựa chọn siêu tham số Chỉ số đánh giá kết Các số dùng để đánh giá kết gồm: - Accuracy (độ xác): Là tỷ lệ số điểm dự đoán tổng số điểm tập liệu kiểm thử Hình Đường cong ROC thuật tốn - Precision (độ xác) hay Positive predictive value (PPV): Là tỉ lệ số điểm hành vi công mà mơ hình dự đốn tổng số điểm mơ hình dự đốn hành vi cơng Chỉ số Precision cao, tức số điểm mơ hình dự đốn hành vi cơng hành vi công nhiều Precision = 1, tức tất số điểm mơ hình dự dốn hành vi cơng đúng, hay khơng có điểm có nhãn hành vi bình thường mà mơ hình dự đốn nhầm hành vi cơng Bên cạnh đó, kết thực nghiệm đánh giá dựa vào đường cong ROC (Receiver Operating Characteristic), biểu đồ đồ họa minh họa hiệu suất hệ thống phân loại nhị phân Mỗi điểm đường cong ROC tọa độ tương ứng với tần suất dương tính thật (độ nhạy) trục tung tần suất dương tính giả (1-độ đặc hiệu) trục hồnh Đường biểu diễn lệch phía bên bên trái phân biệt trạng thái rõ Đường cong ROC chạy thuật toán ghi lại hình Giá trị AUC (Area under the ROC Curve) thuật toán định, Random Forest, KNN, SVM 0.9093, 0.9508, 0.9475, 0.9489, giá trị ngưỡng xuất sắc, thuật tốn định cho kết thấp thuật toán Random Forest cho dự đoán tốt - Recall: Là tỉ lệ số điểm hành vi cơng mơ hình dự đốn tổng số điểm thật là hành vi công (hay tổng số điểm gán nhãn là hành vi công ban đầu) Recall cao, tức số điểm hành vi công bị bỏ sót Recall = 1, tức tất số điểm có nhãn hành vi cơng mơ hình nhận Recall cịn có tên gọi khác True Possitive rate (TPR), Sensitivity (độ nhạy), hit rate (tỉ lệ trúng đích) KẾT LUẬN Dựa liệu thu thập chứa bốn loại công DDoS sau: (HTTP Flood, SIDDOS, UDP Flood) khơng có ghi thừa trùng lặp, tác giả tiến hành thực nghiệm với thuật toán học máy việc phát công từ chối dịch vụ DDoS Kết thuật toán cho khả phát công DDoS với độ xác cao, tốc độ nhanh hiệu Thời gian tới, tác giả xây dựng ứng dụng dựa thuật toán học máy đánh giá để guair việc phát công DDoS với thời gian thực từ đường truyền mạng - F1-score: Là trung bình điều hịa - “harmonic mean” Precision Recall hai đại lượng khác khơng Được tính công thức: 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 ∗ 𝑟𝑒𝑐𝑎𝑙𝑙 F1 = 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑟𝑒𝑐𝑎𝑙𝑙 - False positive rate (FPR) gọi False Alarm Rate tỷ lệ phát nhầm, hành vi bình thường mơ hình coi hành vi cơng C Kết Quả Thảo Luận Kết chạy thuật toán đề cập trình bầy bảng sau: BẢNG IV Thuật toán KNN DT RF SVM LỜI CẢM ƠN Trong báo này, tác giả xin gửi lời cảm ơn đến quỹ VINIF (Vingroup Inovation Foundation) đồng hành cấp học bổng cho tác giả thực nghiên cứu thời gian học Thạc sỹ đại học công nghệ, đại học Quốc gia Hà Nội KẾT QUẢ THU ĐƯỢC KHI CHẠY THUẬT TOÁN Accuracy Precision Recall F1-score 0.9475 0.9093 0.9508 0.9489 0.9541 0.9093 0.9440 0.9543 0.9495 0.9093 0.9412 0.9497 0.9494 0.9093 0.9411 0.9496 REFERENCES [1] [2] Theo kết từ bảng 4, thuật toán định cho xác suất thấp (90.93%) tỷ lệ phát nhầm cao nhất, thuật toán Random Forest cho xác suất cao (95.08%), thuật toán SVM với thời gian chạy lâu nhất, cho tỷ lệ phát nhầm thấp Nhìn chung, thuật tốn sử dụng thư viện scikit-learn cung cấp cho kết tương đối tốt có khả tối ưu hiệu tốt [3] [4] [5] [6] 96 Hội thảo “Bảo vệ mạng liệu khỏi công từ chối dịch vụ (DDoS) nhằm vào tổ chức, doanh nghiệp” - ngày 3-5-2019, Cục An tồn Thơng tin, Báo VietnamNet, tổ chức Nexusguard Limited tổ chức CERT Coordination Center, “Results of the Distributed-systems Intruder Tools Workshop”, năm 1999 Software Engineering Institute L Garber, Denial-of-Service Attacks Rip the Internet”, IEEE Computer, 33(4):12–17, 2000 D Dittrich, “The DoS Project’s ”trinoo” Distributed Denial of Service Attack Tool”, 21 tháng 10 năm 1999 D Dittrich, “The “stacheldraht” distributed denial of service attack tool”, https://staff.washington.edu/dittrich/misc/stacheldraht.analysis/, 31 tháng 12 năm 1999 D Dittrich, “The ”Tribe Flood Network” Distributed Denial of Service Attack Tool”- https://staff.washington.edu/dittrich/misc/tfn.analysis/, 1999 D Kumar, G Rao, M K Singh, and G Satyanarayana, “A Survey of Defense Mechanisms countering DDoS Attacks in the Network”, Intl Journal of Advanced Research in Computer and Communication Engineering, 2:2599–2606, tháng năm 2013 [8] Swathi Sambangi Lakshmeeswari Gondi, “A Machine Learning Approach for DDoS (Distributed Denial of Service) Attack Detection Using Multiple Linear Regression” hội thảo quốc tế INTERENG 2020 Interdisciplinarity in Engineering lần thứ 14 Mures, Romania, 08/9/2020 [9] P Sangkatsanee, N Wattanapongsakorn and C Charnsripinyo, “Practical real-time intrusion detection using machine learning approaches”, ELSEVIER Computer Communications 34(2011) 22272235 [10] I Sofi, A Mahajan and V Mansotra, “Machine Leaming Techniques used for the Detection and Analysis of Modem Types of DDoS Attacks”, International Research Journal of Engineering and Technology (IRJET), Tập:04, tháng 06/2007 [11] Mahadev, V Kumar and H Sharma, “Detection And Analysis of DDoS Attack At Application Layer Using Naive Bayes Classifier”, Intemational Journal of Computer Engineering & Technology (IJCET), tập 9, 2018, pp 208-217,Article IICET_09_03_025 [12] S Duque, M Nizam bin Omar, “Using Data Mining Algorithms for developing a Model for Intrusion Detection System (IDS)”, ELSEVIER Procedia Computer Science 61 (2015) 46-51 [7] 97 ... loại công DDoS sau: (HTTP Flood, SIDDOS, UDP Flood) khơng có ghi thừa trùng lặp, tác giả tiến hành thực nghiệm với thuật toán học máy việc phát công từ chối dịch vụ DDoS Kết thuật toán cho khả phát. .. thuật toán cho khả phát cơng DDoS với độ xác cao, tốc độ nhanh hiệu Thời gian tới, tác giả xây dựng ứng dụng dựa thuật toán học máy đánh giá để guair việc phát công DDoS với thời gian thực từ đường... bảng 4, thuật toán định cho xác suất thấp (90.93%) tỷ lệ phát nhầm cao nhất, thuật toán Random Forest cho xác suất cao (95.08%), thuật toán SVM với thời gian chạy lâu nhất, cho tỷ lệ phát nhầm

Ngày đăng: 31/12/2022, 14:47