Trong bài báo này, đề xuất mô hình phát hiện tấn công DDoS sử dụng kết hợp ba mô hình thực hiện rút gọn tập đặc trưng từ tập đặc trưng đầu vào thay vì sử dụng các mô hình/ phương pháp riêng lẻ được sử dụng trong một số các nghiên cứu tấn công DDoS gần đây. Mời các bạn tham khảo!
MƠ HÌNH PHÁT HIỆN TẤN CƠNG DDOS SỬ DỤNG MACHINE LEARNING VÕ HỒ THU SANG* NGUYỄN ĐỨC NHUẬN, PHAN HOÀNG HẢI Khoa Tin học, Trường Đại học Sư phạm, Đại học Huế * Email: vohothusang@dhsphue.edu.vn Tóm tắt: Tấn cơng DDoS Internet gây tổn thất, ảnh hưởng lớn đến vấn đề an ninh hiệu suất mạng Bên cạnh đề xuất, cải tiến mơ hình phân lớp lưu lượng công DDoS, rút gọn tập đặc trưng liên quan đến lưu lượng cơng DDoS tốn mở cần quan tâm nghiên cứu để tăng hiệu dự báo, giảm độ phức tạp tính tốn, giảm khả overfitting mơ hình Trong báo này, chúng tơi đề xuất mơ hình phát cơng DDoS sử dụng kết hợp ba mơ hình thực rút gọn tập đặc trưng từ tập đặc trưng đầu vào thay sử dụng mơ hình/ phương pháp riêng lẻ sử dụng số nghiên cứu công DDoS gần Với đặc trưng lựa chọn, mơ hình học có giám sát phổ biến SVC, Kneighbor, Naïve Bayes, Random Forest triển khai để phát công DDoS, qua số đánh giá gồm Accuracy, F1 score, AUC mơ hình đề xuất có hiệu tốt với Random Forest Từ khóa: DDoS, machine learning, SVC, Kneighbor, Naïve Bayes, Random Forest, rút gọn tập đặc trưng MỞ ĐẦU Tấn công từ chối dịch vụ phân tán DDoS (là biến thể công DoS) xem kiểu công phổ biến Internet Cùng với đa dạng loại thiết bị, dịch vụ phát triển nhanh chóng mơ hình công mạng thập kỉ qua, đặt yêu cầu cấp bách cho nhà nghiên cứu việc phân lớp lưu lượng bình thường lưu lượng cơng DDoS mạng Các mơ hình ML áp dụng vào lớp tốn phát cơng DDoS nghiên cứu [1-14] có ưu nhược điểm riêng, tồn vấn đề chung cần cải thiện: - Tập liệu sử dụng lỗi thời không cập nhật cho cơng - Chỉ phát công từ host cụ thể, mà phát công từ Bonet - Trong việc lựa chọn, rút gọn tập đặc trưng, việc sử dụng mô hình/biện pháp đơn lẻ dẫn tới việc làm thơng tin, khơng xác phải nhiều thời gian điều chỉnh tham số mơ hình để tối ưu kết Ngoài ra, việc sử dụng phương pháp trích chọn đặc trưng thường sử dụng phổ biến PCA lại không được tập đặc trưng liên quan với công DDoS - Thời gian thực mơ hình Tạp chí Khoa học, Trường Đại học Sư phạm, Đại học Huế ISSN 1859-1612, Số 3(59)/2021: tr.161-171 Ngày nhận bài: 16/3/2021; Hoàn thành phản biện: 23/3/2021; Ngày nhận đăng: 26/3/2021 162 VÕ HỒ THU SANG cs Trong báo này, đề xuất mơ hình phát cơng DDoS tập trung vào việc cải tiến bước rút gọn tập đặc trưng tập liệu UNSW-NB15 Để rút gọn tập đặc trưng, thay sử dụng phương pháp riêng lẻ (như đánh giá tương quan) hay sử dụng mô hình ML (như PCA) nghiên cứu phát DDoS sử dụng gần đây, đề xuất sử dụng kết hợp nhiều mơ hình với quan điểm: 1) Thay nhiều thời gian để tối ưu hóa tham số mơ hình, kết hợp nhiều mơ hình yếu cho kết tin cậy tốt hơn( điều khẳng định qua phương thức ensemble ML), 2) Kết mơ hình đề trả lời tập đặc trưng liên quan đến công DDoS (điều mà PCA không làm được) Trên tập đặc trưng lựa chọn được, chúng tơi sử dụng mơ hình phân lớp đơn giản sử dụng phổ biến nghiên cứu cơng DDoS SVC, Kneighbor, Nạve Bayes, Random Forest để phát cơng DDoS Đóng góp nghiên cứu thể điểm sau: - Sử dụng tập liệu UNSW-NB15 thay sử dụng tập liệu xem lỗi thời KDD 99 Phân tích đặc điểm lưu lượng công từ Botnet để đưa tập gồm 14 đặc trưng để làm đầu vào cho bước tính tốn xử lý - Đề xuất mơ hình rút gọn tập đặc trưng sử dụng kết hợp kết bầu chọn 03 mơ hình Phương pháp tập đặc trưng liên quan với công DDoS việc sử dụng kết hợp nhiều mơ hình cho kết đáng tin cậy việc sử dụng mơ hình, phương pháp riêng lẻ Phần lại báo tổ chức sau: phần II tóm tắt nghiên cứu liên quan lĩnh vực phát công DDoS thời gian gần Phần III sơ lược công DDoS tập liệu công DDoS, phần IV trình bày mơ hình đề xuất phát công DDoS sử dụng ML Đoạn V giới thiệu kết kiểm nghiệm, đánh giá mơ hình Cuối cùng, phần VI kết luận nghiên cứu hướng nghiên cứu tương lai CÁC NGHIÊN CỨU LIÊN QUAN Với triển nhanh chóng biến thể công DDoS, nên phương pháp tiếp cận truyền thống sử dụng chữ kí (signature) bộc lộ nhược điểm linh hoạt việc phát công, phản ứng trước dạng công [4,8] Những nghiên cứu gần đây, sử dụng phương pháp ML cho phép lọc tự học liệu lịch sử có để nhận diện lưu lượng bất thường mạng, hướng nghiên cứu quan tâm với nhiều đề xuất, cải tiến Nhóm tác giả [1] đề suất mơ hình học giám sát sử dụng phân lớp công Random Forest Classifier để phát công DDoS với độ xác 96% Tuy nhiên mơ hình thiện tiền xử lý liệu trích chọn đặc trưng kỹ thuật đơn lẻ mà không thông qua kết hợp đồng thời mô hình để nâng cao mức độ đánh giá đặc trưng trích chọn Nhóm tác giả [3] đề xuất mơ hình sử dụng ML để nhận diện cơng DDoS từ thiết bị IoT Thay sử dụng tập liệu cơng cộng, nhóm tác giả tự xây dựng kịch để thu thập liệu huấn luyện kiểm thử Từ liệu này, MƠ HÌNH PHÁT HIỆN TẤN CƠNG DDOS SỬ DỤNG MACHINE LEARNING 163 nhóm tác giả đề xuất phương án lựa chọn đặc trưng thơng qua việc đánh giá đặc tính lưu lượng mà chưa có sở đánh giá kết hợp để thấy độ quan trọng đặc trưng mơ khả thơng tin loại bỏ đặc trưng lại tập liệu ban đầu Nhóm tác giả [4] sử dụng mơ hình kết hợp PCA-RNN bao gồm trích chọn đặc trưng với PCA sử dụng mạng Neuron hồi qui để phát cơng Đóng góp nhóm tác giả đề xuất tập đặc trưng lưu lượng cơng DDoS trước thực trích chọn đặc trưng với PCA, với pương pháp trích chọn đặc trưng, biến độc lập sau biến đổi trở nên khó hiểu khơng đặc trưng liên quan đến công DDoS Ngoài ra, việc sử dụng RNN tăng độ phức tạp mơ hình với tập liệu lớn Nhóm nghiên cứu [7] sử dụng kết hợp phương pháp đánh giá độ tương quan để rút gọn tập đặc trưng sau sử dụng mạng Neuron để phát công DDoS Việc sử dụng phương pháp đánh giá độ tương quan để loại bỏ đặc trưng có độ tương quan lớn (thường sử dụng ngưỡng > 0.75) đơn giản, không tốn tài nguyên xử lý, đặc trưng có mối quan hệ khơng tuyến tính giá trị độ tương quan khơng đủ sở để loại bỏ đặc trưng, việc loại bỏ đặc trưng ảnh hưởng đến độ quan trọng đặc trưng khác nên việc đánh rớt nhóm đặc trưng dựa vào độ tương quan dẫn tới thông tin hiệu suất mơ hình Nhóm nghiên cứu [8] sử dụng phương Chi-bình phương information gain để lựa chọn đặc trưng, Với đặc trưng đó, nhóm nghiên cứu thử nghiệm với mơ hình ML để phát công Navies Bayes, C4.5, SVM, KNN, K-mean, Fuzzy_C means, Fuzzy_C mean cho kết xác so với mơ hình cịn lại Bên cạnh giải pháp phát công sử dụng ML theo tiếp cận học giám sát, nhóm nghiên cứu [9,10.12] sử dụng tiếp cận bán giám sát để tận dụng ưu điểm mơ hình có giám sát không giám sát, đồng thời phức tạp mơ hình dự báo tăng lên Việc rút gọn tập đặc trưng định thành công mơ hình phát cơng DDoS sử dụng ML điều không làm giảm độ phức tạp tính tốn mơ hình mà cịn giảm tượng overfiting mơ hình Trong phạm vi báo này, sử dụng thuật ngữ rút gọn tập đặc trưng với ý nghĩa bao gồm: 1)lựa chọn tập đặc trưng đầu vào gồm 14 đặc trưng liên quan tới lưu lượng công DDoS từ tập liệu ban đầu 2) sử dụng kết hợp mơ hình để giảm số chiều tập đặc trưng đầu vào phương pháp lựa chọn đặc trưng qua đưa tập đặc trưng liên quan đến công DDoS TẤN CÔNG DDOS VÀ TẬP DỮ LIỆU TẤN CÔNG DDOS 3.1 Tấn công DDoS DDoS công từ chối dịch vụ phân tán, đó, kẻ cơng tập hợp máy tính bị cơng trước thành mạng lưới gọi Botnet điều khiển chúng công đồng thời vào nhiều máy, dịch vụ, mạng đích [14] Về kiến trúc, cơng DDoS chia thành 02 loại, công trực tiếp công gián tiếp 164 - Trong kiến trúc cơng trực tiếp (hình 1) kẻ cơng điều khiện hệ thống máy tính ma (Bonet thông qua máy trung gian (Handlerđ) để đồng loạt tạo gởi yêu cầu truy cập giả mạo đến hệ thống nạn nhân, gây ngập đường truyền mạng, khả xử lý máy nạn nhân dẫn đến tình trạng gián đoạn ngừng dịch vụ cung cấp cho người dùng khác VÕ HỒ THU SANG cs Attacker Hình Mơ hình cơng DDoS trực tiếp - Trong kiến trúc công DDoS gián tiếp (hình 2), kẻ cơng điều khiển hệ thống máy tính bị cơng trước (Slave) để gởi đồng thời yêu cầu truy cập giả mạo với địa nguồn địa máy nạn nhân đến số máy khác (gọi Reflector _thường máy chủ có cơng suất lớn mạng Internet mà không chịu điều khiển tin tặc) mạng Internet Khi Reflector có số lượng lớn, số phản hồi tạo gây ngập đường truyền mạng làm cạn kiệt tài nguyên Hình Mơ hình DdoS gián tiếp máy nạn nhân, dẫn đến gián đoạn ngừng dịch vụ cung cấp cho người dùng 3.2 Tập liệu cơng DDoS Có tập liệu thường sử dụng nghiên cứu phát công DDoS KKD 99 NUSW-NB15 KKD 99 có phiên DARAP98 NSLKDD Các nghiên cứu hệ thống NIDS sử dụng tập liệu KKD99 tập liệu tồn hạn chế bao gồm: liệu tập liệu lỗi thời khơng có tính cập nhật với loại lưu lượng mạng thông thường công nay; tập liệu tồn nhiều nhiều liệu lặp, trống; phân bố xác suất liệu huấn luyện khác với phân MƠ HÌNH PHÁT HIỆN TẤN CƠNG DDOS SỬ DỤNG MACHINE LEARNING 165 bố xác suất lớp liệu thử nghiệm Việc sử dụng tập liệu NUSW-NB15 khắc phục nhược điểm [7,13] Dữ liệu UNSW-NB15 gồm 49 đặc trưng chứa tổng 2.540.044 bảng ghi lưu trữ file CSV phần liệu tập chia thành tập liệu huấn luyện kiểm thử Tập liệu huấn luyện gồm 175.341 ghi, tập liệu kiểm thử gồm 82,332 ghi lưu trữ thông tin loại lưu lượng cơng bình thường loại lưu lượng công gồm: Fuzzers, Analysis, Backdoor, DoS, Exploit, Generic, Reconnaissance, Shellcode, Worm 49 đặc trưng tập liệu chia thành nhóm đặc trưng [13] Lưu lượng mạng Tập liệu huấn luyện Lựa chọn tập đặc trưng đầu vào Tiền xử lý FS1 FS2 FS3 Tập đặc trưng rút gọn Tập liệu kiểm thử Bộ Phân Lớp ML Phát cơng Cảnh báo Hình Mơ hình đề xuất phát cơng DDoS MƠ HÌNH ĐỀ XUẤT PHÁT HIỆN TẤN CƠNG DDOS Mơ hình dị tìm/phát công sử dụng ML thực phân lớp lưu lượng mạng cơng hay lưu lượng bình thường Nếu có cơng xảy ra, tạo cảnh báo cho hệ thống để chặn lưu lượng từ nguồn phát tương ứng hoặc/và đánh rớt gói tin Mơ hình gồm pha: tiền xử lý liệu, lựa chọn đặc trưng dị tìm/phát cơng (hình 3) 4.1 Lựa chọn tập đặc trưng đầu vào Trên sở phân tích đặc điểm lưu lượng cơng DDoS đề xuất sử dụng 14 đặc trưng sau: - Nhóm đặc trưng số lượng lưu lượng gồm 06 đặc trưng (sloat; dload; spkts, dpkts) Chúng đề xuất sử dụng đặc trưng máy tính bị nhiễm bị điều khiển bot, chúng gởi lưu lượng lớn gói tin vào mạng máy đích làm cho mạng máy đích trở nên tải Ý nghĩa đặc trưng cho bảng 166 VÕ HỒ THU SANG cs Bảng Các đặc trưng lưu lượng Stt Tên sload dload spkts dpkts sbytes dbytes Giải thích Các bit gởi từ nguồn thời gian giây Các bit đến đích thời gian giây Số lượng gói tin từ nguồn đến đích Số lượng gói tin từ nguồn đến đích Số bytes gởi từ nguồn tới đích Số bytes gởi từ đích tới nguồn - Nhóm đặc trưng làm giảm chất lượng phục vụ (dur, ct_ftp_cmd, ct_srv_src, ct_srv_dst, ct_src_ltm, ct_src_dport_ltm, ct_dst_sport_ltm, ct_dst_src_ltm) Chúng đề xuất sử dụng nhóm đặc trưng đặc tính công DDoS làm chậm làm ngập khả phục vụ đối tượng đích cách chiếm dụng kết nối thời gian dài làm cho đối tượng đích khơng thể phục vụ người dùng hợp pháp khác Bảng Các đặc trưng chất lượng dịch vụ Stt dur Tên ct_ftp_cmd ct_srv_src ct_srv_dst ct_src_ltm Giải thích Chiều dài tính theo giây kết nối Số luồng có thực lệnh command phiên ftp Số lượng kết nối chứa dịch vụ địa nguồn 100 kết nối Số lượng kết nối chứa dịch vụ địa 100 kết nối Số lượng kết nối có địa nguồn 100 kết nối Số lượng kết nối có địa nguồn port đích 100 ct_src_dport_ltm kết nối Số lượng kết nối có địa đích port nguồn 100 ct_dst_sport_ltm kết nối Số lượng kết nối có địa nguồn địa đích ct_dst_src_ltm 100 kết nối - Nhãn/đích: attack_cat thuộc tính phân loại cho biết luồng lưu lượng bình thường (normal) hay công (9 loại công kể trên) Với mục đích nghiên cứu mơ hình nhận dạng cơng DDoS, chúng tơi trích chọn ghi tương ứng với lưu lượng bình thường lưu lượng công DoS, đồng thời chuyển kiểu liệu thuộc tính này: cơng DDoS – 0; lưu lượng bình thường – Tập liệu sau lựa chọn có 15 đặc trưng gồm 14 đặc trưng nhãn với 31,283 quan sát gồm lưu lượng công DoS lưu lượng thông thường 4.2 Tiền xử lý liệu - Do liệu đặc trưng tập liệu phân bố chuẩn, việc chuẩn hóa cho tập đặc trưng áp dụng nhằm đưa phân bố liệu đặc trưng phân phối chuẩn Cơng thức tính chuẩn hóa: MƠ HÌNH PHÁT HIỆN TẤN CƠNG DDOS SỬ DỤNG MACHINE LEARNING 167 𝑥−𝜇 𝜎 Trong μ giá trị trung bình; σ phương sai, tính công thức sau: 𝑥 (𝑛𝑒𝑤) = 𝜇= 𝑁 𝑁 1 ∑ (𝑥𝑖 ); 𝜎 = √ ∑ ( 𝑥𝑖 − 𝜇)2 𝑁 𝑁 𝑖=1 𝑖=1 4.3 Rút gọn tập đặc trưng đầu vào Mượn ý tưởng phương thức ensemble ML, chúng tơi đề xuất mơ hình rút gọn tập đặc trưng sử dụng kết hợp nhiều mơ hình để lựa chọn đặc trưng (trong chúng tơi sử dụng 03 mơ hình) Mỗi mơ hình thực bình chọn cho danh sách đặc trưng rút gọn dựa độ quan trọng đặc trưng với với mơ hình Kết cuối cùng, đặc trưng rút gọn đặc trưng bầu chọn đồng thời mô hình Chi tiết sau: - Mơ hình lựa chọn đặc trưng FS1: LassoCV() LassoCV xếp vào nhóm thuật tốn chuẩn hóa nhằm hạn chế khác biệt, chênh lệch kết dự báo kết thực tế mơ hình hồi quy tuyến tính Kết mơ hình danh sách giá trị độ quan trọng đặc trưng (đánh giá dựa vào giá trị coefficient), giá trị thấp tương ứng với đặc trưng có khả cao bị loại khỏi mơ hình Đoạn mã thực thi sử dụng thư việc Sklearn Python: from sklearn.linear_model import LassoCV lcv = LassoCV() lcv.fit(X_train, Y) lcv_ mask = lcv.coef_!=0 Trong X_train tập đặc trưng đầu vào; Y nhãn/biến phụ thuộc mask_lcv danh sách giá trị độ quan trọng đặc trưng X_train - Mơ hình lựa chọn đặc trưng FS2: RandomForestRegressor() RandomForest Là thuật tốn học có giám sát tạo định mẫu dư xlieeuj chọn ngẫu nhiên dự đoán từ chọn giải pháp tốt cách bỏ phiếu Những đặc trưng RandomForest đánh giá độ quan trọng thấp dựa vào giá trị đặc trưng độ quan trọng (feature_importance) đặc trưng ưu tiên loại khỏi tập đặc trưng đầu vào Đoạn mã thực thi sử dụng thư việc Sklearn Python: from sklearn.feature_selection import RFE from sklearn.ensemble import GradientBoostingRegressor rfe = RFE(estimator=GradientBoostingRegressor(), n_features_to_select= sum(mask_lcv), step = 1, verbose=1) rfe.fit(X_train,Y) gbr_mask = rfe.support_ 168 VÕ HỒ THU SANG cs Trong X_train tập huấn luyện loại bỏ đặc nhãn; Y nhãn/ biến phụ thuộc; grb_mask danh sách bầu chọn đặc trưng đầu vào - Mơ hình lựa chọn đặc trưng FS3: GradientBoostingRegressor() Gradient Boosting thuật toán học có giám sát sử dụng rộng rãi cho lớp toán hồi qui phân lớp; sử dụng dụng phương thức ensemble để đưa kết dự báo từ kết tổng hợp nhiều mơ hình Sử dụng kết mơ hình này, thu bầu chọn đặc trưng có độ quan trọng thấp tương ứng đặc trưng ưu tiên rút gọn từ tập đặc trưng đầu vào Đoạn mã thực thi sử dụng thư việc Sklearn Python: rfe2 = RFE(estimator=RandomForestClassifier(), n_features_to_select=sum(mask_lcv), step=1, verbose=1) rfe2.fit(X_train,Y) rfc_mask = rfe2.support_ Trong X_train tập huấn luyện loại bỏ nhãn; Y nhãn/ biến phụ thuộc , rfc_mask danh sách bầu chọn đặc trưng đầu vào Kết mơ hình FS1, FS2, FS3 tổng hợp để bình chọn cho đặc trưng có khả loại bỏ khỏi tập đặc trưng đầu vào cao Đoạn mã thực thi Python sau: votes = np.sum([lcv_mask, rfc_mask,gbr_mask],axis=0)) mask = votes==3 X_train_reduced = df_X.loc[:, mask] Trong np thư viện numpy, X_train_reduced tập liệu X_train sau rút rút gọn số chiều theo kết bầu chọn mơ hình MƠ PHỎNG VÀ ĐÁNH GIÁ HIỆU QUẢ MƠ HÌNH Để cài đặt, đánh giá hiệu mơ hình, chúng tơi thực xây dựng mơ hình ngơn ngữ Python chạy máy Windown 10, RAM 16 GB, Chip Intel® Core i5 Các thư viện sử dụng cho bảng 3; Các mơ hình ML triển khai với tham số mặc định Bảng Các thư viện Python sử dụng chương trình Stt Thư viện Pandas Numpy Seaborn Matplotlib Scikit-learn Các nhận định so sánh Từ kết thực nghiệm bảng 4: Chú thích Phân tích liệu Xử lý mảng đa chiều, ma trận Trực quan hóa liệu Vẽ đồ thị 2D Phân tích khai phá liệu MƠ HÌNH PHÁT HIỆN TẤN CƠNG DDOS SỬ DỤNG MACHINE LEARNING 169 - So với trước thực rút gọn tập đặc trưng, mơ hình đề xuất cho kết tương đương cho thấy hiệu mơ hình đề xuất (giảm chiều tập đặc trưng, cịn lại 05 đặc trưng so với 14 đặc trưng ban đầu) cải thiện độ phức tạp tính tốn mơ hình phân lớp - Đối với phương pháp rút gọn sử dụng phương pháp đánh giá độ tương quan, mơ hình đề xuất có kết tương đương nhiên với ngưỡng >=0.75, tập đặc trưng sau rút gọn 10 đặc trưng Ngoài ra, với phương pháp đánh giá này, muốn giảm số chiều xuống phải sử dụng ngưỡng >= 0.05, giá trị ngưỡng không hợp lý phương pháp đánh giá tương quan - Đối với PCA với n_components=5, kết dự đốn mơ hình đề xuất cho kết tốt PCA cho kết tương đương với mơ hình đề xuất n_components =10 Ngồi ra, nhận định trên, với kết PCA, khơng thể tập thuộc tính liên quan với dạng lưu lượng công DDoS - Với kết thực nghiệm thấy mơ hình đề xuất cho kết tốt với phân lớp ML Random Forest để phân lớp lưu lượng công DDoS Kết thử nghiệm mơ hình: Bảng Kết đánh giá so sánh mơ hình STT Phương pháp rút gọn Không rút gọn Đánh giá tương quan >=0.75 PCA (n_component = 5) Mơ hình đề xuất Mơ hình phân lớp ML Random Forest SVC Kneighbors Naïve Bayes Random Forest SVC Kneighbors Naïve Bayes Random Forest SVC Kneighbors Naïve Bayes Random Forest SVC Kneighbors Naïve Bayes F1Score Accuracy Precision Recall AUC 0.97 0.97 0.97 0.97 0.99 0.91 0.94 0.84 0.92 0.94 0.83 0.91 0.94 8.84 0.90 0.93 0.82 0.96 0.91 0.84 0.97 0.97 0.97 0.98 0.985 0.91 0.93 0.85 0.91 0.93 0.83 0.90 0.93 0.85 0.91 0.93 0.83 0.93 0.89 0.88 0.93 0.93 0.93 0.93 0.96 0.87 0.93 0.80 0.88 0.93 0.73 0.87 0.93 0.80 0.85 0.93 0.75 0.92 0.89 0.83 0.97 0.97 0.97 0.97 0.98 0.90 0.94 0.91 0.94 0.90 0.94 0.89 0.94 0.85 0.91 0.84 0.82 0.84 0.82 0.81 170 VÕ HỒ THU SANG cs Mơ hình cho kết tập đặc trưng liên quan công DDoS tính tốn mơ hình tập gồm đặc trưng: [‘dur’, ‘sload’, ‘sbytes’, ‘dbytes’, ‘ctt_srv_src’] Bảng Kết đánh giá mơ hình phân lớp với Random Forest STT Phương pháp rút gọn Đánh giá tương quan >=75 PCA (n_component = 5) Mô hình đề xuất Mơ hình phân lớp ML Accuracy Precision Recall F1-Score AUC Random Forest (COR_RF) 0.97 0.97 0.97 0.98 0.98 Random Forest (PCA_RF) 0.93 0.93 0.93 0.93 0.96 Random Forest COM_RF 0.97 0.97 0.97 0.97 0.98 0.98 Accuracy 0.96 Precision 0.94 Recall F1-Score 0.92 AUC 0.9 COR_RF PCA_RF COM_RF Hình Kết đánh giá mơ hình phân lớp với Random Forest KẾT LUẬN Bài báo đánh giá so sánh tính hiệu mơ hình đề xuất sử dụng kết hợp 03 mơ hình rút gọn tập đặc trưng tập liệu NUSW-NB15 Kết kiểm nghiệm cho thấy mơ hình đề xuất cho kết dự đoán tốt hơn, tập đặc trưng nhỏ so với phương pháp PCA đánh giá độ tương quan Mượn ý tưởng đoàn phương thức ensemble machine learning, việc sử dụng kết tổng hợp từ 03 mơ hình cho kết đáng tin cậy so với việc sử dụng kết riêng lẻ mơ hình Kết kiểm nghiệm cho thấy mơ hình đề xuất cho kết tốt với phân lớp sử dụng Random Forest TÀI LIỆU THAM KHẢO [1] [2] Saied, et al (2015) Detection of known and unknown DDoS attacks using Artificial Neural Networks, Neurocomputing http://dx.doi.org/10.1016/j.neucom.2015.04.101i Andrew W Moore and ndrew W Moore (2005) Internet Traffic Classification Using Bayesian Analysis Techniques; SIGMETRICS’05 MƠ HÌNH PHÁT HIỆN TẤN CƠNG DDOS SỬ DỤNG MACHINE LEARNING 171 [3] Jungtaek Seo1, Cheolho Lee1, Taeshik Shon2, Kyu-Hyung Cho2 (2005), A New DDoS Detection Model Using Multiple SVMs and TRA, International Federation for Information Processing, LNCS 3823, pp 976 – 985 [4] Kokila RT', Thamarai Selvi, Kannan Govindarajan (2014) DDoS Detection and Analysis in SDN-based Environment Using Support Vector Machine Classifier; Sixth Interational Conference on Advanced Computingv(ICoAC) [5] LuanPM –Adminvietnam (2015), Kiến thức DDOS, https://adminvietnam.org/kienthuc-ve-ddos-phan-2-phan-loai/1031/ [6] Manjula Suresh and R Anitha (2011) Evaluating Machine Learning Algorithms for Detecting DDoS Attacks; Springer-Verlag Berlin Heidelberg, CNSA 2011, CCIS 196, pp 441–452 [7] Marwane Zekri and Youssef Saadi (2017) DDoS attack detection using machine learning techniques in cloud computing environments; IEEE [8] Mohamed Idhammad, Karim Afdel and Mustapha Belouch (2018) Semi-supervised machine learning, Springer Science+Business Media, LLC, part of Springer Nature [9] Mohamed Idhammad, Karim Afdel(2017) DoS Detection Method based on Artificial Neural Networks, (IJACSA) International Journal of Advanced Computer Science and Applications,Vol 8, No [10] Naveen Bindraa, and Manu Sood (2019) Detecting DDoS Attacks Using Machine Learning Techniques and Contemporary Intrusion Detection Dataset, Automatic Control and Computer Sciences, Vol 53, No 5, pp 419–428 [11] Nour Moustafa, Jill Slay (2016), The significant features of the UNSW-NB15 and the KDD99 data sets for Network Intrusion Detection Systems, IEEE [12] Qian Li, Linhai Meng, Yuan Zhang and Jinyao Yan (2019) DDoS Attacks Detection Using Machine Learning Algorithms, Springer Nature Singapore Pte Ltd 2019 G Zhai et al (Eds.), IFTC 2018, CCIS 1009, pp 205–216 [13] Rohan Doshi, Rohan Doshi and Nick Feamster (2018) Machine Learning DDoS Detection for Consumer Internet of Things Devices, IEEE Symposium on Security and Privacy Workshops [14] Xiaoyong Yuan∗, Chuanhuang Li†, Xiaolin Li (2017), DeepDefense: Identifying DDoS Attack via Deep Learning; IEEE Title: A PROPOSED MACHINE LEARNING MODEL FOR DETECTING DDoS ATTACK Abstract: DDoS attacks on the Internet have been badly affecting security and performance of the network In addition to proposing and improving DDoS traffic classifier models, reducing the feature set is one of the key issues to increase predictor’s efficiency as well as reducing the complexity of the model In this paper, we proposed a DDoS attack detection model that used a combination of three models of feature selection from the input feauture set instead of using an individual model/ method used in recent approaches of detecting DDoS attack With selected features, popular supervised learning models such as the SVC, Kneighbor, Naïve Bayes, Random Forest was used to detect DDoS attacks Being evaluated with accuracy, F1score, AUC, our experiment show that the proposed method has better results Keywords: DDoS, SVC, Kneighbor, Naïve Bayes, Random Forest, Feature selection, Dimensionality reduction, Machine learning ... Bộ Phân Lớp ML Phát cơng Cảnh báo Hình Mơ hình đề xuất phát cơng DDoS MƠ HÌNH ĐỀ XUẤT PHÁT HIỆN TẤN CƠNG DDOS Mơ hình dị tìm /phát cơng sử dụng ML thực phân lớp lưu lượng mạng công hay lưu lượng... mơ hình rút gọn tập đặc trưng sử dụng kết hợp kết bầu chọn 03 mô hình Phương pháp tập đặc trưng liên quan với công DDoS việc sử dụng kết hợp nhiều mơ hình cho kết đáng tin cậy việc sử dụng mô hình, ... vực phát công DDoS thời gian gần Phần III sơ lược công DDoS tập liệu cơng DDoS, phần IV trình bày mơ hình đề xuất phát công DDoS sử dụng ML Đoạn V giới thiệu kết kiểm nghiệm, đánh giá mơ hình