4.1. Tao bộ dữ liệu DDOS dựa trên các bộ dữ liệu công khai
Các mô hình hành vi của các cuộc tan công mạng thay đôi dan dan và do đó, cần phải nâng cấp các bộ dữ liệu thông thường trong môi trường động. Điều này sẽ giúp hiển thị các kịch bản lưu lượng mạng khác nhau và các kiểu tan công dễ thích ứng, học hỏi và xác định lại. Hơn nữa, việc chọn một bộ dữ liệu phù hợp cũng là yếu
tố quan trọng.
Vì mục đích nghiên cứu một số tô chức có thé phát triển các bộ dữ liệu tuy nhiên vì
sự bí mật họ không sẵn sang công khai, ngược lại thì các bộ dữ liệu công khai chứa
các bản ghi có thê không phù hợp với nhu cầu xu hướng thực tế và công nghệ hiện tại. Trên thực tế, hầu hết các bộ đữ liệu có săn và công khai này bị thiếu sót về mặt thong kê và do đó, việc chọn ra một bộ dữ liệu dé phát triển cũng là một thách thức.
Dé phát triển và đánh giá khung của bộ dữ liệu IDS, một số đặc điểm quan trọng đã được rút ra dé xây dựng bộ dữ liệu IDS hoàn chỉnh và hiệu quả . Những đặc điểm này được liệt kê là tính đa dang của các cuộc tan công, tính ân danh, giao thức khả dụng, nắm bắt lưu lượng mạng hoàn chỉnh, nắm bắt tương tác mạng hoàn chỉnh, xác định cau hình hoàn chỉnh của mạng, bộ tính năng, mẫu dữ liệu được dán nhãn, tính không đồng nhất và siêu đữ liệu. Bộ dữ liệu CIC-IDS-2017 [14] và CSE-CIC- IDS-2018 [15,16] được phát triển có tính đến các đặc điểm này. Cả hai bộ dữ liệu này đều thé hiện thực hiện với kiến thức chuyên sâu về các cuộc tan công và kiến thức khái niệm về các mô hình ứng dụng, thiết bị mạng và giao thức khác nhau. Lưu lượng mạng được ghi lại bang cách sử dụng CITFlowMeter đã gan nhãn thích hợp cho luồng, đồng thời cung cấp thông tin chỉ tiết về địa chỉ nguồn và đích cũng như số công, dấu thời gian và cuộc tan công. Các mô phỏng của môi trường thử nghiệm bao gồm lưu lượng mạng được tạo từ các giao thức như HTTP, HTTPS, SSH và các giao
thức email như SMTP và POP3.
56
Các bước thực hiện tạo ra bộ dữ liệu DDOS:
Bước 1: Thông kê các tính năng của hai bộ dt liệu
Số Tên bộ dữ liệu Phát triển | lượng Các loại tan công
Features
Viện Án Powtscan Bower
CIC-IDS-2017 ninh mang 84 Dos, DDOS, Web.
Canada .
Infiltration
Viện An Powtecan Bower
CSE-IDS-2018 ninh mang 84 Dos, DDOS, Web.
Canada .
Infiltration Bang 4.1 Bộ dữ liệu CIC-IDS-2017 va CSE-IDS-2018
Bước 2: Tổng hợp va cắt bỏ các tính năng mà 2 bộ dữ liệu không khớp ta sẽ có
bộ đữ liệu tấn công DDOS gồm các thuộc tính sau:
Bước 3: Tinh năng cắt bỏ trên 2 bộ dữ liệu
Header Length.1 . CIC-IDS-2017: Flow ID, Src, ip, Dst_ip, Src_port, Protocol, Timestamp, Fwd
CSE-CICIDS-2018: Src_ip, Dst_ip, Src_port, Src_mac, Dst_mac, Protocol, Timestamp.
STT Tinh nang STT Tinh nang STT Tinh nang
1 Dst Port 27 | Fwd_seg_size_min| 53 Pkt_size_avg
2 Flow_Duration 28 | Fwd_act_data_pkts| 54 Init_fwd_win_byts
3 Flow_Byts_s 29 Flow_iat_mean 55 Init_bwd_win_byts
4 Flow_Pkts_s 30 Flow_iat_max 56 Active_min
5 Fwd_Pkts_s 31 Flow_iat_min 57 Active_mean
6 Bwd_Pkts_s 32 Flow_iat_std 58 Active_max
7 Tot_fwd_pkts 33 Fwd_iat_tot 59 Active_std
8 Tot_bwd_pkts 34 Fwd_iat_max 60 Idle_mean
9 Totlen_fwd_pkts 35 Fwd_iat_min 61 ldle_max
57
10 | Totlen_bwd_pkts 36 Fwd_iat_mean 62 Idle_min
11 Fwd_pkt_len_min 37 Fwd_iat_std 63 Idle Std
12 | Fwd_pkt_len_max 38 Bwd_iat_min 64 Fwd_byts_b_avg
13 | Fwd_pkt_len_mean | 39 Bwd_iat_max 65 Fwd_pkts_b_avg
14 Fwd_pkt_len_std 40 Bwd_iat_mean 66 Bwd_byts_b_avg
15 | Fwd pkt len mean | 41 Bwd_iat_std 67 Bwd_pkts_b_avg
16 | Bwd_pkt_len_min | 42 Bwd_iat_tot 68 Fwd_blk_rate_avg
17 | Bwd pkt len max | 43 Fwd_psh_ flag 69 Bwd_blk_rate_avg
18 |Bwd pkt len mean| 44 Bwd_psh_ flag 70 Fwd_seg_size_avg
19 Bwd_pkt_len_std 45 Fin_flag_cnt 71 Bwd_seg_size_avg
20 Pkt_len_min 46 Syn_flag_cnt 72 Cwe_flag_count
21 Pkt_len_max 47 Rst_flag_cnt 75 Subflow_fwd_pkts
22 Pkt_len_mean 48 Psh_flag_cnt 74 Subflow_bwd_pkts
23 Pkt_len_std 49 Ack_flag_cnt 75 Subflow_fwd_bytes
24 Pkt_len_var 50 Urg_flag_cnt 76 Subflow_bwd_bytes
25 Fwd_header_len 51 Ece_flag_cnt 77 Label
26 Bwd_header_len 52 Down_up_ratio
Bang 4.2 Tinh năng bộ dữ liệu tông hợp tan công DDOS từ 2 bộ dữ liệu
Bước 4: Tổng hợp các bản ghi các cuộc tan công DDOS của 2 bộ dữ liệu CIC-IDS-
2017 và CSE-IDS-2018 sau khi thực hiện cắt bỏ các tính năng.
Label Số lượng Dataset
DDOS attack-HOIC 561741 2018 DDOS attacks-LOIC-HTTP 498749 2018 DDOS 128027 2017 DDOS attack-LOIC-UDP 1730 2018
Benign 332817 2017+ 2018
Bang 4.3 Số lượng bản ghi của bộ dit liệu tông hợp tan cong DDOS
HOIC (Hiph Orbit lon Cannon) là một công cụ phổ biến được sử dụng dé gay các cuộc tan công HTTP Flood bằng lưu lượng truy cập web và dong cửa một trang
58
web hoặc dịch vụ. Nó là một phần mềm nguồn mở dễ dàng có san được phát triển bởi nhóm hacktivist Anonymous, và nó là sản phẩm kế thừa của một công cụ DDOS cũ hơn có tên là Low Orbit lon Cannon (cả hai đều được đặt tên theo vũ khí trò chơi
điện tử khoa học viễn tưởng).
HOIC (High Orbit lon Cannon) hoạt động thông qua một cuộc tấn công DDOS HTTP Flood ở lớp ứng dung bang các request HTTP ‘GET’ và ‘POST’. Ngoài ra để nâng cao sự mạnh mẽ các cuộc tan công nhờ các tập lệnh tủy chỉnh. Sử dụng với mục đích nhắm mục tiêu nhiều tên miền phụ của trang web cùng một lúc làm tê liệt toàn
bộ trang web. Cách tiếp cận đơn giản nhưng có sự hệ lụy vô cùng nghiêm trong khi
có nhiêu kẻ tân công phôi hợp vào nhiêu trang web và miên khác nhau.
LOIC (Low Orbit lon Cannon) là một công cụ thường được sử dụng dé thực hiện các cuộc tấn công . Ban đầu đây một ứng dụng đo độ lớn của mạng khi có một lượng truy cập lớn trong một thời gian, nhưng sau đó nó đã trở thành nguồn mở và hiện chủ yếu được sử dụng với mục đích xấu. Với những người không có kiến thức
kỹ thuật nhưng có ý đồ xấu, sử dụng công cụ này có khả năng khởi động các cuộc tấn
công DDOS một cách dễ dàng.
Nó hoạt động bang cách làm cách gây ngập lụt cho máy chủ mục tiêu bang các gói TCP , UDP hoặc HTTP . Giữ cho dịch vụ luôn kết nói với kẻ tắn công khiến các yêu cầu bình thường bị nghẽn lại khiến dịch vụ bị gián đoạn và tạo điều kiện cho các
cuộc tân công khác như ăn cap dữ liệu, cài đặt các virus, malware,...
Các cuộc tấn công nghiêm trọng yêu cầu hàng nghìn người dùng phối hợp tấn công
cùng lúc vào cùng một mục tiêu. Dé thực hiện các cuộc tấn công phối hợp này đơn giản hơn, có thé sử dụng các kênh trò chuyện IRC dé chạy phiên bản LOIC 'Hivemind' cho phép một người dùng chính kiểm soát một số máy tính phụ được nối mạng, tạo
ra một mạng botnet tự nguyện . Đây là một cách tiếp cận phô biến vì chủ sở hữu của các thiết bị thứ cấp có thé tuyên bố rằng họ là nạn nhân vô tội của một mang botnet
không tự nguyện.
59
4.2. Mô hình có khả năng giải thích
4.2.1. Cách thực hiện trên mô hình
Tiền xử lý dữ liệu: Các bộ dữ liệu có sẵn công khai được sử dụng trong nghiên cứu này cần một số bước tiền xử lý dữ liệu, chăng hạn như loại bỏ tính năng và thiếu giá trị quy nạp trước khi sử dụng chúng trong các thuật toán học máy. Đề đạt được điều
này, các bước sau được áp dụng cho tât cả các bộ dữ liệu
* Loại bỏ tính năng: Các tinh năng định danh mang đó là ID luồng, IP nguôn và đích, Nguồn và Công đích, Giao thức và Dấu thời gian bị xóa, dé lại
bộ dit liệu với 77 tính năng thống kê.
+ Làm sạch dữ liệu: Bộ dữ liệu chứa một số điểm bat thường chăng han như các cột và hàng trùng lặp bắt tiện các giá trị được loại bỏ dé có được một
tập dữ liệu sạch.
* Chuyén đôi dit liệu: Nhiều tinh năng bị thiếu hoặc các giá trị vô hạn nên được xử lý trước khi đào tạo. Các các giá trị còn thiếu được lấp đầy bằng giá trị trung bình của từng tinh năng. Các giá trị vô hạn được thay thé bang giá tri tối đa/tối thiêu của các tinh năng. Gan các chỉ mục dang số cho các dạng tan
công.
Training: Sử dụng thuật toán Decision Tree, Random Forest dé xây dựng bộ phân
loại các lớp dit liệu. Tập dữ liệu sẽ chia thành các tập huấn luyện, kiểm tra. Quá
trình huấn luyện được tối ưu hóa bằng các sử phương pháp tìm kiếm ngẫu nhiên và
chia 80% tap train và 20% tập test.
Đánh giá: Dé kiểm tra mô hình sẽ dựa trên một số tiêu chí như accuracy, fallout,
recall, F1-score. Các chỉ tiêu này được tính như dương tính thật (TP), dương tính
giả (FP), âm tính thật (TN) và âm tính gia (FN).
e Accuracy — Độ chính xác: Có bao nhiêu trường hợp được xác định đúng
(là tan công hoặc bình thường) trong tông số trường hợp.
TP +TN