TRINH BAY, ĐÁNH GIA BAN LUẬN VE KET QUÁ

4.1. Tao bộ dữ liệu DDOS dựa trên các bộ dữ liệu công khai

Các mô hình hành vi của các cuộc tan công mạng thay đôi dan dan và do đó, cần phải nâng cấp các bộ dữ liệu thông thường trong môi trường động. Điều này sẽ giúp hiển thị các kịch bản lưu lượng mạng khác nhau và các kiểu tan công dễ thích ứng, học hỏi và xác định lại. Hơn nữa, việc chọn một bộ dữ liệu phù hợp cũng là yếu

tố quan trọng.

Vì mục đích nghiên cứu một số tô chức có thé phát triển các bộ dữ liệu tuy nhiên vì

sự bí mật họ không sẵn sang công khai, ngược lại thì các bộ dữ liệu công khai chứa

các bản ghi có thê không phù hợp với nhu cầu xu hướng thực tế và công nghệ hiện tại. Trên thực tế, hầu hết các bộ đữ liệu có săn và công khai này bị thiếu sót về mặt thong kê và do đó, việc chọn ra một bộ dữ liệu dé phát triển cũng là một thách thức.

Dé phát triển và đánh giá khung của bộ dữ liệu IDS, một số đặc điểm quan trọng đã được rút ra dé xây dựng bộ dữ liệu IDS hoàn chỉnh và hiệu quả . Những đặc điểm này được liệt kê là tính đa dang của các cuộc tan công, tính ân danh, giao thức khả dụng, nắm bắt lưu lượng mạng hoàn chỉnh, nắm bắt tương tác mạng hoàn chỉnh, xác định cau hình hoàn chỉnh của mạng, bộ tính năng, mẫu dữ liệu được dán nhãn, tính không đồng nhất và siêu đữ liệu. Bộ dữ liệu CIC-IDS-2017 [14] và CSE-CIC- IDS-2018 [15,16] được phát triển có tính đến các đặc điểm này. Cả hai bộ dữ liệu này đều thé hiện thực hiện với kiến thức chuyên sâu về các cuộc tan công và kiến thức khái niệm về các mô hình ứng dụng, thiết bị mạng và giao thức khác nhau. Lưu lượng mạng được ghi lại bang cách sử dụng CITFlowMeter đã gan nhãn thích hợp cho luồng, đồng thời cung cấp thông tin chỉ tiết về địa chỉ nguồn và đích cũng như số công, dấu thời gian và cuộc tan công. Các mô phỏng của môi trường thử nghiệm bao gồm lưu lượng mạng được tạo từ các giao thức như HTTP, HTTPS, SSH và các giao

thức email như SMTP và POP3.

Các bước thực hiện tạo ra bộ dữ liệu DDOS:

Bước 1: Thông kê các tính năng của hai bộ dt liệu

Số Tên bộ dữ liệu Phát triển | lượng Các loại tan công

Features

Viện Án Powtscan Bower

CIC-IDS-2017 ninh mang 84 Dos, DDOS, Web.

Canada .

Infiltration

Viện An Powtecan Bower

CSE-IDS-2018 ninh mang 84 Dos, DDOS, Web.

Canada .

Infiltration Bang 4.1 Bộ dữ liệu CIC-IDS-2017 va CSE-IDS-2018

Bước 2: Tổng hợp va cắt bỏ các tính năng mà 2 bộ dữ liệu không khớp ta sẽ có

bộ đữ liệu tấn công DDOS gồm các thuộc tính sau:

Bước 3: Tinh năng cắt bỏ trên 2 bộ dữ liệu

Header Length.1 . CIC-IDS-2017: Flow ID, Src, ip, Dst_ip, Src_port, Protocol, Timestamp, Fwd

CSE-CICIDS-2018: Src_ip, Dst_ip, Src_port, Src_mac, Dst_mac, Protocol, Timestamp.

STT Tinh nang STT Tinh nang STT Tinh nang

1 Dst Port 27 | Fwd_seg_size_min| 53 Pkt_size_avg

2 Flow_Duration 28 | Fwd_act_data_pkts| 54 Init_fwd_win_byts

3 Flow_Byts_s 29 Flow_iat_mean 55 Init_bwd_win_byts

4 Flow_Pkts_s 30 Flow_iat_max 56 Active_min

5 Fwd_Pkts_s 31 Flow_iat_min 57 Active_mean

6 Bwd_Pkts_s 32 Flow_iat_std 58 Active_max

7 Tot_fwd_pkts 33 Fwd_iat_tot 59 Active_std

8 Tot_bwd_pkts 34 Fwd_iat_max 60 Idle_mean

9 Totlen_fwd_pkts 35 Fwd_iat_min 61 ldle_max

10 | Totlen_bwd_pkts 36 Fwd_iat_mean 62 Idle_min

11 Fwd_pkt_len_min 37 Fwd_iat_std 63 Idle Std

12 | Fwd_pkt_len_max 38 Bwd_iat_min 64 Fwd_byts_b_avg

13 | Fwd_pkt_len_mean | 39 Bwd_iat_max 65 Fwd_pkts_b_avg

14 Fwd_pkt_len_std 40 Bwd_iat_mean 66 Bwd_byts_b_avg

15 | Fwd pkt len mean | 41 Bwd_iat_std 67 Bwd_pkts_b_avg

16 | Bwd_pkt_len_min | 42 Bwd_iat_tot 68 Fwd_blk_rate_avg

17 | Bwd pkt len max | 43 Fwd_psh_ flag 69 Bwd_blk_rate_avg

18 |Bwd pkt len mean| 44 Bwd_psh_ flag 70 Fwd_seg_size_avg

19 Bwd_pkt_len_std 45 Fin_flag_cnt 71 Bwd_seg_size_avg

20 Pkt_len_min 46 Syn_flag_cnt 72 Cwe_flag_count

21 Pkt_len_max 47 Rst_flag_cnt 75 Subflow_fwd_pkts

22 Pkt_len_mean 48 Psh_flag_cnt 74 Subflow_bwd_pkts

23 Pkt_len_std 49 Ack_flag_cnt 75 Subflow_fwd_bytes

24 Pkt_len_var 50 Urg_flag_cnt 76 Subflow_bwd_bytes

25 Fwd_header_len 51 Ece_flag_cnt 77 Label

26 Bwd_header_len 52 Down_up_ratio

Bang 4.2 Tinh năng bộ dữ liệu tông hợp tan công DDOS từ 2 bộ dữ liệu

Bước 4: Tổng hợp các bản ghi các cuộc tan công DDOS của 2 bộ dữ liệu CIC-IDS-

2017 và CSE-IDS-2018 sau khi thực hiện cắt bỏ các tính năng.

Label Số lượng Dataset

DDOS attack-HOIC 561741 2018 DDOS attacks-LOIC-HTTP 498749 2018 DDOS 128027 2017 DDOS attack-LOIC-UDP 1730 2018

Benign 332817 2017+ 2018

Bang 4.3 Số lượng bản ghi của bộ dit liệu tông hợp tan cong DDOS

HOIC (Hiph Orbit lon Cannon) là một công cụ phổ biến được sử dụng dé gay các cuộc tan công HTTP Flood bằng lưu lượng truy cập web và dong cửa một trang

web hoặc dịch vụ. Nó là một phần mềm nguồn mở dễ dàng có san được phát triển bởi nhóm hacktivist Anonymous, và nó là sản phẩm kế thừa của một công cụ DDOS cũ hơn có tên là Low Orbit lon Cannon (cả hai đều được đặt tên theo vũ khí trò chơi

điện tử khoa học viễn tưởng).

HOIC (High Orbit lon Cannon) hoạt động thông qua một cuộc tấn công DDOS HTTP Flood ở lớp ứng dung bang các request HTTP ‘GET’ và ‘POST’. Ngoài ra để nâng cao sự mạnh mẽ các cuộc tan công nhờ các tập lệnh tủy chỉnh. Sử dụng với mục đích nhắm mục tiêu nhiều tên miền phụ của trang web cùng một lúc làm tê liệt toàn

bộ trang web. Cách tiếp cận đơn giản nhưng có sự hệ lụy vô cùng nghiêm trong khi

có nhiêu kẻ tân công phôi hợp vào nhiêu trang web và miên khác nhau.

LOIC (Low Orbit lon Cannon) là một công cụ thường được sử dụng dé thực hiện các cuộc tấn công . Ban đầu đây một ứng dụng đo độ lớn của mạng khi có một lượng truy cập lớn trong một thời gian, nhưng sau đó nó đã trở thành nguồn mở và hiện chủ yếu được sử dụng với mục đích xấu. Với những người không có kiến thức

kỹ thuật nhưng có ý đồ xấu, sử dụng công cụ này có khả năng khởi động các cuộc tấn

công DDOS một cách dễ dàng.

Nó hoạt động bang cách làm cách gây ngập lụt cho máy chủ mục tiêu bang các gói TCP , UDP hoặc HTTP . Giữ cho dịch vụ luôn kết nói với kẻ tắn công khiến các yêu cầu bình thường bị nghẽn lại khiến dịch vụ bị gián đoạn và tạo điều kiện cho các

cuộc tân công khác như ăn cap dữ liệu, cài đặt các virus, malware,...

Các cuộc tấn công nghiêm trọng yêu cầu hàng nghìn người dùng phối hợp tấn công

cùng lúc vào cùng một mục tiêu. Dé thực hiện các cuộc tấn công phối hợp này đơn giản hơn, có thé sử dụng các kênh trò chuyện IRC dé chạy phiên bản LOIC 'Hivemind' cho phép một người dùng chính kiểm soát một số máy tính phụ được nối mạng, tạo

ra một mạng botnet tự nguyện . Đây là một cách tiếp cận phô biến vì chủ sở hữu của các thiết bị thứ cấp có thé tuyên bố rằng họ là nạn nhân vô tội của một mang botnet

không tự nguyện.

4.2. Mô hình có khả năng giải thích

4.2.1. Cách thực hiện trên mô hình

Tiền xử lý dữ liệu: Các bộ dữ liệu có sẵn công khai được sử dụng trong nghiên cứu này cần một số bước tiền xử lý dữ liệu, chăng hạn như loại bỏ tính năng và thiếu giá trị quy nạp trước khi sử dụng chúng trong các thuật toán học máy. Đề đạt được điều

này, các bước sau được áp dụng cho tât cả các bộ dữ liệu

* Loại bỏ tính năng: Các tinh năng định danh mang đó là ID luồng, IP nguôn và đích, Nguồn và Công đích, Giao thức và Dấu thời gian bị xóa, dé lại

bộ dit liệu với 77 tính năng thống kê.

+ Làm sạch dữ liệu: Bộ dữ liệu chứa một số điểm bat thường chăng han như các cột và hàng trùng lặp bắt tiện các giá trị được loại bỏ dé có được một

tập dữ liệu sạch.

* Chuyén đôi dit liệu: Nhiều tinh năng bị thiếu hoặc các giá trị vô hạn nên được xử lý trước khi đào tạo. Các các giá trị còn thiếu được lấp đầy bằng giá trị trung bình của từng tinh năng. Các giá trị vô hạn được thay thé bang giá tri tối đa/tối thiêu của các tinh năng. Gan các chỉ mục dang số cho các dạng tan

công.

Training: Sử dụng thuật toán Decision Tree, Random Forest dé xây dựng bộ phân

loại các lớp dit liệu. Tập dữ liệu sẽ chia thành các tập huấn luyện, kiểm tra. Quá

trình huấn luyện được tối ưu hóa bằng các sử phương pháp tìm kiếm ngẫu nhiên và

chia 80% tap train và 20% tập test.

Đánh giá: Dé kiểm tra mô hình sẽ dựa trên một số tiêu chí như accuracy, fallout,

recall, F1-score. Các chỉ tiêu này được tính như dương tính thật (TP), dương tính

giả (FP), âm tính thật (TN) và âm tính gia (FN).

e Accuracy — Độ chính xác: Có bao nhiêu trường hợp được xác định đúng

(là tan công hoặc bình thường) trong tông số trường hợp.

TP +TN

TRINH BAY, ĐÁNH GIA BAN LUẬN VE KET QUÁ

NGHIÊN CỨU THỰC NGHIỆM HOẶC LÍ THUYET

Áp dụng phương pháp giai thích