1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ An toàn thông tin: Nghiên cứu cải thiện hiệu năng phát hiện tấn công từ chối dịch vụ bằng máy học trong IoT

95 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên Cứu Cải Thiện Hiệu Năng Phát Hiện Tấn Công Từ Chối Dịch Vụ Bằng Máy Học Trong IoT
Tác giả Nguyễn Gia Trung
Người hướng dẫn TS. Nguyễn Tấn Cầm
Trường học Đại Học Quốc Gia TP HCM
Chuyên ngành An Toàn Thông Tin
Thể loại luận văn thạc sĩ
Năm xuất bản 2023
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 95
Dung lượng 57,09 MB

Nội dung

Trong nghiên cứu của mình, tôi đề xuất một mô hình kết hợp kỹ thuật phân tíchthành phần chính và 05 thuật toán máy học bao gồm: Decision Tree, Random Forest,Extremely Randomized Trees, N

Trang 1

NGUYÊN GIA TRUNG

NGHIÊN CỨU CẢI THIỆN HIỆU NĂNG PHÁT HIỆN

TAN CÔNG TU CHOI DỊCH VỤ BANG MAY HỌC

Trang 2

ĐẠI HỌC QUỐC GIA TP HCM

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

NGUYÊN GIA TRUNG

TAN CÔNG TỪ CHOI DỊCH VỤ BANG MAY HỌC

TRONG IoT

LUAN VAN THAC Si NGANH AN TOAN THONG TIN

Mã số: 8.48.02.02

NGƯỜI HƯỚNG DẪN KHOA HỌC

TS NGUYEN TAN CAM

TP HO CHÍ MINH — NĂM 2023

Trang 3

LỜI CÁM ƠN

Hoàn thành luận văn với hướng nghiên cứu cải thiện hiệu năng phát hiện tấn công từchối dịch vụ bằng máy học trong IoT, ngoài sự nô lực phấn đấu của bản thân, tôi đãnhận được nhiều sự giúp đỡ đáng trân trọng

Tôi xin tri ân đến gia đình mình đã ủng hộ tôi về mặt tinh thần để vượt qua những

khó khăn trong quá trình học cao học cũng như thực hiện luận văn.

Đặc biệt, tôi xin bày tỏ lòng biết on chân thành, sâu sắc đến Thầy TS Nguyễn TanCầm Thay đã tận tâm, nhiệt tình hướng dẫn và chỉ bảo cho tôi trong suốt quá trình thựchiện đề tài

Xin cảm ơn tất cả quý thầy cô Trường Đại học Công Nghệ Thông Tin - ĐHQGTPHCM đã truyền đạt những kiến thức vô cùng bổ ich trong suốt quá trình học tập Tôicũng xin cám ơn các bạn học viên cao học đã giúp đỡ và đóng góp nhiều ý kiến, qua đógiúp tôi hoàn thiện hơn đề tài này

Và cuối cùng, tôi cũng không quên gửi lời cảm ơn đến tác giả của các công trìnhnghiên cứu khoa học mà tôi đã tham khảo để hỗ trợ cho công trình nghiên cứu khoa học

của tôi cũng như thực hiện luận văn này.

Luận văn đã hoàn thành với một số kết quả nhất định, tuy nhiên vẫn không tránhkhỏi thiếu sót Kính mong sự đóng góp ý kiến từ quý thầy cô và các bạn

Một lần nữa, tôi xin chân thành cảm ơn!

TP Hồ Chí Minh, ngày tháng năm 2023

Học Viên

Nguyễn Gia Trung

Trang 4

LỜI CAM ĐOAN

Tôi xin cam đoan:

1 Những nội dung trong luận văn này là do tôi thực hiện dưới sự hướng dẫn của Thầy

TS Nguyễn Tan Cam

2 Mọi tham khảo trong luận văn đều được trích dẫn rõ ràng tên công trình, tên tác giả,

thời gian công bố

Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, tôi xin chịu hoàn toàn trách nhiệm

TP Hồ Chí Minh, ngày tháng năm 2023

Học Viên

Nguyễn Gia Trung

Trang 5

1.4 Bố cục của luận văn sex EEE11271127112711211107 1.11121110111211 gee 4

CHƯƠNG2_ CƠ SỞ LÝ THUYET VÀ CÁC NGHIÊN CỨU LIÊN QUAN 5

2.1 Tổng quan hệ thống IoT 22+++2222EEE+v++ettEEEErvvrrrrrrrrrrrree 5

2.2 _ Tổng quan về tan công DDoS 22¿++22+++22EEEEetEEEEEErrrrrxrrrrrrkrree 8

2.3 Các nghiên cứu liÊn Quan - 6 tt SE #kE#vEekekekrkrkrkrrrreerkrkrkrk 23 2.4 Cac thuật toán học máyy - ¿+ + +22 E1 111111 27 2.4.1 Decision TTee càng HT HH rên 27

P UN (CÀ 0n.i(.sỘ)}) 28

2.4.3 Extremely Randomized Trees.

2.4.4 Naive Bayes cành, H212 201 H2 ước 30

Trang 6

2.4.5 Support Vector Machine xxx tk krrtrrekskrkrkrkrrrrerree 31

2.5 KY thuật phân tích thành phan chính - -¿2++z+22s++e+tzvsscee 32

2.6 Dai lượng đánh giá các mô hình học máy -.- - ¿+ - <2 +c++++x++ 34 P.2 34

3.1 Thu thập dữ liệu thô +25 S111 21 113 1212101112 1 ve 37

3.2 _ Làm sạch dữ liệu - óc 1S ng gi 38

3.3 Tiền xử lý dữ liệu ccccccecrcccttttEEEEEEEttttttiiiiririrrrrrrrrirrrrre 40

3.3.1 Co giản dữ liệu ec- + St hhhHHergướn 40

3.3.2 Giảm chiều dữ liệu -222222EEErrtkkrtririrrrrrrrrrrrrrrrre 41

3.4 Huấn luyện mô hình đề xuất đề phát hiện tắn công DDoS - 43

3.5 Kết chương -2222+222 22 22221 22211 E121 11111 e 45CHƯƠNG4_ THỰC NGHIỆM VÀ ĐÁNH GIÁ

4.1 Môi trường thực nghiệm 6 St S* 22tr 46

4.2 _ Tập dữ liệu

4.3 Quy trình thực nghiỆm - - <1 TH HH rưện 51

4.4 Kết quả thực nghiệm với các thuật toán học máy không sử dung PCA

4.5 Kết quả thực nghiệm mô hình đề xuất -c+z+22vvvzvsccccee 54

4.5.1 Thuật toán DT.

Trang 7

4.5.2 Thuật toán RE -+c+ reo 57 4.5.3 _ Thuật toán ET - Sc St vSt 2 SE ng x11 px nrvey 58 4.5.4 _ Thuật toán NB c2 1 t2 v2 n2 Y1 11111 1111 11111 11k rrvey 59 4.5.5 Thuật toán SVM 2222222+2222221111222212221112 2.2.1.1, re 61

4.6 So sánh kết qua mô hình dé xuất :¿¿2+++22++++222vv+ertvrvsrerrrx 624.6.1 Độ biến thiên hiệu suất mô hình ¿©2++z+222++++tzzvecee 62

4.6.2 _ Độ biến thiên thời gian huấn luyện mô hình -¿ +2 63CHƯƠNG 5 KET LUẬN VÀ HƯỚNG PHAT TRIÊN -+- 64

5.1 Kếtluận cc2222222222222222221E1 E121 c.c.rrrrree 64

5.2 _ Hạn chế của nghiên cứu ++2©++++22E+++tt2EEE+rtttEExvrttrkrvrrrrrrrrree 645.3 Khuyến nghị và định hướng tương lai -.¿-c:c2225vcz+2cvsvceccvsccee 65

DANH MỤC CONG BO KHOA HOC CUA TÁC GIẢ 2- 22522552 66TÀI LIEU THAM KHẢO -22222£2222222222322E22221122222111222211112211111 22211 Le 67

Trang 8

DANH MỤC CÁC KÝ HIỆU, THUẬT NGỮ VÀ CHỮ VIET TAT

STT Từ viết tắt/Thuật ngữ Tiếng Việt(tạm dịch)

1 Internet of Things (IoT) Mạng kết nỗi vạn vật

2 Distributed Denial of Service (DDoS) | Tân công từ chôi dịch phụ phân tán

3 Software Defined Networking (SDN) | Mạng điêu khiên băng phân mêm

4 Decision Tree (DT) Thuật toán cây quyét định

5 Random Forest (RF) Thuật toán rừng, ngẫu nhiên

6 Extremely Randomized Trees (ET) Thuật toán cây siêu ngẫu nhiên

7 Naive Bayes (NB) Thuat toan Naive Bayes

§ | Support Vector Machine (SVM) Thuật toán máy vector hỗ trợ

9 K-Nearest Neighbors (k-NN) Thuật toán K lân cận

10_ | Artificial Neural Networks (ANN) Thuật toán mạng thân kinh nhân tao

11 | Convolutional Neural Network (CNN) | Thuật toán mang thần kinh tích chập

12_ | Expectation Maximization (EM) Thuật toán cực đại kỳ vọng

13 |k-Means Thuật toán K trung bình

14_ | Self Organizing Map (SOM) Thuat toán tự tô chức

15_ | Recurrent Neural Network (RNN) Thuật toán mang thân kinh hôi quy 16_ | Autoencoder (AE) Thuật toán bộ mã hóa tự động,

17 | Long Short Term Memory (LSTM) Thuật toán bộ nhớ ngắn đài hạn

18 | Radial Basis Function (RBF) Thuật toán mang thân kinh dựa trên

hàm cơ sở bán kính

19 | Multi-layer Perceptron (MLP) Thuật toán tri giác nhiêu lớp

20 Density-Based Spatial Clustering of | Thuật toán phân cụm dựa trên không

Applications with Noise (DBSCAN) | gian mat độ

21 _| Principal Component Analysis (PCA) _| Kỹ thuật phân tích thành phân chính

22 Synthetic Minority Over-sampling | Kỹ thuật lây mẫu quá mức giảm mất

(SMOTE) cân băng dữ liệu

23 | Internet Protocol (IP) Giao thức mang két nỗi

24 | Transmission Control Protocol (TCP) | Giao thức điều khiến truyện vận

25 | User Datagram Protocol (UDP) Giao thức dữ liệu người dùng

Internet Control Message Protocol | Giao thức điêu khiên truyền tin qua 26

(ICMP) mang

Character Generator noe 2

27 Protocol (CharGEN) Giao thức sinh ký tự

28 | Acknowledgement (ACK) Co xác nhận trong gói tin TCP

29 _| Synchronisation (SYN) Co đồng bộ trong gói tin TCP

30 | Reset (RST) Cờ khởi tạo lại trong gói tin TCP

31 | Finnish (FIN) Co hoàn thành trong gói tin TCP

Trang 9

DANH MỤC CÁC BẢNG

Bảng 2.1 So sánh các công trình nghiên cứu liên quan 26

Bảng 3.1 Thành phần chính

Bảng 4.1 Thống kê dữ liệu trước và sau khi làm sạch dữ liệu

Bảng 4.2 Các đặc trưng sau khi làm sạch dữ liệu ¿5-5 cccccccrxercex 49

Bảng 4.3 Hiệu suất các thuật toán khi không sử dụng PCA trên tập dữ liệu CICIDS

2017 và CSE-CIC-IDS 2018 «5+ xé E9 E112 11 111k rkrrrrrrree 53

Bang 4.4 Kết quả thực nghiệm mô hình đề xuất dựa trên thuật toán DT trên 2 tập dữ

liệu CICIDS 2017 và CSE-CIC-IDS 2018 ¿55252 S+‡ct+xeerrerkerrrerkrree 56

Bảng 4.5 Kết quả thực nghiệm mô hình đề xuất dựa trên thuật toán RF trên 2 tập dữ

liệu CICIDS 2017 và CSE-CIC-IDS 20118 5+5 S++csxertrxerererkerrrrerrree 57

Bang 4.6 Kết quả thực nghiệm mô hình đề xuất dựa trên thuật toán ET trên 2 tập dữ

liệu CICIDS 2017 và CSE-CIC-IDS 2018 - + 25+ ++£+£v£v£xexexererrkeerrrre 59

Bang 4.7 Két quả thực nghiệm mô hình đề xuất dựa trên thuật toán NB trên 2 tập dữ

liệu CICIDS 2017 và CSE-CIC-IDS 20118 - +55 sxersxerexerkerrrrerkrree 60

Bảng 4.8 Kết quả thực nghiệm mô hình đề xuất dựa trên thuật toán SVM trên 2 tập dữ

liệu CICIDS 2017 và CSE-CIC-IDS 20

Bang 4.9 So sánh độ biến thiên các đại lượng hiệu suất và thời gian huấn luyện mô

hình trên tập dữ liệu CICIDS 2017 và CSE-CIC-IDS 2018 : :-+ 63

Trang 10

DANH MỤC CÁC HÌNH VẼ, ĐÒ THỊHình 2.1 Kiến trúc hệ thống IơT hoàn chỉnh 22: 22¿22+2z22222zerevzvvzrrrrx 15

Hình 2.2 Lĩnh vực liên quan ToT oo eeeeeseeceseesesseseeseeeseeaesnessesessesseneseesessesesneseeneaee 16 Hình 2.3 Volumetric AttaCÌ - - 5c + St 1E TH H1 0101.1001011 00g uy 19

Hình 2.4 Protocol Attack -5- + tt hề T1 110112111 1p rrrrrrree 20

Hình 2.5 Application AttaCK - + ccn té HH HH1 Hư 22

Hình 2.6 Kiến trúc thuật toán DT :-::::+++++ttEEEEEEEkktitiiirrirrrrrrrrrrrrrriee 27Hình 2.7 Kiến trúc thuật toán RF -++:++¿++tttEEEEEEEEiiirrirrrrrrrrrie 29

Hình 2.8 Dữ liệu có phương sai khác nhau - 55+ 5++x+x+£vzvztztzxexererezvsrrrrrx 32

Hình 2.9 Dữ liệu có phương sai giống nhau 2 c2c5ccccccsvccerrrsccsrrvee 33Hình 3.1 Mô hình đề xuất

Hình 3.2 Thuật toán làm sạch dữ liệu ¿5252525 22+ +t2£vEvEexexevetevrvserrrereee 39

Hình 3.3 Thuật toán tiền xử lý dữ liệu ¿ 2222S2vc+cctcEEExvvrrrrrrrrrrrrrrree 42Hình 3.4 Thuật toán phát hiện tan công DDoS -:¿¿ 22cvccc+zz+ccvvvveeerzee 44Hình 4.1 Sơ đồ tập dữ liệu CICIDS 20 L7 - - - - 5+5 +£v++kekekererkrkskerrke 47

Hình 4.2 Nhãn dữ liệu tập dữ liệu CICIDS 2017 ¿- + 5++s+sxexvzxerexee 48 Hình 4.3 Nhãn dữ liệu tập dữ liệu CSE-CIC-IDS 2018 -+- + <<+ 48

Hình 4.4 Hiệu suất các thuật toán máy học không sử dụng PCA - 53Hình 4.5 Thời gian huấn luyện các thuật toán không sử dụng PCA - 53

Hình 4.6 Thời gian thực hiện PCA trên tập dữ liệu CICIDS 2017 54

Hình 4.7 Thời gian thực hiện PCA trên tap dữ liệu CSE-CIC-IDS 2018 5S

Hình 4.8 Hiệu suất của mô hình dé xuất dựa trên thuật toán DT -. -+ 56Hình 4.9 Thời gian huấn luyện của mô hình đề xuất dựa trên thuật toán DT 56Hình 4.10 Hiệu suất của mô hình đề xuất dựa trên thuật toán RE

Hình 4.11 Thời gian huấn luyện của mô hình đề xuất dựa trên thuật toán RF

Hình 4.12 Hiệu suất của mô hình đề xuất dựa trên thuật toán ET

Hình 4.13 Thời gian huấn luyện của mô hình đề xuất dựa trên thuật toán ET

Hình 4.14 Hiệu suất của mô hình đề xuất dựa trên thuật toán NB 60Hình 4.15 Thời gian huấn luyện của mô hình đề xuất dựa trên thuật toán NB 60Hình 4.16 Hiệu suất của mô hình đề xuất dựa trên thuật toán SVM - 61

Trang 11

MỞ DAU

Hệ thống Internet of Things (IoT) mang lại nhiều lợi ích cho cuộc sống hàng ngày củachúng ta và nó ngày càng trở nên quan trọng Một hệ thống IoT hoàn chỉnh bao gồmcác thiết bị, cảm biến, hệ thống mạng biên, hệ thống lưu trữ đám mây và phần mềmphân tích dữ liệu kết nói với nhau Tuy nhiên, các thiết bị và cảm biến trong hệ thốngIoT thường có yêu cầu tài nguyên thấp và nhiều lỗ hong bảo mật từ nhà sản xuất Cácvùng mạng biên IoT có nhiều điểm yếu về bảo mật Do đó, việc chiếm đoạt trái phépcác cảm biến hoặc tấn công từ chối dịch vụ trên các khu vực mạng biên gây ra hậu quảnghiêm trọng cho tính sẵn sàng của hệ thống

Trong nghiên cứu của mình, tôi đề xuất một mô hình kết hợp kỹ thuật phân tíchthành phần chính và 05 thuật toán máy học bao gồm: Decision Tree, Random Forest,Extremely Randomized Trees, Naive Bayes và Support Vector Machine đề huấn luyện

và dự đoán các cuộc tấn công từ chối dịch vụ Tôi sử dụng các đại lượng Accuracy,Precision, Recall và Fl-Score để đánh giá hiệu suất của mô hình Ngoài ra, tôi sử dụngthêm đại lượng Training Time để đánh giá thời gian huấn luyện dữ liệu của mỗi môhình Tôi sử dung hai tập dữ liệu tấn công mạng phô biến là: CICIDS 2017 do Viện anninh mạng Canada công bó năm 2017 và CSE-CIC-IDS 2018 do Viện an ninh mạngCanada kết hợp Tổ chức an ninh truyền thông Canada cùng công bố năm 2018, để đánhgiá mô hình đề xuất Kết quả đạt được là các mô hình đề xuất đã cho thay khả năng dựđoán có độ chính xác cao và cải thiện thời gian huấn luyện

Trang 12

CHUONG 1 TONG QUAN

1.1 Lý do chọn đề tài

Với cuộc đại cách mạng công nghiệp 4.0, oT là một trong những lĩnh vực dẫn đầu déphát triển kinh tế xã hội Đảm bảo an toàn bảo mật của hệ thống IoT trước các cuộc tấncông mạng nhằm giúp hệ thống vận hành ồn định và tin cậy luôn là ưu tiên hàng đầu

Do đó, đây là lĩnh vực nghiên cứu được cơ quan nhà nước, các tô chức và những nha

nghiên cứu quan tâm đặc biệt [20].

Các công trình nghiên cứu khoa học gần đây sử dụng phương pháp học máy và họcsâu đã chứng minh khả năng dự đoán chính xác cho việc phát hiện các cuộc tấn côngDDoS Tuy nhiên, các nghiên cứu này chủ yếu tập trung vào mạng máy tính truyềnthống với các máy chủ có cấu hình mạnh, đáp ứng các yêu cầu xử lý dữ liệu lớn cũngnhư khả năng tính toán nhanh Việc triển khai thực tế các giải pháp đó trên các thiết bịbiên trong hệ thống IoT là không khả thi do các thiết bị biên thường có tài nguyên rấthạn chế Ngoài ra, một số nghiên cứu chỉ tập trung vào độ chính xác của thuật toán mà

bỏ qua sự quan trọng của thời gian huấn luyện của mô hình

Từ tiềm năng to lớn trong lĩnh vực và những hạn chế đang gặp phải như đã nêu ởtrên, đã tạo động lực giúp tôi nghiên cứu hướng phát triên một mô hình phát hiện tancông DDoS có thể được áp dụng trên các thiết bị biên trong hệ thống IoT Giải phápnày nhằm đóng góp vào việc xây dựng một môi trường kết nối an toàn và đáng tin cậycho các thiết bị IoT, tạo ra cơ hội phát triển cho các công nghệ IoT trong tương lai

1.2 Mục tiêu và phạm vi của luận văn

1.2.1 Mục tiêu tổng quát

© _ Nghiên cứu cải thiện thời gian huấn luyện các thuật toán học máy mà vẫn dam

bảo khả năng dự đoán các cuộc tấn công DDoS có độ chính xác cao nhằm giảmchỉ phí tài nguyên hệ thống Từ đó có thé áp dụng được trên các thiết bị biên IoT

có cấu hình thấp

1.2.2 Mục tiêu cụ thé

© _ Xây dựng, huấn luyện và dự đoán các cuộc tan công DDoS bằng 05 thuật toán

học máy: DT, RF, ET, NB va SVM.

Trang 13

Xây dựng, huấn luyện và dự đoán các cuộc tan công DDoS bằng phương pháp

đề xuất kết hợp giữa kỹ thuật giảm chiều dữ liệu PCA và 05 thuật toán học máy:

DT, RF, ET, NB và SVM.

Đánh giá, so sánh hiệu suất dự đoán các cuộc tan công DDoS giữa mô hình déxuất và các thuật toán học máy khi không có kết hợp kỹ thuật giảm chiều dé liệuPCA thông qua sự biến thiên giá trị các đại lượng: Accuracy, Precision, Recall,

FI- Score va Training Time.

Pham vi nghiên cứu

Đảm bảo tính sẵn sàng của hệ thống IoT trước các cuộc tắn công DDoS

Cơ sở lý thuyết các thuật toán học máy DT, RE, ET, NB, SVM và kỹ thuật giảmchiều dữ liệu PCA

Thực nghiệm so sánh dự đoán và phân loại nhị phân các cuộc tấn công DDoSbằng các thuật toán học máy DT, RF, ET, NB, SVM khi có và không có kết hợp

kỹ thuật giảm chiều dữ liệu PCA

1.3 Nội dung và phương pháp nghiên cứu

Để đạt được các mục tiêu đặt ra của luận văn, tôi tiến hành thực hiện các nội dung sau:

Nghiên cứu thành phan, chức năng và kiến trúc hệ thống IoT

Nghiên cứu đặc điểm các hình thức tan công DDoS phô biến hiện nay

Khảo sát các công trình nghiên cứu dùng các thuật toán học máy, học sâu để dựđoán các cuộc tan công DDoS từ năm 2018 đến nay

Khao sát, đánh giá 2 tập dữ liệu tan công mạng phô biến: CICIDS 2017 và

CSE-CIC-IDS 2018.

Nghiên cứu cơ sở lý thuyết các thuật toán học máy DT, RF, ET, NB, SVM và kỹthuật giảm chiều dữ liệu PCA

Thực nghiệm, thống kê và so sánh hiệu suất dự đoán các cuộc tấn công DDoS

của các thuật toán học máy DT, RF, ET, NB, SVM khi có và không có kết hợpvới kỹ thuật giảm chiều dữ liệu PCA

Ngôn ngữ lập trình Python, công cụ Colab của Google, các thư viện numpy, scikit-learn, pandas, matplotlib, time trong việc thực nghiệm.

Trang 14

1.44 Bố cục của luận văn

Bô cục luận văn gôm các chương sau:

Chương 1 Tổng quan: Giới thiệu đề tài, lý do chọn đề tài, mục tiêu, phạm vi

và nội dung thực hiện trong đề tài

Chương 2 Cơ sở lý thuyết và các nghiên cứu liên quan: Trình bày kết quảnghiên cứu về hệ thống IoT, các loại tắn công DDoS hiện nay, cơ sở lý thuyếtcác thuật toán học máy DT, RF, ET, NB, SVM, kỹ thuật giảm chiều dữ liệu PCA

Nêu rõ các công trình nghiên cứu khoa học liên quan Và định nghĩa các đại

lượng dùng dé đánh giá mô hình dé xuất

Chương 3 Mô hình đề xuất: Giới thiệu mô hình đề xuất kết hợp giữa các thuậttoán học máy DT, RF, ET, NB và SVM với kỹ thuật giảm chiều dữ liệu PCA đểtìm ra mô hình dự báo các cuộc tấn công DDoS có độ chính xác cao và cải thiệnthời gian huấn luyện

Chương 4 Thực nghiệm và đánh giá: Phân tích 2 tập dữ liệu CICIDS 2017 và

CSE-CIC-IDS 2018 Tiền hành thực nghiệm, so sánh kết quả các mô hình trongviệc dự đoán các cuộc tan công DDoS trên 02 tập dữ liệu này

Chương 5 Kết luận và hướng phát triểnDanh mục công bố khoa học của tác giả

Tài liệu tham khảo

Trang 15

CHƯƠNG2_ CƠ SỞ LÝ THUYET VÀ CÁC NGHIÊN CỨU LIÊN QUAN

2.1 Tổng quan hệ thống IoT

Năm 1935, quân đội Đức ứng dụng nhận diện tần số sóng vô tuyến trên các cảm biếncủa máy bay nhằm mục đích phân biệt máy bay đồng minh trên trạm quan sát mặt đất.Đây được xem là hệ thống ứng dụng IoT đầu tiên của thế giới Trong những năm 1970

— 1980, các ứng dụng IoT dựa trên cảm biến sóng vô tuyến được cấp bằng sáng chếnhư: hệ thống nhận diện mã vạch của Mario W.Cardullo, hệ thống mở cửa tự động củaCharles Walton Đến năm 2000, thuật ngữ “Internet of Things” được Kevin Ashton sửdụng Cũng theo một giả thuyết khác của giáo sư Daniel Engels, thuật ngữ này đã được

Hạ tầng mạng (Network and Cloud)

Tram kết nối Fa Tram kết nối

(Gateway) (Gateway)

TH OS SES

Cac thiét bi (Things)

Hình 2.1 Kiến trúc hệ thống IoT hoàn chỉnh [21]

Trang 16

Một số mô tả và định nghĩa hệ thống IoT được các tổ chức tiêu chuẩn quốc tế nêu ra

như sau:

e _ Viện kỹ sư điện và điện tử của Mỹ (Institute of Electrical and Electronics Engineers

- IEEE) mô tả IoT là một mang gồm nhiều thành phần — mỗi thành phan trong đógồm những thiết bị cảm biến — và các thành phần này được kết nối với nhau thôngqua Internet Trong tiêu chuẩn IEEE P2413, IEEE định nghĩa kiến trúc hệ thống loơTgồm 3 tang: tang cảm biến (Sensing Tier), tang mang và truyền dữ liệu (Networkingand Data Communications Tier), tầng ứng dụng (Application Tier) IEEE cũng nêubật các lĩnh vực liên quan đến IoT như mô tả ở hình 2.2

Hospitals & Doctors Consumer equipment providers

Insurance companies Consumers

Appliances

Home & providers

ICT infrastructure Building

Manufacturing industries Automation equipment providers

Hình 2.2 Lĩnh vực liên quan IoT

e Tổ chức phát triển các tiêu chuẩn và giao thức mạng cho Internet (Internet

Engineering Task Force - IETF) mô tả IoT dựa trên 2 khái niệm Internet va vật (things) Trong đó:

o_ Khái niệm Internet dựa trên các tiêu chuẩn TCP/IP bao gồm: mạng Internet cơ

bản, mạng riêng (private network) và mạng viễn thông (telecommunication

network).

Trang 17

o Khái niệm vat (things): là các vật như máy tính, cảm biến, con người, tivi, xe cộ,

điện thoại, sách, áo quân Có thé chia thành 3 nhóm things là: con người, máymoc và thông tin Các things này được định danh duy nhất và xem chúng là đối

tượng (objects) [1].

Tổng quát, hệ thống IoT là mạng lưới các thiết bị và hệ thống kết nối với nhau qua môitrường Internet dé thu thập, truyền, xử lý và phân tích dữ liệu từ môi trường vật lý Cácthành phan chính của một hệ thống IoT bao gồm các thiết bị biên, gateway, máy chủ

đám mây, công cụ phân tích dữ liệu và giao diện người dùng.

e _ Các thiết bị biên là các thiết bị vật lý như cảm biến, bộ điều khiển và bộ xử lý đề thu

thập và tiền xử lý đữ liệu, và có thể thực hiện chức năng phân tích ban đầu trước khigửi dữ liệu lên máy chủ đám mây Ví dụ như cảm biến nhiệt độ, đèn chiếu sángthông minh, bộ đo độ ẩm Các thiết bị biên được kết nối với nhau thông qua các

công nghệ như Wi-Fi, Bluetooth, ZigBee, Z-Wave, hay LoRaWAN.

© Gateway cung cấp kết nối và xử lý, hoạt động như trung gian giữa các thiết bị biên

và máy chủ đám mây nhằm giảm lưu lượng và độ trễ mạng, tạo ra các giao thứctruyền dữ liệu từ các thiết bị biên lên máy chủ đám mây như giao thức truyền thôngđiệp Message Queuing Telemetry Transport (MQTT), giao thức truyền tải tài liệuConstrained Application Protocol (CoAP), giao thức truyền tải siêu văn bản The

Hypertext Transfer Protocol (HTTP), hay Websocket, đảm bảo tính liên tục và độ tin cậy của dữ liệu.

e Máy chu đám mây lưu trữ và xử lý dữ liệu được gửi lên từ các thiết bị biên và

gateway, cung cấp tài nguyên tính toán và dung lượng lưu trữ có khả năng mở rộng

để xử lý khối lượng dữ liệu lớn

e_ Công cụ phân tích dữ liệu được sử dụng dé phân tích thông tin chỉ tiết từ đữ liệu

Các công cụ phân tích dữ liệu thường sử dụng các thuật toán học máy, phân tích

thống kê và kỹ thuật trực quan dé xác định tính chất hoặc bat thường trong dữ liệu

¢ Giao diện người dùng, chẳng hạn như ứng dụng web hoặc di động, cho phép người

dùng tương tác với hệ thống IoT, truy cập và phân tích dữ liệu từ thiết bị của họ,

nhận cảnh báo và thông báo dựa trên dữ liệu được thu thập.

Trang 18

Các thành phần của hệ thống IoT được kết nối với nhau dựa trên những kiến trúc phổbiến như sau:

¢ _ Kiến trúc hệ thống IoT tập trung: Trong kiến trúc này, các thiết bị biên IoT thu thập

và gửi dữ liệu trực tiếp đến máy chủ trung tâm hoặc nút trung tâm để xử lý và phântích Ưu điểm của kiến trúc này là giúp tập trung dữ liệu và đơn giản hóa việc quản

ly Khuyết điểm của nó là gây ra van dé về độ trễ và khả năng mở rộng hệ thống

© Kiến trúc hệ thống IoT phân tán: Kiến trúc nay cho phép các thiết bị biên IoT kết

nối trực tiếp với nhau Dữ liệu sẽ được phân tán để xử lý và gửi về nút trung tâm

Ưu điểm giảm thiểu độ trễ và tăng khả năng mở rộng Tuy nhiên, việc quản lý và

bảo trì phức tạp hơn.

e« Kiến trúc điện toán biên IoT: Trong kiến trúc này, các thiết bị IoT thực hiện xử lý

dữ liệu tại chỗ và chỉ gửi dir liệu đã xử lý đến máy chủ hoặc đám mây Điều nàygiúp giảm độ trễ và tăng tính bao mật, nhưng đòi hỏi các thiết bị IoT cần được trang

bị đầy đủ các tài nguyên đề thực hiện xử lý tại chỗ

e Kiến trúc IoT lai kết hợp: Kiến trúc này kết hợp các mô hình phía trên dé tận dụng

ưu điểm của từng mô hình Ví dụ, các thiết bị IoT có thé xử lý dữ liệu tại chỗ và gửi

dữ liệu đến một nút trung tâm để xử lý và phân tích

2.2 Tổng quan về tắn công DDoS

Hình thức tấn công từ chối dịch vụ được biết đến đầu tiên trên thế giới xảy ra vào năm

1974 khi David Bennis dùng lệnh “ext” kết nối đến các thiết bị gắn thêm trên các thiết

bị đầu cuối khác trong hệ thống dạy học trực tuyến PLATO của tô chức CERL Vớitrường hợp thiết bị đầu cuối khác không có thiết bị gắn thêm thì nó sẽ bị treo và yêu cầukhởi động lai Dennis đã viết 1 đoạn mã dé làm tê liệt 31 thiết bị đầu cuối PLATO Đếnnăm 1999, một tin tặc đã sử dụng công cụ Trinoo để vô hiệu hóa hệ thống mạng củatrường đại học Minnessota — Mỹ trong 2 ngày Công cụ này là một mạng bao gồm máychủ Master và các máy chủ Deamon Tin tặc đã gửi lệnh tắn công UDP đến máy chủMaster, sau đó máy chủ này điều hướng đến hàng trăm máy chủ Deamon dé tan côngUDP vào các máy chủ của trường Day được xem là cuộc tan công từ chối dịch vụ phantán lớn đầu tiên trên thế giới

Trang 19

Có 03 kiểu tắn công DDoS chính là: tấn công khối lượng, tấn công giao thức và tan

công lớp ứng dụng.

« Tan công khối lượng (Volumetric Attack)

_— UDP Fragmentation Flood

UDP Flood —s :

~ Specific UDP Amplification Attacks

Misused Application Attack

ICMP Flood

i

CharGEN Flood

Hinh 2.3 Volumetric Attack

Volumetric Attack là kiểu tan công làm quá tải tài nguyên của máy đích từ đó làm

gián đoạn các hoạt động của các dịch vụ trên đó Ví dụ như quá tải khả năng tính toán

của máy chủ, quá tải băng thông mạng, quá tải khả năng truy vấn của đatabase Đạilượng đặc trưng quan trọng đề xác định kiểu tấn công này là dung lượng trên giây (bitsper second) Các kiểu tan công phổ biến thuộc loại này bao gồm:

o UDP Flood: kẻ tan công có gắng gửi càng nhiều gói tin UDP đến các công của

máy đích, khiến máy đích có gắng xác định các ứng dụng tương ứng và làm quátải tài nguyên xử lý của hệ thống

o_ CharGEN Flood: kẻ tan công khai thác vào giao thức CharGEN trên cổng 19

Bằng cách giả mao IP máy chủ, kẻ tắn công gửi gói tin TCP hoặc UDP đến cácthiết bị chạy giao thức CharGEN và khiến các thiết bị này gửi gói tin phản hồingược lại cho máy chủ và khiến máy chủ bị quá tải trong việc xử lý gói tin

o_ ICMP Flood: kẻ tấn công lợi dụng gói tin echo reply trong giao thức ICMP đề

khiến máy đích quá tải trong việc phản hồi

o Misused Application Attack: kẻ tấn công lợi dụng các phần mềm chiếm đoạt dé

tạo một lượng lớn kết nói đến máy đích nhằm làm quá tải khả năng xử lý của nó.Với loại tắn công này rất khó phát hiện do các lưu lượng mạng kết nối đến đều

hợp lệ.

Trang 20

e _ Tắn công giao thức (Protocol Attack)

~SYN Flood SYN-ACK Flood

a ~ACK Flood

Slowlois —— TCP Flood Attack | 4 Retmw Flood

Multiple ACK Spoofed Session Flood

( Ping of Death —- \\—Multiple SYN-ACK Spoofed Session Flood

Hinh 2.4 Protocol Attack

Protocol Attack lợi dung lỗ hồng trong hoạt động của các giao thức mang dé gây

chậm trễ, tê liệt hoạt động của một mục tiêu cụ thé thay vi gui số lượng lớn các gói tin

đến mục tiêu Dai lượng đặc trưng quan trọng để xác định kiểu tan công này là gói tintrên giây (packets per second) Các loại tan công phỏ biến thuộc loại này bao gồm:

o IP Null Attack: trong tiêu đề của gói tin giao thức IP có 8 bit dé chứa thông tin

của tang trên như TCP, UDP hoặc ICMP Kẻ tan công thay đổi và xóa trắng giátrị của 8 bit này, khiến máy chủ khi nhận được gói tin sẽ tốn nhiều tài nguyên để

xử lý và xác định các giao thức vận chuyển gói tin này

o TCP Flood Attack: dé truyền dữ liệu, TCP thực hiện việc bắt tay 3 bước Máy

truyền gửi một số thứ tự đồng bộ trong gói tin SYN đến máy nhận Máy nhậnphản hồi gói tin SYN bằng cách gửi lại một gói tin SYN-ACK có chứa số thứ tựđồng bộ và một số xác nhận (ACK) Máy truyền sau khi nhận gói tin SYN-ACK

từ máy nhận, sẽ phan hồi lại một gói tin ACK có chứa số xác nhận có giá trị bằng

số ACK mà máy nhận gửi đến cộng thêm 1 đơn vị Hoàn tất quá trình này, máy

truyền và máy nhận sẽ thực hiện kết nối và truyền dữ liệu Dé kết thúc việc truyền

dữ liệu, máy truyền sẽ gửi một gói tin FIN đến máy nhận, máy nhận gửi lại mộtgói ACK phản hồi máy truyền, lúc này máy truyền sẽ chờ đề nhận gói tin FIN từmáy nhận Gói tin FIN từ máy nhận gửi đồng thời đến máy truyền, sau đó máytruyền phản hỏi lại gói tin ACK đến máy nhận và kết thúc việc kết nói Khi máynhận nhận một gói tin không hợp lệ, nó sẽ gửi lại máy truyền 1 gói tin RST dé

Trang 21

khởi tạo lại kết nối Lợi dụng cách hoạt động của giao thức TCP, kẻ tắn công cóthể có nhiều kiểu tấn công dựa trên TCP như: SYN Flood bằng cách gửi nhiềugói tin SYN đến máy mục tiêu bằng 1 IP giả mạo, máy mục tiêu sẽ gửi lại góitin ACK-SYN va chờ phản hồi nhưng sẽ không nhận lại được bat kỳ phản hồinao Điều này khiến máy mục tiêu tốn tài nguyên gấp nhiều lần dé chờ một góitin không bao giờ có Ngoài ra, còn có nhiều loại tan công TCP Flood biến thé

khác như: SYN-ACK Flood, ACK Flood, ACK Fragmentation Flood, RST/FIN Flood, Multiple ACK Spoofed Session Flood, Multiple SYN-ACK Spoofed Session Flood, Synonymous IP Attack.

Session Attack: dé tránh việc bi các công cụ phát hiện DDoS, kẻ tấn công sửdụng các máy Bot có IP thực dé kết nói đến máy mục tiêu, nhưng chúng sẽ trìhoãn việc gửi lại gói tin ACK dé hoàn tat việc kết nói, khiến máy mục tiêu tốnthêm tài nguyên đề chờ gói tin ACK này

Slowloris: kiểu tắn công này cũng hoạt động tương tự Session Attack Nhưng nótấn công vào giao thức HTTP thay vì TCP

Ping of Death: kích thước lớn nhất có thé của một gói tin IP là 65,535 bytes.Trong khi don vị truyền tối đa (MTU) trên chuẩn Enthernet là 1,500 bytes Do

đó, gói tin IP phải được chia nhỏ thành các mãnh để truyền đi và sẽ được ghéplại tại máy nhận Lợi dụng điểm này, kẻ tấn công sẽ truyền một số lượng cácmãnh dữ liệu của gói tin IP đạt tiêu chuẩn MTU, nhưng khi ghép lại thì vượt quá

kích thước một gói tin IP và làm máy nhận tràn bộ đệm bộ nhớ.

The Low Orbit Ion Cannon (LOIC) phan mém ma nguồn mở được thiết kế đểthử nghiệm tải mạng, gửi một số lượng lớn các gói tin UPD, TCP, HTTP đến

một thiết bị mục tiêu Các kẻ tấn công lợi dụng công cụ này kết hợp với các

botnet như một công cụ tấn công và sử dụng nó để thực hiện các cuộc tấn công

DDoS.

The High Orbit lon Cannon (HOIC) thay thé LOIC như một ứng dụng công khai

có thể gửi một số lượng lớn các yêu cầu HTTP GET và POST đến tối đa 256 tênmiền khác nhau cùng một lúc HOIC gây sự cô nghiêm trọng hơn LOIC khi được

sử dụng bởi các kẻ tấn công

Tân công lớp ứng dụng (Application Attack)

Trang 22

~GET Attacks

| POST Attacks

| Low-and-Slow POST Attacks

L sinale Session or Single Request Attack

\ Fragmented HTTP Flood

\~ Recursive GET Flood

` Random Recursive GET Flood

Hinh 2.5 Application Attack

Các cuộc tắn công DDoS trên tầng ứng dụng của mô hình TCP/IP nhắm vào các lỗ

hồng trong ứng dụng dé gây ra sự cố cho chính ứng dụng đó Hệ quả là nó cũng dẫn đến

việc máy mục tiêu quá tải hoặc bộ nhớ bị cạn kiệt, ảnh hưởng đến các ứng dụng khác

trong máy mục tiêu Đại lượng đặc trưng quan trọng để xác định kiêu tấn công này là

số lượng yêu cau trên giây (request per second) Các kiều tan công phổ biến thuộc dạng

này bao gồm:

o HTTP Flood Attack: khai thác vào phương thức GET hoặc POST dé làm quá tải

khả năng xử lý của máy chủ web hoặc quá tải băng thông mạng như: GET Attack

hoặc POST Attack sử dụng các botnet dé gửi cùng lúc mội số lượng lớn các yêucầu dé upload hoặc download các tập dữ liệu có kích thước lớn trong web servernhư PDF hoặc Video, khiến các web server bị quá tải về mặt tài nguyên hoặcbăng thông Ngoài ra còn một bố biến thé khác như: Fragmented HTTP Flood,

Recursive GET Flood, Random Recursive GET Flood.

o ReDoS: đây là kiểu tan công từ chối dịch vụ biểu thức chính quy (regular

€Xpression) có gắng yêu cầu các mẫu tìm kiếm phức tạp theo thuật toán, gây lãngphí tài nguyên hoặc thậm chí gây ra sự cố cho hệ thống

Ngoài 3 loại tan công từ chối dịch vụ phô biến trên, còn nhiều loại nâng cao và biếnthể khác nhau Cũng có thé là sự kết hợp giữa nhiều loại lại với nhau như: Advanced

Persistent DoS, Multi-Vector Attacks, Zero-Day DDoS Attacks.

Trang 23

2.3 Các nghiên cứu liên quan

Để phục vụ cho đề tài nghiên cứu của mình, tôi đã khảo sát các công trình nghiên cứuliên quan chủ yếu được xuất bản từ năm 2018 đến nay dé tiếp cận những hướng nghiêncứu mới Ngoài ra, tôi tập trung chủ yếu vào các công trình nghiên cứu được đăng trêncác tạp chí uy tín vì các công trình này có đóng góp về mặt khoa học lớn và nêu chỉ tiết

quá trình nghiên cứu Có 3 nhóm công trình nghiên cứu mà tôi quan tâm: nhóm công

trình nghiên cứu về việc khảo sát các phương pháp phát hiện DDoS, nhóm công trìnhnghiên cứu dùng các thuật toán học máy dé phát hiện DDoS và nhóm các công trìnhnghiên cứu sử dụng học sâu để phát hiện DDoS

Wehbi [2] đã khảo sát các kết quả nghiên cứu về việc phát hiện DDoS bằng máyhọc trong 03 hướng tiếp cận: hướng tiếp cận theo hành vi bất thường trong mạng (hướng1), hướng tiếp cận vào nền tảng SDN (hướng 2), hướng tiếp cận vào nền tảng ApacheSpark (hướng 3) Tác giả đã sử dụng các thuật toán SVM, k-NN, RE, DT, ANN dé khảosát theo 03 hướng tiếp cận này Trong đó với hướng | tác giả sử dụng bộ dữ liệu tự xây

dựng, hướng 2 sử dụng bộ dữ liệu ISCX2012, hướng 3 tác giả sử dụng 2 bộ dit liệu

CAIDA 2007 và DARPA 1999 Kết quả các thuật toán đều có khả năng dự đoán chínhxác từ 92% đến 99% đói với 3 hướng tiếp cận này Sushmita Chakraborty [3] thực hiệnmột nghiên cứu toàn diện về phương thức tan công và cách phòng chống DDoS cho cácnhà cung cấp dịch vụ Internet (ISP) Nivedita Mishra [4] liệt kê các thách thức mà các

mô hình học máy, học sâu đối diện trong việc đảm bảo an toàn mạng hệ thống loT, từ

đó đưa ra các giải pháp dé giải quyết chúng Trong đó bao gồm các thách thức về tínhtổng quát, tính bền vững của mô hình huấn luyện Tác giả đã chi ra rằng, việc sử dungmột mô hình học máy đã được huấn luyện vào một dữ liệu mới sẽ không đảm bảo tínhtổng quát của dữ liệu Các mô hình học máy cũng thường được huấn luyện trên các tập

dữ liệu tĩnh và đối diện với những khó khăn khi thực tế dữ liệu dòng thời gian mangnhiều đặc trưng an có giá trị cao Ngoài ra, việc huấn luyện mô hình trong môi trườngIoT cũng gặp những thách thức về tài nguyên của các thiết bị IoT cũng như thời gianhuấn luyện mô hình Tác giả đã đề xuất các phương pháp học tăng cường, học kế thừa

và huan luyện mô hình học sâu trên các thiết bị phần cứng có tài nguyên cao, sau đó sửdụng kết quả mô hình trên các thiết bị biên loT Cũng để phục vụ cho thực nghiệmnghiên cứu của mình, tôi đã khảo sát công trình nghiên cứu đến việc sử dụng các tập dữ

Trang 24

liệu dựa trên mạng phổ biến hiện nay Mossa Ghurab [5] đã tiến hành đánh giá và so

sánh các bộ dữ liệu như KDD99, NSL-KDD, KYOTO 2006+, ISCX2012, UNSW-NB

15, CIDDS-001, CICIDS2017, và CSE-CIC-IDS2018 Tác giả đã khuyến khích nên sửdụng các bộ dữ liệu mới gần đây và có tính thực tế cao như UNSW-NB 15,

CICIDS2017, và CSE-CIC-IDS 2018.

Ziadoon Kamil Masser [6] đã đánh giá và so sánh hiệu suất của 10 mô hình học máy

ANN, DT, k-NN, NB, RF, SVM, CNN, EM, k-Means và SOM dựa trên bộ dữ liệu CICIDS 2017 Tác gia đã sử dung các dai lượng Accuracy, Precision, Recall, Fl-Score,

Training Time va Testing Time dé đánh giá mô hình Ngoài ra, tác giả cũng sử dung kỹthuật kiểm định chéo đề tăng độ chính xác khi dự đoán cũng như tìm được các bộ siêutham sé tốt nhất cho mỗi mô hình Với bộ siêu tham số tốt nhất, tác giả đã thu về kết

quả với độ chính xác xoay quanh ngưỡng 99% Riêng thuật toán SVM có độ chính xác

75% Thời gian huấn luyện mô hình tốt nhất với thuật toán DT là 1.23 giây MohammadNajafmehr [7] kết hợp các thuật toán học có giám sát và học không giám sát để pháthiện các bat thường trong lưu lượng mạng Ban dau, tác giả sử dụng thuật toán phâncụm DBSCAN để phân tách lưu lượng bắt thường và dữ liệu bình thường Sau đó, cácthuật toán máy học DT, RF, NB và SVM được sử dụng để phân loại các cụm Tác giả

đã đánh giá mô hình đề xuất trên bộ dữ liệu CICIDS 2017 và kiểm tra nó trên bộ dữ liệuCICDDoS 2019 Kết quả cho thấy đại lượng Precision của phương pháp đề xuất caohơn khoảng 198% so với các thuật toán phân loại máy học truyền thông Alsirhani [8]kết hợp các thuât toán máy học NB, DT, RE và sử dụng logic mờ để chọn ra được môhình tốt nhất cho việc dự đoán các cuộc tấn công DDoS Tác giả sử dung bộ dữ liệuCAIDA 2016 với kết quả tốt nhất có độ chính xác là 97% Deepa [9] đề xuất mô hìnhthuật toán kết hợp SOM và các thuật toán máy học k-NN, NB, SVM để phát hiện cáclưu lượng mạng bất thường trong bộ điều khiển SDN Tác giả thử nghiệm trên tập dữliệu CAIDA 2016 và cho kết quả độ chính xác 98%

Faris Alasmary [10] đã đề xuất mô hình đề phát hiện việc các thiết bị IoT bị lâynhiễm Botnet đề thực hiện các hành vi DDoS Mô hình đề xuất bao gồm 2 thành phần:

sử dụng 12 thuật toán học máy dé phát hiện Botnet trên các thiết bị biên IoT, thành phancòn lại sử dụng kết hợp thuật toán học sâu RNN và LSTM được gọi là ShieldRNN đểtriển khai trên máy chủ đám mây Tác giả thử nghiệm trên tập dữ liệu CICIDS 2017 và

Trang 25

cho kết quả độ chính xác dự đoán các cuộc tấn công DDoS lên đến 99.9% cho thànhphan 1 và 100% cho thành phan 2 Mahmoud Said El Sayed [11] đề xuất mô hình phòngchéng DDoS trén hé théng SDN Với 3 tap dữ liệu thử nghiệm là InSDN, CICIDS 2017,

và CSE-CIC-IDS 2018, tác giả đã cho thay thuật toán kết hợp LSTM và AE cho kết quả

dự đoán 99.9% Hakem Beitollah [12] hướng nghiên cứu của mình vào việc phòng

chống tan công DDoS ở tang ứng dụng Tác giả sử dụng thuật toán mạng thần kinh RBFkết hợp thuật toán tìm kiếm Cuckoo dé phát hiện các lưu lượng mạng bat thường từ tancông DDoS tang ứng dụng Kết quả, tác giả nhận thấy mô hình dé xuất có kết quả dự

đoán chính xác 96.9% trên tập dữ liệu NSL-KDD Yan Naung Soe [13] đã nêu bật sự

nguy hiểm của Mirai botnet trong việc chiếm đoạt các thiết bị IoT và thực hiện các cuộctấn công DDoS đến các máy mục tiêu khác Tác giả đã sử dụng thuật toán ANN trêntập dữ liệu Bot-IoT, tuy nhiên tác giả nhận thấy tập dữ liệu này bị mat cân bằng Bằngcách kết hợp kỹ thuật SMOTE, tác giả đã nhận thấy mô hình đề xuất có tỉ lệ dự đoánchính xác lên đến 100% Muhammad Zeeshan [14] đã đề xuất mô hình phân tích sâukết hợp giao thức dựa trên thuật toán học sâu LSTM Với việc sử dụng mô hình dé xuất,tác giả đã giảm một nữa các đặc trưng của dữ liệu gốc và đạt độ chính xác 96% trên cả

2 bộ dữ liệu UNSWNBI5 và Bot-IoT Vinayakumar [15] huấn luyện phân loại đa lớptrên tập dữ liệu KDDCup 99, với mô hình tốt nhất thu được tác giả thử nghiệm lại trên

các tập dữ liệu NSL-KDD, UNSW-NBI5, Kyoto, WSN-DS, và CICIDS 2017 Tác gia

sử dụng thuật toán học sâu DNN và thực hiện so sánh với các thuật toán học máy NB,

SVM, k-NN, DT, RE Kết quả mô hình đề xuất có độ chính xác quanh ngưỡng 93% vàcao hơn các thuật toán máy học đã so sánh Ogobuchi Daniel Okey [16] đề xuất phươngpháp học sâu kế thừa dựa trên thuật toán CNN để xây dựng hệ thống phát hiện chốngxâm nhập Tác giả nhúng 3 thuật toán kế thừa InceptionV3, MobileNetV3Small vàEfficientNetV2B0 đã xây dựng trước đó để tạo ra mô hình được gọi là ELETL-IDS.Tác giả huấn luyện mô hình dé xuất trên tập dữ liệu CICIDS 2017 và thử nghiệm môhình thu được trên tập dữ liệu CSE-CIC-IDS 2018, kết quả mô hình đề xuất có độ chínhxác 99.96% Yuanyuan Wei [17] sử dụng kết hợp 2 thuật toán học sâu AE và MLP để

dự đoán các cuộc tấn công DDoS trên tập dữ liệu CICDDoS2019 với độ chính xác là

98%.

Trang 26

Các kết quả nghiên cứu gần đây bằng phương pháp học máy và học sâu đều chothấy khả năng dự đoán có độ chính xác cao Tuy nhiên, các công trình nghiên cứu nàycòn một số nhược điểm như sử dụng các bộ dữ liệu dựa trên mạng đã quá cũ, không đạidiện cho các đặc trưng kiểu tấn công tỉnh vi như hiện nay Ngoài ra, đa số các nghiêncứu chỉ tập trung vào độ chính xác của thuật toán mà bỏ qua đại lượng thời gian huấnluyện mô hình Việc ít quan tâm đến đại lượng thời gian huấn luyện mô hình khiến môhình đề xuất khó triển khai thực tế trên các thiết bị biên IoT do đặc thù của tài nguyênthấp của các thiết bị này Tôi đã so sánh các công trình nghiên cứu liên quan như thể

hiện ở bang 2.1.

Bảng 2.1 So sánh các công trình nghiên cứu liên quan

Công trình Bộ dữ Thuật toán Accuracy | Precision | Recall EỊ- Training

liệu Score | Time (s)

CICIDS | DBSCAN+RF | 0.1479 0.9989 | 0.1454 | Không |_ Không

Alasmary CICIDS RNN + LSTM 1 1 1 1 Không

Beitollah RBF + CSA 0.969 0.971 Không | Không | Khéng

[12] KDD

V.Deepal9] |S | SVM+SOM | 09812 | 09714 | Không | Không | Không

Yan Naung SMOTE + ^

Soe [13] Bot-IoT ANN 1 1 1 1 Không

Trang 27

Muhammad UNSWN

Zeeshan [14] BIS LSTM 0.963 Khơng | Khơng | Khơng | Khơng

Bot-IoT CICIDS InceptionV3 +

2.4 Các thuật tốn học máy

Trong phạm vi nghiên cứu của dé tài, tơi sử dụng 5 thuật tốn học máy bao gồm:

Decision Tree, Random Forest, Extremely Randomized Trees, Nạve Bayes và Support

Vector Machine.

2.4.1 Decision Tree

Decision Tree là một thuật tốn học máy được sử dụng cho các bài tốn phân loại và

hồi quy Thuật tốn này xây dựng một cây quyết định dựa trên dữ liệu huấn luyện dégiải quyết bài tốn Một cây quyết định bao gồm các nút (node) và các cạnh (edge) nối

Trang 28

các nút với nhau Kiến trúc của thuật toán Decision Tree được mô tả như hình 2.6 Các

nút được chia thành các loại như sau:

e Nút gốc (root node): La nút đầu tiên của cây, được sử dụng để chia dữ liệu thành

các tập con nhỏ hơn.

e Nut lá (leaf node): Là các nút không có nút con và chứa thông tin nhãn của dữ liệu.

e Khong phải nút lá (Non-leaf node): Là các nút không phải là root node hoặc leaf

node Các nút này chứa các nút con khác và không chứa nhãn dữ liệu.

Các bước đề xây dựng thuật toán Decision Tree bao gồm:

¢ Chon thuộc tính tốt nhất dé chia dữ liệu thành các nhóm con Thuộc tính này phải

có tính khác biệt cao và ít tương quan với các thuộc tính khác.

e Chia dữ liệu thành các nhóm con dựa trên thuộc tính đã chọn ở bước trên.

¢ Lặp lại quá trình 1 và 2 cho đến khi không thé chia dữ liệu thành các nhóm con nữa

hoặc đạt được điều kiện dừng được định trước

e Gan nhãn cho các lá của cây dựa trên phần trăm các mẫu dữ liệu của các lớp

e Su dụng cây để phân loại hoặc dự đoán dữ liệu mới dựa trên thuộc tính của nó

Một số ưu điểm của thuật toán Decision Tree là:

¢ Dễ hiểu và dễ giải thích

© Có thể xử lý dữ liệu có nhiều thuộc tính

© Có thé xử lý dữ liệu có giá trị bị thiếu

Một số nhược điểm của thuật toán Decision Tree là:

© Dễ bị quá khớp (overfitting) với dữ liệu huấn luyện

¢ Không thể xử lý dữ liệu có giá trị liên tục

Một nút được biểu diễn bởi công thức:

Thuật toán Random Forest là một thuật toán học máy sử dung kỹ thuật Ensemble

Learning, trong đó nhiều cây quyết định được xây dựng và kết hợp lại với nhau Thuật

Trang 29

toán nhúng dựa trên khái niệm Wisdom of Crowds là một khái niệm trong tâm lý học,

mô tả khả năng của một nhóm các cá nhân đưa ra quyết định chính xác hơn so với một

cá nhân hoặc một chuyên gia độc lập Khái niệm này cũng được áp dụng trong ngành

khoa học dữ liệu Mỗi cây quyết định trong Random Forest được xây dựng bằng cách

sử dụng một tập con ngẫu nhiên các mẫu huấn luyện (samples) và một tập con ngẫunhiên các đặc trưng (features) của dữ liệu Điều này giúp giảm thiểu khuyết điểmoverfitting trong thuật toán xây dựng cây quyết định

Decision ø

Hình 2.7 Kiến trúc thuật toán RE

Thuật toán Random Forest được xây dựng qua 2 giai đoạn cụ thể:

© Giai đoạn xây dựng các cây quyết định:

o Chọn ngẫu nhiên một tập con các mẫu huấn luyện và các đặc trưng của dữ liệu

o Xây dựng một cây quyét định trên tập con này

o Lap lại bước 1 và bước 2 dé xây dựng nhiều cây quyết định khác nhau

e Giai đoạn bình chọn kết quả:

Trang 30

o Áp dụng các cây quyết định được xây dựng trong giai đoạn huấn luyện vào dữ

liệu kiểm định (testing data)

o Tính tốn kết quả bình chọn (voting result) của tat cả các cây quyết định dé quyết

định kết quả dự đốn cuối cùng Kỹ thuật thường được sử dụng cho việc bình

chọn này là bagging và pasting.

Thuật tốn Random Forest cĩ nhiều ưu điểm như khả năng xử lý các dữ liệu lớn,giảm thiêu hiện tượng overfitting và khả năng ứng dụng rộng rãi trong nhiều lĩnh vực,

từ phân loại ảnh đến phân tích tài chính

Kiến trúc của thuật tốn Random Forest được mơ tả như hình 2.8

2.4.3 Extremely Randomized Trees

Extremely Randomized Trees hay cịn gọi là Extra Trees là một thuật tốn Random

Forest mở rộng, nĩ được giới thiệu bởi Geurts vào năm 2006 Extra Trees khác biệt với

thuật tốn Random Forest ở việc chọn ngẫu nhiên các giá trị phân ngưỡng dé tách cácnút trong quá trình xây dựng cây quyết định Thay vì chọn một giá trị phân ngưỡng tốtnhất như Random Forest, Extra Trees chọn ngẫu nhiên một tập hợp các giá trị phânngưỡng dé tách các nút Tương tự như Random Forest, Extra Trees kết hợp nhiều câyquyết định được xây dựng trên các tập dữ liệu con khác nhau và sử dụng kỹ thuật bìnhchon bagging hoặc pasting dé quyết định kết quả cuối cùng Extra Trees cĩ thé cho kếtquả tốt hon so với Random Forest trong một số trường hợp và cĩ thời gian huấn luyện

mơ hình nhanh hơn Random Forest vì khơng phải tìm kiếm ngưỡng tốt nhất cho mỗi

thuộc tính khi xây dựng cây.

2.4.4 Naive Bayes

“Thuật tốn Naive Bayes là một thuật tốn học cĩ giám sát và thường được sử dung dé

phân loại các tài liệu văn bản hoặc dữ liệu dạng bảng Thuật tốn này dựa trên định lý

Bayes để tính xác suất của một mẫu thuộc về một lớp nhất định dựa trên các đặc trưng

của nĩ Giả sử chúng ta cĩ một tập dữ liệu được chia thành các lớp khác nhau Mục tiêu

của thuật tốn Nạve Bayes là phân loại một mẫu mới dựa trên xác suất của nĩ thuộc vềtừng lớp Thuật tốn Nạve Bayes giả định rằng các đặc trưng của mẫu là độc lập lẫnnhau và cĩ cùng ảnh hưởng đến kết quả phân loại Đây là giả định "naive" (ngây thơ)

nhất định của thuật tốn, vì thực tế thì các đặc trưng thường phụ thuộc lẫn nhau và cĩ

Trang 31

Nạve Bayes được thực hiện nhanh chĩng và cĩ hiệu quả trong một số trường hợp nhất

định.

Thuật tốn Nạve Bayes tính tốn xác suất của một mẫu thuộc về từng lớp bằng cách

sử dụng định lý Bayes theo cơng thức 2.2:

p(C|X) x pc)

c = argmax

Trong đĩ, c là nhãn của mẫu dữ liệu, p là xác xuất Đại lượng p(c) được tính tốn theo

phương pháp ước lượng hợp lý cực đại (Maximum Likelihood Estimation - MLE) hoặc ước lượng hậu nghiệm cực đại (Maximum A Posteriori - MAP).

2.4.5 Support Vector Machine

Thuật tốn Support Vector Machine là một thuật tốn học cĩ giám sát được sử dụng

chủ yếu đề giải quyết các bài tốn phân loại và hồi quy Support Vector Machine tìmmột siêu mặt phẳng tối ưu dé phân tách hai lớp dữ liệu Support Vector Machine hoạtđộng bằng một giả định là dữ liệu thường khơng phân bố ngẫu nhiên mà nằm trên cácmặt phẳng tuyến tính Như vậy dé tìm ra nhãn của dữ liệu chúng ta đi tìm ra đường biênphân chia các lớp dữ liệu, gọi là siêu mặt phẳng (hyperplane), đĩ là một phương trìnhđường thắng ø chiều Trong khơng gian hai chiều, đường thang là một hyperplane; trongkhơng gian ba chiều, mặt phẳng là một hyperplane và trong khơng gian ø chiều, siêumặt phẳng là (ø - 1) chiều là một hyperplane Đường biên phân chia này cĩ đặc điểm làkhoảng cách từ đường biên phân chia đến điểm dữ liệu gần nhất của mỗi lớp là lớn nhất

và bằng nhau Các điểm dữ liệu đĩ được gọi là vector hỗ trợ (support vectors) Sau khi

đã xác định được hyperplane tốt nhất, Support Vector Machine cĩ thé được sử dung đềphân loại dữ liệu mới Khi một điểm dữ liệu mới được đưa vào, Support Vector Machine

sẽ xác định xem điểm đĩ nằm ở phía nào của hyperplane và dự đốn nhãn tương ứngvới lớp mà điểm đĩ thuộc về Hyperplane cĩ thé biéu diễn theo cơng thức 2.3:

Trang 32

2.5 Kỹ thuật phân tích thành phần chính

Với vector dữ liệu ban đầu là x € RP, PCA sẽ thực hiện giảm chiều thành vector z €Rvới K bé hơn rất nhiều so với Ð (E là tập số thực) Trong đó K thành phan quan trọngcủa dữ liệu ban đầu được giữ lại

Với dữ liệu được phân bố như trong hình 2.8, tổng thông tin dữ liệu chính là tổngphương sai (5,+ 52) khi chiếu các điểm dữ liệu xuống hệ trục tọa độ tương ứng là e; và

ey Vì các điểm dữ liệu phân bổ gần nhau theo trục e; nên phương sai ð; là rất nhỏ, do

đó thành phần này hoàn toàn có thé được lược bỏ Lúc này, lượng phương sai được giữ

lại K được tính theo công thức 2.5:

= 54

Với các điểm dữ liệu được phân bố như hình 2.9, khi đó phương sai trên mỗi chiềucủa dữ liệu 5, và 5, déu rất lớn, việc bỏ đi một trong hai chiều đều khiến dữ liệu mat đilượng thông tin đáng kể

Y tưởng cua PCA là di tìm một phép xoay trục toa độ dé được một hệ trục tọa độmới sao cho trong hệ mới này, thông tin của dữ liệu chủ yếu tập trung ở K thành phầnchính Phần còn lại chứa ít thông tin hơn có thể được lược bỏ

Trang 33

Với tập dữ liệu ban đầu được biểu diễn bởi ma trận X có ø cột và d hàng Theophương pháp phân tích giá trị suy biến (Singular Value Decomposition - SVD), ma trận

X được biểu diễn như công thức 2.6:

Xna =Unn X Ana X Vda (2.6)

Trong do, U là ma trận trực giao kích thước n x n, A là ma trận đường chéo kích

thước n x d, VT là ma trận chuyên vị có kích thước d x d

Bằng cách sắp xếp lại theo thứ tự giảm dần của các trị riêng @ của ma trận đườngchéo A và lấy K giá trị của lớn nhất của tổng các trị riêng đó (K được gọi là các thànhphan chính), công thức 2.6 có thể biéu diễn lại như sau:

Xx =Uy x Ax x VỆ (2.7)

Hàm mắt mát của PCA chính là tối thiểu khoảng cách Norm Frobenius giữa ma trận

X và ma trận Xự Công thức tính hàm mat mát L:

Trang 34

L= VK OF (2.8)

2.6 Đại lượng đánh giá các mô hình hoc may

Tôi dựa vào 4 đại lượng cơ bản: true positives (TP), false positives (FP), true negatives (TN), và false negatives (FN) Trong đó:

e TP nghĩa là dự đoán chính xác về các mau tấn công

© FP nghia là dự đoán sai về các mẫu tan công (tức là các mẫu bình thường nhưng mô

hình dự đoán là tan công)

e TN nghĩa là dự đoán chính xác của các mẫu bình thường.

© FN nghia là dự đoán sai các mẫu bình thường (tức là các mẫu bi tan công nhưng mô

hình dự đoán là bình thường).

Từ 4 đại lượng cơ bản này, tôi đánh giá mô hình đề xuất bằng các đại lượngAccuracy, Precision, Recall, FI-Score và thời gian huan luyện mô hình (Training Time).Ngoài ra, để so sánh kết quả giữa mô hình dé xuất và các thuật toán máy học DT, RE,

ET, NB va SVM, tôi sử dụng đại lượng do độ biến thiên giá trị C

2.6.1 Accuracy

Accuracy là đại lượng đo độ chính xác của mô hình đựa tính theo công thức:

TP+TN

Accuracy = —————_cy TP+FP+TN+FN (2.9)Accuracy thường được sử dung đề đánh gia độ chính xác của mô hình phân loại nhịphân (binary classification) khi số lượng các lớp là cân bằng (balanced classes), tức là

số lượng mẫu của các lớp là gần như bằng nhau Tuy nhiên, nếu số lượng mẫu của cáclớp không cân bằng (imbalanced classes), thì Accuracy có thé không phan ánh đúng

mức độ chính xác của mô hình.

2.6.2 Precision

Precision (chính xác dương) là một đại lượng đo lường khả năng của một mô hình phân

loại dự đoán đúng bao nhiêu trường hợp thực sự là TP trong tất cả các trường hợp được

phân loại là TP Công thức tính Precision:

TP TP+FP

Precision = (2.10)

Precision thường được sử dụng để đánh giá hiệu suất của mô hình phân loại khi mụctiêu là giảm thiểu số lượng dự đoán sai các cuộc tấn công

Trang 35

2.6.3 Recall

Recall là một đại lượng được sử dụng đề đánh giá khả năng của một mô hình trong việctim ra tat cả các dữ liệu thực sự là tan công Công thức tinh Recall:

TP TP+FN

Flscore = 2 X (2.12)

2.6.5 Training Time

Training Time là dai lượng do lường thời gian huấn luyện mô hình Thời gian được tínhtheo giờ hệ thống và tính từ khi bắt đầu thực hiện huấn luyện mô hình đến khi kết thúchuấn luyện Công thức tính như sau:

Training Time (TT) = endTT — startTT (2.13)

2.6.6 Biên độ biến thiên giá trị

Trong nghiên cứu của mình, tôi sử dụng đại lượng biên độ biến thiên giá trị C Day làđại lượng chỉ ra tỉ lệ thay đổi giữa các giá trị Accuracy, Precision, Recall, F1-Score vàTraning Time Công thức tính cụ thé như sau:

Accuracy ourProposed~ ÂCCuTaCYAIgorithms

Caccuracy = 100 x A i 2.14)curacy algorithms

Trang 36

2.7 Kết chương

Chương nay tôi đã trình bày chỉ tiết các hiểu biết của mình về mô hình hoạt động củamột hệ thống IoT bao gồm thành phần và kiến trúc cũng như các phương thức tắn côngDDoS để làm rõ những tác hại mà một hệ thống IoT gặp phải Tôi cũng trình bày cơ sở

lý thuyết của các thuật toán học máy thuộc phạm vi nghiên cứu của đề tài này là: DT,

RF, ET, NB và SVM Cơ sở toán học của kỹ thuật giảm chiều dữ liệu PCA Tôi cũng

đã khảo sát các công trình nghiên cứu từ năm 2018 đến nay, dé tiếp cận được nhữngphương pháp nghiên cứu mới cũng như nêu ra những thách thức, khuyết điểm tổn tạicủa các công trình nghiên cứu đó và đưa ra mô hình đề xuất để cải thiện hiệu suất dựđoán của các mô hình máy học.Tôi cũng đã định nghĩa cụ thé các đại lượng mà tôi sẽdùng để đánh giá hiệu suất của mô hình đề xuất của mình Trong chương tiếp theo, tôi

sẽ giới thiệu mô hình đề xuất để dự đoán các cuộc tan công DDoS trên hệ thống IoT

Trang 37

CHUONG 3 MÔ HÌNH ĐÈ XUẤT

Trong chương này, tôi sẽ trình bày cụ thể mô hình đề xuất dự đoán các cuộc tấn côngDDoS dựa trên việc kết hợp kỹ thuật giảm chiều dữ liệu PCA và các thuật toán học máy

DT, RF, ET, NB va SVM Mô hình đề xuất gồm 4 bước chính: thu thập dữ liệu thô (rawdata), làm sạch dữ liệu (cleaning data), tiền xử ly dir liệu (pre-processing) và phát hiệntấn công DDoS bằng học máy (detection và alert) Mô hình đề xuất như mô tả ở hình

3.1 Thu thập dữ liệu thô

Trong hệ thống loT hoàn chỉnh, nguồn dữ liệu thô được thu thập từ các thiết bị cảmbiến, thiết bị biên, cổng dữ liệu và các thiết bị mạng kết nối trong vùng mạng biên của

hệ thống Các dữ liệu thô này bao gồm: sự kiện (events), luồng sự kiện (flows) và gói

tin (packets) Các dạng của dữ liệu thô này được định nghĩa như sau:

¢ Packets: là các gói tin mạng bao gồm tiêu đề chứa các thông tin điều khiển như địa

chỉ nguồn, địa chỉ dich, các tham số cầu hình và độ dài của packet và dữ liệu cần

Trang 38

truyền đi Các gói tin này được gửi từ máy nguồn đến máy đích qua các nút mạngtrung gian Thường thì dữ liệu gốc sẽ được chia thành nhiều packets đề gửi đi, khicác packets đến máy nhận sẽ diễn ra quá trình nói gói dé trả lại dữ liệu ban đầu.

¢ Flows: là một tập hợp các packets có bảy thuộc tính chung Khi bat kỳ thuộc tính

nao thay đổi, một luồng mới được thiết lập Bảy thuộc tính đó bao gồm: giao diệnđầu vào của lưu lượng (source interface), địa chỉ IP nguồn (source IP), địa chỉ IPdich (destination IP), giao thức IP (Protocol), cổng nguồn (source port), céng dich

(destination port) va loai dich vu IP (services).

e Events: là một hành động hoặc trạng thái xảy ra trong hệ thống hoặc ứng dụng, được

ghi lại vào một thời điểm cụ thể Các sự kiện có thể bao gồm các hoạt động nhưđăng nhập người ding, truy cập tệp tin, kết nối mạng, lỗi hệ thống

Các nghiên cứu trước đây đã chỉ ra rằng, các đặc trưng của flows là đại lượng quantrọng dé xác định các cuộc tan công DDoS Tuy nhiên, khi các cuộc tan công DDoS xảy

ra, các đặc trưng liên quan đến Events và Packets là những đặc trưng ấn giúp phát hiệncác tan công DDoS nâng cao

Sau khi các dữ liệu thô được thu thập và tập trung, các đặc trưng của dữ liệu sẽ được

phân rã (extraction) dé phục vụ việc huấn luyện mô hình ở các bước sau Trong phạm

vi nghiên cứu của để tài này, tôi sử dụng bộ dữ liệu đã được phân rã của Viện an ninhmạng Canada được nêu chỉ tiết ở Chương 4

3.2 Làm sạch dữ liệu

Trong bất kỳ một dự án học máy nào, dữ liệu thô không được sử dụng trực tiếp cho việchuấn luyện mô hình Một số nguyên nhân cho việc này cụ thể như sau:

e _ Yêu cầu về dữ liệu số: Hầu hết các thuật toán học máy chỉ có thé xử lý dữ liệu

dạng số, trong khi dữ liệu thu thập được từ các thiết bị IoT thường bao gồm cácthông tin phi số học như văn bản, hình ảnh hoặc âm thanh Ví dụ: dữ liệu thuthập từ cảm biến nhiệt độ và độ 4m trong một phòng là dữ liệu văn bản với don

vi đo là °C và %RH.

© Nhiéu thống kê (noise): Dữ liệu thô thường có chứa noise, là những giá trị dữ

liệu không đúng với sự kiện thực tế và có thể làm giảm độ chính xác của mô hình

Trang 39

học máy Ví dụ các dữ liệu từ cảm biến âm trong các nhà máy sản xuất có thểchứa nhiều tạp âm.

Lỗi, giá trị bị thiếu, giá trị vô định, trùng lặp mẫu dữ liệu (samples) thường gặptrong các bộ dữ liệu Việc này khiến mô hình học máy thường mat nhiều thờigian đề học và ảnh hưởng khả năng dự đoán của mô hình

Các đặc trưng của dữ liệu thường chứa các môi quan hệ phi tuyến Việc sử dung

dữ liệu thô khó khăn trong việc phát hiện các mối quan hệ này Ví dụ khi sử dụng

dữ liệu thu thập từ cảm biến đo lường ánh sáng, dữ liệu thu thập sẽ phụ thuộcvào các yếu tố thời tiết, mùa và độ cao của mặt trời Các đặc trưng này có sự phụthuộc phi tuyến với nhau

Dữ liệu dạng danh mục (categorical): trong các bài toán về phân loại hoặc hồiquy, dữ liệu dang categorical như nhãn dữ liệu (ví dụ: tắn công DDoS LOIC, tấn

công DDoS HOIC, bình thường) và chúng ta phải xử lý các loại dữ liệu này trước

khi đưa vào mô hình học máy Một số phương pháp xứ lý dữ liệu dang categorical

như Hot One-Hot Encoding, Ordinal Encoding, Count Encoding, Target

Encoding.

Thuật toán 1 Thuật toán làm sạch dữ liệu

Tnput: original_dataset: tap dữ liệu ban đầu.

threshold: ngưỡng phương sai để thực hiện xóa các

đặc trưng có phương sai nhỏ hơn.

Output cleaning dataset: dữ liệu sau khi làm sạch.

1 Begin ~

2 for feature in original_dataset.features:

3 unique_values = count unique values (feature)

4 variance = calculate_variance (feature)

5 if unique_values == 1 or variance < threshold:

6 delete feature (feature)

7 for sample in original_dataset.samples:

8 if duplicate (sample) or missing_ infinite(sample) :

9 delete sample (sample

10 elif sample.label == "Benign":

Trang 40

Việc làm sạch dữ liệu là một bước quan trọng Sự thành công của một thuật toán

học máy phụ thuộc vào chất lượng của dữ liệu huấn luyện [18] Trong nghiên cứu này,

tôi sử dụng các tập dữ liệu CICIDS 2017 và CSE-CIC-IDS 2018 Với tập dữ liệu này,

tôi loại bỏ dữ liệu có ít thông tin và nhiễu để thu được một tập dữ liệu có giá trị cao

Các bước thực hiện làm sạch dữ liệu thô được mô tả trong hình 3.2 Trong đó: hàm

count_unique_values() thống kê các đặc trưng chỉ có 1 giá trị duy nhất trong tập dữliệu, hàm calculate_variance() tính phương sai cho mỗi đặc trưng, hàm duplicate() kiểmtra các mẫu dữ liệu trùng nhau, hàm missing_infinite() kiểm tra mẫu dữ liệu có giá trịthiếu hoặc vô định, hàm delete_feature() để xóa các đặc trưng và hàm delete_sample()

đề xóa các mẫu dữ liệu thỏa điều kiện Ở bước này, tôi cũng đã xử lý dữ liệu nhãn của

dữ liệu với việc gán các nhãn các mẫu dữ liệu tấn công DDoS là 1| và các nhãn bình

thường là 0.

3.3 Tiền xử lý dữ liệu

Tôi đã thực hiện chia dữ liệu này thành 2 tập dữ liệu con hoàn toàn tách biệt trong đó:

70% dành cho việc huấn luyện và 30% dành cho việc kiểm định Các công trình nghiêncứu trước đây thường thực hiện huấn luyện và đánh giá mô hình đề xuất của họ ngay

sau bước làm sạch dữ liệu Tuy nhiên, như một bước quan trọng trong việc cải thiện

hiệu suất của mô hình đề xuất của mình, tôi đã thực hiện thêm bước tiền xử lý dữ liệu

Ở bước này, tôi đã thực hiện 02 công việc chính: co giản dữ liệu (scaling) và giảm chiều

dữ liệu (dimensionality reduction).

3.3.1 Co giản dữ liệu

Dữ liệu thu thập được có don vi tính khác nhau và khoảng giá tri của các đặc trưng cũng

khác nhau Một số đặc trưng có độ lệch chuẩn dữ liệu nhỏ, nhưng một số đặc trưng có

độ lệch chuẩn lớn Đặc điểm này ảnh hưởng nghiêm trọng đến hiệu suất của mô hình

Do đó co giản đữ liệu đảm bảo rằng các đặc trưng có cùng thang đo và giá trị tươngđương về mức độ quan trọng trong quá trình dự đoán, từ đó cải thiện hiệu quả của cácthuật toán học máy Ngoài ra, co giản dữ liệu cũng giúp giảm thiểu ảnh hưởng của cácgiá trị ngoại lai trong quá trình huấn luyện

Các phương pháp co giản dữ liệu bao gồm:

¢ Co giản chuẩn (Standardization): Phương pháp này đưa giá trị của mỗi đặc trưng

Ngày đăng: 08/11/2024, 17:22

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN