Đề giải quyết các vấn đề hiện hữu, nghiên cứu của chúng tôi giới thiệu các phương pháp học máy truyền thống dé phát hiện các gói tin bat thường trong nhà thông minh bằng cách sử dụng bộ
Trang 1ĐẠI HỌC QUOC GIA TP HO CHi MINH
TRUONG DAI HOC CONG NGHE THONG TIN
NGUYEN THANH BÌNH
PHAT HIỆN GÓI TIN BAT THUONG TRONG HE THONG
NHÀ THONG MINH BANG MÔ HÌNH HOC MAY
MA NGANH: 8480202
NGUOI HUONG DAN:
TS LE DUY TAN
Trang 2LỜI CẢM ƠN
Bài luận này được lấy cảm hứng từ thầy Nguyễn Tan Cầm trong môn học An Toàn Ung Dụng Hệ
Thống wTrong suốt thời gian học thầy đã khơi nguồn cảm hứng cho chúng tôi thông qua việc gol
ý các dé tài Ban đầu, cũng như các bạn cùng lớp, tôi cũng không tránh khỏi việc tìm ra chủ đề đề thực hiện đề tài, mỗi ngày lên lớp đối với tôi là sự trăn trở Nhưng nhờ sự động viên đốc thúc của thay, cảm hứng từ các nghiên cứu liên quan, sự chia sẻ của các bạn học, tôi nhìn thấy tia sáng cuối
đường ham Đến khi học môn Hệ Thống Phân Tan của thầy Lê Duy Tân, tôi đã mạnh dan chia sẻ
ý định và được sự đồng ý của thay tôi đã chính thức bat tay vào thực hiện dé tài Trong quá trình thực hiện, không ít khó khăn về các mô hình máy học, các thuật toán tuy đã quá quen thuộc với các bạn chuyên ngành Computer Science nhưng khá lạ lim với tôi Bằng kinh nghiệm làm việc
quản trị hệ thống mạng, tôi đã có cơ hội tham gia vào việc thực thi chính sách bảo mật và quản lý
thiết bị tường lửa tại trường quôc tế Renaissance Quận 7, đã giúp tôi củng cố niềm {in vào vi lựa chọn dé tài Dé tài này tuy không mới và theo tôi nhận thấy cũng còn nhiều điểm cần phải có gắng
thêm nhưng với khả năng và tiềm lực hạn chế, tôi hy vọng làm tốt nhất trong khả năng mình có
được Những khó khăn cũng đã xuất hiện trong việc tìm cách thức đề có được mô hình thực tế, tôi
a nhận được sự trợ giúp rat lớn từ thầy Tân là giảng viên trực tiếp hướng dẫn tôi xuyên : suốt quá trình thực hiện dé tài Từ việc thay đôi mô hình, xuất mô hình đem vào ứng dụng trên thiết bị thực
tế v.v một lần nữa tôi có thêm động lực Thầy đã cử một số bạn trong lab AIoT, bạn Đăng Khôi, Bình Nguyên đã giúp đỡ hỗ trợ thêm cho tôi, tôi rất biết ơn về điều đó Bên cạnh đó, tôi cũng nhận
ược Sự gop ý hỗ trợ của các thầy trong Khoa Mang Máy Tính Trường DH CNTT Tp HCM như thầy Lê Trung Quân, thầy Nguyễn Ngọc Tự, thầy Lê Kim Hùng là chủ nhiệm lớp chúng tôi đã theo dõi hỗ trợ và động viên, cùng các bạn học cùng khóa đã chia sẻ thêm thông tin bổ ich đề tôi
có thêm tư liệu thực hiện luận văn này Thông qua lời tựa này, một lần nữa tôi xin bày tỏ sự biết
ơn đến tat cả thầy và các bạn học Tôi cũng mong nhận được sự đóng góp xây dựng thêm cho đề tài này dé có thé hoàn thiện hon trong việc xây dựng các mô hình phát hiện bat thường trong ứng dung cho nhà thông minh.
TP Hồ Chí Minh, ngày 17 tháng 11 năm 2023
Nguyễn Thanh Bình
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan luận văn nay là công trình nghiên cứu của riêng tôi Các số liệu, kết quả nghiên
cứu trong luận văn là trung thực, khách quan Những ý kiến khoa học, kết luận của luận văn
hoàn toàn do tôi tự đúc kết, rút ra trên cơ sở các tài liệu tham khảo đã được trích dẫn một cách đầy đủ.
Luận văn này được hoàn thành dưới sự hướng dẫn của TS Lê Duy Tân Tôi chịu trách nhiệm về tính trung thực và khách quan của luận văn Tôi xin hoàn toàn chịu trách nhiệm trước pháp luật nếu có bat kỳ sai phạm nào về bản quyển trong quá trình thực hiện luận văn này.
Trân trọng cảm ơn!
Trang 4MỤC LỤC
LOT CẢM ƠN Lành HT Tnhh HH HH hy 1
LOT CAM DOAN - tt th H111 111.1111111 2
CÁC THUAT NGỮ 5:5 2t 2É E2122112211211211221121112121111111111111121121111111171111111 E11 8
TOM TAT KET QUA NGHIÊN CỨU -2- 2° 5£ SEEE£2EEEEESEEEEEEtEEEEEEEEEEEEErkrrrrvrkrrkrrrrsrx 9
II Mục đích nghiên cứ:
1 Mục tiêu chung
2 Mục tiêu cụ th
IIL Đối tượng và phạm vi nghiên cứu -2- 5252 2+22222E2E£EE£EE2EE2EtEE+rxzrerxerxrre 15
IV Ý nghĩa thực tiễn 2221102211 2211211121112111211121112111.1112111211111121112111 111 cty 15
ào d 15
VI Nghiên cứu liên quan - -+- ¿+ 525222 2222E21212121212123212121212.1 10101011111 1k crrec 15
Chương 2
PHƯƠNG PHÁP NGHIÊN CỨU 22-222 HH ray 22
I Hiện trạng và cơ sở nghiên CỨU - + St S SH HH HH Hư 22
II Cơ sở hình thành đề tài - 022 2212212122122121121212112112121211211211111211 21 xe 23
Chương 3 - TT HH HT HT HT HT HT HH HT HT HT HT HT HT HT 24 XÂY DỰNG HE THÓNG 2-22 21 1E 1 2110211121111 111110110 exekered 24
Trang 51 Support Vector Machine 27
2 Mô hình Extra Trees và Cây quyết định .28
3 Mô hình Gradient DesCent + 2S re 28
4, Mô hình Random F0Fes( - 5+ t2 122112221211 2191 1 1 1010 tr Hư 28
5 Mô hình Naive Bayes Sàn HH HT HH Tà HH HH Hà HU 28
6 Mô hình mạng noron tích chập -. - -¿- + St tk nghiện 29
7 Mô hình mạng noron tích hợp lặp - - - + c1 S1 kiện 29
8 K-Nearest Neighbors Ăn TT Tnhh nh TH TH TT TT Tư TT nàn 30
V Phương pháp đánh giá 5Ă + 39th n nh tr TH ng nh th HH nh hư trưn 30
1 Độ phức tạp thuật toán - - 5+ 2S + S2 S2 St S2 vn ng ngư 30
2 Độ phúc tạp thời gian (Time Complexity) - 5c: Sc Set Sssteieireereerree 30
3 Độ phức tạp không gian (Space CompÏeXÏÉy) - - Set 30
4 FI-SCOrE oo AM cece Arse MOMs Pecevevenenenenenesseeesesssssssaseessoeens 32
5 Phân loại Ăn HH H11 HH nh Thu TH TT HH ren 32
° hán 6h éé ẲẤẲ 33
THỰC NGHIỆM 5-22 22 H2 nh HH HH HH giờ 33
TV Tải tập dữ liệu -S St ST nnnHnHHHH2121212112 11H 10111111 rràn 33
II Chuyển đổi nhãn G5222 2t 2222221221 211211121211211111111211211 111cc 33
II Chuan hóa các đặc trưng đầu vào 284
IV Huấn luyện tap dir! 34
V Xác định kiến trúc mô hình 35
VỊ Lua chọn mô hình
VII Kích thước của tập dữ liệu
1 Tang độ chính xác + c5 2n v39 S1 121010 1H00 hàn 36
Trang 66 Chia tập dữliệu
VII Các siêu tham sô
KET QUÁ THỰC NGHIỆM 6 tt nề tt tr tt 11111111 1rrey 38
I Kết quả của các mô hình SVM .¿-©5+2Lt2+t 2E E2 1221121112111 1e 38
Il Kết quả của các mô hình mạng Nơ-F0n - 55: 2 2t vEYEEvrtvrrvrsrrrrrrrrrerrrer 41
IH Các mô hình khác - ¿5+ S252 3S thtrtetetrtrrrrrkrkrrrrrrerrrreerrer 43
IV _ Đánh giá kết qua tổng quan 2- 2 °s+©t+SE+EvEEeEE+EtzEerxertexrrxerxerrsrrrrrrrrrrrre 44
1 Kết quả của Mô hình KNN cv th tre 45
3 So sánh với các nghiên cứu khác - ¿-cScSc tt S9 ướn 46
I Môi trường đánh giá
Il Dữ liệu đánh giá
TH Kiểm tra các mô hình ¿- ¿+ ¿S2 E22 2E SE k3 2E23E2121211211111112121111111 1e c2 50
IV _ Kết luận và khuyến nghị - 25: SE E2 232232223 2212712E12112111211121111 re 51
DANH MỤC CÔNG TRÌNH CÔNG BÓ 2¿ 2222222221 2121122123121121221221 21121111 53
TÀI LIEU THAM KHẢO 222 22222222222E9222222222223221122112211221122212211221121112111 2 ccd 54
Trang 7Mô hình xử lý đữ liệu cho các thuật toán học máy
Ma trận tương quan của các trường dữ liệu trong bộ dữ liệu IoT-23 25
Sơ dé chỉ tiết các pha xử lý tập huấn luyện IoT-23 cc:++2222xscccce2 34
Mô hình SVM với nhân RBïF 5-5222 S*St2E2 2x2 E22 E2 errrrree 39
Mô hình SVM với nhân POly ¿- - ¿52-52 5252252 S+2E2Et2E2EEEEEeEerkrkrrrrkrrerrrerrree 39
Mô hình SVM với nhân Sigmoid.
Hình 5.4 Mô hình SVM với nhân Linear.
Hình 5.5 So sánh kết quả huấn luyện của mô hình KNÑNN-CNN-RNN 42 Hình 5.6 Đường cong huấn luyện mô hình RNN
Hình 5.7 Đồ thị nhận dạng các loại tấn công của DT và ET - c¿¿522vccc+ztrrrxse+ 44
Hình 5.8 Tổng quan về hiệu suất của 13 mô hình :-52:222vvvvvvvvvvvvvrvvrrrrrrrrrrrrree 45 Hình 5.9 Đường cong huấn luyện của mô hình KNN
Hình 5.10 Điểm huấn luyện và điểm kiểm tra của mô hình Decision Tree -. 47
Hình 5.11 Điểm huấn luyện và điềm kiểm tra của mô hình Extra Tree -: 48
Trang 8DANH MỤC BẢNG
Bảng 1.1 Bảng so sánh các bộ dataset tt 122121212121 7121012101210121012 01111 11
Bang 1.2 Bang tóm tắt các nghiên cứu liên quan sccccccssssssssssssesssnessessseseeeeeecececessennnsnnnennees 21
Bang 3.1 Các trường dữ liệu của tập TOT-23 - ¿+1 1k 1 21 1211121 1121010 01010101 tớ 25 Bang 3.2 Bảng phân tích sự phân bố các lớp -ccvvvvcvvvvcccrticzrttrtttErtttrrrrrrrrrrrrrrrer 26 Bảng 5.1 Phân phối nhãn trong tập dữ liệu IoT-23 -2222222cvvvvrvverereerrerrrrrrrrrrree 38
Bảng 5.2 Kết quả huấn luyện các mô hình KNN - CNN - RNN.
Bảng 5.3 Kết quả hiệu suất của các mô hình đào tạO 2222:cc2222222vvctttEEEkrvrrrrrrrrrrrev 44
Bảng 5.4 Bảng so sánh kết quả với các nghiên cứu liên quan - -:-ccccsssccc ccss- 46 Bang 6.1 Kết quả triển khai trên Raspberry Pi.
Trang 9CÁC THUẬT NGỮ
Từ viết tắt
DT Decision Tree
ET Extra Trees
SVM Support Vector Machine
CNN Convolutional Neural Networks
KNN K-Nearest Neighbors
RNN Recurrent Neural Networks
RF Random Forests JoT-23 JoT-23 dataset
IDS Intrusion Detection System
DNS Domain name service
SSL Secured socket layer
NaN Not a number
TCNN Temporal Convolution Neural Network GRUs Gated Recurrent Units
SMOTE-NC SMOTE-NC
LR Logistic Recursive LSTM Long Short-Term Memory
Trang 10TOM TAT KET QUA NGHIÊN CỨU
Sự ra đời của nhà thông minh đã mang đến một cuộc cách mạng, tích hợp các công nghệ tiên tiền
và thiết bị thông minh dé tao ra môi trường sống an toàn, thoải mái, và hiệu quả cho cuộc sống của con người Tuy nhiên, việc tích hợp quá nhiều thiết bị thông minh khác nhau vào cùng một hệ thống cũng mang lại những thách thức đáng kế về an toàn thông tin Do đó, việc phát hiện và phân tích các gói tin bat thường trong hệ thống nhà thông minh ngày càng được quan tâm Việc phát
hiện và phân tích này giúp cảnh báo các hành vi xâm nhập tiềm ấn, các hoạt động độc hại, hoặc lỗi hệ thống, đồng thời đảm bảo tính bảo mật và ôn định của hệ thống nhà thông minh Các kỹ thuật học máy, chăng hạn như Decision Trees, Support Vector Machines (SVM), Convolutional
Neural Networks (CNN), K-Nearest Neighbors (KNN), Recurrent Neural Networks (RNN) va Random Forests, đã cho thay tiềm năng trong việc giải quyết những thách thức nay Tuy nhiên, hầu hết các nghiên cứu hiện nay đa phần tập trung vào việc phát hiện sự bắt thường hơn là phân tích các hoạt động độc hai trong nhà thông minh Bên cạnh đó, việc xuất hiện các bộ dữ liệu khổng
lồ được thu thập được từ nhiều tình huỗng khác nhau đặt ra những thách thức về phương pháp và
thuật toán khi áp dụng các kỹ thuật học máy Đề giải quyết các vấn đề hiện hữu, nghiên cứu của chúng tôi giới thiệu các phương pháp học máy truyền thống dé phát hiện các gói tin bat thường trong nhà thông minh bằng cách sử dụng bộ dữ liệu IoT-23 Trong nghiên cứu này chúng tôi thực hiện các công việc như tiền xử lý tập dữ liệu, trích xuất các tính năng có liên quan, và đào tạo các
mô hình học máy khác nhau Chúng tôi sử dụng ma trận tương quan giúp đánh giá việc lựa chọn
tính năng của các mô hình tốt nhất dựa trên các thông số như độ chính xác, điểm F1, recall, tỷ lệ chính xác, điểm đào tạo (training score), và thời gian đào tạo Ngoài ra, nghiên cứu còn phân loại
12 loại tan công dựa trên các mô hình học máy khác nhau Dé đánh giá dé tài, chúng tôi đã triển
khai tính năng phát hiện gói tin bất thường theo thời gian thực trên hệ thống được thực hiện bằng Raspberry Pi và cách sử dụng phương pháp bắt gói tin bằng công cu Zeek Nghiên cứu này hỗ trợ lựa chọn các mô hình bảo mật phù hợp cho an toàn cho nhà thông minh.
Trang 11Chương 1
GIỚI THIỆU
I Tính cấp thiết của đề tài
1 Giới thiệu đề tài
Sự ra đời của nhà thông minh đại diện cho một bước nhảy vọt mang tính cách mạng trong cuộc sống chúng ta, những công dân sống trong những căn hộ nhiều tiện nghỉ tiện ích xây dựng từ việc ứng dụng và tích hợp công nghệ thông tin Những ngôi nhà
tích hợp các công nghệ tiên tiến và thiết bị thông minh đề tạo ra môi trường sống an
toàn, thoải mái và tiện dụng Mặc dù lợi ích của nhà thông minh rất đa đạng, chúng
cũng đã mở ra một kỷ nguyên mới về thách thức an ninh mạng Vấn đề trung tâm xoay
quanh việc phát hiện và phân tích các gói tin bất thường trong hệ sinh thái nhà thông minh Các gói tin bất thường từ các lưu lượng truy cập mạng có thé báo hiệu các cuộc
xâm nhập tiềm ân, hoạt động độc hại hoặc lỗi hệ thống, gây ra mối đe dọa nghiêm trong
đối với tính bảo mật và sự ồn định của toàn bộ cơ sở hạ tầng nhà thông minh.
Việc giải quyết những thách thức về an ninh mạng này đã trở nên tối quan trọng, đòi hỏi các phương pháp và giải pháp sáng tạo Các kỹ thuật học máy, đã có những bước tiến đáng ké trong nhiều lĩnh vực, mang lại một phương pháp day hứa hen dé nâng cao
an ninh trong nhà thông minh Decision Tree (DT), Support Vector Machine (SVM), Convolutional Neural Networks (CNN), K-Nearest Neighbors (KNN), Recurrent Neural Networks (RNN) va Random Forests (RF) và nhiều thuật toán học may da the hiện khả năng đáng kẻ Tuy nhiên, cần lưu ý rằng phần lớn các nghiên cứu hiện có chủ
yếu tập trung vào phát hiện bất thường thay vì nhắm mục tiêu rõ ràng vào các hoạt động độc hại trong nhà thông minh.
Một thách thức chính trong lĩnh vực nghiên cứu này là khối lượng lớn và đa dạng dữ
liệu được tạo ra bởi các môi trường nhà thông minh Sự phức tạp của các gói tin này đặt ra thách thức về phương pháp luận và thuật toán khi áp dụng hiệu quả các kỹ thuật học máy Do đó, cần có một cách tiếp cận toàn diện dé khai thác tối đa tiềm năng của
Trang 122 Lý do chọn đề tài
Nghiên cứu này nhằm mục đích thu hẹp khoảng cách các nghiên cứu liên quan bằng
cách giới thiệu các phương pháp học máy truyền thống được tùy chinh để phát hiện các gói tin mạng bất thường trong nhà thông minh bằng các mô hình máy học truyền thông
dựa trên sự đánh giá cụ thể và chỉ tiết các khía cạnh như khả năng phát hiện gói tin bất
thường, hiệu năng xử lý tính toán thực hiện mô hình trên thiết bị thực tế Chỉ tiết, chúng
tôi sử dụng bộ dữ liệu IoT-23 và sử dung phương pháp nghiên cứu có hệ thông Phương, pháp chúng tôi sử dụng bao gồm tiền xử lý đữ liệu, trích xuất đặc trưng và đào tạo các
mô hình học máy khác nhau Việc lựa chọn bộ dữ liệu dé triển khai và ứng dụng cho
các mô hình được thực hiện thông qua sự xem xét và đánh giá giữa các bộ dữ liệu với
nhau được trình bay trong bang 1.1 Các bộ dữ liệu khác đã được xem xét trong nghiên cứu của Neto EC [1] cho rằng IoT-23 chưa phù hợp trong bối cảnh của tác giả, tuy nhiên việc phù hợp được xem xét dựa trên mục tiêu và phương pháp thực hiện cụ thể
của từng nghiên cứu Trong nghiên cứu của mình, chúng tôi cân nhắc đề xuất lựa chọn
bộ dữ liệu này đê giúp tận dụng được tốt nhất các đặt trưng và phạm vi mà bộ dit liệu thực hiện thu thập các mẫu tấn công vì những ưu điểm và tính phù hợp đối với nghiên cứu của chúng tôi.
Bảng 1.1 Bang so sánh các bộ dataset
Dataset Ưu điểm Nhược điêm
- Chứa cả lưu lượng mạng IoT bình thường và : CIC loT tân công - Phải tiên xử lý và trích chọn
2023 - Môi trường thực tê giúp xây dựng mô hình đặc trưng
tôt TON IoT” Tap trung vào từng môi trường loT cụ thé Dữ liệu ít, đặc biệt là lưu
—- Thu thập từ nhiêu nguôn dữ liệu lượng bình thường
- Tập trung vào botnet nhưng có lưu lượng
Bot-IoT bình thường.
- Dữ liệu thực tế từ môi trường loT
UNSW- - Chita cả lưu lượng bình thường và tân công - Không cụ thể cho IoT.
- Chỉ tập trung vào botnet.
- Cân cân băng đữ liệu
NBI5 - Da dang dac trung - Tỷ lệ báo động sai cao.
- Chứa cả lưu lượng mạng IoT bình thường và ˆ BH) HE " không =
Trang 13Đánh giá tong quan về các tập dữ liệu trên chúng tôi thay rằng tập dữ liệu CICloT2023 phù hợp cho mục đích phát hiện gói tin bat thường vì nó bao gồm cả lưu lượng mạng
bình thường và tấn công trong môi trường IoT thực tế Việc có lưu lượng mạng bình thường sẽ giúp xây dựng các mô hình học máy dé phát hiện những gói tin bat thường.
Bộ dé liệu BoT-IoT tập trung vào các cuộc tấn công botnet nhưng nó cũng bao gồm một lượng lưu lượng bình thường nhỏ có thể được sử dụng đề xây dựng nền tảng cho
mô hình Bot-IoT Toàn bộ bộ dữ liệu chứa khoảng 73 triệu trường hợp (dữ liệu lớn).
Các mô hình được huấn luyện trên Bot-loT có kha năng phát hiện các cuộc tấn công botnet khác nhau trong mạng Internet of Things (IoT) Do đó, nghiên cứu [2] BoT-IoT cũng khá phù hợp cho mục đích phát hiện bat thường Dataset UNSW-NBI5 là tập dữ
liệu tổng hợp chứa cả lưu lượng bình thường và tan công nên cũng có thé được sử dụng
để huấn luyện các mô hình phát hiện bất thường ứng dụng cho các IDS Hơn nữa, nghiên cứu [3] cho rằng, các đặc trưng của tập dataset UNSW-NB15 không cụ thể cho ToT, và ty lệ false alarm rate trong việc phát hiện bất thường có tỷ lệ cao hơn so với các
KDD99 dataset Bộ dữ liệu ToN_IoT bao gồm 3 tập dữ liệu con tương ứng với môi trường nhà thông minh (Home), công nghiệp (Industry) và cơ sở hạ tầng
(Infrastructure) Các nguồn dữ liệu phân tán được thu thập từ các địch vụ Internet of
Things, hệ điều hành Windows và Linux, và lưu lượng mạng.
Dataset Ton_IoT trong nghiên cứu của Moustafa [4] hỗ trợ tốt kiến trúc được thiết kế trong ba lớp phân tán: biên bao gồm các hệ thống IoT, sương mù bao gồm các máy ảo
và công, đám mây bao gồm các công cụ phân tích dữ liệu và trực quan hóa được kết
nối với hai lớp còn lại Bộ dit liệu ToN_IoT của Linux sẽ được sử dụng đề huấn luyện
và xác nhận tính hiệu quả của các giải pháp bảo mật hỗ trợ AI mới, phân tán và liên
kết, chăng hạn như phát hiện xâm nhập, tình báo mối de dọa, bảo vệ quyên riêng tư và điều tra số Ưu điểm của TON_ IoT là các tập dữ liệu con tập trung vào các môi trường
IoT cụ thé, cho phép xây dựng mô hình phù hợp Tuy nhiên, lượng dữ liệu tương đối nhỏ (vài chục ngàn đến vài trăm ngàn mẫu) Đặc biệt tập Infrastructure thiếu dữ liệu nền bình thường Nhìn chung, TON_IoT van có giá trị cho mục đích xây dựng mô hình
phát hiện bắt thường trong IoT nhưng bị hạn chế về lượng dữ liệu.
Trang 14liệu được công bề lần đầu tiên vào tháng | năm 2020, với các bản ghi chụp được thựchiện từ năm 2018 đến 2019 Lưu lượng mạng IoT này được ghi lại tại Phòng thí nghiệm
Stratosphere thuộc nhóm AIC, FEL, Đại học CTU, Cộng hòa Séc Mục tiêu của bộ dữ
liệu là cung cấp một tập dữ liệu lớn về các trường hợp nhiễm phần mềm độc hại IoT
thực tế và lưu lượng mạng bình thường của IoT cho các nhà nghiên cứu phát triển các
thuật toán hoc máy Bộ dữ liệu và nghiên cứu này được tài trợ bởi Avast Software,
Prague IoT23 có lợi thế là chứa cả dữ liệu lưu lượng mạng bình thường và tấn côngcho phép xây dựng các mô hình phát hiện bat thường hiệu quả Tuy nhiên, loT-23 có
nhược điểm là dit liệu bình thường và tan công không cân bằng, phần lớn là dữ liệu
bình thường Điều nay đòi hỏi phải tiền xử lý dữ liệu dé cân bang các lớp Nhờ lượng
dữ liệu lớn và đa dạng, IoT-23 vẫn là một tập dit liệu rat phù hợp cho việc xây dựngcác mô hình phát hiện bat thường trong mạng IoT sau khi được xử lý
Để đánh giá một cách nghiêm ngặt hiệu quả của các mô hình này, chúng tôi sử dụngmột bộ các chỉ số hiệu suất, bao gồm độ chính xác, Fl-score, recall, accuracy ratio,training score và chi phí thời gian huấn luyện Ngoài ra, chúng tôi sử dụng ma trận
tương quan đề xác nhận các phương pháp chọn lọc các đặc trưng Ngoài phạm vi phát
hiện bất thường, nghiên cứu này còn đi xa hơn bằng cách thực hiện phân loại 12 loại
mã độc trong các mô hình học máy khác nhau Nghiên cứu của chúng tôi đặc biệt chú
trọng đến việc đánh giá hiệu suất của các mô hình này dựa vào các gói tin đa dang sinh
ra từ các thiết bị trong nhà thông minh
Đề nâng cao bảo mật thời gian thực, chúng tôi triển khai phát hiện bất thường trên nềntảng Raspberry Pi, tận dụng các phương pháp thu thập gói tin bằng Zeek-flowmeter;chúng tôi cũng trình bày các mô hình huấn luyện có số lượng các đặc trưng ít hơn và
tập trung nhiều hơn vào phát hiện bat thường trong nhà thông minh
3 Thách thức
Có 3 thách thức lớn được đặt ra trong nghiên cứu này bao gồm:
- _ Việc phát hiện và chống xâm nhập bằng việc tích hợp cũng như đầu tư các phần
mềm, các thiết bị có chức năng IDS chỉ phù hợp với môi trường doanh nghiệp có
thể ứng dụng cho nhà thông minh có chỉ phí phù hợp cho các doanh nghiệp, đơn vị
Trang 15giải pháp thay thế cho hệ thống IDS vừa có thể ứng dụng trong phạm vi doanh
nghiệp và nhà thông minh có tích hợp các ứng dụng và các thiết bị thông minh
- Tiếp đến là khả năng nâng cấp và cập nhật những biến thé mới thông qua việc huấn
luyện lại cho các mô hình học máy nhằm dé đáp ứng việc cập nhật các gói tin batthường trong việc vận hành hệ thống nhà thông minh cũng như duy trì sự ôn định
- _ Độ chính xác và thời gian cho phép trong việc phát hiện bất thường dựa vào các
mô hình máy học truyền thống
II Mục đích nghiên cứu
1 Mục tiêu chung
Nghiên cứu này cung cấp thông tin chỉ tiết về các mô hình học máy khác nhau phi hợp
và hiệu quả để nâng cao bảo mật trong nhà thông minh Nghiên cứu này góp phần vào
việc tìm hiểu rộng hơn trong ứng dụng thực tế các kỹ thuật học máy và củng có khíacạnh an ninh mạng trong bối cảnh nhà thông minh Thông qua nỗ lực toàn diện này,
chúng tôi tìm cách nâng cao kiến thức và đóng góp vào nỗ lực đang diễn ra dé giúp ích
cho tương lai của cuộc sóng trong thông minh
2 Mục tiêu cụ thé
Nghiên cứu tìm hiểu về tap dit liệu IoT-23 được kết hợp từ 23 bộ dữ liệu đơn trong cáckịch bản khác nhau bao quát cho nhiều kịch bản thiết bị tích hợp cho nhà thông minh.Dựa trên 13 mô hình hoc máy truyền thống, chúng xem xét và đánh giá dé tìm hiểu sâu
hơn về việc ứng dụng bộ dit liệu này vào việc phát hiện bất thường trong nhà thông
minh Mục tiêu cụ thể của chúng tôi gồm có:
- _ Chúng tôi nghiên cứu bộ dit liệu IoT-23 dé tìm ra các đặc trưng cụ thé dé áp dụng
cho nhà thông minh dựa trên các giao thức, các kết nối của các loại thiết bị đang
được tích hợp từ đó xem xét các đặc trưng cần thiết
- Cac thuật toán học học máy truyền thống mà chúng tôi quan tâm, nghiên cứu tập
trung vào việc đánh giá về các yếu tô như độ chính xác, thời gian thực hiện dé tìm
ra mô hình tôi ưu.
Trang 16- Sau cùng, chúng tôi xem xét thực nghiệm trên môi trường cụ thé là Raspberry Pi,
các cuộc tấn công được giả lập để xem xét, đánh giá và chọn ra mô hình phù hợpnhất
II Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu chính là tập dit liệu IoT-23, nghiên cứu tìm hiểu về các đặc trưng va
độ lớn của tập dữ liệu ảnh hưởng đến hiệu quả quá trình huấn luyện các mô hình học máy
Phạm vi nghiên cứu là khả năng ứng dụng tap di liệu IoT-23 này trên các mô hình máy
học truyền thông và khả năng ứng dung của chúng trong việc phát hiện bat thường cho nhà
thông minh.
IV Ý nghĩa thực tiễn
Nghiên cứu của chúng tôi quan tâm của chúng tôi quan tâm đến hai khía cạnh:
- Có thé làm nền tảng thay thé cho các hệ IDS trong việc phát hiện bat thường tập
trung vào các thiết bị cảm biến (sensor) và các thiết bị nhận tín hiệu (actuator) với
thời gian và độ chính xác có thể chấp nhận được
- Kha năng cập nhật và phát hiện các mẫu tan công, các gói tin bất thường mới trong
quá trình vận hành hệ thống nhà thông minh
V Ý nghĩa khoa học
- _ Nghiên cứu chi ra các bước thực hiện phân tích và lựa chọn các đặc trưng cụ thể
trong việc huấn luyện cho các mô hình máy học truyền thống có thé tùy biến cácđặc trưng đề thực hiện cho việc huấn luyện
- _ Cách thức xem xét đánh giá dé tìm ra điểm bão hòa của các mô hình máy học khi
thực hiện huấn luyện bằng tập dữ liệu IoT-23
- _ Xây dựng phương pháp ứng dụng mô hình học máy cho nhà thông minh dựa trên
tap dữ liệu khác ngoài IoT-23.
VỊ Nghiên cứu liên quan
Nhiều nghiên cứu cho thấy các giải pháp tiềm năng mục đích làm giảm thiêu nguy cơ
Trang 17vào việc xác định các sai lệch so với hành vi bình thường có thé cho thay sự hiện diệncủa các cuộc tấn công có ý hoặc vô ý, lỗi, khiếm khuyết và các hoạt động bất thường
khác Phan lớn các nghiên cứu liên quan trong bảng 1.2 cho thấy các nghiên cứu có xuhướng thực nghiệm lại các mô hình trên các tập dữ liệu khác nhau, phân tích và cải tiễncác mô hình học máy đề làm tăng độ chính xác Trong khi một số khác tập trung vào
phát triển ý tưởng dé thay đối thé đạt được những tiến bộ trong việc phát triển các kỹ
thuật phát hiện bất thường hiệu quả hơn, từ đó nâng cao độ chính xác và hiệu quả của
các hệ thống phát hiện xâm nhập Một số nghiên cứu khác đang tìm kiếm và phát triển
các phương pháp học máy cho kết quả có thể chấp nhận được
Trong nghiên cứu [6] tác giả so sánh các mô hình máy học dé phân loại mã độc trong
IoT sử dụng tập dữ liệu IoT-23 thực hiện qua các bước: tiền xử lý dữ liệu, trích chon
đặc trưng, cân bằng dữ liệu, phân nhóm dữ liệu và phân loại bang 5 thuật toán máy học.Kết quả tốt nhất đạt được bởi Random Forest với độ chính xác 96% Về phương pháp
nghiên cứu, bài báo thực hiện qua năm bước gồm: Bước một, chọn tập dữ liệu IoT-23.
Bước hai, tiền xử lý dữ liệu, chuyên đổi từ định dạng log sang csv Bước ba, trích chon
đặc trưng bằng việc loại bỏ các cột không cần thiết, xử lý giá tri bị thiếu, mã hoá các
nhãn phân loại và cân bằng dữ liệu bằng kỹ thuật lấy mẫu ngẫu nhiên Bước bốn, phânnhóm dữ liệu: Chọn 9 tập con từ loT-23 đề phân tích Bước năm, phân loại và phân tíchbằng các mô hình như: Decision Tree, K-Nearest Neighbors, Naive Bayes, Random
Forest, Neural Network Bước sáu, đánh giá các mô hình dựa trên độ chính xác, độ đo,
độ nhớ, và điểm F1 Kết quả cho thấy, Random Forest cho kết quả tốt nhất do khả năng
xử lý các đầu vào phức tạp và tránh quá khớp Naive Bayes không phù hợp do giả định
sai về tính độc lập của các đặc trưng Neural Network có kết quả kém do dữ liệu khôngcân bằng và quy mô nhỏ Cân bằng dữ liệu giúp cải thiện kết quả so với dữ liệu ban đầu
bị mat cân bằng Kết quả tốt hơn một số nghiên cứu trước đây nhờ cách cân bằng vachọn lọc dữ liệu và kết luận được Random Forest là thuật toán hiệu quả nhất cho bài
toán phân loại mã độc trên tập dữ liệu IoT-23.
Một nghiên cứu khác [7] tập dữ liệu IoT-23 dùng mô hình học máy đề phát hiện các
lưu lượng độc hại dựa trên tập 20 lưu lượng độc hại và 3 lưu lượng lành mạnh trên các
thiết bị IoT là Amazon Echo, đèn thông minh Philips Hue và khóa cửa thông minh
Trang 18capture ban đầu được mô tả như sau: Dataset_1: mười hai loại lưu lượng độc hại kết
hợp một lưu lượng lành mạnh Dataset_2: Ba loại lưu lượng độc hại lớn kết hợp một
lưu lượng lành mạnh Dataset_3: mười loại lưu lượng độc hại nhỏ kết hợp một lưu
lượng lành mạnh Việc chia nhỏ và cân bằng tập dữ liệu ban đầu dé khắc phục tình
trang mat cân bằng và quá khớp Sau đó tiến hành tiền xử lý dữ liệu bằng cách loại bỏcột không cần thiết, mã hóa các cột categorical, xử lý giá tri bi thiếu, chia tập huấn
luyện và tập kiểm tra nhằm dé loại bỏ noise và chuẩn hóa đữ liệu áp dụng các mô hình
máy học: Logistic Regression, Decision Tree, Random Forest, XGBoost và Neural
Network dé nhiều mô hình máy học khác nhau dé tìm ra mô hình phù hợp nhất Bài
báo đã áp dụng các phương pháp xử lý và cân bằng dữ liệu cũng như các mô hình máyhọc hiệu quả dé phát hiện lưu lượng độc hại trong IoT bằng các phương pháp mô hìnhhọc máy, nhằm đánh giá mô hình dựa trên các chỉ số độ chính xác, độ đo, F1 score, va
ma trận nhằm lẫn Độ chính xác gần như 100% với các mô hình Decision Tree, RandomForest, XGBoost và Neural Network Random Forest cho kết quả tốt nhất với độ chínhxác 99.99% và Fl score = 1 Ma trận nhằm lẫn cho thấy Random Forest ít sai sót nhất
Kết quả tốt hơn một số nghiên cứu trước đây nhờ cách chia nhỏ và cân bằng tap dit
liệu Nghiên cứu [8] cũng đã xác định và thiết kế các nguyên tắc có thể được xem xétkhi phát triển hệ thống phát hiện xâm nhập (IDS) dựa trên mô hình học máy ứng dụngtrong internet vạn vật (IoT), chăng hạn như Temporal Convolution Neural Network(TCNN), một nền tảng các mô hình học sâu ứng dụng trong các hệ thống phát hiện xâmnhập IoT kết hợp Convolution Neural Network (CNN) với tích chập nguyên nhân vàTCNN được kết hợp với kỹ thuật lấy mẫu thiểu số thông tin liên tục (SMOTE-NC) dé
xử lý các bộ dữ liệu mat cân bằng TCNN được đánh giá trên bộ dữ liệu Bot-IoT vàđược so sánh với hai thuật toán học máy chuẩn, là hồi quy Logistic (LR) và rừng ngẫu
nhiên (RF) kết hợp với hai kỹ thuật học sâu, là Long Short-Term Memory (LSTM) vàCNN Kết quả thử nghiệm cho thấy TCNN dat được sự cân đối tốt giữa hiệu quả và
hiệu suất Nhìn chung, hầu hết các nghiên cứu dựa trên phát hiện dị thường, trong khi
những nghiên cứu khác triển khai các mô hình để xác định hiệu quả của phương pháphọc máy Bài báo đề xuất năm nguyên tắc thiết kế cần được xem xét khi phát triển một
hệ thống phát hiện xâm nhập bằng mô hình học sâu hiệu quả cho IoT, kết hợp với cân
Trang 19nhất, xác định năm nguyên tắc thiết kế chính cho việc phát triển hệ thống IDS dựa trên
học sâu, bao gồm xử lý quá khớp, cân bằng tập dữ liệu, kỹ thuật đặc trưng, tối ưu hóa
mô hình, va thử nghiệm trên bộ dữ liệu IoT Thứ hai, dựa trên các nguyên tắc thiết kếchính được xác định, chúng tôi so sánh các phương pháp tiên tiến, xác định những
khoảng trống của chúng và phân tích những sự khác biệt chính liên quan đến phạm vinghiên cứu Thứ ba, thiết kế và triển khai Mạng nơ-ron tích chập (TCNN), một khung
học sâu cho hệ thống phát hiện xâm nhập trong IoT, TCNN kết hợp với CNN Thứ tư,
dé xử lý van dé dữ liệu mat cân bang, bai báo tích hợp TCNN với kỹ thuật tổng hợp dữliệu ít dùng-nominal (SMOTE-NC) Cuối cùng áp dụng kỹ thuật đặc trưng hiệu quả,bao gồm: giảm không gian đặc trưng để giúp giảm tiêu thụ bộ nhớ Chuyển đổi đặctrưng đề áp dụng trên các đặc trưng số liên tục bằng cách sử dụng chuyền đổi logarithm
và bộ điều chuẩn, biến đổi dữ liệu lệch phân phối tới phân phối Gaussian Nó cũngđược áp dụng trên các đặc trưng phân loại bằng cách mã hóa nhãn, thay thế một cộtphân loại bằng một giá trị số nguyên duy nhất Tác giả đánh giá tính hiệu quả và hiệusuất của TCNN được đề xuất trên bộ đữ liệu Bot-IoT và so sánh nó với CNN, LSTM,
logistic regression, random forest và các phương pháp tiên tiến khác Kết qua cho thay
sự ưu việt của TCNN khi đạt đến độ chính xác 99.9986% cho việc phát hiện đa lớp lưu
lượng.
Thêm một nghiên cứu của Stoian [9] nghiên cứu về phát hiện bất thường trong mạng
loT bằng các thuật toán học máy Tác giả sử dụng tập dữ liệu IoT-23 và các thuật toán
Random Forest (RF), Naive Bayes (NB), Multi-Layer Perceptron (MLP), Support
Vector Machine (SVM) và AdaBoost (ADA) dé phân loại lưu lượng mạng Kết quả tốt
nhất đạt được bởi Random Forest với độ chính xác 99,5% Bằng các mô hình học máyqua 5 bước truyền thống Bước một mô tả tập dữ liệu IoT-23 gồm 20 bản ghi lưu lượng
độc hại và 3 bản ghi lưu lượng lành mạnh Bước hai tiến hành tiền xử lý dữ liệu: loại
bỏ các cột không cần thiết, mã hóa nhãn, xử lý giá trị thiếu, chuẩn hóa dữ liệu Bước
ba thực hiện việc chia tập huấn luyện và kiểm tra theo tỷ lệ 80/20 Bước bốn áp dụng
các thuật toán ML: RF, NB, MLP, SVM và ADA Bước năm đánh giá các mô hình dựa
trên các chỉ số: độ chính xác, độ đo, điểm F1 Nghiên cứu cho kết quả mô hình tốt nhất
là Random Forest có độ chính xác 99.5% Các mô hình NB, MLP, SVM cho kết quả
Trang 20cứu trước đó trên các tập dữ liệu khác đã chỉ ra rằng Random Forest là thuật toán hiệuquả nhất cho bài toán phát hiện bat thường trong mạng IoT Một nghiên cứu trước đó
của Neto EC [1] đã thực hiện trên tập dataset CICIoT2023 dé xuất mô hình phát hiệnbất thường dựa các cuộc tan công IoT thực tế trên môi trường 105 thiết bị IoT Các
bước thực hiện bao gồm: thiết kế môi trường IoT, thực hiện 33 cuộc tấn công thuộc 7
loại, ghi nhận dữ liệu tan công và lành mạnh, trích xuất đặc trưng và đánh giá các môhình máy học Kết quả đạt độ chính xác 99% phân loại nhị phân và 70% phân loại đa
lớp Nhóm tác giả cũng cho thực hiện qua 5 bước tương tự như các nghiên cứu trước
đó trên môi trường môi trường IoT với 105 thiết bị thực tế thực hiện 33 cuộc tan công
thuộc 7 loại: DDoS, DoS, Recon, Web, Brute Force, Spoofing và Mirai và ghi lại dữ
liệu tan công và dữ liệu lành mạnh Các đặc trưng trích xuất 48 đặc trưng từ dữ liệu gốcdùng dé xây dựng và đánh giá các mô hình Logistic Regression, Perceptron, Adaboost,Random Forest và DNN Kết quả nghiên cứu cũng cho thấy độ chính xác của việc phân
loại nhị phan đạt 99% với Fl-score 86-96%, phân loại 8 lớp đạt 83-99%, F1-score
55-71%, phân loại 34 lớp đạt 60-99%, Fl-score 47-71% Bài báo đã đề xuất tập dữ liệu
mới và đánh giá các mô hình máy học phát hiện tan công IoT là mô hình Random Forest
và DNN cho kết quả tốt nhất Bài báo của nhóm Liang Y [10] đề xuất mô hình phát
hiện bất thường trong mạng IoT gồm các thành phần: thu thập lưu lượng mang, đơn vi
xử lý tính toán (local hoặc cloud), cơ sở dữ liệu lưu trữ, và các mô hình ML/DL Sử
dụng tập dir liệu IoT-23 gồm 23 bắt gói mạng thực tế từ các thiết bị IoT Tập dit liệu
bao gồm 20 bắt gói nhiễm mã độc và 3 bắt gói lành mạnh Tiền xử lý dữ liệu: ghép cácbắt gói thành 1 tập dữ liệu mới, loại bỏ các biến không cần thiết, mã hóa các giá trị, xử
lý missing values Huấn luyện và kiểm tra các mô hình ML/DL: Naive Bayes, SVM,
Decision Tree, CNN Kết qua bai bao dat được: Mô hình Naive Bayes cho độ chính xác
thấp nhất 30%, thời gian huấn luyện nhanh nhất 6 giây, mô hình SVM cho độ chínhxác 69%, thời gian huấn luyện lâu nhất 5.849 giây Mô hình Decision Tree cho độ chính
xác cao nhất 73%, thời gian huấn luyện nhanh 3 giây, mô hình CNN cho độ chính xác
69%, thời gian huấn luyện 242 giây Đóng góp chính gồm có: Đề xuất mô hình pháthiện bat thường trong mang IoT sử dụng ML/DL linh hoạt, cho phép lựa chọn mô hình
phù hợp, so sánh hiệu quả và chi phí của các mô hình ML/DL trên cùng bộ dữ liệu loT
Trang 21thực tế và kết quả cho thấy Decision Tree là mô hình hiệu quả nhất về độ chính xáccao, thời gian thấp.
So sánh nghiên cứu [11], chúng tôi cũng phát hiện ra rằng trong một số mô hình họcsâu, SVM, CNN và RF được triển khai, độ chính xác được tăng lên do việc điều chỉnh
siêu tham số trong bộ dữ liệu với số lượng phân lớp ít hơn Trong nhà thông minh,những thách thức của các thuật toán học máy truyền thống dựa trên giả định về tính sẵn
sàng và sự hoàn chỉnh của dit liệu Nghiên cứu này cũng chỉ ra một cái nhìn tong quan
về bộ dữ liệu được sử dụng và các phương pháp học máy và học sâu được áp dụng
trong lĩnh vực bao mật IoT Nó trình bày về việc sử dụng tập dữ liệu BoT-IoT cùng với
thiết lập thực nghiệm, bao gồm cả phần cứng và phần mềm được sử dụng Bên cạnh
đó, bài viết cũng giới thiệu về các kỹ thuật như Random Forests, Support Vector
Machine (SVM), Multilayer Perceptron va Convolutional Neural Network (CNN) được
áp dung dé phát hiện các bat thường Tiêu chí đánh giá cũng được dé cập, bao gồm cácchỉ số như accuracy ratio va precision Bài viết cũng trình bày về các thông số được sửdụng cho các thuật toán CNN và Multilayer Perceptron, kết hợp với quá trình huấnluyện và kiêm thử của tập dữ liệu Trong phần "Bảo mật IoT", nói về việc đồng bộ hóainternet và thế giới thực thông qua IoT cũng như các yêu cầu bảo mật cần được xemxét dé nhấn mạnh về tính bảo mật cần thiết như bí mật, tính toàn vẹn, xác thực, ủyquyền và khả năng sẵn có của hệ thống Bên cạnh đó, nghiên cứu cũng đề cập đến các
mối đe đọa mạng và các tác nhân vật lý mà IoT có thể đối mặt, bao gồm cả mối đe dọa
từ môi trường ảo và thực tế Việc phát hiện nhanh hay chậm được tính bằng thời gian
hao tốn được coi là một yếu tố quan trọng đối với phát hiện bất thường [12] Các kỹ
thuật học máy cung cấp các giải pháp dé xử lý các thách thức về bộ dữ liệu đáng kêhơn [13] Nghiên cứu cũng chỉ ra rằng các thuật toán học sâu thông minh trong việc
học các mẫu phức tạp và biểu diễn từ đữ liệu phúc tạp, đặc biệt là trong nhà thông minh;học máy chắc chắn đã chứng minh tính hiệu quả của nó trong phát hiện bất thường có
thé xử lý hàng nghìn gói tin được thu thập.
Trang 22“dey Elẩ Louy 0E2 2gX (I2 Op 2A 1e\u enb nộIt| YULY OW | 2311 0I5I2a( ABU] 02 enb 123} eA
eno syd iyo ea enb nay yues os ‘doy nyd yury gui
udyo ef dạ oy “to yu] 1G/TW BuAp AS Lo]
Suew đuo1 đuont 3gq uậI 3e YUIY QUI JeNx BG
“341/-G6 81025-T1 '366-£8 12p dị g 120] ueyd “306
-98 81025-T- [0A 966 Jp UeUd iyu Jéo| ugtJd 2n
end 2X (JuJU2 Op Áet 02 Bund ng uạIu8u enb 3
IEs yulp els op u0 way enb 133 O49 WAS ‘dW “8N
(II QU 2E2 '3S'66 2X YUIUD Op 02 153101 WOPUEY
§| 1ÿ\U 101 (0 Ow enb 123 o2 NANO UBIYsN
'dọi ep Buơn] nn} ugly yud 931A Buoy
(%66 66) 089 2eX YUIUD OD ED NNOL ABUL
09 enb yey - enb nạIu Gus} 2ÉP 33 1u) NU}
(1 A (ON-31OINS) nại ap Bueg ued IọA doy
lại ‘enb uIe\u 0a uofIn|oAuo2 2g2 Buđp As
NNO E02 guy UạIq OW i Jệ"X gp 36/10 NNOL
“nal ap dé] Sueq ued
2h O4U EU U22 QuU Aep 2001) NND UBIYBU Os 1Ĩu1
Woy 10} enb yay "}E(U 105 les 1J 1s210-1 wopueY AY
oy? ue] WEY UỆ1] EY 'T = 31025 T4 EA %66'66 2EX
(UJU2 Op LOA EU 301 enb yay oY 5310-1 WopUeY
Bueg ugo yew iq nep ueq
Nal] AP IA 05 enb 1ay ual 1e9 hid nại) Ap Sueq
2 “oyu ow Anb gA Sueq ug2 8uo)ị nại| AP 0p
JOA 153101 WOPUEY I0 2071p 1Êp yeyu 101 enb 123
uly 01 929 E13 weny eA ugAn| UeNH
“20y Aew Yyuly
0u! 2g2 pIổ (UẸp en Buns 2ệp Jenx
2U ‘quew Yue] en Suga up} nại| 1puIỆ\u 18 ‘120 ¢ 2ðnt 8u02 up 2ộn2
£E uậIU 2/1 “10| ẩuo/1n J0 23 12IL
“va BA AS '4T\N
“yuu Sugyy eyu 012 sql deyu wex
Bugyo en ualy yeyd SUTOY ey uạ1
8Ä NN2 Yuly QW BUNp As 1eyy U11
“yeu doy nyd yury
OW E1 WH ap neyu deyy 20y Aew YuIY
OUI ngiyu gp 26y ABW YuIy OW 329
Sufp de doyy enb ea Sueq ue yew
Sue yun 2d Jeyy gp nẹp ueq nội|
inp dé} Sueq ug2 en oyu E|U2 eAnes
AYU E} OW 2ð/1p nẹp ueg a1n1dE2 £z
AY nại QP ugiyu neấu Áe| yoeo 8ueq
£z-10I 4} Bund Ign2 nại| Ap dệt eq 0L
WOMJAN |E1SN “153104 WopueY
“saÄEB allen ‘SIOqUaIaN 1531E3N-J
'aa)1 uoisiag 20y Apw ued} 1ệnU ¢
Sueq 160) ueyd ed nại| Np WOYU ueud
“204 Aew yuly oui
29 gI8 yuep “0 ig 12IW GOT Sug} J0 UBL
8128 10] Sug) Ue} 2ộn2 2g2 gäp 8uonnu
1£q ualy Jeyd uậIU 2/111 1enX ap eg Iẹg
t¿0c
“8uêUI
070% 5uơn| nA] Iẻo| ueyd ap 3ơ gu! ugø yệnì
22 ER EZ-10| nội) Ap dey 8Uđp As eld 2EL
"enb ueyu 0a} uoInn|oAuo2 2g2 8uđp
en enb naly nes 904 SGI OUD 23 JIL
2E) ueÁnBU weu yenx ap Aeu oeg leg
"ÄJUU0S yt Bugyy E12 eoyy eA
any sdijiyd yuu Suu) tạp “023 uOzeLy
| LO iq 1l 22 tại) YUeW Yue} 5uỏø|
"€Z-LO| nal] Np dé} Sup As Lo| 8uony 3ộp gui
uenb uại[ nnd ugrYysu 2g9 1g) WO} Sue '£'J Sueg
AyunoassagA9
195E1£( 2-10] Ul 10123190
Ajewouy Jayag JO} spoujayy
duiwea] daaq pue sujuea] auJU28|\
ˆ1U8UIU0JỊAU3
Jo] Ul 9{2EIJE 3JE25-381E| 10}
3JEUIU2U3(| DUE 135E}ED 3UII-|E3! tý
"125 E]EP £Z-10J ayy UO 5JSÁ|EUE
JEMEW SYA TAU JO! Ul U0112313p.
Ajewoue 0} SuIWea] BUIyQeW
'8UJ1aauIäua ainjeay 1ua|3II!a
pue 10M13U JE112U U0I1|0AU02
Jesodwwa} uo p3sEq sỂu|U] Jo 12U121u|
JO} U31SÁS U0I12318p u0IsTu|
U0I12313p 2IJJE2 5đI0|2J|EUI
Jo} 5|2p0uI 8u|U1Ea| auiysew
pue syasejep €Z-10] Jo 5ISÁJEUy'
U0[]E2IJIssE|) 31EM|B|AJ LO] 101 s|apOW
8uJu1Ea] auJ\2B|N Jo u0sIJeduIo2
Trang 23Chương 2
PHƯƠNG PHÁP NGHIÊN CỨU
I Hiện trạng và cơ sở nghiên cứu
Phát hiện bất thường là nhiệm vụ phát hiện các hành vi bất thường thông qua các gói tinbất thường: việc phát hiện thông qua các hoạt động, chang hạn như phát hiện tan công
mạng hoặc hoạt động gian lận Khái quát hóa việc phát hiện bắt thường bao gồm viéc xu
lý dữ liệu đầu vào và áp dụng các kỹ thuật phát hiện bat thường thông qua một số khảo sát
về phát hiện xâm nhập mạng đã được thực hiện Nhìn chung các nghiên cứu hiện nay đềuchỉ ra các bước thực hiện tương tự nhau dựa trên nhiều tập dataset khác nhau và phô biến
trên các bộ dataset CICIoT2023, Bot-IoT và IoT-23 Các bước của phương pháp nghiên
cứu chung bắt đầu từ việc chọn tập dữ liệu, các bộ dataset sẽ được xem xét, phân tích vàđánh giá dé xem mức độ phù hợp cho mục khác cụ thé trong từng bối cảnh ứng dụng nha
thông minh Kế tiếp, bộ dir liệu sẽ được qua giai đoạn tiền xử lý bằng các phương phápkhác nhau tùy vào đặc tính của bộ dữ liệu như chuyền đổi các giá trị không phải số(categorical), loại bỏ các giá trị vô nghĩa (NaN) Ngoài ra tùy thuộc vào yêu cầu cụ thé của
mô hình mà dit liệu đầu vào sẽ được xử lý phù hợp với yêu cầu ví dụ như chuyền đổi từ
định dạng log sang csv Sau đó các đặc trưng sẽ được trích chọn và loại bỏ các cột không
cần thiết bằng các phương pháp như phân tích thành phần chính (PCA) Trong bước nàyviệc xử lý giá tri bi thiếu, mã hoá các nhãn phân loại cũng sẽ được thực hiện Việc cân bằng
di liệu băng kỹ thuật lay mau ngau nhiên sẽ được thực hiện nhằm xử lý các bộ dataset có
số mẫu tan công không đều nhau đề phục vụ cho bước phân nhóm các loại tan công dé đưa
vào các mô hình phân tích đánh giá Bước sau cùng tiến hành phân loại và phân tích bằng
các mô hình và đưa bộ đữ liệu vào thực hiện huấn luyện Trong bước này bộ dữ liệu đãđược chọn và chia tỷ lệ khác nhau, đa phần các tác giả đều chia theo 80-20 dành cho bộ
huấn luyện và bộ kiểm thử Về việc xây dựng các thuật toán, có nhiều thuật toán khác nhauđược các nghiên cứu thực hiện và phát triển bằng việc thay đổi các thông số dé cải thiện
hiệu năng huấn luyện và độ chính xác trong việc phát hiện các bất thường Các thuật toán
thường thấy như là: Decision Tree, K-Nearest Neighbors, Naive Bayes, Random Forest,
Neural Network, Support Vector Machine.
Trang 24Nhìn chung các nghiên cứu chưa thực hiện việc đánh giá hiệu quả thực hiện trên các thiết
bị Raspberry Pi Các thiết bị tính toán biên hiện nay được sử dụng rộng rãi trong môi trường
nhà thông minh do tính phô biến và giá thành thấp Cau hình của các máy tính biên này tuy
đã cải thiện về hiệu năng tính toán nhưng vẫn còn hạn chế về hiệu năng, việc xem xét và
tối ưu hiệu năng của các mô hình và máy học cũng như bộ dữ liệu thực sự ảnh hưởng đếnviệc triển khai và hoàn thiện các mô hình phát hiện bất thường trong nhà thông minh Bên
cạnh đó, việc huấn luyện các mô hình được thực hiện phần lớn trên các máy tính có cầuhình mạnh, việc thực hiện huấn luyện đối với bộ dit liệu lớn vẫn tiêu hao nhiều chi phí thờigian, việc xem xét đánh giá chi phí thời gian chưa được đề cập trong việc phát hiện batthường bởi vì chưa thấy được ở các nghiên cứu đó việc triển khai mô hình sau khi huấnluyện trên nền tảng máy tính biên, cụ thê là thiết bị Raspberry Pi Việc đánh giá chỉ phíhuấn luyện tùy thuộc vào bộ dữ liệu huấn luyện nên việc phân tích điểm tới hạn cho các
mô hình chưa thấy được thực hiện cũng như đề cập ở các nghiên cứu trước đó Cuối cùng
dé kết luận việc mô hình nào sẽ là mô hình phù hợp có thê triển khai thực tế trong việc pháthiện gói tin bat thường có phụ thuộc vào độ chính xác hay không, có nhiều mô hình tuy có
độ chính xác cao nhưng chưa xem xét đến tính phù hợp khi triển khai thực tế
II Cơ sở hình thành đề tài
Dựa trên nghiên cứu thử nghiệm, chúng tôi chưa thấy việc triển khai cho bộ dữ liệu
IoT-23 và ứng dụng nó vào hệ thống nhà thông minh đề phát hiện bất thường theo thời gianthực và thực hiện thử nghiệm trong môi trường thực tế Chúng tôi tin rằng tỷ lệ chính xác
và thời gian tiêu hao quan sát từ các nghiên cứu liên quan có thê áp dụng cho việc triểnkhai trong các hệ thống nhà thông minh dé phát hiện bat thường theo thời gian thực, đây
cũng là động lực chính dé chúng tôi tiến hành nghiên cứu này
Trang 25Chương 3
XÂY DỰNG HỆ THÓNG
Trong phan này, chúng tôi chia thành các giai đoạn chính được hiên thị trong Hình 1, trong
giai đoạn đầu tiên, chung tôi đã thực hiện xử lý dtr liệu; kết quả trong giai đoạn này là bộ
dữ liệu gồm 1.444.674 dòng và 24 đặc trưng đã được trích xuất Nó chứa một tệp duy nhấtkết hợp 23 bộ dữ liệu đơn trong các kịch bản khác nhau Phương pháp tương quan thực
hiện các bộ đặc trưng dé có số lượng đặc trưng tối thiểu Các cột phản ánh mối quan hệgần nhất của chúng với nhãn của bộ dữ liệu Chúng tôi sẽ tiếp tục mô hình đữ liệu dé thực
hiện học máy Trong giai đoạn này, chúng tôi tách các mô hình thành cùng loại thuật toán
học máy Bộ dữ liệu IoT-23 sẽ được thực hiện đề đo lường hiệu suất Các chỉ tiêu đo hiệu
suất sẽ được phân tích và so sánh dé chọn ra những mô hình phù hợp nhất cho việc thựchiện thực tế Cuối cùng, giai đoạn kiểm thử sẽ được thực hiện va kiểm tra trên Raspberry
Pi 4 dé đề xuất các mô hình học máy phù hợp có thé ứng dụng được
ANOMALY DETECTION SYSTEM DESIGN
PROCESSING,
;——»| PHASE 3: MODEL EVALUATION
Train Set (80%) Vali
Set DEEP LEARNING MODEL
Trang 26Bảng 3.1 Các trường dữ liệu của tập IoT-23
# Trường Mô tả Dạng
1 Duration Duration of the connection float64
2 orig_bytes Number of bytes sent by the originator int64
3 resp_bytes Number of bytes sent in response int64
4 missed_bytes Number of missed bytes in a message float64
5 orig_pkts Number of packets sent by the originator float64
6 orig_ip_bytes Number of IP bytes sent by the originator float64
7 resp_pkts Number of packets sent in response float64
8 resp_ip_bytes Number of IP bytes sent in response int64
9 label Label or classification of the connection object
10 proto_icmp Count of ICMP protocol usage int64
1l proto_tcp Count of TCP protocol usage int64
12 proto_udp Count of UDP protocol usage int64
13 conn state OTH Connection state: Other int64
14 conn_state_REJ Connection state: Rejected int64
15 conn_state_RSTO Connection state: Reset Outgoing int64
16 conn statde RSTOSO Conn state: Reset Outgoing, small Window_ Int64
17 conn stae RSTR Conn state: Reset Response int64
18 conn state RSTRH Conn state: Reset Response with Hints int64
19 conn state S0 Connection state: SO (established) int64
20_ conn_state_S1 Connection state: S1 (established) int64
21 conn state S2 Connection state: Š2 (established) int64
22 conn state S3 Connection state: S3 (established) int64
23 conn state SF Connection state: SF (established) int64
24 conn_state_SH Connection state: SH (established) int64
25_ conn_state_SHR Connection state: SHR (established) int64
Trang 27Bộ dữ liệu IoT-23 được xử lý để tạo ra bộ đữ liệu huấn luyện cho các mô hình Nhiềutrường dữ liệu thu thập từ 23 kịch bản đã được tiến hành và phát triển bởi phòng thí nghiệm
Avast AIC vào năm 2019 [14], với 25 đặc trưng Chúng bao gồm [duration', orig_bytes’,
resp\_bytes', missed_bytes', orig\_pkts', orig_ip_bytes', resp\_pkts', resp_ip_bytes', label’,
proto_icmp’, proto\_tcp', proto_udp', conn\_state\_OTH’, conn_ state_RE],
conn\_state\_RSTO', conn state RSTOSO', conn\_state\_RSTR', conn_state_RSTRH',
conn state SH', ‘conn state SHR'] Google Colab xử lý quá trình này, kỹ thuật one-hot
[15] giúp chuyên đổi các biến phân loại thành định dạng ma trận nhị phân Các giá tri củacác cột proto và conn_ state đã được sửa đối dé chuyên đổi dữ liệu biểu diễn biến phân loạithành dữ liệu nhị phân Các cột có mối quan hệ yếu cũng được loại bỏ bằng cách thực hiện
ma trận tương quan Trong bước này, bộ dữ liệu huấn luyện chứa 12 nhãn tương ứng vớicác loại độc hại được liệt kê trong Hình 2 Việc phân loại các loại tấn công phụ thuộc vàoviệc phân tích gói mạng tuân theo tiêu chí được xác định trước Ví dụ, giá trị công phảnhồi (id resp_p) là 666 đại diện cho loại tan công Heartbeat Ngược lại, các giá trị vượt quá
50000 đại điện cho mẫu tấn công Oriku; các kết nối có đặc điểm là trạng thái kết nối
(conn state) bang 9527, S0, hoặc SF được phân loạ dưới nhãn
conntte 099 860 838 006 003 002 65S] 6H 3 os ER) (El ooo os E688 ons
sabe! - 000 0.00 0.01 BR] oos ĐEN eo:
23 4 5 8 8
Hình 3.2 Ma trận tương quan của các trường dữ liệu trong bộ dữ liệu IoT-23
II Đánh giá bộ dữ liệu IoT-23
Trang 28Với tổng số 1.444.674 điểm dit liệu trong bộ dit liệu, phân phối lớp trong Bảng 2 khôngcân đối Các lớp thiêu số chiếm tỷ lệ từ khoảng 0,00000692% đến 18,18% của bộ dữ liệu.
Xem xét việc sử dụng hiệu quả các kỹ thuật tăng mẫu, giảm mẫu, hoặc các độ đo đánh giá
thích hợp dé xử lý sự mat cân đối nay trong quá trình mô hình hóa và đánh giá
Bộ dữ liệu không cân đối có thể ảnh hưởng đến các mô hình học máy, đặc biệt là đối với
các nhiệm vụ phân loại Các mô hình được huấn luyện trên bộ dữ liệu không cân đối cóảnh hưởng nhiều đến việc phân lớp và giảm hiệu suất đối với các lớp có số mẫu nhỏ
Dé giải quyết sự mat cân đối lớp, chúng tôi xem xét việc sử dụng các kỹ thuật như tăng
mẫu cho các lớp nhỏ, giảm mẫu cho lớp lớn, hoặc sử dụng các thuật toán ít nhạy cảm với
sự mắt cân đối lớp, như cây quyết định hoặc rừng ngẫu nhiên
dữ liệu IoT-23; số lượng tính năng trong hệ thống của chúng tôi là 15 Số lượng này phụ
thuộc vào các thiết bị được tích hợp và giao tiếp trong hệ thống nhà thông minh
Trang 29Chúng tôi áp dụng mô hình SVM vi đó là một thuật toán học máy cô điền có thé giải quyết
hiệu quả nhiều vấn đề phân loại và được sử dụng thành công trong nhiều lĩnh vực khác
nhau [16] SVM phức tạp toán học và tốn nhiều tài nguyên tính toán Nó hoạt động bằngcách tìm ra siêu mặt phăng tối ưu chia dữ liệu thành các lớp khác nhau [17] SVM nổi tiếng
vì có khả năng xử lý dữ liệu tách biệt tuyến tính và phi tuyến tính bằng cách sử dụng các
kernel cụ thé [18] Chúng tôi đã thực hiện bốn nhân (kernel): Linear, Radial Basis Function
(FBF), Polynomial (poly), và Sigmoid Đối với bộ dữ liệu IoT-23, chúng tôi sử dụng mộtkernel phi tuyến như RBE, có thé là lựa chọn phù hợp
2 Mô hình Extra Trees và Cây quyết định
Cây quyết định chia dit liệu thành các tập con nhỏ hon cho đến khi mỗi tập con là thuầntúy, tức là nó chỉ chứa các điểm dữ liệu thuộc cùng một lớp Extra Trees là một thuật toáncây quyết định ngẫu nhiên thực hiện các quyết định phân chia dữ liệu ngẫu nhiên Sự ngẫunhiên này giúp giảm quá khớp (overfit), đó là một van đề có thé xảy ra khi mô hình câyquyết định học dữ liệu dao tạo quá tốt và không thé tong quát hóa tốt cho dữ liệu mới [19]
3 Mô hình Gradient Descent
Gradient Descent (GD) được sử dụng dé huấn luyện bat kỳ mô hình học máy nào, bao gồm
cả những mô hình không phù hợp với các bộ dữ liệu mat cân đói [20] Nó thường được sửdụng trong việc chuẩn bị các mô hình khác nhau, bao gồm hồi quy tuyến tính, hồi quylogistic và mạng neural [21] Gradient Descent sẽ huấn luyện các mô hình học máy bằng
cách sử dụng bộ dữ liệu IoT-23 trong nghiên cứu của chúng tôi GD cập nhật đồng thời các
tham số theo hướng đối nghịch của độ dốc của hàm chỉ phí liên quan đến các tham số [22].Điều này giúp giảm thiêu hàm chi phí; các tham số được cập nhật bang cách sử dụng quy
tắc cập nhật kết hợp với gradient va tỷ lệ học tập
4 Mô hình Random Forest
RF được xem là mô hình có khả năng tăng cường chống chế việc overfit và có thê xử lý
được các tập dữ liệu mat cân đối [23] Nó giới thiệu tính ngẫu nhiên bằng cách chọn một
tập con ngẫu nhiên các tính năng cho mỗi cây quyết định và sử dụng các mẫu bootstrap từtập dữ liệu gốc [24] Sự ngẫu nhiên và sự đa dạng giữa các cây giúp giảm quá khớp, làmcho RF mạnh mẽ hơn trên dữ liệu mới, chưa từng thấy trước đó [25] Chúng tôi triển khai
mô hình này đề so sánh hiệu suất với các mô hình máy học khác
Trang 30Naive Bayes là một thuật toán phân loại xác suất dựa trên định lý Bayes Nó giả định rằngcác tính năng là độc lập điều kiện theo nhãn lớp, đây là một giả định ngây thơ nhưng làm
đơn giản các tính toán [26].
đặc điểm cụ thé [28] Các đặc trưng được kết hợp dé phân loại dữ liệu thành các danh mụckhác nhau [29] Nhiều kiến trúc khác nhau của CNN có thé được sử dụng cho tập dữ liệu
IoT-23 Sự lựa chọn của kiến trúc sẽ phụ thuộc vào các đặc điểm cụ thể mà chúng tôi muốntrích xuất từ dữ liệu
Mô hình mạng nơron tích hợp lặp
Mạng noron tích hợp Lap (Recurrent Neural Network (RNNs)) thường được sử dụng cho
các nhiệm vụ phân loại, nhưng có thé cần phải phù hợp hơn với các tập dữ liệu mat cânbằng Điều này là do RNNs có thé học được sự phụ thuộc lâu dai trong dữ liệu, làm cho
chúng có khả năng overfit lớp đa số hơn [28] Có nhiều kiến trúc RNN khác nhau, chang
Trang 31đên hiệu suat, chăng hạn như tốc độ học, số lớp, và số đơn vị trên mỗi lớp Nhược điểmcủa RNNs là chúng tốn nhiều tài nguyên tính toán dé huấn luyện, nhạy cảm với việc lựachọn siêu tham số, và khó dé giải thích.
8 K-Nearest Neighbors
K-Nearest Neighbors (KNNs) có thé nhạy cảm với các tập dữ liệu mat cân bằng, đặc biệt
là nếu lớp đa số có nhiều điểm đữ liệu hơn [30] Chúng tôi xem xét việc triển khai KNNcho việc lựa chọn siêu tham số, kích thước tập huấn luyện và nhiễu trong dữ liệu Kíchthước tập huấn luyện có thể ảnh hưởng đến hiệu suất của mô hình KNN
Tóm lại, có ưu và nhược điểm cho các mô hình học máy trên; một sỐ dường như khôngphù hợp cho tập dữ liệu mat cân bằng, và một số phù hợp Chúng tôi triển khai các mô hìnhtrong nghiên cứu của mình đề có một cái nhìn tổng quan bằng cách thực hiện các mô hình
đó và phân tích các mô hình đề hiéu rõ về độ phức tạp Trong nghiên cứu, chúng tôi đã tìmthấy độ phức tạp của các mô hình; độ phức tạp thấp nhất là NB, sau đó là DT và ET Chúngtôi tiếp tục đánh giá chúng dé có cái nhìn rõ ràng về chúng
V Phương pháp đánh giá
1 Độ phức tạp thuật toán
Đánh giá thuật toán dựa vào độ phức tạp là một phần quan trọng trong việc hiểu và so sánh
hiệu suất của các thuật toán Độ phức tạp thường được chia thành hai loại là thời gian và
không gian Thuật toán có độ phức tạp thời gian O(1) là thuật toán có thời gian chạy không
phụ thuộc vào kích thước đầu vào, thuật toán có độ phức tạp thời gian O(n) có thời gianchạy tuyến tính với kích thước đầu vào n
2 Độ phức tạp thời gian (Time Complexity)
Đo lường thời gian chạy của thuật toán, thường được xác định theo kích thước của đầu vào.Các biểu đồ tăng trưởng thời gian theo kích thước đầu vào giúp hiểu rõ cách thuật toán
phản ứng khi đầu vào tăng lên Thuật toán có độ phức tạp không gian O(1) sử dung một
lượng bộ nhớ hăng định, không phụ thuộc vào kích thước đầu vào Thuật toán có độ phứctạp không gian O(n) sử dụng lượng bộ nhớ tuyến tính với kích thước đầu vào n
3 Độ phức tạp không gian (Space Complexity)
Trang 32Do lường lượng bộ nhớ mà thuật toán sử dụng tương ứng với kích thước của đầu vào Độ
phức tạp không gian cũng có thé thay đổi khi thuật toán thực hiện các thao tác với dữliệu
4 So sánh độ phức tạp
Khi so sánh thuật toán, ta thường mong muốn lựa chọn thuật toán có độ phức tạp thấp nhất
tùy thuộc vào yêu câu cụ thê của vân đê và tài nguyên có sẵn.
e Thuật toán SVM Sigmoid có độ phức tạp O(N 2.5) [31]
e Thuật toán SVM RBF có độ phức tap O(N?) [31]
e Thuật toán SVM Poly có độ phức tap O(N?) [31]
e Thuật toán SVM RBE có độ phức tạp O(N2) [32]
e Thuật toán CNN có độ phức tạp O(N*D?) [33]
e Thuật toán RNN có độ phức tạp O(N2*D) [33]
e Thuật toán KNN có độ phức tap O(N?) [34]
e Thuật toán Gradient Descent có độ phức tạp O(N*D”) [35]
e Thuật toán SGD có độ phức tạp O(N*DД) [35]
e Thuật toán Random Forest có độ phức tạp O(N*D3*Log(Ð)) [24]
e Thuật toán Naive Bayes có độ phức tạp O(N*D) [36]
e Thuật toán Extra Tree có độ phức tap O(N *D?*Log(D)) [27]
e Thuật toán Decision Tree có độ phức tạp O(N*D?*Log(D)) [38]
IV Confusion Matrix
Confusion matrix là một công cụ hữu ich dé hiểu cách mô hình phân loại dữ liệu một cách
chính xác [38] Confusion matrix có bốn phần:
- TP (True Positive): Tổng số trường hợp dự báo khớp Positive
- TN (True Negative): Tông số trường hợp dự báo khớp Negative
- FP (False Positive): Tông số trường hợp dự báo các quan sát thuộc nhãn Negative thành
Positive.
- EN (False Negative): Tổng số trường hợp dự báo các quan sát thuộc nhãn Positive
thành Negative.
Trang 33Độ chính xác là phần trăm các điểm dữ liệu được phân loại đúng Nó được tính bằng cách
chia tổng của TP và TN cho tổng số điểm dit liệu
A 7 TP +TN 63)
Ccuracy —TP+TN+FP+FN
2 Precision
Là phần trăm các điểm dit liệu được phân loại là positive va thực sự là positive Nó được
tính bằng cách chia TP cho tổng của TP và FP
TP
ision =————— (3.4)
Precision TP+FP
3 Recall
Recall (Độ nhớ) là phần trăm các điểm dữ liệu positive mà được phân loại là positive
Nó được tinh bằng cách chia TP cho tông của TP va FN
Fi= 2 * (Precision * Recall) (3.6)
Trang 34Chương 4
THỰC NGHIỆM
I Tải tap dữ liệu
Trong giai đoạn xử lý dit liệu, chúng tôi đã xử lý tập dit liệu IoT-23 và trích xuất các đặctrưng, dữ liệu sau khi xử lý sẽ được đưa vào các mô hình Có nhiều loại thư viện được sử
dụng cho phân tích dữ liệu, trong thí nghiệm của chúng tôi Panda là một thư viện đa dụng
tốt dé phân tích và thích hợp cho việc xử lý số liệu Chúng tôi triển khai nó dé tạo ra mộtcấu trúc loT-23 được gọi là dataframe Việc xử lý tập dữ liệu và huấn luyện các mô hình,chúng tôi xem xét theo trình tự các pha như sơ đồ Hình 3
IL Chuyén đối nhãn
Chuyền đổi và chuyền đồi nhãn trong dữ liệu huấn luyện, có 12 nhãn trong tập dữ liệu vàchúng tôi triển khai lớp Label Encoder từ thư viện sklearn.preprocessing dé mã hóa dữ liệuphân loại Dữ liệu phân loại có thê được phân loại thành các nhóm khác nhau; chúng cóthể được phân loại thành 12 nhóm khác biệt khác đại diện cho phần mềm độc hại nguyhiểm Phương thức fit_transform() từ lớp LabelEncoder được sử dụng dé mã hóa các nhãnthành số nguyên Phương thức fit_transform() trước tiên phù hợp với bộ mã hóa vào dữliệu huấn luyện Điều này có nghĩa là bộ mã hóa học các giá trị duy nhất trong các nhãn và
gan chúng một số nguyên duy nhất Sau đó, phương thức fit_transform() biến đồi các nhãn
thành số nguyên Mô hình không thể hiểu dữ liệu phân loại, vì vậy đữ liệu phải được mãhóa thành số nguyên
Trang 35(10 features and 1 label)
Output the training set data
Hình 4.1 Sơ đồ chi tiết các pha xử lý tập huấn luyện IoT-23
II Chuẩn hóa các đặc trưng đầu vào
sklearn.preprocessing Phương thức fit_transform() chuẩn hóa các đặc trưng thành các giátrị nam giữa 0 và 1 Khi các đặc trưng không được chuẩn hóa, mô hình có thể đặt nhiềutrọng số hơn cho các đặc trưng có giá trị lớn, ngay cả khi các đặc trưng đó không quantrọng bằng những đặc trưng có giá trị nhỏ hơn Bằng cách chuẩn hóa các đặc trưng, mô
hình có thê cân băng giữa tât cả các đặc trưng, điêu này có thê cải thiện hiệu suât của mô
hình Chuan hóa min-max đưa giá trị của các đặc trưng về khoảng giữa 0 và 1 Chuan hóa
tiêu chuân đưa giá tri của các đặc trưng về trung bình của 0 và độ lệch chuân của 1.
Trang 36Tập dữ liệu được chia thành tập huấn luyện và tập kiểm tra bang cách sử dụng phương thứctrain test_splitQ từ thư viện sklearn.model_selection Đối số test_size được đặt là 0.2, điều
này có nghĩa là 20% dữ liệu được sử dụng cho kiểm tra và 80% dữ liệu được sử dụng chohuấn luyện
Xác định kiến trúc mô hình
Trước khi thực hiện một mô hình cụ thé, chúng tôi sử dụng lớp StandardScaler từ thư viện
sklearn.preprocessing dé tỉ lệ các đặc trưng của một tập dữ liệu Chúng tôi có tỷ lệ chính
xác khác nhau, Fl-score và Recall tùy thuộc vào từng mô hình được thực hiện Một mang
sâu hơn với nhiều lớp có thé học được các mẫu phức tạp hơn trong dit liệu, nhưng cũng cóthé khó huấn luyện hon và có thé dé dàng bị quá khớp Số lượng neuron mỗi lớp cũng cóthể ảnh hưởng đến hiệu suất của mạng neural Một mạng với nhiều neuron mỗi lớp có thê
học được các mẫu phức tạp hơn, nhưng cũng có thể tốn kém tính toán hơn để huấn luyện
và triển khai Trong các mô hình thực hiện, hàm kích hoạt được sử dụng trong mỗi lớp
cũng có thé ảnh hưởng đến hiệu suất của mạng noron [41] Và các kỹ thuật chính quy hóa
có thể giúp ngăn chặn quá khớp bằng cách thêm ràng buộc vào mô hình Một số kỹ thuậtchính quy hóa tiêu chuân bao gồm chính quy hóa L1 regularization, chính quy hóa L2
regularization va dropout LI regularization, còn được gọi là "Lasso regularization" (Least Absolute Shrinkage and Selection Operator), là một phương pháp được sử dung trong qua
trình huấn luyện mô hình học máy dé giảm overfitting va tăng tinh tong quát của mô hình.Trong quá trình huấn luyện, L1 regularization và L2 Regularization thêm một hạng mụcvào ham mất mát của mô hình, được tinh bằng tổng của giá trị tuyệt đối của các trọng sỐtrong mô hình Việc thêm hạng mục này giúp giảm giá trị của một số trọng số không quan
trọng đến gần với 0, từ đó tạo ra một mô hình đơn giản hơn với ít biến số quan trọng hơn.Điều này có thể giúp giảm overfitting và cải thiện kha năng tong quát hóa của mô hình đối
với dữ liệu mới Trong L2 Regularization, hàm mất mát sẽ bao gồm một phan tử chuân L2
của trọng số, được điều chỉnh thông qua tham số lambda (hay còn gọi là tham số điều
chuẩn) dé kiểm soát mức độ điều chuẩn của mô hình Việc thêm phan tử chuẩn L2 nay cóthé giúp mô hình trở nên ổn định hon và giảm nguy cơ overfitting, từ đó cải thiện kha năngtổng quát hóa của mô hình trên dữ liệu mới Dropout là một kỹ thuật được sử dụng trong
Trang 37quá trình huấn luyện để giảm khả năng phụ thuộc quá mức vào một số nơron cụ thể Việc
này giúp mô hình trở nên linh hoạt hơn và giảm thiểu khả năng bị overfitting bởi việc giảm
thiểu sự phụ thuộc quá mức vào một số đặc trưng cụ thể trong dữ liệu huấn luyện
VỊ Lựa chon mô hình
Chúng tôi có thé so sánh các mô hình khác nhau dựa trên các chỉ số này dé xem xét cácyêu cầu cụ thể của ứng dụng của chúng tôi khi đưa ra quyết định Ví dụ, nếu chúng tôi cần
một mô hình có độ chính xác cao, chúng tôi có thể chon mô hình có F1 score cao nhất.
Chúng tôi có thé chọn mô hình có thời gian đáng ké thấp nhất nếu chúng tôi cần một môhình nhanh chóng Dựa trên các yếu tố dưới đây, chúng tôi quyết định mô hình học máynào là tốt nhất cho ứng dụng của chúng tôi
VII Kích thước của tập dữ liệu
Kích thước của tập dữ liệu có thê ảnh hưởng đáng kê đến hiệu suất của mô hình Tập dữ
liệu lớn có thé giúp cải thiện độ chính xác của mô hình nhưng cũng có thé làm cho quátrình huấn luyện tốn nhiều thời gian hơn
Trong mô hình may học, có nguy co mô hình qua mức dao tao trên dữ liệu dao tạo, nghĩa
là nó có thể hoạt động rất tốt trên dữ liệu đào tạo nhưng không tổng quát hóa tốt trên dữ
liệu mới Tập dữ liệu lớn có thể giúp giảm nguy cơ này
3 Thời gian huấn luyện
Mô hình huấn luyện trên tập dữ liệu lớn có thé tốn nhiều thời gian hơn Sự dao tạo trên tập
dữ liệu lớn đòi hỏi nhiều tài nguyên tính toán và thời gian hơn so với tập đữ liệu nhỏ
4 Quản lý tài nguyên
Trang 38Đối với các ứng dụng thực tế, quản lý tài nguyên là một yếu tố quan trọng Một số ứngdụng có giới hạn về tài nguyên tính toán và không thé quan lý mô hình lớn hoặc tập dữ liệu
lớn.
5 Da dạng và biểu diễn đầy đủ
Một tập dir liệu lớn cung cấp sự đa dang và biểu diễn day đủ của các biểu hiện trong ditliệu, giúp mô hình học được các đặc trưng quan trọng và tổng quát hóa tốt hơn
6 Chia tập dữ liệu:
Tập dữ liệu lớn thường được chia thành ba phần chính: tập dữ liệu đào tạo, tập dữ liệu xácthực và tập dữ liệu kiêm thử Điều này giúp đánh giá hiệu suất của mô hình trên dữ liệu mà
nó chưa từng thấy trước đó
Tóm lại, tùy thuộc vào bối cảnh cụ thể của vấn đề và yêu cầu tài nguyên, việc lựa chọnkích thước tap dir liệu phù hợp là quan trọng dé đạt được sự cân bằng giữa hiệu suất và tài
nguyên.
VIII Các siêu tham sé
Các siêu tham số của mô hình cũng có thé ảnh hưởng đến hiệu suất của nó Siêu tham số
là các thiết lập điều khiển hành vi của mô hình Việc điều chỉnh siêu tham số đề đạt đượchiệu suất tốt nhất là rất quan trọng
Trang 39cập trước đó, chúng tôi xem xét khả năng huấn luyện lại các mô hình trong môi trường chạy
trong tương lai để giảm thiểu rủi ro khi triển khai loại tấn công hoặc phần mềm độc hại mới do
đó chúng tôi mong đợi khả năng huấn luyện với thời gian cho phép chấp nhận được Trong môhình thực nghiệm, chúng tôi giảm số lượng mẫu còn 30% so với tông lượng mẫu trong tập
huấn luyện có sẵn dé rút ngắn thời gian kiểm thử điểm bão hòa trong các mô hình huấn luyện
cho mô hình mạng no-ron và mô các mô hình SVM sử dụng giải thuật Linear, Sigmoid, Poly
và RBE Trong Bảng 3 dưới đây, nó chi ra phân phối loại tan công theo số lượng điềm dữ liệu
Bang 5.1 Phân phối nhãn trong tập dữ liệu IoT-23
Label
I Kết qua của các mô hình SVM
Trang 40Number of Rows Number of Rows
Recall vs Number of Rows Precision vs Number of Rows
Hình 5.1 Mô hình SVM với nhân RBF
Trong Hình 4 là mô hình SVM với nhân RBE (Radial Basis Function) Nhân RBF được sử
dụng dé biểu diễn mối quan hệ không gian giữa các điềm dữ liệu RBF giúp mô hình SVM
có kha năng xử lý dữ liệu phi tuyến tinh bằng cách ánh xa dif liệu vào không gian cao chiềuhơn dé tạo ra đường biên phân chia phức tạp hơn giữa các lớp dữ liệu
Accuracy vs Number of Rows F1 Score vs Number of Rows
0.56
0.54
0 25000 50000 75000100000125005000017500000000 0 25000 50000 75000 100000.2500015000a7500@00000
Number of Rows Number of Rows
Recall vs Number of Rows Precision vs Number of Rows
0 25000 50000 75000100000125005000017500000000
Number of Rows
0 25000 50000 7500010000@2500015000a7500@00000
Number of Rows.
Hình 5.2 Mô hình SVM với nhân Poly
Trong Hình 5 là mô hình SVM với nhân Polynomial (Poly), đại diện cho hạt nhân đa thức.
Hạt nhân đa thức được sử dụng để tạo ra các hàm quyết định phi tuyến tính bằng cách ánh
xa dữ liệu từ không gian ban đầu sang không gian có số chiều cao hơn Hạt nhân này thường