EL và công nghệ Blockchain là những phương pháp đang dần được sử dụng phổ biến trong việc học dưới hình thức phân tán, vừa đảm bảo dữ liệu trao đối trong quá trình huấn luyện, vừa xác th
Trang 1ĐẠI HỌC QUOC GIA THÀNH PHO HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN
KHOA MẠNG MAY TÍNH VÀ TRUYEN THONG
PHAM PHÚC ĐỨC - 20520162
NGUYEN NHẬT HIẾU TRUNG - 20520830
KHOÁ LUẬN TỐT NGHIỆP
PHÁT TRIEN HỆ THONG PHÁT HIỆN XÂM NHẬP MẠNG
CHO IOT SỬ DỤNG HỌC LIÊN KET
DEVELOPMENT OF NETWORK-BASED INTRUSION DETECTION
SYSTEM FOR IOT BY FEDERATED LEARNING
CU NHAN NGANH AN TOAN THONG TIN
GIANG VIEN HUGNG DAN
ThS Nguyễn Khánh Thuật
TP HỒ CHÍ MINH, 2024
Trang 2LỜI CẢM ƠN
Để hoàn thành khóa luận này, chúng tôi xin gửi lời cảm ơn đến Quý Thầy côKhoa Mạng máy tính và Truyền thông, Trường Đại học Công nghệ Thông tin - Đạihọc Quốc gia TP.HCM đã tạo điều kiện thuận lợi cho chúng tôi trong quá trình học
tập, rèn luyện và tích lũy kiến thức, kỹ năng cần thiết để thực hiện khóa luận này.
Đặc biệt, chúng tôi xin bày tỏ lòng biết ơn sâu sắc đến Giảng viên hướng dẫnthầy Nguyễn Khánh Thuật, người đã tận tâm chỉ dẫn, theo dõi và đưa ra những lời
khuyên quý báu giúp chúng tôi vượt qua các khó khăn trong quá trình nghiên cứu và
hoàn thành đề tài một cách tốt nhất
Vì kiến thức còn hạn chế và thiêu kinh nghiệm thực tiễn nên nội dung khóa luận
của chúng tôi chắc chắn sẽ có những thiếu sót chúng tôi rất mong nhận được sự góp
ý và chỉ bảo thêm từ Quý Thầy cô.
Cuối cùng, chúng tôi xin kính chúc Quý Thầy Cô luôn mạnh khỏe và đạt đượcnhiều thành công trong sự nghiệp
Trân trọng.
Nhóm tác giả
li
Trang 3TOM TAT
Internet of Things (IoT) là mạng lưới các thiết bị kết nối với nhau và trao đổi dữliệu Sự phát triển nhanh chóng của công nghệ IơT đã dẫn đến sự gia tăng đáng kể
về số lượng thiết bị kết nối, làm thay đổi các ngành công nghiệp và cuộc sống hàng
ngày Đồng thời, nó cũng kéo theo một phần không nhỏ về nguy cơ bị tấn công Điều này gây ảnh hưởng rất lớn cả về tài chính và rủi ro thất thoát dữ liệu nhạy cảm.
Bởi vậy, vai trò của một hệ thống phát hiện xâm nhập mạng trở nên quan trọng hơnbao giờ hết, đặc biệt hơn là các hệ thống có sử dụng thuật toán học máy (machinelearning) Tuy nhiên, điều đáng lo ngại đó chính là dữ liệu đưa vào mô hình họcmáy, hầu hết các mô hình cần rất nhiều dữ liệu để có thể mang lại độ chính xác cao
nhưng những dif liệu này trong nhiều trường hợp cần phải được đảm bảo về quyền riêng tư nếu như nó chứa các thông tin cá nhân của người dùng Đồng thời, chúng
ta cũng cần phải đảm bảo các thiết bị trong hệ thống là đáng tin cậy, nếu không sẽgiảm tính hiệu quả của mô hình hoặc hơn nữa là rủi ro thất thoát dữ liệu rất lớn
Học liên kết (Federated Learning - FL) là một phương pháp học máy phân tán
cho phép các mô hình được huấn luyện trên nhiều thiết bị hoặc máy chủ mà không
cần truyền dữ liệu thô về trung tâm Thay vì thu thập dữ liệu về một nơi, FL chỉ
truyền các bản cập nhật mô hình đã được tổng hợp cục bộ từ các thiết bị Blockchain
là một công nghệ số cái phân tán cho phép lưu trữ dữ liệu một cách an toàn và minh
bạch Mỗi khối trong chuỗi chứa một danh sách các giao dịch và được liên kết mật
mã với các khối trước đó, tạo thành một chuỗi không thể thay đổi
EL và công nghệ Blockchain là những phương pháp đang dần được sử dụng phổ biến
trong việc học dưới hình thức phân tán, vừa đảm bảo dữ liệu trao đối trong quá trình
huấn luyện, vừa xác thực các thành phần tham gia vào mô hình Thêm vào đó, các
dữ liệu học trên từng thiết bị cuối luôn có một mức độ chênh lệch nhất định, gây ảnhhưởng không nhỏ tới hiệu suất của mô hình Trong nghiên cứu này, chúng tôi déxuất sử dụng một loại công nghệ Generative Adversarial Networks (GAN) để làmgiàu dữ liệu hoc va sự kết hợp của Blockchain với Federated Learning (FL) để mang
lại tính riêng tư cho đữ liệu trong hệ thống.
1H
Trang 4MỤC LỤC
Thông tin hội đồng bảo vệ khóa luận
Lời cảm ơn
Tóm tắt
Mục lục
Danh mục các bảng
Danh mục các hình vẽ va đồ thị
Danh mục từ viết tắt
Chương1 Mở dau
1.1
1.2
1.3
1.4
1.5
1.6
Các nghiên cứu liên quan
-Mục tiêu, đối tượng và phạm vi nghiên cứu
-1.3.1 Mục tiêunghiên cỨu
1.3.2 Đối tượng nghiêncứu
-143.3 Phạmvinghincứu
Phương pháp nghiên cứu
Các đóng góp chính của để
tài -Câu trúc Khoá luận tốt
nghiệp -Chương 2 Co sở lý thuyết 2.1 2.2 2.3 2.4 Hệ thống phát hiện xâm nhập
-Mô hình học máy
Mô hình học liên kết — Federated Learning
2.3.1 Tongquan Q Q Q Q Q Q So 2.3.2 Cách
thứchoạtđộng -2.3.3 So sánh học máy tập trung và học máy liên kết
Generative Adversarial Networks-GAN
1V
ii
iii
iv
vi
vii
ix
—
YD CC: an un fe HR W
œ
Trang 5MỤC LỤC
2.5 Blockchain Ặ HQ Q HQ vo 14
Chương 3 Phương pháp thực hiện 16
3.1 Tậpdữ liệu Ặ HQ HQ Ha 19
3.12 Các bộ dữ lệu khác 21
“2.6 “ad 22 3.3 Mô hình học lênkết 24
3.3.1 FrameworK Q Q Q HQ Ha 24 3.3.2 Mô hình triểnkhai 24
3.4 Blockchan 2 eee ee ee ee 25 3.4.1 Hoc liên két va Blockchain 25
3.4.2 Generative Adversarial Networks và Blockchain 26
Chương 4 Thực nghiệm, đánh gia va thảo luận 28 4.1 Môi trường triểnkhai 28
4.1.1 So sánh giữa hình thức học tập trung và học liên kết 29
4.1.2 Mô hình kết hợp FL và Blockchan 30
4.1.3 Ứng dụng công nghệ Conditional Tabular Generative Adver-sarial Networks (ctGAN) 30
4.2 Kétquathucnghiém - 33
4.2.1 Kết quả phân loại tắn công - 34
4.2.2 Kết quả về mức độ sử dụng tài nguyên 39
4.2.3 Kết quả toàn diện về công nghệ Conditional Tabular Genera-tive Adversarial Networks (€(GAN) 43
Chương 5 Kết luận và hướng phát triển 52 51 Kếtluận Ặ Qua 52 52 Hạnchế Ặ Qua 52 5.3 Hướng pháttriển 53
Tài liệu tham khảo 55
Trang 6DANH MỤC CÁC BANG
3.1 Số lượng chi tiết các datasetthửnghệm 23
4.1 Môi trường thử nghiệm học liên kết - 28
4.2 Môi trường thử nghiệm tập trung 28
4.3 Tham số cho Convolutional Neural Networks (CNN) 29
4.4 Tham số choc(GAN 0000 eee ee eee 29 4.5 Số lượng chi tiết các dataset thử nghiệm trên từng nit 2 31
4.6 Số lượng chi tiết các dataset thử nghiệm với tập dữ liệu ToN_IoT 32
4.7 Số lượng chỉ tiết các dataset thử nghiệm với tập dữ liệu IøTiD20 32
4.8 Số lượng chi tiết các dataset thử nghiệm với tập dữ liệu UNSW_NB15 33 4.9 Tổng hợp so sánh phân loại đa nhãn giữa Centralized va Federated Leaning @⁄⁄⁄⁄ øtP” `" »”.Àè 35
4.10 Tổng hợp so sánh giữa Centralized và Federated Learning 39
4.11 Kết quả thử nghiệm theo các kiểu chia dữ liệu 44
VI
Trang 72.1
3.1
3.2
3.3
3.4
4.1
4.2
4.3
4.4
4.5
4.6
4.7
4.8
4.9
DANH MUC CAC HINH VE VA DO THI
Thiết bi IoT trong ddiséng! 2 ee
Cơ chế của Federated
Learning? -Thiết kế hệthống
-Truyền tham số thông qua web API
Mô hình convlID[I5]
Sơ đồ hoạt động của công nghệ Conditional Tabular Generative Ad-versarial Networks (ctGAN) trong blockchan
Confusion Matrix khi thử nghiệm kiến trúc Centralized (a), FL (b), flwrBC(c) với tập dữ liệu ToN IløI
Confusion Matrix khi thử nghiệm kiến trúc Centralized (a), FL (b), flwrBC(c) với tập dữ liệu IlơliD20
Confusion Matrix khi thử nghiệm kiến trúc Centralized (a), FL (b), flwrBC(c) với tập dữ liệu UNSW_NBIS
So sánh tại nút máy chủ trong hai trường hợp sử dung FL (a) va flwrBC (b) - IoTiD20
So sánh tại nút máy chu trong hai trường hợp sử dung FL (a) va flwrBC (b)- IloN lốÏF
So sánh tại nút máy chủ trong hai trường hợp sử dung FL (a) va flwrBC (b)-UNSW_NBIS
Confusion Matrix giữa các tỉ lệ chia 50:50 (a), 80:20 (b), 95:5 (c) Confusion Matrix giữa các tỉ lệ chia50:50 (a), 80:20 (b), 95:5 (c) -IGHD2U ee ee Kha nang cai thién cua Conditional Tabular Generative Adversarial Networks (ctGAN) (b) với không sử dung Conditional Tabular Gen-erative Adversarial Networks (ctGAN) (a) - ToN_IoT
vii
Trang 8DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ
4.10 Khả năng cải thiện của Conditional Tabular Generative Adversarial
Networks (ctGAN) (b) với khơng sử dung Conditional Tabular
Gen-erative Adversarial Networks (ctGAN) (a)-IoTiD20 47
4.11 So sánh mức độ tiêu thu tài nguyên trên nút may chu khi khơng (a) va
cĩ (b) sử dụng Conditional Tabular Generative Adversarial Networks
(c(GAN)-IòIID20 Ặ.ẶẶ.ẶẶ.Ặ 48
4.12 So sánh mức độ chiếm dụng tài nguyên trên máy khách 1 khi khơng
(a) và cĩ (b) sử dụng CTGAN ố Ặ ee 48
4.13 So sánh mức độ chiếm dụng tài nguyên trên máy khách 2 khi khơng
(a,c) và cĩ (b,d) sử dung CTGAN 49 4.14 So sánh mức độ tiêu thụ tài nguyên trên máy chủ khi khơng (a) và
cĩ (b) sử dụng Conditional Tabular Generative Adversarial Networks
(ctGAN) - IoN Ilơl- 49
4.15 So sánh mức độ chiêm dụng tài nguyên trên các máy khách khi khơng
(a) và cĩ (b) sử dung Conditional Tabular Generative Adversarial
Networks (ctGAN) - ToNĐ Iøl 50
VII
Trang 9DANH MỤC TU VIET TAT
AI Artifial Intelligence
cGAN Conditional Generative Adversarial Networks
CNN Convolutional Neural Networks
ctGAN Conditional Tabular Generative Adversarial Networks
DDoS Distributed Denial of Service
DoS Denial of Service
FL Federated Learning
GAN _ Generative Adversarial Networks
HIDS Host Intrusion Detection Systems
IDS Intrusion Detection System
HoT Industrial Internet of Things
ToT Internet of Things
IPFS InterPlanetary File System
NIDS Network Based Intrusion Detection System
1X
Trang 10Chương 1 MỞ ĐẦU
1.1 Lý do chọn dé tài
Trong thời đại ngày nay, van dé bảo mật thông tin ngày càng trở nên quan trọng hơn
do sự phổ cập và tích hợp mạng internet vào mọi lĩnh vực của cuộc sống Đặc biệt,
đó chính là sự hiện diện của các thiết bị IoT
OF THINGS
Hình 1.1 Thiết bi IoT trong đời sống!
Với sự gia tăng không ngừng của các cuộc tấn công mạng, các thiết bị lơT dangphải đối mặt với các phần mềm độc hai, tan công và các hoạt động xâm nhập nghiêmtrọng trong quá trình phát triển của chúng Theo báo cáo của SonicWall [1] về cácmối de doa an ninh mạng năm 2023, trong 6 tháng đầu năm 2023, số lượng các vutan công mã độc nhắm tới thiết bị IoT đã tăng lên 37% so với năm 2022, cụ thể là
77.9 triệu cuộc tan công (2023) và 57 triệu (2022) Trong đó, khu vực châu A và
Mỹ Latinh tăng ở mức rất cao, 170% và 164%
Đối mặt với những mối đe dọa ngày càng phức tạp, hệ thống Phát hiện xâm nhậpmang (Intrusion Detection System (IDS)) đang trở thành một phan quan trọng trongviệc giám sát và bao vệ mạng Tuy nhiên, do sự hạn chế về tài nguyên của các thiết
bị IoI, IDS nên được đặt tại vị trí cận biên hay loại IDS nên được sử dụng đó chính
là Network Based Intrusion Detection System (NIDS).
"http://ste.remann.com.vn/uploads/topic/2022/12/16/_i639befd6d7c66.jpg
Trang 11CHƯƠNG I MỞ ĐẦU
Học liên kết (FL) là một mô hình máy học phân tán, cho phép mô hình được đào tạo trên dữ liệu phân tán mà không cần chia sẻ dữ liệu thật sự Điều này giúp giảm rủi ro liên quan đến quyền riêng tư và bảo mật dữ liệu, một vấn dé quan trọng khi
xử lý thông tin nhạy cảm trong lĩnh vực an ninh mang Như vậy, việc sử dụng NIDS
thông qua Federated Learning có thể mang lại hiệu suất cao mà vẫn bảo đảm tínhbảo mật và tuân thủ quy định về quyền riêng tư
Tuy nhiên, việc áp dụng FL cũng gặp một số thách thức cần phải giải quyết như sau:
¢ Dữ liệu mất cân bằng giữa các nút (imbalance data)
Trong Federated Learning, dữ liệu được phân tán trên nhiều thiết bị hoặc nút,
và mỗi nút có thể có số lượng dữ liệu khác nhau cũng như các loại dữ liệu khác
nhau Điều này có thể dẫn đến một số vấn đề:
© Thiếu cân bằng trong học tập: Mô hình học được có thể bị lệch về phía
các nút có nhiều dữ liệu hơn hoặc các loại dữ liệu nhất định, dẫn đến kết
quả không chính xác hoặc không công bằng
© Hiệu suất giảm: Các nút với it dit liệu hơn có thể không đóng góp đáng
kể vào việc cải thiện mô hình, trong khi các nút với nhiều dữ liệu hơn có
thể bị quá tải.
s Xác thực các nút tham vào quá trình hoc
© Tính xác thực của dữ liệu: Cần phải đảm bảo rằng các dữ liệu từ các nút
không bị giả mạo hoặc chứa các thông tin sai lệch.
© Tin cậy và bảo mật: Các nút tham gia cần phải được xác thực để đảm bảo
rằng họ là các thiết bị tin cậy và không gây hại đến quá trình học tập
¢ Tính minh bạch của đữ liệu
© Quá trình hoc tập công bằng va minh bach: Các bên tham gia phải có khả
năng kiểm tra và xác nhận quá trình học tập diễn ra đúng cách.
© Tính toàn vẹn của dữ liệu: Đảm bảo rằng dữ liệu không bị thay đổi hoặc
giả mạo trong quá trình học tập và giao tiếp giữa các nút.
2
Trang 12CHƯƠNG | MỞ DAU
Nghiên cứu "PHÁT TRIEN HỆ THONG PHÁT HIỆN XÂM NHẬP MẠNG CHO IOT SỬ DUNG HỌC LIÊN KET" sẽ hướng đến giải quyết bài toán được đặt ra 6
trên.
1.2 Các nghiên cứu liên quan
Các công trình nghiên cứu về phát hiện xâm nhập mạng với Federated Learningđược dé cập trong [2-5] Các nghiên cứu bao gồm từ việc tối ưu kha năng phát hiện
đến phương thức bảo mật các đối tượng áp dụng trong mô hình hay chính là sự riêng
tu dif liệu tại các điểm/thiết bị cuối Đặc biệt, trong ngữ cảnh IoT, NIDS có thể bị
giảm hiệu quả bởi sự thay đổi của chính hệ thống [3] Đây là thách thức đặt ra khitriển khai NIDS trong hệ thống IoT bằng Federated Learning Về sự riêng tư của dữliệu tại các thiết bị, các phương pháp được tác giả của [2, 3] đề cập tới gồm có:
* Differential Privacy (DP): DP là một kỹ thuật bảo mật riêng tư phổ biến được
sử dụng rộng rãi trong ngành công nghiệp và học thuật Nó tập trung vào việc
bảo vệ quyền riêng tư thông qua việc thêm nhiễu vào các thuộc tính cá nhân
nhạy cảm, mà không làm thay đổi hành vi của toàn bộ mẫu dữ liệu.
* Homomorphic Encryption: bảo vệ quyên riêng tư của dữ liệu người dùng thông
qua việc trao đổi thông tin tham số dưới hình thức mã hóa trong quá trình
training Phương pháp nay cho phép tính toán trên dữ liệu đã được mã hóa.
¢ Secure Multiparty Computation: Phương pháp này cho phép các bên tham gia
tính toán trên dữ liệu mà không cần phải tiết lộ dữ liệu thật sự của họ cho bat
Trang 13CHƯƠNG I MỞ ĐẦU
xác thực thực node — Blockchain trong bài báo [5] Theo đó, tác giả đưa ra việc sử dụng blockchain có các tác dụng như sau:
« Quản lý quyền truy cập dữ liệu: Blockchain có thể được sử dung để quản lý
quyên truy cập vào dữ liệu y tế (bệnh án), đảm bảo rằng chỉ những người được
ủy quyền mới có thể truy cập vào dữ liệu nhạy cảm
* Bảo mật quá trình giao tiếp và lưu trữ dữ liệu: mã hóa và bảo mật dif liệu trong
quá trình truyền tải và lưu trữ
Nghiên cứu [6] — flwrBC, nhóm tác giả phát triển một framework kết hợp giữa
federated learning và blockchain để giải quyết các thách thức về bảo mật dữ liệu
và tính minh bạch trong việc lưu trữ và xác minh dữ liệu Hai smart contract được
triển khai trong blockchain giả lập: Contribution Contract và Federation Contract Contribution Contract được sử dụng để lưu trữ, theo dõi và thưởng cho các hoạt
động huấn luyện cục bộ của client, trong khi Federation Contract chịu trách nhiệm
lưu trữ và thực hiện việc tổng hợp mô hình toàn cầu Framework này cung cấp mộtcách tiếp cận tiềm năng để áp dụng trong nhiều lĩnh vực khác nhau và giải quyết cácthách thức của việc bảo vệ dữ liệu và đáng tin cậy của kết quả trong máy học phântán Về vấn dé xử ly dataset, các nghiên cứu [4], [7], [8] đều dé cập tới GAN là một
phương thức xử lý dữ liệu tối ưu Cụ thể, nhóm tác giả của nghiên cứu [7] và [8] sử
dụng các dạng GAN khác nhau cho từng trường hợp:
* FedCSCD-GAN [7]: sự kết hợp giữa GAN và Federated Learning; đồng thời
dữ liệu được bảo mật bằng giải pháp f-DP để tăng cường quyền riêng tư
* ctGAN [8]: conditional GAN tạo ra dữ liệu học từ sự phân bố trong dataset
thay vi tạo ra một cách ngẫu nhiên kém hiệu quả với các trường hợp mat cân
bằng dif liệu (imbalanced datasets)
1.3 Mục tiêu, đối tượng và phạm vi nghiên cứu
1.3.1 Mục tiêu nghiên cứu
Nghiên cứu hướng đến việc xây dựng một hệ thống phát hiện xâm nhập mạng(NIDS) sử dung FL với độ chính xác cao bằng cách tích hợp giữa các mô hình
4
Trang 14CHUONG 1 MỞ ĐẦU
học mang lại hiệu quả cao Nghiên cứu này cũng đặt ra và giải quyết bài toán mắtcân bằng dữ liệu giữa các node(s) trong hệ thống bằng cách tạo thêm các dữ liệu giả
với công nghệ GAN Đồng thời, công nghệ Blockchain sẽ giúp tăng cường tính bảo
mật va dam bao tính toàn vẹn của dif liệu và quy trình.
Mục tiêu cuối cùng là xây dựng một hệ thống có khả năng phát hiện một só loại tấncông mạng phổ biến và hệ thống đó có sự đảm bảo về độ tin cậy và riêng tư của dữ
liệu.
1.3.2 Đối tượng nghiên cứu
s° NIDS
* Hoc liên kết (Federated Learning)
¢ GAN - Generative Adversarial Network
¢ Blockchain
1.3.3 Pham vi nghiên cứu
Hệ thống phát hiện xâm nhập mạng cho IơT sử dung FL, hướng đến mô hình có độ
chính xác cao và độ trễ thấp Công nghệ GAN để giải quyết vấn dé xung quanh việc
mắt cân bằng dữ liệu thường gặp phải Dữ liệu đầu vào là các dataset UNSW-NB15,
ToN_IoT, IoTiD20; sau cùng là Blockchain để hỗ trợ cho FL.
1.4 Phuong pháp nghiên cứu
a Nội dung 1: Tìm hiểu và thử nghiệm các mô hình trên các nghiên cứu liên
quan
* Nghiên cứu các bài báo có sử dụng các công nghệ được đưa ra trong Đối
tượng nghiên cứu
« Thử nghiệm các mô hình; đánh giá, so sánh kết quả từ các nghiên cứu
trên (nếu có thể)
b Nội dung 2: Kết hợp, chỉnh sửa mô hình để cải thiện chỉ số; sử dụng GAN để
xử ly dataset và đưa ra đánh giá ban đầu
5
Trang 15CHƯƠNG 1 MỞ ĐẦU
* Dựa trên đánh giá từ nội dung | để đưa ra thay đổi cho mô hình của nghiên
cứu hiện tại: chỉnh sửa hoặc thay thế
s« Đặt ra các kịch bản, liên tục thử nghiệm để đánh giá mức độ hiệu quả và
sự cần thiết của công nghệ GAN
c Nội dung 3: Kết hợp Federated Learning và Blockchain cho việc xác thực
node, bảo vệ dữ liệu
» Thay đổi kiến trúc mô hình, áp dụng công nghệ blockchain
d Nội dung 4: Thử nghiệm và đánh giá hệ thống
¢ Chon ra các kịch bản phù hợp với mục tiêu
« Tối ưu hoá hiệu suất mô hình với các tiêu chỉ đánh giá cụ thể, áp dụng các
thay đổi cần thiết
1.5 Các đóng góp chính của đề tài
Đề tài có sự kết hợp của các mô hình học máy khác nhau để đưa ra kết quả tốt nhất.
Nghiên cứu bao gồm việc xử lý các van đề liên quan tới dữ liệu Cụ thể gồm có mat
cân bằng giữa các mẫu mắt cân bằng giữa các node và tính riêng tư của đữ liệu.
¢ Đầu tiên, với van dé mất cân bằng giữa các mẫu tấn công, chúng tôi sử dụng
Penalize Algorithms (Cost-Sensitive Training): Nếu dataset có một số loại tấncông bị hạn chế về số lượng sẽ làm cho các dấu hiệu trở nên mờ nhạt và không
mang lại khả năng phát hiện, ngược lại các loại tan công được ghi lại quá nhiều làm cho các loại tấn công khác bị mờ nhạt đi Thuật toán này sử dụng siêu tham
số class_weight, siêu tham số này giúp mô hình có thể nhận biết được nên ưu
tiên dấu hiệu của những loại tấn công nào và ít quan tâm đến các dấu hiệu của
loại tân công nào.
* Vân đề thứ hai - mất cân bằng giữa các node(s), nghiên cứu áp dụng công nghệ
được đề xuất trong nghiên cứu [8] — Conditional Tabular Generative ial Networks (ctGAN) Khi dữ liệu giữa các node(s) quá chênh lệch dẫn đến sự
Adversar-giảm đi trong hiệu suất mô hình (thời gian thực thi thuật toán, chỉ số đánh giá),
6
Trang 16CHUONG 1 MỞ ĐẦU
ctGAN sẽ được sử dung để tạo ra các dữ liệu giả trên node day đủ hơn và đưachúng qua node bị thiếu hụt Mục đích chính là thay vì việc gửi dữ liệu thật
để cân bằng cho việc huấn luyện, dữ liệuu giả sẽ được chuyển tới nút cần bổ
sung Từ đó, mô hình vừa đạt được hiệu quả tương đổi, vừa đảm bảo sự riêng
tư dữ liệu.
° Sau cùng, công nghệ blockchain được tích hợp vào vào FL để chúng hỗ trợ lẫn
nhau trong việc xác thực, training Qua đó, khoá luận tập trung vào khả năng phát hiện xâm nhập mạng và có khả năng xác thực node, bảo vệ dữ liệu.
1.6 Cấu trúc Khoá luận tốt nghiệp
Khóa luận với đề tài “PHAT TRIỂN HE THONG PHÁT HIỆN XÂM NHẬP MẠNG CHO IOT SỬ DỤNG HỌC LIÊN KẾT? được trình bày bao gồm 5 chương Nội dung
tóm tắt từng chương được trình bày như sau:
¢ Chương 1: Mở đầu.: Đặt vấn đề, đưa ra các công nghệ liên quan và vai trò
của chúng
¢ Chương 2: Cơ sở lý thuyết.: Giải thích các công nghệ được áp dụng và sự
liên quan tới đề tài
« Chương 3: Phương pháp thực hiện: Mô hình và cách thức triển khai
* Chương 4: Thực nghiệm, đánh giá va thảo luận: Đưa ra các kịch bản, đánh
giá mức độ hiệu quả của mô hình
* Chương 5: Kết luận và hướng phát triển: Kết luận các ưu/nhược điểm của
mô hình va dé xuất hướng phát triển của mô hình
Trang 17Chương 2 CƠ SỞ LÝ THUYET
Chương này sẽ dé cập đến các kiến thức nền tang, cơ sở lý thuyết của dé tài gồmcó: Hệ thống phát hiện xâm nhập mạng (NIDS), mô hình học liên kết (FL), công
nghệ GAN và Blockchain.
2.1 Hệ thống phát hiện xâm nhập
Hệ thống phát hiện xâm nhập - IDS là phần mềm hoặc công cụ giúp bảo mật hệ thống và cảnh báo lỗi khi có các hành vi đáng ngờ xâm nhập vào hệ thống Mục
đích chính của IDS là ngăn ngừa và phát hiện những hành động phá hoại tính bảo
mật của hệ thống hoặc những hành vi như dò tìm, quét các cổng Phần mềm IDScũng có thể phân biệt được đâu là những cuộc tấn công nội bộ (từ chính nhân viên
trong tổ chức) hoặc từ bên ngoài (từ hacker).Trong một số trường hợp, IDS còn có
thể phan ứng lại với các traffic độc hại bằng cách chặn IP nguồn truy cập mạng Các
loại IDS hiện nay gồm có:
* NIDS (Network Intrusion Detection Systems): thường được bố trí tại những
điểm dễ bị tan công trong hệ thống mạng NIDS được sử dụng để giám sát lưu
lượng mạng đến (inbound) và di (outbound) từ tất cả các thiết bị trên mạng Điểm cộng lớn nhất của NIDS là có thể quét tất cả traffic inbound và outbound,
nhưng việc này có thể làm giảm tốc độ chung của mạng.
¢ Host Intrusion Detection Systems (HIDS) (Host Intrusion Detection Systems):
hệ thống phát hiện xâm nhập này hoạt động trên tất cả các thiết bị trong hệthống có thể kết nối Internet HIDS chỉ giám sát các gói dữ liệu inbound vaoutbound từ thiết bị hoặc những hành động đáng ngờ tại cấp truy cập nội bộ
* Signature-Based IDS: Đây là các IDS hoạt động dựa trên dấu hiệu đã hoc
được, giám sát các gói tin trên mạng tương tự như cách phần mềm diệt virushoạt động Tuy nhiên Signature-Based có thể không phát hiện được những mối
đe dọa mới, khi dấu hiệu để nhận biết nó chưa được IDS cập nhật
* Anomaly-Based IDS: IDS nay được sử dung để phát hiện mối đe dọa dựa trên
sự bất thường Anomaly-Based sẽ giám sát traffic mạng và so sánh với đường
8
Trang 18CHƯƠNG 2 CƠ SỞ LÝ THUYẾT
cơ sở (baseline) đã được thiết lập từ trước Baseline sẽ xác định đâu là mức
bình thường của mạng và cảnh báo cho quản trị viên mạng hoặc người dùng
khi phát hiện traffic truy cập bất thường hoặc khác biệt so với baseline.
Nhu đã đề cập đến trước đó, do sự hạn chế về tài nguyên trong hệ thống IơT, IDS
nên được đặt tại vùng cận biên và loại phù hợp nhất được áp dụng trong ngữ cảnh
này đó là NIDS.
2.2_ Mô hình học máy
Hoc máy hay máy hoc (Machine Learning) là một loại trí tuệ nhân tạo (Artifial
Intelligence (AI)) cho phép các ứng dụng phần mềm trở nên chính xác hơn trong
việc dự đoán kết quả mà không cần được lập trình rõ ràng để làm như vậy Các thuậttoán học máy sử dụng dữ liệu lịch sử làm đầu vào để dự đoán các giá trị đầu ra mới.Một số ứng dụng phổ biến của học máy bao gồm hệ thống đề xuất (recommendsystem), hệ thống phát hiện bất thường (anomaly detection), phát hiện xâm nhập
(ids), phan mềm độc hai (malwares), lọc thư rác (spam email) Hoc máy cổ điển thường được phân loại theo cách một thuật toán học để trở nên chính xác hơn trong các dự đoán của nó Có bốn cách tiếp cận cơ bản: học có giám sát, học không giám
sát, học bán giám sát và học tăng cường Loại thuật toán mà các nhà khoa học sử
dụng tùy thuộc vào loại đữ liệu họ muốn dự đoán.
¢ Hoc có giám sát (Supervised Machine Learning): Trong loại học máy này, các
nhà nghiên cứu cung cấp các thuật toán với dữ liệu huấn luyện được gắn nhãn
và xác định các biến mà họ muốn thuật toán đánh giá để tìm mối tương quan
Cả đầu vào và đầu ra của thuật toán đều được chỉ định
¢ Học không giám sát (Unsupervised Machine Learning): Loại học máy này 11
liên quan đến các thuật toán đào tạo trên dữ liệu không được gắn nhãn Thuật
toán quét qua các tập dữ liệu để tìm kiếm bất kỳ kết nối có ý nghĩa nào Dữ
liệu mà các thuật toán đào tạo cũng như các dự đoán hoặc khuyến nghị màchúng xuất ra được xác định trước
* Học bán giám sát (Semi-Supervised Learning): Cách tiếp cận này đối với học
máy liên quan đến sự kết hợp của hai loại trước đó Các nhà khoa học dữ
9
Trang 19CHƯƠNG 2 CƠ SỞ LÝ THUYẾT
liệu có thể cung cấp một thuật toán chủ yếu là đữ liệu đào tạo được gắn nhãn,
nhưng mô hình có thể tự do khám phá dữ liệu và phát triển sự hiểu biết của riêng mình về tập dữ liệu.
¢ Học tăng cường (Reinforcement Learning): những người nghiên cứu thường
sử dụng học tăng cường để dạy máy hoàn thành một quy trình gồm nhiều bướctrong đó có các quy tắc được xác định rõ ràng Các nhà khoa học lập 6 trìnhmột thuật toán để hoàn thành một nhiệm vụ và cung cấp cho nó những dấu hiệu
tích cực hoặc tiêu cực khi nó tìm ra cách hoàn thành một nhiệm vụ Nhưng
phần lớn, thuật toán tự quyết định những bước cần thực hiện trong quá trình
thực hiện.
2.3 Mô hình học liên kết - Federated Learning
2.3.1 Tổng quan
Federated Learning (thường được gọi là học liên kết) là một phương pháp phi tập
trung để đào tạo các mô hình học máy Nó không yêu cầu trao đối dữ liệu từ các thiết bị client đến các máy chủ toàn cầu Thay vào đó, dữ liệu nguyên gốc trên các
thiết bị biên được sử dung để đào tạo mô hình cục bộ, từ đó nâng cao quyền riêng tư
dữ liệu Cuối cùng, mô hình được hình thành bằng cách tổng hợp các bản cập nhật
cục bộ Federated Learning quan trọng bởi những lý do sau đây:
* Quyên riêng tư: Khác với các phương pháp truyền thống, trong đó dữ liệu được
gửi đến máy chủ tập trung để đào tạo, Federated Learning cho phép đào tạo
cục bộ trên thiết bị biên, ngăn chặn lỗ hổng dữ liệu tiềm năng
e An toàn, bao mật dữ liệu: Chỉ các ban cập nhật mô hình được mã hóa được
chia sẻ với máy chủ tập trung, đảm bảo bảo mật dữ liệu Ngoài ra, các kỹ thuật
tổng hợp an toàn như Secure Aggregation Principle cho phép giải mã chỉ kết
quả được tổng hợp.
s Truy cập vào dữ liệu không đồng nhất: Federated Learning đảm bảo truy cập
vào dữ liệu được phân tán trên nhiều thiết bi, địa điểm và tổ chức Nó cho phép
đào tạo các mô hình trên dữ liệu nhạy cảm, chẳng hạn như dữ liệu tài chính
10
Trang 20CHƯƠNG 2 CƠ SỞ LÝ THUYẾT
hoặc chăm sóc sức khỏe trong khi vẫn duy trì bảo mật và quyển riêng tư Và
nhờ sự đa dạng dữ liệu lớn hơn, các mô hình có thể mang tính tổng quát hơn.
Step 2 : Updating local models and generating ==> ° ee @
new learnings using private data e738=> .«.
Step 1: Server sharing initial Learning(L1) —
Hình 2.1 Cơ chế của Federated Learning!
Một mô hình cơ bản được lưu trữ trên máy chủ tập trung Các bản sao của mô
hình này được chia sẻ với các thiết bị client, sau đó các thiết bị này sẽ đào tạo các
mô hình dựa trên dữ liệu cục bộ mà chúng tạo ra Theo thời gian, các mô hình trên
các thiết bị riêng lẻ trở nên cá nhân hóa và cung cấp trải nghiệm người dùng tốt hơn.
Ở giai đoạn tiếp theo, các bản cập nhật (tham số mô hình) từ các mô hình được đào
tạo cục bộ được chia sẻ với mô hình chính nằm ở máy chủ tập trung bằng cách sử
dụng các kỹ thuật tổng hợp an toàn (secure aggregation techniques) Mô hình này
kết hợp và trung bình hóa các đầu vào khác nhau để tạo ra các bài học mới Vì dữliệu được thu thập từ các nguồn đa dạng, nên có phạm vi lớn hơn và mô hình trở nên
tổng quát hơn.
Khi mô hình trung tâm đã được đào tạo lại trên các tham số mới, nó lại được chia
sẻ với các thiết bị client cho lần lặp tiếp theo Với mỗi chu kỳ, các mô hình thu thập
"https://towardsdatascience.com/how-federated-learning-is-going-to-revolutionize-ai-6e0ab580420f
11
Trang 21CHƯƠNG 2 CƠ SỞ LÝ THUYẾT
một lượng thông tin đa dạng và tiếp tục cải thiện mà không tạo ra các lỗ hổng về
quyền riêng tư.
2.3.3 So sánh học máy tập trung và học máy liên kết
Trong Centralized Learning, mô hình học máy được huấn luyện trên một máy chủ
tập trung sử dụng toàn bộ dữ liệu đào tạo Dữ liệu đào tạo được gửi từ các thiết bịclient đến máy chủ để huấn luyện mô hình Mô hình được cập nhật trên máy chủ
dựa trên toàn bộ dữ liệu đào tạo, và sau đó được triển khai để dự đoán trên dữ liệu mới Ngược lai, học liên kết không sử dụng toàn bộ dữ liệu, quá trình huấn luyện
mô hình được diễn ra trên từng client độc lập và giữ liệu trao đổi giữa chúng là các
tham số liên quan đến dữ liệu đào tạo, không phải dữ liệu gốc Các tham số đó sẽ
được máy chủ tổng hợp và cập nhật mô hình toàn cục.
Kết quả thực nghiệm của nghiên cứu [9] đã chỉ ra rằng: Độ chính xác (accuracy) tốtnhất của hình thức học tập trung là 99% và học liên kết là 76% Theo đó, học liên
kết không thể mang lại độ chính xác tương đương hay cao hơn hình thức học tập
trung, đây là điều đã được dự đoán từ trước bắt kể với sự thay đổi về dataset và tham
số truyền vào hoặc kể cả là số nút client Tuy nhiên, so với sự đảm bảo quyền riêng
tư của dữ liệu, kết quả của mô hình học liên kết cũng là một kết quả khá tốt
2.4 Generative Adversarial Networks - GAN
Generative Adversarial Networks (GANs) là một kiến trúc mang nơ-ron đặc biệt
trong lĩnh vực học sâu (deep learning), được giới thiệu bởi lan Goodfellow và các
đồng nghiệp vào năm 2014 Kiến trúc này bao gồm hai mạng nơ-ron cạnh tranh với nhau trong quá trình huấn luyện: một mạng được gọi là "generative network" (mạng
sinh), và một mạng được gọi là "discriminative network" (mang phân biệt).
¢ Generative Network (Mạng Sinh): Mang này có nhiệm vụ học cách tạo ra dữ
liệu mới từ một không gian tiềm ẩn (latent space), thường là một không gianngẫu nhiên Mang sinh cô gắng tạo ra dữ liệu giả mạo một cách có thể nhìn
thấy được và logic từ không gian tiềm ẩn này.
* Discriminative Network (Mang Phân Biệt): Mang này được huấn luyện dé
12
Trang 22CHƯƠNG 2 CƠ SỞ LÝ THUYẾT
phân biệt giữa dit liệu thực và dữ liệu được tạo ra bởi mạng sinh Nó cô gắng
học cách phân biệt giữa dữ liệu thật và dữ liệu giả mạo một cách chính xác
nhất có thể.
Trong quá trình huấn luyện, mạng sinh cố gắng cải thiện khả năng tạo ra dữ liệu giả
mao sao cho mạng phân biệt không thể phân biệt được dữ liệu giả mạo với dữ liệu
thực Mặt khác, mạng phân biệt cố gắng cải thiện khả năng phân biệt giữa dữ liệu
thật và dữ liệu giả mạo.
Khi huấn luyện kết thúc, mạng sinh có thể được sử dụng để tạo ra dữ liệu mới có
cùng phân phối với dữ liệu huấn luyện GANs đã đạt được sự chú ý lớn vì khả năng của chúng trong việc tạo ra hình ảnh, âm nhạc, văn bản, và nhiều loại dữ liệu khác một cách tự nhiên và sống động.
Theo đó, một mô hình GAN với cách thức hoạt động tương tự - Conditional
Genera-tive Adversarial Networks (CGAN) có thể quyết định sinh ra dữ liệu giả tai categorynào, giúp chúng ta tuỳ ý kiểm soát dữ liệu đầu ra Dé áp dụng cho bộ dif liệu của
nghiên cứu này, chúng ta sẽ triển khai Conditional Tabular GAN (ctGAN) vì dữ liệu
của chúng ta được biểu diễn dưới dạng bảng Tóm tắt về cách hoạt động của nó như
sau:
* Normalization Theo Chế Độ (Mode-Specific Normalization): CTGAN sử
dụng phương pháp này để vượt qua phân phối đa phân phối và không Gaussian
bằng cách chuẩn hóa theo chế độ
* Mô Hình Sinh Có Điều Kiện và Huấn Luyện Bằng Cách Lấy Mẫu
(Con-ditional Generator and Training-by-Sampling): Để xử lý các cột rời rac không cân đối, CTGAN sử dụng một mô hình sinh có điều kiện và phương
pháp huấn luyện bằng cách lấy mẫu
» Mạng Liên Kết Đầy Đủ (Fully-Connected Networks) và Các Kỹ Thuật
Gần Đây Khác: ctGAN sử dụng mạng liên kết đầy đủ và một số kỹ thuật mới
nhất để huấn luyện một mô hình chất lượng cao
13
Trang 23CHƯƠNG 2 CƠ SỞ LÝ THUYET
2.5 Blockchain
Blockchain là một công nghệ lưu trữ và truyền tải thông tin một cách an toàn, côngbằng và không thể thay đổi Nó thường được mô tả là một hệ thống cơ sở dữ liệu
phân tán, có khả năng ghi lại các giao dịch hoặc các bản ghi dữ liệu theo thời gian và
không thể bị thay đổi sau khi đã được xác nhận Blockchain không có một tổ chức hoặc cá nhân duy nhất nào kiểm soát, mà thay vào đó được duy trì bởi một mang
lưới các máy tính phân tán, mỗi máy tính trong mạng được gọi là một nút (node).
Một số đặc điểm quan trọng của blockchain bao gồm:
s Phân tán va Phi Tập Trung: Dữ liệu được lưu trữ trên một mạng lưới các nút
độc lập, không cần có một tổ chức hoặc người điều khiển duy nhất.
° Không Thể Thay Đổi: Mỗi khối dữ liệu trong chuỗi (blockchain) được liên kết
với khối trước đó thông qua một quá trình gọi là mã hóa băm (hashing), tạo ramột chuỗi các khối không thể thay đổi
¢ An Toàn và Bảo Mật: Dữ liệu trên blockchain được bảo vệ bằng mã hóa và
phương thức xác thực, giúp ngăn chặn sự can thiệp không mong muốn
* Tính Trong Suốt: Tất cả các giao dịch được lưu trữ công khai trên blockchain
và có thể được kiểm tra bởi bất kỳ ai
¢ Tính Tính Toán: Blockchain có thể được sử dung để thực hiện các giao dịch
không cần sự trung gian, giảm chi phí và thời gian giao dịch
Hai thành phần quan trọng khi ứng dụng từ nghiên cứu kết hợp giữa học liên kết với
blockchain flwrBC [6] là InterPlanetary File System (IPFS) và Smart Contract:
« IPFS[6]: IPFS là một hệ thống lưu trữ tệp phân tán va không cần máy chủ
trung tâm Nó sử dụng định danh nội dung để lưu trữ và truy xuất dif liệu, thay
vì sử dụng địa chỉ vật lý như truyền thống IPES cung cấp khả năng lưu trữ dữ
liệu một cách phân tán trên một mạng lưới ngang hàng, giúp tăng cường tính
bảo mật và khả năng truy xuất dữ liệu từ bất kỳ nơi nào trên thế giới Trong
khoá luận này, IPFS được sử dụng để lưu trữ dữ liệu và tạo các bản ghi hash
trên Blockchain để đảm bảo tính toàn vẹn và minh bạch của dữ liệu Nếu nội
14
Trang 24CHƯƠNG 2 CƠ SỞ LÝ THUYẾT
dung của tài liệu hoặc sách điện tử không bị thay đổi, hash của IPES vẫn giữ
nguyên Ngược lại, nếu có sự thay đổi trong nội dung, hash sẽ thay đổi, chothấy rằng nội dung gốc đã bị sửa đổi
¢ Smart Contracts[10] là các hợp đồng tự thực thi được lập trình để thực hiện
các giao dịch mà không cần sự can thiệp của bên thứ ba Trong bài viết, SmartContracts được nhắc đến như một công cụ mạnh mẽ để thực thi các hợp đồng
mà không cần phải tin tưởng vào một bên trung gian Mặc dù Smart Contractsmang lại tính minh bạch và tự động hóa trong quá trình thực thi hợp đồng,nhưng cũng có thé gây ra vấn đề về quyền riêng tư khi tất cả các giao dịchliên quan đến Smart Contracts đều được hiển thị cho tất cả các nút trong mạnglưới Blockchain Bài báo [10] sử dụng hợp đồng thông minh trên blockchain
Ethereum để lưu trữ các hash của IPES Các hash này được sử dụng để đảm bảo tính toàn vẹn, nguyên bản và xác thực của nội dung Mỗi khi có thay đổi trong nội dung của tài liệu, hash của IPES sẽ thay đổi, và hash mới này sẽ
không khớp với hash lưu trữ trong hợp đồng thông minh, cho phép người dùng
theo dõi và xác minh tính chính xác và lịch sử của các tài liệu được lưu trữ.
Kết hợp hai thành phần này, chúng ta có thể đảm bảo tính xác thực và nguyên bảncủa dữ liệu Nội dung số được lưu trữ trên IPFS và các hash của nội dung này đượclưu trong hợp đồng thông minh trên blockchain để cung cấp khả năng theo dõi vàxác thực Hệ thống này cho phép người dùng kiểm tra lịch sử của tài liệu và đảm bảorằng tài liệu mà họ truy cập là bản gốc không bị chỉnh sửa Blockchain đã trở thànhnền tảng cho nhiều ứng dụng và dịch vụ, từ tiền điện tử như Bitcoin và Ethereumđến các ứng dụng trong lĩnh vực tài chính, y tế, chuỗi cung ứng, bầu cử và nhiều
lĩnh vực khác Đặc biệt, blockchain đã thu hút sự chú ý vì khả năng tạo ra tính minh
bạch, an toàn và công bằng trong quá trình giao dịch và lưu trữ dữ liệu Chính vì
vậy, công nghệ blockchain áp dụng vào mô hình FL để cài thiện tính an toàn, bảo
mật va quản lý quyển riêng tư của dif liệu được sử dung trong quá trình huấn luyện
mô hình trên các thiết bị phân tán.
15
Trang 25Chương 3 PHƯƠNG PHÁP THỰC HIỆN
Chương này tập trung vào việc triển khai các công nghệ đã được dé cập trong
nghiên cứu Chúng tôi sẽ trình bày các phương pháp cụ thể để thực hiện các mô
hình, giao thức hoặc hệ thống trong một ngữ cảnh thích hợp Đồng thời, chương này
cũng sẽ dé xuất các phương pháp để giải quyết các vấn dé cụ thể được đặt ra, dựa trên điều kiện và yêu cầu của dự án.
Mô hình triển khai hoàn chỉnh của nghiên cứu:
(7b) Lưu mô hình chung
ột số mô tả về cách thức hoạt động của mô hình tổng thể như sau:
Bắt đầu một phiên, (1) máy chủ tổng hợp gửi một API và sau đó (2) kích hoạt
một sự kiện trên blockchain để thông báo cho các client trong blockchain.
Sau khi nhận được thông báo, các client (3) kích hoạt chương trình client và
(4) thực hiện quá trình tiền xử lý tập dữ liệu.
Tại bước (4), bao gồm (4a) — gửi các thông tin về dữ liệu (metadata), (4b)
— gửi/nhận dữ liệu với client có ít/nhiều dữ liệu hơn (mức độ chênh lệch tuỳ
chỉnh) và (4c) — nếu (4b) là quá trình nhận dữ liệu, gom dữ liệu nhận được vào
local dataset.
(6) Tại thời điểm này, có hai trường hợp: nếu máy chủ đã có các tham số từphiên trước, nó sẽ phân phối chúng cho tất cả các client Nếu máy chủ không
có các tham số mô hình từ phiên trước, nó sẽ yêu cầu các tham số này từ một
client ngẫu nhiên và phân phối chúng cho các client còn lại.
16
Trang 26CHƯƠNG 3 PHƯƠNG PHÁP THỰC HIỆN
* Trong mỗi phiên học liên kết, (7) máy chủ lưu trữ kết quả tổng hợp tham số
toàn bộ mô hình và hash tương ứng trên hệ thống lưu trữ phân tán IPES, và (8)
thông tin thuật toán được lưu trữ trên blockchain để tạo điều kiện cho việc truy xuất tiếp theo.
* (7) Sau khi training, client lưu thông tin tham số local mới vào cơ sở dữ liệu
cục bộ (local database) và sau đó gửi các tham số, hash liên quan và thôngtin liên quan đến blockchain thông qua Contribution Contract hợp đồng thông
minh.
* (9) Sau khi phiên học liên kết hoàn tất, mỗi client tham gia sẽ được trả một
lượng token tương ứng với đóng góp dữ liệu của họ trong phiên đó.
* (10a) Dé sử dụng kết quả của FL, các client lưu tham số của mô hình toàn cục
cuối cùng vào cơ sở dit liệu cục bộ của chúng để dự đoán vào cuối mỗi session.
(10b) Nếu một thiết bị mới muốn sử dụng mô hình toàn cầu để dự đoán nhưngchưa tham gia vào quá trình training, nó có thể lấy mô hình từ IPFS để dự
đoán.
17
Trang 27CHƯƠNG 3 PHƯƠNG PHÁP THỰC HIỆN
Algorithm 1 Các bước hoạt động của FL - flwrBC
end procedure
procedure STEP 2: BALANCING DATA(
)
Clients side: All client N; € N send n; per label
Server side: Running ctGAN conditionally Balancing Algorithm: Algorithm 3
end procedure
procedure STEP 3: LOCAL TRAINING(
)
Clients N; € N execcute:
Training local models with initialized parameters
Send weights to Server
end procedure
procedure STEP 4: AGGREGATED MODEL(
)
Server side:
Using FedAvg to aggregate model with local models from N
Send global weights N for next round end procedure
procedure STEP 5: REPEAT(
)
if data remains and number of rounds not reached then
Go back to Step 3: Local Training
Trang 28CHƯƠNG 3 PHƯƠNG PHÁP THỰC HIỆN
3.1 Tập dữ liệu
3.1.1 7 ToN_IoT
Datasets ToN_IoT [1 1] là bộ dif liệu thế hệ mới của dữ liệu IoT và Industrial Internet
of Things (IIơT) được sử dụng để đánh giá tính chính xác và hiệu suất của các ứng
dụng an ninh mang dựa trên AI Các bộ dữ liệu này được gọi là ’ToN_IoT” vì chúng
bao gồm các nguồn dữ liệu đa dạng được thu thập từ các bộ dữ liệu Telemetry củacác cảm biến IơT và IIơT, các bộ dữ liệu hệ điều hành của Windows 7 va 10 cũng
như Ubuntu 14 va 18 TLS và các bộ dữ liệu lưu lượng mang Các bộ dữ liệu được
thu thập từ một mạng lưới thực tế và có quy mô lớn được thiết kế tại IơT Lab của
UNSW Canberra Cyber, Khoa Kỹ thuật va Công nghệ Thông tin (SEIT), UNSW Canberra @ Australian Defence Force Academy (ADFA) Các bộ dữ liệu được thu
thập theo một quy trình xử lý song song để thu thập nhiều sự kiện bình thường vàtấn công mang từ các mạng IoT Một hệ thống thử nghiệm mới đã được phát triển
tại phòng thí nghiệm IơT để kết nối nhiều máy ảo, hệ thống vật lý, nền tang hacking, đám mây và sương mù, cảm biến IoT và IloT để mô phỏng sự phức tạp và khả năng
mở rộng của các mạng IøT công nghiệp và Công nghiệp 4.0.
Trong đó, bộ dữ liệu mạng (Network datasets) bao gồm các loại như tấn công từ chốidịch vụ (Denial of Service (DoS)), tấn công từ chối dịch vụ phân tán (DistributedDenial of Service (DDoS)) và ransomware được lay từ việc triển khai đối với cácứng dung web, cổng IơT và hệ thống máy tính trên mạng IIơT Các bộ dif liệu mang
được thu thập với định dạng trong các gói tin (pcap), tệp log và tệp CSV của công
cụ Bro (hiện tại là công cụ Zeek) Ngoài ra, một số công cụ khác được sử dụng gồm
có: Security Onion, Kali linux, Wireshark.
Dữ liệu Training va Testing gồm có 46 features và 211,043 mau các loại tan công
DDoS, DoS, Injection, Password, Mitm, Xss, Backdoor, Ransomware, Scanning va
các mẫu lưu lượng mạng bình thường (Normal) Tương ứng với mỗi van dé hay ngữ
cảnh đặt ra, tệp training sẽ được chia thành nhiều phần khác nhau.
Khoá luận sử dụng kỹ thuật MinMax Scaler và Label Encoding để chuẩn hoá dữ liệu
từ các tập đầu vào Một số đặc điểm của chúng như sau:
19
Trang 29CHƯƠNG 3 PHƯƠNG PHÁP THỰC HIỆN
¢ MinMax Scaler là một kỹ thuật chuẩn hóa (scaling) được sử dụng để chuyển
đổi các đặc trưng của dataset về một phạm vi giá trị nhất định, thường là từ 0
đến 1 Kỹ thuật này làm cho tất cả các đặc trưng có cùng phạm vi giá trị, giúp
các thuật toán machine learning hoạt động hiệu quả hơn và dễ dàng hội tụ hơn
trong quá trình huấn luyện
© Pham vi giá trị: MinMax Scaler chuyển đổi các giá tri của mỗi đặc trưng
về một phạm vi nhất định, thường là từ 0 đến 1 Công thức chuyển đổi
cho mỗi giá tri x của đặc trưng là:
fot min(X )
~ max(X) — min(X)
Trong do:
+ x là giá trị gốc.
+ z là giá trị được chuẩn hóa.
+ min(X) là giá trị nhỏ nhất của đặc trưng trong dataset.
+ max(X) là giá trị lớn nhất của đặc trưng trong dataset.
© Đặc điểm chính: MinMax Scaler giữ nguyên phân phối của dữ liệu ban
đầu, chỉ thay đổi phạm vi giá trị Điều này có nghĩa là nếu dữ liệu ban đầu có phân phối bị lệch (skewed distribution) hoặc outliers, các thuộc
tính này vẫn được giữ nguyên sau khi chuẩn hóa.
© Ap dung: MinMax Scaler thường được áp dụng cho các thuật toán yêu
cầu dit liệu có phạm vi giá trị giống nhau như K-Nearest Neighbors
(KNN) va Neural Networks Nó cũng hữu ích trong các trường hợp mà
các đặc trưng có đơn vị đo lường khác nhau và cần phải được đưa về cùng
một phạm vi giá tri.
© Lưu ý: MinMax Scaler nhạy cảm với outliers vì nó chuyển đổi dữ liệu về
phạm vi cụ thể (thường là từ 0 đến 1) Nếu dữ liệu có outliers mạnh, các
giá trị nhỏ hơn 0 hoặc lớn hơn 1 sẽ không được biểu diễn chính xác sau
khi chuẩn hóa.
20
Trang 30CHƯƠNG 3 PHƯƠNG PHÁP THỰC HIỆN
Dé sử dụng MinMax Scaler trong Python, chúng ta có thể sử dụng từ thư viện
scikit-learn
¢ Label Encoding: Kỹ thuật Label Encoding là một trong những phương pháp
phổ biến trong xử lý dữ liệu dạng văn ban (categorical data), nơi mà các giá trị của biến là các nhãn (labels) Kỹ thuật này chuyển đổi các nhãn thành các
con số để thuận tiện cho việc phân tích bằng các thuật toán machine learning.Dưới đây là thông tin về kỹ thuật Label Encoding và cách sử dụng nó
Label Encoding hoạt động bằng cách gán một con số duy nhất cho mỗi nhãntrong biến Ví dụ, nếu một biến có các nhãn là "A", "B", và "C", thì LabelEncoding có thé gan các giá trị số 0, 1, và 2 cho các nhãn tương ứng Điều này
giúp cho các thuật toán machine learning như Decision Trees và SVMs có thé
dễ dàng xử lý các biến dạng văn bản.
3.1.2 Các bộ dw liệu khác
Để tăng tính linh hoạt, phù hợp với nhiều bộ dữ liệu khác nhau, nhóm đã cấu hình
mô hình sao cho có thể chạy được với UNSW-NB15 [12] và IøTID20 [13] dataset.
(a) UNSW-NB15 (University of New South Wales - Network-Based 15) là một
dataset được sử dung trong lĩnh vực phát hiện xâm nhập mang (Intrusion
De-tection System - IDS) Được phát triển bởi Đại học New South Wales,
Aus-tralia, UNSW-NB15 được thiết kế để cung cấp một tập dữ liệu da dạng va đầy
đủ về các hoạt động mạng, bao gồm cả hoạt động bình thường và các loại tấncông khác nhau Bộ dữ liệu được gắn nhãn với thông tin thực tế về các loại
tan công và có sẵn cho mục đích nghiên cứu Nó chứa cả bản ghi bình thường
và bất thường, với các bản ghi tấn công được phân loại thành chín họ, bao
gồm Fuzzers, Analysis, Backdoors, DoS, Exploits, Generic, Reconnaissance,
Shellcode va Worms UNSW_NB15 được đưa vào dé thêm tinh khách quan
khi xem xét các két qua của nghiên cứu.
(b) IoTID20 là dataset mới được tạo ra để phục vụ việc phát hiện hoạt động bat
thường trong mạng IoT Dataset này bao gồm 80 đặc điểm mang và ba đặc
điểm nhãn, bao gồm nhãn nhị phân, nhãn category và nhãn subcategory.
21
Trang 31CHƯƠNG 3 PHƯƠNG PHÁP THỰC HIỆN
IoT1D20 chứa các loại tấn công như DoS, Mirai, MITM, Scan va ARP ing Dataset này cung cấp cơ sở cho việc phát triển các kỹ thuật phát hiện xâm
Spoof-nhập mới trong mạng IơT và đã được trích xuất từ các tệp Pcap sẵn có Trong nghiên cứu [13] về đataset này, hai thiết bị thông minh phổ biến trong gia đình
thông minh được sử dụng gồm có SKT NUGU (NU 100) và EZVIZ Wi-FiCamera (C2C Mini O Plus 1080P) Tat cả các thiết bị, bao gồm một số máytính xách tay hoặc điện thoại thông minh, được kết nối vào cùng một mạng
không dây.
Bộ dif liệu bao gồm 42 tệp ghi lại gói tin mạng (pcap) ở các thời điểm khác
nhau:
* Các tệp gói tin được ghi lại bằng cách sử dụng chế độ giám sát của bộ
điều hợp mạng không dây Các tiêu đề không dây được loại bỏ bằng
Aircrack-ng.
* Tat cả các cuộc tấn công ngoại trừ loại Mirai Botnet là các gói tin được
ghi lai trong quá trình mô phỏng các cuộc tan công bằng các công cụ như
Nmap Trong trường hợp của loại Mirai Botnet, các gói tan công được
tạo ra trên một máy tính xách tay và sau đó được chỉnh sửa để làm cho nó
xuất phat từ thiết bị IoT.
Thông tin về số lượng mẫu tấn công trong các tập dữ liệu được đưa vào nghiên cứu
như sau:
3.2 ctGAN
Nhu đã dé cập ở mục trước đó, phương pháp ctGAN sử dụng một mô hình GAN cóđiều kiện để tạo ra dữ liệu từ các bảng dữ liệu CTGAN giải quyết các thách thứctrong việc mô hình hóa dữ liệu bảng có cột rời rạc và liên tục bằng cách sử dụng
một mô hình sinh có điều kiện Điều này giúp ctGAN tạo ra dữ liệu tổng hợp chất
lượng cao và vượt trội hơn so với các phương pháp mạng Bayesian trên các bộ dữ liệu thực.
22
Trang 32CHƯƠNG 3 PHƯƠNG PHÁP THỰC HIỆN
Bang 3.1 Số lượng chi tiết các dataset thử nghiệm
ToN_IoT IoTID20 UNSW_NB15
normal 34955 Normal 28919 Normal 37000 backdoor 14102 Scan 54195 Generic 18871
dos 14094 DoS 42584 Exploits 11132 password 14028 MITM 25510 Fuzzers 6062
ransomware 13993 | ARP Spoofing DoS 4089
ddos 13981 Mirai 25259 | Reconnaissance 3496 injection 13975 Analysis 677
XSS 13974 Backdoor 583 scanning 13907 Shellcode 378
mitm 721 Worms 44
147730 176467 82332
Quá trình trên là quá trình đưa dit liệu vào ctGAN để thực hiện huấn luyện Theo
đó, tham số CTGAN_LENGTH chính là số lượng mẫu (từng nhãn) tuỳ chọn đưa vào
training.
Sau khi quá trình training kết thúc, chúng ta có thể tạo ra thêm dữ liệu dé đưa tới
client/node bị thiếu dif liệu Công nghệ ctGAN sẽ được bật tự động tai 1 ngưỡng
chênh lệch dif liệu cố định, lượng dữ liệu mới được tạo ra sao cho dữ liệu các node
bằng nhau Dữ liệu sẽ liên tục được tạo ra và được chọn dựa trên nhãn với vòng lặp
Algorithm 2 Balancing Data with CTGAN
Input:
LABEL_LIST — L,
originalData + Do
function TRAININGGAN(L, D,)
for each label / in L do
Fetch ctGAN_length samples >D,
end for
ctGAN.train(Do) end function
ctGAN.sample(numberofnewdata)
23