Khóa luận tốt nghiệp An toàn thông tin: Phát triển hệ thống phát hiện xâm nhập mạng cho IoT sử dụng Học liên kết

EL và công nghệ Blockchain là những phương pháp đang dần được sử dụng phổ biến trong việc học dưới hình thức phân tán, vừa đảm bảo dữ liệu trao đối trong quá trình huấn luyện, vừa xác th

Trang 1

ĐẠI HỌC QUOC GIA THÀNH PHO HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN

KHOA MẠNG MAY TÍNH VÀ TRUYEN THONG

PHAM PHÚC ĐỨC - 20520162

NGUYEN NHẬT HIẾU TRUNG - 20520830

KHOÁ LUẬN TỐT NGHIỆP

PHÁT TRIEN HỆ THONG PHÁT HIỆN XÂM NHẬP MẠNG

CHO IOT SỬ DỤNG HỌC LIÊN KET

DEVELOPMENT OF NETWORK-BASED INTRUSION DETECTION

SYSTEM FOR IOT BY FEDERATED LEARNING

CU NHAN NGANH AN TOAN THONG TIN

GIANG VIEN HUGNG DAN

ThS Nguyễn Khánh Thuật

TP HỒ CHÍ MINH, 2024

Trang 2

LỜI CẢM ƠN

Để hoàn thành khóa luận này, chúng tôi xin gửi lời cảm ơn đến Quý Thầy côKhoa Mạng máy tính và Truyền thông, Trường Đại học Công nghệ Thông tin - Đạihọc Quốc gia TP.HCM đã tạo điều kiện thuận lợi cho chúng tôi trong quá trình học

tập, rèn luyện và tích lũy kiến thức, kỹ năng cần thiết để thực hiện khóa luận này.

Đặc biệt, chúng tôi xin bày tỏ lòng biết ơn sâu sắc đến Giảng viên hướng dẫnthầy Nguyễn Khánh Thuật, người đã tận tâm chỉ dẫn, theo dõi và đưa ra những lời

khuyên quý báu giúp chúng tôi vượt qua các khó khăn trong quá trình nghiên cứu và

hoàn thành đề tài một cách tốt nhất

Vì kiến thức còn hạn chế và thiêu kinh nghiệm thực tiễn nên nội dung khóa luận

của chúng tôi chắc chắn sẽ có những thiếu sót chúng tôi rất mong nhận được sự góp

ý và chỉ bảo thêm từ Quý Thầy cô.

Cuối cùng, chúng tôi xin kính chúc Quý Thầy Cô luôn mạnh khỏe và đạt đượcnhiều thành công trong sự nghiệp

Trân trọng.

Nhóm tác giả

li

Trang 3

TOM TAT

Internet of Things (IoT) là mạng lưới các thiết bị kết nối với nhau và trao đổi dữliệu Sự phát triển nhanh chóng của công nghệ IơT đã dẫn đến sự gia tăng đáng kể

về số lượng thiết bị kết nối, làm thay đổi các ngành công nghiệp và cuộc sống hàng

ngày Đồng thời, nó cũng kéo theo một phần không nhỏ về nguy cơ bị tấn công Điều này gây ảnh hưởng rất lớn cả về tài chính và rủi ro thất thoát dữ liệu nhạy cảm.

Bởi vậy, vai trò của một hệ thống phát hiện xâm nhập mạng trở nên quan trọng hơnbao giờ hết, đặc biệt hơn là các hệ thống có sử dụng thuật toán học máy (machinelearning) Tuy nhiên, điều đáng lo ngại đó chính là dữ liệu đưa vào mô hình họcmáy, hầu hết các mô hình cần rất nhiều dữ liệu để có thể mang lại độ chính xác cao

nhưng những dif liệu này trong nhiều trường hợp cần phải được đảm bảo về quyền riêng tư nếu như nó chứa các thông tin cá nhân của người dùng Đồng thời, chúng

ta cũng cần phải đảm bảo các thiết bị trong hệ thống là đáng tin cậy, nếu không sẽgiảm tính hiệu quả của mô hình hoặc hơn nữa là rủi ro thất thoát dữ liệu rất lớn

Học liên kết (Federated Learning - FL) là một phương pháp học máy phân tán

cho phép các mô hình được huấn luyện trên nhiều thiết bị hoặc máy chủ mà không

cần truyền dữ liệu thô về trung tâm Thay vì thu thập dữ liệu về một nơi, FL chỉ

truyền các bản cập nhật mô hình đã được tổng hợp cục bộ từ các thiết bị Blockchain

là một công nghệ số cái phân tán cho phép lưu trữ dữ liệu một cách an toàn và minh

bạch Mỗi khối trong chuỗi chứa một danh sách các giao dịch và được liên kết mật

mã với các khối trước đó, tạo thành một chuỗi không thể thay đổi

EL và công nghệ Blockchain là những phương pháp đang dần được sử dụng phổ biến

trong việc học dưới hình thức phân tán, vừa đảm bảo dữ liệu trao đối trong quá trình

huấn luyện, vừa xác thực các thành phần tham gia vào mô hình Thêm vào đó, các

dữ liệu học trên từng thiết bị cuối luôn có một mức độ chênh lệch nhất định, gây ảnhhưởng không nhỏ tới hiệu suất của mô hình Trong nghiên cứu này, chúng tôi déxuất sử dụng một loại công nghệ Generative Adversarial Networks (GAN) để làmgiàu dữ liệu hoc va sự kết hợp của Blockchain với Federated Learning (FL) để mang

lại tính riêng tư cho đữ liệu trong hệ thống.

1H

Trang 4

MỤC LỤC

Thông tin hội đồng bảo vệ khóa luận

Lời cảm ơn

Tóm tắt

Mục lục

Danh mục các bảng

Danh mục các hình vẽ va đồ thị

Danh mục từ viết tắt

Chương1 Mở dau

1.1

1.2

1.3

1.4

1.5

1.6

Các nghiên cứu liên quan

-Mục tiêu, đối tượng và phạm vi nghiên cứu

-1.3.1 Mục tiêunghiên cỨu

1.3.2 Đối tượng nghiêncứu

-143.3 Phạmvinghincứu

Phương pháp nghiên cứu

Các đóng góp chính của để

tài -Câu trúc Khoá luận tốt

nghiệp -Chương 2 Co sở lý thuyết 2.1 2.2 2.3 2.4 Hệ thống phát hiện xâm nhập

-Mô hình học máy

Mô hình học liên kết — Federated Learning

2.3.1 Tongquan Q Q Q Q Q Q So 2.3.2 Cách

thứchoạtđộng -2.3.3 So sánh học máy tập trung và học máy liên kết

Generative Adversarial Networks-GAN

1V

ii

iii

iv

vi

vii

ix

—

YD CC: an un fe HR W

œ

Trang 5

MỤC LỤC

2.5 Blockchain Ặ HQ Q HQ vo 14

Chương 3 Phương pháp thực hiện 16

3.1 Tậpdữ liệu Ặ HQ HQ Ha 19

3.12 Các bộ dữ lệu khác 21

“2.6 “ad 22 3.3 Mô hình học lênkết 24

3.3.1 FrameworK Q Q Q HQ Ha 24 3.3.2 Mô hình triểnkhai 24

3.4 Blockchan 2 eee ee ee ee 25 3.4.1 Hoc liên két va Blockchain 25

3.4.2 Generative Adversarial Networks và Blockchain 26

Chương 4 Thực nghiệm, đánh gia va thảo luận 28 4.1 Môi trường triểnkhai 28

4.1.1 So sánh giữa hình thức học tập trung và học liên kết 29

4.1.2 Mô hình kết hợp FL và Blockchan 30

4.1.3 Ứng dụng công nghệ Conditional Tabular Generative Adver-sarial Networks (ctGAN) 30

4.2 Kétquathucnghiém - 33

4.2.1 Kết quả phân loại tắn công - 34

4.2.2 Kết quả về mức độ sử dụng tài nguyên 39

4.2.3 Kết quả toàn diện về công nghệ Conditional Tabular Genera-tive Adversarial Networks (€(GAN) 43

Chương 5 Kết luận và hướng phát triển 52 51 Kếtluận Ặ Qua 52 52 Hạnchế Ặ Qua 52 5.3 Hướng pháttriển 53

Tài liệu tham khảo 55

Trang 6

DANH MỤC CÁC BANG

3.1 Số lượng chi tiết các datasetthửnghệm 23

4.1 Môi trường thử nghiệm học liên kết - 28

4.2 Môi trường thử nghiệm tập trung 28

4.3 Tham số cho Convolutional Neural Networks (CNN) 29

4.4 Tham số choc(GAN 0000 eee ee eee 29 4.5 Số lượng chi tiết các dataset thử nghiệm trên từng nit 2 31

4.6 Số lượng chi tiết các dataset thử nghiệm với tập dữ liệu ToN_IoT 32

4.7 Số lượng chỉ tiết các dataset thử nghiệm với tập dữ liệu IøTiD20 32

4.8 Số lượng chi tiết các dataset thử nghiệm với tập dữ liệu UNSW_NB15 33 4.9 Tổng hợp so sánh phân loại đa nhãn giữa Centralized va Federated Leaning @⁄⁄⁄⁄ øtP” `" »”.Àè 35

4.10 Tổng hợp so sánh giữa Centralized và Federated Learning 39

4.11 Kết quả thử nghiệm theo các kiểu chia dữ liệu 44

VI

Trang 7

2.1

3.1

3.2

3.3

3.4

4.1

4.2

4.3

4.4

4.5

4.6

4.7

4.8

4.9

DANH MUC CAC HINH VE VA DO THI

Thiết bi IoT trong ddiséng! 2 ee

Cơ chế của Federated

Learning? -Thiết kế hệthống

-Truyền tham số thông qua web API

Mô hình convlID[I5]

Sơ đồ hoạt động của công nghệ Conditional Tabular Generative Ad-versarial Networks (ctGAN) trong blockchan

Confusion Matrix khi thử nghiệm kiến trúc Centralized (a), FL (b), flwrBC(c) với tập dữ liệu ToN IløI

Confusion Matrix khi thử nghiệm kiến trúc Centralized (a), FL (b), flwrBC(c) với tập dữ liệu IlơliD20

Confusion Matrix khi thử nghiệm kiến trúc Centralized (a), FL (b), flwrBC(c) với tập dữ liệu UNSW_NBIS

So sánh tại nút máy chủ trong hai trường hợp sử dung FL (a) va flwrBC (b) - IoTiD20

So sánh tại nút máy chu trong hai trường hợp sử dung FL (a) va flwrBC (b)- IloN lốÏF

So sánh tại nút máy chủ trong hai trường hợp sử dung FL (a) va flwrBC (b)-UNSW_NBIS

Confusion Matrix giữa các tỉ lệ chia 50:50 (a), 80:20 (b), 95:5 (c) Confusion Matrix giữa các tỉ lệ chia50:50 (a), 80:20 (b), 95:5 (c) -IGHD2U ee ee Kha nang cai thién cua Conditional Tabular Generative Adversarial Networks (ctGAN) (b) với không sử dung Conditional Tabular Gen-erative Adversarial Networks (ctGAN) (a) - ToN_IoT

vii

Trang 8

DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ

4.10 Khả năng cải thiện của Conditional Tabular Generative Adversarial

Networks (ctGAN) (b) với khơng sử dung Conditional Tabular

Gen-erative Adversarial Networks (ctGAN) (a)-IoTiD20 47

4.11 So sánh mức độ tiêu thu tài nguyên trên nút may chu khi khơng (a) va

cĩ (b) sử dụng Conditional Tabular Generative Adversarial Networks

(c(GAN)-IòIID20 Ặ.ẶẶ.ẶẶ.Ặ 48

4.12 So sánh mức độ chiếm dụng tài nguyên trên máy khách 1 khi khơng

(a) và cĩ (b) sử dụng CTGAN ố Ặ ee 48

4.13 So sánh mức độ chiếm dụng tài nguyên trên máy khách 2 khi khơng

(a,c) và cĩ (b,d) sử dung CTGAN 49 4.14 So sánh mức độ tiêu thụ tài nguyên trên máy chủ khi khơng (a) và

cĩ (b) sử dụng Conditional Tabular Generative Adversarial Networks

(ctGAN) - IoN Ilơl- 49

4.15 So sánh mức độ chiêm dụng tài nguyên trên các máy khách khi khơng

(a) và cĩ (b) sử dung Conditional Tabular Generative Adversarial

Networks (ctGAN) - ToNĐ Iøl 50

VII

Trang 9

DANH MỤC TU VIET TAT

AI Artifial Intelligence

cGAN Conditional Generative Adversarial Networks

CNN Convolutional Neural Networks

ctGAN Conditional Tabular Generative Adversarial Networks

DDoS Distributed Denial of Service

DoS Denial of Service

FL Federated Learning

GAN _ Generative Adversarial Networks

HIDS Host Intrusion Detection Systems

IDS Intrusion Detection System

HoT Industrial Internet of Things

ToT Internet of Things

IPFS InterPlanetary File System

NIDS Network Based Intrusion Detection System

1X

Trang 10

Chương 1 MỞ ĐẦU

1.1 Lý do chọn dé tài

Trong thời đại ngày nay, van dé bảo mật thông tin ngày càng trở nên quan trọng hơn

do sự phổ cập và tích hợp mạng internet vào mọi lĩnh vực của cuộc sống Đặc biệt,

đó chính là sự hiện diện của các thiết bị IoT

OF THINGS

Hình 1.1 Thiết bi IoT trong đời sống!

Với sự gia tăng không ngừng của các cuộc tấn công mạng, các thiết bị lơT dangphải đối mặt với các phần mềm độc hai, tan công và các hoạt động xâm nhập nghiêmtrọng trong quá trình phát triển của chúng Theo báo cáo của SonicWall [1] về cácmối de doa an ninh mạng năm 2023, trong 6 tháng đầu năm 2023, số lượng các vutan công mã độc nhắm tới thiết bị IoT đã tăng lên 37% so với năm 2022, cụ thể là

77.9 triệu cuộc tan công (2023) và 57 triệu (2022) Trong đó, khu vực châu A và

Mỹ Latinh tăng ở mức rất cao, 170% và 164%

Đối mặt với những mối đe dọa ngày càng phức tạp, hệ thống Phát hiện xâm nhậpmang (Intrusion Detection System (IDS)) đang trở thành một phan quan trọng trongviệc giám sát và bao vệ mạng Tuy nhiên, do sự hạn chế về tài nguyên của các thiết

bị IoI, IDS nên được đặt tại vị trí cận biên hay loại IDS nên được sử dụng đó chính

là Network Based Intrusion Detection System (NIDS).

"http://ste.remann.com.vn/uploads/topic/2022/12/16/_i639befd6d7c66.jpg

Trang 11

CHƯƠNG I MỞ ĐẦU

Học liên kết (FL) là một mô hình máy học phân tán, cho phép mô hình được đào tạo trên dữ liệu phân tán mà không cần chia sẻ dữ liệu thật sự Điều này giúp giảm rủi ro liên quan đến quyền riêng tư và bảo mật dữ liệu, một vấn dé quan trọng khi

xử lý thông tin nhạy cảm trong lĩnh vực an ninh mang Như vậy, việc sử dụng NIDS

thông qua Federated Learning có thể mang lại hiệu suất cao mà vẫn bảo đảm tínhbảo mật và tuân thủ quy định về quyền riêng tư

Tuy nhiên, việc áp dụng FL cũng gặp một số thách thức cần phải giải quyết như sau:

¢ Dữ liệu mất cân bằng giữa các nút (imbalance data)

Trong Federated Learning, dữ liệu được phân tán trên nhiều thiết bị hoặc nút,

và mỗi nút có thể có số lượng dữ liệu khác nhau cũng như các loại dữ liệu khác

nhau Điều này có thể dẫn đến một số vấn đề:

các nút có nhiều dữ liệu hơn hoặc các loại dữ liệu nhất định, dẫn đến kết

quả không chính xác hoặc không công bằng

kể vào việc cải thiện mô hình, trong khi các nút với nhiều dữ liệu hơn có

thể bị quá tải.

s Xác thực các nút tham vào quá trình hoc

không bị giả mạo hoặc chứa các thông tin sai lệch.

rằng họ là các thiết bị tin cậy và không gây hại đến quá trình học tập

¢ Tính minh bạch của đữ liệu

năng kiểm tra và xác nhận quá trình học tập diễn ra đúng cách.

giả mạo trong quá trình học tập và giao tiếp giữa các nút.

2

Trang 12

CHƯƠNG | MỞ DAU

Nghiên cứu "PHÁT TRIEN HỆ THONG PHÁT HIỆN XÂM NHẬP MẠNG CHO IOT SỬ DUNG HỌC LIÊN KET" sẽ hướng đến giải quyết bài toán được đặt ra 6

trên.

1.2 Các nghiên cứu liên quan

Các công trình nghiên cứu về phát hiện xâm nhập mạng với Federated Learningđược dé cập trong [2-5] Các nghiên cứu bao gồm từ việc tối ưu kha năng phát hiện

đến phương thức bảo mật các đối tượng áp dụng trong mô hình hay chính là sự riêng

tu dif liệu tại các điểm/thiết bị cuối Đặc biệt, trong ngữ cảnh IoT, NIDS có thể bị

giảm hiệu quả bởi sự thay đổi của chính hệ thống [3] Đây là thách thức đặt ra khitriển khai NIDS trong hệ thống IoT bằng Federated Learning Về sự riêng tư của dữliệu tại các thiết bị, các phương pháp được tác giả của [2, 3] đề cập tới gồm có:

* Differential Privacy (DP): DP là một kỹ thuật bảo mật riêng tư phổ biến được

sử dụng rộng rãi trong ngành công nghiệp và học thuật Nó tập trung vào việc

bảo vệ quyền riêng tư thông qua việc thêm nhiễu vào các thuộc tính cá nhân

nhạy cảm, mà không làm thay đổi hành vi của toàn bộ mẫu dữ liệu.

* Homomorphic Encryption: bảo vệ quyên riêng tư của dữ liệu người dùng thông

qua việc trao đổi thông tin tham số dưới hình thức mã hóa trong quá trình

training Phương pháp nay cho phép tính toán trên dữ liệu đã được mã hóa.

¢ Secure Multiparty Computation: Phương pháp này cho phép các bên tham gia

tính toán trên dữ liệu mà không cần phải tiết lộ dữ liệu thật sự của họ cho bat

Trang 13

CHƯƠNG I MỞ ĐẦU

xác thực thực node — Blockchain trong bài báo [5] Theo đó, tác giả đưa ra việc sử dụng blockchain có các tác dụng như sau:

« Quản lý quyền truy cập dữ liệu: Blockchain có thể được sử dung để quản lý

quyên truy cập vào dữ liệu y tế (bệnh án), đảm bảo rằng chỉ những người được

ủy quyền mới có thể truy cập vào dữ liệu nhạy cảm

* Bảo mật quá trình giao tiếp và lưu trữ dữ liệu: mã hóa và bảo mật dif liệu trong

quá trình truyền tải và lưu trữ

Nghiên cứu [6] — flwrBC, nhóm tác giả phát triển một framework kết hợp giữa

federated learning và blockchain để giải quyết các thách thức về bảo mật dữ liệu

và tính minh bạch trong việc lưu trữ và xác minh dữ liệu Hai smart contract được

triển khai trong blockchain giả lập: Contribution Contract và Federation Contract Contribution Contract được sử dụng để lưu trữ, theo dõi và thưởng cho các hoạt

động huấn luyện cục bộ của client, trong khi Federation Contract chịu trách nhiệm

lưu trữ và thực hiện việc tổng hợp mô hình toàn cầu Framework này cung cấp mộtcách tiếp cận tiềm năng để áp dụng trong nhiều lĩnh vực khác nhau và giải quyết cácthách thức của việc bảo vệ dữ liệu và đáng tin cậy của kết quả trong máy học phântán Về vấn dé xử ly dataset, các nghiên cứu [4], [7], [8] đều dé cập tới GAN là một

phương thức xử lý dữ liệu tối ưu Cụ thể, nhóm tác giả của nghiên cứu [7] và [8] sử

dụng các dạng GAN khác nhau cho từng trường hợp:

* FedCSCD-GAN [7]: sự kết hợp giữa GAN và Federated Learning; đồng thời

dữ liệu được bảo mật bằng giải pháp f-DP để tăng cường quyền riêng tư

* ctGAN [8]: conditional GAN tạo ra dữ liệu học từ sự phân bố trong dataset

thay vi tạo ra một cách ngẫu nhiên kém hiệu quả với các trường hợp mat cân

bằng dif liệu (imbalanced datasets)

1.3 Mục tiêu, đối tượng và phạm vi nghiên cứu

1.3.1 Mục tiêu nghiên cứu

Nghiên cứu hướng đến việc xây dựng một hệ thống phát hiện xâm nhập mạng(NIDS) sử dung FL với độ chính xác cao bằng cách tích hợp giữa các mô hình

4

Trang 14

CHUONG 1 MỞ ĐẦU

học mang lại hiệu quả cao Nghiên cứu này cũng đặt ra và giải quyết bài toán mắtcân bằng dữ liệu giữa các node(s) trong hệ thống bằng cách tạo thêm các dữ liệu giả

với công nghệ GAN Đồng thời, công nghệ Blockchain sẽ giúp tăng cường tính bảo

mật va dam bao tính toàn vẹn của dif liệu và quy trình.

Mục tiêu cuối cùng là xây dựng một hệ thống có khả năng phát hiện một só loại tấncông mạng phổ biến và hệ thống đó có sự đảm bảo về độ tin cậy và riêng tư của dữ

liệu.

1.3.2 Đối tượng nghiên cứu

s° NIDS

* Hoc liên kết (Federated Learning)

¢ GAN - Generative Adversarial Network

¢ Blockchain

1.3.3 Pham vi nghiên cứu

Hệ thống phát hiện xâm nhập mạng cho IơT sử dung FL, hướng đến mô hình có độ

chính xác cao và độ trễ thấp Công nghệ GAN để giải quyết vấn dé xung quanh việc

mắt cân bằng dữ liệu thường gặp phải Dữ liệu đầu vào là các dataset UNSW-NB15,

ToN_IoT, IoTiD20; sau cùng là Blockchain để hỗ trợ cho FL.

1.4 Phuong pháp nghiên cứu

a Nội dung 1: Tìm hiểu và thử nghiệm các mô hình trên các nghiên cứu liên

quan

* Nghiên cứu các bài báo có sử dụng các công nghệ được đưa ra trong Đối

tượng nghiên cứu

« Thử nghiệm các mô hình; đánh giá, so sánh kết quả từ các nghiên cứu

trên (nếu có thể)

b Nội dung 2: Kết hợp, chỉnh sửa mô hình để cải thiện chỉ số; sử dụng GAN để

xử ly dataset và đưa ra đánh giá ban đầu

5

Trang 15

CHƯƠNG 1 MỞ ĐẦU

* Dựa trên đánh giá từ nội dung | để đưa ra thay đổi cho mô hình của nghiên

cứu hiện tại: chỉnh sửa hoặc thay thế

s« Đặt ra các kịch bản, liên tục thử nghiệm để đánh giá mức độ hiệu quả và

sự cần thiết của công nghệ GAN

c Nội dung 3: Kết hợp Federated Learning và Blockchain cho việc xác thực

node, bảo vệ dữ liệu

» Thay đổi kiến trúc mô hình, áp dụng công nghệ blockchain

d Nội dung 4: Thử nghiệm và đánh giá hệ thống

¢ Chon ra các kịch bản phù hợp với mục tiêu

« Tối ưu hoá hiệu suất mô hình với các tiêu chỉ đánh giá cụ thể, áp dụng các

thay đổi cần thiết

1.5 Các đóng góp chính của đề tài

Đề tài có sự kết hợp của các mô hình học máy khác nhau để đưa ra kết quả tốt nhất.

Nghiên cứu bao gồm việc xử lý các van đề liên quan tới dữ liệu Cụ thể gồm có mat

cân bằng giữa các mẫu mắt cân bằng giữa các node và tính riêng tư của đữ liệu.

¢ Đầu tiên, với van dé mất cân bằng giữa các mẫu tấn công, chúng tôi sử dụng

Penalize Algorithms (Cost-Sensitive Training): Nếu dataset có một số loại tấncông bị hạn chế về số lượng sẽ làm cho các dấu hiệu trở nên mờ nhạt và không

mang lại khả năng phát hiện, ngược lại các loại tan công được ghi lại quá nhiều làm cho các loại tấn công khác bị mờ nhạt đi Thuật toán này sử dụng siêu tham

số class_weight, siêu tham số này giúp mô hình có thể nhận biết được nên ưu

tiên dấu hiệu của những loại tấn công nào và ít quan tâm đến các dấu hiệu của

loại tân công nào.

* Vân đề thứ hai - mất cân bằng giữa các node(s), nghiên cứu áp dụng công nghệ

được đề xuất trong nghiên cứu [8] — Conditional Tabular Generative ial Networks (ctGAN) Khi dữ liệu giữa các node(s) quá chênh lệch dẫn đến sự

Adversar-giảm đi trong hiệu suất mô hình (thời gian thực thi thuật toán, chỉ số đánh giá),

6

Trang 16

CHUONG 1 MỞ ĐẦU

ctGAN sẽ được sử dung để tạo ra các dữ liệu giả trên node day đủ hơn và đưachúng qua node bị thiếu hụt Mục đích chính là thay vì việc gửi dữ liệu thật

để cân bằng cho việc huấn luyện, dữ liệuu giả sẽ được chuyển tới nút cần bổ

sung Từ đó, mô hình vừa đạt được hiệu quả tương đổi, vừa đảm bảo sự riêng

tư dữ liệu.

° Sau cùng, công nghệ blockchain được tích hợp vào vào FL để chúng hỗ trợ lẫn

nhau trong việc xác thực, training Qua đó, khoá luận tập trung vào khả năng phát hiện xâm nhập mạng và có khả năng xác thực node, bảo vệ dữ liệu.

1.6 Cấu trúc Khoá luận tốt nghiệp

Khóa luận với đề tài “PHAT TRIỂN HE THONG PHÁT HIỆN XÂM NHẬP MẠNG CHO IOT SỬ DỤNG HỌC LIÊN KẾT? được trình bày bao gồm 5 chương Nội dung

tóm tắt từng chương được trình bày như sau:

¢ Chương 1: Mở đầu.: Đặt vấn đề, đưa ra các công nghệ liên quan và vai trò

của chúng

¢ Chương 2: Cơ sở lý thuyết.: Giải thích các công nghệ được áp dụng và sự

liên quan tới đề tài

« Chương 3: Phương pháp thực hiện: Mô hình và cách thức triển khai

* Chương 4: Thực nghiệm, đánh giá va thảo luận: Đưa ra các kịch bản, đánh

giá mức độ hiệu quả của mô hình

* Chương 5: Kết luận và hướng phát triển: Kết luận các ưu/nhược điểm của

mô hình va dé xuất hướng phát triển của mô hình

Trang 17

Chương 2 CƠ SỞ LÝ THUYET

Chương này sẽ dé cập đến các kiến thức nền tang, cơ sở lý thuyết của dé tài gồmcó: Hệ thống phát hiện xâm nhập mạng (NIDS), mô hình học liên kết (FL), công

nghệ GAN và Blockchain.

2.1 Hệ thống phát hiện xâm nhập

Hệ thống phát hiện xâm nhập - IDS là phần mềm hoặc công cụ giúp bảo mật hệ thống và cảnh báo lỗi khi có các hành vi đáng ngờ xâm nhập vào hệ thống Mục

đích chính của IDS là ngăn ngừa và phát hiện những hành động phá hoại tính bảo

mật của hệ thống hoặc những hành vi như dò tìm, quét các cổng Phần mềm IDScũng có thể phân biệt được đâu là những cuộc tấn công nội bộ (từ chính nhân viên

trong tổ chức) hoặc từ bên ngoài (từ hacker).Trong một số trường hợp, IDS còn có

thể phan ứng lại với các traffic độc hại bằng cách chặn IP nguồn truy cập mạng Các

loại IDS hiện nay gồm có:

* NIDS (Network Intrusion Detection Systems): thường được bố trí tại những

điểm dễ bị tan công trong hệ thống mạng NIDS được sử dụng để giám sát lưu

lượng mạng đến (inbound) và di (outbound) từ tất cả các thiết bị trên mạng Điểm cộng lớn nhất của NIDS là có thể quét tất cả traffic inbound và outbound,

nhưng việc này có thể làm giảm tốc độ chung của mạng.

¢ Host Intrusion Detection Systems (HIDS) (Host Intrusion Detection Systems):

hệ thống phát hiện xâm nhập này hoạt động trên tất cả các thiết bị trong hệthống có thể kết nối Internet HIDS chỉ giám sát các gói dữ liệu inbound vaoutbound từ thiết bị hoặc những hành động đáng ngờ tại cấp truy cập nội bộ

* Signature-Based IDS: Đây là các IDS hoạt động dựa trên dấu hiệu đã hoc

được, giám sát các gói tin trên mạng tương tự như cách phần mềm diệt virushoạt động Tuy nhiên Signature-Based có thể không phát hiện được những mối

đe dọa mới, khi dấu hiệu để nhận biết nó chưa được IDS cập nhật

* Anomaly-Based IDS: IDS nay được sử dung để phát hiện mối đe dọa dựa trên

sự bất thường Anomaly-Based sẽ giám sát traffic mạng và so sánh với đường

8

Trang 18

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT

cơ sở (baseline) đã được thiết lập từ trước Baseline sẽ xác định đâu là mức

bình thường của mạng và cảnh báo cho quản trị viên mạng hoặc người dùng

khi phát hiện traffic truy cập bất thường hoặc khác biệt so với baseline.

Nhu đã đề cập đến trước đó, do sự hạn chế về tài nguyên trong hệ thống IơT, IDS

nên được đặt tại vùng cận biên và loại phù hợp nhất được áp dụng trong ngữ cảnh

này đó là NIDS.

2.2_ Mô hình học máy

Hoc máy hay máy hoc (Machine Learning) là một loại trí tuệ nhân tạo (Artifial

Intelligence (AI)) cho phép các ứng dụng phần mềm trở nên chính xác hơn trong

việc dự đoán kết quả mà không cần được lập trình rõ ràng để làm như vậy Các thuậttoán học máy sử dụng dữ liệu lịch sử làm đầu vào để dự đoán các giá trị đầu ra mới.Một số ứng dụng phổ biến của học máy bao gồm hệ thống đề xuất (recommendsystem), hệ thống phát hiện bất thường (anomaly detection), phát hiện xâm nhập

(ids), phan mềm độc hai (malwares), lọc thư rác (spam email) Hoc máy cổ điển thường được phân loại theo cách một thuật toán học để trở nên chính xác hơn trong các dự đoán của nó Có bốn cách tiếp cận cơ bản: học có giám sát, học không giám

sát, học bán giám sát và học tăng cường Loại thuật toán mà các nhà khoa học sử

dụng tùy thuộc vào loại đữ liệu họ muốn dự đoán.

¢ Hoc có giám sát (Supervised Machine Learning): Trong loại học máy này, các

nhà nghiên cứu cung cấp các thuật toán với dữ liệu huấn luyện được gắn nhãn

và xác định các biến mà họ muốn thuật toán đánh giá để tìm mối tương quan

Cả đầu vào và đầu ra của thuật toán đều được chỉ định

¢ Học không giám sát (Unsupervised Machine Learning): Loại học máy này 11

liên quan đến các thuật toán đào tạo trên dữ liệu không được gắn nhãn Thuật

toán quét qua các tập dữ liệu để tìm kiếm bất kỳ kết nối có ý nghĩa nào Dữ

liệu mà các thuật toán đào tạo cũng như các dự đoán hoặc khuyến nghị màchúng xuất ra được xác định trước

* Học bán giám sát (Semi-Supervised Learning): Cách tiếp cận này đối với học

máy liên quan đến sự kết hợp của hai loại trước đó Các nhà khoa học dữ

9

Trang 19

liệu có thể cung cấp một thuật toán chủ yếu là đữ liệu đào tạo được gắn nhãn,

nhưng mô hình có thể tự do khám phá dữ liệu và phát triển sự hiểu biết của riêng mình về tập dữ liệu.

¢ Học tăng cường (Reinforcement Learning): những người nghiên cứu thường

sử dụng học tăng cường để dạy máy hoàn thành một quy trình gồm nhiều bướctrong đó có các quy tắc được xác định rõ ràng Các nhà khoa học lập 6 trìnhmột thuật toán để hoàn thành một nhiệm vụ và cung cấp cho nó những dấu hiệu

tích cực hoặc tiêu cực khi nó tìm ra cách hoàn thành một nhiệm vụ Nhưng

phần lớn, thuật toán tự quyết định những bước cần thực hiện trong quá trình

thực hiện.

2.3 Mô hình học liên kết - Federated Learning

2.3.1 Tổng quan

Federated Learning (thường được gọi là học liên kết) là một phương pháp phi tập

trung để đào tạo các mô hình học máy Nó không yêu cầu trao đối dữ liệu từ các thiết bị client đến các máy chủ toàn cầu Thay vào đó, dữ liệu nguyên gốc trên các

thiết bị biên được sử dung để đào tạo mô hình cục bộ, từ đó nâng cao quyền riêng tư

dữ liệu Cuối cùng, mô hình được hình thành bằng cách tổng hợp các bản cập nhật

cục bộ Federated Learning quan trọng bởi những lý do sau đây:

* Quyên riêng tư: Khác với các phương pháp truyền thống, trong đó dữ liệu được

gửi đến máy chủ tập trung để đào tạo, Federated Learning cho phép đào tạo

cục bộ trên thiết bị biên, ngăn chặn lỗ hổng dữ liệu tiềm năng

e An toàn, bao mật dữ liệu: Chỉ các ban cập nhật mô hình được mã hóa được

chia sẻ với máy chủ tập trung, đảm bảo bảo mật dữ liệu Ngoài ra, các kỹ thuật

tổng hợp an toàn như Secure Aggregation Principle cho phép giải mã chỉ kết

quả được tổng hợp.

s Truy cập vào dữ liệu không đồng nhất: Federated Learning đảm bảo truy cập

vào dữ liệu được phân tán trên nhiều thiết bi, địa điểm và tổ chức Nó cho phép

đào tạo các mô hình trên dữ liệu nhạy cảm, chẳng hạn như dữ liệu tài chính

10

Trang 20

hoặc chăm sóc sức khỏe trong khi vẫn duy trì bảo mật và quyển riêng tư Và

nhờ sự đa dạng dữ liệu lớn hơn, các mô hình có thể mang tính tổng quát hơn.

Step 2 : Updating local models and generating ==> ° ee @

new learnings using private data e738=> .«.

Step 1: Server sharing initial Learning(L1) —

Hình 2.1 Cơ chế của Federated Learning!

Một mô hình cơ bản được lưu trữ trên máy chủ tập trung Các bản sao của mô

hình này được chia sẻ với các thiết bị client, sau đó các thiết bị này sẽ đào tạo các

mô hình dựa trên dữ liệu cục bộ mà chúng tạo ra Theo thời gian, các mô hình trên

các thiết bị riêng lẻ trở nên cá nhân hóa và cung cấp trải nghiệm người dùng tốt hơn.

Ở giai đoạn tiếp theo, các bản cập nhật (tham số mô hình) từ các mô hình được đào

tạo cục bộ được chia sẻ với mô hình chính nằm ở máy chủ tập trung bằng cách sử

dụng các kỹ thuật tổng hợp an toàn (secure aggregation techniques) Mô hình này

kết hợp và trung bình hóa các đầu vào khác nhau để tạo ra các bài học mới Vì dữliệu được thu thập từ các nguồn đa dạng, nên có phạm vi lớn hơn và mô hình trở nên

tổng quát hơn.

Khi mô hình trung tâm đã được đào tạo lại trên các tham số mới, nó lại được chia

sẻ với các thiết bị client cho lần lặp tiếp theo Với mỗi chu kỳ, các mô hình thu thập

"https://towardsdatascience.com/how-federated-learning-is-going-to-revolutionize-ai-6e0ab580420f

11

Trang 21

một lượng thông tin đa dạng và tiếp tục cải thiện mà không tạo ra các lỗ hổng về

quyền riêng tư.

2.3.3 So sánh học máy tập trung và học máy liên kết

Trong Centralized Learning, mô hình học máy được huấn luyện trên một máy chủ

tập trung sử dụng toàn bộ dữ liệu đào tạo Dữ liệu đào tạo được gửi từ các thiết bịclient đến máy chủ để huấn luyện mô hình Mô hình được cập nhật trên máy chủ

dựa trên toàn bộ dữ liệu đào tạo, và sau đó được triển khai để dự đoán trên dữ liệu mới Ngược lai, học liên kết không sử dụng toàn bộ dữ liệu, quá trình huấn luyện

mô hình được diễn ra trên từng client độc lập và giữ liệu trao đổi giữa chúng là các

tham số liên quan đến dữ liệu đào tạo, không phải dữ liệu gốc Các tham số đó sẽ

được máy chủ tổng hợp và cập nhật mô hình toàn cục.

Kết quả thực nghiệm của nghiên cứu [9] đã chỉ ra rằng: Độ chính xác (accuracy) tốtnhất của hình thức học tập trung là 99% và học liên kết là 76% Theo đó, học liên

kết không thể mang lại độ chính xác tương đương hay cao hơn hình thức học tập

trung, đây là điều đã được dự đoán từ trước bắt kể với sự thay đổi về dataset và tham

số truyền vào hoặc kể cả là số nút client Tuy nhiên, so với sự đảm bảo quyền riêng

tư của dữ liệu, kết quả của mô hình học liên kết cũng là một kết quả khá tốt

2.4 Generative Adversarial Networks - GAN

Generative Adversarial Networks (GANs) là một kiến trúc mang nơ-ron đặc biệt

trong lĩnh vực học sâu (deep learning), được giới thiệu bởi lan Goodfellow và các

đồng nghiệp vào năm 2014 Kiến trúc này bao gồm hai mạng nơ-ron cạnh tranh với nhau trong quá trình huấn luyện: một mạng được gọi là "generative network" (mạng

sinh), và một mạng được gọi là "discriminative network" (mang phân biệt).

¢ Generative Network (Mạng Sinh): Mang này có nhiệm vụ học cách tạo ra dữ

liệu mới từ một không gian tiềm ẩn (latent space), thường là một không gianngẫu nhiên Mang sinh cô gắng tạo ra dữ liệu giả mạo một cách có thể nhìn

thấy được và logic từ không gian tiềm ẩn này.

* Discriminative Network (Mang Phân Biệt): Mang này được huấn luyện dé

12

Trang 22

phân biệt giữa dit liệu thực và dữ liệu được tạo ra bởi mạng sinh Nó cô gắng

học cách phân biệt giữa dữ liệu thật và dữ liệu giả mạo một cách chính xác

nhất có thể.

Trong quá trình huấn luyện, mạng sinh cố gắng cải thiện khả năng tạo ra dữ liệu giả

mao sao cho mạng phân biệt không thể phân biệt được dữ liệu giả mạo với dữ liệu

thực Mặt khác, mạng phân biệt cố gắng cải thiện khả năng phân biệt giữa dữ liệu

thật và dữ liệu giả mạo.

Khi huấn luyện kết thúc, mạng sinh có thể được sử dụng để tạo ra dữ liệu mới có

cùng phân phối với dữ liệu huấn luyện GANs đã đạt được sự chú ý lớn vì khả năng của chúng trong việc tạo ra hình ảnh, âm nhạc, văn bản, và nhiều loại dữ liệu khác một cách tự nhiên và sống động.

Theo đó, một mô hình GAN với cách thức hoạt động tương tự - Conditional

Genera-tive Adversarial Networks (CGAN) có thể quyết định sinh ra dữ liệu giả tai categorynào, giúp chúng ta tuỳ ý kiểm soát dữ liệu đầu ra Dé áp dụng cho bộ dif liệu của

nghiên cứu này, chúng ta sẽ triển khai Conditional Tabular GAN (ctGAN) vì dữ liệu

của chúng ta được biểu diễn dưới dạng bảng Tóm tắt về cách hoạt động của nó như

sau:

* Normalization Theo Chế Độ (Mode-Specific Normalization): CTGAN sử

dụng phương pháp này để vượt qua phân phối đa phân phối và không Gaussian

bằng cách chuẩn hóa theo chế độ

* Mô Hình Sinh Có Điều Kiện và Huấn Luyện Bằng Cách Lấy Mẫu

(Con-ditional Generator and Training-by-Sampling): Để xử lý các cột rời rac không cân đối, CTGAN sử dụng một mô hình sinh có điều kiện và phương

pháp huấn luyện bằng cách lấy mẫu

» Mạng Liên Kết Đầy Đủ (Fully-Connected Networks) và Các Kỹ Thuật

Gần Đây Khác: ctGAN sử dụng mạng liên kết đầy đủ và một số kỹ thuật mới

nhất để huấn luyện một mô hình chất lượng cao

13

Trang 23

CHƯƠNG 2 CƠ SỞ LÝ THUYET

2.5 Blockchain

Blockchain là một công nghệ lưu trữ và truyền tải thông tin một cách an toàn, côngbằng và không thể thay đổi Nó thường được mô tả là một hệ thống cơ sở dữ liệu

phân tán, có khả năng ghi lại các giao dịch hoặc các bản ghi dữ liệu theo thời gian và

không thể bị thay đổi sau khi đã được xác nhận Blockchain không có một tổ chức hoặc cá nhân duy nhất nào kiểm soát, mà thay vào đó được duy trì bởi một mang

lưới các máy tính phân tán, mỗi máy tính trong mạng được gọi là một nút (node).

Một số đặc điểm quan trọng của blockchain bao gồm:

s Phân tán va Phi Tập Trung: Dữ liệu được lưu trữ trên một mạng lưới các nút

độc lập, không cần có một tổ chức hoặc người điều khiển duy nhất.

° Không Thể Thay Đổi: Mỗi khối dữ liệu trong chuỗi (blockchain) được liên kết

với khối trước đó thông qua một quá trình gọi là mã hóa băm (hashing), tạo ramột chuỗi các khối không thể thay đổi

¢ An Toàn và Bảo Mật: Dữ liệu trên blockchain được bảo vệ bằng mã hóa và

phương thức xác thực, giúp ngăn chặn sự can thiệp không mong muốn

* Tính Trong Suốt: Tất cả các giao dịch được lưu trữ công khai trên blockchain

và có thể được kiểm tra bởi bất kỳ ai

¢ Tính Tính Toán: Blockchain có thể được sử dung để thực hiện các giao dịch

không cần sự trung gian, giảm chi phí và thời gian giao dịch

Hai thành phần quan trọng khi ứng dụng từ nghiên cứu kết hợp giữa học liên kết với

blockchain flwrBC [6] là InterPlanetary File System (IPFS) và Smart Contract:

« IPFS[6]: IPFS là một hệ thống lưu trữ tệp phân tán va không cần máy chủ

trung tâm Nó sử dụng định danh nội dung để lưu trữ và truy xuất dif liệu, thay

vì sử dụng địa chỉ vật lý như truyền thống IPES cung cấp khả năng lưu trữ dữ

liệu một cách phân tán trên một mạng lưới ngang hàng, giúp tăng cường tính

bảo mật và khả năng truy xuất dữ liệu từ bất kỳ nơi nào trên thế giới Trong

khoá luận này, IPFS được sử dụng để lưu trữ dữ liệu và tạo các bản ghi hash

trên Blockchain để đảm bảo tính toàn vẹn và minh bạch của dữ liệu Nếu nội

14

Trang 24

dung của tài liệu hoặc sách điện tử không bị thay đổi, hash của IPES vẫn giữ

nguyên Ngược lại, nếu có sự thay đổi trong nội dung, hash sẽ thay đổi, chothấy rằng nội dung gốc đã bị sửa đổi

¢ Smart Contracts[10] là các hợp đồng tự thực thi được lập trình để thực hiện

các giao dịch mà không cần sự can thiệp của bên thứ ba Trong bài viết, SmartContracts được nhắc đến như một công cụ mạnh mẽ để thực thi các hợp đồng

mà không cần phải tin tưởng vào một bên trung gian Mặc dù Smart Contractsmang lại tính minh bạch và tự động hóa trong quá trình thực thi hợp đồng,nhưng cũng có thé gây ra vấn đề về quyền riêng tư khi tất cả các giao dịchliên quan đến Smart Contracts đều được hiển thị cho tất cả các nút trong mạnglưới Blockchain Bài báo [10] sử dụng hợp đồng thông minh trên blockchain

Ethereum để lưu trữ các hash của IPES Các hash này được sử dụng để đảm bảo tính toàn vẹn, nguyên bản và xác thực của nội dung Mỗi khi có thay đổi trong nội dung của tài liệu, hash của IPES sẽ thay đổi, và hash mới này sẽ

không khớp với hash lưu trữ trong hợp đồng thông minh, cho phép người dùng

theo dõi và xác minh tính chính xác và lịch sử của các tài liệu được lưu trữ.

Kết hợp hai thành phần này, chúng ta có thể đảm bảo tính xác thực và nguyên bảncủa dữ liệu Nội dung số được lưu trữ trên IPFS và các hash của nội dung này đượclưu trong hợp đồng thông minh trên blockchain để cung cấp khả năng theo dõi vàxác thực Hệ thống này cho phép người dùng kiểm tra lịch sử của tài liệu và đảm bảorằng tài liệu mà họ truy cập là bản gốc không bị chỉnh sửa Blockchain đã trở thànhnền tảng cho nhiều ứng dụng và dịch vụ, từ tiền điện tử như Bitcoin và Ethereumđến các ứng dụng trong lĩnh vực tài chính, y tế, chuỗi cung ứng, bầu cử và nhiều

lĩnh vực khác Đặc biệt, blockchain đã thu hút sự chú ý vì khả năng tạo ra tính minh

bạch, an toàn và công bằng trong quá trình giao dịch và lưu trữ dữ liệu Chính vì

vậy, công nghệ blockchain áp dụng vào mô hình FL để cài thiện tính an toàn, bảo

mật va quản lý quyển riêng tư của dif liệu được sử dung trong quá trình huấn luyện

mô hình trên các thiết bị phân tán.

15

Trang 25

Chương 3 PHƯƠNG PHÁP THỰC HIỆN

Chương này tập trung vào việc triển khai các công nghệ đã được dé cập trong

nghiên cứu Chúng tôi sẽ trình bày các phương pháp cụ thể để thực hiện các mô

hình, giao thức hoặc hệ thống trong một ngữ cảnh thích hợp Đồng thời, chương này

cũng sẽ dé xuất các phương pháp để giải quyết các vấn dé cụ thể được đặt ra, dựa trên điều kiện và yêu cầu của dự án.

Mô hình triển khai hoàn chỉnh của nghiên cứu:

(7b) Lưu mô hình chung

ột số mô tả về cách thức hoạt động của mô hình tổng thể như sau:

Bắt đầu một phiên, (1) máy chủ tổng hợp gửi một API và sau đó (2) kích hoạt

một sự kiện trên blockchain để thông báo cho các client trong blockchain.

Sau khi nhận được thông báo, các client (3) kích hoạt chương trình client và

(4) thực hiện quá trình tiền xử lý tập dữ liệu.

Tại bước (4), bao gồm (4a) — gửi các thông tin về dữ liệu (metadata), (4b)

— gửi/nhận dữ liệu với client có ít/nhiều dữ liệu hơn (mức độ chênh lệch tuỳ

chỉnh) và (4c) — nếu (4b) là quá trình nhận dữ liệu, gom dữ liệu nhận được vào

local dataset.

(6) Tại thời điểm này, có hai trường hợp: nếu máy chủ đã có các tham số từphiên trước, nó sẽ phân phối chúng cho tất cả các client Nếu máy chủ không

có các tham số mô hình từ phiên trước, nó sẽ yêu cầu các tham số này từ một

client ngẫu nhiên và phân phối chúng cho các client còn lại.

16

Trang 26

CHƯƠNG 3 PHƯƠNG PHÁP THỰC HIỆN

* Trong mỗi phiên học liên kết, (7) máy chủ lưu trữ kết quả tổng hợp tham số

toàn bộ mô hình và hash tương ứng trên hệ thống lưu trữ phân tán IPES, và (8)

thông tin thuật toán được lưu trữ trên blockchain để tạo điều kiện cho việc truy xuất tiếp theo.

* (7) Sau khi training, client lưu thông tin tham số local mới vào cơ sở dữ liệu

cục bộ (local database) và sau đó gửi các tham số, hash liên quan và thôngtin liên quan đến blockchain thông qua Contribution Contract hợp đồng thông

minh.

* (9) Sau khi phiên học liên kết hoàn tất, mỗi client tham gia sẽ được trả một

lượng token tương ứng với đóng góp dữ liệu của họ trong phiên đó.

* (10a) Dé sử dụng kết quả của FL, các client lưu tham số của mô hình toàn cục

cuối cùng vào cơ sở dit liệu cục bộ của chúng để dự đoán vào cuối mỗi session.

(10b) Nếu một thiết bị mới muốn sử dụng mô hình toàn cầu để dự đoán nhưngchưa tham gia vào quá trình training, nó có thể lấy mô hình từ IPFS để dự

đoán.

17

Trang 27

Algorithm 1 Các bước hoạt động của FL - flwrBC

end procedure

procedure STEP 2: BALANCING DATA(

)

Clients side: All client N; € N send n; per label

Server side: Running ctGAN conditionally Balancing Algorithm: Algorithm 3

end procedure

procedure STEP 3: LOCAL TRAINING(

)

Clients N; € N execcute:

Training local models with initialized parameters

Send weights to Server

end procedure

procedure STEP 4: AGGREGATED MODEL(

)

Server side:

Using FedAvg to aggregate model with local models from N

Send global weights N for next round end procedure

procedure STEP 5: REPEAT(

)

if data remains and number of rounds not reached then

Go back to Step 3: Local Training

Trang 28

3.1 Tập dữ liệu

3.1.1 7 ToN_IoT

Datasets ToN_IoT [1 1] là bộ dif liệu thế hệ mới của dữ liệu IoT và Industrial Internet

of Things (IIơT) được sử dụng để đánh giá tính chính xác và hiệu suất của các ứng

dụng an ninh mang dựa trên AI Các bộ dữ liệu này được gọi là ’ToN_IoT” vì chúng

bao gồm các nguồn dữ liệu đa dạng được thu thập từ các bộ dữ liệu Telemetry củacác cảm biến IơT và IIơT, các bộ dữ liệu hệ điều hành của Windows 7 va 10 cũng

như Ubuntu 14 va 18 TLS và các bộ dữ liệu lưu lượng mang Các bộ dữ liệu được

thu thập từ một mạng lưới thực tế và có quy mô lớn được thiết kế tại IơT Lab của

UNSW Canberra Cyber, Khoa Kỹ thuật va Công nghệ Thông tin (SEIT), UNSW Canberra @ Australian Defence Force Academy (ADFA) Các bộ dữ liệu được thu

thập theo một quy trình xử lý song song để thu thập nhiều sự kiện bình thường vàtấn công mang từ các mạng IoT Một hệ thống thử nghiệm mới đã được phát triển

tại phòng thí nghiệm IơT để kết nối nhiều máy ảo, hệ thống vật lý, nền tang hacking, đám mây và sương mù, cảm biến IoT và IloT để mô phỏng sự phức tạp và khả năng

mở rộng của các mạng IøT công nghiệp và Công nghiệp 4.0.

Trong đó, bộ dữ liệu mạng (Network datasets) bao gồm các loại như tấn công từ chốidịch vụ (Denial of Service (DoS)), tấn công từ chối dịch vụ phân tán (DistributedDenial of Service (DDoS)) và ransomware được lay từ việc triển khai đối với cácứng dung web, cổng IơT và hệ thống máy tính trên mạng IIơT Các bộ dif liệu mang

được thu thập với định dạng trong các gói tin (pcap), tệp log và tệp CSV của công

cụ Bro (hiện tại là công cụ Zeek) Ngoài ra, một số công cụ khác được sử dụng gồm

có: Security Onion, Kali linux, Wireshark.

Dữ liệu Training va Testing gồm có 46 features và 211,043 mau các loại tan công

DDoS, DoS, Injection, Password, Mitm, Xss, Backdoor, Ransomware, Scanning va

các mẫu lưu lượng mạng bình thường (Normal) Tương ứng với mỗi van dé hay ngữ

cảnh đặt ra, tệp training sẽ được chia thành nhiều phần khác nhau.

Khoá luận sử dụng kỹ thuật MinMax Scaler và Label Encoding để chuẩn hoá dữ liệu

từ các tập đầu vào Một số đặc điểm của chúng như sau:

19

Trang 29

¢ MinMax Scaler là một kỹ thuật chuẩn hóa (scaling) được sử dụng để chuyển

đổi các đặc trưng của dataset về một phạm vi giá trị nhất định, thường là từ 0

đến 1 Kỹ thuật này làm cho tất cả các đặc trưng có cùng phạm vi giá trị, giúp

các thuật toán machine learning hoạt động hiệu quả hơn và dễ dàng hội tụ hơn

trong quá trình huấn luyện

về một phạm vi nhất định, thường là từ 0 đến 1 Công thức chuyển đổi

cho mỗi giá tri x của đặc trưng là:

fot min(X )

~ max(X) — min(X)

Trong do:

+ x là giá trị gốc.

+ z là giá trị được chuẩn hóa.

+ min(X) là giá trị nhỏ nhất của đặc trưng trong dataset.

+ max(X) là giá trị lớn nhất của đặc trưng trong dataset.

đầu, chỉ thay đổi phạm vi giá trị Điều này có nghĩa là nếu dữ liệu ban đầu có phân phối bị lệch (skewed distribution) hoặc outliers, các thuộc

tính này vẫn được giữ nguyên sau khi chuẩn hóa.

cầu dit liệu có phạm vi giá trị giống nhau như K-Nearest Neighbors

(KNN) va Neural Networks Nó cũng hữu ích trong các trường hợp mà

các đặc trưng có đơn vị đo lường khác nhau và cần phải được đưa về cùng

một phạm vi giá tri.

phạm vi cụ thể (thường là từ 0 đến 1) Nếu dữ liệu có outliers mạnh, các

giá trị nhỏ hơn 0 hoặc lớn hơn 1 sẽ không được biểu diễn chính xác sau

khi chuẩn hóa.

20

Trang 30

Dé sử dụng MinMax Scaler trong Python, chúng ta có thể sử dụng từ thư viện

scikit-learn

¢ Label Encoding: Kỹ thuật Label Encoding là một trong những phương pháp

phổ biến trong xử lý dữ liệu dạng văn ban (categorical data), nơi mà các giá trị của biến là các nhãn (labels) Kỹ thuật này chuyển đổi các nhãn thành các

con số để thuận tiện cho việc phân tích bằng các thuật toán machine learning.Dưới đây là thông tin về kỹ thuật Label Encoding và cách sử dụng nó

Label Encoding hoạt động bằng cách gán một con số duy nhất cho mỗi nhãntrong biến Ví dụ, nếu một biến có các nhãn là "A", "B", và "C", thì LabelEncoding có thé gan các giá trị số 0, 1, và 2 cho các nhãn tương ứng Điều này

giúp cho các thuật toán machine learning như Decision Trees và SVMs có thé

dễ dàng xử lý các biến dạng văn bản.

3.1.2 Các bộ dw liệu khác

Để tăng tính linh hoạt, phù hợp với nhiều bộ dữ liệu khác nhau, nhóm đã cấu hình

mô hình sao cho có thể chạy được với UNSW-NB15 [12] và IøTID20 [13] dataset.

(a) UNSW-NB15 (University of New South Wales - Network-Based 15) là một

dataset được sử dung trong lĩnh vực phát hiện xâm nhập mang (Intrusion

De-tection System - IDS) Được phát triển bởi Đại học New South Wales,

Aus-tralia, UNSW-NB15 được thiết kế để cung cấp một tập dữ liệu da dạng va đầy

đủ về các hoạt động mạng, bao gồm cả hoạt động bình thường và các loại tấncông khác nhau Bộ dữ liệu được gắn nhãn với thông tin thực tế về các loại

tan công và có sẵn cho mục đích nghiên cứu Nó chứa cả bản ghi bình thường

và bất thường, với các bản ghi tấn công được phân loại thành chín họ, bao

gồm Fuzzers, Analysis, Backdoors, DoS, Exploits, Generic, Reconnaissance,

Shellcode va Worms UNSW_NB15 được đưa vào dé thêm tinh khách quan

khi xem xét các két qua của nghiên cứu.

(b) IoTID20 là dataset mới được tạo ra để phục vụ việc phát hiện hoạt động bat

thường trong mạng IoT Dataset này bao gồm 80 đặc điểm mang và ba đặc

điểm nhãn, bao gồm nhãn nhị phân, nhãn category và nhãn subcategory.

21

Trang 31

IoT1D20 chứa các loại tấn công như DoS, Mirai, MITM, Scan va ARP ing Dataset này cung cấp cơ sở cho việc phát triển các kỹ thuật phát hiện xâm

Spoof-nhập mới trong mạng IơT và đã được trích xuất từ các tệp Pcap sẵn có Trong nghiên cứu [13] về đataset này, hai thiết bị thông minh phổ biến trong gia đình

thông minh được sử dụng gồm có SKT NUGU (NU 100) và EZVIZ Wi-FiCamera (C2C Mini O Plus 1080P) Tat cả các thiết bị, bao gồm một số máytính xách tay hoặc điện thoại thông minh, được kết nối vào cùng một mạng

không dây.

Bộ dif liệu bao gồm 42 tệp ghi lại gói tin mạng (pcap) ở các thời điểm khác

nhau:

* Các tệp gói tin được ghi lại bằng cách sử dụng chế độ giám sát của bộ

điều hợp mạng không dây Các tiêu đề không dây được loại bỏ bằng

Aircrack-ng.

* Tat cả các cuộc tấn công ngoại trừ loại Mirai Botnet là các gói tin được

ghi lai trong quá trình mô phỏng các cuộc tan công bằng các công cụ như

Nmap Trong trường hợp của loại Mirai Botnet, các gói tan công được

tạo ra trên một máy tính xách tay và sau đó được chỉnh sửa để làm cho nó

xuất phat từ thiết bị IoT.

Thông tin về số lượng mẫu tấn công trong các tập dữ liệu được đưa vào nghiên cứu

như sau:

3.2 ctGAN

Nhu đã dé cập ở mục trước đó, phương pháp ctGAN sử dụng một mô hình GAN cóđiều kiện để tạo ra dữ liệu từ các bảng dữ liệu CTGAN giải quyết các thách thứctrong việc mô hình hóa dữ liệu bảng có cột rời rạc và liên tục bằng cách sử dụng

một mô hình sinh có điều kiện Điều này giúp ctGAN tạo ra dữ liệu tổng hợp chất

lượng cao và vượt trội hơn so với các phương pháp mạng Bayesian trên các bộ dữ liệu thực.

22

Trang 32

Bang 3.1 Số lượng chi tiết các dataset thử nghiệm

ToN_IoT IoTID20 UNSW_NB15

normal 34955 Normal 28919 Normal 37000 backdoor 14102 Scan 54195 Generic 18871

dos 14094 DoS 42584 Exploits 11132 password 14028 MITM 25510 Fuzzers 6062

ransomware 13993 | ARP Spoofing DoS 4089

ddos 13981 Mirai 25259 | Reconnaissance 3496 injection 13975 Analysis 677

XSS 13974 Backdoor 583 scanning 13907 Shellcode 378

mitm 721 Worms 44

147730 176467 82332

Quá trình trên là quá trình đưa dit liệu vào ctGAN để thực hiện huấn luyện Theo

đó, tham số CTGAN_LENGTH chính là số lượng mẫu (từng nhãn) tuỳ chọn đưa vào

training.

Sau khi quá trình training kết thúc, chúng ta có thể tạo ra thêm dữ liệu dé đưa tới

client/node bị thiếu dif liệu Công nghệ ctGAN sẽ được bật tự động tai 1 ngưỡng

chênh lệch dif liệu cố định, lượng dữ liệu mới được tạo ra sao cho dữ liệu các node

bằng nhau Dữ liệu sẽ liên tục được tạo ra và được chọn dựa trên nhãn với vòng lặp

Algorithm 2 Balancing Data with CTGAN

Input:

LABEL_LIST — L,

originalData + Do

function TRAININGGAN(L, D,)

for each label / in L do

Fetch ctGAN_length samples >D,

end for

ctGAN.train(Do) end function

ctGAN.sample(numberofnewdata)

23

Tiêu đề	Phát triển hệ thống phát hiện xâm nhập mạng cho IoT sử dụng Học liên kết
Tác giả	Pham Phuc Duc, Nguyen Nhat Hieu Trung
Người hướng dẫn	ThS. Nguyễn Khỏnh Thuật
Trường học	Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành	An toàn thông tin
Thể loại	khóa luận tốt nghiệp
Năm xuất bản	2024
Thành phố	Thành phố Hồ Chí Minh

Định dạng
Số trang	64
Dung lượng	64,08 MB