Khóa luận tốt nghiệp An toàn thông tin: Cơ chế đảm bảo quyền riêng tư và chống tấn công đầu độc cho hệ thống IDS liên kết phi tập trung

Khám phá các phương pháp đa dạng để huấn luyện mô hình máy học trên dữ liệu phân tán, cách bảo vệquyền riêng tư trong quá trình huấn luyện, và các phương pháp để cải thiện hiệuquả và chí

Trang 1

ĐẠI HỌC QUÓC GIA TP HÒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA MẠNG MAY TÍNH VÀ TRUYEN THONG

NGUYEN TRAN ANH QUAN - 20521793

LUONG HA TIÊN — 2052082

KHOA LUAN TOT NGHIEP

CO CHE DAM BAO QUYEN RIENG TU VÀ CHONG TAN

CONG DAU DOC CHO HE THONG IDS LIEN KET PHI

TAP TRUNG

A PRIVACY PRESERVING AND ANTI-POISONING ATTACK

MECHANISM FOR DECENTRALIZED FEDERATED

DETECTION SYSTEM

CU NHAN NGANH AN TOAN THONG TIN

GIANG VIEN HUONG DAN

THS PHAN THE DUY

THS BUI THANH BINH

TP HO CHÍ MINH, 2024

Trang 2

LỜI CẢM ƠN

Đề hoàn thành khóa luận tốt nghiệp này, chúng tôi xin gửi lời cảm ơn đến Ban giám hiệu Trường Đại học Công nghệ Thông tin — Đại học Quốc Gia Thành Phố Hồ Chi Minh

vì đã tạo điều kiện học tập, nghiên cứu tốt nhất Cảm ơn quý thầy cô giảng dạy tại trường

nói chung và Khoa Mạng máy tính & Truyền thông nói riêng vì đã truyền đạt những kiến

thức chuyên môn bồ ích, những kinh nghiệm thực tế quý báu mà chúng tôi đã học hỏi

được trong suốt quá trình học tập, rèn luyện tại trường.

Chúng tôi xin đặc biệt gửi lời cảm ơn trân trọng nhất đến ThS Phan Thế Duy và

ThS Bùi Thanh Bình đã định hướng, dẫn dắt, giúp đỡ và đồng hành cùng chúng tôi trong

quá trình thực hiện khoá luận.

Bên cạnh đó, với tình cảm sâu sắc và chân thành, chúng tôi cũng xin cảm ơn các

thầy cô, anh chị đang công tác tại Phòng thí nghiệm An toàn thông tin - InSecLab vì đã

luôn tạo điều kiện, luôn sẵn sàng nhiệt tình hỗ trợ chúng tôi về chuyên môn lẫn kinh

nghiệm trong quá trình thực hiện khoá luận.

Cuối cùng, do kiến thức chuyên môn còn hạn chế nên khóa luận chắc chan không

tránh khỏi những thiếu sót Rất mong nhận được nhận xét, ý kiến đóng góp, phê bình từ quý thầy cô trong hội đồng dé khóa luận được hoàn thiện hơn.

Nhóm thực hiện.

Trang 3

Mục lục

TÓM TẮT KHOÁ LUẬN 1

1 TONG QUAN ĐỀ TÀI 2

11 Lydochondétai 2.2 0 ee ee 2

12 Phuong phapnghiéncttu - 4

13 Muctiéunghiéncttu 2 eee 4 1.4 Phạm vi và Đối tượng nghiên cứu 5

141 Phạmvinghincứu - 5

14.2 Đối tượng nghincứu 5

15 Cấu trúc Khóa luận tốtnghiệp 5

2 COSO LY THUYET 7 21 Cơsởlíthuyết bd ad ee ee 7 2.1.1 Hệ thống phat hiện xâm nhập (Intrusion Detection System) 7 2.1.2 2.1.3 Giới thiệu về hệ thống phát hiện xâm nhập (Intrusion De-tection System) 7

Hệ thống phát hiện xâm nhập dựa trên học may 10

Họcmáy Ặ.ẶẶQ QQ Q 11 Hoc máy (Machine Learning-ML) 11

Học sâu (Deep Learning-DL) 13

Mạng nơ-ron (Neural network) 14

Học liên kết (Federated Learning -FL) 15

Tổng quan ee 15 Phân loại O ee 16 Thuật toán tổng hợp 17

Phân phối dữ liệu - 18

Trang 4

2.1.5

2.1.6

2.1.7

2.1.8

2.1.9

2.1.10

2.1.11

2.1.12

2.1.13

Hoc lién két phi tap trung (Decentralized Federated

Learn-ing-DFL) 2 0 ẶẶ QQ Q So

Tan công đầu độc trong mô hình học liên kết - Poisoning

Các loại tan công đầu độc

-Các phương pháp phòng thu

Biểu diễn lớp áp chót (Penultimate Layer Representation -PLR) Q ee Thuật toán Centered Kernel Alignment (CKA)

Bộ tự mã hóa Autoencoder

Tổng quan a - - -

-{-Các thành phần

chính -Bảo toàn quyển riêng tư trong mô hình học liên kết

Các loại tan công quyền riêng tư

Các cơ chế phòng thủ chống lại tan công quyền riêng tư Riêng tư vi phân (Differential Privacy)

Riêng tư vi phân tập trung (Centralized Differential Privacy CĐ) A @ ee Riêng tư vi phân cục bộ (Local Differential Privacy- LDP) Riéng tu vi phan phan tan (Distributed Differential Privacy Công nghệ chuỗi khối (Blockchain)

Cau trúc thành phan của Blockchain

Cơ chế hoạt động của Blockchain

Tính chất của Blockchan

Cơ chế đồng thuận của Blockchain

Các mạng phổ biến trong Blockchain

-Hyperledger Ặ ee Giới thiệu về

Hyperledger -Đặc điểm của Hyperledger

Framework của Hyperledger

Hyperledger Fabric

VI

Trang 5

Giới thiệu Hyperledger Fabric 38

Các thành phần trong Hyperledger Fabric 39

2.1.14 Interplanetary File System -IPFS 40

2.2 Các công trình nghiên cứu liên quan 41

221 Tấn công về quyền riêng tư trong môi trường học liên kết 41

2.2.2 Tân công đầu độc trong môi trường học liên kết 42

2.2.3 Các cơ chế chống tan công đầu độc trong môi trường học liên kết La 43 2.2.4 Sự cải tiến so với các nghiên cứu trước - 45

PHƯƠNG PHÁP THỰC HIỆN 46 31 Môhìinhhđedoa Ặ ce ee 46 3.1.1 Tổng quays, ee 46 3.1.2 Chiénluocctaattacker 46

Untargeted Attack 2 0.0 0000000000, 46 Targeted Attack 2 2 ee ee 49 3.2 Kiến trúc tổng quát eee 49 321 TC qian! ẤP AG / ` — 49

3.2.2 Các thành phan cau tạo kiến trúc PenTiDef 50

3.2.3 Nguyên lý hoạt động của PenTiDef 51

3.3 Hoc liên kết va Blockchain - 54

3.4 Mô hình kết hợp co bản và luồng hoạt động 55

3.5 Cấu trúc xây dựng mang Hyperledger Fabric 56

3.6 Ludéng hoạt động chi tiết client-side khi tham gia mang Fabric 59

3.7 Luéng hoạt động của mô hình mang blockchain kết hợp với mô hình FL ww Oh ko 63 Đăng ký thành viên trong hệthống 63

Truy vấn mô hình khởi tạo từ hệ thống để bắt đầu huấn luyện 63 Ghi lại kết quả huấn luyện lên smart contract 63

HIỆN THỰC VÀ ĐÁNH GIÁ, THẢO LUẬN 64 41 Hiệnthực Ặ Q Q Q ee ee 64 41.1 Tập dữ liệu và tểnxửlý 64

CIC-IDS2018 64

vil

Trang 6

Edge-Hơlset Ặ 65

41.2 Phân phối dữliệu 67

413 Môi trường thựcnghiệm 67

Tài nguyên Ặ.Ặ Q QQ QQ Q G7 Tiêu chí đánh giá 67

Mô hình mạng no-ron tich chap Z1 Mô hình mạng SqueezeNet Z1 Các siêu tham số họcsâu 71

Cấu trúc AutoEncoder - 71

Hyperledger Caliper 74

4.2 Đánh giá kết quả thực nghiệm 75

42.1 Các kịchbảnthựcnghiệm 75

Kịch bản 1: Đánh giá hiệu suất của mô hình PenTiDef khi áp dụng DDP 75

Kịch bản 2: Đánh giá/So sánh hiệu suất hoạt động của mô hình PenTiDef so với các cơ chế phòng thủ trước đó 76 Kịch bản 3: So sánh hiệu suất hoạt động của PenTiDef trên các mô hình học sâu khác nhau 76

Kịch bản 4: Đánh giá hiệu suất xử lý giao dịch của hệ thống Blockchain đối với các tốc độ gửi giao dịch khác nhau Ặ Ặ Q Q HQ HS 77 42.2 Các kếtquảthựcnghiệm 77

Kichban3 2 0 ee 85 Kichbản4 ee 88 4.3 Thảo luận 0 ee 94

5 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 95

5.1 Kétluan (da 95

viii

Trang 7

Danh sách hình ve

1.1

2.1

2.2

2.3

2.4

2.5

2.6

2.7

2.8

2.9

2.10

2.11

2.12

2.13

2.14

3.1

3.2

3.3

3.4

3.5

3.6

3.7

3.8

3.9

Mô hình học cộng tac Federated Learning 3

Signature-Based 2 ee ee 8 Anomaly-Based 2 6 ee 9 Network-based IDS va Host-based IDS 10

Mô hình Federated Learning 16

Các loại mô hình Federated Learning theo phan vùng dữ liệu [4] 17 Ảnh hưởng của thiêu cân bang di liệu trong học liên kết[16] 19

Quy trình đào tạo mô hình trong CFLvaDFL 20

Poisoning Attack trong FL[15] - 21

PLR trong mạng no-ron[7] - 25

Cấu trúc của Autoencoder - 26

Phân loại phương pháp Differential Privacy [15] 30

Cấu trúc của Blockchain - 33

Các cơ chế đồng thuận trong Blockchain 36

Cách một file được upload và lưu trữ trongIPFS 41

PenliDefModule 50

Mô hình kết hợp giữa học liên kết và blockchain 56

Cau trúc tổng quan của mạng lưới Hyperledger Fabric 56

Định dạng CA của một tổchức - 57

Sơ đồ cau trúc trạng thái của sổ cái được lưu trữ trong hệ thống 58

Cấu trúc của Chaincode - 59

Người dùng A khởi tạo yêu cầu thông qua Client SDK 60

Certificate của một người dùng mà SDK sử dụng để tạo chữ ký các

giaodịch Qua ko 60

Response từ Endorsement Peer sẽ được gửi về client SDK để xác thực 61

1X

Trang 8

3.10 SDK gửi Transaction đến Orderer Service

3.11 Cấu trúc của các transaction trong hệ thống

4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9 Ty lệ giữa các nhãn CIC-IDS2018 sau bước tiền xử lý

Tỷ lệ giữa các nhãn Edge-IIơTset sau bước tiền xử lý

Phân chia dữ liệu đồng nhấtIID

Phân chia dit liệu đồng nhất non-ID

Mô hình mạng nơ-ron tích

chập -Mô hình mạng SqueezeNet

So sánh kết quả huấn luyện khi áp dụng DDP và không áp dụng So sánh mức độ tương đồng giữa không gian tiềm ẩn của mô hình toàn cục và từng không gian tiềm ẩn của mô hình cục bộ bằng điểm CKA trong PenTiDef và FedCC_

So sánh mức độ tương đồng giữa không gian tiềm ẩn của mô hình toàn cục và từng không gian tiềm ẩn của mô hình cục bộ bằng điểm CKA trong PenTiDef và FedCC

Trang 9

Danh sách bảng

2.1

4.1

4.2

4.3

4.4

4.5

4.6

4.7

4.8

4.9

4.10

4.11

4.12

4.13

4.14

So sánh các phương pháp DP_ 32

Tập dữ liệu CIC-IDS2018 65

Tập dữ liệu Edge-IHolset 66

Mô tả chỉ tiết chứng năng từng lớp mạng nơ-ron tích chập 72

Mô tả các lớp của kiến trúc SqueezeNet_ 73

Các chỉ số siêu tham số học sâu - 74

Cấu trúc bộ tự mã hoá AutoEncoder 74

So sánh hiệu suất các phương pháp phòng thủ trên tập dữ liệu IID phát hiện Untargeted-Attack 79

So sánh hiệu suất các phương pháp phòng thủ trên tập dữ liệu IID phát hiện Targeted-Attack Ặ QQQ 80 So sánh hiệu suất các phương pháp phòng thủ trên tập dữ liệu non-IID phát hiện Ủntargeted-Attack 82

So sánh hiệu suất các phương pháp phòng thủ trên tập dữ liệu non-IID phát hiện Targeted-Attack_ 83

Thời gian huấn luyện trung bình trên các bộ dữ liệu khác nhau với các mô hình khác nhau 85

So sánh hiệu suất mô-đun PenTiDef trên tập dữ liệu CIC-IDS2018

và Edge-IoTset với hai mô hình học máy CNN và SqueezeNet (Un-targeted Attack) ee ee 87

So sánh hiệu suất mô-đun PenTiDef trên tập dữ liệu CIC-IDS2018

và Edge-IIoTset với hai mô hình học máy CNN và SqueezeNet (Tar-geted Attack) LH HQ HH ko 88

Kết quả benchmark của mạng lưới Hyperledger Fabric với 5000

transacHOnS ee 89

XI

Trang 10

ONS/§ Q Q Q Q Q Q ee

Tài nguyên tiêu thụ khi thực hiện 10000 transactions với 20 actionS/S 2 Q Q Q Q Q Q HQ HQ ng ng v v va

trans-xi

Trang 11

IDS Intrusion Detection System LRS Latent Space Representation

IoT Internet of Thing PLR Penultimate Layer Representation

CKA Centered Kernel Alignment

GAN Generative Adversarial Networks

CNN Convolutional Neural Network

IID Independent and Identically Distributed non-IID non-Independent and Identically Distributed

Xili

Trang 12

MSP Membership Service Provider IPES Interplanetary File System

FedAvg Federated Averaging

XIV

Trang 13

Tan công đầu độc

Không gian tiềm ẩn

Biểu diễn không gian tiềm ẩn

Biểu diễn lớp áp chót

Tấn công lật nhãn

Tấn công bằng khếch đại tham số học

Tan công bằng cơ ché chống tổng hợp trung bình

Tap dt liệu huan luyén

Tập dữ liệu kiểm tra

Dương tính thực

XV

Internet of Things Artificial Intelligence Machine Learning

Federated Learning Intrusion Detection System Poisoning attack

Latent Space

Latent Space Representation Penultimate Layer Representation Label Flipping

Weight-scaling model poisoning Untargeted-Med

Convolutional Neural Network

Autoencoder Encoder

Decoder Loss function

Trang 14

Phát hiện ngoại lại

Phân phối dữ liệu đồng nhất và độc lập

Phân phối dữ liệu không đồng nhất và độc lập

Thuật toán phân cụm

Channel Configuration Ledger

Smart Contract

Trang 15

TÓM TẮT KHOÁ LUẬN

Sự phát triển mạnh mẽ của Internet và các thiết bị thông minh đã làm tăng lưulượng mạng và đa dạng hóa cơ sở hạ tang mạng Điện thoại di động, thiết bị đeotrên cơ thể và xe tự lái là những ví dụ cho mạng phân tán, tạo ra lượng lớn dữliệu hàng ngày Cùng với sự tiến bộ vẻ xử lý, hệ thống phát hiện xâm nhập (IDS)

kết hợp Machine Learning (ML) và Deep Learning (DL) đã thu hút sự quan tâm.

Tuy nhiên, việc truyền dữ liệu tới máy chủ trung tâm có thể de dọa quyển riêng tư

và an ninh Trong trường hợp này, Federated Learning (FL) là một phương pháp

học phân tán an toàn, không truyền dữ liệu mà chỉ gửi các tham số huấn luyện.

Dé nâng cao tính bảo mật và đáng tin cậy của FL trong hệ thống phát hiện xâmnhập, chúng tôi đã quyết định tích hợp công nghệ blockchain Blockchain có thểcung cấp tính toàn vẹn dữ liệu và giải quyết các van dé liên quan đến an ninh vaquyền riêng tư

Mục tiêu của nghiên cứu này là sử dụng FL kết hợp với blockchain trong hệthống phát hiện xâm nhập Nghiên cứu sẽ xem xét các hình thức IDS, kỹ thuật

ML liên quan và các thách thức tương ứng để định rõ yêu cầu cho mô hình Ngoài

ra, nghiên cứu cung cấp một cái nhìn toàn diện về việc sử dụng FL kết hợp vớiblockchain trong các khía cạnh khác nhau của phát hiện bat thường

Trang 16

Chương 1

TONG QUAN DE TÀI

Tom tat chuong

Tại chương nay, chúng tôi xin trình bày tóm tắt về lí do chọn dé tài, đồng thời đưa

ra mục tiêu, phạm vi nghiên cứu, cũng như câu trúc của khóa luận.

11 Lý do chọn đề tài

Trong thời đại hiện nay, khi Internet ngày càng phổ biến, rủi ro xâm nhập trái

phép từ các vấn dé bảo mật đã buộc các tổ chức phải triển khai và bổ sung các

hệ thống để kiểm tra các lỗ hổng bảo mật trong các hệ thống thông tin quantrọng Một trong những giải pháp được sử dụng là hệ thống phát hiện xâm nhập

(Intrusion Detection System - IDS), được xem như một công cụ hỗ trợ hiệu quả

cho việc bảo mật Hệ thống IDS được triển khai nhằm hỗ trợ giai đoạn đầu củaquá trình phản ứng và bảo vệ, nhằm phát hiện các cuộc tấn công vào hệ thốngmạng bằng cách theo đõi lưu lượng mạng và phát hiện những hành vi không bình

thường trong hệ thống Bên cạnh đó, nghiên cứu về học máy (Machine Learning

- ML) đã liên tục đạt được những thành tựu và tiến bộ đáng kể trong những nămgần đây, đặc biệt là trong lĩnh vực xử lí hình ảnh, nhận diện giọng nói và các lĩnhvực tương tự Mong muốn mang lại những đột phá trong lĩnh vực an toàn thôngtin, đã có nhiều nghiên cứu áp dụng các phương pháp học máy vào hệ thống phát

hiện xâm nhập (IDS) Tuy nhiên, các IDS dựa trên học máy (Machine

Learning-based IDS) yêu cầu đào tạo với lượng dữ liệu lớn và thu thập từ nhiều nguồn, baogồm cả nhiều kiểu tân công khác nhau Tuy nhiên, việc chia sẻ dữ liệu mạng nhưvậy đang gặp hạn chế do lo ngại về quyền riêng tư của cá nhân và tổ chức

2

Trang 17

Chương 1 TỔNG QUAN ĐỀ TÀI

Trong ngữ cảnh đó, phương pháp học cộng tác (Federated Learning) đã nổi lên

như một giải pháp tiềm năng dé đạt được su cân bằng giữa hiệu suất huấn luyện

dữ liệu và tính bảo mật, riêng tư của dữ liệu [1] [8] Phương pháp này không

yêu cầu việc chia sẻ dữ liệu huấn luyện một cách rõ ràng như phương pháp họctruyền thống, tức là học tập tập trung (Centralized Learning)

ooo II 22% Global Model

HINH 1.1: Mô hình học cộng tác Federated Learning

Tuy Federated Learning là một phương pháp hứa hẹn, nhưng nó không hoàn

hảo và cũng có nhược điểm riêng khi đối mặt với các cá nhân hoặc tổ chức khôngdao đức Các kẻ tan công có thể thực hiện tan công đầu độc mô hình (poisoning

attack) bằng cách cập nhật các tham số đầu ra không chính xác dựa trên dữ liệu

riêng tư lên máy chủ trung tâm Điều này làm ảnh hưởng đến hiệu suất chungcủa mô hình và gây ra sự nhầm lẫn và sai sót trong quá trình huấn luyện của toàn

bộ hệ thống Hơn nữa, trong mô hình Federated Learning, không chỉ có một kẻ

tấn công mà còn có thể có nhiều thực thể độc hại cùng lúc, gây ra những hậu quả

sai sót nghiêm trọng Do đó, Tận dụng chuỗi khối và học tập liên kết để cộng tác

phát hiện lừa đảo là một chủ dé nghiên cứu thú vi nhằm cải thiện tính bảo mật

và độ tin cậy của các hệ thống chống lừa đảo

Công nghệ chuỗi khối (blockchain) có thể được áp dụng để tạo ra cơ sở dữ liệuphi tập trung, nơi thông tin không thể bị giả mạo Điều này cho phép chia sẻthông tin về lừa đảo giữa nhiều tổ chức hoặc người dùng Hệ thống này cho phépcập nhật thông tin về các mối đe dọa lừa đảo mới theo thời gian thực và tạo điềukiện tốt hơn cho cộng tác giữa các thực thể trong việc chồng lại lừa đảo

Trang 18

Việc kết hợp hai công nghệ này có thể cải thiện độ chính xác và hiệu quả của hệthống đồng thời cung cấp một cách để chia sẻ và cập nhật thông tin an toàn vàriêng tư về các mối đe dọa lừa đảo Nhưng việc thiết lập một hệ thống như vậycũng đối điện với một số khó khăn và hạn chế Vì vậy, đào tạo các mô hình liênkết cũng như đảm bảo tính toàn vẹn và bảo mật của chuỗi khối là cần thiết

1.2 Phương pháp nghiên cứu

Chúng tôi thực hiện nghiên cứu và tìm hiểu về các loại trình phát hiện xâm nhậptruyền thống và ứng dụng học máy (ML-based IDS) Từ đó, chúng tôi xây dựngthành công mô hình huấn luyện ML-based IDS trên môi trường học liên kết phitập trung (DFL) Các kĩ thuật tan công đầu độc sau đó sẽ được áp dụng để đánhgiá tính bền vững của kiến trúc DFL trước khi đưa ra các giải pháp chống cáccuộc tân công đầu độc trên bằng chiến thuật phân tích không gian tiém ẩn của

các mô hình cụcc bộ.

Cuối cùng, chúng tôi tiến hành triển khai, đánh giá hiệu suất của công cục déxuất và đưa ra hướng mở rộng trong tương lai

1.3 Mục tiêu nghiên cứu

Khóa luận gồm bốn mục tiêu chính như sau:

1 Nghiên cứu về phương pháp bảo toàn quyền riêng tư cho các bên tham gia

cộng tác trong quá trình huấn luyện học máy liên kết xây dựng hệ thống

IDS

2 Nghiên cứu triển khai mô-đun phát hiện các cuộc tấn công đầu độc bằng

cách phát hiện các tham số mô hình độc hại thông qua Latent Space dựa

trên AE va PLR.

3 Tiến hành nhiều kịch bản thực nghiệm khác nhau để cho thấy hiệu quả của

việc phòng thủ chống lại các cuộc tấn công đầu độc thông qua phân tíchchuyên sâu về hai bộ dữ liệu về các cuộc tan công mạng các mô hình ML

khác nhau.

Trang 19

4 Đánh giá hiệu quả của PenTiDef với DFL so với các phương pháp bảo vệ

tương tự trước đó Cụ thể, làm rõ khả năng vượt trội của PenTiDef trong việc nhận diện được đâu là mô hình lành tính được huấn luyện trên dữ liệu

non-IID và đâu là mô hình độc hại thực sự.

1.4 Phạm vi và Đối tượng nghiên cứu

1.4.1 Phạm vi nghiên cứu

Mô hình phi tập trung đảm bảo tính tin cậy và tối ưu hệ thống cộng tác pháthiện xâm nhập dựa trên chuỗi khối và học liên kết Việc chia sẻ kiến thức và kinhnghiệm giữa các thành viên trong mạng cộng tác giúp nâng cao hiệu suất và độ

chính xác của các mô hình phát hiện.

Tổng thể, mô hình phi tập trung này kết hợp sự tin cậy của chuỗi khối và sức

mạnh của học liên kết để tạo ra hệ thống cộng tác phát hiện xâm nhập tin cậy, tối

ưu và hiệu quả.

1.4.2 Đối tượng nghiên cứu

Học liên kết: Nghiên cứu về học liên kết có thể tập trung vào việc thiết kế và

triển khai các thuật toán học liên kết để phát hiện lừa đảo Khám phá các phương

pháp đa dạng để huấn luyện mô hình máy học trên dữ liệu phân tán, cách bảo vệquyền riêng tư trong quá trình huấn luyện, và các phương pháp để cải thiện hiệuquả và chính xác của thuật toán học liên kết có thể là một phần của nỗ lực này

Công nghệ chuỗi khối: Nghiên cứu về chủ dé này có thể tập trung vào cách tạo

và sử dụng cơ sở dữ liệu dựa trên chuỗi khối để lưu trữ và chia sẻ thông tin sai.Điều này có thể bao gồm xem xét nhiều phương pháp lưu trữ dữ liệu, quy trìnhđồng thuận và bảo vệ quyền

1.5 Câu trúc Khóa luận tốt nghiệp

Khóa luận được tổ chức trong 6 chương như sau:

Trang 20

se Chương 1: TONG QUAN DE TÀI

Trình bày khái quát định hướng nghiên cứu của khóa luận mà chúng tôi

muốn hướng tới

e Chương 2: CƠ SỞ LÝ THUYET

Trình bày các định nghĩa, khái niệm cũng như những kiến thức nền tảng để

có thể thực hiện được nghiên cứu Đồng thời trình bày sơ lược một số công

trình liên quan có cùng hướng nghiên cứu.

e Chương 3: PHƯƠNG PHAP THỰC HIỆN

Là phần trọng tâm của khoá luận, trình bày những nội dung chính về phương

pháp thực hiện và mô hình được sử dụng.

e Chương 4: HIỆN THỰC, ĐÁNH GIA VÀ THẢO LUẬN

Dé cập đến quá trình hiện thực hóa phương pháp dé cập ở Chương 3 Sau đó

trình bày phương pháp thực nghiệm, đánh giá kết quả và thảo luận chung.

e Chương 5: KET LUẬN VA HƯỚNG PHAT TRIEN

Đưa ra kết luận về đẻ tài, đề xuất một số hướng phát triển mở rộng cho các

nghiên cứu trong tương lai.

Trang 21

Chương 2

CƠ SỞ LÝ THUYÊT

Tóm tắt chương

Chương này trình bày cơ sở lý thuyết của nghiên cứu, bao gồm: Hệ thống phát

hiện xâm nhập (Intrusion Detection System - IDS), Học liên kết (Federated

Learn-ing), Học liên kết phi tập trung (Decentralized Federated LearnLearn-ing), Công nghệ

chuỗi khối (Blockchain) và các cơ chế phòng thủ.

2.1 Cơ sở lí thuyết

2.1.1 Hệ thong phát hiện xâm nhập (Intrusion Detection System)

Giới thiệu về hệ thống phát hiện xâm nhập (Intrusion Detection System)

Tổng quan

Thời đại ngày nay được coi là một bước đột phá vô cùng to lớn trong lĩnh vực

công nghệ thông tin, đánh dấu sự chuyển đôti toàn diện của các ngành sản xuất

và dịch từ cách thức truyền thống sang sử dụng các công nghệ hiện đại như trí

tuệ nhân tạo, Internet of Things (IoT), blockchain, Với sự phát triển vô cùng nhanh chóng đó, đồng nghĩa với việc số lượng dữ liệu ngày càng tăng và việc bảo

vệ lượng dir liệu đó là rất phức tap

Để chống lại những mối de dọa mạng ngày càng phổ biến và tinh vi, các hệ thống

phát hiện xâm nhập (IDS) được sử dụng để giám sát và phát hiện các hành vi

xâm nhập, tấn công mạng hay các hành vi đáng ngờ khác trên hệ thống mạng

Trang 22

Chương 2 COSO LY THUYẾT

Nhờ đó, chúng giúp ngăn chặn các cuộc tan công trước khi chúng ta ra hau qua

nghiêm trọng.

Phân loại

Có nhiều loại IDS khác nhau, mỗi loại có chứng năng và nhiệm vụ riêng, bao

gồm:

- Signature-based (hay còn gọi knowledge-based) là IDS hoạt động

dựa trên dấu hiệu (Signature) đã định nghĩa, giám sát các gói tin trênmạng tương tự như cách phần mềm diệt virus hoạt động Tuy nhiênSignature-Based có thể không phát hiện được những mối đe dọa mới,khi dấu hiệu để nhận biết nó chưa được IDS cập nhật

Network current traffic activity

IDS

add new pattern

Attacks/ signatures / rules ; matching Attack/

intrusion Signatures intrusion data modify existing database state

signatures

HINH 2.1: Signature-Based

- Anomaly-Based Detection (hoặc profile-based) là IDS được sử dung

để phát hiện mối đe doa dựa trên sự bat thường Không như

Signature-Based IDS, Anomaly sẽ giám sát lưu lượng mang và so sánh với dt liệu

cơ sở (normal behavior) đã được thiết lập từ trước Nó sẽ xác định đâu

là mức bình thường của mạng và cảnh báo cho quản trị viên mạng

hoặc người dùng khi phát hiện lưu lượng truy cập bất thường hoặc

khác biệt.

- Specification-Based Detection là IDS phát hiện dựa trên đặc tả thu

thập các hoạt động chính xác của một chương trình hoặc giao thức và giám sát hoạt động của nó dựa trên các ràng buộc đã được định nghĩa.

Kỹ thuật này sử dụng mô hình giao thức chủ yếu dựa trên các chuẩn

8

Trang 23

Network current traffic

IDS

profile

————— : updating statistical

Network Profile Network profile Attack/

ere generation profile intrusion

bu model dynamically | (baseline) | | deviation state

generate

profiles

giao thức từ các nha sản xuất phần mềm va các tiêu chuẩn (ví du: IEFT,

RFC).

- Hybrid IDSs (hay còn gọi Compound Detection) kết hợp các kỹ thuật

phát hiện dựa trên Signature, Anomaly va Specification.

¢ Phân loại dựa trên nguồn dit liệu:

— Network Intrusion Detection Systems (NIDS) là hệ thống giám sát va

phát hiện các hoạt động xâm nhập hoặc khả nghi trong mạng Giám sát lưu lượng mang cho các phân đoạn mạng (network segment) hoặc

các thiết bị, phân tích hoạt động mạng và các giao thức, ứng dụng đểphát hiện các hành vi bất thường NIDS được triển khai tại các vị tríquan trọng trong hệ thống mạng để theo đõi lưu lượng mạng cả đầu

vào (inbound) và đầu ra (outbound) từ các thiết bị kết nối trong mạng

— Host Intrusion Detection Systems (HIDS) theo dõi các đặc điểm của

một host riêng lẻ và các sự kiện xảy ra trong host đó để phát hiện hoạt

động bat thường Nó sử dụng các phương pháp phân tích log, giám sát

hệ thống, và phân tích động để xác định các hành vi hoặc đối tượng

độc hại và cảnh báo quản trị viên.

- Hybrid IDSs được phát triển để tích hợp và xem xét tất cả dữ liệu từ

các sự kiện trên host và sự kiện trong các phần mạng, kết hợp chức

năng của cả NIDS và HIDS.

Trang 24

`2 Internet k2 Internetsels

HINH 2.3: Network-based IDS va Host-based IDS

Hệ thống phát hiện xâm nhập dựa trên học máy

Hoc máy là một linh vực quan trọng trong trí tuệ nhân tạo, cho phép máy tính

học và thực hiện các nhiệm vụ mà không cần phải được lập trình cụ thể Quá

trình này thường được thực hiện bằng cách sử dung dữ liệu và phân tích thông

tin từ các tập dữ liệu lớn, giúp máy tính có thể dự đoán và tạo ra các kết quả, dự

báo hoặc đưa ra quyết định một cách tự động và linh hoạt

Công nghệ trí tuệ nhân tạo có ứng dụng đa dạng trong nhiều lĩnh vực, ví dụ

thương mại điện tử, y tế, Trong thương mại điện tử, máy học thường được áp

dụng để tối ưu hóa trải nghiệm mua sắm của khách hàng bằng cách dé xuất sảnphẩm dựa trên hành vi trước đó và sở thích cá nhân Điều này giúp cải thiện tỷ

lệ chuyển đổi và tăng doanh số bán hàng Đồng thời, trí tuệ nhân tạo cũng có thểđược sử dụng trong y tế để phân tích di liệu lich sử của bệnh nhân và dự đoán

nguy cơ mắc các bệnh trước khi chúng xảy ra Nó cũng có thể hỗ trợ trong việc

điều trị cá nhân hóa và đánh giá khả năng phục hồi sau các căn bệnh như ung

thư, dựa trên thông tin về lịch sử y tế và các yêu tố liên quan đến sức khỏe của

từng người.

10

Trang 25

Trong thời đại hiện nay, với sự tiến bộ không ngừng của khoa học và công nghệ,lượng tấn công mạng ngày càng tỉnh vi và phổ biến hơn bao giờ hết Điều nàygây ra thách thức lớn trong việc phát hiện các tân công, đồng thời làm cho các hệthống phát hiện xâm nhập dé bị vượt qua bat cứ lúc nào Hơn nữa, với sự sángtạo ngày càng cao trong các chiến lược tân công mạng, việc phân tích và đánh giámối đe dọa trở thành một công việc tốn thời gian và công sức

Ap dung học máy vào các hệ thống phát hiện xâm nhập đóng vai trò quan trọng

trong việc tăng cường bảo mật cho các hệ thống này Nhờ vào các thuật toán mạnh

mẽ, hệ thống có khả năng học từ dữ liệu va phát hiện các mẫu tan công mới mộtcách tự động và linh hoạt Việc cung cấp khả năng phát hiện các cuộc tan công

mới dựa trên dữ liệu được đào tạo là một phương tiện hiệu quả để giảm thiểu rủi

ro và bảo vệ thông tin quan trọng trước những mối de dọa ngày càng phức tạp từ

mạng internet.

2.1.2 Học máy

Học máy (Machine Learning - ML)

Machine learning, một lĩnh vực đặc biệt trong trí tuệ nhân tạo và khoa học máy

tính, đã đạt được sự chú ý lớn từ cộng đồng công nghệ nhờ vào khả năng của nótrong việc tự học và cải thiện từ dữ liệu Trong thé giới kỹ thuật số ngày nay, dữ

liệu đang được tạo ra và thu thập ở mức độ lớn chưa từng có, và machine learning

đóng vai trò quan trọng trong việc khai thác giá trị từ những dữ liệu này.

Về cơ bản, machine learning sử dung di liệu và thuật toán để phân tích, nhậnbiết mẫu, và dự đoán kết quả mà không cần phải được lập trình cụ thể Thay vìdựa vào các quy tắc cụ thể được lập trình trước, máy tính có khả năng tự học từ

dữ liệu và tinh chỉnh chính mình để cải thiện hiệu suất và độ chính xác theo thời

gian.

Để hoàn thiện một mô hình học máy, cần phải trải qua các bước như sau:

¢ Chuẩn bị tập dữ liệu (Dataset): Bước nay sẽ loại bỏ các dữ liệu thừa, xử

lý và biến đổi các dữ liệu để có thể sử dụng được Tập dữ liệu phải đủ lớn

và đại diện cho phân phối dữ liệu thực tế Tập dữ liêu được chia thành hai

11

Trang 26

phan: Tập dữ liệu dùng để huấn luyện (Tranning set) và tap dữ liệu dùng

để kiểm tra, đánh giá hiệu suất mơ hìnhn (Testing set)

¢ Chọn mơ hình và thuật tốn: Cĩ nhiều mơ hình và thuật tốn khác nhau

dùng để giải quyết các bài tốn khác nhau, việc chọn mơ hình và thuật tốn

phù hợp là rất quan trọng để đạt được kết quả tốt.

¢ Huan luyện mơ hình: Đưa tập dữ liệu huấn luyện vào mơ hình và điều

chỉnh các tham số, trọng số để mơ hình đưa ra kết quả chính xác cho tập dữ

liệu đĩ Quá trình này sẽ mất nhiều thời gian và tài nguyên tính tốn tùy

vào độ lớn và độ phức tạp của tập dữ liệu và mơ hình.

¢ Đánh giá hiệu suất của mơ hình: Dựa trên tập dữ liệu kiểm tra (Testing set)

và các chỉ số như độ chính xác (accuracy), giá trị mất mát (loss value) và độsai s6 (error rate),

muốn, cĩ thể thay đổi các tham số hoặc sử dụng mơ hình khác Lặp lại quá

trình này cho tới khi đạt được kết quả mong đợi

¢ Triển khai mơ hình: Sau khi trải qua quá trình huấn luyện và đạt được kết

quả như mong muốn, mơ hình đã cĩ thể sử dụng triển khai trong các ứngdụng thuực tế

Một số phương pháp phổ biến trong lĩnh vực học máy:

° Học máy giám sat (Supervised Learning) là phương pháp huấn luyện trên

một tập dix liệu cĩ sẵn, trong đĩ mỗi mẫu dữ liệu đi kèm với một nhãn hay

một kết quả mong muốn Mục tiêu của mơ hình là học từ các mẫu dữ liệu

đã được gán nhãn và sau đĩ dự đốn nhãn tương ứng cho các dữ liệu mới

mà nĩ chưa từng nhìn thay trước đĩ Một số thuật tốn phổ biến: Cây quyết

định (Decision Trees), phân loại Bayes (Nạve Bayes Classification), hồi quytuyến tính (Ordinary Least Squares Regression), Support Vector Machines

(SVM),

° Học máy khơng giám sat (Unsupervised Learning) là phương pháp huấn

luyện mà dữ liệu đầu vào khơng cĩ nhãn hoặc kết quả mong muốn được

12

Trang 27

chỉ định trước Trong học máy không giám sát, mô hình cố gắng hiểu cấu

trúc hoặc mô hình ẩn sau dữ liệu một cách tự động, thường là bang cách timkiếm các mẫu, cụm hoặc đặc điểm chung trong dữ liệu Một số thuật toánphổ biến: Thuật toán gom cụm (Clustering Algorithms), phân tích thànhphần chính (Principal Component Analysis - PCA),

¢ Hoc tập ban giám sat (Semi-Supervised Learning) là một phương pháp

két hop giữa hoc may có giám sat va không giám sát Trong hoc tap bángiám sát, một phần của dữ liệu được gán nhãn và được sử dụng để huấnluyện mô hình giám sát, trong khi phan còn lại của dữ liệu không có nhãn

được sử dụng để học từ câu trúc hoặc mô hình ẩn trong dữ liệu mà không

yêu cầu sự hướng dẫn từ bên ngoài

¢ Hoc máy tang cường (Reinforcement Learning) là một phương pháp mà

một hệ thống hoặc tác nhân (agent) học từ kinh nghiệm của nó trong mộtmôi trường tương tác Mục tiêu của hệ thống là tối đa hóa tổng lượng phần

thưởng (reward) mà nó nhận được thông qua các hành động mà nó thực

hiện Cụ thể, hệ thống được đưa vào một môi trường, và sau mỗi hành

động, nó nhận được một phần thưởng hoặc phạt từ môi trường dựa trên

hành động của nó Mục tiêu của hệ thống là học cách chọn hành động saocho tối đa hóa tổng phần thưởng mà nó nhận được qua thời gian

Học sâu (Deep Learning - DL)

Hoc sâu là một nhánh của trí tuệ nhân tạo (AI) và học máy tập trung vào việc

thiết kế và đào tạo mạng lưới thần kinh sâu để phân tích và hiểu dữ liệu Thuậtngữ "sâu" dé cập đến thực tế là các mạng thần kinh này chứa nhiều lớp ẩn giữalớp đầu vào và đầu ra Các lớp ẩn này tạo thành một câu trúc phức tạp cho phépmang tìm hiểu các tính năng va mẫu từ dữ liệu một cách chỉ tiết và toàn diện hơn

Mạng nơ-ron sâu bao gồm nhiều lớp nơ-ron được kết nối với nhau theo một cấu

trúc xác định Lớp đầu vào nhận dữ liệu đầu vào và chuyển nó đến lớp ẩn (hidden

layers) để trích xuất các tính năng từ dữ liệu Cuối cùng, dữ liệu được chuyển đếnlớp đầu ra để dự đoán hoặc phân loại

13

Trang 28

Mang no-ron (Neural network)

Bang cách bắt chước hoạt động của bộ não con người, mạng nơ-ron là một tập

hợp các thuật toán có thể xác định các mối tương quan cơ bản trong tập dữ liệu.

Nếu không thiết lập trước các yêu cầu đầu ra chính xác, phương pháp này có thểtạo ra kết quả tối ưu bằng cách điều chỉnh các biến thể của dữ liệu đầu vào Lợi

ích đặc biệt đến từ việc sử dụng mạng thần kinh để xác định các loại phần mềm

độc hại mới và sự gia tăng đáng chú ý của các biến thể phần mềm độc hại.và tóm

tắt tài liệu

Mạng nơ-ron bao gồm các lớp nơ-ron được kết nối với nhau theo từng tầng:

se Lớp đầu vào (Input Layer): Nhận dw liệu ban dau từ các nguồn khác nhau.

¢ Lớp ẩn (Hidden Layers): Thực hiện các phép biến đổi và xử lý dữ liệu phức

tạp Mỗi lớp ẩn có thể có nhiều nơ-ron, giúp mạng học được các đặc trưng

điều chỉnh để phù hợp với nhau nhằm tạo điều kiện thuận lợi cho việc tính toán

Để nâng cao khả năng giải quyết các van dé phức tạp, mạng lưới thần kinh cũng

sẽ bổ sung thêm nhiều lớp ẩn; tuy nhiên, số lượng lớp ẩn sẽ làm tăng thời giantính toán Trong trường hợp có một số cấp độ ẩn, số lượng nút bằng nhau thường

được chọn cho mỗi lớp.

Một loại kiến trúc mạng nơ-ron độc đáo thường được sử dụng trong lĩnh vực thị

giác máy tính và xử lý hình ảnh là mạng nơ-ron tích chập (Convolutional Neural

Network - CNN) Một mạng lưới thần kinh nhân tạo được thiết kế đặc biệt để xử

lý dữ liệu không gian, những bức ảnh như vậy, được gọi là CNN CNN có các bộ

lọc tích chập và các lớp tính năng chồng chéo trong một kiến trúc độc đáo Bộ lọctích chập cho phép CNN trích xuất các tính năng cấp cao từ đầu vào hình ảnh vàthực hiện quá trình tự học Dựa trên các tính năng này, các lớp được kết nói day

đủ sau đó sẽ được sử dụng để phân loại hoặc dự đoán.

14

Trang 29

Kiến trúc mạng nơ-ron nhân tạo với nhiều lớp ẩn được gọi là Mạng nơ-ron sâu(Deep Neural Network - DNN) So với các mạng nơ-ron truyền thống, DNN cókhả năng có nhiều lớp ẩn hơn, cho phép chúng tìm hiểu và hiểu các mức độ biểudiễn phức tạp hon từ đữ liệu đầu vào Mang thần kinh sâu (DNN) là mạng nơ-

ron cực kỳ mạnh có thể tự động tìm hiểu các tính năng và biểu diễn sâu Các lớp

ẩn của DNN cho phép nó xây dựng các mức biểu diễn phức tạp hơn từ các mức

đơn giản hơn Kết quả là DNN có khả năng biểu diễn dữ liệu tốt hơn và nắm bắt

các khái niệm trừu tượng.

2.1.3 Học liên kết (Federated Learning - FL)

Học liên kết đem lại lợi ích quan trọng trong việc đào tạo học máy và bảo vệ quyền

riêng tư và bảo mật của người dùng khi sử dụng bộ dữ liệu có thông tin nhạy cảm

hoặc khó chia sẽ như dữ liệu sức khoẻ, dữ liệu tài chính hoặc dt liệu thiết bị IoT,

cho các bên tham gia và máy chủ trung tâm chỉ tương tác với nhau qua các bản

cập nhật của mô hình Hơn cả thế, các bên tham gia vẫn sẽ được hưởng thôngtin cũng như mô hình học máy toàn cầu (global model) mặc dù không chia sẻ dữliệu ra bên ngoài Ngoài ra, học liên kết còn giúp giảm thời gian và công sức đểthu thập dir liệu tập trung, đồng thời tiết kiệm chi phí huấn luyện mô hình cho

máy chủ trung tâm.

Học liên kết giống như quá trình đào tạo học máy truyền thống, nhưng được chia

ra thành các vòng Trong mỗi vòng, các bên tham gia sử dụng bộ dữ liệu riêng của

họ để đào tạo mô hình cục bộ (local model) sau đó gửi bản cập nhật của họ lên

máy chủ trung tâm Tiếp theo, máy chủ trung tâm sẽ thu thập các bản cập nhật từcác bên, sau đó sử dụng một thuật toán tổng hợp và tạo ra tham số chung Cuốicùng máy chủ sẽ phân phối lại mô hình chung đã cập nhật cho các bên tham gia

để tiếp tục quá trình huấn luyện đến khi đạt ngưỡng tối ưu

15

Trang 30

Server A @ Sending encrypted gradients

2 Secure aggregation |

3) Sending back model updates |

[@ Updating models ]

Database B, Database B, Database B,

HINH 2.4: Mô hình Federated Learning

Với các lợi ích kể trên, các cá nhân, tố chức có thể san sàng cộng tác với nhau đểxây dựng một mô hình máy học đủ tốt có thể hoạt động hiệu quả do hưởng lợi từ

thông tin của mô hình học máy mà không cần lo lắng về vấn dé quyền riêng tư

và bảo mật thông tin của người dùng.

Phân loại

Dự trên phân vùng dw liệu, Federated Learning được chia thành 3 loại chính như Hình 2.5:

¢ Horizontal Federated Learning: Các bên tham gia chia sẻ dữ liệu với nhau

về một số đối tượng có đặc trưng tương tự Ví dụ: Nhiều chi nhánh của cùng

một ngân hàng ở các khu vực khác nhau hợp tác để xây dựng mô hình dự

đoán rủi ro tín dụng Mỗi chỉ nhánh có dit liệu về khách hàng của mình và

sử dung HFL dé đào tạo một mô hình chung mà không can chia sẻ dữ liệu

khách hàng giữa các chi nhánh.

¢ Vertical Federated Learning: Các bên tham gia sẽ chia sẻ thông tin của cùng

một đối tượng nhưng đặc trưng khác nhau Dữ liệu của các bên tham gia

sẽ bổ sung cho nhau Ví dụ: Một sàn thương mại điện tử và một công ty

16

Trang 31

liệu cá nhân của khách hàng.

cả đặc điểm và số lượng đối tượng, nhưng vẫn có thé hợp tác để xây dựng

một mô hình chung.

Thuật toán tổng hợp

hình cục bộ từ các bên tham gia và cập nhật mô hình toàn cục Mô hình này

sẽ được gửi lại cho các bên tham gia và tiếp tục quá trình huấn luyện cho

đến khi nhận được kết quả như mong đợi

đáp ứng được yêu cầu tham gia cộng tác hoặc non-iid Khi dùng thuật toán

17

Trang 32

này, tat cả các bên tham gia không nhất thiết phải đạt được su đồng thuận,

nó cho phép mỗi bên đào tạo các mô hình cụ bộ được cá nhân hóa và cải

thiện độ chính xác cà hiệu suất bằng cách tận dụng khả năng cộng tác

trước khi gửi lên máy chủ tổng hợp giúp cải thiện sự không đồng nhất dữ

liệu Đảm bảo rằng các đóng góp khác nhau được cân bằng cho dù phân

phối hay quy mô đữ liệu chênh lệch Giảm thiểu tác động của các bên tham

gia với quy mô dữ liệu khác nhau.

¢ FedProx [22]: Các bên tham gia phải gửi thêm "proximal term" (Khoảng

cách của tham số hiện tại và tham số toàn cục) Thuật toán này tính toántrung bình từ các tham số và proximal term, sau đó cập nhật mô hình toàn

cục Thúc đẩy tính nhất quán và tối ưu hóa van dé không cân bằng dữ liệu.

Phân phối di liệu

Trong ngữ cảnh lý tưởng, các bên tham gia có thể thu thập dữ liệu độc lập va

có phân phối đồng nhất (Independent and Identically Distributed - IID) thi sẽgiúp quá trình mô hình huấn luyện đảm bảo khả năng hội tụ và đạt được kết quả

mong muốn Tuy nhiên, vấn đề phân phối dữ liệu đã trở thành một thách thức

quan trọng trong thực tế bởi vì dữ liệu được phân tán và tùy vào khả năng thu

thập dữ liệu của mỗi tổ chức hoặc thiết bị, do đó, dữ liệu trở nên không độc lập

và nhất quán (Non Independent and Identically Distributed - Non-IID) Điều nay

có thể gây ảnh hưởng đến quá trình huấn luyện mô hình học liên kết

Một số van dé của phân phối dir liệu trong FL:

° Không đồng nhất dữ liệu: Các dữ liệu trên các thiết bị hay máy chủ có thể

không đồng nhất về phân phối hoặc đặc trưng Đây có thể là một trongnhững nguyên nhân khiến cho quá trình huấn luyện không nhất quán vàảnh hưởng đến hiệu suất của mô hình toàn cục Để giải quyết vẫn đề này, cóthể sử dung kỹ thuật dữ liệu tổng hợp như trung bình hoặc trọng số trungbình để tích hợp thông tin từ các thiết bị hoặc máy chủ khác nhau và tạo ra

một mô hình toàn cục đồng nhất.

18

Trang 33

IID data : Non-IID data

° Không cân bằng dữ liệu: Việc dữ liệu ở mỗi thiết bị hoặc máy chủ phân

phối không đồng đều dẫn đến việc mô hình toàn cục đại diện ít hoặc khôngday đủ các đặc trưng của các lớp dữ liệu Để giải quyết van dé này, có thểđiều chỉnh trọng số, lấy mẫu cân bằng, sử dụng kỹ thuật undersampling

hoặc oversamphling.

2.1.4 Học liên kết phi tập trung (Decentralized Federated

Learn-ing - DFL)

Hoc liên kết (FL) tạo điều kiện thuận lợi cho việc dao tạo các mô hình trên nhiều

thiết bị hoặc nút, bảo vệ quyền riêng tư dữ liệu bằng cách tiền hành tính toán cục

bộ trên mỗi thiết bị, do đó tránh được nhu cau chia sẻ dữ liệu thô trực tiếp Hơn

nữa, FL thúc đẩy quá trình học tập phân tán trên toàn liên đoàn, giảm thiểu một

số hạn chế chính của ML truyền thống, chẳng hạn như khả năng mở rộng và yêu

cầu về kho dữ liệu trung tâm

Mặc dù hầu hết các tool, framework và flatform hiện tại để đào tạo mô hình FLđều dựa trên Học tập liên kết tập trung (Centralized Federated Learning - CFL),

trong đó một người tham gia nhận mô hình từ những người khác và thực hiện

tổng hợp, việc tập trung hóa này gây ra các vân đề tiềm ẩn Chúng bao gồm một

điểm lỗi duy nhất và tắc nghẽn giao tiếp, có thể tác động tiêu cực đến hiệu suất

và độ tin cậy của hệ thống

19

Trang 34

đào tạo các m p nhật này đến máy chủ

trung tâm (2) Sau đó, may chu tong hợp các bản cập nhật này để tạo ra một mô

hình toàn cục (3), được gửi lại cho những người tham gia (4) Cuối cùng, những

người tham gia tích hợp bản cập nhật toàn cục này vào các mô hình cục bộ của

họ (5) Ngược lại, trong DFL, người tham gia dao tạo mô hình cục bộ (1), sau đó

trao đổi trực tiếp các tham số mô hình với nhau (2) và cuối cùng tỉnh chỉnh các

mô hình cục bộ của chúng bằng cách tổng hợp các tham số nhận được này (3), từ

đó làm nổi bật các đặc điểm độc đáo của họ.

Học liên kết phi tập trung là một công nghệ liên kết tạo điều kiện thuận lợi choviệc giao tiếp của người dùng mạng phi tập trung Do đó, nó tạo ra một loạt cơ

hội hoàn toàn mới, bao gồm giảm khả năng xảy ra một điểm lỗi duy nhất, tạo

điều kiện cho một giải pháp có thể mở rộng hoàn toàn, cắt giảm chi phí liên lạc

20

Trang 35

va tang cường niềm tin của người tham gia bằng cách loại bỏ nhu cầu về cơ quan

trung tâm.

2.1.5 Tan công đầu độc trong mô hình học liên kết - Poisoning

AttackTổng quan

Poisoning Attack [15] là một loại tan công trong đó các kẻ tan công cố gắng thay

đổi dữ liệu huấn luyện để làm sai lệch mô hình học máy Mô hình huấn luyện cóthể cho ra những dự đoán sai hoặc hoạt động không mong muốn khi dit liệu bịđầu độc Trong hoc FL, các thiết bị hoặc nút cục bộ tham gia vào quá trình huấn

c -Í Ca A 1: send local model gradients

i's Server "eat

2: aggregate local model gradients

3: download the latest global model

4: update local model

luyện mô hình bằng cách sử dung đữ liệu riêng của mình Sau đó, chúng gửi cácbản cập nhật mô hình (chẳng hạn như các gradient) lên máy chủ trung tâm đểtổng hợp Điều này tạo ra một cơ hội cho kẻ tấn công can thiệp vào quá trìnhhuấn luyện bằng cách gửi các bản cập nhật bị nhiễm độc hoặc làm thay đổi dữliệu huấn luyện cục bộ Bằng cách này, kẻ tan công có thể làm hỏng mô hình toàn

cầu mà không cần phải truy cập trực tiếp vào dir liệu của tất cả các nút tham gia

21

Trang 36

Tan công poisoning có thể xảy ra dưới nhiều hình thức khác nhau, tùy thuộc vàomục tiêu của kẻ tân công Một trong những cách phổ biến nhất là làm rối loạn dữliệu huấn luyện, nơi kẻ tấn công chèn các mẫu dữ liệu bị nhiễm độc vào dữ liệuhuấn luyện của một hoặc nhiều nút cục bộ Ngoài ra, kẻ tan công cũng có thể làm

thay đổi các bản cập nhật mô hình trước khi gửi chúng lên máy chủ trung tâm,

tạo ra một mô hình không chính xác hoặc có định hướng sai lệch.

Các cuộc tan công poisoning có thể gây ra những hậu quả nghiêm trong Chẳng

hạn, trong các ứng dụng y tế, một mô hình bị nhiễm độc có thể đưa ra các chẩn

đoán sai, gây nguy hiểm đến tính mạng bệnh nhân Trong các hệ thống tài chính,các quyết định dựa trên mô hình bị nhiễm độc có thể dẫn đến các sai lầm nghiêm

trọng trong giao dịch hoặc quản lý rủi ro Do đó, việc phát hiện và phòng ngừa

các tấn công poisoning là một thách thức quan trọng đối với các nhà nghiên cứu

và các kỹ sư phát triển hệ thống học máy

Các loại tấn công đầu độc

Trong FL, tấn công học máy có thể được chia thành hai loại chính [29] dựa trênmục tiêu và phương thức thực hiện tan cong nhằm mục dich làm sai lệch quátrình huấn luyện và gây hại cho kết quả huấn luyện chung:

e Tan công đầu độc dữ liệu (Data Poisoning): Trong tấn công poisoning dữ

liệu, kẻ tấn công không thể trực tiếp thay đổi các tham số của mô hình cục

bộ mà chỉ có thể thực hiện tân công bằng cách giả mạo hoặc thay đổi dữ

liệu huấn luyện Khi đó, việc huấn luyện mô hình sẽ trở nên không chínhxác hay bị đánh lừa nếu sử dụng bộ dữ liệu nay

e Tan công đầu độc mô hình (Model Poisoning): Trong tan công model

poi-soning, kẻ tấn công trực tiếp thao túng các tham số của mô hình cục bộ

Chẳng hạn, họ có thể thêm nhiễu ngẫu nhiên vào mô hình cục bộ để làm

ảnh hưởng đến sự hội tụ của mô hình toàn cầu hoặc sử dụng phương pháp

thay thế mô hình để cập nhật mô hình toàn cầu bằng mô hình độc hại Điều

này có thể thực hiện bằng cách sử dụng dữ liệu cụ thể hoặc huấn luyện môhình trong tập dữ liệu lành tính bằng các thuật toán khác nhau Ngoài ra,

22

Trang 37

một số phương pháp tan công khác dựa trên tối ưu hóa như tiêm các ron độc hại vào không gian thừa của mạng neuron, giúp thực hiện tấn công

neu-poisoning hiệu quả.

Ngoài ra các cuộc tân công poisoning này còn có thể được phân loại dựa trên mụctiêu của kẻ tấn công:

e Tan công nhắm mục tiêu (Targeted Attack) [21]: Mục tiêu chính của cách

tấn công này là tiêm vào một nhiệm vụ phụ vào mô hình Có nghĩa là mô

hình phải duy trì được hiệu suất của nhiệm vụ gốc trong khi thực hiệnnhiệm vụ phụ mà không bị phát hiện Điều này có thể gây ra những hậu

quả nghiêm trọng, vì mô hình bị tan công có thể thực hiện các hành động

không mong muốn mà người dùng không hề hay biết Các cuộc tân côngnày rất rộng và đa dạng về các nhiệm vụ phụ mà chúng có thể thực hiện.Điều này làm cho việc xác định và ngăn chặn chúng trở nên khó khăn hơn,đòi hỏi các biện pháp bảo vệ và giám sát hiệu quả hơn trong quá trình huấn

luyện mô hình.

e Tan công không nhắm mục tiêu (Untargeted Attack) [21]: Tan công này

nhằm làm suy giảm hiệu suất của mô hình trên nhiệm vụ gốc mà khôngnhắm vào mục tiêu cụ thể nào Các cuộc tan công này thường bao gồm việcchia sẻ các cập nhật mô hình ngẫu nhiên hoặc huấn luyện trên dữ liệu bị

thay đổi ngẫu nhiên, dẫn đến các bản cập nhật mô hình ngẫu nhiên và làmgiảm độ chính xác của mô hình Mặc dù dé phát hiện hơn so với các tấncông có mục tiêu, chúng vẫn có thể bị nhầm lẫn với các khách hàng có phânphối dữ liệu huấn luyện đặc biệt, đòi hỏi các biện pháp giám sát và bảo mậtchặt chẽ để bảo vệ mô hình

Các phương pháp phòng thủ

Một số phương pháp để phòng thủ trước các cuộc tấn công đầu đoọc trong họcliên kết được sử dụng:

* Cosine similarity: Sử dụng độ do Cosine để đo độ tương đồng giữa các

vecto dữ liệu, trọng số của mô hình, dữ liệu được coi là tan công khi có quá

ít sự tương đồng hoặc không phù hợp

23

Trang 38

¢ Clustering: [6] Phân loại dữ liệu và gom nhóm lành tính hay độc hại dựa

trên tính tương đồng.

¢ Predict model: Sau khi nhận được mô hình cục bộ từ các bên tham gia, máy

chủ trung tâm sẽ tiến hành dự đoán dựa trên bộ dữ liệu tự chuẩn bị và đãgan nhãn Các bên tham gia sẽ bị xem xét lại hoặc từ chối néu mô hình cục

bộ của họ dự đoán sai vượt quá ngưỡng cho phép (threshold) [33] [25]

* Outlier detection: Tìm kiếm các điểm dữ liệu bất thường hoặc không tuân

thủ dựa trên phát hiện điểm dữ liệu ngoại lai [11] [12]

2.1.6 Biểu diễn lớp áp chót (Penultimate Layer Representation

-PLR)

Lớp áp chót trong một mạng nơ-ron (Penultimate Layer Representation - PLR) [7]

[27] [14], lớp này thường chứa các đặc trưng quan trọng của dữ liệu và là đầu vào

cho lớp cuối cùng để mô hình đưa ra kết quả phân loại chính xác Một số ứng

dụng phổ biến của PLR trong mạng nơ-ron:

¢ Rút trích dữ liệu: PLR hỗ trợ rút trích các đặc trưng quan trong của dữ liệu

đầu vào Đặc trưng này có thể dùng để nhận dạng, phân cụm hoặc phân

loại thông tin.

luyện trước đó, chỉ cần huấn luyện lại một số lớp cuối cùng Các đặc trưng

chứa trong PLR có thể sử dụng lại để giúp mô hình hoàn thiện hơn.

* Trực quan hóa dw liệu (Visualizing representations): Có thể sử dụng một

sôs kỹ thuật như PCA (Principal Component Analysis) hay t-SNE (t-Distributed

Stochastic Neighbor Embedding) để giảm chiều của lớp áp chót và biểu diễntrong không gian hai, ba chiều để hiểu và phân tích các đặc trưng của dữ

liệu.

24

Trang 39

- FC FC

Convolution Pooling Conv Pooling Conv Layer Layer Output

coc

lol ivi

HINH 2.9: PLR trong mang no-ron [7]

2.1.7 Thuật toán Centered Kernel Alignment (CKA)

Thuật toán CKA [9] được thiết kế để so sánh sự tương đồng giữa các biểu diễn

bằng cách làm phẳng các kernel nhằm đo độ tương đồng giữa các biểu diễn đặc

trưng trong mạng nơ-ron Trong các lĩnh vực của học máy và trí tuệ nhân tạo,

CKA thường được dùng để tính toán sự giống nhau giữa các mô hình học sâu

hay tìm kiếm những đặc trưng chung trong các tác vụ học máy khác nhau

Trong phiên bản rút gọn, điểm CKA được tính dựa trên Hilbert-Schmidt-Indenpence

Criterion (HSIC) như công thức 2.1:

HSIC(K,L)

VHSIC(K,K)HSIC(L,L)

CKA(K,L) = (2.1)

Trong đó, K và L là ma trận nhân ứng với biểu thức đặc trưng 0 < CKA < 1,

điểm CKA càng tiệm cận 1 tức là giữa hai biểu diễn càng có nhiều sự tương đồng

2.1.8 Bộ tự mã hóa Autoencoder

Tổng quan

Một trong những mô hình học máy không giám sát dùng để tự động học cách

biểu diễn đữ liệu là Autoencoder (AE) AE có thể tìm thấy các đặc điểm quan

trọng từ dữ liệu gốc và giảm tính chiều của dữ liệu

25

Trang 40

Quy trinh dao tao AE nham muc dich giảm thiểu sự khác biệt giữa dữ liệu gốc và

dit liệu tái tạo Nhằm mục đích xác định cách biểu diễn dir liệu có ý nghĩa nhất

trong quá trình nén và giải mã, mô hình tạo ra biểu diễn nén của dữ liệu, thường

được gọi là không gian tiềm ẩn (Latent space) của dữ liệu

Các thành phần chính

Latent space

Representation

Encoder Bottleneck Decoder

HINH 2.10: Cấu trúc của Autoencoder

Như hình 2.10, Autoencoder có các thành phần như sau:

* Bộ mã hóa (Encoder): Gồm nhiều lớp nơ-ron, mỗi lớp ánh xạ dữu liệu sang

một không gian đặc trưng mới Bộ mã hóa nhận dữ liệu gốc và giảm sốchiều, biến đổi thành không gian tiềm ẩn (Latent space) có kích thước nhỏ

hơn.

ra của bộ mã hóa, chứa đặc trưng của dữ liệu.

gian ban đầu của dữ liệu gốc Gồm nhiều lớp nơ-ron tương tự như bộ mã

hóa nhưng có câu trúc ngược lại

26

Tiêu đề	Cơ chế đảm bảo quyền riêng tư và chống tấn công đầu độc cho hệ thống IDS liên kết phi tập trung
Tác giả	Nguyen Tran Anh Quan - 20521793, Luong Ha Tien - 2052082
Người hướng dẫn	ThS. Phan The Duy, ThS. Bui Thanh Binh
Trường học	Đại học Quốc Gia TP. Hồ Chí Minh
Chuyên ngành	An toàn thông tin
Thể loại	Khóa luận tốt nghiệp
Năm xuất bản	2024
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	115
Dung lượng	42,74 MB