1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp An toàn thông tin: Nghiên cứu, phát triển hệ thống phát hiện xâm nhập mạng cho hạ tầng Internet of Things

61 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên cứu, phát triển hệ thống phát hiện xâm nhập mạng cho hạ tầng Internet of Things
Tác giả Vu Minh Duc, Duong Tran Tra My
Người hướng dẫn ThS. Nguyễn Khỏnh Thuật
Trường học Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành An toàn thông tin
Thể loại khóa luận tốt nghiệp
Năm xuất bản 2024
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 61
Dung lượng 63,49 MB

Nội dung

TÓM TẮTVới sự gia tăng nhanh chóng của các dịch vụ Internet of Things IoTs, các thiết bị IoTs thông minh ngày càng được triển khai ở biên mạng không dây để thực hiện các nhiệm vụ học máy

Trang 1

ĐẠI HỌC QUOC GIA THÀNH PHO HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN

KHOA MẠNG MAY TÍNH VA TRUYEN THONG

VU MINH DUC - 20520163

DƯƠNG TRAN TRA MY - 20520640

KHOA LUAN TOT NGHIEP

RESEARCH, DEVELOPMENT NETWORK INTRUSION DETECTION

SYSTEM FOR INTERNET OF THINGS INFRASTRUCTURE

CU NHAN NGANH AN TOAN THONG TIN

GIANG VIEN HUGNG DAN

ThS Nguyễn Khánh Thuật

TP HO CHÍ MINH, 2024

Trang 2

LỜI CẢM ƠN

Để hoàn thành khóa luận tốt nghiệp này, chúng tôi xin gửi lời cảm ơn đến Bangiám hiệu Trường Dai học Công nghệ Thông tin — Đại học Quốc Gia Thành Phố

Hồ Chí Minh vì đã tạo điều kiện học tập, nghiên cứu tốt nhất Cảm ơn quý thầy cô

giảng dạy tại trường nói chung và Khoa Mạng máy tính và Truyền thông nói riêng

vì đã truyền đạt những kiến thức chuyên môn bổ ích, những kinh nghiệm thực tế quý

báu mà chúng tôi đã học hỏi được trong suốt quá trình học tập, rèn luyện tại trường

Chúng tôi xin chân thành tri ân ThS Nguyễn Khánh Thuật là người đã định hướng,

trực tiếp quan tâm, hướng dẫn tận tình trong suốt quá trình thực hiện dé tài Cuối

cùng, do kiến thức chuyên môn còn hạn chế nên khóa luận chắc chắn không tránh

khỏi những thiếu sót Rất mong nhận được nhận xét, ý kiến đóng góp, phê bình từ quý thầy cô trong hội đồng để khóa luận được hoàn thiện hơn.

Nhóm tác giả

li

Trang 3

TÓM TẮT

Với sự gia tăng nhanh chóng của các dịch vụ Internet of Things (IoTs), các thiết

bị IoTs thông minh ngày càng được triển khai ở biên mạng không dây để thực hiện

các nhiệm vụ học máy liên kết bằng cách sử dụng dữ liệu được thu thập cục bộ, tạo

ra mô hình học tập ở biên Do các hạn chế về thiết bị cũng như hạn chế về mặt tài nguyên, việc học tập biên giữa các thiết bị IoTs phải đối mặt với những thách thức

kỹ thuật lớn do tắc nghẽn giao tiếp, tính không đồng nhất của dữ liệu và mô hình,

các van dé về quyển riêng tư và bảo mật Dé vượt qua những thách thức này, bàiviết này đưa ra sự so sánh tổng quan về accuracy, precision, recall, Fl-score, thời

gian huấn luyện, mức độ sử dụng CPU, Memmory giữa học tập bẩy đàn (Swarm Learning) thông qua sự tích hợp giữa học sâu, học tập liên kết và mạng chuỗi khói

và federtated learning - FlowerBC điều này sẽ mang lại lợi ích cho nhiều ứng dung

lơT ở biên.

1H

Trang 4

MỤC LỤC

Thông tin hội đồng bảo vệ khóa luận i

iii

Muc luc iv

Danh muc cac bang vii

Danh muc cac hinh ve va do thi viii

Danh mục từ viết tắt Xx

Chuong 1 Mở dau 1

11 Ly dochon đểtài| 1

1.2 Các nghiên cứu lên quan} 2

1.3 Mục tiêu, đối tượng và phạm vi nghiên cứu 5 1.3.1 Mục tiêu nghiên cứu| 5

1.3.2 Đôi tượng nghiên cứu| - 5

143.3 Phạmvinghincứu| 5

1.4 Phương pháp nghiên cứu| - 5

1.5 _ Các đóng góp chính của dé tài - 6

1.6 Câu trúc Khoá luận tốt nghiệp| - 6

Chương 2 Cơ sở lý thuyết 7 2.1 Hệ thông phát hiện xâm nhập - Intrusion Detection Systems (IDS)| 7

2.1.1 Intrusion Detection Systems (IDS) cho Internet of Thnøs(IoD| 8 2.2 Mohinhhoc may:} ee 10 2.2.1 MachneLearnnp| - 10

2.2.2 DeepLearnngl Ặ Ặ Ặ Ặ Q Q eee eee 12 2.2.2.1 Giới thiệu| ẶẶ So 12 2222 Tongquan) - 13

1V

Trang 5

MỤC LỤC

2.2.2.3 Cách hoạt động|

2.2.2.4 Model Convolutional Neural Network (CNN)

2.2.2.5 Model Recurrent Neural Network (RNN)|

2.2.2.6 Học máy cho Intrusion Detection Systems (IDS)} 2.2.3 Học máy liên kết - Federated Learning]

2.2.4 Flowerffamework|

2.2.5 FlwrBC frameworkl

2.3 Học bay đàn - Swarm

Learning| -Chương 3 Phuong pháp thực hiện 3.1 Mô hình đề xuất 3.2 Swarm Learning 3.21 Kiếntrúchệthống

3.2.2 Quá trình

vậnhành| -33 FlwrBC

3.3.1

Kiếntrúchệthông| -3.3.2 Quá trình

vậnhành| 3.4 Centralized machine learnngl

-3.5 Phân tích dữ liệu 35.1 CICIol2023l

35.2 CICloMI2024l

4.12 CICloMTI2024

4.2 Môitrường

4.3 Thuật toán hợp

nhấtmôhình -4.4 Kichbản

4.5 Tiêu chí đánh giá 4.6 Kết quả - Đánh

giá -4.6.1 CiClol23

14 15 17 17

18 19

20

23 23 23

23

25 27 27 28 29

30 30 34

Trang 6

Tài liệu tham khảo

Phụ lục A Công bô khoa học

VI

Trang 7

DANH MỤC CÁC BANG

Lee 41

4.2_ Kết quả thực nghiệm trên tập dữ liệu CiCIoT23 414.3 Kết quả thực nghiệm trên tập dữ liệu CiCloMT24 434.4 Bảng thống kê số lần được bau làm leader của các host 44

Trang 8

DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ

tiiiiaaaaÝ< 9

¬ e ee, 10

ee 10

4a eee 13

meio me ee 16

2.7 Elower framework architecturlf| 19

2.8 FlwrBC framework structure[Sl|_ - 20

2.9 Swarm Learning framework structure [2]] 21

3.1 NIDS network archiecturel - 23

QP Ae 24 le 26 3.4 FlwrBC archtecturel - 27

35 FlwrBC workflow[S8]] 28

3.6 Mô hình Machine Learnng| - 30

3.7 Data processing: converting pcap files to csv [12]} 31

3.8 Feature CiCloI2023[I2]l - 32

3.9 Number of samples according to attack types [12]| 33

3.10 Data processing: converting pcap files to csv [I3]| - 35

3.11 Feature CICloMT2024[13]| - 35

4.1 Số lượng bản ghi theo tan công CiCIoT2023 [12] 37 4.2_ Số lượng bản ghi theo tan công CiCloMT2024 [13]| 37

4.3 Số lượng bản ghi theo tân công CiCloMT2024 [13] | 38 4.4 Thuật toán hợp nhất mô hình[|_ - 39

Trang 9

DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ

` aaaa ai ee 39 4.6 Số lượng bản ghi theo kịch bản của tập dữ liệu CiCloMT24 (màu

KT aaaaHaa aa 40

4.7 Biểu đồ mức độ sử dụng CPU trên tập dữ liệu CiCIoT23 42 4.8 Biểu đồ mức độ sử dụng RAM trên tập dữ liệu CiCIoT23 42 4.9 Biểu đồ mức độ sử dụng CPU trên tập dữ liệu CiCloMT24 43 4.10 Biểu đồ mức độ sử dung RAM trên tập dữ liệu CiCloMT24 44

4.11 Cơ chế dừng của Swarm Learning (SL)| - 45

4.12 Cơ chế dừng của Flower (Flwr)| 45

4.13 Cơ chế đóng góp trọng số của Swarm Learning (SL)|} 46

4.14 Cơ chê đóng góp trọng số của Flower (Flwr)| - 46

Trang 10

DANH MỤC TU VIET TAT

AI Artifial Intelligence

BRNN _ Bidirectional recurrent neural networks

CL Centralized Machine Learning

CNN Convolutional Neural Network

HIDS Host Intrusion Detection Systems

IDS Intrusion Detection Systems

loT Internet of Things

IP Internet Protocol

IPFS InterPlanetary File System

LSTM Long short-term memory

ML Machine Learning

NIDS Network Intrusion Detection Systems

NLP Natural Language Processing

RNN Recurrent Neural Network

SL Swarm Learning

SN Swarm Network

SWCI Swarm Learning Command Interface

SWOP_ Swarm Operator

Trang 11

Chương 1 MỞ ĐẦU

1.1 Lý do chọn dé tài

Ngày nay, Internet of Things (IØT) đã và đang trở thành thành phan thiết yếu trong

các hệ thống thông minh hiện nay như: Smart City, Smart Home, Smart Agriculture,

Báo cáo tính đến quý 4 năm 2022 của Io Analytics [1] cho thấy số lượng kết

nối IøT toàn cầu đã tăng 18% vào năm 2022 lên 14,3 tỷ điểm cuối IoT đang hoạtđộng Vào năm 2023, IoT Analytics dự kiến số lượng thiết bị IoT được kết nối trêntoàn cầu sẽ tăng thêm 16%, lên 16,7 tỷ điểm cuối hoạt động Với số lượng các thiết

bị IoT lớn và việc thu thập, chia sẻ dữ liệu thông qua mạng không dây, điều đó đồng thời tiềm ẩn nhiều mối đe dọa liên quan đến vấn dé bảo mật cụ thể là việc xâm nhập

vào hệ thống

of r TM Your Global loT Market Research Partner PLOT ¿ ICS lay 2023 jour Global loT Mã aren Partne

Global loT market forecast (in billions of connected loT devices)

Mã 2 7 eonnectivity type CAGR 21-22 CAGR 22-27

Tính ứng dụng của các mô hình học máy hiện đại đang được chú ý hơn bao giờ

hết vì khả năng xử lý dữ liệu lớn cũng như dự đoán các van dé về bảo mật Với

phương pháp học máy truyền thống, dữ liệu học tập được thu thập trên một máy chủtập trung Không giải quyết được các mối lo ngại về quyền riêng tư cũng như giảm

dữ liệu chi phí truyền tải Ngoài ra, hạn chế về mặt phần cứng như bộ xử lí, bộ nhớ,

năng lượng, tài nguyên mạng của các thiết bị IoT không thể đáp ứng được cho mô

hình học máy phức tạp và lượng dữ liệu học tập lớn Từ đó mô hình thu được sau quá trình học có độ chính xác chưa cao.

Học tập liên kết, về cơ bản là phương pháp học máy phân tán giải quyết vấn đề

Trang 12

CHUONG 1 MỞ ĐẦU

về dữ liệu học tập được phân tán không còn ở trên một máy chủ tập trung Mặc dù

dữ liệu là phi tập trung trong các mô hình học máy liên kết, nhưng vẫn tổn tai máy chủ tập trung nơi lưu trữ các tham số cấu hình của mô hình, đảm nhận nhiệm vụ tổng hợp mô hình dựa theo các tham số được cung cấp từ các máy biên trong hệ

thống Năm 2023, Hewllet Packard giới thiệu về một khung mang tên Học bầy đàn

(2) Công cu nay kết hợp giữa co sở hạ tang phan cứng phi tập trung (dữ liệu lưu trữ

phi tập trung) va hoc máy phân tán (dựa trên các công cu Artifial Intelligence (AI)

được tiêu chuẩn hóa ứng dụng công nghệ chuỗi khối) để cấp phép cho các thành

viên tham gia một cách an toàn, đồng thời bầu chọn người lãnh đạo và hợp nhất các tham số mô hình.

Mục tiêu của nghiên cứu là: Thực hiện triển khai, so sánh ưu và nhược điểm giữa

khung học bầy đàn so với học liên kết và học máy truyền thống

1.2 Các nghiên cứu liên quan

Một số bài báo khoa học đã được xuất bản trên Intrusion Detection Systems (IDS)

sử dụng kỹ thuật Machine Learning (ML) và khai thác dữ liệu Tuy nhiên, về cơ

bản, các công trình trước đây chỉ sử dụng các phương pháp ML để phát hiện sự xâm

nhập trong các mạng thông thường.

Bhavsar và cộng sự đã phát triển một hệ thống phát hiện xâm nhập dựa

trên dị thường cho ứng dụng IoT sử dụng mô hình mạng nơ-ron tích chập Pearson

Correlation Coefficient (PCC-CNN) Phương pháp này được đánh giá bằng bộ dữ

liệu NSL-KDD, CICIDS-2017, IOTID20 Kết quả cho thấy mô hình PCC-CNN đề xuất vượt trội so với các phương pháp học máy truyền thống, đạt độ chính xác phát hiện 99,89% và tỷ lệ phân loại sai lầm thấp 0,001 Mô hình tích hợp dựa trên học

sâu của nhóm tác giả cũng cho thấy hiệu suất hứa hẹn với tỷ lệ phân loại sai lầm

(hoặc tỷ lệ báo động giả) là 0,02, 0,02 và 0,00 với bộ phân loại xâm nhập nhị phân

và đa lớp Nghiên cứu này cho thấy sự vượt trội của phương pháp dựa trên học sâu

so với các kỹ thuật học máy truyền thống trong việc phát hiện xâm nhập và phânloại tấn công trong các ứng dụng IoT

Bài viết của Saheed và cộng sự [4] đề xuất một hệ thống phát hiện xâm nhập dựa

trên máy học (ML-IDS) để phát hiện các cuộc tấn công mạng IơT Mục tiêu chính

2

Trang 13

Anomaly-based intrusion detection

system for loT application

enabled loT network network attacks

Hệ thống phát hiện xâm nhập dựa trên dị

Ứng dụng các kỹ thuật học máy để phát hiện thường cho ứng dụng loT sử dụng mô IDS phân tán cho các cuộc tắn công

Mục tiêu DDoS trong mạng loT dựa trên blockchain xâm nhập trong mạng loT hình mạng nơ-ron tích chập Pearson

Correlation Coefficient (PCC-CNN)

Phương pháp Hoc máy giám sát Học máy giám sát Học sâu

Principal Component Analysis (PCA) {Extreme gradient boosting (XGBoost), Cat Thuật toán Random Forest (RF), Extreme Gradient Boost, K Nearest neighbor (KNN), Support Pearson Correlation Coefficient -

Boosting (XGBoost) vector Machine (SVM), Quadratic Convolutional Neural Network (PCC-CNN)

discriminant analysis (QDA), Naive Bayes

(NB)}

Bộ Dữ liệu BoT-loT UNSW-NB15 NSL-KDD, CICIDS-2017, IOTID20.

Analysis,Backdoor, DoS, Exploit, Generic,

Loại Tắn Công DDoS Reconnaissance, Fuzzers,Shellcode, and DDoS, DoS, Mirai botnet, Port Scan

Worm

Randhir Kumar, Prabhat Kumar, Rakesh

Tripathi, Govind P Gupta, Sahil Garg, Mohammad Mehedi Hassan,

A distributed intrusion detection system to detect DDoS attacks in blockchain-enabled

Ref loT network,

Journal of Parallel and Distributed

Computing, Volume 164, 2022,Pages

55-Yakub Kayode Saheed, Aremu Idris Abiodun, Sanjay Misra, Monica Kristiansen Holone,

Ricardo Colomo-Palacios, Bhavsar, M., Roy, K., Kelly, J et al.

A machine learning-based intrusion detection Anomaly-based intrusion detection system for detecting internet of things network for loT application Discov Internet Things

attacks, 3, 5 (2023).

Alexandria Engineering Journal, Volume 61, _ Issue 12, 2022, Pages 9395-9409, ISSN 5

https://doi.org/10.1007/s43926-023-00034-68,ISSN 0743- Toon

7a 1s inipsiiich one 10.1016/iipdo.2022.01: tins: //doi.org/10.1016/.ae).2022.02.063

Hình 1.2 So sánh các bài báo liên quan về phát hiện xâm nhập mạng

của nghiên cứu này tập trung vào việc áp dụng IDS dựa trên thuật toán được giám

sát ML cho IoT Trong giai đoạn đầu tiên của phương pháp nghiên cứu này, việc chia

tỷ lệ tính năng được thực hiện bằng cách sử dụng khái niệm chuẩn hóa Tối thiểu-tối

đa trên tập dữ liệu UNSW-NB15 để hạn chế rò rỉ thông tin trên dữ liệu thử nghiệm.

Bộ dif liệu này là sự kết hợp của các cuộc tấn công hiện đại và các hoạt động bìnhthường của lưu lượng mạng được nhóm thành chín loại tấn công khác nhau Trong

giai đoạn tiếp theo, việc giảm kích thước được thực hiện bằng Phân tích thành phần

chính (PCA) Cuối cùng, sáu mô hình học máy được đề xuất đã được sử dụng để

phân tích Các phát hiện cũng được so sánh với các công trình hiện có và kết quả có

tính cạnh tranh với độ chính xác 99,9% và MCC là 99,97%.

Bài viết của Kumar và cộng sự [5] đề xuất một Hệ thống phát hiện xâm nhập phântán (IDS) mới sử dụng điện toán sương mù để phát hiện các cuộc tấn công DDoSchống lại nhóm khai thác trong Mạng IoT hỗ trợ chuỗi khối Hiệu suất được đánhgiá bằng cách đào tạo Rừng ngẫu nhiên (RE) và hệ thống tăng cường cây gradient

được tối ưu hóa (XGBoost) trên các nút sương mù phân tán Hiệu quả của mô hình

được dé xuất được đánh giá bằng cách sử dụng bộ dữ liệu dựa trên IoT thực tế, tức làBoT-IoT, bao gồm hầu hết các cuộc tan công gan đây được tìm thấy trong mạng IoT

Trang 14

CHƯƠNG 1 MỞ ĐẦU

hỗ trợ chuỗi khối Kết quả cho thấy, đối với XGBoost phát hiện tan công nhị phânhoạt động tốt hơn trong khi đối với phát hiện nhiều cuộc tấn công Rừng ngẫu nhiên

lại hoạt động tốt hơn Nhìn chung trên các nút sương mù phân tán RF mất ít thời

gian hơn cho việc đào tạo và thử nghiệm so với XGBoost

Năm 2021, nhóm tác giả [6] có giới thiệu một hệ thống mới mang tên Swarm

Learning (SL) Một hệ thống học sâu phân tán không có bất cứ một server tập trungnào cũng như được tích hợp trực tiếp vào hệ thống chuỗi khối Nhóm tác giả đã nhắn

mạnh vào việc tạo điều kiện thuận lợi cho việc tích hợp mọi đữ liệu y tế từ bất kỳ

chủ sở hữu dif liệu nào trên toàn thế giới mà không vi phạm luật về quyền riêng tư

và vượt xa các phương pháp học tập liên kết thông thường

® Local learning cd Central learning © Federated learning g Swarm Learning

Model Private data Model Private data

anette eens, PBMC tra os Í ot

Model Private data’sParwneters Parameters.” Model Private data =

re -_ ` “ ALLMDS CMAL CLÍ Vaccination A Other Healthy

i Whole blood transcriptomes (dataset 8)

9 EA) 1,900 1.300 2.000 Swarm edge node Swarm edge nocke

Active tuiercuiosss Ù

(Tey Latert TR HIV Fatigue AD Meaty

j Whole blood and granulocyte k Whole blood transcriptornes ! X-ray images.

transeriptorres (dataset E) (dataset D) (dataset C)

ụ 500 1000 1500 2000 L 300 1000 1403 2000 0 20,000 40,000 60000 189,000

COVID- 19 | ——— COWG.tọ : : = Ot |

Convalescent COVID-19 Inf Sepsis Meakthy Acute TH Latent TE Hv Fatigue AID Healthy Alglectasis Effusion infitration »1 label Hed#fny

Hinh 1.3 Swarm-learning (6)

Vào năm 2023, nhóm tác giả [7] sử dung SL trong việc chẩn đoán lỗi vòng bi để

theo dõi các điều kiện vận hành máy móc và thiết bị quay Khung này coi mọi nhà

máy như một nút điện toán biên và giải quyết tình trạng thiếu dif liệu được gắn nhãn

và bảo vệ quyền riêng tư bằng cách hợp nhất các tham số mạng tích chập Mô hình

CNN được sử dụng để tính toán từng nút và các nút lãnh đạo được chọn linh hoạt để

Trang 15

CHƯƠNG I MỞ ĐẦU

hợp nhất các tham số mô hình trong quá trình đào tạo

1.3 Mục tiêu, đối tượng và phạm vi nghiên cứu

1.3.1 Mục tiêu nghiên cứu

» Nghiên cứu, triển khai hệ thống phát hiện xâm nhập mang trong IơT sử dụng

mô hình học sâu.

» Nghiên cứu ứng dung học liên kết trên nền tảng chuỗi khối [8] trong triển khai

hệ thống phát hiện xâm nhập mạng IoT

¢ Nghiên cứu ứng dụng khung học bay đàn [2] để trong triển khai hệ thống phát

hiện xâm nhập mang IoI.

« Đánh giá hiệu suất của hệ thống ứng dụng khung học bay đàn dé xuất so với

hệ thống sử dụng học liên kết trước đó

1.3.2 Đối tượng nghiên cứu

* Hoc sâu (Deep Learning — Long short-term memory, sử dụng thêm nhiều mô

hình và các bộ dataset khác nhau dé so sánh )

* Học bay đàn (Swarm Learining)

* Học liên kết (Federated Learning)

1.3.3 Phạm vi nghiên cứu

So sánh SL với Flower BlockChain (FlwrBC) (khung Flower (Flwr) chạy trên nền chuỗi khối) khi triển khai trên hệ thống phát hiện xâm nhập mang cho ha tầng IoT

với các bộ dataset khác nhau.

1.4 Phương pháp nghiên cứu

» Tìm hiểu các bài báo liên quan đến phát hiện xâm nhập mạng trong hệ thống

IoT được đăng tai các hội nghị uy tín Xây dựng tập dữ liệu liên quan đến xâm

nhập mạng trong IoT Chon loc mô hình hoc sâu phù hợp và sử dung tập dữ

Trang 16

CHƯƠNG 1 MỞ ĐẦU

liệu CICIoT2023 và CiCloMT2024 để tiến hành huấn luyện và đưa ra đánh giá

tính phù hợp của mô hình học sâu.

* Cài đặt và triển khai khung Flwr (nền tang chuỗi khối) trên hệ thống Cloud

của khoa Mang máy tinh và truyền thông — UIT

* Cài đặt và triển khai khung SL trên hệ thống cloud của khoa Mạng máy tinh

và truyền thông - UIT

* Tìm hiểu các tiêu chí đánh giá cho mô hình hoc máy và toàn bộ hệ thống; Tổng

hợp các số liệu dựa trên các tiêu chí đánh giá

1.5 Các đóng góp chính của đề tài

Trong KLTN này, nhóm thực hiện xây dựng triển khai hệ thống NIDS cho IoTs trêncác kiến trúc học máy, thực nghiệm đánh giá trên hệ thống tập trung và phi tập trung.Đưa ra kết luận, so sánh và đánh giá hiệu suất, đánh giá tổng quan của hệ thống học

bầy đàn với hệ thống học liên kết chạy trên nền blockchain.

1.6 Cấu trúc Khoá luận tốt nghiệp

Khóa luận với đề tài “NGHIÊN CỨU, PHÁT TRIEN HỆ THONG PHAT HIỆN XÂM NHẬP MẠNG CHO HẠ TẦNG INTERNET OE THINGS” được trình bày

bao gồm 5 chương Nội dung tóm tắt từng chương được trình bày như sau:

* Chương 1: Mở dau.

* Chương 2: Cơ sở lý thuyết.

» Chương 3: Phương pháp thực hiện.

¢ Chương 4: Thực nghiệm, đánh giá va thảo luận.

* Chương 5: Kết luận và hướng phát triển.

Trang 17

Chương 2 CƠ SỞ LÝ THUYET

Chương này trình bày sơ lược cơ sở lý thuyết của nghiên cứu bao gồm: Lý thuyếtHọc máy, học sâu, Hệ thống phát hiện xâm nhập (IDS), mô hình học bầy đàn - SL,

mô hình học liên kết - Federated Learning (FL) - FlwrBC

2.1 Hệ thong phát hiện xâm nhập - IDS

IDS là phần mềm hoặc phần cứng tự động thực hiện quy trình phát hiện xâm nhập.Chủ yếu tập trung vào xác định các sự cô có thể xảy ra, ghi nhận các thông

tin liên quan, cố gắng ngăn chặn và báo cáo cho các quản trị viên bảo mật Mục tiêu:đảm bảo an toàn cho mạng hoặc hệ thống máy tính theo bộ ba CIA (Confidentiality

- Integrity - Availability).

Có 2 cách phân loại IDPS:Phân loại dựa trên Cac ky thuật phát hiện tan

công (Signature-based, Anomaly-based, Specification-based) và Phân loại dựa trên

Nguồn dữ liệu (Network-based, Host-based); Mỗi có một chức năng và nhiệm vụ

riêng chúng:

¢ Network Intrusion Detection Systems (NIDS): theo dõi lưu lượng mạng cho

một phan của mang (network segment) hoặc các thiết bị, phân tích các hoạt

động mạng và các giao thức, ứng dụng để xác định các hành vi bất thường Thường triển khai ở biên mạng , như gần tường lửa hoặc router biên , server

VPN, server remote access và mang không dây Gồm nhiều sensor đặt ở nhiều

điểm khác nhau trong mạng để theo dõi lưu lượng mạng

* Host Intrusion Detection Systems (HIDS): theo dõi các đặc điểm của một

host riêng lẻ và các sự kiện xảy ra trong host đó để phát hiện hoạt động bất

thường Được triển khai trên host quan trọng (các server có thể truy cập từ bên

ngoài, các server chứa thông tin quan trọng).

¢ Signature-Based IDS: (hay còn gọi knowledgebased) là một quá trình so sánh

các signature với các sự kiện quan sát được để xác định các sự cố có thể có

»° Anomaly-Based IDS: (hoặc profile-based) hoạt động dựa trên việc: Tạo ra

một profile cơ sở đại diện cho các hành vi bình thường/dự kiến trong mạng

7

Trang 18

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT

Dựa trên đó, bất kỳ hoạt động mạng đang xem xét nào có sai khác so vớiprofile này đều bị xem là bất thường Profiles đại diện cho hoạt động mạng

bình thường hầu hết được tạo ra thông qua phân tích lịch sử lưu lượng mạng (qua các hàm thống kê, máy hoc, clustering, fuzzy logic, heuristics )

¢ Specification-Based IDS: thu thập các hoạt động chính xác của một chương

trình hoặc giao thức và theo dõi hoạt động của nó dựa trên các ràng buộc Sử

dụng mô hình giao thức chủ yếu dựa trên các chuẩn giao thức từ các nhà sảnxuất phần mềm và tiêu chuẩn (IEFT, RFC)

Network Intrusion Host Intrusion Anomaly-Based

Detection Detection Detection

Hình 2.1 Minh họa phân loại IDS}

2.1.1 IDS cho IoT

A passive IơT-based sensor là một loại cảm biến được cài đặt để giám sát lưu lượng

mạng mà không can thiệp vào nó Nó tạo một bản sao của lưu lượng thực tế trong mạng và giám sát nó thông qua một cổng mở rộng chuyển mạch, cổng này cho phép

tất cả lưu lượng đi qua chuyển mạch Cách tiếp cận này cho phép cảm biến phát hiện

và phân tích hoạt động mạng mà không làm gián đoạn hoạt động đó

¢ Dựa trên Các kỹ thuật phát hiện tấn công: Signature-based, Anomaly-based,

Specification-based, Hybrid (lai)

* Dựa trên Nguồn dữ liệu: NIDS, HIDS, Hybrid (lai)

Inttps://vietnix.vn/ids-la-gi/

Trang 19

CHƯƠNG 2 CƠ SỞ LÝ THUYET

Hạn chê của các mô hình IoT:

« Hệ thống IoT bị hạn chế về khả năng tính toán, dung lượng bộ nhớ, độ bền,

tuổi thọ pin và băng thông mạng Do đó, không thể triển khai các dịch vụ hiện

có, các giải pháp bảo mật truyền thống thường sử dụng nhiễu tài nguyên.

« Các hệ thống IoT là các hệ thống phân tán và không đồng nhất

* Các hệ thống IoT được kết nối với Internet vì mỗi thiết bị có thể được truy cập

bằng địa chỉ IP của nó Do đó, có thêm một loạt các mối đe dọa liên quan đến

Các mối đe dọa đến mô hình IơTs được chia thành 2 loại: dựa trên Kiến trúc

hệ thống (based on the layers of the IoT system’s architecture) và dựa trên Thiết kế

(based on design challenges) [9]

‘https: //www.researchgate.net/publication/329394492

9

Trang 20

CHƯƠNG 2 CƠ SỞ LÝ THUYET

- Tan công dựa trên kiến trúc hệ thống:

Perception Layer Network Layer Application Layer

sâu Wired Clow =

loT eee ne LoRa N ` =

Architecture Gateway ~~ đề, Data center

Router Internet

Wireless Web Application \ Local Network / EJ

Application

7 bì

Layer wise Physical damage Data interchange vulnerability Native application vulnerability

loT Attacks Resources constraints Unauthorized access Cloud applications vulnerability

Storage vulnerabilities PB Multifarious connectivity vulnerability Cryptographic vulnerability

Hình 2.3 IoT architecture & layer wise attacks}|

* Tan công dựa trên Design challenges:

Connectivity Heterogeneity

L— Spoofing MITM

LE Routing attacks

Resource &

service discovet

— Spoofing Dos

— User privacy User p' privacy

Dos Addressing Trust & Privacy

eure & identification Kong Tampering

Spoofing Information leaka

ïi La

Repudiation Laake Bk DoS

5 _

Elevation of s.400603040Ác0 2c) User privacy

privilege User privacy Cloning of nodes

Hình 2.4 IoT threats categorization by design challenges")

2.2 Mô hình hoc máy:

2.2.1 Machine Learning

Hoc máy hay máy hoc (Machine Learning) là quá trình sử dung các dữ liệu đã thấy

để đưa ra thuật toán dự đoán cho những dữ liệu chưa từng thấy (dit liệu tương lai)

Một số ứng dụng phổ biến của học máy bao gồm hệ thống dé xuất (recommend

system), hệ thống phát hiện bất thường (anomaly detection), IDS, phần mềm độc hại

(malwares), loc thư rác (spam email)

semanticscholar.org/CorpusID: 86720272

Trang 21

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT

Có bốn cách tiếp cận cơ bản: học có giám sát, học không giám sát, học bán giám

sát và học tăng cường Loại thuật toán mà các nhà khoa học sử dụng tùy thuộc vào

loại dit liệu họ muốn dự đoán.

¢ Học giám sát (Supervised Learning): Trong phương pháp hoc nay, dữ liệu đưa

vào học đã được gán nhãn trước, tức là thuật toán sẽ dự đoán đầu ra của một

dữ liệu mới đưa vào và so sánh đầu ra với nhãn sẵn có của dữ liệu đó (tức làcác cặp (dữ liệu, nhãn)) Mục đích của việc học này nhằm tìm mối tương quancủa đầu vào và đầu ra để có thể dự đoán được nhãn của một dữ liệu chưa được

học.

Sử dụng toán học có thể mô tả như sau: chúng ta có một tập hợp biến đầu vào

X = %,%2, ,#n Và tập hợp nhãn tương ứng Y = 1⁄1,a, , yn, trong đó

xt, yi là các vector, và các cặp đữ liệu (2;,y;) € X x YVi = 1,2, , N là các

dữ liệu huấn luyện Mô hình cần tạo ra được ánh xạ ƒ :

sao cho #j; © ;, và yj; càng gan y; thì mô hình càng chính xác và khi có một dữ

liệu mới 29, chúng ta có thể tim được nhãn tương ứng của nó yo = ƒ(zo)

Một bài toán học có giám sát mà có số lượng hữu hạn rời rạc các nhãn đầu ra

còn gọi là bài toán phân loại (classification), còn các nhãn là rời rac vô han là

bài toán hồi quy (regression)

¢ Học không giám sat (Unsupervised Learning): Trong phương pháp học nay,

dữ liệu đưa vào đào tạo không được gắn nhãn, chúng ta không biết câu trả lời

chính xác cho mỗi dữ liệu đầu vào Thuật toán học qua các dữ liệu trong tập dé

tìm kiếm bắt kỳ kết nối có ý nghĩa nhằm để thực hiện một công việc nào đó,

ví dụ như phân nhóm (clustering) hoặc giảm số chiều của dữ liệu (dimension

reduction) để thuận tiện trong việc lưu trữ và tính toán.

* Học bán giám sát (Semi-Supervised Learning): Phương pháp này kết hợp đặt

tính của cả hai phương pháp học có và không có giám sát, lượng lớn dữ liệu

huấn luyện đưa vào mô hình nhưng chỉ một phần trong chúng được gán nhãn.

II

Trang 22

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT

Dữ liệu huấn luyện có nhan có thể cung cấp một góc nhìn cho mô hình học

máy, nhưng mô hình có thể tự do khám phá dữ liệu và phát triển sự hiểu biết của riêng mình về tập dữ liệu Một ví dụ điển hình của nhóm này là chỉ có một phần ảnh (trong bài toán nhận dạng và phân loại khuôn mặt trong ảnh) và phần

lớn các bức ảnh được thu thập bởi một nền tảng mạng xã hội, sau đó đưa vàohuấn luyện mô hình để tự động nhận dạng và gán nhãn 1 người trong bức ảnhmới Vì việc thu thập dữ liệu có nhãn tốn rất nhiều thời gian và có chi phí cao,

nên phương pháp học có thể ứng dụng nhiều tuy nhiên có thể đánh đổi bởi độ chính xác, hiệu năng phân loại Rất nhiều loại dữ liệu thậm chí cần phải có

chuyên gia mới gán nhãn được (ảnh y học chẳng hạn) Ngược lại, dữ liệu chưa

có nhãn có thể được thu thập với chi phí thấp từ internet

s Hoc tăng cường (Reinforcement Learning): Phương pháp hoc dùng để day mô

hình hoàn thành một quy trình gồm nhiều bước trong đó có các quy tắc đượcxác định rõ ràng, có một thuật toán để hoàn thành một nhiệm vụ và cung cấpcho nó những dấu hiệu tích cực hoặc tiêu cực khi nó tìm ra cách hoàn thànhmột nhiệm vụ, giúp cho một hệ thống tự động xác định hành vi dựa trên hoàncảnh để đạt được lợi ích cao nhất khi hoàn thành nhiệm vu Reinforcement

learning chủ yếu được áp dụng vào Lý Thuyết Trò Chơi, các thuật toán cần xác

định nước đi tiếp theo để đạt được điểm số cao nhất

2.2.2 Deep Learning

2.2.2.1 Giới thiệu

Deep Learning là một phần của ML, về cơ bản là một mạng neural có 3 lớp trở lên

Nó cố gắng mô phỏng hành vi của bộ não con người Deep Learning thúc đẩy sự

phát triển của nhiều ứng dụng và dịch vụ AI như cải thiện khả năng tự động hóa,

12

Trang 23

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT

Hình 2.5 Mối liên hệ AI, ML, DLỆT

2.2.2.2 Tổng quan

Về cơ bản, ML sử dụng đữ liệu có cấu trúc, được gắn nhãn đề đưa ra dự đoán — các

tính năng cụ thể được xác định từ dữ liệu đầu vào cho mô hình và được sắp xếp thành

bảng Tuy nhiên trong một số trường hợp ML vẫn có sử dụng dữ liệu phi cấu trúc,

nhưng các dữ liệu đó thường sẽ trải qua một số quá trình tiền xử lý để định dạngthành dữ liệu có cấu trúc

Học sâu là một phân nhánh của các phương pháp học máy, trong đó phần nềntảng của học sâu là mô hình mạng thần kinh nhân tạo Mạng thần kinh nhân tạo(Neural networks) là hệ thống lấy cảm hứng từ bộ não con người và cách mạng

mạng thần kinh xử lý thông tin và tính toán [i0] Một mạng thần kinh truyền thắng

cơ bản bao gồm các nơ-ron nhân tạo chứa các hàm tính toán toán học và được tổ

chức thành các lớp Các lớp nằm giữa lớp đầu vào và lớp đầu ra được gọi là các lớp

ẩn Mỗi lớp ẩn nhận các thông số từ lớp trước đó, tính toán, chuyển đổi trên nó vàtruyền thông số đến lớp kế tiếp Cứ như vậy, trong quá trình huấn luyện mô hình,các nơ-ron học hỏi và tối ưu các trọng số của mô hình để giảm thiểu tối đa các giá

trị của hàm mất mát tính toán dựa trên giá trị đầu ra của mạng nơ-ron và giá trị thực

tế Kỹ thuật học sâu (Deep Learning) là một nhánh con của các phương pháp họcmáy, trong đó dựa trên việc sử dụng mạng thần kinh sâu với nhiều hơn một lớp ẩn

Đối với Deep Learning (DL), nó sẽ loại bỏ các tiền xử lý (thường liên quan đếnML) Các thuật toán của DL có thể nhập và xử lý dữ liệu phi cấu trúc (ví dụ: văn ban,

hình ảnh) Ngoài ra, DL còn tự động trích xuất các tính năng, thuộc tính, đặc tính và

13

Trang 24

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT

loại bỏ một số công việc phụ thuộc vào sự hỗ trợ của con người Sau đó thông quacác quá trình gradient descent và backpropagation, thuật toán DL sẽ điều chỉnh và tự

điều chỉnh để đạt được độ chính xác, cho phép thuật toán này đưa ra dự đoán về một

bức ảnh động vật mới với độ chính xác cao hơn Vi dụ: Trong ngữ cảnh có | tập dữ

liệu về hình ảnh về các vật nuôi bao gồm chó, mèo, chim, hamster Các thuật toán

DL có thể xác định đặc điểm nào là nổi bật của từng loài (tai, chân, đuôi, ) để phan

biệt các loài động vật với nhau, Tuy nhiên đối với ML, cần phải gắn nhãn và được

thiết lập bởi con người trước khi đưa vào training

Input và output của DNN được gọi là visible layers Input layer là nơi DNN nhập

dữ liệu để xử lý và output layer ra là nơi đưa ra dự đoán hoặc phân loại cuối cùng

Khác với forward propagation, back propagation - gradient descent (lan truyềnngược) để tính toán các lỗi trong dự đoán, sau đó điều chỉnh trọng số và độ lệch của

hàm bằng cách di chuyển ngược qua các lớp nhằm huấn luyện mô hình Cùng với

nhau, lan truyền xuôi và lan truyền ngược cho phép mạng nơ-ron đưa ra dự đoán và sửa bất kỳ lỗi nào tương ứng Theo thời gian, thuật toán dần trở nên chính xác hơn.

Các thuật toán DL cực kỳ phức tạp và có nhiều loại neural network khác nhau để

giải quyết các van dé hoặc tập dif liệu cụ thể:

¢ Convolutional Neural Network (CNN)

¢ Recurrent Neural Network (RNN)

2.2.2.4 Model CNN

Được sử dung chủ yếu trong các ứng dung phân loại hình ảnh và thi giác máy tính,

có thể phát hiện các tính năng và mẫu trong hình ảnh, cho phép thực hiện các tác vụ,

chẳng hạn như phát hiện hoặc nhận dạng đối tượng CNN chiếm ưu thế khi các đầu

14

Trang 25

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT

vào là tín hiệu hình ảnh, lời nói và âm thanh, có 3 loại layer chính là: Convolutional

Layer, Pooling layer, Fully - connected (FC) layer

* Convolutional Layer: là layer cốt lõi của CNN, là nơi diễn ra phần lớn các

tính toán Nó yêu cầu dữ liệu đầu vào, bộ lọc và bảng tính năng Featuredetector — là một mảng 2 chiều đại diện cho 1 phần của hình ảnh, sau đó sử

dụng filter và tính toán tích vô hướng giữa các điểm ảnh đầu vào và filter, quá

trình này tiếp tục cho đến khi quét qua toàn bộ tất cả các điểm ảnh Outputcuối cùng là sản phẩm của các điểm ảnh giữa input đầu vào và filter được gọi

là feature map, activation map, convolved feature Ví dụ: Giả sử rằng đầu vào

sẽ là một hình ảnh màu, hình ảnh này được tạo thành từ một ma trận các điểm ảnh trong không gian 3D Điều này có nghĩa là đầu vào sẽ có ba chiéu—chiéu cao, chiều rộng và chiều sâu—tương ứng với RGB trong một hình ảnh Chúng

tôi cũng có một trình phát hiện tính năng, còn được gọi là nhân hoặc bộ lọc,

sẽ di chuyển qua các trường tiếp nhận của hình ảnh, kiểm tra xem tính năng có

tồn tại hay không Quá trình này được gọi là Convolutional (tích chập)

* Pooling Layer: tiễn hành giảm kích thước, giảm số lượng tham số trong đầu

vào, cách thức hoạt động tương tự như layer trước nhưng ở layer này không có

bât kỳ tham số nào mà là tổng hợp các giá trị inputvà đưa ra output Bao gồmtổng hợp trung bình và tổng hợp tối đa

¢ Fully-Connected Layer: thực hiện nhiệm vụ phân loại dựa trên các tinh nang

được trích xuất thông qua các layer trước đó và các bộ lọc khác nhau của chúng

Trong khi các lớp tích chập và tổng hợp có xu hướng sử dụng các hàm ReLu,

thì các lớp EC thường tận dụng chức năng kích hoạt softmax để phân loại đầu

vào một cách thích hợp, tạo ra xác suất từ 0 đến 1

2.2.2.5 Model RNN

Thường được sử dụng trong các ứng dụng nhận dạng giọng nói và ngôn ngữ tự nhiên

vì nó tận dung dif liệu chuỗi thời gian hoặc tuần tự, chang hạn như dịch ngôn ngữ,

Natural Language Processing (NLP), nhận dạng giọng nói và chú thích hình ảnh,

15

Trang 26

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT

chúng được tích hợp vào các ứng dụng phổ biến như Siri, tìm kiếm bằng giọng nói

và Google Dịch.

Tương tự như CNN, RNN hoc dựa vào quá trình training tập dữ liệu Cac node

trong mạng được phân biệt bởi bộ nhớ, mỗi node lấy thông tin từ node trước đó trong

chuỗi làm input và đưa ra ouput RNN sử dụng thuật toán lan truyền ngược theo thờigian (backpropagation through time) để xác định độ dốc, thuật toán này khác vớithuật toán lan truyền ngược truyền thống ở điểm nó dành riêng cho dữ liệu chuỗi

Tuy nhiên, RNN có xu hướng gặp phải hai van dé, được gọi là exploding gradients

va vanishing gradients Các loại RNN: ánh xạ một input đầu vào thành một đầu ra.

Đầu vào và đầu ra của chúng có thể khác nhau về độ dài và các loại RNN khác nhau

được sử dụng cho các trường hợp sử dụng khác nhau, chẳng hạn như tạo nhạc, phân

Một số ham phổ biến: Các hàm phi tuyến tính thường chuyển đổi đầu ra của một

nơ-ron nhất định thành giá trị trong khoảng từ 0 đến 1 hoặc -1 và 1

Các loại biến thể của RNN:

‘nttps://nttuan8.com/bai-13-recurrent-neural-network

16

Trang 27

CHƯƠNG 2 CƠ SỞ LÝ THUYET

* Bidirectional recurrent neural networks (BRNN): lấy dữ liệu trong tương

lai để cải thiện độ chính xác của nó.

¢ Long short-term memory (LSTM): nếu trạng thái trước đó đang ảnh hưởng

đến dự đoán hiện tại không phải là trong quá khứ gần đây, thì mô hình RNN

có thể không dự đoán chính xác trạng thái hiện tại.

¢ Gated recurrent units (GRUs): tương tự như LSTM vì nó cũng hoạt động

để giải quyết vấn đề bộ nhớ ngắn hạn của các mô hình RNN Thay vì sử dụng

thông tin điều chỉnh "cell state", nó sử dụng các trạng thái ẩn và thay vì ba

cổng, nó có hai cổng—một cổng đặt lại và một cổng cập nhật.

2.2.2.6 Học máy cho IDS

Các phương pháp ML/DL được áp dụng cho NIDS và Anomoly Detection.

* Data Preprocesing — Tiền xử lý dữ liệu: Các bộ dữ liệu công khai thường bao

gồm nhiều thành phần và nội dung, tuy nhiên đối với một số mô hình học máykhông sử dụng được hết hoặc có những yêu cầu về định dạng riêng đối với tập

dữ liệu đầu vào Chia ngẫu nhiên tập dữ liệu thành 2 tập để training và testing

(thông thường là 80% - 20%)

* Training — Huấn luyện: thuật toán ML/DL sẽ sử dung tập dữ liệu training ở

phía trên để tiến hành huấn luyện

* Testing — Kiểm tra: Sau quá trình huấn luyện sé đưa ra model, ở bước này sẽ

tiền hành sử dụng tập si liệu testing để kiểm tra model đưa ra

2.2.3 Hoc máy liên kết - Federated Learning

Học máy liên kết (Federated Learning) là một phương pháp phi tập trung để đào tạocác mô hình học máy Nó không yêu cầu trao đổi dữ liệu từ các thiết bị khách hàngđến các máy chủ toàn cầu Thay vào đó, dữ liệu nguyên gốc trên các thiết bị biênđược sử dụng để đào tạo mô hình cục bộ, từ đó nâng cao quyền riêng tư dữ liệu.Cuối cùng, mô hình được hình thành bằng cách tổng hợp các bản cập nhật cục bộ

17

Trang 28

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT

Một mô hình cơ bản được lưu trữ trên máy chủ tập trung Các bản sao của mô

hình này được chia sẻ với các thiết bị khách, sau đó các thiết bị này sẽ đào tạo các

mô hình dựa trên dữ liệu cục bộ mà chúng tạo ra Ở giai đoạn tiếp theo, các bản

cập nhật (tham số mô hình) từ các mô hình được đào tạo cục bộ được chia sẻ với

mô hình chính nằm ở máy chủ tập trung bằng cách sử dụng các kỹ thuật tổng hợp

an toàn (secure aggregation techniques) Mô hình này kết hợp và trung bình hóa cácđầu vào khác nhau để tạo ra các bài học mới Vì dữ liệu được thu thập từ các nguồn

đa dạng, nên có phạm vi lớn hơn và mô hình trở nên tổng quát hơn Khi mô hình

trung tâm đã được đào tạo lại trên các tham số mới, nó lại được chia sẻ với các thiết

bị khách hàng cho lần lặp tiếp theo Với mỗi chu kỳ, các mô hình thu thập một lượngthông tin đa dạng và tiếp tục cải thiện mà không tạo ra các lỗ hổng về quyền riêng

tư.

2.2.4 Flower framework

Flwr là một Khung để xây dung các hệ thống học tập liên kết Thiết kế của

Flwr dựa trên một số nguyên tắc sau:

« Có thể tùy chỉnh: Các hệ thống học tập liên kết rất khác nhau tùy theo từng

trường hợp sử dụng Flwr cho phép thực hiện nhiều cấu hình khác nhau tùy

thuộc vào nhu cầu của từng trường hợp sử dụng riêng lẻ

« Có thể mở rộng: Flwr có nguồn gốc từ một dự án nghiên cứu tại Đại học

Oxford, vì vậy nó được xây dựng với mục đích nghiên cứu AI Nhiều thành

phan có thể được mở rộng và ghi đè để xây dựng các hệ thống tiên tiền mới

¢ Không phụ thuộc vào Khung: Các khung học máy khác nhau có những điểm

mạnh khác nhau Flwr có thể được sử dụng với bat kỳ Khung ML nào.

Từ quan điểm kiến trúc, Flwr phân chia các tính toán thành logic toàn cục và logic cục bộ Logic toàn cục tập trung vào việc triển khai các chiến lược gói gọn các thuật toán học liên kết cũng như tích hợp với các máy khách khác nhau và tổng hợp tham số Logic cục bộ chủ yếu tập trung vào việc đào tạo và đánh giá các nút cục bộ

18

Trang 29

CHƯƠNG 2 CƠ SỞ LÝ THUYET

Hình 2.7 Flower framework architecturd’|

hoặc phan vùng dữ liệu Về phía may chủ, ClientManager quản lý một bộ giao diện

ClientProxy để tích hợp với các máy khách Các tương tác tin nhắn được trừu tượng

hóa thông qua giao thức FÌwr.

2.2.5 FlwrBC framework

Khung FlwrBC được phát triển dựa trên khung học tập liên kết của Flwr và được

kết hợp với chuỗi khối Ethereum FlwrBC áp dụng chuỗi khối cho mô hình máykhách-máy chủ Để giải quyết vấn đề lỗi một điểm của mô hình, các tham số môhình toàn cầu được lưu trữ trong hệ thống lưu trữ phân tán và máy chủ đám mây

được đề xuất sử dụng làm máy chủ Một lớp SSL đã được thêm vào giữa máy khách

và máy chủ để đảm bảo kết nối an toàn

Hệ thống này có ba thành phần chính: máy khách tham gia học tập liên kết, chuỗikhối và máy chủ tổng hợp Máy khách có các bộ dữ liệu riêng biệt và sau khi đào

tạo mô hình bằng các bộ dữ liệu cục bộ của mình, họ sẽ gửi mô hình cục bộ đã cập

nhật tới chuỗi khối Hai hợp đồng thông minh được triển khai trong chuỗi khối mô

phỏng: Hợp đồng đóng góp và Hợp đồng liên kết Với Hợp đồng đóng góp, sau khimáy khách đào tạo và cập nhật các tham số mô hình, các tham số (trọng số) sẽ đượcbăm và mã hóa trước khi tải chúng lên chuỗi khối Do đặc tính của chuỗi khối, cáctrọng số này đảm bảo khả năng truy xuất nguồn gốc và tính bất biến Ngoài ra, hệ

19

Trang 30

CHƯƠNG 2 CƠ SỞ LÝ THUYET

thu \ Federation / / Global / 1¬

Local ` Contract “/ oba / FedAvg Distributed file

` J /Z model / Aggregated model system

Local

data

Hình 2.8 FlwrBC framework structure

thống dựa vào kích thước dữ liệu của máy khách để ghi lại và tinh toán phan thưởng

Về phía máy chủ tổng hợp, máy chủ sẽ gửi các tham số mô hình toàn cầu đến Hợp đồng Liên kết sau khi nhận được trọng số từ khách hàng và để thực hiện tổng hợp

mô hình toàn cầu Hợp đồng Liên đoàn cũng thực hiện việc băm và lưu trữ mô hìnhtoàn cầu Trong thiết kế, InterPlanetary File System (IPFS) được sử dụng như một

hệ thống lưu trữ tệp phân tán để giúp mô hình chống lại các cuộc tấn công nếu hệthống lưu trữ của máy chủ tổng hợp bị xâm phạm

2.3 Học bầy đàn - Swarm Learning

SL là một khung ML phi tập trung và hướng tới sự bảo mật Khung này sử dụng

sức mạnh tính toán tại chỗ hoặc gần các nguồn dữ liệu phân tán để chạy các thuật

toán ML nhằm đào tạo các mô hình Kết hợp cùng tính bảo mật của nền tảng chuỗikhối để chia sẻ việc học với các máy khác trong mạng một cách an toàn và bảo mật.Trong SL, việc đào tạo mô hình diễn ra ở biên, nơi có dữ liệu mới nhất và là cần các

quyết định nhanh chóng dựa trên dữ liệu Trong kiến trúc hoàn toàn phi tập trung này, chỉ những thông số trong của mô hình ML mới được chia sẻ với các máy trong mạng đang cộng tác chứ không phải dữ liệu thô Điều này giúp tăng cường đáng kể

tính bao mật và quyên riêng tư của dữ liệu

20

Ngày đăng: 08/12/2024, 15:40