TÓM TẮTVới sự gia tăng nhanh chóng của các dịch vụ Internet of Things IoTs, các thiết bị IoTs thông minh ngày càng được triển khai ở biên mạng không dây để thực hiện các nhiệm vụ học máy
Trang 1ĐẠI HỌC QUOC GIA THÀNH PHO HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN
KHOA MẠNG MAY TÍNH VA TRUYEN THONG
VU MINH DUC - 20520163
DƯƠNG TRAN TRA MY - 20520640
KHOA LUAN TOT NGHIEP
RESEARCH, DEVELOPMENT NETWORK INTRUSION DETECTION
SYSTEM FOR INTERNET OF THINGS INFRASTRUCTURE
CU NHAN NGANH AN TOAN THONG TIN
GIANG VIEN HUGNG DAN
ThS Nguyễn Khánh Thuật
TP HO CHÍ MINH, 2024
Trang 2LỜI CẢM ƠN
Để hoàn thành khóa luận tốt nghiệp này, chúng tôi xin gửi lời cảm ơn đến Bangiám hiệu Trường Dai học Công nghệ Thông tin — Đại học Quốc Gia Thành Phố
Hồ Chí Minh vì đã tạo điều kiện học tập, nghiên cứu tốt nhất Cảm ơn quý thầy cô
giảng dạy tại trường nói chung và Khoa Mạng máy tính và Truyền thông nói riêng
vì đã truyền đạt những kiến thức chuyên môn bổ ích, những kinh nghiệm thực tế quý
báu mà chúng tôi đã học hỏi được trong suốt quá trình học tập, rèn luyện tại trường
Chúng tôi xin chân thành tri ân ThS Nguyễn Khánh Thuật là người đã định hướng,
trực tiếp quan tâm, hướng dẫn tận tình trong suốt quá trình thực hiện dé tài Cuối
cùng, do kiến thức chuyên môn còn hạn chế nên khóa luận chắc chắn không tránh
khỏi những thiếu sót Rất mong nhận được nhận xét, ý kiến đóng góp, phê bình từ quý thầy cô trong hội đồng để khóa luận được hoàn thiện hơn.
Nhóm tác giả
li
Trang 3TÓM TẮT
Với sự gia tăng nhanh chóng của các dịch vụ Internet of Things (IoTs), các thiết
bị IoTs thông minh ngày càng được triển khai ở biên mạng không dây để thực hiện
các nhiệm vụ học máy liên kết bằng cách sử dụng dữ liệu được thu thập cục bộ, tạo
ra mô hình học tập ở biên Do các hạn chế về thiết bị cũng như hạn chế về mặt tài nguyên, việc học tập biên giữa các thiết bị IoTs phải đối mặt với những thách thức
kỹ thuật lớn do tắc nghẽn giao tiếp, tính không đồng nhất của dữ liệu và mô hình,
các van dé về quyển riêng tư và bảo mật Dé vượt qua những thách thức này, bàiviết này đưa ra sự so sánh tổng quan về accuracy, precision, recall, Fl-score, thời
gian huấn luyện, mức độ sử dụng CPU, Memmory giữa học tập bẩy đàn (Swarm Learning) thông qua sự tích hợp giữa học sâu, học tập liên kết và mạng chuỗi khói
và federtated learning - FlowerBC điều này sẽ mang lại lợi ích cho nhiều ứng dung
lơT ở biên.
1H
Trang 4MỤC LỤC
Thông tin hội đồng bảo vệ khóa luận i
iii
Muc luc iv
Danh muc cac bang vii
Danh muc cac hinh ve va do thi viii
Danh mục từ viết tắt Xx
Chuong 1 Mở dau 1
11 Ly dochon đểtài| 1
1.2 Các nghiên cứu lên quan} 2
1.3 Mục tiêu, đối tượng và phạm vi nghiên cứu 5 1.3.1 Mục tiêu nghiên cứu| 5
1.3.2 Đôi tượng nghiên cứu| - 5
143.3 Phạmvinghincứu| 5
1.4 Phương pháp nghiên cứu| - 5
1.5 _ Các đóng góp chính của dé tài - 6
1.6 Câu trúc Khoá luận tốt nghiệp| - 6
Chương 2 Cơ sở lý thuyết 7 2.1 Hệ thông phát hiện xâm nhập - Intrusion Detection Systems (IDS)| 7
2.1.1 Intrusion Detection Systems (IDS) cho Internet of Thnøs(IoD| 8 2.2 Mohinhhoc may:} ee 10 2.2.1 MachneLearnnp| - 10
2.2.2 DeepLearnngl Ặ Ặ Ặ Ặ Q Q eee eee 12 2.2.2.1 Giới thiệu| ẶẶ So 12 2222 Tongquan) - 13
1V
Trang 5MỤC LỤC
2.2.2.3 Cách hoạt động|
2.2.2.4 Model Convolutional Neural Network (CNN)
2.2.2.5 Model Recurrent Neural Network (RNN)|
2.2.2.6 Học máy cho Intrusion Detection Systems (IDS)} 2.2.3 Học máy liên kết - Federated Learning]
2.2.4 Flowerffamework|
2.2.5 FlwrBC frameworkl
2.3 Học bay đàn - Swarm
Learning| -Chương 3 Phuong pháp thực hiện 3.1 Mô hình đề xuất 3.2 Swarm Learning 3.21 Kiếntrúchệthống
3.2.2 Quá trình
vậnhành| -33 FlwrBC
3.3.1
Kiếntrúchệthông| -3.3.2 Quá trình
vậnhành| 3.4 Centralized machine learnngl
-3.5 Phân tích dữ liệu 35.1 CICIol2023l
35.2 CICloMI2024l
4.12 CICloMTI2024
4.2 Môitrường
4.3 Thuật toán hợp
nhấtmôhình -4.4 Kichbản
4.5 Tiêu chí đánh giá 4.6 Kết quả - Đánh
giá -4.6.1 CiClol23
14 15 17 17
18 19
20
23 23 23
23
25 27 27 28 29
30 30 34
Trang 6Tài liệu tham khảo
Phụ lục A Công bô khoa học
VI
Trang 7DANH MỤC CÁC BANG
Lee 41
4.2_ Kết quả thực nghiệm trên tập dữ liệu CiCIoT23 414.3 Kết quả thực nghiệm trên tập dữ liệu CiCloMT24 434.4 Bảng thống kê số lần được bau làm leader của các host 44
Trang 8DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ
tiiiiaaaaÝ< 9
¬ e ee, 10
ee 10
4a eee 13
meio me ee 16
2.7 Elower framework architecturlf| 19
2.8 FlwrBC framework structure[Sl|_ - 20
2.9 Swarm Learning framework structure [2]] 21
3.1 NIDS network archiecturel - 23
QP Ae 24 le 26 3.4 FlwrBC archtecturel - 27
35 FlwrBC workflow[S8]] 28
3.6 Mô hình Machine Learnng| - 30
3.7 Data processing: converting pcap files to csv [12]} 31
3.8 Feature CiCloI2023[I2]l - 32
3.9 Number of samples according to attack types [12]| 33
3.10 Data processing: converting pcap files to csv [I3]| - 35
3.11 Feature CICloMT2024[13]| - 35
4.1 Số lượng bản ghi theo tan công CiCIoT2023 [12] 37 4.2_ Số lượng bản ghi theo tan công CiCloMT2024 [13]| 37
4.3 Số lượng bản ghi theo tân công CiCloMT2024 [13] | 38 4.4 Thuật toán hợp nhất mô hình[|_ - 39
Trang 9DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ
` aaaa ai ee 39 4.6 Số lượng bản ghi theo kịch bản của tập dữ liệu CiCloMT24 (màu
KT aaaaHaa aa 40
4.7 Biểu đồ mức độ sử dụng CPU trên tập dữ liệu CiCIoT23 42 4.8 Biểu đồ mức độ sử dụng RAM trên tập dữ liệu CiCIoT23 42 4.9 Biểu đồ mức độ sử dụng CPU trên tập dữ liệu CiCloMT24 43 4.10 Biểu đồ mức độ sử dung RAM trên tập dữ liệu CiCloMT24 44
4.11 Cơ chế dừng của Swarm Learning (SL)| - 45
4.12 Cơ chế dừng của Flower (Flwr)| 45
4.13 Cơ chế đóng góp trọng số của Swarm Learning (SL)|} 46
4.14 Cơ chê đóng góp trọng số của Flower (Flwr)| - 46
Trang 10DANH MỤC TU VIET TAT
AI Artifial Intelligence
BRNN _ Bidirectional recurrent neural networks
CL Centralized Machine Learning
CNN Convolutional Neural Network
HIDS Host Intrusion Detection Systems
IDS Intrusion Detection Systems
loT Internet of Things
IP Internet Protocol
IPFS InterPlanetary File System
LSTM Long short-term memory
ML Machine Learning
NIDS Network Intrusion Detection Systems
NLP Natural Language Processing
RNN Recurrent Neural Network
SL Swarm Learning
SN Swarm Network
SWCI Swarm Learning Command Interface
SWOP_ Swarm Operator
Trang 11Chương 1 MỞ ĐẦU
1.1 Lý do chọn dé tài
Ngày nay, Internet of Things (IØT) đã và đang trở thành thành phan thiết yếu trong
các hệ thống thông minh hiện nay như: Smart City, Smart Home, Smart Agriculture,
Báo cáo tính đến quý 4 năm 2022 của Io Analytics [1] cho thấy số lượng kết
nối IøT toàn cầu đã tăng 18% vào năm 2022 lên 14,3 tỷ điểm cuối IoT đang hoạtđộng Vào năm 2023, IoT Analytics dự kiến số lượng thiết bị IoT được kết nối trêntoàn cầu sẽ tăng thêm 16%, lên 16,7 tỷ điểm cuối hoạt động Với số lượng các thiết
bị IoT lớn và việc thu thập, chia sẻ dữ liệu thông qua mạng không dây, điều đó đồng thời tiềm ẩn nhiều mối đe dọa liên quan đến vấn dé bảo mật cụ thể là việc xâm nhập
vào hệ thống
of r TM Your Global loT Market Research Partner PLOT ¿ ICS lay 2023 jour Global loT Mã aren Partne
Global loT market forecast (in billions of connected loT devices)
Mã 2 7 eonnectivity type CAGR 21-22 CAGR 22-27
Tính ứng dụng của các mô hình học máy hiện đại đang được chú ý hơn bao giờ
hết vì khả năng xử lý dữ liệu lớn cũng như dự đoán các van dé về bảo mật Với
phương pháp học máy truyền thống, dữ liệu học tập được thu thập trên một máy chủtập trung Không giải quyết được các mối lo ngại về quyền riêng tư cũng như giảm
dữ liệu chi phí truyền tải Ngoài ra, hạn chế về mặt phần cứng như bộ xử lí, bộ nhớ,
năng lượng, tài nguyên mạng của các thiết bị IoT không thể đáp ứng được cho mô
hình học máy phức tạp và lượng dữ liệu học tập lớn Từ đó mô hình thu được sau quá trình học có độ chính xác chưa cao.
Học tập liên kết, về cơ bản là phương pháp học máy phân tán giải quyết vấn đề
Trang 12CHUONG 1 MỞ ĐẦU
về dữ liệu học tập được phân tán không còn ở trên một máy chủ tập trung Mặc dù
dữ liệu là phi tập trung trong các mô hình học máy liên kết, nhưng vẫn tổn tai máy chủ tập trung nơi lưu trữ các tham số cấu hình của mô hình, đảm nhận nhiệm vụ tổng hợp mô hình dựa theo các tham số được cung cấp từ các máy biên trong hệ
thống Năm 2023, Hewllet Packard giới thiệu về một khung mang tên Học bầy đàn
(2) Công cu nay kết hợp giữa co sở hạ tang phan cứng phi tập trung (dữ liệu lưu trữ
phi tập trung) va hoc máy phân tán (dựa trên các công cu Artifial Intelligence (AI)
được tiêu chuẩn hóa ứng dụng công nghệ chuỗi khối) để cấp phép cho các thành
viên tham gia một cách an toàn, đồng thời bầu chọn người lãnh đạo và hợp nhất các tham số mô hình.
Mục tiêu của nghiên cứu là: Thực hiện triển khai, so sánh ưu và nhược điểm giữa
khung học bầy đàn so với học liên kết và học máy truyền thống
1.2 Các nghiên cứu liên quan
Một số bài báo khoa học đã được xuất bản trên Intrusion Detection Systems (IDS)
sử dụng kỹ thuật Machine Learning (ML) và khai thác dữ liệu Tuy nhiên, về cơ
bản, các công trình trước đây chỉ sử dụng các phương pháp ML để phát hiện sự xâm
nhập trong các mạng thông thường.
Bhavsar và cộng sự đã phát triển một hệ thống phát hiện xâm nhập dựa
trên dị thường cho ứng dụng IoT sử dụng mô hình mạng nơ-ron tích chập Pearson
Correlation Coefficient (PCC-CNN) Phương pháp này được đánh giá bằng bộ dữ
liệu NSL-KDD, CICIDS-2017, IOTID20 Kết quả cho thấy mô hình PCC-CNN đề xuất vượt trội so với các phương pháp học máy truyền thống, đạt độ chính xác phát hiện 99,89% và tỷ lệ phân loại sai lầm thấp 0,001 Mô hình tích hợp dựa trên học
sâu của nhóm tác giả cũng cho thấy hiệu suất hứa hẹn với tỷ lệ phân loại sai lầm
(hoặc tỷ lệ báo động giả) là 0,02, 0,02 và 0,00 với bộ phân loại xâm nhập nhị phân
và đa lớp Nghiên cứu này cho thấy sự vượt trội của phương pháp dựa trên học sâu
so với các kỹ thuật học máy truyền thống trong việc phát hiện xâm nhập và phânloại tấn công trong các ứng dụng IoT
Bài viết của Saheed và cộng sự [4] đề xuất một hệ thống phát hiện xâm nhập dựa
trên máy học (ML-IDS) để phát hiện các cuộc tấn công mạng IơT Mục tiêu chính
2
Trang 13Anomaly-based intrusion detection
system for loT application
enabled loT network network attacks
Hệ thống phát hiện xâm nhập dựa trên dị
Ứng dụng các kỹ thuật học máy để phát hiện thường cho ứng dụng loT sử dụng mô IDS phân tán cho các cuộc tắn công
Mục tiêu DDoS trong mạng loT dựa trên blockchain xâm nhập trong mạng loT hình mạng nơ-ron tích chập Pearson
Correlation Coefficient (PCC-CNN)
Phương pháp Hoc máy giám sát Học máy giám sát Học sâu
Principal Component Analysis (PCA) {Extreme gradient boosting (XGBoost), Cat Thuật toán Random Forest (RF), Extreme Gradient Boost, K Nearest neighbor (KNN), Support Pearson Correlation Coefficient -
Boosting (XGBoost) vector Machine (SVM), Quadratic Convolutional Neural Network (PCC-CNN)
discriminant analysis (QDA), Naive Bayes
(NB)}
Bộ Dữ liệu BoT-loT UNSW-NB15 NSL-KDD, CICIDS-2017, IOTID20.
Analysis,Backdoor, DoS, Exploit, Generic,
Loại Tắn Công DDoS Reconnaissance, Fuzzers,Shellcode, and DDoS, DoS, Mirai botnet, Port Scan
Worm
Randhir Kumar, Prabhat Kumar, Rakesh
Tripathi, Govind P Gupta, Sahil Garg, Mohammad Mehedi Hassan,
A distributed intrusion detection system to detect DDoS attacks in blockchain-enabled
Ref loT network,
Journal of Parallel and Distributed
Computing, Volume 164, 2022,Pages
55-Yakub Kayode Saheed, Aremu Idris Abiodun, Sanjay Misra, Monica Kristiansen Holone,
Ricardo Colomo-Palacios, Bhavsar, M., Roy, K., Kelly, J et al.
A machine learning-based intrusion detection Anomaly-based intrusion detection system for detecting internet of things network for loT application Discov Internet Things
attacks, 3, 5 (2023).
Alexandria Engineering Journal, Volume 61, _ Issue 12, 2022, Pages 9395-9409, ISSN 5
https://doi.org/10.1007/s43926-023-00034-68,ISSN 0743- Toon
7a 1s inipsiiich one 10.1016/iipdo.2022.01: tins: //doi.org/10.1016/.ae).2022.02.063
Hình 1.2 So sánh các bài báo liên quan về phát hiện xâm nhập mạng
của nghiên cứu này tập trung vào việc áp dụng IDS dựa trên thuật toán được giám
sát ML cho IoT Trong giai đoạn đầu tiên của phương pháp nghiên cứu này, việc chia
tỷ lệ tính năng được thực hiện bằng cách sử dụng khái niệm chuẩn hóa Tối thiểu-tối
đa trên tập dữ liệu UNSW-NB15 để hạn chế rò rỉ thông tin trên dữ liệu thử nghiệm.
Bộ dif liệu này là sự kết hợp của các cuộc tấn công hiện đại và các hoạt động bìnhthường của lưu lượng mạng được nhóm thành chín loại tấn công khác nhau Trong
giai đoạn tiếp theo, việc giảm kích thước được thực hiện bằng Phân tích thành phần
chính (PCA) Cuối cùng, sáu mô hình học máy được đề xuất đã được sử dụng để
phân tích Các phát hiện cũng được so sánh với các công trình hiện có và kết quả có
tính cạnh tranh với độ chính xác 99,9% và MCC là 99,97%.
Bài viết của Kumar và cộng sự [5] đề xuất một Hệ thống phát hiện xâm nhập phântán (IDS) mới sử dụng điện toán sương mù để phát hiện các cuộc tấn công DDoSchống lại nhóm khai thác trong Mạng IoT hỗ trợ chuỗi khối Hiệu suất được đánhgiá bằng cách đào tạo Rừng ngẫu nhiên (RE) và hệ thống tăng cường cây gradient
được tối ưu hóa (XGBoost) trên các nút sương mù phân tán Hiệu quả của mô hình
được dé xuất được đánh giá bằng cách sử dụng bộ dữ liệu dựa trên IoT thực tế, tức làBoT-IoT, bao gồm hầu hết các cuộc tan công gan đây được tìm thấy trong mạng IoT
Trang 14CHƯƠNG 1 MỞ ĐẦU
hỗ trợ chuỗi khối Kết quả cho thấy, đối với XGBoost phát hiện tan công nhị phânhoạt động tốt hơn trong khi đối với phát hiện nhiều cuộc tấn công Rừng ngẫu nhiên
lại hoạt động tốt hơn Nhìn chung trên các nút sương mù phân tán RF mất ít thời
gian hơn cho việc đào tạo và thử nghiệm so với XGBoost
Năm 2021, nhóm tác giả [6] có giới thiệu một hệ thống mới mang tên Swarm
Learning (SL) Một hệ thống học sâu phân tán không có bất cứ một server tập trungnào cũng như được tích hợp trực tiếp vào hệ thống chuỗi khối Nhóm tác giả đã nhắn
mạnh vào việc tạo điều kiện thuận lợi cho việc tích hợp mọi đữ liệu y tế từ bất kỳ
chủ sở hữu dif liệu nào trên toàn thế giới mà không vi phạm luật về quyền riêng tư
và vượt xa các phương pháp học tập liên kết thông thường
® Local learning cd Central learning © Federated learning g Swarm Learning
Model Private data Model Private data
anette eens, PBMC tra os Í ot
Model Private data’sParwneters Parameters.” Model Private data =
re -_ ` “ ALLMDS CMAL CLÍ Vaccination A Other Healthy
i Whole blood transcriptomes (dataset 8)
9 EA) 1,900 1.300 2.000 Swarm edge node Swarm edge nocke
Active tuiercuiosss Ù
(Tey Latert TR HIV Fatigue AD Meaty
j Whole blood and granulocyte k Whole blood transcriptornes ! X-ray images.
transeriptorres (dataset E) (dataset D) (dataset C)
ụ 500 1000 1500 2000 L 300 1000 1403 2000 0 20,000 40,000 60000 189,000
COVID- 19 | ——— COWG.tọ : : = Ot |
Convalescent COVID-19 Inf Sepsis Meakthy Acute TH Latent TE Hv Fatigue AID Healthy Alglectasis Effusion infitration »1 label Hed#fny
Hinh 1.3 Swarm-learning (6)
Vào năm 2023, nhóm tác giả [7] sử dung SL trong việc chẩn đoán lỗi vòng bi để
theo dõi các điều kiện vận hành máy móc và thiết bị quay Khung này coi mọi nhà
máy như một nút điện toán biên và giải quyết tình trạng thiếu dif liệu được gắn nhãn
và bảo vệ quyền riêng tư bằng cách hợp nhất các tham số mạng tích chập Mô hình
CNN được sử dụng để tính toán từng nút và các nút lãnh đạo được chọn linh hoạt để
Trang 15CHƯƠNG I MỞ ĐẦU
hợp nhất các tham số mô hình trong quá trình đào tạo
1.3 Mục tiêu, đối tượng và phạm vi nghiên cứu
1.3.1 Mục tiêu nghiên cứu
» Nghiên cứu, triển khai hệ thống phát hiện xâm nhập mang trong IơT sử dụng
mô hình học sâu.
» Nghiên cứu ứng dung học liên kết trên nền tảng chuỗi khối [8] trong triển khai
hệ thống phát hiện xâm nhập mạng IoT
¢ Nghiên cứu ứng dụng khung học bay đàn [2] để trong triển khai hệ thống phát
hiện xâm nhập mang IoI.
« Đánh giá hiệu suất của hệ thống ứng dụng khung học bay đàn dé xuất so với
hệ thống sử dụng học liên kết trước đó
1.3.2 Đối tượng nghiên cứu
* Hoc sâu (Deep Learning — Long short-term memory, sử dụng thêm nhiều mô
hình và các bộ dataset khác nhau dé so sánh )
* Học bay đàn (Swarm Learining)
* Học liên kết (Federated Learning)
1.3.3 Phạm vi nghiên cứu
So sánh SL với Flower BlockChain (FlwrBC) (khung Flower (Flwr) chạy trên nền chuỗi khối) khi triển khai trên hệ thống phát hiện xâm nhập mang cho ha tầng IoT
với các bộ dataset khác nhau.
1.4 Phương pháp nghiên cứu
» Tìm hiểu các bài báo liên quan đến phát hiện xâm nhập mạng trong hệ thống
IoT được đăng tai các hội nghị uy tín Xây dựng tập dữ liệu liên quan đến xâm
nhập mạng trong IoT Chon loc mô hình hoc sâu phù hợp và sử dung tập dữ
Trang 16CHƯƠNG 1 MỞ ĐẦU
liệu CICIoT2023 và CiCloMT2024 để tiến hành huấn luyện và đưa ra đánh giá
tính phù hợp của mô hình học sâu.
* Cài đặt và triển khai khung Flwr (nền tang chuỗi khối) trên hệ thống Cloud
của khoa Mang máy tinh và truyền thông — UIT
* Cài đặt và triển khai khung SL trên hệ thống cloud của khoa Mạng máy tinh
và truyền thông - UIT
* Tìm hiểu các tiêu chí đánh giá cho mô hình hoc máy và toàn bộ hệ thống; Tổng
hợp các số liệu dựa trên các tiêu chí đánh giá
1.5 Các đóng góp chính của đề tài
Trong KLTN này, nhóm thực hiện xây dựng triển khai hệ thống NIDS cho IoTs trêncác kiến trúc học máy, thực nghiệm đánh giá trên hệ thống tập trung và phi tập trung.Đưa ra kết luận, so sánh và đánh giá hiệu suất, đánh giá tổng quan của hệ thống học
bầy đàn với hệ thống học liên kết chạy trên nền blockchain.
1.6 Cấu trúc Khoá luận tốt nghiệp
Khóa luận với đề tài “NGHIÊN CỨU, PHÁT TRIEN HỆ THONG PHAT HIỆN XÂM NHẬP MẠNG CHO HẠ TẦNG INTERNET OE THINGS” được trình bày
bao gồm 5 chương Nội dung tóm tắt từng chương được trình bày như sau:
* Chương 1: Mở dau.
* Chương 2: Cơ sở lý thuyết.
» Chương 3: Phương pháp thực hiện.
¢ Chương 4: Thực nghiệm, đánh giá va thảo luận.
* Chương 5: Kết luận và hướng phát triển.
Trang 17Chương 2 CƠ SỞ LÝ THUYET
Chương này trình bày sơ lược cơ sở lý thuyết của nghiên cứu bao gồm: Lý thuyếtHọc máy, học sâu, Hệ thống phát hiện xâm nhập (IDS), mô hình học bầy đàn - SL,
mô hình học liên kết - Federated Learning (FL) - FlwrBC
2.1 Hệ thong phát hiện xâm nhập - IDS
IDS là phần mềm hoặc phần cứng tự động thực hiện quy trình phát hiện xâm nhập.Chủ yếu tập trung vào xác định các sự cô có thể xảy ra, ghi nhận các thông
tin liên quan, cố gắng ngăn chặn và báo cáo cho các quản trị viên bảo mật Mục tiêu:đảm bảo an toàn cho mạng hoặc hệ thống máy tính theo bộ ba CIA (Confidentiality
- Integrity - Availability).
Có 2 cách phân loại IDPS:Phân loại dựa trên Cac ky thuật phát hiện tan
công (Signature-based, Anomaly-based, Specification-based) và Phân loại dựa trên
Nguồn dữ liệu (Network-based, Host-based); Mỗi có một chức năng và nhiệm vụ
riêng chúng:
¢ Network Intrusion Detection Systems (NIDS): theo dõi lưu lượng mạng cho
một phan của mang (network segment) hoặc các thiết bị, phân tích các hoạt
động mạng và các giao thức, ứng dụng để xác định các hành vi bất thường Thường triển khai ở biên mạng , như gần tường lửa hoặc router biên , server
VPN, server remote access và mang không dây Gồm nhiều sensor đặt ở nhiều
điểm khác nhau trong mạng để theo dõi lưu lượng mạng
* Host Intrusion Detection Systems (HIDS): theo dõi các đặc điểm của một
host riêng lẻ và các sự kiện xảy ra trong host đó để phát hiện hoạt động bất
thường Được triển khai trên host quan trọng (các server có thể truy cập từ bên
ngoài, các server chứa thông tin quan trọng).
¢ Signature-Based IDS: (hay còn gọi knowledgebased) là một quá trình so sánh
các signature với các sự kiện quan sát được để xác định các sự cố có thể có
»° Anomaly-Based IDS: (hoặc profile-based) hoạt động dựa trên việc: Tạo ra
một profile cơ sở đại diện cho các hành vi bình thường/dự kiến trong mạng
7
Trang 18CHƯƠNG 2 CƠ SỞ LÝ THUYẾT
Dựa trên đó, bất kỳ hoạt động mạng đang xem xét nào có sai khác so vớiprofile này đều bị xem là bất thường Profiles đại diện cho hoạt động mạng
bình thường hầu hết được tạo ra thông qua phân tích lịch sử lưu lượng mạng (qua các hàm thống kê, máy hoc, clustering, fuzzy logic, heuristics )
¢ Specification-Based IDS: thu thập các hoạt động chính xác của một chương
trình hoặc giao thức và theo dõi hoạt động của nó dựa trên các ràng buộc Sử
dụng mô hình giao thức chủ yếu dựa trên các chuẩn giao thức từ các nhà sảnxuất phần mềm và tiêu chuẩn (IEFT, RFC)
Network Intrusion Host Intrusion Anomaly-Based
Detection Detection Detection
Hình 2.1 Minh họa phân loại IDS}
2.1.1 IDS cho IoT
A passive IơT-based sensor là một loại cảm biến được cài đặt để giám sát lưu lượng
mạng mà không can thiệp vào nó Nó tạo một bản sao của lưu lượng thực tế trong mạng và giám sát nó thông qua một cổng mở rộng chuyển mạch, cổng này cho phép
tất cả lưu lượng đi qua chuyển mạch Cách tiếp cận này cho phép cảm biến phát hiện
và phân tích hoạt động mạng mà không làm gián đoạn hoạt động đó
¢ Dựa trên Các kỹ thuật phát hiện tấn công: Signature-based, Anomaly-based,
Specification-based, Hybrid (lai)
* Dựa trên Nguồn dữ liệu: NIDS, HIDS, Hybrid (lai)
Inttps://vietnix.vn/ids-la-gi/
Trang 19CHƯƠNG 2 CƠ SỞ LÝ THUYET
Hạn chê của các mô hình IoT:
« Hệ thống IoT bị hạn chế về khả năng tính toán, dung lượng bộ nhớ, độ bền,
tuổi thọ pin và băng thông mạng Do đó, không thể triển khai các dịch vụ hiện
có, các giải pháp bảo mật truyền thống thường sử dụng nhiễu tài nguyên.
« Các hệ thống IoT là các hệ thống phân tán và không đồng nhất
* Các hệ thống IoT được kết nối với Internet vì mỗi thiết bị có thể được truy cập
bằng địa chỉ IP của nó Do đó, có thêm một loạt các mối đe dọa liên quan đến
Các mối đe dọa đến mô hình IơTs được chia thành 2 loại: dựa trên Kiến trúc
hệ thống (based on the layers of the IoT system’s architecture) và dựa trên Thiết kế
(based on design challenges) [9]
‘https: //www.researchgate.net/publication/329394492
9
Trang 20CHƯƠNG 2 CƠ SỞ LÝ THUYET
- Tan công dựa trên kiến trúc hệ thống:
Perception Layer Network Layer Application Layer
sâu Wired Clow =
loT eee ne LoRa N ` =
Architecture Gateway ~~ đề, Data center
Router Internet
Wireless Web Application \ Local Network / EJ
Application
7 bì
Layer wise Physical damage Data interchange vulnerability Native application vulnerability
loT Attacks Resources constraints Unauthorized access Cloud applications vulnerability
Storage vulnerabilities PB Multifarious connectivity vulnerability Cryptographic vulnerability
Hình 2.3 IoT architecture & layer wise attacks}|
* Tan công dựa trên Design challenges:
Connectivity Heterogeneity
L— Spoofing MITM
LE Routing attacks
Resource &
service discovet
— Spoofing Dos
— User privacy User p' privacy
Dos Addressing Trust & Privacy
eure & identification Kong Tampering
Spoofing Information leaka
ïi La
Repudiation Laake Bk DoS
5 _
Elevation of s.400603040Ác0 2c) User privacy
privilege User privacy Cloning of nodes
Hình 2.4 IoT threats categorization by design challenges")
2.2 Mô hình hoc máy:
2.2.1 Machine Learning
Hoc máy hay máy hoc (Machine Learning) là quá trình sử dung các dữ liệu đã thấy
để đưa ra thuật toán dự đoán cho những dữ liệu chưa từng thấy (dit liệu tương lai)
Một số ứng dụng phổ biến của học máy bao gồm hệ thống dé xuất (recommend
system), hệ thống phát hiện bất thường (anomaly detection), IDS, phần mềm độc hại
(malwares), loc thư rác (spam email)
semanticscholar.org/CorpusID: 86720272
Trang 21CHƯƠNG 2 CƠ SỞ LÝ THUYẾT
Có bốn cách tiếp cận cơ bản: học có giám sát, học không giám sát, học bán giám
sát và học tăng cường Loại thuật toán mà các nhà khoa học sử dụng tùy thuộc vào
loại dit liệu họ muốn dự đoán.
¢ Học giám sát (Supervised Learning): Trong phương pháp hoc nay, dữ liệu đưa
vào học đã được gán nhãn trước, tức là thuật toán sẽ dự đoán đầu ra của một
dữ liệu mới đưa vào và so sánh đầu ra với nhãn sẵn có của dữ liệu đó (tức làcác cặp (dữ liệu, nhãn)) Mục đích của việc học này nhằm tìm mối tương quancủa đầu vào và đầu ra để có thể dự đoán được nhãn của một dữ liệu chưa được
học.
Sử dụng toán học có thể mô tả như sau: chúng ta có một tập hợp biến đầu vào
X = %,%2, ,#n Và tập hợp nhãn tương ứng Y = 1⁄1,a, , yn, trong đó
xt, yi là các vector, và các cặp đữ liệu (2;,y;) € X x YVi = 1,2, , N là các
dữ liệu huấn luyện Mô hình cần tạo ra được ánh xạ ƒ :
sao cho #j; © ;, và yj; càng gan y; thì mô hình càng chính xác và khi có một dữ
liệu mới 29, chúng ta có thể tim được nhãn tương ứng của nó yo = ƒ(zo)
Một bài toán học có giám sát mà có số lượng hữu hạn rời rạc các nhãn đầu ra
còn gọi là bài toán phân loại (classification), còn các nhãn là rời rac vô han là
bài toán hồi quy (regression)
¢ Học không giám sat (Unsupervised Learning): Trong phương pháp học nay,
dữ liệu đưa vào đào tạo không được gắn nhãn, chúng ta không biết câu trả lời
chính xác cho mỗi dữ liệu đầu vào Thuật toán học qua các dữ liệu trong tập dé
tìm kiếm bắt kỳ kết nối có ý nghĩa nhằm để thực hiện một công việc nào đó,
ví dụ như phân nhóm (clustering) hoặc giảm số chiều của dữ liệu (dimension
reduction) để thuận tiện trong việc lưu trữ và tính toán.
* Học bán giám sát (Semi-Supervised Learning): Phương pháp này kết hợp đặt
tính của cả hai phương pháp học có và không có giám sát, lượng lớn dữ liệu
huấn luyện đưa vào mô hình nhưng chỉ một phần trong chúng được gán nhãn.
II
Trang 22CHƯƠNG 2 CƠ SỞ LÝ THUYẾT
Dữ liệu huấn luyện có nhan có thể cung cấp một góc nhìn cho mô hình học
máy, nhưng mô hình có thể tự do khám phá dữ liệu và phát triển sự hiểu biết của riêng mình về tập dữ liệu Một ví dụ điển hình của nhóm này là chỉ có một phần ảnh (trong bài toán nhận dạng và phân loại khuôn mặt trong ảnh) và phần
lớn các bức ảnh được thu thập bởi một nền tảng mạng xã hội, sau đó đưa vàohuấn luyện mô hình để tự động nhận dạng và gán nhãn 1 người trong bức ảnhmới Vì việc thu thập dữ liệu có nhãn tốn rất nhiều thời gian và có chi phí cao,
nên phương pháp học có thể ứng dụng nhiều tuy nhiên có thể đánh đổi bởi độ chính xác, hiệu năng phân loại Rất nhiều loại dữ liệu thậm chí cần phải có
chuyên gia mới gán nhãn được (ảnh y học chẳng hạn) Ngược lại, dữ liệu chưa
có nhãn có thể được thu thập với chi phí thấp từ internet
s Hoc tăng cường (Reinforcement Learning): Phương pháp hoc dùng để day mô
hình hoàn thành một quy trình gồm nhiều bước trong đó có các quy tắc đượcxác định rõ ràng, có một thuật toán để hoàn thành một nhiệm vụ và cung cấpcho nó những dấu hiệu tích cực hoặc tiêu cực khi nó tìm ra cách hoàn thànhmột nhiệm vụ, giúp cho một hệ thống tự động xác định hành vi dựa trên hoàncảnh để đạt được lợi ích cao nhất khi hoàn thành nhiệm vu Reinforcement
learning chủ yếu được áp dụng vào Lý Thuyết Trò Chơi, các thuật toán cần xác
định nước đi tiếp theo để đạt được điểm số cao nhất
2.2.2 Deep Learning
2.2.2.1 Giới thiệu
Deep Learning là một phần của ML, về cơ bản là một mạng neural có 3 lớp trở lên
Nó cố gắng mô phỏng hành vi của bộ não con người Deep Learning thúc đẩy sự
phát triển của nhiều ứng dụng và dịch vụ AI như cải thiện khả năng tự động hóa,
12
Trang 23CHƯƠNG 2 CƠ SỞ LÝ THUYẾT
Hình 2.5 Mối liên hệ AI, ML, DLỆT
2.2.2.2 Tổng quan
Về cơ bản, ML sử dụng đữ liệu có cấu trúc, được gắn nhãn đề đưa ra dự đoán — các
tính năng cụ thể được xác định từ dữ liệu đầu vào cho mô hình và được sắp xếp thành
bảng Tuy nhiên trong một số trường hợp ML vẫn có sử dụng dữ liệu phi cấu trúc,
nhưng các dữ liệu đó thường sẽ trải qua một số quá trình tiền xử lý để định dạngthành dữ liệu có cấu trúc
Học sâu là một phân nhánh của các phương pháp học máy, trong đó phần nềntảng của học sâu là mô hình mạng thần kinh nhân tạo Mạng thần kinh nhân tạo(Neural networks) là hệ thống lấy cảm hứng từ bộ não con người và cách mạng
mạng thần kinh xử lý thông tin và tính toán [i0] Một mạng thần kinh truyền thắng
cơ bản bao gồm các nơ-ron nhân tạo chứa các hàm tính toán toán học và được tổ
chức thành các lớp Các lớp nằm giữa lớp đầu vào và lớp đầu ra được gọi là các lớp
ẩn Mỗi lớp ẩn nhận các thông số từ lớp trước đó, tính toán, chuyển đổi trên nó vàtruyền thông số đến lớp kế tiếp Cứ như vậy, trong quá trình huấn luyện mô hình,các nơ-ron học hỏi và tối ưu các trọng số của mô hình để giảm thiểu tối đa các giá
trị của hàm mất mát tính toán dựa trên giá trị đầu ra của mạng nơ-ron và giá trị thực
tế Kỹ thuật học sâu (Deep Learning) là một nhánh con của các phương pháp họcmáy, trong đó dựa trên việc sử dụng mạng thần kinh sâu với nhiều hơn một lớp ẩn
Đối với Deep Learning (DL), nó sẽ loại bỏ các tiền xử lý (thường liên quan đếnML) Các thuật toán của DL có thể nhập và xử lý dữ liệu phi cấu trúc (ví dụ: văn ban,
hình ảnh) Ngoài ra, DL còn tự động trích xuất các tính năng, thuộc tính, đặc tính và
13
Trang 24CHƯƠNG 2 CƠ SỞ LÝ THUYẾT
loại bỏ một số công việc phụ thuộc vào sự hỗ trợ của con người Sau đó thông quacác quá trình gradient descent và backpropagation, thuật toán DL sẽ điều chỉnh và tự
điều chỉnh để đạt được độ chính xác, cho phép thuật toán này đưa ra dự đoán về một
bức ảnh động vật mới với độ chính xác cao hơn Vi dụ: Trong ngữ cảnh có | tập dữ
liệu về hình ảnh về các vật nuôi bao gồm chó, mèo, chim, hamster Các thuật toán
DL có thể xác định đặc điểm nào là nổi bật của từng loài (tai, chân, đuôi, ) để phan
biệt các loài động vật với nhau, Tuy nhiên đối với ML, cần phải gắn nhãn và được
thiết lập bởi con người trước khi đưa vào training
Input và output của DNN được gọi là visible layers Input layer là nơi DNN nhập
dữ liệu để xử lý và output layer ra là nơi đưa ra dự đoán hoặc phân loại cuối cùng
Khác với forward propagation, back propagation - gradient descent (lan truyềnngược) để tính toán các lỗi trong dự đoán, sau đó điều chỉnh trọng số và độ lệch của
hàm bằng cách di chuyển ngược qua các lớp nhằm huấn luyện mô hình Cùng với
nhau, lan truyền xuôi và lan truyền ngược cho phép mạng nơ-ron đưa ra dự đoán và sửa bất kỳ lỗi nào tương ứng Theo thời gian, thuật toán dần trở nên chính xác hơn.
Các thuật toán DL cực kỳ phức tạp và có nhiều loại neural network khác nhau để
giải quyết các van dé hoặc tập dif liệu cụ thể:
¢ Convolutional Neural Network (CNN)
¢ Recurrent Neural Network (RNN)
2.2.2.4 Model CNN
Được sử dung chủ yếu trong các ứng dung phân loại hình ảnh và thi giác máy tính,
có thể phát hiện các tính năng và mẫu trong hình ảnh, cho phép thực hiện các tác vụ,
chẳng hạn như phát hiện hoặc nhận dạng đối tượng CNN chiếm ưu thế khi các đầu
14
Trang 25CHƯƠNG 2 CƠ SỞ LÝ THUYẾT
vào là tín hiệu hình ảnh, lời nói và âm thanh, có 3 loại layer chính là: Convolutional
Layer, Pooling layer, Fully - connected (FC) layer
* Convolutional Layer: là layer cốt lõi của CNN, là nơi diễn ra phần lớn các
tính toán Nó yêu cầu dữ liệu đầu vào, bộ lọc và bảng tính năng Featuredetector — là một mảng 2 chiều đại diện cho 1 phần của hình ảnh, sau đó sử
dụng filter và tính toán tích vô hướng giữa các điểm ảnh đầu vào và filter, quá
trình này tiếp tục cho đến khi quét qua toàn bộ tất cả các điểm ảnh Outputcuối cùng là sản phẩm của các điểm ảnh giữa input đầu vào và filter được gọi
là feature map, activation map, convolved feature Ví dụ: Giả sử rằng đầu vào
sẽ là một hình ảnh màu, hình ảnh này được tạo thành từ một ma trận các điểm ảnh trong không gian 3D Điều này có nghĩa là đầu vào sẽ có ba chiéu—chiéu cao, chiều rộng và chiều sâu—tương ứng với RGB trong một hình ảnh Chúng
tôi cũng có một trình phát hiện tính năng, còn được gọi là nhân hoặc bộ lọc,
sẽ di chuyển qua các trường tiếp nhận của hình ảnh, kiểm tra xem tính năng có
tồn tại hay không Quá trình này được gọi là Convolutional (tích chập)
* Pooling Layer: tiễn hành giảm kích thước, giảm số lượng tham số trong đầu
vào, cách thức hoạt động tương tự như layer trước nhưng ở layer này không có
bât kỳ tham số nào mà là tổng hợp các giá trị inputvà đưa ra output Bao gồmtổng hợp trung bình và tổng hợp tối đa
¢ Fully-Connected Layer: thực hiện nhiệm vụ phân loại dựa trên các tinh nang
được trích xuất thông qua các layer trước đó và các bộ lọc khác nhau của chúng
Trong khi các lớp tích chập và tổng hợp có xu hướng sử dụng các hàm ReLu,
thì các lớp EC thường tận dụng chức năng kích hoạt softmax để phân loại đầu
vào một cách thích hợp, tạo ra xác suất từ 0 đến 1
2.2.2.5 Model RNN
Thường được sử dụng trong các ứng dụng nhận dạng giọng nói và ngôn ngữ tự nhiên
vì nó tận dung dif liệu chuỗi thời gian hoặc tuần tự, chang hạn như dịch ngôn ngữ,
Natural Language Processing (NLP), nhận dạng giọng nói và chú thích hình ảnh,
15
Trang 26CHƯƠNG 2 CƠ SỞ LÝ THUYẾT
chúng được tích hợp vào các ứng dụng phổ biến như Siri, tìm kiếm bằng giọng nói
và Google Dịch.
Tương tự như CNN, RNN hoc dựa vào quá trình training tập dữ liệu Cac node
trong mạng được phân biệt bởi bộ nhớ, mỗi node lấy thông tin từ node trước đó trong
chuỗi làm input và đưa ra ouput RNN sử dụng thuật toán lan truyền ngược theo thờigian (backpropagation through time) để xác định độ dốc, thuật toán này khác vớithuật toán lan truyền ngược truyền thống ở điểm nó dành riêng cho dữ liệu chuỗi
Tuy nhiên, RNN có xu hướng gặp phải hai van dé, được gọi là exploding gradients
va vanishing gradients Các loại RNN: ánh xạ một input đầu vào thành một đầu ra.
Đầu vào và đầu ra của chúng có thể khác nhau về độ dài và các loại RNN khác nhau
được sử dụng cho các trường hợp sử dụng khác nhau, chẳng hạn như tạo nhạc, phân
Một số ham phổ biến: Các hàm phi tuyến tính thường chuyển đổi đầu ra của một
nơ-ron nhất định thành giá trị trong khoảng từ 0 đến 1 hoặc -1 và 1
Các loại biến thể của RNN:
‘nttps://nttuan8.com/bai-13-recurrent-neural-network
16
Trang 27CHƯƠNG 2 CƠ SỞ LÝ THUYET
* Bidirectional recurrent neural networks (BRNN): lấy dữ liệu trong tương
lai để cải thiện độ chính xác của nó.
¢ Long short-term memory (LSTM): nếu trạng thái trước đó đang ảnh hưởng
đến dự đoán hiện tại không phải là trong quá khứ gần đây, thì mô hình RNN
có thể không dự đoán chính xác trạng thái hiện tại.
¢ Gated recurrent units (GRUs): tương tự như LSTM vì nó cũng hoạt động
để giải quyết vấn đề bộ nhớ ngắn hạn của các mô hình RNN Thay vì sử dụng
thông tin điều chỉnh "cell state", nó sử dụng các trạng thái ẩn và thay vì ba
cổng, nó có hai cổng—một cổng đặt lại và một cổng cập nhật.
2.2.2.6 Học máy cho IDS
Các phương pháp ML/DL được áp dụng cho NIDS và Anomoly Detection.
* Data Preprocesing — Tiền xử lý dữ liệu: Các bộ dữ liệu công khai thường bao
gồm nhiều thành phần và nội dung, tuy nhiên đối với một số mô hình học máykhông sử dụng được hết hoặc có những yêu cầu về định dạng riêng đối với tập
dữ liệu đầu vào Chia ngẫu nhiên tập dữ liệu thành 2 tập để training và testing
(thông thường là 80% - 20%)
* Training — Huấn luyện: thuật toán ML/DL sẽ sử dung tập dữ liệu training ở
phía trên để tiến hành huấn luyện
* Testing — Kiểm tra: Sau quá trình huấn luyện sé đưa ra model, ở bước này sẽ
tiền hành sử dụng tập si liệu testing để kiểm tra model đưa ra
2.2.3 Hoc máy liên kết - Federated Learning
Học máy liên kết (Federated Learning) là một phương pháp phi tập trung để đào tạocác mô hình học máy Nó không yêu cầu trao đổi dữ liệu từ các thiết bị khách hàngđến các máy chủ toàn cầu Thay vào đó, dữ liệu nguyên gốc trên các thiết bị biênđược sử dụng để đào tạo mô hình cục bộ, từ đó nâng cao quyền riêng tư dữ liệu.Cuối cùng, mô hình được hình thành bằng cách tổng hợp các bản cập nhật cục bộ
17
Trang 28CHƯƠNG 2 CƠ SỞ LÝ THUYẾT
Một mô hình cơ bản được lưu trữ trên máy chủ tập trung Các bản sao của mô
hình này được chia sẻ với các thiết bị khách, sau đó các thiết bị này sẽ đào tạo các
mô hình dựa trên dữ liệu cục bộ mà chúng tạo ra Ở giai đoạn tiếp theo, các bản
cập nhật (tham số mô hình) từ các mô hình được đào tạo cục bộ được chia sẻ với
mô hình chính nằm ở máy chủ tập trung bằng cách sử dụng các kỹ thuật tổng hợp
an toàn (secure aggregation techniques) Mô hình này kết hợp và trung bình hóa cácđầu vào khác nhau để tạo ra các bài học mới Vì dữ liệu được thu thập từ các nguồn
đa dạng, nên có phạm vi lớn hơn và mô hình trở nên tổng quát hơn Khi mô hình
trung tâm đã được đào tạo lại trên các tham số mới, nó lại được chia sẻ với các thiết
bị khách hàng cho lần lặp tiếp theo Với mỗi chu kỳ, các mô hình thu thập một lượngthông tin đa dạng và tiếp tục cải thiện mà không tạo ra các lỗ hổng về quyền riêng
tư.
2.2.4 Flower framework
Flwr là một Khung để xây dung các hệ thống học tập liên kết Thiết kế của
Flwr dựa trên một số nguyên tắc sau:
« Có thể tùy chỉnh: Các hệ thống học tập liên kết rất khác nhau tùy theo từng
trường hợp sử dụng Flwr cho phép thực hiện nhiều cấu hình khác nhau tùy
thuộc vào nhu cầu của từng trường hợp sử dụng riêng lẻ
« Có thể mở rộng: Flwr có nguồn gốc từ một dự án nghiên cứu tại Đại học
Oxford, vì vậy nó được xây dựng với mục đích nghiên cứu AI Nhiều thành
phan có thể được mở rộng và ghi đè để xây dựng các hệ thống tiên tiền mới
¢ Không phụ thuộc vào Khung: Các khung học máy khác nhau có những điểm
mạnh khác nhau Flwr có thể được sử dụng với bat kỳ Khung ML nào.
Từ quan điểm kiến trúc, Flwr phân chia các tính toán thành logic toàn cục và logic cục bộ Logic toàn cục tập trung vào việc triển khai các chiến lược gói gọn các thuật toán học liên kết cũng như tích hợp với các máy khách khác nhau và tổng hợp tham số Logic cục bộ chủ yếu tập trung vào việc đào tạo và đánh giá các nút cục bộ
18
Trang 29CHƯƠNG 2 CƠ SỞ LÝ THUYET
Hình 2.7 Flower framework architecturd’|
hoặc phan vùng dữ liệu Về phía may chủ, ClientManager quản lý một bộ giao diện
ClientProxy để tích hợp với các máy khách Các tương tác tin nhắn được trừu tượng
hóa thông qua giao thức FÌwr.
2.2.5 FlwrBC framework
Khung FlwrBC được phát triển dựa trên khung học tập liên kết của Flwr và được
kết hợp với chuỗi khối Ethereum FlwrBC áp dụng chuỗi khối cho mô hình máykhách-máy chủ Để giải quyết vấn đề lỗi một điểm của mô hình, các tham số môhình toàn cầu được lưu trữ trong hệ thống lưu trữ phân tán và máy chủ đám mây
được đề xuất sử dụng làm máy chủ Một lớp SSL đã được thêm vào giữa máy khách
và máy chủ để đảm bảo kết nối an toàn
Hệ thống này có ba thành phần chính: máy khách tham gia học tập liên kết, chuỗikhối và máy chủ tổng hợp Máy khách có các bộ dữ liệu riêng biệt và sau khi đào
tạo mô hình bằng các bộ dữ liệu cục bộ của mình, họ sẽ gửi mô hình cục bộ đã cập
nhật tới chuỗi khối Hai hợp đồng thông minh được triển khai trong chuỗi khối mô
phỏng: Hợp đồng đóng góp và Hợp đồng liên kết Với Hợp đồng đóng góp, sau khimáy khách đào tạo và cập nhật các tham số mô hình, các tham số (trọng số) sẽ đượcbăm và mã hóa trước khi tải chúng lên chuỗi khối Do đặc tính của chuỗi khối, cáctrọng số này đảm bảo khả năng truy xuất nguồn gốc và tính bất biến Ngoài ra, hệ
19
Trang 30CHƯƠNG 2 CƠ SỞ LÝ THUYET
thu \ Federation / / Global / 1¬
Local ` Contract “/ oba / FedAvg Distributed file
` J /Z model / Aggregated model system
Local
data
Hình 2.8 FlwrBC framework structure
thống dựa vào kích thước dữ liệu của máy khách để ghi lại và tinh toán phan thưởng
Về phía máy chủ tổng hợp, máy chủ sẽ gửi các tham số mô hình toàn cầu đến Hợp đồng Liên kết sau khi nhận được trọng số từ khách hàng và để thực hiện tổng hợp
mô hình toàn cầu Hợp đồng Liên đoàn cũng thực hiện việc băm và lưu trữ mô hìnhtoàn cầu Trong thiết kế, InterPlanetary File System (IPFS) được sử dụng như một
hệ thống lưu trữ tệp phân tán để giúp mô hình chống lại các cuộc tấn công nếu hệthống lưu trữ của máy chủ tổng hợp bị xâm phạm
2.3 Học bầy đàn - Swarm Learning
SL là một khung ML phi tập trung và hướng tới sự bảo mật Khung này sử dụng
sức mạnh tính toán tại chỗ hoặc gần các nguồn dữ liệu phân tán để chạy các thuật
toán ML nhằm đào tạo các mô hình Kết hợp cùng tính bảo mật của nền tảng chuỗikhối để chia sẻ việc học với các máy khác trong mạng một cách an toàn và bảo mật.Trong SL, việc đào tạo mô hình diễn ra ở biên, nơi có dữ liệu mới nhất và là cần các
quyết định nhanh chóng dựa trên dữ liệu Trong kiến trúc hoàn toàn phi tập trung này, chỉ những thông số trong của mô hình ML mới được chia sẻ với các máy trong mạng đang cộng tác chứ không phải dữ liệu thô Điều này giúp tăng cường đáng kể
tính bao mật và quyên riêng tư của dữ liệu
20