Ngoài ra một trong những yếu điểm đáng lưu ý khi huấn luyện mô hình Machine Learning theo phương pháp học tập trung cho hệ thống phát hiện xâm nhập IDS là yêu cầu một lượng lớn dữ liệu đ
Trang 1ĐẠI HỌC QUOC GIA HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN
KHOA MANG MAY TiNH VA TRUYEN THONG
NGUYEN TRUNG HIEU - 19520082
BACH NHAT MINH - 18520156
A COLLABORATIVE INTRUSION DETECTION SYSTEM
USING SEMI-SUPERVISED FEDERATED LEARNING AND
DATA AUGMENTATION
KY SU NGANH AN TOAN THONG TIN
GIANG VIEN HUGNG DAN:
ThS Nghi Hoàng Khoa
TP.Hồ Chí Minh - 2023
Trang 2LỜI CẢM ƠN
Trước hết, chúng tôi muốn bày tỏ lòng biết ơn chân thành đến tất cả các
giáo sư và giảng viên tại Khoa Mạng máy tính và Truyền thông, cũng như toàn
bộ đội ngũ giảng dạy tại Trường Dại học Công nghệ Thông tin Họ đã truyền
đạt những kiến thức, kinh nghiệm và bài học quý giá trong suốt chặng đường
bốn năm học của chúng tôi Chúng tôi rất biết ơn vì sự tạo điều kiện thuận lợi
từ phía cơ quan giảng dạy, giúp chúng tôi hoàn thành luận văn tốt nghiệp vớikhả năng tốt nhất Chúng tôi mong rằng Trường Dai học Công nghệ Thông tinnói chung, và Khoa Mạng máy tính và Truyền thông nói riêng, sẽ tiếp tục phát
triển trên con đường giáo dục, đạt được thành công trong tương lai và đào tạo thêm nhiều tài năng đam mê đóng góp cho sự phát triển của đất nước.
Ngoài ra, chúng tôi muốn bày tỏ lòng biết ơn đến thầy Nghi Hoàng Khoa(người hướng dẫn luận văn) đã giúp chúng tôi xây dựng nền tảng kiến thức và
kỹ năng cần thiết để thực hiện nghiên cứu này Thầy đã dành thời gian và công sức để hướng dẫn, chỉnh sửa và đưa ra phản hồi mang tính xây dựng Sự hỗ
trợ và hướng dẫn từ thầy Nghi Hoàng Khoa đã đóng góp rất lớn vào việc hoànthành thành công báo cáo luận văn tốt nghiệp của chúng tôi Trong suốt một kỳhọc dưới sự hướng dẫn của thầy Nghi Hoàng Khoa, chúng tôi đã gặp khó khăn
và mắc phải sai lầm, nhưng thầy luôn luôn hỗ trợ và động viên chúng tôi toàn
tâm để đạt được mục tiêu mong muốn cho báo cáo luận văn Chúng tôi xin chúc
thầy sức khỏe đồi dào, niềm vui trong công việc và tiếp tục tận tụy truyền đạtkiến thức và truyền cảm hứng cho thế hệ sinh viên trong tương lai
Cuối cùng, chúng tôi muốn bày tỏ lòng biết ơn đến các bạn sinh viên cùngtrường, anh chị và các bạn đã luôn nhiệt tình hỗ trợ chúng tôi, chia sẻ ý kiến và
đóng góp quý giá trong quá trình thực hiện luận văn của chúng tôi Chúng tôi
rất trân trọng sự hỗ trợ và sự đồng hành của mọi người, vì các góp ý và sự hỗ
Trang 3iltrợ của các bạn đã giúp chúng tôi hoàn thiện luận văn với khả năng tốt nhất.Chúng tôi chúc cho tất cả các bạn tiếp tục thành công trên hành trình học tập,trở thành những người trẻ tài năng và nhiệt huyết.
Xin chân thành cam ơn.
TP Hồ Chí Minh, tháng 07 năm 2023
Nguyễn Trung Hiếu Bạch Nhật Minh
Trang 4MUC LUC
MỤC LUC 0.0.00 eee
DANH MỤC CÁC KY HIỆU, CÁC CHU VIET TAT
DANH MỤC CÁC TỪ TIENG ANH
DANH MỤC CÁC HÌNH VẼ
DANH MỤC CÁC BANG BIEU
CHƯƠNG 1 GIỚI THIEU TONG QUAN 11 Ly do chọn d@tai 00000000 ee eee 1.2 Mục tiêu nghiên ctu 2 ee 1.3 Phạm vi nghiên đỨU (Ốc CS ST So 1.4 Đối tượng nghiên ctu 2 SE Q2 1.5 Phương pháp thực hiện
16 Cấu trúc khóa luận 00 000 000 0000000008 CHƯƠNG 2 TÌNH HÌNH NGHIÊN CỨU LIÊN QUAN 2.1 Tình hình nghiên cứu và các công trình liên quan
2.2 Ý nghĩa khoa học và thực tiễn của đề tài
2.2.1 Ý nghĩa khoahọc c2 9.2.2 Ý nghĩa thực tien 0.00.00 000000 eee CHƯƠNG 3 CO SỞ LÝ THUYET 3.1 Các mang Neural Network và ứng dụng
3.1.1 AutoEncoder(AE) Ặ co 3.1.2 Convolutional Neural Network(CNN)
3.2 Hệ thống phát hiện xâm nhập (IDS)
12 12 13
Trang 53.4
3.2.1 Tổng quanvềlDS
3.2.2 Ap dụng các kỹ thuật hoc máy choIDS
Federated Learning (Học liên kết)
3.3.1 Tổng quan về Federated Learning
3.3.2 Thuật toán tổng hợp của Federated Learning
3.3.3 Mô hình Semi-Supervised Federated Learning (học liên kết bán giám st) 2 na 3.3.4 Ứng dụng Federated Learning cho hệ thống IDS
Tăng cường dữ liệu co 3.4.1 Tổng quan và nhu cầu của cơ chế tăng cường đữ liệu 3.4.2 Các kỹ thuật tăng cường dữ liệu
-CHƯƠNG 4 PHƯƠNG PHÁP THỰC HIỆN 4.1 4.2 4.3 4.4 Tổng quan về mô hình đề xuất
Phương pháp học liên kết bán giám sát
Quy trình hoạt động của mô hình học liên kết bán giám sát Co chế tăng cường di liệu đối kháng cho mô hình
CHƯƠNG 5 THỰC NGHIỆM VÀ ĐÁNH GIÁ 5.1 5.2 Môi trường thực nghiệm 2.2 2.2 ee ee ee 5.1.1 Tainguyén 2.2 ee ee, 5.1.2 Tapdtli@u 2 ee 5.1.3 Tiền xử lý ditli@u 000 0 00
5.1.4 Tham số triển khai mô hình SS-CollabIDS
5.1.5 Triển khai mô hình AutoEneoder
5.1.6 Triển khai mô hình học liên kết bán giám sát
5.1.7 Triển khai các hàm tính toán
5.1.8 Triển khai cơ chế tăng cường dữ liệu đối kháng
Thực nghiệm ee 5.2.1 Tiêu chí đánh giá Ặ Ặ So
36
36 37
40 45
Trang 65.2.2 Kịch bản thực nghiệm 63
5.2.3 Kết quả thực nghiệm 645.2.4 Đánh giá kết quả Ặ co 76
CHƯƠNG 6 KET LUẬN 78
61 Kếtluận 2 Qua 78
6.2 Hướng phát triển 2 Q Q TQ TQ 79
TAI LIEU THAM KHAO 80
Trang 7DANH MỤC CÁC KÝ HIỆU, CÁC CHU VIET TAT
X Thuộc tính của dữ liệu đầu vào
Y — Nhãn của dữ liệu đầu vào
X” Thuộc tính được tái tạo
Z Biến tiềm an
P() Phân phối xác suất
Q() Phân phối chuẩn
K_ Số lượng các clients
rz — Chỉ số để lấy ngẫu nhiên số lượng clients từ K
n Số lượng clients được lựa chọn ở mỗi vòng
R — Số lượng vòng
6) — Giá trị các parameters được khởi tạo cho mô hình AE
E Số lượng epoch của clients
E, Số lượng epoch của server
wo Mo hình toàn cục
w, M6 hình cục bộ
L Giá trị của ham loss
Trang 8DANH MUC CAC TU TIENG ANH
Intrusion Detection System (IDS)
Học không giám sát Học bán giám sát
Học máy
Học sâu
Học liên kết Học liên kết bán giám sát
Tập dữ liệu
Tập dữ liệu huấn luyện
Tập dữ liệu kiểm tra
Phân loại hai nhãn
Phân loại nhiều nhãn
Vòng giao tiếp
Chi phí giao tiếp
Học tăng cường
Trang 9DANH MUC CAC HINH VE
Hình 2.1 Mô ta cách hoạt động của mô hình Federated Learning
Hình 2.2 Mô hình Semi-Supervised Federated Learning
Hình 3.1 Kiến trúc của Autoencoder
Hình 3.2 Mô hình Convolutional Neural Network (CNN)
Hình 3.3 Mot mô hình hệ
thốngIDS -Hình 3.4 Mô tả quá trình tương tac giữa Server va Clients trong Federated Learning 0000 ee ee Hình 3.5 Mô tả thuật toán FedAvg 0
Hình 3.6 Mô tả hai mô hình Semi-Supervised Feederated Learning Hình 3.7 Mô ta một hệ thống IDS dựa trên FL áp dụng cho môi trường [o0ÏlS Q0 vo Hình 3.68 Ky thuật tăng cường dữ dữ liệu với dữ liệu ảnh
Hình 3.9 Vectơ tiềm an được ánh xạ tới phân phối dữ liệu bằng tham Hình 3.10 Kiến trúc của mô hình Generative Adversarial Networks Hình 3.11 Chi phí cho Generator là một hàm của phản hồi của Dis-criminator trên dữ liệu được tạo ra
Hình 4.1 Kiến trúc mô hình SS-CollabIDS cùng cơ chế tăng cường dữ Hình 4.2 Mô tả tính ban giám sát trong mô hình $S-CollabIDS
Hình 4.3 Luồng hoạt động của mô hình SS-CollabIDS
Hình 4.4 Minh họa thí nghiệm tấn công bằng mẫu đối khang
Hình 4.5 Mô hình SS-CollabIDS kết hợp cơ chế tăng cường dữ liệu
10 11
15 17 18
22 24 26
28
29
31
34
39
37 38
41 45 47
Trang 10Hình 5.1 Luồng xử lí dữ liệu
Hình 5.2 Đồ thị giá trị loss của mô hình SS-CollabIDS khi huấn luyện
với tap dữ liệu NF-UNSW-NB15 (imbalance-bin-diff)
Hình 5.3 Đồ thị giá tri accuracy của mô hình S$-CollabIDS khi huấn
luyện với tập dữ liệu NF-UNSW-NB15 (imbalance-bin-dif)
Hình 5.4 Đồ thị giá trị loss của mô hình SS-CollabIDS khi huấn luyện
với tap dữ liệu NE-CSE-CIC-IDS2018 (balance-bin-diff)
Hình 5.5 Đồ thị giá trị accuracy của mô hình SS-CollabIDS khi huấn
luyện với tập dữ liệu NF-CSE-CIC-IDS2018 (balance-bin-diff)
Hình 5.6 Cac bước thực nghiệm trong kịch bản2
Trang 11DANH MỤC CÁC BANG BIEU
Bảng 5.1 Mô tả tham số để triển khai mô hình SS-CollablDS
Bang 5.2_ Kết quả đánh giá của mô hình SS-CollabIDS khi được huấn
luyện bằng tập dữ liệu NF-UNSW-NB15 với các trường hợp thay
đổi số vòng giao tIẾp cv.
Bảng 5.3 Kết quả đánh giá của mô hình SS-CollabIDS khi được huấn
luyện bằng tập dữ liệu NF-CSE-CIC-IDS2018 với các trường hợp
thay đổi roun o_o NN Sm ww wid
Bảng 5.4 Két quả của mô hình SS-CollabIDS sử dung tap dit liệu
NF-CSE-CIC-IDS2018 khi thay đổi cliens
Bảng 5.5 Kết quả đánh giá của mô hình SS-CollabIDS và mô hình
học tập trung khi được huấn luyện với 2 tập dữ liệu
Bang 5.6 Kết quả của mô hình S$-CollabIDS trong các trường hợp
khi sử dụng thuật toán FGSM 2 4
Bảng 5.7 Kết quả đánh giá của mô hình SS-CollablDS trong các
trường hợp khi sử dụng thuật toán PGD
Bảng 5.8 Kết quả đánh giá của mô hình SS-CollabIDS khi kiểm tra
với bộ dữ liệu đối khang FGSM_
Bảng 5.9 Kết quả đánh giá của mô hình SS-CollabIDS khi kiểm tra
với bộ dữ liệu đối kháng PGD Bảng 5.10 Mô tả kết quả so sánh về độ chính xác (Accuracy) giữa mô
hình SS-CollabIDS với những mô hình khác
Trang 12CHƯƠNG 1 GIỚI THIEU TONG QUAN
xâm nhập hoặc vi phạm bảo mật trên mạng hoặc hệ thống Mục tiêu chính của
IDS là xác định các hành vi bất thường hoặc đáng ngờ mà có thể là dấu hiệu
của một cuộc tấn công mạng hoặc vi phạm bảo mật
Trong những năm trở lại đây, đã có nhiều nhà phát triển đã xây dựng hệ
thống IDS dựa trên kỹ thuật Machine Learning (ML) để nâng cao hiệu suất cho
hệ thống đồng thời có thể nhận biết được các cuộc tấn công chưa được biết đến.
Áp dụng ML thật sự đã mang lại những kết quả tích cực [1] nhưng vẫn chưa là
một kỹ thuật tối wu vì còn tồn tại những hạn chế như về nguồn dữ liệu, với các
mô hình học có giám sát thì cần một lượng lớn dữ liệu được gắn nhãn nhưng
để thỏa mãn yêu cầu này không phải là một nhiệm vụ dễ dàng, và ngoài ra hầu
hết các mô hình ML được đào tạo theo cách tập trung, điều này dễ dẫn đến viphạm về các chính sách về dữ liệu và quyền riêng tư
Để giải quyết những điểm còn hạn chế của các mô hình học tập trung, các
chuyên gia đã có những cơ chế được đề xuất xoay quanh kỹ thuật Federated
Learning (FL), một kỹ thuật mà việc dao tạo mô hình không còn tập trung tại
một điểm Federated Learning (FL) xuất hiện lần đầu vào năm 2016, có sự đổi
mới trong hướng tiếp cận so với một mô hình ML bình thường [2] Thay vì xây
Trang 132dựng, đào tạo mô hình dựa trên một nguồn dữ liệu theo cách tập trung, FL sử
dụng cơ chế tạm gọi là clients và server, server đóng vai trò là điểm tập trung
nhận kết quả đào tao từ các mô hình con hay các clients Cách tiếp cận của FLbảo đảm được chính sách về dữ liệu và quyền riêng tư, các clients sẽ không phải
gửi dữ liệu riêng tư cho server [3].
Ngoài ra một trong những yếu điểm đáng lưu ý khi huấn luyện mô hình
Machine Learning theo phương pháp học tập trung cho hệ thống phát hiện xâm
nhập (IDS) là yêu cầu một lượng lớn dữ liệu để đảm bảo mô hình đạt được hiệu suất tối wu nhất có thể Tuy nhiên, việc thu thập và gán nhãn dữ liệu là một quá
trình phức tạp và tốn kém Điều này đặc biệt khó khăn khi các loại tấn công
mới xuất hiện liên tục, và mô hình cần phải được cập nhật liên tục để nhận diện
chúng Do đó, việc nghiên cứu các phương pháp và kỹ thuật nhằm giảm nhẹ yêu
cầu về dữ liệu huấn luyện và tăng cường khả năng tổng quát hóa là một thách
thức trong nghiên cứu IDS Các phương pháp như học bán giám sát, tái tạo dữ
liệu và học tăng cường có thể được áp dung để tận dụng tối đa các mẫu hiện
có và tạo ra dữ liệu mô phỏng chân thực hơn Điều này có thể giúp giảm thiểu nhược điểm về yêu cầu dit liệu và tăng hiệu suất của mô hình hoc máy trong
IDS.
Với mục tiêu giải quyết được những điểm hạn chế đã nêu lên, khóa luận tốt nghiệp này sẽ tập trung vào nghiên cứu nghiên cứu phương pháp để xây dựngmột mô hình cộng tác phát hiện xâm nhập dựa trên học liên kết bán giám sát
và cơ chế tăng cường dit liệu
1.2 Mục tiêu nghiên cứu
Mục tiêu nghiên cứu của luận văn này là xây dựng một mô hình phát hiện xâm nhập cộng tác dựa trên học bán giám sát và kỹ thuật tăng cường dữ liệu Những mục tiêu chính của nghiên cứu này là nâng cao khả năng phát hiện và
phân loại các hành vi xâm nhập trong mạng máy tính, đồng thời giảm tỷ lệ phát
Trang 14hiện sai và giảm thiểu ảnh hưởng đến hoạt động bình thường của hệ thống Cụ thể, nó bao gồm:
e Phân tích và hiểu các phương pháp phát hiện xâm nhập hiện có: Nghiên
cứu các phương pháp phát hiện xâm nhập được áp dụng trong lĩnh vực an
ninh mạng, chẳng hạn như phân tích gói tin, học máy và học sâu Hiểu rõ
ưu điểm và nhược điểm của từng phương pháp để xác định các lĩnh vực cần
cải thiện.
e Phát triển mô hình học bán giám sát: Xây dựng một mô hình học bán giám
sát kết hợp dit liệu được gắn nhãn và dữ liệu không được gắn nhãn Môhình sẽ học các mối quan hệ tương đối giữa các đặc trưng của dữ liệu và
hành vi xâm nhập.
e Tăng cường dữ liệu: Áp dụng các kỹ thuật tăng cường dữ liệu để tạo ra các
mẫu dit liệu xâm nhập nhãn tao, từ đó nang cao khả năng phát hiện xâm
nhập của mô hình Các kỹ thuật tăng cường dữ liệu bao gồm thêm nhiễu,nội suy dữ liệu tuyến tính, xoay, tỉ lệ, biến đổi độ sáng và áp dụng các biến đổi hình học khác.
e Dánh giá và so sánh hiệu suất: Đánh giá hiệu suất của mô hình phát hiện
xâm nhập cộng tác được đề xuất bằng cách sử dụng các bộ dữ liệu thực tế
và so sánh kết quả với các phương pháp phát hiện xâm nhập của các tácgiả khác Do lường các chỉ số như độ chính xác, độ nhạy và tỷ lệ phát hiện
sai để đánh giá hiệu suất, khả năng phân loại và độ tin cậy của mô hình.
e Nghiên cứu về các kịch bản tấn công mới: Phân tích các kịch bản tấn công
mới va 4p dụng mô hình phát hiện xâm nhập cộng tac để đánh giá khả
năng phát hiện và phân loại các hành vi xâm nhập mới này Mục tiêu là
kiểm tra tính linh hoạt và khả năng thích ứng của mô hình đối với những
mối đe dọa mới nổi
Trang 154Kết quả dự kiến của nghiên cứu là một mô hình phát hiện xâm nhập cộngtác hiệu quả, có độ chính xác cao và tỷ lệ phát hiện sai thấp trong việc phát
hiện và phân loại các hành vi xâm nhập trong mạng máy tính Ngoài ra, nghiên
cứu này cũng có thể đóng góp vào việc cải thiện hiệu suất và tính linh hoạt của
các phương pháp phát hiện xâm nhập hiện có trong lĩnh vực an ninh mạng.
1.3 Pham vi nghiên cứu
Phạm vi nghiên cứu cho đề tài "Mô hình cộng tác phát hiện xâm nhập dựatrên học liên kết bán giám sát và cơ chế tăng cường dữ liệu" sẽ tập trung vào
những khía cạnh sau:
e Nghiên cứu về phát hiện xâm nhập: Khám phá các phương pháp, kỹ thuật
và công nghệ hiện có trong lĩnh vực phát hiện xâm nhập Nghiên cứu các
thuật toán phát hiện xâm nhập truyền thống và các phương pháp mới nhất
2 ⁄ 2 ` ⁄ tA A kì ⁄
đề đánh giá và so sánh hiệu suât của chúng.
e Mô hình học máy: Nghiên cứu và phát triển các mô hình học máy phù hợp
cho việc phát hiện xâm nhập Tập trung vào các mô hình học sâu như mạng
nơ-ron và mạng nơ-ron tích chập để tạo ra mô hình cộng tác phát hiện xâm
nhập.
e Học liên kết bán giám sát: Đề xuất và áp dụng các phương pháp học liên
kết bán giám sát trong mô hình cộng tác Nghiên cứu cách kết hợp thôngtin từ các nguồn dữ liệu khác nhau, bao gồm dữ liệu có nhãn và dit liệu
không có nhãn, để cải thiện khả năng phát hiện xâm nhập.
e Cơ chế tăng cường dữ liệu: Nghiên cứu và phát triển các cơ chế tăng cường
dữ liệu để mở rộng tập dữ liệu huấn luyện Xây dựng các kỹ thuật tạo ra biến thể của dữ liệu huấn luyện bằng cách áp dụng các biến đổi, tạo ra các điểm dữ liệu mới và đa dạng hóa tập dữ liệu.
Trang 16e Dánh giá va thực nghiệm: Tiến hành các kịch ban va đánh giá hiệu suất
của mô hình cộng tác phát hiện xâm nhập được đề xuất Sử dụng tập dữliệu thực tế hoặc tạo ra tập dữ liệu mô phỏng để đánh giá độ chính xác, độ
nhạy và tỷ lệ phát hiện sai của mô hình.
e So sánh với các phương pháp hiện có: So sánh hiệu suất của mô hình cộng
tác phát hiện xâm nhập với các phương pháp phát hiện xâm nhập truyền
thống và các phương pháp mới nhất Đề xuất những ưu nhược điểm của mô
hình cộng tác và đánh giá sự tiến bộ của nó so với các phương pháp hiện
z
co.
e Ứng dụng và triển khai: Nghiên cứu khả năng triển khai mô hình cộng tác
phát hiện xâm nhập trong một môi trường thực tế Xem xét các yêu tố như
tích hợp với hệ thống hiện có, hiệu suất thời gian thực và khả năng mở rộng
của mô hình.
1.4 Đối tượng nghiên cứu
Các mục tiêu nghiên cứu cho chủ đề luận văn mà nhóm đang hướng tới bao
gồm những yếu tố và khía cạnh sau đây:
e Dữ liệu xâm nhập: Tập trung nghiên cứu và phân tích các dạng dữ liệu xâm
nhập khác nhau, bao gồm gói tin mạng, luồng dữ liệu và các thuộc tính
liên quan Điều này đòi hỏi hiểu biết sâu về các loại tấn công, phương pháp xâm nhập và hoạt động của chúng để xây dựng một mô hình phát hiện xâm
nhập hiệu quả.
e Dữ liệu huấn luyện và dữ liệu không được gắn nhãn: Mục tiêu nghiên cứu
sẽ là các tập dữ liệu đã tồn tại hoặc tự xây dựng chứa các ví dụ về cả hoạt
động xâm nhập và không xâm nhập Dữ liệu huấn luyện sẽ được sử dụng
để huấn luyện mô hình, trong khi dữ liệu không được gắn nhãn sẽ được sử
dụng trong quá trình học bán giám sát.
Trang 17e Mô hình cộng tác: Mục tiêu nghiên cứu là mô hình phát hiện xâm nhập
đồng hợp tác, trong đó các mô hình và thuật toán khác nhau đóng góp vàoquá trình phát hiện xâm nhập Các thành viên của mô hình đồng hợp tác
có thể là các mô hình học máy, mạng thần kinh hoặc các thuật toán phát
hiện xâm nhập khác Trọng tâm đặt vào việc nghiên cứu cách kết hợp thông
tin và quyết định của các thành viên để đạt được kết quả tốt nhất trong
việc phát hiện xâm nhập.
e Phương pháp học bán giám sát: Mục tiêu nghiên cứu sé là các phương pháp
học bán giám sát, nhằm tận dụng cả dữ liệu được gắn nhãn và dữ liệu khôngđược gắn nhãn trong quá trình xây dựng mô hình Các phương pháp này có
thể bao gồm phân loại học bán giấm sát, mạng thần kinh không gian nhãn
hoặc các kỹ thuật học tăng cường như Mạng đối nghịch Generative sarial Networks (GAN) va Mã hóa tự đối nghịch Adversarial Autoencoders
Adver-(AAE) để tạo dữ liệu tổng hợp và hỗ trợ quá trình huấn luyện.
e Cơ chế tăng cường dữ liệu: Mục tiêu nghiên cứu sẽ tập trung vào các phương
pháp và kỹ thuật tăng cường dữ liệu Các kỹ thuật này sẽ được áp dụng để
tạo ra các biến thể của dữ liệu huấn luyện, tăng tính đa dạng và cải thiện
khả năng phát hiện xâm nhập trên dữ liệu mới và không quen thuộc.
1.5 Phương pháp thực hiện
Vì đây là một chủ đề hứa hẹn với nhiều tác giả hiện đang tập trung nghiên
cứu, nhóm của chúng tôi sẽ tuân theo một phương pháp bao gồm sự hiểu cơ bản, nghiên cứu, triển khai và cuối cùng là đánh giá và so sánh kết quả Các phương pháp cụ thể bao gồm:
e Nghiên cứu văn bản, bài báo hoặc video hướng dẫn về việc áp dụng Học
liên kết cho các hệ thống phát hiện xâm nhập, khám phá các ưu điểm vàhạn chế của nó.
Trang 18e Hiểu cấu trúc, đặc điểm và triển khai của mô hình AutoEncoder (AE).
Nghiên cứu các cơ chế tăng cường dữ liệu bằng mô hình AutoEncoder vacách kết hợp nó với mô hình Học liên kết
e Tham khảo văn bản và mã nguồn mở từ các tác giả đã triển khai các mô
hình Học liên kết bán giám sát
e Lựa chọn một tập dữ liệu phù hợp để huấn luyện mô hình của nhóm chúng
tôi Khám phá các tập dữ liệu thông thường được sử dụng để huấn luyện
mô hình, tham khảo các nghiên cứu trước đó.
e Thiết kế các kịch bản để tiến hành thực nghiệm và đánh giá hiệu suất của
mô hình của nhóm chúng tôi so với các tác giả đã nghiên cứu các chủ đề
tương tự trước đó.
1.6 Cau trúc khóa luận
Sau phần giới thiệu trước đó, nhóm chúng tôi muốn đề xuất cấu trúc củaluận văn, bao gồm các phần sau:
e Chương 1: Giới thiệu: Cung cấp một cái nhìn tổng quan về lý do chọn chủ
đề luận văn, mục tiêu mong muốn, phương pháp nghiên cứu, đối tượng và
phạm vi nghiên cứu.
e Chương 2: Nghiên cứu liên quan: Trình bày các phương pháp và kết quả
của những nhà nghiên cứu trước đây về các chủ đề liên quan đến nghiên
cứu hiện tại của chúng tôi, làm nổi bật các điểm mạnh và điểm yếu của
những nghiên cứu đó Ngoài ra, thảo luận về ý nghĩa khoa học và thực tiễncủa các nghiên cứu đó đối với chủ đề của chúng tôi
e Chương 3: Cơ sở lý thuyết: Giới thiệu tổng quan về các cơ sở lý thuyết của
các thành phần liên quan đến chủ đề luận văn của chúng tôi, trình bày các
phương pháp và ứng dụng của các mô hình đã triển khai Ngoài ra, thảo
Trang 198luận về các thuật toán được sử dụng trong việc xây dựng những mô hình
đó.
e Chương 4: Phương pháp nghiên cứu: Trình bày mô hình được xây dựng bởi
nhóm chúng tôi, bao gồm các đặc điểm, thành phần, thuộc tính và ưu điểm
của nó Mô tả quy trình thực hiện mô hình và làm nổi bật các phương pháp
được sử dụng trong mô hình đề xuất
e Chương 5: Thực nghiệm và Đánh giá: Mô tả môi trường, tập dữ liệu và các
bước tiền xử lý cho mô hình, cùng với các đoạn mã để triển khai mô hình.
e Chương 6: Kết luận: Đưa ra kết luận về mô hình được triển khai bởi nhóm
chúng tôi, các vấn đề mà nó đã giải quyết và đề xuất hướng phát triển trong
tương lai.
Trang 20CHƯƠNG 2 TÌNH HÌNH NGHIÊN CỨU LIÊN QUAN
2.1 Tình hình nghiên cứu và các công trình liên quan
Trong những năm gần đây, nhiều nhà nghiên cứu đã nhận ra những lợi ích
của việc phát triển hệ thống phát hiện xâm nhập (IDS) dựa trên mô hình Hoc
liên kết (Federated Learning - FL) so với các phương pháp học máy trung tâm
truyền thống (Machine Learning - ML) Một lợi thế quan trọng của phương
pháp này là bảo vệ sự riêng tư dit liệu, vì các khách hàng không cần gửi dữ liệu
riêng tư của mình đến máy chủ trong hệ thống IDS Hình 2.1 mô tả một ví dụ
về cách mô hình Học liên kết hoạt động [4]
Các nhà nghiên cứu đã triển khai các mô hình FL bằng cách sử dụng các kỹ
thuật khác nhau để tối ưu hiệu suất hoặc cải thiện các mô hình hiện có so với các phương pháp truyền thống Một số tác giả đã sử dụng FedBKD [5] để giải
quyết các vấn đề khi huấn luyện mô hình trên dữ liệu riêng tư và sự bất đồng bộgiữa các thiết bị cục bộ trong hệ thống IoT Họ áp dung nó vào việc phân loạiđiều chế và quan sát rằng khi số lượng khách hàng tăng lên, độ chính xác phân
loại giảm đi Các nghiên cứu khác [6, 7, 8] đã so sánh FL với các thuật toán DL
và điều tra các lỗ hong trong FL và cách khai thác chúng Khi triển khai các mô
hình phát hiện bất thường, hầu hết các tác giả gặp khó khăn về gánh nặng giao
tiếp, đó là chi phí xử lý trong quá trình giao tiếp và trao đổi giữa khách hàng
và máy chủ Trong môi trường IoT, việc cấu hình FL gặp thách thức do sự biến
đổi trong cấu hình khách hàng, và đây là một trong những lý do tại sao một số
khung công cu FL chưa được phổ biến rộng rãi.
Trang 21dữ liệu cân bằng Các nhà nghiên cứu triển khai FL đã kết hợp nó với các mô
hình Deep Learning (DL) có kha năng tạo dữ liệu Cụ thể, Fed-SCR [9] sử dung
FL với các cải tiến để giải quyết các vấn đề như thiếu dữ liệu được gắn nhãn
và mat cân bằng tập dit liệu trong các mô hình DL Nghiên cứu đã đạt được độ
chính xác là 96,48% cho dữ liệu IDD và 95,41% cho dữ liệu không phải IDD Tuy
nhiên, tác giả cũng xác định một hạn chế trong mô hình của họ khi sử dụng cơ
chế huấn luyện Adversarial Một nghiên cứu khác [10] đề xuất ba phương pháp
để cân bằng dữ liệu khi kết hợp FL với CVAE hoặc VAE Kết quả cho thấy cải
Trang 22thiện đáng kể trong F1-score, với mức tăng là 3,75% đối với các mô hình IDS
dựa trên CNN và 5,32% đối với các mô hình IDS dựa trên GRU
FedBatch [11] là một dự ấn phát hiện xâm nhập dựa trên FL trong môi trường
IoT, nhằm giải quyết van đề rò rỉ dữ liệu cá nhân khi sử dung các mô hình DL.Phương pháp độc đáo này kết hợp FL với CNN-MLP Mặc dù có sự cải thiện
về độ chính xác so với các mô hình chỉ dựa trên CNN hoặc MLP, nhưng nó
không giải quyết được vấn đề gánh nặng giao tiếp Phát triển PL theo cách
bán giám sát cũng là một phương pháp mà một số tác giả đã khám phá Trong
[12], FL bán giám sát được triển khai kèm theo cơ chế truyền đạt kiến thức để
củng cố quá trình học cho máy chủ Tuy nhiên, nghiên cứu vẫn còn hạn chế nhưtính không hiệu quả của cơ chế bỏ phiếu độc lập và việc giải quyết không hoànchỉnh vấn đề dữ liệu cá nhân không đồng nhất (non-IID) bằng phương pháp
lọc Trong nghiên cứu [13], tác giả đề xuất một triển khai FL bán giám sát như
một hệ thống phát hiện xâm nhập Tác giả áp dụng một mô hình AE tại phía
khách hang để học dé liệu không được gắn nhãn, trong khi phía máy chủ được
huấn luyện với dữ liệu được gắn nhãn Mô hình này có hạn chế về thời gian
huấn luyện Hình 2.2 minh họa một ví dụ về mô hình Học liên kết bán giám sát
(Semi-Supervised Federated Learning) [14].
Central Server Retraining Stage Server ~ =
Labeled Dataset ( transfer !~————=—— \
Unlabeled Dataset ' Client 1 Client 2 Dataset ee 2
Hinh 2.2: Mô hành Semi-Supervised Federated Learning
Về vấn đề kha nang chống lai tấn công đối kháng, TIKI-TAKA [15] là một
Trang 23khung công cụ được phát triển bởi các nhà nghiên cứu trong ngữ cảnh hệ thống NIDS mà có thể bị đánh lừa bởi các mẫu đối kháng Họ đề xuất ba phương pháp
kết hợp với hệ thống NIDS: kết hợp bỏ phiếu mô hình, huấn luyện đối kháng
bằng kết hợp, và phát hiện truy vấn Kết quả cho thấy độ chính xác gần 100%.
Dựa trên kết quả nghiên cứu về huấn luyện mô hình với các mẫu đối kháng và
FL được xây dựng trên nhiều mang thần kinh sâu, việc huấn luyện trên các mẫuđối kháng nâng cao khả năng phát hiện tấn công đối kháng Điều này cho thấyviệc giải quyết vấn đề khả năng chống lại tấn công đối kháng là cần thiết cho
FL.
Sau khi khảo sát nghiên cứu liên quan về áp dung Học liên kết vào các hệ thongphát hiện xâm nhập, mục tiêu của chúng tôi là xây dựng một hệ thống pháthiện xâm nhập dựa trên chiến lược Học liên kết bán giám sát (Semi-Supervised
Federated Learning) Phương pháp nay đã thé hiện những ưu điểm trong việc
giải quyết vấn đề gánh nặng giao tiếp và vấn đề chính sách riêng tư Chúng tôi
cũng sẽ tích hợp kỹ thuật huấn luyện mô hình của chúng tôi trên các mẫu đối
kháng do hiệu quả của nó.
2.2 Ý nghĩa khoa học và thực tiến của đề tài
2.2.1 Ý nghĩa khoa hoc
Bởi vì đây là một chủ đề có hướng nghiên cứu và ứng dụng, nó mang lại ý
nghĩa khoa học đáng kể Phương pháp chúng tôi đã chọn là triển khai một mô
hình Học liên kết bán giám sát, yêu cầu nghiên cứu một cách kỹ lưỡng về các
mô hình thành phần liên quan như mạng neural network, mô hình Federated
Learning căn bản, kỹ thuật Knowledge Distillation, Ngoài ra, chúng tôi cần
nghiên cứu các loại tập dữ liệu mạng cần thiết để áp dụng vào mô hình và các
phương pháp tăng cường dit liệu Mục tiêu chính của nhóm chúng tôi là phat
triển một mô hình cải thiện độ chính xác so với các nhà nghiên cứu trước đây
trong cùng hướng, từ đó đóng góp vào ý nghĩa khoa học bằng cách nâng cao
Trang 2413hiệu suất phát hiện xâm nhập Hơn nữa, nghiên cứu trong chủ dé nay cũng cung
cấp hiểu biết về kiến thức an ninh mạng, sự quen thuộc với các loại tấn công thông thường và trước đây chưa biết đến, lỗ hổng an ninh và các biện pháp bảo
vệ trong môi trường mạng.
2.2.2 Ý nghĩa thực tiễn
Kết quả dự kiến của dự án của chúng tôi là việc triển khai thành công một
mô hình phát hiện xâm nhập hợp tác dựa trên học bán giám sát và cơ chế tăng
cường dữ liệu Ap dung mô hình phát hiện xâm nhập hợp tác có thể giúp cải
thiện an ninh của hệ thống thông tin, ngăn chặn các cuộc tấn công và bảo vệ
dữ liệu quan trong Mô hình này có khả năng phát hiện hành vi xâm nhập tiềm
năng và mới, đảm bảo sự an toàn và bảo mật cho hệ thống mạng Kết quả vàphương pháp nghiên cứu từ dự án này có thể được áp dụng trong thực tế và
nghiên cứu tiếp theo, dẫn đến các tiến bộ mới trong lĩnh vực an ninh mạng vàgiải quyết những thách thức an ninh ngày càng phức tạp hơn
Trang 25phần chính: Bộ mã hóa (Encoder) và Bộ giải mã (Decoder) [16].
Cấu trúc của một Autoeneoder bao gồm các thành phần và chức năng sau:
e Encoder (bộ mã hóa): Thành phần này nhận dữ liệu trong mô hình
Au-toencoder và có trách nhiệm nén các đặc trưng đầu vào thành các biểu diễn trong không gian tiềm an chiều thấp Bộ mã hóa thường được thiết kế dưới
dạng một mạng neural sâu với các lớp an Những lớp ẩn này giúp học các
đặc trưng quan trọng và giảm chiều dữ liệu
e Decoder (bộ giải mã): Thành phần giải mã nhận các biểu diễn nén trong
không gian tiềm an được tạo ra bởi bộ mã hóa Tương tự như bộ mã hóa,
bộ giải mã được thiết kế dưới dang một mang neural sâu với nhiều lớp an.
Chức năng của bộ giải mã là tái tạo lại các thuộc tính ban đầu thông quaquá trình giải mã các biểu diễn trong không gian tiềm ẩn
Trang 26Autoencoder thường được sử dụng để giảm chiều dữ liệu hoặc trích xuất đặc
trưng Bằng cách tận dụng cấu trúc đối xứng giữa Bộ mã hóa và Bộ giải mã,
Autoencoder cũng có thể được sử dụng để tăng cường dit liệu trong việc triển khai mô hình Học liên kết bán giám sát được phát triển bởi nhóm.
3.1.2 Convolutional Neural Network (CNN)
Mang neural tích chập (Convolutional Neural Network - CNN) là một mô
hình mang neural tiên tiến trong lĩnh vực Học sâu, được huấn luyện bằng hoc
có giám sát CNN là một loại mang neural thường được sử dụng trong xử ly
hình ảnh và các nhiệm vụ thị giác máy tính Nó được thiết kế để học các đặc
trưng cấu trúc của dữ liệu và áp dụng chúng vào các nhiệm vụ như phân loạihình ảnh và nhận diện đối tượng [17] Một CNN bao gồm nhiều lớp xếp chồng
nhau để tạo thành một mô hình học đa tầng.
CNN được thiết kế để học và trích xuất các đặc trưng từ dữ liệu thong qua
một loạt các lớp tích chập và lớp gom Sau đó, nó sử dụng các lớp kết nối đầy
Trang 27đủ để phân loại hoặc dự đoán.
Cau trúc của một mô hình CNN bao gồm:
1 Input Layer (Lớp đầu vào): Chita dữ liệu đầu vào để xử lý bởi mô hình
CNN Dữ liệu đầu vào có thể có nhiều kích thước khác nhau, thông thường
là một tensor 3 chiều (chiều cao, chiều rộng, kênh)
2 Convolutional Layer (Lớp tích chập): Thực hiện các phép tích chập trên
dữ liệu đầu vào bằng cách sử dụng các bộ loc (filter) Bang cách sử dungcác bộ lọc này, lớp tích chập trích xuất các đặc trưng cục bộ từ đữ liệu, baogồm cả các đặc trưng đơn giản và phức tạp Kết quả của lớp tích chập làmột tập hợp các bản đồ đặc trưng, trong đó mỗi bản đồ đặc trưng tương
ứng với một bộ lọc.
3 Activation Layer (Lóp kích hoạt): Thường là một lớp ReLU (Rectified
Linear Unit), nơi các giá trị âm được chuyển thành 0 trong khi các giá trị
dương được giữ nguyên Điều này giúp tạo ra các đặc trưng phi tuyến vàtăng cường tính phi tuyến của mô hình
4 Pooling Layey (Lớp gop): Giảm kích thước của các bản đồ đặc trưng bằng
cách chọn giá trị lớn nhất (Max Pooling) hoặc tính trung bình (Average
Pooling) trong một vùng cụ thể Gom giúp giảm số lượng tham số và đạt
được tính không thay đổi theo không gian.
5 Fully Connected Layer (Lớp hoàn toàn kết nối): Lớp này kết nối tất cả
các đơn vị trong lớp trước với tất cả các đơn vi trong lớp tiếp theo N6 chứa
các trọng số có thể học và thực hiện các phép toán tuyến tính để tạo ra các
dự đoán đầu ra
6 Output Layer (Lớp dau ra): Là lớp cuối cùng của mô hình, thường áp
dụng hàm kích hoạt softmax để tính toán xác suất cho mỗi lớp trong đầu
ra Kết qua dau ra có thể là một vector xác suất đa lớp hoặc một vector
đặc trưng.
Trang 28CNN thường được áp dụng trong xử lý hình ảnh, thị giác máy tính, nhận
dạng khuôn mặt, xe tự hành, v.v Trong dự án của chúng tôi, chúng tôi sẽ sử
dụng Lớp kết nối day đủ (Fully Connected Layer) của CNN để tận dụng khả năng học có giám sát của mô hình và triển khai mô hình Học liên kết bán giám
CONVOLUTION + RELU POOLING CONVOLUTION + RELU POOLING FLATTEN connectep SOFTMAX
FEATURE LEARNING CLASSIFICATION
Hình 3.2: Mô hành Convolutional Neural Network (CNN)
3.2 Hệ thống phát hiện xâm nhập (IDS)
3.2.1 Tổng quan uê IDS
Hệ thống Phát hiện xâm nhập (Intrusion Detection System - IDS) là một
công cụ được thiết kế để giám sát mạng, các máy tính cá nhân hoặc hệ thống máy tính để xác định và phát hiện các hoạt động trái phép, xâm nhập hoặc bất
thường trên mạng.
Mục đích chính của IDS là phát hiện các hành vi đe dọa an ninh, bao gồmviệc xác định các cuộc tấn công từ bên ngoài như vi phạm chính sách truy cập,
quét cổng, cuộc tấn công từ chối dịch vụ (DoS), cuộc tấn công từ chối dịch vụ
phân tán (DDoS), cuộc tấn công malware và các hình thức tấn công khác Ngoài
Trang 29ra, IDS cũng có thé phát hiện các mối de dọa từ bên trong hệ thống, chang hạn
như truy cập trái phép vào dữ liệu nhạy cảm hoặc sử dụng sai thông tin đặc
quyền
IDS thường hoạt động bằng cách giám sát và phân tích lưu lượng mạng hoặc
dữ liệu hệ thống để tìm kiếm các mẫu, chữ ký hoặc đặc điểm đáng ngờ Các
phương pháp phát hiện xâm nhập có thể dựa trên quy tắc, dựa trên chữ ký, dựa
trên học máy, dựa trên học sâu hoặc các kỹ thuật phân tích hành vi Khi phát
hiện hành vi xâm nhập, IDS có thể cảnh báo, ghi lại các sự cố hoặc thực hiện
biện pháp hạn chế hoặc chặn
IDS thường được triển khai như một phần của một hệ thống an ninh toàn
điện, cùng với các biện pháp an ninh khác như tường lửa, Hệ thống Ngăn chặn
Xam nhập (IPS), mã hóa dữ liệu, chính sách quản lý truy cập và các biện phấp
an ninh mạng khác Kết hợp các công nghệ này cùng nhau giúp nâng cao anninh mạng và hệ thống máy tính, bảo vệ dữ liệu quan trọng và giảm thiểu nguy
cơ của các cuộc tấn công và xâm nhập
Trang 303.2.2 Ap dung các kỹ thuật học máy cho IDS
Khi các hệ thống IDS đã tiến hóa, các phương pháp tấn công cũng ngày càng
tiên tiến, liên tục tìm cách khai thác và vượt qua các lỗ hồng của hệ thống IDS.
Áp dụng các kỹ thuật Học máy đã là một phương pháp thành công mà nhiều
chuyên gia đã nghiên cứu, nhằm cải thiện hiệu suất của các mô hình IDS vàphát hiện các cuộc tấn công trước đây chưa biết đến
Các kỹ thuật Học máy được áp dụng vào hệ thống IDS có thé được chia thành
ba nhóm: Học có giám sát, Học không giám sát và Học bán giám sát [18] Cụ
thể, ba phương pháp này được mô tả như sau:
e Supervised Learning: Các thuật toán Học có giám sát xử lý dữ liệu được
gán nhãn đầy đủ và thiết lập mối quan hệ giữa dữ liệu và các lớp tương ứng,
thông thường thông qua phân loại hoặc hồi quy Các thuật toán phổ biếntrong nhóm này bao gồm Máy Vector Hỗ trợ (SVM), Naive Bayes, Phân
tích Phân biệt, Mang Neural, Người lang giềng gần nhất, Rừng Ngau nhiên(RF) và Hồi quy Logistic
e Unsupervised Learning: Các thuật toán Học không giám sát nhằm khám
phá cấu trúc an trong dit liệu không được gán nhãn Các thuật toán phổ
biến trong nhóm này bao gồm K-Means, Phân tích thành phần chính (PCA)
và Phân rã Giá trị Đơn nhất (SVD).
e Semi-Supervised Learning: Các thuật toán Hoc bán giám sát kết hợp các
yếu tố của cả học có giám sát và học không giám sát Chúng có thể nhận
đầu vào từ cả dữ liệu được gán nhãn và không được gán nhãn Một số tácgiả đã đề xuất một mô hình phân cấp nhiều lớp trong khung học bán giámsát, đã được áp dụng vào phát hiện xâm nhập mạng Mô hình này được lấy
cảm hứng từ thuật toán K-Means.
Học Sâu (Deep Learning) là một nhánh của Học Máy tập trung vào việc xây
dựng và huấn luyện các Mang Neural Nhân tạo sâu với nhiều lớp an Những
Trang 3120mạng neural sâu này có khả năng tự động học và trích xuất các đặc trưng phức
tạp từ đữ liệu đầu vào, mà không cần đến việc thiết kế đặc trưng rõ ràng Ap
dụng các kỹ thuật Học Sâu trong hệ thống IDS mang lại nhiều lợi ích so với các
phương pháp học máy truyền thống và cung cấp hiệu quả đáng kể cho hệ thống.
Xây dựng trên nền tảng của ba kỹ thuật học trong Học Máy, một số kỹthuật Học Sâu đã được áp dụng vào hệ thống IDS, bao gồm Mạng Tự Mã hoá
(Autoencoder - AE), Mang Tự Mã hoá Cạnh Tranh (Adversarial Autoencoder
- AAE), Mang Neural Dồ thị (Graph Neural Network - GNN), Mang Neural
Tích chap (Convolutional Neural Network - CNN) và Mang Neural Hồi quy
(Recurrent Neural Network - RNN) Những kỹ thuật nay tận dung sức mạnh
của mang neural sâu để nắm bắt các mẫu và biểu diễn phức tạp trong dit liệu,
tạo điều kiện cho khả năng phát hiện cải tiến và cải thiện hiệu suất trong hệthống phát hiện xâm nhập
3.3 Federated Learning (Học liên kết)
3.3.1 Tổng quan vé Federated Learning
Khi công nghệ tiếp tục phát triển, chúng ta dang chứng kiến sự xuất hiện của
nhiều thiết bị thông minh Hầu như ai cũng sở hữu các thiết bị thông minh cánhân, dẫn đến việc tăng vọt lượng dif liệu được tạo ra Mỗi thiết bị thông minh
sở hữu một tập dữ liệu riêng, và đảm bảo quyền riêng tư cho dữ liệu này là mộtthách thức đối với các nhà nghiên cứu về bảo mật
Trước sự gia tăng không ngừng của dữ liệu, phương pháp huấn luyện tậptrung cho hệ thống phát hiện xâm nhập đã tiết lộ những hạn chế Các mô hìnhhọc máy tập trung được xây dựng trên một máy chủ cố định và toàn bộ quá
trình huấn luyện phụ thuộc vào dữ liệu được lưu trữ trên máy chủ Các mô hìnhhọc máy có một đặc điểm chung: càng nhận được nhiều dữ liệu huấn luyện, độ chính xác càng cao Tuy nhiên, trong bối cảnh tăng trưởng dữ liệu nổ ra hiện tại, phương pháp học tập tập trung đòi hỏi chi phí tính toán đáng kể cho máy
Trang 32chủ để thực hiện quá trình huấn luyện một cách hiệu quả Vấn đề bảo vệ quyền
riêng tư người dùng cũng rất quan trọng, vì các mô hình học máy tập trung có
thể vi phạm chính sách quyền riêng tư của người dùng hoặc tạo ra nguy cơ lớn
khi dữ liệu riêng tư tập trung tại một vị trí và xảy ra sự vi phạm bảo mật.
Nhận thức về những thách thức mà các mô hình học máy tập trung đối mặt
trong bối cảnh hiện tại, các nhà phát triển đã đề xuất một phương pháp mới
gọi là Học Máy Phân tấn Học Máy Phân tấn là một phương pháp học máy phi
tập trung cho phép mô hình được huấn luyện trên các thiết bị cục bộ (như điện
thoại di động hoặc máy tính cá nhân) mà không cần chuyển dữ liệu đến một
trung tâm tập trung [19] Thay vào đó, các thiết bị cục bộ giữ lại dữ liệu của
họ và chỉ chia sẻ các thông số mô hình được cập nhật với máy chủ trung tâm.Phương pháp này giải quyết những hạn chế của việc học tập tập trung, giảm
gánh nặng tính toán cho máy chủ và tăng cường bảo vệ quyền riêng tư bằng
cách giữ dữ liệu trên các thiết bị cục bộ
Quá trình tương tac giữa Server và Clients được mô tả trong hình 3.4
Quy trình của Federated Learning bao gồm các bước sau:
1 Khởi tạo mô hình: Một mô hình học máy ban đầu được khởi tạo trên trung
tâm tập trung.
2 Phân phối mô hình: Mô hình được gửi đến các thiết bị cục bộ để được huấn
luyện.
3 Huấn luyện cục bộ: Trên mỗi thiết bị, mô hình được huấn luyện bằng cách
sử dung dữ liệu cục bộ của thiết bi đó.
4 Gop thông tin: Thong qua quá trình gop (aggregation), các tham số mô
hình đã được cập nhật từ mỗi thiết bị cục bộ được tổng hợp lại thành một
bản sao mô hình trung tâm tập trung.
5 Cập nhật mô hình: Mô hình trung tâm tập trung được cập nhật bằng thông
tin từ các thiết bị cục bộ
Trang 33Local model
Hinh 3.4: Mô tả quá trình tương tác giữa Server va Clients trong Federated
Learning
Trang 346 Lặp lại quá trình: Các bước 2-5 được lặp lại cho đến khi mô hình đạt được
hiệu suất mong muốn
Federated Learning có nhiều ưu điểm quan trọng:
e Bao mật dữ liệu: Dữ liệu không cần được chia sẻ hoặc truyền di, giữ cho dữ
liệu tại các thiết bị cục bộ mà không tiếp xúc với bên thứ ba
e Tiết kiệm băng thông: Chỉ truyền đi thông tin mô hình, giúp giảm lượng
dữ liệu truyền qua mạng
e Tăng tính phân tán: Việc huấn luyện trên các thiết bị cục bộ cho phép học
từ nhiều nguồn dữ liệu khác nhau, đại diện cho nhiều đặc trưng địa phương.
Tuy nhiên, Federated Learning cũng đối mặt với một số thách thức như việc
đồng bộ hóa mô hình giữa các thiết bị, mô hình hoạt động trên các thiết bị có
tài nguyên hạn chế, và đảm bảo tính đáng tin cậy của thông tin được gộp.
3.3.2 Thuật toán tổng hợp của Federated Learning
Federated Learning là một phương pháp học may phân tấn, may chủ trung
tâm sẽ nhận các trọng số được gửi đến từ các mô hình cục bộ Thuật toán tổng hợp trong Federated Learning đảm nhận việc tổng hợp thông tin từ các mô hình cục bộ để cập nhật cho mô hình toàn cục.
Các thuật toán tổng hợp trong Federated Learning có thể được tùy chỉnh tùy theo yêu cầu cụ thể của bài toán và cấu hình hệ thống Thuật toán Federated
Average (FedAvg) [20] là một thuật toán đơn giản nhưng hiệu quả, bao gồm việcphân phối đồng đều các thông số mô hình cho mỗi mô hình cục bộ
Với thuật toán FedAvg, gradient của tất cả các thành phần tham gia S; được
khởi tao là wo Mỗi vòng lặp, mô hình cục bộ được đào tạo trên dữ liệu cục
bộ của nó và cập nhật mô hình, được biểu diễn bởi w! © w! — 7 7 f(œ,b) Các gradient của các mô hình cục bộ được biểu diễn bởi w, Các gradient được tổng
Trang 35For each Client in K € St
in parallel do
Ỷ
t0Ệ,¡ © ClientUpdate(k, wz)
K ngà k
weer — Vea wy | ClientUpdate(k,w)
For each local epoch i
Hình 3.5: Mô tả thuật toán FedAug
Ngoài thuật toán FedAvg được sử dụng rộng rãi, còn có những thuật toán
tổng hợp nâng cao khác Nghiên cứu trong [21] đề xuất thuật toán FedProx để
cải thiện thuật toán FedAvg FedProx giải quyết van dé đa dạng trong một môi
trường học phân tán, bao gồm đa dạng phần cứng và phần mềm trên các thiết bị
di động tham gia và đa dạng thống kê do phân phối dữ liệu không đồng đều trêncác thiết bị Điều này được thực hiện bằng cách giới thiệu một thuật ngữ gần
đến (proximal term) có thể điều chỉnh để đảm bảo sự hội tụ tốt hơn FedProx
giải quyết vấn đề đa dạng thống kê bằng cách giới hạn tác động của mỗi bảncập nhật cục bộ lên mô hình toàn cầu ban đầu và giải quyết vấn đề đa dạng
Trang 36hệ thống bằng cách tích hợp các khối công việc cục bộ khác nhau một cách antoàn.
Nghiên cứu trong [22] đề xuất thuật toán LoAdaBoost FedAvg dựa trên mất
mát (Loss-based Adaptive Boosting - LoAdaBoost) để nâng cao hơn nữa thuật
toán FedAvg Điều này được thực hiện bằng cách so sánh giá trị mất mát của
mô hình cục bộ trong epoch hiện tại với giá trị mất mát trung bình của epoch
trước Nếu mat mát của mô hình cục bộ cao hơn mat mát trung bình trước đó,
mô hình cục bộ sẽ được huấn luyện lại Phương pháp này giúp tăng tốc quá
trình hội tụ và giảm chi phí giao tiếp
3.3.3 Mô hinh Semi-Supervised Federated Learning (học liên kết
ban giám, sát)
Một mô hình Học Phân tấn điển hình có thể giải quyết những rủi ro về quyền
riêng tư liên quan đến đữ liệu cá nhân và tận dụng sức mạnh tính toán của các
mô hình cục bộ khi triển khai theo cách phân tán Tuy nhiên, các mô hình phân
tán thường hoạt động tốt khi được huấn luyện với các tập dữ liệu đã được gán
nhãn, và việc gan nhãn không bao giờ là một nhiệm vụ dé dàng và đòi hỏi một
lượng thời gian đáng kể Do đó, Học Phân tán Bán giám sát được đề xuất nhằm
tận dung cả dữ liệu đã được gán nhãn và chưa được gan nhãn.
Tính bán giám sát của các mô hình [23] được thể hiện trong khả năng chấp
nhận cả dữ liệu đã được gán nhãn và chưa được gán nhãn như đầu vào Triển
khai các mô hình Học Sâu bán giám sát là một thực hành phổ biến, và các ví
dụ bao gồm Mạng Tự Mã hoá Cạnh Tranh (AAE), Mạng Tự Mã hoá Biến phan
(VAE), Mang Xảo tra (GAN) và những ví dụ khác Hình 3.6 minh họa hai mô
hình Học Phân tấn Bán giám sát.
Cả hai mô hình trong Hình 3.6 chia sẻ điểm chung là máy chủ nhận dữ liệu
đã được gán nhãn làm đầu vào, trong khi các thiết bị khách cung cấp dit liệuchưa được gán nhãn Ngoài ra, cả hai mô hình đều sử dụng phương pháp tạo
dữ liệu ở phía thiết bị khách, day là đặc điểm của các mô hình tạo dit liệu bán
Trang 37Generate pseudo-labels with global model
Client 1 Client 1 Fine-tune global model
(2,1) (ZusYoa) Ø with labeled data
(a) Vanilla communication efficient FL with SSL (b) Alternate Training (Ours)
Hình 3.6: Mô tả hai mô hành Semi-Supervised Feederated Learning
giám sát như AAE, VAE và GAN đã được đề cập trước đó Mục tiêu của các
mô hình Học Phân tán Bán giám sát là tận dụng toàn bộ dữ liệu huấn luyện,
và cả hai mô hình trong biểu đồ đều đạt được điều này Sự khác biệt nằm ở quátrình tạo di liệu Trong Hình (a), quá trình tao dữ liệu xay ra trong suốt quátrình huấn luyện và tổng hợp trong mỗi lô dữ liệu chưa được gán nhãn, trong
khi trong Hình (b), nó chỉ xảy ra một lần khi nhận được mô hình tổng hợp từ
máy chủ.
Khi triển khai các mô hình Học Phân tán Bán giám sát và tích hợp cơ chế
tao dit liệu, điều quan trọng là điều chỉnh quy trình làm việc của mô hình một
cách cẩn thận để đảm bảo rằng sau mỗi vòng huấn luyện, mô hình máy chủ với
dữ liệu điều chỉnh có thể đạt được kết quả tích cực để các mô hình cục bộ tạo
ra dữ liệu tốt hơn cho vòng huấn luyện tiếp theo, từ đó cải thiện hiệu suất tổng thể của mô hình.
B34 Ung dung Federated Learning cho hé théng IDS
Dua trên các tính năng nổi bat của Hoc Phan tán, các nhà phát triển đã đánh giá tiềm năng của nó để cải thiện đáng kể hệ thống IDS:
e Bảo vệ dữ liệu người dùng: Trong hệ thống IDS phan tán, dữ liệu người
dùng, bao gồm thông tin nhạy cảm về môi trường mạng và hành vi người
Trang 38dùng, không cần được truyền tải đến máy chủ trung tam Thay vào đó, các
thiết bị cục bộ có thể giữ lai dữ liệu của mình và chỉ chia sẻ thông qua cập
nhật tham số mô hình Điều này giúp bảo vệ quyền riêng tư người dùng và
đảm bảo an ninh dữ liệu.
Phân tán và khả năng mở rộng: Học Phân tán cho phép huấn luyện các mô
hình IDS trên các thiết bị phân tán, bao gồm máy tính và các thiết bị loTtrong mạng Diéu này cải thiện khả năng mở rộng và cho phép xử lý triển khai quy mô lớn trong khi giảm lưu lượng mạng bằng cách tối thiểu hóa
truyền tải đữ liệu
Bảo mật mô hình: Hoc Phân tấn cải thiện bảo mat của các mô hình IDS
bằng cách truyền tải tham số mô hình thay vì đữ liệu gốc qua mạng Điềunày giảm nguy cơ rò rỉ thông tin nhạy cảm và tấn công vào mô hình IDS
Học từ dữ liệu phân loại cục bộ: Mỗi thiết bị trong mạng có thể sở hữu kiến
thức và thông tin độc đáo về hành vi tấn công cục bộ Bằng cách sử dụng
Học Phân tán, các thiết bị có thể học từ dữ liệu phân loại cục bộ của mình
va đóng góp kiến thức này vào mô hình tập trung, tạo ra một mô hình IDS
mạnh mẽ và ổn định hơn
Tích hợp kiến thức từ nhiều nguồn: IDS có thể tổng hợp kiến thức từ các
nguồn khác nhau, bao gồm các hệ thống IDS khác, thiết bị mạng và dịch vụbảo mật Bằng cách sử dụng Học Phân tán, các mô hình IDS từ các nguồn
khác nhau có thể cộng tác để tạo ra một mô hình tổng hợp mạnh mẽ và đa
dang.
Trang 39fol Devices ee _ On-Device Intelligence
Hành 3.7: Mô ta một hệ thong IDS dựa trên FL áp dung cho môi trường IoTs
3.4 Tăng cường dữ liệu
3.4.1 Tổng quan va nhu cầu của cơ chế tăng cường dé liệu
Quá trình xây dựng bộ dữ liệu huấn luyện cho các mô hình học máy thườngyêu cầu việc thu thập, đo lường và gán nhãn dữ liệu Các nhiệm vụ này tốn thời
gian, tốn kém và đòi hỏi sức lao động, nhưng chúng rất quan trọng để có được
bộ dữ liệu chất lượng cao cho huấn luyện mô hình Kỹ thuật tăng cường dữ liệu
là một phương pháp được đề xuất để giải quyết thách thức này.
Tăng cường dit liệu là một kỹ thuật tạo ra các mẫu mới cho dit liệu huấn
luyện bằng cách áp dụng các biến đổi dựa trên tập dữ liệu gốc [24] Các phương
pháp như Oversampling, Undersampling hoặc SMOTE tạo ra dit liệu mới bằng
cách sao chép hoặc sửa đổi một số thuộc tính nhỏ trong một mẫu dữ liệu Áp
dụng các mô hình học sâu mang lại cải tiến bằng cách tạo ra các điểm đữ liệu
mới không tồn tại trong tập dữ liệu gốc
Trang 40Dữ liệu đóng vai trò quan trọng trong các mô hình học máy và ảnh hưởng
đến độ chính xác của chúng Mục tiêu của tăng cường dữ liệu là tạo ra thêm các
mẫu dữ liệu huấn luyện để cải thiện khả năng tổng quát hóa và hiệu suất của
mô hình học máy Trong các lĩnh vực yêu cầu lượng dữ liệu lớn cho huấn luyện
mô hình, nhu cầu về tăng cường dữ liệu là cao Ví dụ, trong lĩnh vực xe tự lái,
các nhà nghiên cứu và các công ty đã phải sử dụng môi trường mô phỏng để tạo
ra dữ liệu bổ sung cho việc huấn luyện và kiểm tra hệ thống Ngoài ra, lĩnh vực
y tế cũng đã kết hợp các mô hình học máy với kỹ thuật tăng cường dữ liệu để
phát hiện các bệnh viêm phổi.
Hình 3.8: Ky thuật tăng cường dữ dữ liệu uới dữ liệu anh
Tuy nhiên, phương pháp tăng cường dữ liệu vẫn tồn tại những điểm hạn chế:
e Các sai lệch trong tập dữ liệu gốc vẫn tồn tại trong dữ liệu tăng cường, cụ
thể là sự mất cân bằng giữa các nhãn.
e Thách thức khi xây dựng kết hợp với các mô hình học máy phức tạp.