1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp An toàn thông tin: Mô hình cộng tác phát hiện xâm nhập dựa trên học liên kết bán giám sát và cơ chế tăng cường dữ liệu

95 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Mô hình cộng tác phát hiện xâm nhập dựa trên học liên kết bán giám sát và cơ chế tăng cường dữ liệu
Tác giả Nguyen Trung Hieu, Bach Nhat Minh
Người hướng dẫn ThS. Nghi Hoang Khoa
Trường học Dai Hoc Quoc Gia Ho Chi Minh
Chuyên ngành An Toan Thong Tin
Thể loại Khoa Luan Tot Nghiep
Năm xuất bản 2023
Thành phố TP. Ho Chi Minh
Định dạng
Số trang 95
Dung lượng 51 MB

Nội dung

Ngoài ra một trong những yếu điểm đáng lưu ý khi huấn luyện mô hình Machine Learning theo phương pháp học tập trung cho hệ thống phát hiện xâm nhập IDS là yêu cầu một lượng lớn dữ liệu đ

Trang 1

ĐẠI HỌC QUOC GIA HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN

KHOA MANG MAY TiNH VA TRUYEN THONG

NGUYEN TRUNG HIEU - 19520082

BACH NHAT MINH - 18520156

A COLLABORATIVE INTRUSION DETECTION SYSTEM

USING SEMI-SUPERVISED FEDERATED LEARNING AND

DATA AUGMENTATION

KY SU NGANH AN TOAN THONG TIN

GIANG VIEN HUGNG DAN:

ThS Nghi Hoàng Khoa

TP.Hồ Chí Minh - 2023

Trang 2

LỜI CẢM ƠN

Trước hết, chúng tôi muốn bày tỏ lòng biết ơn chân thành đến tất cả các

giáo sư và giảng viên tại Khoa Mạng máy tính và Truyền thông, cũng như toàn

bộ đội ngũ giảng dạy tại Trường Dại học Công nghệ Thông tin Họ đã truyền

đạt những kiến thức, kinh nghiệm và bài học quý giá trong suốt chặng đường

bốn năm học của chúng tôi Chúng tôi rất biết ơn vì sự tạo điều kiện thuận lợi

từ phía cơ quan giảng dạy, giúp chúng tôi hoàn thành luận văn tốt nghiệp vớikhả năng tốt nhất Chúng tôi mong rằng Trường Dai học Công nghệ Thông tinnói chung, và Khoa Mạng máy tính và Truyền thông nói riêng, sẽ tiếp tục phát

triển trên con đường giáo dục, đạt được thành công trong tương lai và đào tạo thêm nhiều tài năng đam mê đóng góp cho sự phát triển của đất nước.

Ngoài ra, chúng tôi muốn bày tỏ lòng biết ơn đến thầy Nghi Hoàng Khoa(người hướng dẫn luận văn) đã giúp chúng tôi xây dựng nền tảng kiến thức và

kỹ năng cần thiết để thực hiện nghiên cứu này Thầy đã dành thời gian và công sức để hướng dẫn, chỉnh sửa và đưa ra phản hồi mang tính xây dựng Sự hỗ

trợ và hướng dẫn từ thầy Nghi Hoàng Khoa đã đóng góp rất lớn vào việc hoànthành thành công báo cáo luận văn tốt nghiệp của chúng tôi Trong suốt một kỳhọc dưới sự hướng dẫn của thầy Nghi Hoàng Khoa, chúng tôi đã gặp khó khăn

và mắc phải sai lầm, nhưng thầy luôn luôn hỗ trợ và động viên chúng tôi toàn

tâm để đạt được mục tiêu mong muốn cho báo cáo luận văn Chúng tôi xin chúc

thầy sức khỏe đồi dào, niềm vui trong công việc và tiếp tục tận tụy truyền đạtkiến thức và truyền cảm hứng cho thế hệ sinh viên trong tương lai

Cuối cùng, chúng tôi muốn bày tỏ lòng biết ơn đến các bạn sinh viên cùngtrường, anh chị và các bạn đã luôn nhiệt tình hỗ trợ chúng tôi, chia sẻ ý kiến và

đóng góp quý giá trong quá trình thực hiện luận văn của chúng tôi Chúng tôi

rất trân trọng sự hỗ trợ và sự đồng hành của mọi người, vì các góp ý và sự hỗ

Trang 3

iltrợ của các bạn đã giúp chúng tôi hoàn thiện luận văn với khả năng tốt nhất.Chúng tôi chúc cho tất cả các bạn tiếp tục thành công trên hành trình học tập,trở thành những người trẻ tài năng và nhiệt huyết.

Xin chân thành cam ơn.

TP Hồ Chí Minh, tháng 07 năm 2023

Nguyễn Trung Hiếu Bạch Nhật Minh

Trang 4

MUC LUC

MỤC LUC 0.0.00 eee

DANH MỤC CÁC KY HIỆU, CÁC CHU VIET TAT

DANH MỤC CÁC TỪ TIENG ANH

DANH MỤC CÁC HÌNH VẼ

DANH MỤC CÁC BANG BIEU

CHƯƠNG 1 GIỚI THIEU TONG QUAN 11 Ly do chọn d@tai 00000000 ee eee 1.2 Mục tiêu nghiên ctu 2 ee 1.3 Phạm vi nghiên đỨU (Ốc CS ST So 1.4 Đối tượng nghiên ctu 2 SE Q2 1.5 Phương pháp thực hiện

16 Cấu trúc khóa luận 00 000 000 0000000008 CHƯƠNG 2 TÌNH HÌNH NGHIÊN CỨU LIÊN QUAN 2.1 Tình hình nghiên cứu và các công trình liên quan

2.2 Ý nghĩa khoa học và thực tiễn của đề tài

2.2.1 Ý nghĩa khoahọc c2 9.2.2 Ý nghĩa thực tien 0.00.00 000000 eee CHƯƠNG 3 CO SỞ LÝ THUYET 3.1 Các mang Neural Network và ứng dụng

3.1.1 AutoEncoder(AE) Ặ co 3.1.2 Convolutional Neural Network(CNN)

3.2 Hệ thống phát hiện xâm nhập (IDS)

12 12 13

Trang 5

3.4

3.2.1 Tổng quanvềlDS

3.2.2 Ap dụng các kỹ thuật hoc máy choIDS

Federated Learning (Học liên kết)

3.3.1 Tổng quan về Federated Learning

3.3.2 Thuật toán tổng hợp của Federated Learning

3.3.3 Mô hình Semi-Supervised Federated Learning (học liên kết bán giám st) 2 na 3.3.4 Ứng dụng Federated Learning cho hệ thống IDS

Tăng cường dữ liệu co 3.4.1 Tổng quan và nhu cầu của cơ chế tăng cường đữ liệu 3.4.2 Các kỹ thuật tăng cường dữ liệu

-CHƯƠNG 4 PHƯƠNG PHÁP THỰC HIỆN 4.1 4.2 4.3 4.4 Tổng quan về mô hình đề xuất

Phương pháp học liên kết bán giám sát

Quy trình hoạt động của mô hình học liên kết bán giám sát Co chế tăng cường di liệu đối kháng cho mô hình

CHƯƠNG 5 THỰC NGHIỆM VÀ ĐÁNH GIÁ 5.1 5.2 Môi trường thực nghiệm 2.2 2.2 ee ee ee 5.1.1 Tainguyén 2.2 ee ee, 5.1.2 Tapdtli@u 2 ee 5.1.3 Tiền xử lý ditli@u 000 0 00

5.1.4 Tham số triển khai mô hình SS-CollabIDS

5.1.5 Triển khai mô hình AutoEneoder

5.1.6 Triển khai mô hình học liên kết bán giám sát

5.1.7 Triển khai các hàm tính toán

5.1.8 Triển khai cơ chế tăng cường dữ liệu đối kháng

Thực nghiệm ee 5.2.1 Tiêu chí đánh giá Ặ Ặ So

36

36 37

40 45

Trang 6

5.2.2 Kịch bản thực nghiệm 63

5.2.3 Kết quả thực nghiệm 645.2.4 Đánh giá kết quả Ặ co 76

CHƯƠNG 6 KET LUẬN 78

61 Kếtluận 2 Qua 78

6.2 Hướng phát triển 2 Q Q TQ TQ 79

TAI LIEU THAM KHAO 80

Trang 7

DANH MỤC CÁC KÝ HIỆU, CÁC CHU VIET TAT

X Thuộc tính của dữ liệu đầu vào

Y — Nhãn của dữ liệu đầu vào

X” Thuộc tính được tái tạo

Z Biến tiềm an

P() Phân phối xác suất

Q() Phân phối chuẩn

K_ Số lượng các clients

rz — Chỉ số để lấy ngẫu nhiên số lượng clients từ K

n Số lượng clients được lựa chọn ở mỗi vòng

R — Số lượng vòng

6) — Giá trị các parameters được khởi tạo cho mô hình AE

E Số lượng epoch của clients

E, Số lượng epoch của server

wo Mo hình toàn cục

w, M6 hình cục bộ

L Giá trị của ham loss

Trang 8

DANH MUC CAC TU TIENG ANH

Intrusion Detection System (IDS)

Học không giám sát Học bán giám sát

Học máy

Học sâu

Học liên kết Học liên kết bán giám sát

Tập dữ liệu

Tập dữ liệu huấn luyện

Tập dữ liệu kiểm tra

Phân loại hai nhãn

Phân loại nhiều nhãn

Vòng giao tiếp

Chi phí giao tiếp

Học tăng cường

Trang 9

DANH MUC CAC HINH VE

Hình 2.1 Mô ta cách hoạt động của mô hình Federated Learning

Hình 2.2 Mô hình Semi-Supervised Federated Learning

Hình 3.1 Kiến trúc của Autoencoder

Hình 3.2 Mô hình Convolutional Neural Network (CNN)

Hình 3.3 Mot mô hình hệ

thốngIDS -Hình 3.4 Mô tả quá trình tương tac giữa Server va Clients trong Federated Learning 0000 ee ee Hình 3.5 Mô tả thuật toán FedAvg 0

Hình 3.6 Mô tả hai mô hình Semi-Supervised Feederated Learning Hình 3.7 Mô ta một hệ thống IDS dựa trên FL áp dụng cho môi trường [o0ÏlS Q0 vo Hình 3.68 Ky thuật tăng cường dữ dữ liệu với dữ liệu ảnh

Hình 3.9 Vectơ tiềm an được ánh xạ tới phân phối dữ liệu bằng tham Hình 3.10 Kiến trúc của mô hình Generative Adversarial Networks Hình 3.11 Chi phí cho Generator là một hàm của phản hồi của Dis-criminator trên dữ liệu được tạo ra

Hình 4.1 Kiến trúc mô hình SS-CollabIDS cùng cơ chế tăng cường dữ Hình 4.2 Mô tả tính ban giám sát trong mô hình $S-CollabIDS

Hình 4.3 Luồng hoạt động của mô hình SS-CollabIDS

Hình 4.4 Minh họa thí nghiệm tấn công bằng mẫu đối khang

Hình 4.5 Mô hình SS-CollabIDS kết hợp cơ chế tăng cường dữ liệu

10 11

15 17 18

22 24 26

28

29

31

34

39

37 38

41 45 47

Trang 10

Hình 5.1 Luồng xử lí dữ liệu

Hình 5.2 Đồ thị giá trị loss của mô hình SS-CollabIDS khi huấn luyện

với tap dữ liệu NF-UNSW-NB15 (imbalance-bin-diff)

Hình 5.3 Đồ thị giá tri accuracy của mô hình S$-CollabIDS khi huấn

luyện với tập dữ liệu NF-UNSW-NB15 (imbalance-bin-dif)

Hình 5.4 Đồ thị giá trị loss của mô hình SS-CollabIDS khi huấn luyện

với tap dữ liệu NE-CSE-CIC-IDS2018 (balance-bin-diff)

Hình 5.5 Đồ thị giá trị accuracy của mô hình SS-CollabIDS khi huấn

luyện với tập dữ liệu NF-CSE-CIC-IDS2018 (balance-bin-diff)

Hình 5.6 Cac bước thực nghiệm trong kịch bản2

Trang 11

DANH MỤC CÁC BANG BIEU

Bảng 5.1 Mô tả tham số để triển khai mô hình SS-CollablDS

Bang 5.2_ Kết quả đánh giá của mô hình SS-CollabIDS khi được huấn

luyện bằng tập dữ liệu NF-UNSW-NB15 với các trường hợp thay

đổi số vòng giao tIẾp cv.

Bảng 5.3 Kết quả đánh giá của mô hình SS-CollabIDS khi được huấn

luyện bằng tập dữ liệu NF-CSE-CIC-IDS2018 với các trường hợp

thay đổi roun o_o NN Sm ww wid

Bảng 5.4 Két quả của mô hình SS-CollabIDS sử dung tap dit liệu

NF-CSE-CIC-IDS2018 khi thay đổi cliens

Bảng 5.5 Kết quả đánh giá của mô hình SS-CollabIDS và mô hình

học tập trung khi được huấn luyện với 2 tập dữ liệu

Bang 5.6 Kết quả của mô hình S$-CollabIDS trong các trường hợp

khi sử dụng thuật toán FGSM 2 4

Bảng 5.7 Kết quả đánh giá của mô hình SS-CollablDS trong các

trường hợp khi sử dụng thuật toán PGD

Bảng 5.8 Kết quả đánh giá của mô hình SS-CollabIDS khi kiểm tra

với bộ dữ liệu đối khang FGSM_

Bảng 5.9 Kết quả đánh giá của mô hình SS-CollabIDS khi kiểm tra

với bộ dữ liệu đối kháng PGD Bảng 5.10 Mô tả kết quả so sánh về độ chính xác (Accuracy) giữa mô

hình SS-CollabIDS với những mô hình khác

Trang 12

CHƯƠNG 1 GIỚI THIEU TONG QUAN

xâm nhập hoặc vi phạm bảo mật trên mạng hoặc hệ thống Mục tiêu chính của

IDS là xác định các hành vi bất thường hoặc đáng ngờ mà có thể là dấu hiệu

của một cuộc tấn công mạng hoặc vi phạm bảo mật

Trong những năm trở lại đây, đã có nhiều nhà phát triển đã xây dựng hệ

thống IDS dựa trên kỹ thuật Machine Learning (ML) để nâng cao hiệu suất cho

hệ thống đồng thời có thể nhận biết được các cuộc tấn công chưa được biết đến.

Áp dụng ML thật sự đã mang lại những kết quả tích cực [1] nhưng vẫn chưa là

một kỹ thuật tối wu vì còn tồn tại những hạn chế như về nguồn dữ liệu, với các

mô hình học có giám sát thì cần một lượng lớn dữ liệu được gắn nhãn nhưng

để thỏa mãn yêu cầu này không phải là một nhiệm vụ dễ dàng, và ngoài ra hầu

hết các mô hình ML được đào tạo theo cách tập trung, điều này dễ dẫn đến viphạm về các chính sách về dữ liệu và quyền riêng tư

Để giải quyết những điểm còn hạn chế của các mô hình học tập trung, các

chuyên gia đã có những cơ chế được đề xuất xoay quanh kỹ thuật Federated

Learning (FL), một kỹ thuật mà việc dao tạo mô hình không còn tập trung tại

một điểm Federated Learning (FL) xuất hiện lần đầu vào năm 2016, có sự đổi

mới trong hướng tiếp cận so với một mô hình ML bình thường [2] Thay vì xây

Trang 13

2dựng, đào tạo mô hình dựa trên một nguồn dữ liệu theo cách tập trung, FL sử

dụng cơ chế tạm gọi là clients và server, server đóng vai trò là điểm tập trung

nhận kết quả đào tao từ các mô hình con hay các clients Cách tiếp cận của FLbảo đảm được chính sách về dữ liệu và quyền riêng tư, các clients sẽ không phải

gửi dữ liệu riêng tư cho server [3].

Ngoài ra một trong những yếu điểm đáng lưu ý khi huấn luyện mô hình

Machine Learning theo phương pháp học tập trung cho hệ thống phát hiện xâm

nhập (IDS) là yêu cầu một lượng lớn dữ liệu để đảm bảo mô hình đạt được hiệu suất tối wu nhất có thể Tuy nhiên, việc thu thập và gán nhãn dữ liệu là một quá

trình phức tạp và tốn kém Điều này đặc biệt khó khăn khi các loại tấn công

mới xuất hiện liên tục, và mô hình cần phải được cập nhật liên tục để nhận diện

chúng Do đó, việc nghiên cứu các phương pháp và kỹ thuật nhằm giảm nhẹ yêu

cầu về dữ liệu huấn luyện và tăng cường khả năng tổng quát hóa là một thách

thức trong nghiên cứu IDS Các phương pháp như học bán giám sát, tái tạo dữ

liệu và học tăng cường có thể được áp dung để tận dụng tối đa các mẫu hiện

có và tạo ra dữ liệu mô phỏng chân thực hơn Điều này có thể giúp giảm thiểu nhược điểm về yêu cầu dit liệu và tăng hiệu suất của mô hình hoc máy trong

IDS.

Với mục tiêu giải quyết được những điểm hạn chế đã nêu lên, khóa luận tốt nghiệp này sẽ tập trung vào nghiên cứu nghiên cứu phương pháp để xây dựngmột mô hình cộng tác phát hiện xâm nhập dựa trên học liên kết bán giám sát

và cơ chế tăng cường dit liệu

1.2 Mục tiêu nghiên cứu

Mục tiêu nghiên cứu của luận văn này là xây dựng một mô hình phát hiện xâm nhập cộng tác dựa trên học bán giám sát và kỹ thuật tăng cường dữ liệu Những mục tiêu chính của nghiên cứu này là nâng cao khả năng phát hiện và

phân loại các hành vi xâm nhập trong mạng máy tính, đồng thời giảm tỷ lệ phát

Trang 14

hiện sai và giảm thiểu ảnh hưởng đến hoạt động bình thường của hệ thống Cụ thể, nó bao gồm:

e Phân tích và hiểu các phương pháp phát hiện xâm nhập hiện có: Nghiên

cứu các phương pháp phát hiện xâm nhập được áp dụng trong lĩnh vực an

ninh mạng, chẳng hạn như phân tích gói tin, học máy và học sâu Hiểu rõ

ưu điểm và nhược điểm của từng phương pháp để xác định các lĩnh vực cần

cải thiện.

e Phát triển mô hình học bán giám sát: Xây dựng một mô hình học bán giám

sát kết hợp dit liệu được gắn nhãn và dữ liệu không được gắn nhãn Môhình sẽ học các mối quan hệ tương đối giữa các đặc trưng của dữ liệu và

hành vi xâm nhập.

e Tăng cường dữ liệu: Áp dụng các kỹ thuật tăng cường dữ liệu để tạo ra các

mẫu dit liệu xâm nhập nhãn tao, từ đó nang cao khả năng phát hiện xâm

nhập của mô hình Các kỹ thuật tăng cường dữ liệu bao gồm thêm nhiễu,nội suy dữ liệu tuyến tính, xoay, tỉ lệ, biến đổi độ sáng và áp dụng các biến đổi hình học khác.

e Dánh giá và so sánh hiệu suất: Đánh giá hiệu suất của mô hình phát hiện

xâm nhập cộng tác được đề xuất bằng cách sử dụng các bộ dữ liệu thực tế

và so sánh kết quả với các phương pháp phát hiện xâm nhập của các tácgiả khác Do lường các chỉ số như độ chính xác, độ nhạy và tỷ lệ phát hiện

sai để đánh giá hiệu suất, khả năng phân loại và độ tin cậy của mô hình.

e Nghiên cứu về các kịch bản tấn công mới: Phân tích các kịch bản tấn công

mới va 4p dụng mô hình phát hiện xâm nhập cộng tac để đánh giá khả

năng phát hiện và phân loại các hành vi xâm nhập mới này Mục tiêu là

kiểm tra tính linh hoạt và khả năng thích ứng của mô hình đối với những

mối đe dọa mới nổi

Trang 15

4Kết quả dự kiến của nghiên cứu là một mô hình phát hiện xâm nhập cộngtác hiệu quả, có độ chính xác cao và tỷ lệ phát hiện sai thấp trong việc phát

hiện và phân loại các hành vi xâm nhập trong mạng máy tính Ngoài ra, nghiên

cứu này cũng có thể đóng góp vào việc cải thiện hiệu suất và tính linh hoạt của

các phương pháp phát hiện xâm nhập hiện có trong lĩnh vực an ninh mạng.

1.3 Pham vi nghiên cứu

Phạm vi nghiên cứu cho đề tài "Mô hình cộng tác phát hiện xâm nhập dựatrên học liên kết bán giám sát và cơ chế tăng cường dữ liệu" sẽ tập trung vào

những khía cạnh sau:

e Nghiên cứu về phát hiện xâm nhập: Khám phá các phương pháp, kỹ thuật

và công nghệ hiện có trong lĩnh vực phát hiện xâm nhập Nghiên cứu các

thuật toán phát hiện xâm nhập truyền thống và các phương pháp mới nhất

2 ⁄ 2 ` ⁄ tA A kì ⁄

đề đánh giá và so sánh hiệu suât của chúng.

e Mô hình học máy: Nghiên cứu và phát triển các mô hình học máy phù hợp

cho việc phát hiện xâm nhập Tập trung vào các mô hình học sâu như mạng

nơ-ron và mạng nơ-ron tích chập để tạo ra mô hình cộng tác phát hiện xâm

nhập.

e Học liên kết bán giám sát: Đề xuất và áp dụng các phương pháp học liên

kết bán giám sát trong mô hình cộng tác Nghiên cứu cách kết hợp thôngtin từ các nguồn dữ liệu khác nhau, bao gồm dữ liệu có nhãn và dit liệu

không có nhãn, để cải thiện khả năng phát hiện xâm nhập.

e Cơ chế tăng cường dữ liệu: Nghiên cứu và phát triển các cơ chế tăng cường

dữ liệu để mở rộng tập dữ liệu huấn luyện Xây dựng các kỹ thuật tạo ra biến thể của dữ liệu huấn luyện bằng cách áp dụng các biến đổi, tạo ra các điểm dữ liệu mới và đa dạng hóa tập dữ liệu.

Trang 16

e Dánh giá va thực nghiệm: Tiến hành các kịch ban va đánh giá hiệu suất

của mô hình cộng tác phát hiện xâm nhập được đề xuất Sử dụng tập dữliệu thực tế hoặc tạo ra tập dữ liệu mô phỏng để đánh giá độ chính xác, độ

nhạy và tỷ lệ phát hiện sai của mô hình.

e So sánh với các phương pháp hiện có: So sánh hiệu suất của mô hình cộng

tác phát hiện xâm nhập với các phương pháp phát hiện xâm nhập truyền

thống và các phương pháp mới nhất Đề xuất những ưu nhược điểm của mô

hình cộng tác và đánh giá sự tiến bộ của nó so với các phương pháp hiện

z

co.

e Ứng dụng và triển khai: Nghiên cứu khả năng triển khai mô hình cộng tác

phát hiện xâm nhập trong một môi trường thực tế Xem xét các yêu tố như

tích hợp với hệ thống hiện có, hiệu suất thời gian thực và khả năng mở rộng

của mô hình.

1.4 Đối tượng nghiên cứu

Các mục tiêu nghiên cứu cho chủ đề luận văn mà nhóm đang hướng tới bao

gồm những yếu tố và khía cạnh sau đây:

e Dữ liệu xâm nhập: Tập trung nghiên cứu và phân tích các dạng dữ liệu xâm

nhập khác nhau, bao gồm gói tin mạng, luồng dữ liệu và các thuộc tính

liên quan Điều này đòi hỏi hiểu biết sâu về các loại tấn công, phương pháp xâm nhập và hoạt động của chúng để xây dựng một mô hình phát hiện xâm

nhập hiệu quả.

e Dữ liệu huấn luyện và dữ liệu không được gắn nhãn: Mục tiêu nghiên cứu

sẽ là các tập dữ liệu đã tồn tại hoặc tự xây dựng chứa các ví dụ về cả hoạt

động xâm nhập và không xâm nhập Dữ liệu huấn luyện sẽ được sử dụng

để huấn luyện mô hình, trong khi dữ liệu không được gắn nhãn sẽ được sử

dụng trong quá trình học bán giám sát.

Trang 17

e Mô hình cộng tác: Mục tiêu nghiên cứu là mô hình phát hiện xâm nhập

đồng hợp tác, trong đó các mô hình và thuật toán khác nhau đóng góp vàoquá trình phát hiện xâm nhập Các thành viên của mô hình đồng hợp tác

có thể là các mô hình học máy, mạng thần kinh hoặc các thuật toán phát

hiện xâm nhập khác Trọng tâm đặt vào việc nghiên cứu cách kết hợp thông

tin và quyết định của các thành viên để đạt được kết quả tốt nhất trong

việc phát hiện xâm nhập.

e Phương pháp học bán giám sát: Mục tiêu nghiên cứu sé là các phương pháp

học bán giám sát, nhằm tận dụng cả dữ liệu được gắn nhãn và dữ liệu khôngđược gắn nhãn trong quá trình xây dựng mô hình Các phương pháp này có

thể bao gồm phân loại học bán giấm sát, mạng thần kinh không gian nhãn

hoặc các kỹ thuật học tăng cường như Mạng đối nghịch Generative sarial Networks (GAN) va Mã hóa tự đối nghịch Adversarial Autoencoders

Adver-(AAE) để tạo dữ liệu tổng hợp và hỗ trợ quá trình huấn luyện.

e Cơ chế tăng cường dữ liệu: Mục tiêu nghiên cứu sẽ tập trung vào các phương

pháp và kỹ thuật tăng cường dữ liệu Các kỹ thuật này sẽ được áp dụng để

tạo ra các biến thể của dữ liệu huấn luyện, tăng tính đa dạng và cải thiện

khả năng phát hiện xâm nhập trên dữ liệu mới và không quen thuộc.

1.5 Phương pháp thực hiện

Vì đây là một chủ đề hứa hẹn với nhiều tác giả hiện đang tập trung nghiên

cứu, nhóm của chúng tôi sẽ tuân theo một phương pháp bao gồm sự hiểu cơ bản, nghiên cứu, triển khai và cuối cùng là đánh giá và so sánh kết quả Các phương pháp cụ thể bao gồm:

e Nghiên cứu văn bản, bài báo hoặc video hướng dẫn về việc áp dụng Học

liên kết cho các hệ thống phát hiện xâm nhập, khám phá các ưu điểm vàhạn chế của nó.

Trang 18

e Hiểu cấu trúc, đặc điểm và triển khai của mô hình AutoEncoder (AE).

Nghiên cứu các cơ chế tăng cường dữ liệu bằng mô hình AutoEncoder vacách kết hợp nó với mô hình Học liên kết

e Tham khảo văn bản và mã nguồn mở từ các tác giả đã triển khai các mô

hình Học liên kết bán giám sát

e Lựa chọn một tập dữ liệu phù hợp để huấn luyện mô hình của nhóm chúng

tôi Khám phá các tập dữ liệu thông thường được sử dụng để huấn luyện

mô hình, tham khảo các nghiên cứu trước đó.

e Thiết kế các kịch bản để tiến hành thực nghiệm và đánh giá hiệu suất của

mô hình của nhóm chúng tôi so với các tác giả đã nghiên cứu các chủ đề

tương tự trước đó.

1.6 Cau trúc khóa luận

Sau phần giới thiệu trước đó, nhóm chúng tôi muốn đề xuất cấu trúc củaluận văn, bao gồm các phần sau:

e Chương 1: Giới thiệu: Cung cấp một cái nhìn tổng quan về lý do chọn chủ

đề luận văn, mục tiêu mong muốn, phương pháp nghiên cứu, đối tượng và

phạm vi nghiên cứu.

e Chương 2: Nghiên cứu liên quan: Trình bày các phương pháp và kết quả

của những nhà nghiên cứu trước đây về các chủ đề liên quan đến nghiên

cứu hiện tại của chúng tôi, làm nổi bật các điểm mạnh và điểm yếu của

những nghiên cứu đó Ngoài ra, thảo luận về ý nghĩa khoa học và thực tiễncủa các nghiên cứu đó đối với chủ đề của chúng tôi

e Chương 3: Cơ sở lý thuyết: Giới thiệu tổng quan về các cơ sở lý thuyết của

các thành phần liên quan đến chủ đề luận văn của chúng tôi, trình bày các

phương pháp và ứng dụng của các mô hình đã triển khai Ngoài ra, thảo

Trang 19

8luận về các thuật toán được sử dụng trong việc xây dựng những mô hình

đó.

e Chương 4: Phương pháp nghiên cứu: Trình bày mô hình được xây dựng bởi

nhóm chúng tôi, bao gồm các đặc điểm, thành phần, thuộc tính và ưu điểm

của nó Mô tả quy trình thực hiện mô hình và làm nổi bật các phương pháp

được sử dụng trong mô hình đề xuất

e Chương 5: Thực nghiệm và Đánh giá: Mô tả môi trường, tập dữ liệu và các

bước tiền xử lý cho mô hình, cùng với các đoạn mã để triển khai mô hình.

e Chương 6: Kết luận: Đưa ra kết luận về mô hình được triển khai bởi nhóm

chúng tôi, các vấn đề mà nó đã giải quyết và đề xuất hướng phát triển trong

tương lai.

Trang 20

CHƯƠNG 2 TÌNH HÌNH NGHIÊN CỨU LIÊN QUAN

2.1 Tình hình nghiên cứu và các công trình liên quan

Trong những năm gần đây, nhiều nhà nghiên cứu đã nhận ra những lợi ích

của việc phát triển hệ thống phát hiện xâm nhập (IDS) dựa trên mô hình Hoc

liên kết (Federated Learning - FL) so với các phương pháp học máy trung tâm

truyền thống (Machine Learning - ML) Một lợi thế quan trọng của phương

pháp này là bảo vệ sự riêng tư dit liệu, vì các khách hàng không cần gửi dữ liệu

riêng tư của mình đến máy chủ trong hệ thống IDS Hình 2.1 mô tả một ví dụ

về cách mô hình Học liên kết hoạt động [4]

Các nhà nghiên cứu đã triển khai các mô hình FL bằng cách sử dụng các kỹ

thuật khác nhau để tối ưu hiệu suất hoặc cải thiện các mô hình hiện có so với các phương pháp truyền thống Một số tác giả đã sử dụng FedBKD [5] để giải

quyết các vấn đề khi huấn luyện mô hình trên dữ liệu riêng tư và sự bất đồng bộgiữa các thiết bị cục bộ trong hệ thống IoT Họ áp dung nó vào việc phân loạiđiều chế và quan sát rằng khi số lượng khách hàng tăng lên, độ chính xác phân

loại giảm đi Các nghiên cứu khác [6, 7, 8] đã so sánh FL với các thuật toán DL

và điều tra các lỗ hong trong FL và cách khai thác chúng Khi triển khai các mô

hình phát hiện bất thường, hầu hết các tác giả gặp khó khăn về gánh nặng giao

tiếp, đó là chi phí xử lý trong quá trình giao tiếp và trao đổi giữa khách hàng

và máy chủ Trong môi trường IoT, việc cấu hình FL gặp thách thức do sự biến

đổi trong cấu hình khách hàng, và đây là một trong những lý do tại sao một số

khung công cu FL chưa được phổ biến rộng rãi.

Trang 21

dữ liệu cân bằng Các nhà nghiên cứu triển khai FL đã kết hợp nó với các mô

hình Deep Learning (DL) có kha năng tạo dữ liệu Cụ thể, Fed-SCR [9] sử dung

FL với các cải tiến để giải quyết các vấn đề như thiếu dữ liệu được gắn nhãn

và mat cân bằng tập dit liệu trong các mô hình DL Nghiên cứu đã đạt được độ

chính xác là 96,48% cho dữ liệu IDD và 95,41% cho dữ liệu không phải IDD Tuy

nhiên, tác giả cũng xác định một hạn chế trong mô hình của họ khi sử dụng cơ

chế huấn luyện Adversarial Một nghiên cứu khác [10] đề xuất ba phương pháp

để cân bằng dữ liệu khi kết hợp FL với CVAE hoặc VAE Kết quả cho thấy cải

Trang 22

thiện đáng kể trong F1-score, với mức tăng là 3,75% đối với các mô hình IDS

dựa trên CNN và 5,32% đối với các mô hình IDS dựa trên GRU

FedBatch [11] là một dự ấn phát hiện xâm nhập dựa trên FL trong môi trường

IoT, nhằm giải quyết van đề rò rỉ dữ liệu cá nhân khi sử dung các mô hình DL.Phương pháp độc đáo này kết hợp FL với CNN-MLP Mặc dù có sự cải thiện

về độ chính xác so với các mô hình chỉ dựa trên CNN hoặc MLP, nhưng nó

không giải quyết được vấn đề gánh nặng giao tiếp Phát triển PL theo cách

bán giám sát cũng là một phương pháp mà một số tác giả đã khám phá Trong

[12], FL bán giám sát được triển khai kèm theo cơ chế truyền đạt kiến thức để

củng cố quá trình học cho máy chủ Tuy nhiên, nghiên cứu vẫn còn hạn chế nhưtính không hiệu quả của cơ chế bỏ phiếu độc lập và việc giải quyết không hoànchỉnh vấn đề dữ liệu cá nhân không đồng nhất (non-IID) bằng phương pháp

lọc Trong nghiên cứu [13], tác giả đề xuất một triển khai FL bán giám sát như

một hệ thống phát hiện xâm nhập Tác giả áp dụng một mô hình AE tại phía

khách hang để học dé liệu không được gắn nhãn, trong khi phía máy chủ được

huấn luyện với dữ liệu được gắn nhãn Mô hình này có hạn chế về thời gian

huấn luyện Hình 2.2 minh họa một ví dụ về mô hình Học liên kết bán giám sát

(Semi-Supervised Federated Learning) [14].

Central Server Retraining Stage Server ~ =

Labeled Dataset ( transfer !~————=—— \

Unlabeled Dataset ' Client 1 Client 2 Dataset ee 2

Hinh 2.2: Mô hành Semi-Supervised Federated Learning

Về vấn đề kha nang chống lai tấn công đối kháng, TIKI-TAKA [15] là một

Trang 23

khung công cụ được phát triển bởi các nhà nghiên cứu trong ngữ cảnh hệ thống NIDS mà có thể bị đánh lừa bởi các mẫu đối kháng Họ đề xuất ba phương pháp

kết hợp với hệ thống NIDS: kết hợp bỏ phiếu mô hình, huấn luyện đối kháng

bằng kết hợp, và phát hiện truy vấn Kết quả cho thấy độ chính xác gần 100%.

Dựa trên kết quả nghiên cứu về huấn luyện mô hình với các mẫu đối kháng và

FL được xây dựng trên nhiều mang thần kinh sâu, việc huấn luyện trên các mẫuđối kháng nâng cao khả năng phát hiện tấn công đối kháng Điều này cho thấyviệc giải quyết vấn đề khả năng chống lại tấn công đối kháng là cần thiết cho

FL.

Sau khi khảo sát nghiên cứu liên quan về áp dung Học liên kết vào các hệ thongphát hiện xâm nhập, mục tiêu của chúng tôi là xây dựng một hệ thống pháthiện xâm nhập dựa trên chiến lược Học liên kết bán giám sát (Semi-Supervised

Federated Learning) Phương pháp nay đã thé hiện những ưu điểm trong việc

giải quyết vấn đề gánh nặng giao tiếp và vấn đề chính sách riêng tư Chúng tôi

cũng sẽ tích hợp kỹ thuật huấn luyện mô hình của chúng tôi trên các mẫu đối

kháng do hiệu quả của nó.

2.2 Ý nghĩa khoa học và thực tiến của đề tài

2.2.1 Ý nghĩa khoa hoc

Bởi vì đây là một chủ đề có hướng nghiên cứu và ứng dụng, nó mang lại ý

nghĩa khoa học đáng kể Phương pháp chúng tôi đã chọn là triển khai một mô

hình Học liên kết bán giám sát, yêu cầu nghiên cứu một cách kỹ lưỡng về các

mô hình thành phần liên quan như mạng neural network, mô hình Federated

Learning căn bản, kỹ thuật Knowledge Distillation, Ngoài ra, chúng tôi cần

nghiên cứu các loại tập dữ liệu mạng cần thiết để áp dụng vào mô hình và các

phương pháp tăng cường dit liệu Mục tiêu chính của nhóm chúng tôi là phat

triển một mô hình cải thiện độ chính xác so với các nhà nghiên cứu trước đây

trong cùng hướng, từ đó đóng góp vào ý nghĩa khoa học bằng cách nâng cao

Trang 24

13hiệu suất phát hiện xâm nhập Hơn nữa, nghiên cứu trong chủ dé nay cũng cung

cấp hiểu biết về kiến thức an ninh mạng, sự quen thuộc với các loại tấn công thông thường và trước đây chưa biết đến, lỗ hổng an ninh và các biện pháp bảo

vệ trong môi trường mạng.

2.2.2 Ý nghĩa thực tiễn

Kết quả dự kiến của dự án của chúng tôi là việc triển khai thành công một

mô hình phát hiện xâm nhập hợp tác dựa trên học bán giám sát và cơ chế tăng

cường dữ liệu Ap dung mô hình phát hiện xâm nhập hợp tác có thể giúp cải

thiện an ninh của hệ thống thông tin, ngăn chặn các cuộc tấn công và bảo vệ

dữ liệu quan trong Mô hình này có khả năng phát hiện hành vi xâm nhập tiềm

năng và mới, đảm bảo sự an toàn và bảo mật cho hệ thống mạng Kết quả vàphương pháp nghiên cứu từ dự án này có thể được áp dụng trong thực tế và

nghiên cứu tiếp theo, dẫn đến các tiến bộ mới trong lĩnh vực an ninh mạng vàgiải quyết những thách thức an ninh ngày càng phức tạp hơn

Trang 25

phần chính: Bộ mã hóa (Encoder) và Bộ giải mã (Decoder) [16].

Cấu trúc của một Autoeneoder bao gồm các thành phần và chức năng sau:

e Encoder (bộ mã hóa): Thành phần này nhận dữ liệu trong mô hình

Au-toencoder và có trách nhiệm nén các đặc trưng đầu vào thành các biểu diễn trong không gian tiềm an chiều thấp Bộ mã hóa thường được thiết kế dưới

dạng một mạng neural sâu với các lớp an Những lớp ẩn này giúp học các

đặc trưng quan trọng và giảm chiều dữ liệu

e Decoder (bộ giải mã): Thành phần giải mã nhận các biểu diễn nén trong

không gian tiềm an được tạo ra bởi bộ mã hóa Tương tự như bộ mã hóa,

bộ giải mã được thiết kế dưới dang một mang neural sâu với nhiều lớp an.

Chức năng của bộ giải mã là tái tạo lại các thuộc tính ban đầu thông quaquá trình giải mã các biểu diễn trong không gian tiềm ẩn

Trang 26

Autoencoder thường được sử dụng để giảm chiều dữ liệu hoặc trích xuất đặc

trưng Bằng cách tận dụng cấu trúc đối xứng giữa Bộ mã hóa và Bộ giải mã,

Autoencoder cũng có thể được sử dụng để tăng cường dit liệu trong việc triển khai mô hình Học liên kết bán giám sát được phát triển bởi nhóm.

3.1.2 Convolutional Neural Network (CNN)

Mang neural tích chập (Convolutional Neural Network - CNN) là một mô

hình mang neural tiên tiến trong lĩnh vực Học sâu, được huấn luyện bằng hoc

có giám sát CNN là một loại mang neural thường được sử dụng trong xử ly

hình ảnh và các nhiệm vụ thị giác máy tính Nó được thiết kế để học các đặc

trưng cấu trúc của dữ liệu và áp dụng chúng vào các nhiệm vụ như phân loạihình ảnh và nhận diện đối tượng [17] Một CNN bao gồm nhiều lớp xếp chồng

nhau để tạo thành một mô hình học đa tầng.

CNN được thiết kế để học và trích xuất các đặc trưng từ dữ liệu thong qua

một loạt các lớp tích chập và lớp gom Sau đó, nó sử dụng các lớp kết nối đầy

Trang 27

đủ để phân loại hoặc dự đoán.

Cau trúc của một mô hình CNN bao gồm:

1 Input Layer (Lớp đầu vào): Chita dữ liệu đầu vào để xử lý bởi mô hình

CNN Dữ liệu đầu vào có thể có nhiều kích thước khác nhau, thông thường

là một tensor 3 chiều (chiều cao, chiều rộng, kênh)

2 Convolutional Layer (Lớp tích chập): Thực hiện các phép tích chập trên

dữ liệu đầu vào bằng cách sử dụng các bộ loc (filter) Bang cách sử dungcác bộ lọc này, lớp tích chập trích xuất các đặc trưng cục bộ từ đữ liệu, baogồm cả các đặc trưng đơn giản và phức tạp Kết quả của lớp tích chập làmột tập hợp các bản đồ đặc trưng, trong đó mỗi bản đồ đặc trưng tương

ứng với một bộ lọc.

3 Activation Layer (Lóp kích hoạt): Thường là một lớp ReLU (Rectified

Linear Unit), nơi các giá trị âm được chuyển thành 0 trong khi các giá trị

dương được giữ nguyên Điều này giúp tạo ra các đặc trưng phi tuyến vàtăng cường tính phi tuyến của mô hình

4 Pooling Layey (Lớp gop): Giảm kích thước của các bản đồ đặc trưng bằng

cách chọn giá trị lớn nhất (Max Pooling) hoặc tính trung bình (Average

Pooling) trong một vùng cụ thể Gom giúp giảm số lượng tham số và đạt

được tính không thay đổi theo không gian.

5 Fully Connected Layer (Lớp hoàn toàn kết nối): Lớp này kết nối tất cả

các đơn vị trong lớp trước với tất cả các đơn vi trong lớp tiếp theo N6 chứa

các trọng số có thể học và thực hiện các phép toán tuyến tính để tạo ra các

dự đoán đầu ra

6 Output Layer (Lớp dau ra): Là lớp cuối cùng của mô hình, thường áp

dụng hàm kích hoạt softmax để tính toán xác suất cho mỗi lớp trong đầu

ra Kết qua dau ra có thể là một vector xác suất đa lớp hoặc một vector

đặc trưng.

Trang 28

CNN thường được áp dụng trong xử lý hình ảnh, thị giác máy tính, nhận

dạng khuôn mặt, xe tự hành, v.v Trong dự án của chúng tôi, chúng tôi sẽ sử

dụng Lớp kết nối day đủ (Fully Connected Layer) của CNN để tận dụng khả năng học có giám sát của mô hình và triển khai mô hình Học liên kết bán giám

CONVOLUTION + RELU POOLING CONVOLUTION + RELU POOLING FLATTEN connectep SOFTMAX

FEATURE LEARNING CLASSIFICATION

Hình 3.2: Mô hành Convolutional Neural Network (CNN)

3.2 Hệ thống phát hiện xâm nhập (IDS)

3.2.1 Tổng quan uê IDS

Hệ thống Phát hiện xâm nhập (Intrusion Detection System - IDS) là một

công cụ được thiết kế để giám sát mạng, các máy tính cá nhân hoặc hệ thống máy tính để xác định và phát hiện các hoạt động trái phép, xâm nhập hoặc bất

thường trên mạng.

Mục đích chính của IDS là phát hiện các hành vi đe dọa an ninh, bao gồmviệc xác định các cuộc tấn công từ bên ngoài như vi phạm chính sách truy cập,

quét cổng, cuộc tấn công từ chối dịch vụ (DoS), cuộc tấn công từ chối dịch vụ

phân tán (DDoS), cuộc tấn công malware và các hình thức tấn công khác Ngoài

Trang 29

ra, IDS cũng có thé phát hiện các mối de dọa từ bên trong hệ thống, chang hạn

như truy cập trái phép vào dữ liệu nhạy cảm hoặc sử dụng sai thông tin đặc

quyền

IDS thường hoạt động bằng cách giám sát và phân tích lưu lượng mạng hoặc

dữ liệu hệ thống để tìm kiếm các mẫu, chữ ký hoặc đặc điểm đáng ngờ Các

phương pháp phát hiện xâm nhập có thể dựa trên quy tắc, dựa trên chữ ký, dựa

trên học máy, dựa trên học sâu hoặc các kỹ thuật phân tích hành vi Khi phát

hiện hành vi xâm nhập, IDS có thể cảnh báo, ghi lại các sự cố hoặc thực hiện

biện pháp hạn chế hoặc chặn

IDS thường được triển khai như một phần của một hệ thống an ninh toàn

điện, cùng với các biện pháp an ninh khác như tường lửa, Hệ thống Ngăn chặn

Xam nhập (IPS), mã hóa dữ liệu, chính sách quản lý truy cập và các biện phấp

an ninh mạng khác Kết hợp các công nghệ này cùng nhau giúp nâng cao anninh mạng và hệ thống máy tính, bảo vệ dữ liệu quan trọng và giảm thiểu nguy

cơ của các cuộc tấn công và xâm nhập

Trang 30

3.2.2 Ap dung các kỹ thuật học máy cho IDS

Khi các hệ thống IDS đã tiến hóa, các phương pháp tấn công cũng ngày càng

tiên tiến, liên tục tìm cách khai thác và vượt qua các lỗ hồng của hệ thống IDS.

Áp dụng các kỹ thuật Học máy đã là một phương pháp thành công mà nhiều

chuyên gia đã nghiên cứu, nhằm cải thiện hiệu suất của các mô hình IDS vàphát hiện các cuộc tấn công trước đây chưa biết đến

Các kỹ thuật Học máy được áp dụng vào hệ thống IDS có thé được chia thành

ba nhóm: Học có giám sát, Học không giám sát và Học bán giám sát [18] Cụ

thể, ba phương pháp này được mô tả như sau:

e Supervised Learning: Các thuật toán Học có giám sát xử lý dữ liệu được

gán nhãn đầy đủ và thiết lập mối quan hệ giữa dữ liệu và các lớp tương ứng,

thông thường thông qua phân loại hoặc hồi quy Các thuật toán phổ biếntrong nhóm này bao gồm Máy Vector Hỗ trợ (SVM), Naive Bayes, Phân

tích Phân biệt, Mang Neural, Người lang giềng gần nhất, Rừng Ngau nhiên(RF) và Hồi quy Logistic

e Unsupervised Learning: Các thuật toán Học không giám sát nhằm khám

phá cấu trúc an trong dit liệu không được gán nhãn Các thuật toán phổ

biến trong nhóm này bao gồm K-Means, Phân tích thành phần chính (PCA)

và Phân rã Giá trị Đơn nhất (SVD).

e Semi-Supervised Learning: Các thuật toán Hoc bán giám sát kết hợp các

yếu tố của cả học có giám sát và học không giám sát Chúng có thể nhận

đầu vào từ cả dữ liệu được gán nhãn và không được gán nhãn Một số tácgiả đã đề xuất một mô hình phân cấp nhiều lớp trong khung học bán giámsát, đã được áp dụng vào phát hiện xâm nhập mạng Mô hình này được lấy

cảm hứng từ thuật toán K-Means.

Học Sâu (Deep Learning) là một nhánh của Học Máy tập trung vào việc xây

dựng và huấn luyện các Mang Neural Nhân tạo sâu với nhiều lớp an Những

Trang 31

20mạng neural sâu này có khả năng tự động học và trích xuất các đặc trưng phức

tạp từ đữ liệu đầu vào, mà không cần đến việc thiết kế đặc trưng rõ ràng Ap

dụng các kỹ thuật Học Sâu trong hệ thống IDS mang lại nhiều lợi ích so với các

phương pháp học máy truyền thống và cung cấp hiệu quả đáng kể cho hệ thống.

Xây dựng trên nền tảng của ba kỹ thuật học trong Học Máy, một số kỹthuật Học Sâu đã được áp dụng vào hệ thống IDS, bao gồm Mạng Tự Mã hoá

(Autoencoder - AE), Mang Tự Mã hoá Cạnh Tranh (Adversarial Autoencoder

- AAE), Mang Neural Dồ thị (Graph Neural Network - GNN), Mang Neural

Tích chap (Convolutional Neural Network - CNN) và Mang Neural Hồi quy

(Recurrent Neural Network - RNN) Những kỹ thuật nay tận dung sức mạnh

của mang neural sâu để nắm bắt các mẫu và biểu diễn phức tạp trong dit liệu,

tạo điều kiện cho khả năng phát hiện cải tiến và cải thiện hiệu suất trong hệthống phát hiện xâm nhập

3.3 Federated Learning (Học liên kết)

3.3.1 Tổng quan vé Federated Learning

Khi công nghệ tiếp tục phát triển, chúng ta dang chứng kiến sự xuất hiện của

nhiều thiết bị thông minh Hầu như ai cũng sở hữu các thiết bị thông minh cánhân, dẫn đến việc tăng vọt lượng dif liệu được tạo ra Mỗi thiết bị thông minh

sở hữu một tập dữ liệu riêng, và đảm bảo quyền riêng tư cho dữ liệu này là mộtthách thức đối với các nhà nghiên cứu về bảo mật

Trước sự gia tăng không ngừng của dữ liệu, phương pháp huấn luyện tậptrung cho hệ thống phát hiện xâm nhập đã tiết lộ những hạn chế Các mô hìnhhọc máy tập trung được xây dựng trên một máy chủ cố định và toàn bộ quá

trình huấn luyện phụ thuộc vào dữ liệu được lưu trữ trên máy chủ Các mô hìnhhọc máy có một đặc điểm chung: càng nhận được nhiều dữ liệu huấn luyện, độ chính xác càng cao Tuy nhiên, trong bối cảnh tăng trưởng dữ liệu nổ ra hiện tại, phương pháp học tập tập trung đòi hỏi chi phí tính toán đáng kể cho máy

Trang 32

chủ để thực hiện quá trình huấn luyện một cách hiệu quả Vấn đề bảo vệ quyền

riêng tư người dùng cũng rất quan trọng, vì các mô hình học máy tập trung có

thể vi phạm chính sách quyền riêng tư của người dùng hoặc tạo ra nguy cơ lớn

khi dữ liệu riêng tư tập trung tại một vị trí và xảy ra sự vi phạm bảo mật.

Nhận thức về những thách thức mà các mô hình học máy tập trung đối mặt

trong bối cảnh hiện tại, các nhà phát triển đã đề xuất một phương pháp mới

gọi là Học Máy Phân tấn Học Máy Phân tấn là một phương pháp học máy phi

tập trung cho phép mô hình được huấn luyện trên các thiết bị cục bộ (như điện

thoại di động hoặc máy tính cá nhân) mà không cần chuyển dữ liệu đến một

trung tâm tập trung [19] Thay vào đó, các thiết bị cục bộ giữ lại dữ liệu của

họ và chỉ chia sẻ các thông số mô hình được cập nhật với máy chủ trung tâm.Phương pháp này giải quyết những hạn chế của việc học tập tập trung, giảm

gánh nặng tính toán cho máy chủ và tăng cường bảo vệ quyền riêng tư bằng

cách giữ dữ liệu trên các thiết bị cục bộ

Quá trình tương tac giữa Server và Clients được mô tả trong hình 3.4

Quy trình của Federated Learning bao gồm các bước sau:

1 Khởi tạo mô hình: Một mô hình học máy ban đầu được khởi tạo trên trung

tâm tập trung.

2 Phân phối mô hình: Mô hình được gửi đến các thiết bị cục bộ để được huấn

luyện.

3 Huấn luyện cục bộ: Trên mỗi thiết bị, mô hình được huấn luyện bằng cách

sử dung dữ liệu cục bộ của thiết bi đó.

4 Gop thông tin: Thong qua quá trình gop (aggregation), các tham số mô

hình đã được cập nhật từ mỗi thiết bị cục bộ được tổng hợp lại thành một

bản sao mô hình trung tâm tập trung.

5 Cập nhật mô hình: Mô hình trung tâm tập trung được cập nhật bằng thông

tin từ các thiết bị cục bộ

Trang 33

Local model

Hinh 3.4: Mô tả quá trình tương tác giữa Server va Clients trong Federated

Learning

Trang 34

6 Lặp lại quá trình: Các bước 2-5 được lặp lại cho đến khi mô hình đạt được

hiệu suất mong muốn

Federated Learning có nhiều ưu điểm quan trọng:

e Bao mật dữ liệu: Dữ liệu không cần được chia sẻ hoặc truyền di, giữ cho dữ

liệu tại các thiết bị cục bộ mà không tiếp xúc với bên thứ ba

e Tiết kiệm băng thông: Chỉ truyền đi thông tin mô hình, giúp giảm lượng

dữ liệu truyền qua mạng

e Tăng tính phân tán: Việc huấn luyện trên các thiết bị cục bộ cho phép học

từ nhiều nguồn dữ liệu khác nhau, đại diện cho nhiều đặc trưng địa phương.

Tuy nhiên, Federated Learning cũng đối mặt với một số thách thức như việc

đồng bộ hóa mô hình giữa các thiết bị, mô hình hoạt động trên các thiết bị có

tài nguyên hạn chế, và đảm bảo tính đáng tin cậy của thông tin được gộp.

3.3.2 Thuật toán tổng hợp của Federated Learning

Federated Learning là một phương pháp học may phân tấn, may chủ trung

tâm sẽ nhận các trọng số được gửi đến từ các mô hình cục bộ Thuật toán tổng hợp trong Federated Learning đảm nhận việc tổng hợp thông tin từ các mô hình cục bộ để cập nhật cho mô hình toàn cục.

Các thuật toán tổng hợp trong Federated Learning có thể được tùy chỉnh tùy theo yêu cầu cụ thể của bài toán và cấu hình hệ thống Thuật toán Federated

Average (FedAvg) [20] là một thuật toán đơn giản nhưng hiệu quả, bao gồm việcphân phối đồng đều các thông số mô hình cho mỗi mô hình cục bộ

Với thuật toán FedAvg, gradient của tất cả các thành phần tham gia S; được

khởi tao là wo Mỗi vòng lặp, mô hình cục bộ được đào tạo trên dữ liệu cục

bộ của nó và cập nhật mô hình, được biểu diễn bởi w! © w! — 7 7 f(œ,b) Các gradient của các mô hình cục bộ được biểu diễn bởi w, Các gradient được tổng

Trang 35

For each Client in K € St

in parallel do

t0Ệ,¡ © ClientUpdate(k, wz)

K ngà k

weer — Vea wy | ClientUpdate(k,w)

For each local epoch i

Hình 3.5: Mô tả thuật toán FedAug

Ngoài thuật toán FedAvg được sử dụng rộng rãi, còn có những thuật toán

tổng hợp nâng cao khác Nghiên cứu trong [21] đề xuất thuật toán FedProx để

cải thiện thuật toán FedAvg FedProx giải quyết van dé đa dạng trong một môi

trường học phân tán, bao gồm đa dạng phần cứng và phần mềm trên các thiết bị

di động tham gia và đa dạng thống kê do phân phối dữ liệu không đồng đều trêncác thiết bị Điều này được thực hiện bằng cách giới thiệu một thuật ngữ gần

đến (proximal term) có thể điều chỉnh để đảm bảo sự hội tụ tốt hơn FedProx

giải quyết vấn đề đa dạng thống kê bằng cách giới hạn tác động của mỗi bảncập nhật cục bộ lên mô hình toàn cầu ban đầu và giải quyết vấn đề đa dạng

Trang 36

hệ thống bằng cách tích hợp các khối công việc cục bộ khác nhau một cách antoàn.

Nghiên cứu trong [22] đề xuất thuật toán LoAdaBoost FedAvg dựa trên mất

mát (Loss-based Adaptive Boosting - LoAdaBoost) để nâng cao hơn nữa thuật

toán FedAvg Điều này được thực hiện bằng cách so sánh giá trị mất mát của

mô hình cục bộ trong epoch hiện tại với giá trị mất mát trung bình của epoch

trước Nếu mat mát của mô hình cục bộ cao hơn mat mát trung bình trước đó,

mô hình cục bộ sẽ được huấn luyện lại Phương pháp này giúp tăng tốc quá

trình hội tụ và giảm chi phí giao tiếp

3.3.3 Mô hinh Semi-Supervised Federated Learning (học liên kết

ban giám, sát)

Một mô hình Học Phân tấn điển hình có thể giải quyết những rủi ro về quyền

riêng tư liên quan đến đữ liệu cá nhân và tận dụng sức mạnh tính toán của các

mô hình cục bộ khi triển khai theo cách phân tán Tuy nhiên, các mô hình phân

tán thường hoạt động tốt khi được huấn luyện với các tập dữ liệu đã được gán

nhãn, và việc gan nhãn không bao giờ là một nhiệm vụ dé dàng và đòi hỏi một

lượng thời gian đáng kể Do đó, Học Phân tán Bán giám sát được đề xuất nhằm

tận dung cả dữ liệu đã được gán nhãn và chưa được gan nhãn.

Tính bán giám sát của các mô hình [23] được thể hiện trong khả năng chấp

nhận cả dữ liệu đã được gán nhãn và chưa được gán nhãn như đầu vào Triển

khai các mô hình Học Sâu bán giám sát là một thực hành phổ biến, và các ví

dụ bao gồm Mạng Tự Mã hoá Cạnh Tranh (AAE), Mạng Tự Mã hoá Biến phan

(VAE), Mang Xảo tra (GAN) và những ví dụ khác Hình 3.6 minh họa hai mô

hình Học Phân tấn Bán giám sát.

Cả hai mô hình trong Hình 3.6 chia sẻ điểm chung là máy chủ nhận dữ liệu

đã được gán nhãn làm đầu vào, trong khi các thiết bị khách cung cấp dit liệuchưa được gán nhãn Ngoài ra, cả hai mô hình đều sử dụng phương pháp tạo

dữ liệu ở phía thiết bị khách, day là đặc điểm của các mô hình tạo dit liệu bán

Trang 37

Generate pseudo-labels with global model

Client 1 Client 1 Fine-tune global model

(2,1) (ZusYoa) Ø with labeled data

(a) Vanilla communication efficient FL with SSL (b) Alternate Training (Ours)

Hình 3.6: Mô tả hai mô hành Semi-Supervised Feederated Learning

giám sát như AAE, VAE và GAN đã được đề cập trước đó Mục tiêu của các

mô hình Học Phân tán Bán giám sát là tận dụng toàn bộ dữ liệu huấn luyện,

và cả hai mô hình trong biểu đồ đều đạt được điều này Sự khác biệt nằm ở quátrình tạo di liệu Trong Hình (a), quá trình tao dữ liệu xay ra trong suốt quátrình huấn luyện và tổng hợp trong mỗi lô dữ liệu chưa được gán nhãn, trong

khi trong Hình (b), nó chỉ xảy ra một lần khi nhận được mô hình tổng hợp từ

máy chủ.

Khi triển khai các mô hình Học Phân tán Bán giám sát và tích hợp cơ chế

tao dit liệu, điều quan trọng là điều chỉnh quy trình làm việc của mô hình một

cách cẩn thận để đảm bảo rằng sau mỗi vòng huấn luyện, mô hình máy chủ với

dữ liệu điều chỉnh có thể đạt được kết quả tích cực để các mô hình cục bộ tạo

ra dữ liệu tốt hơn cho vòng huấn luyện tiếp theo, từ đó cải thiện hiệu suất tổng thể của mô hình.

B34 Ung dung Federated Learning cho hé théng IDS

Dua trên các tính năng nổi bat của Hoc Phan tán, các nhà phát triển đã đánh giá tiềm năng của nó để cải thiện đáng kể hệ thống IDS:

e Bảo vệ dữ liệu người dùng: Trong hệ thống IDS phan tán, dữ liệu người

dùng, bao gồm thông tin nhạy cảm về môi trường mạng và hành vi người

Trang 38

dùng, không cần được truyền tải đến máy chủ trung tam Thay vào đó, các

thiết bị cục bộ có thể giữ lai dữ liệu của mình và chỉ chia sẻ thông qua cập

nhật tham số mô hình Điều này giúp bảo vệ quyền riêng tư người dùng và

đảm bảo an ninh dữ liệu.

Phân tán và khả năng mở rộng: Học Phân tán cho phép huấn luyện các mô

hình IDS trên các thiết bị phân tán, bao gồm máy tính và các thiết bị loTtrong mạng Diéu này cải thiện khả năng mở rộng và cho phép xử lý triển khai quy mô lớn trong khi giảm lưu lượng mạng bằng cách tối thiểu hóa

truyền tải đữ liệu

Bảo mật mô hình: Hoc Phân tấn cải thiện bảo mat của các mô hình IDS

bằng cách truyền tải tham số mô hình thay vì đữ liệu gốc qua mạng Điềunày giảm nguy cơ rò rỉ thông tin nhạy cảm và tấn công vào mô hình IDS

Học từ dữ liệu phân loại cục bộ: Mỗi thiết bị trong mạng có thể sở hữu kiến

thức và thông tin độc đáo về hành vi tấn công cục bộ Bằng cách sử dụng

Học Phân tán, các thiết bị có thể học từ dữ liệu phân loại cục bộ của mình

va đóng góp kiến thức này vào mô hình tập trung, tạo ra một mô hình IDS

mạnh mẽ và ổn định hơn

Tích hợp kiến thức từ nhiều nguồn: IDS có thể tổng hợp kiến thức từ các

nguồn khác nhau, bao gồm các hệ thống IDS khác, thiết bị mạng và dịch vụbảo mật Bằng cách sử dụng Học Phân tán, các mô hình IDS từ các nguồn

khác nhau có thể cộng tác để tạo ra một mô hình tổng hợp mạnh mẽ và đa

dang.

Trang 39

fol Devices ee _ On-Device Intelligence

Hành 3.7: Mô ta một hệ thong IDS dựa trên FL áp dung cho môi trường IoTs

3.4 Tăng cường dữ liệu

3.4.1 Tổng quan va nhu cầu của cơ chế tăng cường dé liệu

Quá trình xây dựng bộ dữ liệu huấn luyện cho các mô hình học máy thườngyêu cầu việc thu thập, đo lường và gán nhãn dữ liệu Các nhiệm vụ này tốn thời

gian, tốn kém và đòi hỏi sức lao động, nhưng chúng rất quan trọng để có được

bộ dữ liệu chất lượng cao cho huấn luyện mô hình Kỹ thuật tăng cường dữ liệu

là một phương pháp được đề xuất để giải quyết thách thức này.

Tăng cường dit liệu là một kỹ thuật tạo ra các mẫu mới cho dit liệu huấn

luyện bằng cách áp dụng các biến đổi dựa trên tập dữ liệu gốc [24] Các phương

pháp như Oversampling, Undersampling hoặc SMOTE tạo ra dit liệu mới bằng

cách sao chép hoặc sửa đổi một số thuộc tính nhỏ trong một mẫu dữ liệu Áp

dụng các mô hình học sâu mang lại cải tiến bằng cách tạo ra các điểm đữ liệu

mới không tồn tại trong tập dữ liệu gốc

Trang 40

Dữ liệu đóng vai trò quan trọng trong các mô hình học máy và ảnh hưởng

đến độ chính xác của chúng Mục tiêu của tăng cường dữ liệu là tạo ra thêm các

mẫu dữ liệu huấn luyện để cải thiện khả năng tổng quát hóa và hiệu suất của

mô hình học máy Trong các lĩnh vực yêu cầu lượng dữ liệu lớn cho huấn luyện

mô hình, nhu cầu về tăng cường dữ liệu là cao Ví dụ, trong lĩnh vực xe tự lái,

các nhà nghiên cứu và các công ty đã phải sử dụng môi trường mô phỏng để tạo

ra dữ liệu bổ sung cho việc huấn luyện và kiểm tra hệ thống Ngoài ra, lĩnh vực

y tế cũng đã kết hợp các mô hình học máy với kỹ thuật tăng cường dữ liệu để

phát hiện các bệnh viêm phổi.

Hình 3.8: Ky thuật tăng cường dữ dữ liệu uới dữ liệu anh

Tuy nhiên, phương pháp tăng cường dữ liệu vẫn tồn tại những điểm hạn chế:

e Các sai lệch trong tập dữ liệu gốc vẫn tồn tại trong dữ liệu tăng cường, cụ

thể là sự mất cân bằng giữa các nhãn.

e Thách thức khi xây dựng kết hợp với các mô hình học máy phức tạp.

Ngày đăng: 23/10/2024, 00:08