Phương pháp phát hiện mã độc sử dung học liên kết kết hợp chiếnude học bán giám sát trong nghiên cứu [17] Học liên kết Federated Learning Học máy Machine Learning Hệ thống tìm kiếm, phát
Trang 1TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA MẠNG MÁY TÍNH VÀ TRUYỀN THÔNG
NGUYEN THỊ THU - 19522307
NGO THAO NGUYEN - 19520183
A ROBUST FEDERATED MALWARE DETECTION SYSTEM USING FEDERATED LEARNING AND SEMI SUPERVISED
LEARNING APPROACH
KY SU NGANH AN TOAN THONG TIN
GIANG VIEN HUGNG DAN:
ThS Nghi Hoàng Khoa
TP.H6 Chi Minh - 2023
Trang 2Để hoàn thành khóa luận tốt nghiệp này, chúng tôi xin gửi lời cảm ơn đến
Ban giám hiệu Trường Đại hoc Công nghệ Thông tin - Đại học Quốc Gia ThanhPhố Hồ Chí Minh vì đã tạo điều kiện học tập, nghiên cứu tốt nhất Cảm ơnquý thầy cô giảng dạy tại trường nói chung và Khoa Mạng máy tính Truyền
thông nói riêng vì đã truyền đạt những kiến thức chuyên môn bổ ích, những
kinh nghiệm thực tế quý báu mà chúng tôi đã học hỏi được trong suốt quá trình
học tập, rèn luyện tại trường.
Trong quá trình nghiên cứu và hoàn thành khóa luận, nhóm đã nhận được
sự định hướng, giúp đỡ, các ý kiến đóng góp quý báu và những lời động viêncủa các giáo viên hướng dẫn Nhóm xin bày tỏ lời cảm ơn tới thầy Nghi HoàngKhoa đã tận tình trực tiếp hướng dẫn, giúp đỡ trong quá trình nghiên cứu
Tuy nhiên, trong quá trình thực hiện khóa luận do kiến thức chuyên ngành
của nhóm còn hạn chế nên không thể tránh khỏi một vài thiếu sót khi trình bày
và đánh giá vấn đề Rất mong nhận được sự góp ý, đánh giá của các thầy cô để
đề tài của chúng em thêm hoàn thiện hơn
Nguyễn Thị Thu Ngô Thảo Nguyên
Trang 3MUC LUC
MỤC LUC 0.0 Sốc ii
DANH MỤC CAC KÝ HIỆU, CÁC CHU VIET TAT v
DANH MỤC CÁC HÌNH VẼ vii
DANH MUC CAC BANG BIEU xi
TOM TAT KHÓA LUẬN 1
CHƯƠNG 1 TONG QUAN 2 11 Giới thiệu van đỀ ee 2 1.2 Giới thiệu những nghiên cứu liên quan 3
1.3 Tinh ứng die mưa“ =tEE.j / 4
1.4 Những thách thức ee ee 4 1.5 Mục tiêu, đối tượng, và phạm vi nghiên cứu 4
5.1 Mục tiêu nghiên đỨu ẶẶ ee 4 5.2 Đối tượng nghiên ctu ee 5 5.3 Phạm vi nghiên đỨU 2.2.0.0 0200200048 5 5.4 Cau trúc khóa luận tốt nghiệp - 5
CHƯƠNG 2 CƠ SỞ LÝ THUYET 7 2.1 Giới thiệu chung về mã độc 2 eee 7 2.2 Mô hình học máy 0000 00000 8 2.2.1 Tổng quan về mô hình hoc máy 8
2.2.2 Chiến lược học bán giám sát trong hoc máy 11
2.2.3 Mô hình Mạng noron tích chap- CNN 11
2.2.4 Phương pháp Chat lọc trithức 16 2.3 Mô hình học lên kết ee 17
Trang 42.3.1 Tổng quan về mô hình hoc liên kết
2.3.2 Các thuật toán tổng hợp mô hình học liên kết
2.3.3 Dữ liệu phân phối không đồng nhất
2.3.4 Tấn công đầu độc mô hình hoc liên kết
2.3.5 Tổng quan về phương pháp phòng thủ FLARE
Các chỉ số đánh giá mô hình
PT ^^ 6H
2.4.2 Confusion MatriXx TQ He 2.4.3 Precision, Recall, Fl-Score
2.4.4 Macro Average, Micro Average, Weighted Average
CHƯƠNG 3 MO HÌNH VÀ PHƯƠNG PHAP THỰC HIỆN 3.1 3.2 3.3 3.4 Mô hình cộng tác phát hiện mã độc giữa học liên kết và chiến lược bán giám sát (SSFL)
Tan công đầu độc mô hình SSFL
Ý tưởng về phương pháp phòng thủ chống lại tấn công lật nhãn Chi tiết mô hình cộng tác phát hiện mã độc bền vững dựa trên SSFL (RobustSSFL)
CHƯƠNG 4 THÍ NGHIEM VA DANH GIÁ 4.1 4.2 Thiết lập thí nghiệm CỐ Ặ 4.11 Môi trường thí nghiệm
41.2 Tiền xử lý dữ liệu Q Q ee 41.3 Mô hình học máy CNN
4.1.4 Các tham số liên quan và chỉ số đánh giá
Kết quả thí nghiệm ẶẶ.VC 4.2.1 Hiệu năng của SSFL khi chưa bị tan công
4.2.2 Tỉ lệ máy khách độchại
4.2.3 Trường hợp phân bố dữ liệu 2 của tap dữ liệu NBaloT 4.2.4 Trường hợp tập dữ liệu khác - CICIDS2017
30
32
32 35 38
39
Trang 54.2.5 Trường hợp khi không có tấn công 61
4.3 Thaoluan 0 00000000 pee ee 65
CHƯƠNG 5 KET LUẬN 68
TÀI LIỆU THAM KHẢO 70
PHỤ LỤC A.MA TRẬN CỦA CÁC TRƯỜNG HỢP THỰC
NGHIỆM PlA.1 Trường hợp phan phối dữ liệu 1 - NBaloT với ty lệ máy khách
độc hại khác nha z7 @0£”"{› - P2
A11 Tile Ol @£7 À P2 A12 TilA6TO «œ «®œ& \ / P5
A.13 Tỉilệ20% 0 ee P§ A.14 TH 257M 0 GÀ / Pll
A.2 Trường hợp phân phối dữ liệu 2- NBaloT P14A.3 Trường hợp phân phối dữ liệu 3 - CICIDS2017 P18
A.4 Trường hợp RobustSSFL khi không tấn công P22
Trang 6Phương pháp phát hiện mã độc sử dung học liên kết kết hợp chiến
ude học bán giám sát trong nghiên cứu [17]
Học liên kết (Federated Learning)
Học máy (Machine Learning)
Hệ thống tìm kiếm, phát hiện và ngăn chặn xâm nhập (Intrusion
Detection and Prevent System)
Phương pháp chống lai tấn công đầu độc mô hình trong hoc liên
ết thuần (Federated LRarning LAtent-space REpresentation) Lớp áp cuối (Penultimate Layer Representation)
Số máy khách tham gia vào quá trình đào tạo
[ong số điểm dữ liệu của tất cả máy kháchTổng số nhãn trên toàn bộ dữ liệu
Ham tính khoảng cách MMD (Maximum Mean Discrepancy)
Trọng số lớp áp cuối (PLR) của mô hình
Số điểm dữ liệu của tập dit liệu phụ trợ (Auxiliary data) sử dung
rong FLARE -
[ap hợp của r, Ï = r1,?2, , mạ
Trọng số mô hìnhTap hợp trong số của các máy khách
Ham Gaussion kernel
Trong số mô hình cập nhật của máy khách i
p dit liệu có nhãn riêng của máy khách k
Trang 7Mô hình phân loại nhãn của máy khách k
Nhãn của bộ dữ liệu ở tập D;,e
Nhãn của dit liệu tập 2; do mô hình phan loại dự đoán
Ham mất mát (loss function)
Tóc độ hoc (learning rate)
Mẫu dữ liệu thứ j của tap dữ liệu công khai
Diểm tin cậy của nhãn dự đoán do mô hình phân loại thực hiệnGiá trị ngưỡng để phân biệt dữ liệu "quen thuộc" và "không quenthuộc"
Tập dữ liệu "không quen thuộc"
Mô hình bộ phân biệt của của máy khách k
Véc-tơ nhãn dự đoán được thực hiện bởi bộ phân biệt của tập dữ liệu mở
Nhãn cứng của của mẫu dữ liệu 7 thuộc bộ dữ liệu mở với máy
khách k
Ham tính khoảng cách Hamming
Giá trị ngưỡng để xác định hàng xóm gần nhất
Danh sách hàng xóm gần nhất của máy khách k
Số phiếu hay điểm tin cậy của máy khách k
Nhãn mà máy khách k bỏ phiếu trong bộ bỏ phiếuV#9,V21, ,V2#~! cho mẫu dit liệu 7 thuộc tập dữ liệu công khai
Số máy khách tham gia bỏ phiếu, L < K
Số máy khách bỏ phiếu cho nhãn ứng cử viên e
Tập hợp các ứng cử viên tham gia bỏ phiếu M =
unique(Vi8, Vit, VIEL) và |[Mf|| là số phần tử của M
Tap nhãn cứng sau bỏ phiếu
Tap nhãn dự đoán trong giai đoạn chat lọc kiến thức
Trang 8DANH MUC CAC HINH VE
12.1 Lược đồ biểu diễn điểm của mô hình SVM (bên trái) và mô
hình Hồi quy tuyến tính (bên phải)
12.2 Lược đồ biểu diễn phân cụm
h 2.3 Tổng quát hóa mô hình CNN với các lớp khác nhau
h 2.4 Quá trình thực hiện tích chập của ma trận đầu vào và kernel
3x3 tao featuremap e8hẽ8
h 2.5 Phép tong hợp thực hiện bằng cách chọn ma trận biểu diễn
2x2 /#⁄⁄ 46/0 — \:: E
h2.6 Các điểm dữ liệu được làm phẳng thành mang một chiều và
là đầu vào cho Lớp kết nối day đủ cho phân loại inh 2.7 Cấu trúc co bản của khung mô hình Chat lọc tri thức: Dữ
liệu kiến thức, Thuật toán chắt lọc và cấu trúc liên hệ người hướng
dẫn và học viên [4| ẶẶằ.
ình 2.8 Cơ chế học tap đơn giản của phương pháp chat lọc tri thức
Wo ee
inh 2.9 Mô tả kiến trúc của mô hình học liên kết thuan[8]
ình 2.10 Sự phát triển của thuật toán tổng hợp trong 6 năm [7]
ình 2.11 Minh họa trạng thái non-iid trong trường hợp không đồng
nhất về thuộc tính Máy khách 1 bao gồm đặc tính tên, tuổi, chiều
cao và nhãn, Máy khách 2 bao gồm đặc tính tên, giới tính và cân
Trang 9nh 2.13 Minh hoa trạng thái non-iid trong trường hợp không đồng
nhất về thời gian, 2 máy khách với dữ liệu cổ phiếu được thu thập
trong 60 tháng đầu va 60 tháng cuối [I§|
h 2.14 Mô hình học liên kết bền vững chống lại tấn công đầu độc
mô hình với phương pháp FLARE
h 2.15 Kết quả thực nghiệm của mô hình FLARE trên tập dữ liệu
h 2.16 Minh hoa Confusion matrix cho bài toán Nhãn nhị phân va bài toán Đa nhãn Q.0 Q Q Q Q k.
h3.1 Sơ đồ tổng quan về mô hình SSFL được đề xuất ở công trình
(17) 1 er Pm ee
h 3.2 Tấn công lật nhãn tại nhãn của bộ di liệu có nhãn riêng tư
trên máy khách ee
ì 3.3 Mô hình phát hiện mã độc bền vững RobustSSFL
h 4.1 Mô tả sự phan phối dữ liệu của tap dữ liệu NBaloT trong
trường HÔI “Si Se OF /.£
-h 4.2 Mô tả sự p-hân p-hối dữ liệu của tập dữ liệu NBaloT trong
h 4.3 Mô tả sự phân phối dữ liệu của tap dữ liệu CICIDS2017
(trường hợp 3) ko
h4.4 Ma trận lỗi sau khi đào tạo SSFL đối với dữ liệu trường hợp
1(a) và trường hợp 2(b) của tập dữ liệu NBaloT và trường hợp
(c) của tập dữ liệu CICIDS2017
h4.5 Kết quả so sánh hiệu năng mô hình SSFL không bị tấn công
với 4 kiểu tấn công phụ thuộc vào tỉ lệ máy khách độc hai
h 4.6 Mức độ hiệu qua mô hình RobustSSFL với ngưỡng 7 xác
định ở trường hợp lật nhãn sang 0 ở 2 vị trí tấn công (a) nhãn
"cứng" và (b) tap nhãn riêng tư
Trang 10n 4.7 Mức độ hiệu quả mô hình RobustSSFL với ngưỡng 7 xác
định ở trường hợp lật nhãn ngẫu nhiên ở 2 vị trí tấn công (a)
nhãn "cứng" và (b) tập nhãn riêng tư
h4.8 Tổng tỉ lệ nhãn tấn công bị dự đoán là nhãn lành tính trong
các trường hợp tấn công và phòng thủ với tỉ lệ máy khách độc
hại khác nhau trong ma trận lỗi .
h 4.9 Tỉ lệ nhãn tấn công bị dự đoán là nhãn lành tính trong các
trường hợp tấn công (Attack) và phòng thủ (Def0.5, DefMean,
Def0.8Mean) với dữ liệu trường hợp 2 NBaloT từ ma trận lỗi
h 4.10 Tỉ lệ nhãn tấn công bị dự đoán là nhãn lành tính trong
các trường hợp không bị tấn công (NoAttack), tấn công (Attack)
và phòng thủ ((Def0.5, DefMean, Def0.8Mean)) với tập dữ liệu
h A.3 Ma trận lõi RobustSSFL của trường hợp dit liệu 1 - NBaloT
hi bị tấn công lật nhãn của dữ liệu riêng với tỉ lệ 10%
h A.4 Ma trận lỗi SSFL của trường hợp 1 - NBaloT khi tấn cong
At nhãn với tỉ lệ 15% Ốc So
h A.5 Ma trận lỗi RobustSSFL của trường hợp dữ liệu 1 - NBaloT
hi bị tấn công lật nhãn "cứng" với tỉ lệ 15%
hA.6 Ma trận lỗi RobustSSFL của trường hợp dữ liệu 1 - NBaloT
hi bị tấn công lật nhãn của dữ liệu riêng với tỉ lệ 15%
h A.7 Ma trận lỗi SSFL của trường hợp 1 - NBaloT khi tấn công
at nhãn với tỉ lệ 20% QC
hA.8 Ma trận lỗi RobustSSFL của trường hợp dữ liệu 1 - NBaloT
hi bị tấn cong lat nhãn "cứng" với tỉ lệ 20%
63
P3
Trang 11n A.9 Ma trận lỗi RobustSSFL của trường hợp dữ liệu 1 - NBaloT
hi bi tấn công lật nhãn của dữ liệu riêng với tỉ lệ 20%
h A.10 Ma trận lỗi SSFL của trường hợp 1 - NBaloT khi tấn công
At nhãn với tỉ lệ 25% 2.0.2.0 000022000000.
h A.11 Ma trận lỗi RobustSSFL của trường hợp dữ liệu 1 - NBaloT
hi bi tấn công lật nhãn "cứng" với tỉ lệ 25%
h A.12 Ma trận lỗi RobustSSFL của trường hợp dữ liệu 1 - NBaloT
hi bị tấn công lật nhãn của dữ liệu riêng với tỉ lệ 25%
h A.13 Ma trận lỗi của trường hợp dữ liệu 2 - NBaloT khi bị tấn
công lật nhãn "cứng" sang Ú ee
h A.14 Ma trận lỗi của trường hợp dữ liệu 2 - NBaloT khi bị tấn
công lật nhãn "cứng" ngẫu
nhiên -h A.15 Ma trận lỗi của trường nhiên -hợp dữ liệu 2 - NBaloT knhiên -hi bị tấn
công lật nhãn của dữ liệu riêng sang Ú
h A.16 Ma trận lỗi của trường hợp dữ liệu 2 - NBaloT khi bị tấn
công lật nhãn của dữ liệu riêng ngẫu nhiên
h A.17 Ma trận lỗi của trường hợp dữ liệu CICIDS2017 khi bị tấn
công lật nhãn "cứng" sang0 2.2 2 ee ee ee
nh A.18 Ma tran lỗi của trường hợp dữ liệu CICIDS2017 khi bi tấn
công lật nhãn "cứng" ngẫu nhiên
h A.19 Ma trận lỗi của trường hợp dữ liệu CICIDS2017 khi bị tấn
công lật nhãn của dữ liệu riêng sang Ú
h A.20 Ma trận lỗi của trường hợp dữ liệu CICIDS2017 khi bị tan
công lật nhãn của dữ liệu riêng ngẫu nhiên
h A.21 Ma trận lỗi của trường hợp 1 - dữ liệu NBaloT khi áp dụng
Trang 12Hình A.23 Ma trận lỗi của trường hợp 3 - dit liệu CICIDS2017 khi áp
dụng mô hình RobustSSFL P24
Trang 13DANH MUC CAC BANG BIEU
Bảng 4.1 Số lượng mẫu dữ liệu lành tinh và các tấn công trong bộ
dit liệu thực tế NBaloT ào
Bảng thể hiện chi tiết về các lớp của mô hình CNN day đủ
Bảng thể hiện chỉ tiết về các lớp của mô hình CNN tuỳ chỉnh
Bảng thể hiện các tham số được cài đặt trong thực nghiệm
Hiệu năng của SSFL với 3 trường hợp phân phối dữ liệuđồng nhất sau 100 vòng
Bang so sánh hiệu năng giữa SSFL và RobustSSFL khi bi
ng với các ngưỡng 7 khác nhau trong trường hợp 2 NBaloT.
Bang so sánh hiệu năng giữa SSFL và RobustSSFL khi bị
tấn công với các ngưỡng r khác nhau trong tập dữ liệu CICIDS2017.
Bang so sánh hiệu năng giữa SSFL và RobustSSFL với các
g 7 khác nhau trong 3 trường hợp dữ liệu khi không bị tan
50 51 51
53
60
62
Trang 14Trong những năm trở lại đây, chứng kiến sự phát triển mạnh mẽ của công
nghệ mạng Kết nối vạn vật (Internet of Things - IoT), bằng khả năng tính toán
và cảm biến, IoT được mong chờ sẽ kết nối mạng lưới rộng lớn các đối tượng và
sự vật trong mạng Internet, cung cấp điều kiện thuận lợi trong ứng dụng và dịch
vụ phục vụ đời sống con người Để ngăn ngừa rủi ro bảo mật thông tin riêng tưcũng như các vụ tấn công mã độc vào các thiết bị mạng có thể gây ra lây nhiễm
ở quy mô lớn, nhiều nghiên cứu đã đề xuất lựa chọn mô hình học liên kết thaythé mô hình hoc máy [3] [10]
Sau quá trình nghiên cứu mô hình phát hiện mã độc áp dụng học liên kết kếthợp chiến lược học bán giám sát của Ruijie Zhao [17], chúng tôi nhận thấy đây
là phương pháp có thể khắc phục nhiều điểm yếu của Học liên kết truyền thống
như di liệu không đồng nhất, sự suy ngược dữ liệu riêng tư trong quá trình trao
đổi trọng số mô hình, chi phí truyền thông cao do kích thước mô hình lớn gâycản trở lớn cho việc triển khai giải pháp thực tế Điểm đặc biệt của mô hìnhnày là máy chủ và các máy khách trao đổi nhãn Mặt khác, điều này lại gây ra
một bề mặt tấn công lật nhãn dé dang từ phía các máy khách độc hại
Trong đề tài này, chúng tôi đề xuất mô hình phát hiện mã độc bền vững
(RobustSSFL) dựa trên SSFL có thể chống lại tấn cong lật nhãn Bên cạnh đó,
chúng tôi đánh giá mức độ hiệu quả của mô hình bền vững này dưới các kịchbản khác nhau như số lượng máy khách độc hại khác nhau tham gia vào môhình và dữ liệu phân phối không đồng nhất với sự phân bố dữ liệu khác nhaucũng như ảnh hưởng của phương pháp này với mô hình gốc khi không có tấn
công Cuối cùng, chúng tôi sẽ kết luận và chỉ ra các ưu, nhược điểm của mô hình
này.
Trang 15Trong chương này, chúng tôi xin trình bày về lý do chọn đề tài Đồng thờiđưa ra mục tiêu, phạm vi nghiên cứu, cũng như cấu trúc của khóa luận.
1.1 Giới thiệu van dé
Mã độc là một trong những mối đe dọa ngày càng phổ biến và nguy hiểm
trong lĩnh vực công nghệ thông tin Việc tấn công và xâm nhập vào hệ thống
máy tính thông qua mã độc có thể gây ra những hậu quả nghiêm trọng, từ mấtthông tin quan trọng đến việc chiếm quyền kiểm soát hệ thống Do đó, việcnghiên cứu và phát triển các phương pháp phát hiện và ngăn chặn mã độc là
cực kỳ cần thiết
Học liên kết là phương pháp mạnh mẽ để tăng cường khả năng phát hiện mã
độc Thay vì phải thu thập tất cả di liệu tập trung tại một máy chủ, học liên
kết cho phép tổng hợp thông tin từ nhiều nguồn khác nhau để tạo ra một cái
nhìn toàn điện và đa chiều về hệ thống Bên cạnh đó, việc 4p dụng chiến lượchoc bán giám sát trong hệ thống phát hiện mã độc góp phan làm tăng hiệu suất
hệ thống, cải thiện các hạn chế từ học liên kết như dữ liệu không đồng nhất[17] Đặc biệt, sự kết hợp này giúp tiết kiệm chi phí, đầu tiên là chi phí truyềnthông (số vòng giao tiếp), tiếp theo là chi phí duy trì hệ thống vì với chiến lượchoc bán giám sát, ta chỉ can một lượng nhỏ dữ liệu có gắn nhãn
Tấn công lật nhãn là một loại tấn công phổ biến và dễ dàng thực hiện Đặc
biệt, đối với mô hình học liên kết nói chung và mô hình học liên kết có sự kết
hợp của chiến lược học bán giám nói riêng, các máy khách độc hại tham gia
đóng góp vào quá trình đào tạo có thể dễ dàng phá huỷ mô hình chung (nhãnchung) khi không có bất kỳ phương pháp phòng thủ nào Do đó, việc đề xuất
Trang 16phương pháp phòng chống lật nhãn là một bước quan trọng trong việc đảm bảo
an ninh hoc may.
1.2 Giới thiệu những nghiên cứu liên quan
Valerian Rey đã chỉ ra hiệu quả của việc sử dụng phương pháp học liên kết
là không thua kém so với việc sử dụng học máy tập trung truyền thống[S| Tuy nhiên, phương pháp này không đề cập đến việc tác động của dữ liệu phân phối không đồng nhất ảnh hưởng đến hiệu quả của học liên kết.
Học liên kết cũng giả định việc gửi trọng số mô hình có thể đảm bảo quyền
riêng tư về dữ liệu Ligeng Zhu đã đặt ra câu hỏi liệu chúng ta có thể đánh cắp
dữ liệu từ trọng số mô hình không và đề xuất phương pháp [19] để thực hiện
công việc đó Ngoài ra, số lượng các thiết bị loT cần tải trọng số lên máy chủ
dẫn đến chỉ phí truyền thông đắt hơn Và để khắc phục hai hạn chế này, phương
pháp học liên kết dựa trên chất lọc kiến thức [5](FL-DS) được đề xuất Phương
pháp này trao đổi nhãn nên giảm thiểu được chi phí truyền Tuy nhiên, hiệu
quả của FL-DS cũng bị giảm khi áp dụng vào đào tạo dữ liệu không đồng nhất.
Với mong muốn đề xuất một phương pháp có thể khắc phục được cả ba hạn
chế trên trên, Ruijie Zhao và các cộng sự đã đề xuất mô hình học liên kết kết
hợp chiến lược học bán giám sát để phát hiện mã độc (SSFL) dựa trên FL-DS
Qua quá trình thực nghiệm SSFL, tác giả đã cho thấy sự hiệu quả của SSFL
qua nhiều trường hợp phân phối dữ liệu không đồng nhất cũng như hiệu quảtrong việc tiết kiệm chi phí truyền thông so với các phương pháp khác
Tương tự FL-DS, SSFL trao đổi nhãn Và việc này tạo ra một bề mặt tấn
công lật nhãn dễ dàng cho kẻ tấn công Hơn nữa, phần lớn các nỗ lực hiện tạitrong việc chống lại tấn công lật nhãn đều dựa trên trọng số mô hình vì việc
trao đổi trọng số mô hình nằm trong nhiều kiến trúc học liên kết Do đó, trong
đề tài này, chúng tôi sẽ tập trung nghiên cứu, đề xuất mô hình RobustSSFL cókhả năng chống lại tấn công lật nhãn
Trang 17Tấn công lật nhãn là một loại kỹ thuật phổ biến và khá dễ dàng trong việcthực hiện Trong lĩnh vực phát hiện mã độc, việc xác định một tập dữ liệu đượcgắn nhãn đúng là rất quan trọng để huấn luyện mô hình Đề tài này sử dụng tập
di liệu mạng của các thiết bị bị nhiễm mã độc trong thực tế với các trường hợp
phân phối không đồng nhất (non-iid) để đánh giá hiệu quả của mô hình phát
hiện mã độc bền vững RobustSSFL trong nhiều trường hợp khác nhau đảm bảotính đúng đắn, khách quan khi đánh giá phương pháp này
1.4 Những thách thức
Hiện nay, theo như chúng tôi tìm hiểu được, do đa phần các mô hình họcliên kết sẽ trao đổi mô hình nên có rất nhiều nghiên cứu đề xuất phương pháp
phòng thủ dựa trên trọng số mô hình Trong khi đó mô hình chúng tôi nghiên
cứu trao đổi nhãn Nhãn có đặc tính rất khác với trọng số mô hình, kẻ tấn công
có thể tấn công lật nhãn ngẫu nhiên với nhiều cách khác nhau Phương phápcủa chúng tôi phải dựa vào một giá trị ngưỡng để tính toán mức độ tin cậy của
một máy khách, do đó, việc phải tìm ra ngưỡng phù hợp với tất cả các trường hợp rất khó, đôi khi ngưỡng này hiệu quả với trường hợp này, không hiệu quả
với trường hợp khác Bên cạnh đó, với từng kiểu phân bố dữ liệu khác nhau (dữ
liệu không đồng nhất), khi số lượng máy khách độc hại tham gia đào tạo càng
cao, hiệu quả của phương pháp phòng thủ sẽ giảm dần
1.5 Mục tiêu, đối tượng, và phạm vi nghiên cứu
1.5.1 Mục tiêu nghiên cứu
Báo cáo hướng tới các van đề:
Trang 18e Triển khai lại mô hình học liên kết kết hợp chiến lược học bán giám sát (SSFL) theo nghiên cứu [17].
e Dầu độc mô hình đã xây dựng bằng phương pháp lật nhãn và khảo sát sự ảnh hưởng của số lượng máy khách độc hại đến hiệu quả của mô hình.
e Tìm hiểu và triển khai phương pháp bảo vệ mô hình trước các máy khách
độc hại để xây dựng mô hình RObustSSFL và tiến hành đánh giá độ hiệu
quả của phương pháp đã thiết kế
1.5.2 Đối tượng nghiên cứu
Đối tượng nghiên cứu bao gồm:
e Mô hình học liên kết
e Chiến lược học bán giám sát trong mô hình học liên kết
e Các phương pháp tấn công và phòng thủ trong mô hình học liên kết
e Tập dữ liệu từ những thiết bị bị lây nhiễm mã độc thực tế
e Thư viện hỗ trợ máy học tensorflow, keras.
1.5.3 Pham vi nghiên cứu
Tìm hiểu cơ chế hoạt động của mô hình SSFL[17] Nghiên cứu, tim hiểu các
phương pháp tấn công và phòng chống trong học liên kết Áp dụng kiến thức
tìm hiểu được, đề xuất mô hình RobustSSFL chống lại tấn công lật nhãn
1.5.4 Cấu trúc khóa luận tốt nghiệp
Chúng tôi xin trình bày nội dung của Khóa luận theo cấu trúc như sau:
« CHƯƠNG 1: TONG QUAN DE TÀI
Trang 19Trình bày khái quát về định hướng, phạm vi nghiên cứu của đề tài khóa
luận hướng tới.
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT
Trinh bày các định nghĩa, khái niệm cũng như những kiến thức nền tang
liên quan
CHUONG 3: MÔ HINH VÀ PHƯƠNG PHÁP THUC HIEN
Phần trọng tâm - trình bày mô hình cộng tác phát hiện mã độc bền vững
sử dụng học liên kết và chiến lược học bán giám sát đã nghiên cứu; Xác
định các điểm tấn công và chiến lược tấn công lật nhãn của mô hình này;
Đề xuất phương pháp phòng thủ cho loại tấn công này
CHƯƠNG 4: THÍ NGHIỆM VÀ DÁNH GIÁ
Trinh bày quá trình hiện thực hóa phương pháp đề cập ở Chương 3 Sau đó
đưa ra kết quả đánh giá và so sánh.
CHƯƠNG 5: KẾT LUẬN
Kết luận về đề tài, đề xuất một số hướng phát triển mở rộng cho các nghiên
cứu trong tương lai.
Trang 20Chương này trình bày cơ sở lý thuyết của nghiên cứu: Bao gồm mã độc, các
chiến lược trong học máy, mô hình học liên kết và dữ liệu phan phối không đồng
nhất.
2.1 Giới thiệu chung về mã độc
Mã độc hay phan mém độc hại là một thuật ngữ được sử dung để mô tả cácứng dụng hay mã độc hại có thể gây tổn hại lên hệ thống máy tính, làm phá
vỡ khả năng hoạt động bình thường của các thiết bị, ảnh hưởng đến tính bí
mật, tính toàn vẹn và tính sẵn sàng của dữ liệu người dùng, máy tính hoặc môi
trường mạng Nhìn chung, ta có thể phân loại mã độc thành một vài loại phổ
biến sau:
e Virus: là loại chương trình độc hại mà cần một tệp dữ liệu hay chương
trình khác làm vật chủ để ký sinh, phải được kích hoạt bởi một sự kiện,
hoạt động trên hệ thống máy tính để thực thi, và có khả năng nhân bản
sau khi thực thi.
e Worm: là đoạn chương trình độc hại độc lập, có khả năng tự thân thực
; lan qua các khai thác lỗ hổng phần mềm hoặc
thi, tự nhãn ban, tự động 1é
chính sách an ninh được cấu hình ko cẩn thận
e Trojan: các đoạn mã của Trojan được “che giấu” trong các phần mềm máy
tính thông thường để bí mật xâm nhập vào máy nạn nhân Khi tới thờiđiểm thuận lợi, chúng sẽ đánh cắp thông tin cá nhân và chiếm quyền điềukhiển máy tính Bản chất của Trojan là không tự lây lan mà biến hệ
Trang 21thống máy tính bị nhiễm thành thành viên của mang botnet và thực hiện
phát tán.
e Botnet: là những máy tinh bị nhiễm virus va bị điều khiển thông qua
Trojan, Virus, Tin tặc lợi dụng sức mạnh của những máy tính bị nhiễm
virus để thực hiện các hành vi phá hoại và ăn cắp thông tin Thiệt hại do
Botnet gấy ra thường vô cùng lớn
Trước khi lây nhiễm, mã độc cần được tải xuống hoặc khi đã xâm nhập vào
máy nạn nhân, chúng cần phải giao tiếp với máy chủ C&C để nhận lệnh, đặcbiệt đối với các botnet thông qua mạng Do đó, chúng ta có thể phát hiện và
ngăn chặn kịp thời bằng các hệ thống tìm kiếm, phát hiện và ngăn chặn xâm
nhập (IDPS) Và với sự phát triển của học máy /học sâu, chúng ta đã không phải
quá phụ thuộc vào việc phải biết tường tận và phân tích sâu hành vi của mã
độc để làm mẫu phát hiện (signature-based) Hơn nữa, việc này chỉ phát hiện
các tấn công đã biết Việc kết hợp các thành tựu hiện đại trong trí tuệ nhân tạo
đã thúc đẩy cho việc phát hiện các mối nguy chưa biết
2.2 Mô hình học máy
2.2.1 Tổng quan vé mô hành học máu
Học mấy (tiếng Anh: Machine Learning - ML) là một mô hình thuật toán mô
tả khả năng của các hệ thống học hỏi từ dit liệu đào tạo dành riêng, tự động xây
dựng mô hình phân tích thực hiện các tác vụ dựa vào khuôn mẫu và suy luận
mà không cần hướng dẫn cụ thể Học máy có mối liên hệ mật thiết tới thống kê,
nó sử dung mô hình thống kê để "ghi nhớ" sự phân bố của bộ dữ liệu, tổng quát
hóa những gì nhìn thấy ở dữ liệu đầu ra, kết hợp dữ liệu đầu vào, đào tạo và đưa ra dự đoán Tiếp cận phương pháp kỹ thuật Học máy áp dụng vào mô hình
mạng lưới loT được đánh giá cải thiện kha năng hoạt động, tăng tính linh hoạtcác xử lý của thiết bị khi tối ưu hóa lưu lượng mạng, phân bổ nguồn tài nguyên
Trang 22và tránh gây tắc nghẽn [16] Mô hình Học máy được phát triển trên tập dữ liệuđào tạo được thu thập trực tiếp từ nhiều thiết bị riêng lẻ, có thể qua nhiều hoạtđộng xử lý, đưa về máy chủ tổng hợp và đào tạo ra mô hình Học máy chung
Trong Học máy, theo truyền thống, dựa trên vấn đề cần giải quyết, bộ ditliệu tồn tại, phân thành 2 dạng chiến lược chính bao gồm Học máy Giám sát
và Không giám sát Trong chiến lược học máy giám sát, yêu cầu bộ dữ liệu để
huấn luyện phải bao phủ được cả dữ liệu của đầu vào và đầu ra, có nghĩa thuậttoán bắt buộc phải biết trước cặp dữ liệu (đầu vào, đầu ra), còn gọi là cặp (đữ
liệu, nhãn), để dự đoán được đầu ra của dữ liệu mới Dây cũng được xem là một nhược điểm của chiến lược đào tạo mô hình Học máy này Phương pháp Học
có giám sát được áp dụng phổ biến cho các bài toán Phân lớp (Classification)
và bài toán Hồi quy (Regression) Minh họa cho mô hình sử dụng chiến lược
Học có giám sát, ta có mô hình Support Vector Machine (SVM) thuộc bài toán
Phân lớp Ý tưởng của mô hình SVM là siêu mặt phẳng phân chia có lề đạt lớnnhất trong không gian thuộc tính có ø chiều (Hinh 2.1 - trái) Dối với bài toán
Hồi quy, mô hình Linear Regression hướng đến mục đích tìm ra đường thẳng
phù hợp nhất mà ngay tai đó Hàm mat mát (Loss Function) đạt thấp nhất, cónghĩa mức độ chênh lệch giữa giá trị mô hình dự đoán và giá trị thực tế phải
nhỏ, Hinh 2.1 - phải, thể hiện mô hình có đường thẳng thu nhỏ bình phươngchênh lệch giữa giá trị quan sát được (thực tế) và giá trị dự đoán, đường thẳng
đi qua trung bình của các đối tượng đặc điểm độc lập và phụ thuộc
Ở chiến lược học máy không giám sát, mô hình được đào tạo dựa trên dữ liệu
không gan nhãn (unlabeled data), tức ta không biết được kết quả đầu ra mà chỉ
có dit liệu đầu vào Thuật toán này quét dữ liệu mới, cố gắng thiết lập kết nối
có ý nghĩa giữa dữ liệu đầu vào và kết quả định sẵn, tìm ra một thông tin cấutrúc như các nhóm phần tử có chung thuộc tính (gọi là Phân cụm - Clustering)
hoặc biểu diễn dit liệu theo hạng mục (Giảm số chiều - Dimension reduction)
để lưu trữ và tính toán Ý tưởng của bài toán Phân cụm là chia dữ liệu thànhcác clusters (hoặc nhóm/cụm) bằng cách đặt các dữ liệu giống nhau nhiều vào
Trang 23Hành 2.1: Lược dé biểu diễn điểm của mô hành SVM (bên trái) va mô hànhHồi quy tuyến tính (bên phải).
chung cluster, sẽ có K số trung tam của nhóm có trong bộ dữ liệu, thường tinh
toán khoảng cách để có thể gan dit liệu vào 1 nhóm, đưa đến mục đích chính làgiảm tổng khoảng cách giữa các dữ liệu và trung tâm đại diện của cụm, tạo nên tập hợp các
10
iểm ở gần nhau trong một không gian nào đó (Hinh 2.2)
4 -2 0 2 4 6 8 10 12 14
Hình 2.2: Lược dé biểu diễn phân cụm
Bên cạnh hai hướng tiếp cận phổ biến trên, Học máy tăng cường thay vì cung
cấp cặp dữ liệu (đầu vào, đầu ra) thì sẽ mô tả trạng thái hiện tại của mô hình
và chỉ định ra một mục tiêu, mục đích của mô hình là cố gáng đạt được nhiều
Trang 24điểm thưởng tối đa ở các bước mà thuật toán trải qua để đạt đến mục tiêu cuối
cùng dưới sự ràng buộc hoàn cảnh cho kết quả đầu ra Hiện tại, thuật toán Tăngcường chủ yếu được 4p dụng vào Lý Thuyết Trò Chơi, các thuật toán cần xác
định nước đi tiếp theo để đạt được điểm số cao nhất.
2.2.2 Chiến lược học ban giám sát trong học máy
Học bán giám sát trong học máy cũng là một chiến lược dựa trên việc mở
rộng của phương pháp học truyền thống là Có giám sát và Không giám sát khi
mà dữ liệu dùng để huấn luyện mô hình bao gồm cả dit liệu có nhãn (labeled
ata) và không nhãn (unlabeled data) Day là một phương pháp dao tạo hiệu
quả mang ngữ cảnh thực tế khi mà chỉ tồn tại số ít dữ liệu có nhãn và lượng
lớn dữ liệu không gán nhãn Phương pháp học bán giám sát có khả năng xâyung bộ phân loại tốt hơn để bù đắp cho việc thiếu dữ liệu có nhãn nếu như mô
hình đã có đủ dữ liệu chưa có nhãn và dựa theo một số giả định nhất định vềphân phối dit liệu [2]; đạt được hiệu suất tốt cho giải quyết bài toán phân loại.Fhực tế thì việc xây dựng mô hình huấn luyện tốt từ quá trình khai thác bộ dit
liệu không gán nhãn có thể nói là không dễ dàng, do dữ liệu không gan nhãn
chỉ có ích khi mà nó là thông tin di liệu mang tính hữu dụng cho việc dự đoán
nhãn nếu như thông tin đó không tồn tại trong dữ liệu đào tạo có nhãn một
cách đơn độc hoặc là thông tin đó không dễ dàng phân tích, trích xuất Vì vậy,
để ứng dụng chiến lược học bán giám sát vào ngữ cảnh thực tế, yêu cầu thuậttoán phải có khả năng trích xuất thông tin
2.2.8 Mô hành Mang noron tích chập - CNN
Mô hình Mạng noron tích chập (tiếng Anh: Convolutional Neural Network CNN) là một kiến trúc phân tích, trích xuất dữ liệu có chiều sâu và khái quát
-hóa đặc điểm dữ liệu dựa vào việc tập hợp các lớp Tích chập (Convolution)chồng lên nhau Mạng tích chập có thể học các đặc điểm trừu tượng cao và cóthể xác định các đối tượng một cách hiệu quả, áp dụng vào các lĩnh vực khác
Trang 25nhau như phân loại hình ảnh, nhận diện đối tượng, nhận diện giọng nói, phươngtiện hay phát hiện các lưu lượng mạng đáng ngờ, Không giống như mô hình
Mạng noron nhân tạo truyền thống (ANN), các noron trong bất kì lớp cụ thể
nào của mô hình này sẽ chỉ kết nối với một vùng nhỏ của lớp trước nó Cau trúc
cơ bản của mô hình Mạng tích chập sẽ bao gồm 1 lớp đầu vào (input layer),
chồng các lớp tích chập (convolution layer) và lớp tổng hợp (pooling layer) để
trích xuất thuộc tính, 1 lớp kết nối đầy đủ (fully connected layer) cho phân loại,
Hình 2.3 tong quan hóa cấu trúc của mô hình Mạng noron tích chập CNN
Hn HHDD Input image \ mM
Convolutional Layer Pooling Layer
Hình 2.3: Tổng quát hóa mô hành CNN với các lớp khác nhau.
2.2.3.1 Lớp tích chập
Như tên gọi, Lớp tích chập đóng vai trò quan trọng trong trích xuất các đặc
điểm từ dit liệu đầu vào, nó sử dụng các bộ lọc, gọi là kernel, thực hiện phép
tích chập khi đưa bộ lọc này đi qua đầu vào theo các chiều của nó và tham chiếu
lên vùng đữ liệu đặc tính cụ thể đã ma trận hóa Nó thực hiện quét từ trái qua
phải, trên xuống dưới và nhân tương ứng từng giá trị của ma trận đặc tính đầuvào Kết quả đầu ra được gọi là feature map hay activation map Bộ lọc nàythường có kích thước chiều không gian nhỏ so với đầu vào, nhưng sẽ trải dọc
theo toàn bộ độ sâu của đầu vào Các lớp tích chập cũng có thể làm giảm đáng
kể độ phức tap của mô hình thông qua việc tối ưu hóa đầu ra của nó thông qua
ba siêu tham số của bộ lọc, kích thước bộ lọc (kernel size), độ trượt (stride) và
quá trình zero-padding.
Kích thước bộ lọc được biểu diễn là FrFrC, trong đó F,C lần lượt là kích
Trang 26thước 2 chiều (dài, rộng) và số kênh ứng với dữ liệu đầu vào Giả sử đối với dữ
liệu đầu vào là dạng ảnh RGB thì số kênh của biểu diễn ảnh là 3 và số kênh
của bộ lọc cũng là 3 Và khi thực hiện phép tích chập trên đầu vào kích thước
IxIxC sẽ cho ra một feature map có kích thước Óz@z1 Mỗi kernel cho ra là 1
ma trận nên với k kernel sẽ cho ra k feature map Ta kết hợp k feature map này lại thành 1 tensor 3 chiều có chiều sâu k.
Dộ trượt đối với phép tính chập hoặc phép pooling là giá trị dịch chuyển của
ma trận bộ lọc khi nó thực hiện phép tính tham chiếu xuống ma trận biểu diễnđặc tính Bộ lọc kernel sẽ di chuyển sang phải một giá trị trượt nhất định qua
các điểm ma trận cho đến khi nó đạt tới được chiều rộng phân tích hoàn chỉnh;
tiếp tục, nó đi chuyển xuống phần đầu bên trái của ma trận ảnh với cùng mộtgiá trị độ trượt và lặp lại quy trình cho đến khi toàn bộ ma tran biểu diễn dữliệu đặc tính được duyệt.
Zero-padding là quá trình đệm đường viền của ma trận biểu diễn đầu vàobằng số 0 và là một phương pháp hiệu quả để kiểm soát kích thước đầu rafeature map Bên cạnh phương pháp xác định giá tri padding thủ công, giá trịpadding valid và same cho phương pháp tự động cũng khá phổ biến
e valid: có nghĩa bộ lọc kernel được khởi tạo mà không sử dụng quá trình
đệm đường viền cho ma trận đầu vào Các bước tích chập cuối bị loại bỏnếu không khớp số chiều
same: các giá trị 0 sẽ được đệm vào đường viền của ma trận đầu vào sao cho
khi kernel thực hiện phép tích chập thì feature map đầu ra phải có cùng
số chiều với ma trận đầu vào Đó là lý do phương pháp này được gọi là
"same".
Hình 2.4 mô tả ma tran đầu ra feature map được sinh ra từ ma trận dữ liệu
5z5z1 tích chập với kernel có kích thước 3z3z1 có độ trượt stride = 1 và padding
= same Feature map có kích thước 3z3z1.
Trang 274|3|4 4]3]4
2/413 2|4|3
2|3 2|3|4
Hình 2.4: Quá trình thực hiện tích chập của ma trận đầu ào tà kernel 3x3
tao feature map
2.2.3.2 Lớp tổng hợp
Ỏ lớp tổng hợp, mô hình thực hiện giảm kích thước dữ liệu nhưng vẫn đảmbảo giữ được các thuộc tính quan trọng Ky thuật tổng hợp (pooling) nhằm mụcđích giảm dần số chiều của ma trận biểu diễn, từ đó giảm số lượng tham số và
độ phức tạp tính toán của mô hình Phép tổng hợp có thể có nhiều loại khácnhau như:
¢ Maxpooling: thực hiện chọn phan tử có giá trị lớn nhất trong khu vực mà
nó dang áp dung, bảo toàn được các đặc trưng nổi bật từ dữ liệu và được
sử dụng phổ biến Mô tả ở Hinh 2.5
¢ Averagepooling: tính trung bình giá trị của các phan tử trong khu vực mà
nó đang áp dụng.
¢ Sumpooling: tinh tổng giá trị của các phần tử trong khu vực mà nó đang
ấp dụng.
Trang 28đi vào lớp kết nối đầy đủ để kết hợp các đặc tính, phân loại và đưa đến kết quả
đầu ra cho mô hình Tuy nhiên, trước khi bước vào lớp này, ma trận biểu diễnđiểm dữ liệu trải qua Lớp làm phẳng (Flattening) để chuyển đổi dữ liệu thànhmảng dữ liệu một chiều cho đầu vào của lớp tiếp theo Có thể hiểu là lớp làmphẳng sẽ đặt tất cả dữ liệu vào một dòng và kết nối tới với lớp cuối cùng Trong
mô hình mạng noron tích chập, các tầng kết nói đầy đủ thường được tìm thấy
ở cuối mạng và được dùng để tối ưu hóa mục tiêu của mạng ví dụ như độ chínhxác của lớp Hình 2.6 trực quan hóa giai đoạn làm phẳng và kết hợp dữ liệu choquá trình phân loại.
Hành 2.6: Các điểm dữ liệu được làm phẳng thành mảng một chiều va là đầuuào cho Lớp kết nối đầu đủ cho phân loại
Trang 292.9.4 Phương pháp Chắt lọc trí thức
Chat lọc tri thức (tên Tiếng Anh: Knowledge distillation), là một dạng phươngpháp học truyền tải dữ liệu từ một hình lớn, phức tạp hơn đến các mô hình nhỏđơn giản hơn Mục tiêu là mô hình học viên (mô hình nhỏ đơn giản) sẽ bắt chướchành vi và dự đoán của người hướng dẫn (mô hình lớn), tận dụng kiến thức của
người hướng dẫn và cải thiện hiệu suất của mô hình Bên cạnh đó, việc đào tạo
trên các mô hình nhỏ thì sẽ cần ít thời gian huấn luyên cũng như hao tốn tài
nguyên giảm thiểu hơn Loại kiến thức, kỹ thuật chắt lọc và cấu trúc học tập
giữa người hướng dẫn và học viên đều đóng vai trò quan trọng trong quá trìnhchat lọc kiến thức Mô tả Hành 2.7 về 3 thành phần chính của phương pháp
Teacher Model
Student Model
Hình 2.7: Cấu trúc co bản của khung mô hành Chat lọc tri thúc: Dữ liệu kiến
thúc, Thuật toán chat lọc va cấu trúc liên hệ người hướng dẫn va học tiên [4]
Quá trình học tập Chắt lọc tri thức diễn ra theo các bước, đầu tiên mô hìnhhướng dẫn được huấn luyện với tập dữ liệu cung cấp, sinh ra dữ liệu phân phốicác nhãn "mềm" (softmax output) Các nhãn "mềm" này cung cấp thông tin
chỉ tiết hơn về các kết nối giữa các lớp khác nhau và cho phép mô hình học viên học hỏi từ tính chắc chan cũng như không chắc chắn của mô hình người hướng dẫn Và khi huấn luyện mô hình học viên cũng trên tập dữ liệu cung cấp
nhưng sử dụng các softmax output từ mô hình lớn để làm dữ liệu dự đoán cơ
sở Quá trình huấn luyện giữa 2 mô hình học viên và người hướng dẫn tập trung
vào giảm thiểu sự khác biệt của dự đoán đầu ra của học viên và nhãn "mềm"
Trang 30của người hướng dẫn bằng cách tính toán giá trị của Hàm mất mat (DistillationLoss) Tùy vào loại kiến thức dit liệu mà mô hình tiếp nhận, Hàm mat mát được
xây dựng theo các phương pháp khác nhau như sử dụng Cross-entropy loss,
Euclidean distance, Maximum mean discrepancy loss, [4] Hình 2.8 mô phỏng
cách thức hoc tập dự đoán đơn giản giữa 2 mô hình.
nó thu thập tất cả dữ liệu, bao gồm cả dit liệu mang tính riêng tư, trong quá
trình chia sẻ dữ liệu lên hệ thống trung tâm, và quá trình truyền dữ liệu trựctiếp từ các thiết bị đến các bên Vì vậy, việc rò rỉ thông tin là hoàn toàn có thểxảy ra [15] Với hy vọng khắc phục được vấn đề này, đào tạo mô hình ML một cách an toàn và hiệu quả, giải pháp mô hình Học liên kết đã được ra đời và vận
dụng Adam được đánh giá hiệu quả trong các mô hình yêu cầu bộ dữ liệu lớn,phức tạp với không gian tham số đa chiều
Trang 312.3.1 Tổng quan vé mô hành học liên kết
Mô hình Học liên kết ( Tiếng Anh: Federated learning - FL) - được khám pha
với ý tưởng có khả năng huấn luyện cục bộ từng mô hình riêng lẻ trên các thiết
bị đầu cuối và thực hiện chia sẻ mô hình này cho máy chủ để tạo nên một mô
hình chung trong khi vẫn giữ tất cả dit liệu đào tạo trên các thiết bị đó Minh
họa cho mô hình Học liên kết được thể hiện qua Hình 2.9, bao gồm K máy kháchlưu trữ dữ liệu của chính bản thân mình và một máy chủ để điều phối quá trìnhHọc liên kết Cụ thể, máy chủ sẽ gửi cho K máy khách một mô hình chung khởi
tạo Tiếp đến, mỗi thiết bị sẽ sử dụng mô hình chung đó và sử dung dữ liệuriêng huấn luyện mô hình của chính nó Sau đó, các mô hình cục bộ này sẽ được
gửi trên máy chủ Quá trình này sẽ liên tục được lặp lại trong mô hình học liên
kết cho đến khi tìm được mô hình chung có hiệu quả trên tất cả máy khách
Client 1 Client 2 Client K
Model Model Model Model Model Model
ny nis _
evalua-training | | "hon evalua-training | |“ evalua-training | | on
i I Ï I I
IData preprocessing [Data preprocessing IData preprocessing,
| |
Dataset from Dataset from | ` || Dataset from
device 1 device 2 device K
Data acquisition Data acquisition Data acquisition
| | a |
= 2 —
ip $ (0)
Device 4 Device 2 Device K
Hình 2.9: Mô tả kiến trúc của mô hành học liên kết thuan(8]
Trang 322.3.2 Các thuật toán tổng hợp mmô hành học liên kết
Thuật toán Tổng hợp trọng số đảm nhận vai trò quan trọng trong mô hình
Học liên kết khi mang nhiệm vụ chính trong việc tạo tương tác với máy chủ,
tạo ra mô hình tổng hợp bằng cách tổng hợp các trọng số từ tất cả các bản cập
nhật mô hình của thiết bị đầu cuối Khảo sát [7] đã đưa ra một quá trình phát
triển của các thuật toán học liên kết trong 6 năm (Hành 2.10)
Thuật toán FedAVG xuất hiện vào những năm đầu khi học liên kết xuất hiện
Đây là một thuật toán tổng hợp trọng số mô hình khá phổ biển hiện nay vì dễcài đặt Công thức dưới đây mô tả cách tổng hợp mô hình chung w, từ các mô
hình ø; được huấn luyện ở các máy khách như sau:
trong đó, N* là số điểm dit liệu của máy khách k, N là tổng số điểm dữ liệu
của tất cả các máy khách
Sau này, nhiều thuật toán tổng hợp khác ra đời với mục đích cải thiện những
hạn chế của học liên kết như tăng hiệu quả khi đào tạo đữ liệu phân phối khôngđồng nhất FedProx[1], giảm thiểu số vòng giao tiếp như FedMA[12] hay để tăngcường khả năng phòng thủ trước các loại tan công như LEGATO[II]
2.3.3 Dữ liệu phân phối không đồng nhất
Sự thành công của học liên kết gắn liền với việc hội tụ của mô hình chung.Tuy nhiên, các thiết bị loT có giới hạn về khả năng tính toán và độ trễ mạng
nên để đáp ứng kịp thời các cảnh báo về các cuộc tấn công để giải quyết vàngăn chặn cần đòi hỏi việc tối ưu hoá được số vòng giao tiếp để hội tụ mô hình
chung Do đó, độ chính xác của mô hình chung cần được cải thiện với số vònggiao tiếp tối ưu Song, trong thực tế, dữ liệu thường gặp tình trạng phân phối
Trang 33EPPDA FedBuff
Hình 2.10: Sự phát triển của thuật toán tong hợp trong 6 năm [7]
không đồng nhất (Non-iid) làm ảnh hưởng đến độ chính xác của mô hình chung
Lí do dẫn đến hiệu suất huấn luyện mô hình giảm là do sự phân chia các trọng
số ban đầu ở các máy khách hội tụ về các mô hình khác nhau từ việc phân phối
di liệu không đồng nhất ở các thiết bị cuc bộ
Về mặt lý thuyết, tập hợp mẫu dữ liệu được gọi là phân phối đồng nhất khi
nó thoả hai tính chất là có cùng phân phối và độc lập với nhau Cụ thể, phânphối giống hệt nhau chính là việc phân phối không có xu hướng tổng thể - phân
phối không biến động và tất cả các mục trong mẫu được lấy từ cùng một phânphối xác suất Còn độc lập có nghĩa là mỗi mẫu sẽ không có liên quan, không
ết nối với nhau dưới bất kỳ hình thức nào hay kiến thức về giá trị của một mẫu
chong cung cấp thông tin về giá trị của mẫu kia và ngược lại Ví dụ, một đồng
xu có 2 mặt, tung đồng xu này 10 lần, nếu lần đầu là mặt chin thì khi tung
an thứ 2, xác suất là mặt chan hoặc mặt lẻ là như nhau (0.5) và việc tung lần đầu là lần chấn không hề ảnh hưởng đến kết quả của lần tung thứ 2 Như vậy,
từ lý thuyết phân phối đồng nhất, ta có thể suy ra được lý thuyết về phân phối
hông đồng nhất chính là một tập hợp mẫu có phân phối khác nhau và không
độc lập (các mẫu dữ liệu có quan hệ phụ thuộc với nhan).
Theo tác giả Hangyu Zhu và các cộng sự từ công trình khảo sát non-iid [18]
Trang 34đã đưa ra phân loại non-iid từ không đồng nhất về thuộc tính, nhãn hay thờigian Sự không đồng nhất hay chênh lệch về thuộc tính là trường hợp khi phân
bố đặc tính ở các thiết bị (máy khách) là khác nhau hoàn toàn Hinh 2.11 minhhọa trường hợp tập dữ liệu thông tin người dùng bao gồm 2 máy khách chứa số
lượng đặc tính khác nhau lần lượt là 4 và 3 cho máy khách 1 và 2, đồng thời đặc tính (hay nhãn) của máy khách 1 và máy khách 2 không có bất kì mối liên
hệ nào (Tuổi tác, chiều cao - Giới tính, cân nặng).
Features
Age Height Name Sex Weight
( | Person A 24 178 1 Person A | Male 78
| Person B 61 165 0 | Person B | Female 64
) | Person C 44 182 1 PersonC | Male 89
Samples *) [person D 17 159 0 Person D | Female 52
| Person E il 137 1 PersonE | Male 36
Person F 33 171 0 Person F Female 60
y \fTM' \v
Client 1 Client 2
Hình 2.11: Minh hoa trạng thái non-tid trong trường hợp không dong nhất vé
thuộc tính Máy khách 1 bao gồm đặc tính tên, tuổi, chiều cao va nhãn, Máykhách 2 bao gồm đặc tinh tên, giới tính va cân năng [18]
Không đồng nhất về phân phối nhãn (một hoặc vài nhãn tồn tại ở thiết bị này
nhưng không tồn tại ở thiết bị khác) là một đạng non-iid khá phổ biến trong các
tập dữ liệu huấn luyện, nguyên nhân bắt nguồn từ sự khác biệt về vị trí của cácmáy khách lưu trữ cho cùng loại đữ liệu đào tạo cục bộ Sự mất cân bằng nhãn
được minh hoa qua tình huống mỗi máy khách hoặc nguồn dữ liệu sở hữu các
mẫu dữ liệu được phân loại thành các lớp nhãn cố định c Tham số e xác định
số lớp nhãn và ảnh hưởng đến mức độ mất cân bằng nhãn Nếu c nhỏ hơn, nó
biểu thị sự mất cân bằng nhãn mạnh hơn, trong khi e lớn hơn cho thấy sự mất
cân bằng nhãn ít nghiêm trọng hon Hinh 2.12 cho thay khả năng 2 máy khách truy cập vào mẫu dit liệu cố định 2 nhãn khác nhau, dẫn đến trong trường hợp
này máy khách | chứa 2 dữ liệu nhãn mà máy khách 2 không có và ngược lại.
Trang 35Ngoài ra, khong đồng nhất về phân phối nhãn còn bao gồm trường hợp sự mất
cân bằng về phân phối dit liệu (dữ liệu của một hoặc vài nhãn có thể chiếm ưu
thế hơn dữ liệu của các nhãn còn lại trên các thiết bị khác nhau), thường được
sinh ra từ hàm phân phối dữ liệu Dirichlet distribution [18].
bird deer frog ship
liệu được thu thập Chẳng han ở Hinh 2.12 mô tả thông tin về giá cổ phiếu mà
2 máy khách cùng thu thập được nhưng ở 2 thời điểm khác nhau là 60 tháng
đầu và 60 tháng sau
Client 1 recorded price Client 2 recorded price
—— Actual value —— Actual value
—— Rolling mean —— Rolling mean
Hình 2.13: Minh họa trạng thái non-iid trong trường hợp không đồng nhất vé
thời gian, 2 máu khách uới dé liệu cổ phiếu được thu thập trong 60 tháng đầu va
60 tháng cuối [18]
Trang 362.3.4 Tấn công đều độc mô hinh học liên kết
Dể chuẩn bị cho việc tấn công đầu độc mô hình SSFL tại Chương 3, chúng
tôi sử dụng bài khảo sát [14] của Geming Xia phát hành vào năm 2023 tại hội
nghị JEEE Access để có cái nhìn tổng quan hơn về các phương pháp tấn công
mô hình học liên kết.
Dựa vào phương pháp đầu độc, có thể chia thành hai phương pháp tấn công:
e Tan công đầu độc dữ liệu: dữ liệu được sử dụng để đào tạo mô hình cục
bộ là dữ liệu có nhãn Do đó, trong tấn công này, Geming Xia lại chia nó thành hai loại tấn công khác bao gồm: tấn công giữ nguyên nhãn và tấn
công lật nhãn.
Tan công giữ nguyên nhãn: tin tặc cỗ gắng chỉnh sửa di liệu theo cách nào
ó như thêm nhiễu vào dữ liệu hoặc chèn các dữ liệu giả vào tập dữ liệu
cục bộ gốc bằng cách sử dụng mạng sinh đối kháng (GAN)
Tấn công lật nhãn: là một loại tấn công dé thực hiện bao gồm tấn công thụ
Ong và tấn công chủ động Cụ thể, với tấn công thụ động, tin tặc có thé
lật toàn bộ dữ liệu nhãn 1 thành nhãn 0 Trong khi đó, tấn công chủ động tỉnh vi hơn Yiwei và cộng sự đã dùng khoảng cách giữa các lớp trích xuất
tính năng (softmax hay sigmoid) để tìm mục tiêu tối ưu Cong thức 2.1 tính
toán giá trị trung bình của các véc-td tính năng đầu ra của một lớp e cụ
thể Trong đó, |Dmal(c)| là số lượng các mẫu dit liệu thuộc lớp e trong tập
dữ liệu Dal, ó là hàm trích xuất tính năng Kẻ tan công tính toán khoảng cách euclean giữa nhãn gốc c và tất cả các nhán c’ còn lại theo công thức
2.2 để tìm ra nhãn ¿' có khoảng cách đến e là ngắn nhất Cuối cùng, lật tất
cả mẫu dữ liệu mang nhãn e thành c’.
1
Trang 37AD(e,e) = |lue = Helle (2.2)
e Tấn công đầu độc mô hình: Theo khảo sát chúng tôi nghiên cứu, phương
pháp đầu độc mô hình sẽ hiệu quả hơn các phương pháp khác trong mô
hình học liên kết vì nó tác động trực tiếp đến việc tổng hợp mô hình chung
Thém nhiễu vào trọng số mô hình là cách dé thực hiện nhất nhưng cũng dé
bi phát hiện Loại tấn công khác tinh vi hơn là kẻ tấn công cố gắng thaotúng quá trình cập nhật của mô hình chung Khi mô hình chung w;° đã hội
tụ thi near, (we — we") © 0 Dựa vào nguyên tắc này, kế tấn công có thểtìm cách thay đổi mô hình cue bộ để ngăn cản quá trình hội tụ của mô hìnhchung Ngoài ra, kẻ tấn công có thể đào tạo mô hình chung với dit liệu của
một nhãn duy nhất nhưng sử dụng hàm tối ưu mất mát khác với các mô
hình cục bộ lành tính.
Bên cạnh đó, Geming Xia cũng phân loại phương pháp tấn công dự trên mụcđích của kẻ tấn công thành ba loại như sau:
e Tấn công có mục tiêu: loại tấn công này rất khó để triển khai, kẻ tấn
công mong muốn làm giảm hiệu quả đến một phần của mô hình chung trongkhi các phần còn lại vẫn hoạt động bình thường
e Tan công bán mục tiêu: kẻ tấn công lật nhãn của các mẫu dữ liệu thành
nhãn khác Loại tấn công này có thể xảy ra trong thực thế giới trong các
tình huống khác nhau Ví dụ, kẻ tấn công gửi một email quảng cáo trai
phép nhằm mục đích có email được xác định là thuộc về một số loại lành
tính hơn là thư rác.
e Tan công không mục tiêu: kẻ tấn công cố gắng làm giảm hiệu suất của
mô hình chung trên tất cả các nhiệm vụ hoặc làm cho mô hình chung không
hội tụ được Phương pháp thêm nhiễu vào dữ liệu và mô hình cục bộ thuộc
loại tấn công này
Trang 38Dé chống lại tấn công đầu độc vào mô hình học liên kết, tác giả Geming Xiacũng tổng hợp các phương pháp phòng chống và nêu lên ưu, nhược điểm củacác phương pháp này như sau:
e Phân tích mô hình: phương pháp này giả định mô hình lành tính và mô
hình độc hại luôn có sự khác nhau đáng kể Có thể tìm kiếm sự tương đồng
thông qua việc tính toán khoảng cách euclean, cosine, k-means, hệ số tươngquan Pearson giữa các trọng số mô hình cục bộ Hay việc sử dụng thêm
một tap dữ liệu có nhãn tại máy chủ để phát hiện mô hình độc hại cũng
thuộc phương pháp phân tích mô hình Sau đó, có thể chia các mô hình cục bộ thành các nhóm khác nhau và tiến hành tổng hợp mô hình của mỗinhóm Vấn đề lớn nhất của phương pháp này chính là giả định số lượng
máy khách độc hại là rất nhỏ Phương pháp FLARE[13] được trình bàytrong phần 2.14 bị giảm hiệu quả phòng thủ khi số lượng máy khách vượt
qua 30%.
e Tổng hợp bền vững Byzantine: Phương pháp này sử dung một giá trị
ngưỡng và chỉ cho phép các mô hình cục bộ không vượt quá ngưỡng này
tham gia tổng hợp Tuy nhiên, phương pháp này không hoạt động tốt trên
dữ liệu phân phối không đồng nhất và đôi khi các mô hình lành tính cũng
vô tình bị cắt bỏ
2.3.5 Tổng quan vé phương pháp phòng thủ FLARE
Chúng tôi trình bày FLARE (Federated Learning Latent Space
Representa-tion) trong một phần riêng biệt với các phương pháp đã nêu ở phần 2.3.4 vì ýtưởng xây dựng phương pháp phòng chống lật nhãn cho SSFL dựa vào phương
pháp này.
Hành 2.14 mô tả mô hình học liên kết bền vững chống lại tấn công đầu độc
mô hình với phương pháp FLARE tại nghiên cứu [13] Tap dit liệu phụ trợ
(Auxiliary data) có số lượng mẫu nhỏ và thuộc về một nhãn Sau nhận được các
Trang 39mô hình cục bộ, trước khi trích xuất lớp PLRs, máy chủ sẽ dùng các mô hình
cục bộ đào tạo với tập dữ liệu phụ trợ, điều này làm tăng khả năng các mô hình
lành tính tuân theo một phân bồ
Parameter Server
SofiMax Function Auxiliary
Data ‘Aggregate model parameter 5updates Weighted by their |@) 015
5| 001
1D | Gant
CaleusteMMD | @{ Find tne Nearest }® [1s
between each pair of | —>| Neighbor of each [>|
local models local model lãi lầu
Hình 2.14: Mô hành học liên két bền vitng chóng lại tan công dau độc mô hành
uới phương pháp FLARE
Tiếp theo, máy chủ tính toán khoảng cách MMD (Maximum Mean
Discrep-ancy) của từng cặp PLRs R; và R; của toàn bộ mô hình cục bộ Công thức 2.3
mô tả cách tính khoảng cách MMD.
ach; bcR,,b#a a€ R; bcR;,b#a ch bcR;,b#a
(2.3)
FLARE tiến hành xây dựng một bảng đếm số lần xuất hiện trong 50% hang
xóm gần nhất của các mô hình cục bộ dựa trên khoảng cách MMD vừa tính
Với mỗi lần xuất hiện trong danh sách hàng xóm gần nhất của một mô hình cục
bộ w; nào đó, mô hình wy, giá trị đếm ct; sẽ đang lên 1 Cuối cùng, bác giả sử
dung ham softmax để chuyển giá trị đếm thành điểm tin cậy (có tổng bằng 1)
Cuối cùng, máy chủ tổng hợp mô hình toàn cầu theo điểm tin cậy của mỗi
mô hình cục bộ theo công thức Công thúc 2.4
Trang 40ws C ws + ` $55; (2.4)
i=l
Hình 2.15 mô tả kết quả khi sử dụng FLARE chống lai tấn công đầu độc môhình với tập dữ liệu fNMIST dựa trên chỉ số ASR - tỉ lệ thành công của tấncông trên tổng các thực nghiệm đã chạy Trong đó, hỳnh 2.15(a), tác giả thực
nghiệm với nhiều số lượng máy khách khác nhau nhưng cố định 10% máy khách độc hại tồn tại trong toàn bộ máy khách Kết quả cho thấy các trường hợp không phòng thủ (màu vàng) có chỉ số ASR cao, còn các trường hợp có phòng thủ (màu xanh) có chỉ số ASR xấp xỉ 0 Bên cạnh đó, tác giả cũng thực nghiệm
mô hình với một số lượng máy khách có định và thay đổi tỉ lệ máy độc hại Kếtquả ở hành 2.15(b) cho thấy FLARE biểu hiện tối nhất với trường hợp số máy
Hinh 2.15: Két qua thực nghiệm của mô hành FLARE trên tập dữ liệu MNIST
Sau quá trình nghiên cứu phương pháp này, chúng tôi nhận thấy rằng FLARE
không cố gắng tìm kiếm và loại bỏ các máy khách độc hại ra khỏi quá trình đào
tạo, thay vào đó, FLARE làm giảm sự ảnh hưởng của các máy khách độc hạitrong bước tổng hợp mô hình chung, mô hình cục bộ có điểm tin cậy thấp sẽ