1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp An toàn thông tin: Mô hình cộng tác phát hiện mã độc bền vững sử dụng học liên kết và chiến lược học bán giám sát

109 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Mô hình cộng tác phát hiện mã độc bền vững sử dụng học liên kết và chiến lược học bán giám sát
Tác giả Nguyen Thi Thu, Ngo Thao Nguyen
Người hướng dẫn ThS. Nghi Hoang Khoa
Trường học Trường Đại học Công nghệ Thông tin - Đại học Quốc gia Thành Phố Hồ Chí Minh
Chuyên ngành An Toàn Thông Tin
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2023
Thành phố Thành Phố Hồ Chí Minh
Định dạng
Số trang 109
Dung lượng 33,98 MB

Nội dung

Phương pháp phát hiện mã độc sử dung học liên kết kết hợp chiếnude học bán giám sát trong nghiên cứu [17] Học liên kết Federated Learning Học máy Machine Learning Hệ thống tìm kiếm, phát

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA MẠNG MÁY TÍNH VÀ TRUYỀN THÔNG

NGUYEN THỊ THU - 19522307

NGO THAO NGUYEN - 19520183

A ROBUST FEDERATED MALWARE DETECTION SYSTEM USING FEDERATED LEARNING AND SEMI SUPERVISED

LEARNING APPROACH

KY SU NGANH AN TOAN THONG TIN

GIANG VIEN HUGNG DAN:

ThS Nghi Hoàng Khoa

TP.H6 Chi Minh - 2023

Trang 2

Để hoàn thành khóa luận tốt nghiệp này, chúng tôi xin gửi lời cảm ơn đến

Ban giám hiệu Trường Đại hoc Công nghệ Thông tin - Đại học Quốc Gia ThanhPhố Hồ Chí Minh vì đã tạo điều kiện học tập, nghiên cứu tốt nhất Cảm ơnquý thầy cô giảng dạy tại trường nói chung và Khoa Mạng máy tính Truyền

thông nói riêng vì đã truyền đạt những kiến thức chuyên môn bổ ích, những

kinh nghiệm thực tế quý báu mà chúng tôi đã học hỏi được trong suốt quá trình

học tập, rèn luyện tại trường.

Trong quá trình nghiên cứu và hoàn thành khóa luận, nhóm đã nhận được

sự định hướng, giúp đỡ, các ý kiến đóng góp quý báu và những lời động viêncủa các giáo viên hướng dẫn Nhóm xin bày tỏ lời cảm ơn tới thầy Nghi HoàngKhoa đã tận tình trực tiếp hướng dẫn, giúp đỡ trong quá trình nghiên cứu

Tuy nhiên, trong quá trình thực hiện khóa luận do kiến thức chuyên ngành

của nhóm còn hạn chế nên không thể tránh khỏi một vài thiếu sót khi trình bày

và đánh giá vấn đề Rất mong nhận được sự góp ý, đánh giá của các thầy cô để

đề tài của chúng em thêm hoàn thiện hơn

Nguyễn Thị Thu Ngô Thảo Nguyên

Trang 3

MUC LUC

MỤC LUC 0.0 Sốc ii

DANH MỤC CAC KÝ HIỆU, CÁC CHU VIET TAT v

DANH MỤC CÁC HÌNH VẼ vii

DANH MUC CAC BANG BIEU xi

TOM TAT KHÓA LUẬN 1

CHƯƠNG 1 TONG QUAN 2 11 Giới thiệu van đỀ ee 2 1.2 Giới thiệu những nghiên cứu liên quan 3

1.3 Tinh ứng die mưa“ =tEE.j / 4

1.4 Những thách thức ee ee 4 1.5 Mục tiêu, đối tượng, và phạm vi nghiên cứu 4

5.1 Mục tiêu nghiên đỨu ẶẶ ee 4 5.2 Đối tượng nghiên ctu ee 5 5.3 Phạm vi nghiên đỨU 2.2.0.0 0200200048 5 5.4 Cau trúc khóa luận tốt nghiệp - 5

CHƯƠNG 2 CƠ SỞ LÝ THUYET 7 2.1 Giới thiệu chung về mã độc 2 eee 7 2.2 Mô hình học máy 0000 00000 8 2.2.1 Tổng quan về mô hình hoc máy 8

2.2.2 Chiến lược học bán giám sát trong hoc máy 11

2.2.3 Mô hình Mạng noron tích chap- CNN 11

2.2.4 Phương pháp Chat lọc trithức 16 2.3 Mô hình học lên kết ee 17

Trang 4

2.3.1 Tổng quan về mô hình hoc liên kết

2.3.2 Các thuật toán tổng hợp mô hình học liên kết

2.3.3 Dữ liệu phân phối không đồng nhất

2.3.4 Tấn công đầu độc mô hình hoc liên kết

2.3.5 Tổng quan về phương pháp phòng thủ FLARE

Các chỉ số đánh giá mô hình

PT ^^ 6H

2.4.2 Confusion MatriXx TQ He 2.4.3 Precision, Recall, Fl-Score

2.4.4 Macro Average, Micro Average, Weighted Average

CHƯƠNG 3 MO HÌNH VÀ PHƯƠNG PHAP THỰC HIỆN 3.1 3.2 3.3 3.4 Mô hình cộng tác phát hiện mã độc giữa học liên kết và chiến lược bán giám sát (SSFL)

Tan công đầu độc mô hình SSFL

Ý tưởng về phương pháp phòng thủ chống lại tấn công lật nhãn Chi tiết mô hình cộng tác phát hiện mã độc bền vững dựa trên SSFL (RobustSSFL)

CHƯƠNG 4 THÍ NGHIEM VA DANH GIÁ 4.1 4.2 Thiết lập thí nghiệm CỐ Ặ 4.11 Môi trường thí nghiệm

41.2 Tiền xử lý dữ liệu Q Q ee 41.3 Mô hình học máy CNN

4.1.4 Các tham số liên quan và chỉ số đánh giá

Kết quả thí nghiệm ẶẶ.VC 4.2.1 Hiệu năng của SSFL khi chưa bị tan công

4.2.2 Tỉ lệ máy khách độchại

4.2.3 Trường hợp phân bố dữ liệu 2 của tap dữ liệu NBaloT 4.2.4 Trường hợp tập dữ liệu khác - CICIDS2017

30

32

32 35 38

39

Trang 5

4.2.5 Trường hợp khi không có tấn công 61

4.3 Thaoluan 0 00000000 pee ee 65

CHƯƠNG 5 KET LUẬN 68

TÀI LIỆU THAM KHẢO 70

PHỤ LỤC A.MA TRẬN CỦA CÁC TRƯỜNG HỢP THỰC

NGHIỆM PlA.1 Trường hợp phan phối dữ liệu 1 - NBaloT với ty lệ máy khách

độc hại khác nha z7 @0£”"{› - P2

A11 Tile Ol @£7 À P2 A12 TilA6TO «œ «®œ& \ / P5

A.13 Tỉilệ20% 0 ee P§ A.14 TH 257M 0 GÀ / Pll

A.2 Trường hợp phân phối dữ liệu 2- NBaloT P14A.3 Trường hợp phân phối dữ liệu 3 - CICIDS2017 P18

A.4 Trường hợp RobustSSFL khi không tấn công P22

Trang 6

Phương pháp phát hiện mã độc sử dung học liên kết kết hợp chiến

ude học bán giám sát trong nghiên cứu [17]

Học liên kết (Federated Learning)

Học máy (Machine Learning)

Hệ thống tìm kiếm, phát hiện và ngăn chặn xâm nhập (Intrusion

Detection and Prevent System)

Phương pháp chống lai tấn công đầu độc mô hình trong hoc liên

ết thuần (Federated LRarning LAtent-space REpresentation) Lớp áp cuối (Penultimate Layer Representation)

Số máy khách tham gia vào quá trình đào tạo

[ong số điểm dữ liệu của tất cả máy kháchTổng số nhãn trên toàn bộ dữ liệu

Ham tính khoảng cách MMD (Maximum Mean Discrepancy)

Trọng số lớp áp cuối (PLR) của mô hình

Số điểm dữ liệu của tập dit liệu phụ trợ (Auxiliary data) sử dung

rong FLARE -

[ap hợp của r, Ï = r1,?2, , mạ

Trọng số mô hìnhTap hợp trong số của các máy khách

Ham Gaussion kernel

Trong số mô hình cập nhật của máy khách i

p dit liệu có nhãn riêng của máy khách k

Trang 7

Mô hình phân loại nhãn của máy khách k

Nhãn của bộ dữ liệu ở tập D;,e

Nhãn của dit liệu tập 2; do mô hình phan loại dự đoán

Ham mất mát (loss function)

Tóc độ hoc (learning rate)

Mẫu dữ liệu thứ j của tap dữ liệu công khai

Diểm tin cậy của nhãn dự đoán do mô hình phân loại thực hiệnGiá trị ngưỡng để phân biệt dữ liệu "quen thuộc" và "không quenthuộc"

Tập dữ liệu "không quen thuộc"

Mô hình bộ phân biệt của của máy khách k

Véc-tơ nhãn dự đoán được thực hiện bởi bộ phân biệt của tập dữ liệu mở

Nhãn cứng của của mẫu dữ liệu 7 thuộc bộ dữ liệu mở với máy

khách k

Ham tính khoảng cách Hamming

Giá trị ngưỡng để xác định hàng xóm gần nhất

Danh sách hàng xóm gần nhất của máy khách k

Số phiếu hay điểm tin cậy của máy khách k

Nhãn mà máy khách k bỏ phiếu trong bộ bỏ phiếuV#9,V21, ,V2#~! cho mẫu dit liệu 7 thuộc tập dữ liệu công khai

Số máy khách tham gia bỏ phiếu, L < K

Số máy khách bỏ phiếu cho nhãn ứng cử viên e

Tập hợp các ứng cử viên tham gia bỏ phiếu M =

unique(Vi8, Vit, VIEL) và |[Mf|| là số phần tử của M

Tap nhãn cứng sau bỏ phiếu

Tap nhãn dự đoán trong giai đoạn chat lọc kiến thức

Trang 8

DANH MUC CAC HINH VE

12.1 Lược đồ biểu diễn điểm của mô hình SVM (bên trái) và mô

hình Hồi quy tuyến tính (bên phải)

12.2 Lược đồ biểu diễn phân cụm

h 2.3 Tổng quát hóa mô hình CNN với các lớp khác nhau

h 2.4 Quá trình thực hiện tích chập của ma trận đầu vào và kernel

3x3 tao featuremap e8hẽ8

h 2.5 Phép tong hợp thực hiện bằng cách chọn ma trận biểu diễn

2x2 /#⁄⁄ 46/0 — \:: E

h2.6 Các điểm dữ liệu được làm phẳng thành mang một chiều và

là đầu vào cho Lớp kết nối day đủ cho phân loại inh 2.7 Cấu trúc co bản của khung mô hình Chat lọc tri thức: Dữ

liệu kiến thức, Thuật toán chắt lọc và cấu trúc liên hệ người hướng

dẫn và học viên [4| ẶẶằ.

ình 2.8 Cơ chế học tap đơn giản của phương pháp chat lọc tri thức

Wo ee

inh 2.9 Mô tả kiến trúc của mô hình học liên kết thuan[8]

ình 2.10 Sự phát triển của thuật toán tổng hợp trong 6 năm [7]

ình 2.11 Minh họa trạng thái non-iid trong trường hợp không đồng

nhất về thuộc tính Máy khách 1 bao gồm đặc tính tên, tuổi, chiều

cao và nhãn, Máy khách 2 bao gồm đặc tính tên, giới tính và cân

Trang 9

nh 2.13 Minh hoa trạng thái non-iid trong trường hợp không đồng

nhất về thời gian, 2 máy khách với dữ liệu cổ phiếu được thu thập

trong 60 tháng đầu va 60 tháng cuối [I§|

h 2.14 Mô hình học liên kết bền vững chống lại tấn công đầu độc

mô hình với phương pháp FLARE

h 2.15 Kết quả thực nghiệm của mô hình FLARE trên tập dữ liệu

h 2.16 Minh hoa Confusion matrix cho bài toán Nhãn nhị phân va bài toán Đa nhãn Q.0 Q Q Q Q k.

h3.1 Sơ đồ tổng quan về mô hình SSFL được đề xuất ở công trình

(17) 1 er Pm ee

h 3.2 Tấn công lật nhãn tại nhãn của bộ di liệu có nhãn riêng tư

trên máy khách ee

ì 3.3 Mô hình phát hiện mã độc bền vững RobustSSFL

h 4.1 Mô tả sự phan phối dữ liệu của tap dữ liệu NBaloT trong

trường HÔI “Si Se OF /.£

-h 4.2 Mô tả sự p-hân p-hối dữ liệu của tập dữ liệu NBaloT trong

h 4.3 Mô tả sự phân phối dữ liệu của tap dữ liệu CICIDS2017

(trường hợp 3) ko

h4.4 Ma trận lỗi sau khi đào tạo SSFL đối với dữ liệu trường hợp

1(a) và trường hợp 2(b) của tập dữ liệu NBaloT và trường hợp

(c) của tập dữ liệu CICIDS2017

h4.5 Kết quả so sánh hiệu năng mô hình SSFL không bị tấn công

với 4 kiểu tấn công phụ thuộc vào tỉ lệ máy khách độc hai

h 4.6 Mức độ hiệu qua mô hình RobustSSFL với ngưỡng 7 xác

định ở trường hợp lật nhãn sang 0 ở 2 vị trí tấn công (a) nhãn

"cứng" và (b) tap nhãn riêng tư

Trang 10

n 4.7 Mức độ hiệu quả mô hình RobustSSFL với ngưỡng 7 xác

định ở trường hợp lật nhãn ngẫu nhiên ở 2 vị trí tấn công (a)

nhãn "cứng" và (b) tập nhãn riêng tư

h4.8 Tổng tỉ lệ nhãn tấn công bị dự đoán là nhãn lành tính trong

các trường hợp tấn công và phòng thủ với tỉ lệ máy khách độc

hại khác nhau trong ma trận lỗi .

h 4.9 Tỉ lệ nhãn tấn công bị dự đoán là nhãn lành tính trong các

trường hợp tấn công (Attack) và phòng thủ (Def0.5, DefMean,

Def0.8Mean) với dữ liệu trường hợp 2 NBaloT từ ma trận lỗi

h 4.10 Tỉ lệ nhãn tấn công bị dự đoán là nhãn lành tính trong

các trường hợp không bị tấn công (NoAttack), tấn công (Attack)

và phòng thủ ((Def0.5, DefMean, Def0.8Mean)) với tập dữ liệu

h A.3 Ma trận lõi RobustSSFL của trường hợp dit liệu 1 - NBaloT

hi bị tấn công lật nhãn của dữ liệu riêng với tỉ lệ 10%

h A.4 Ma trận lỗi SSFL của trường hợp 1 - NBaloT khi tấn cong

At nhãn với tỉ lệ 15% Ốc So

h A.5 Ma trận lỗi RobustSSFL của trường hợp dữ liệu 1 - NBaloT

hi bị tấn công lật nhãn "cứng" với tỉ lệ 15%

hA.6 Ma trận lỗi RobustSSFL của trường hợp dữ liệu 1 - NBaloT

hi bị tấn công lật nhãn của dữ liệu riêng với tỉ lệ 15%

h A.7 Ma trận lỗi SSFL của trường hợp 1 - NBaloT khi tấn công

at nhãn với tỉ lệ 20% QC

hA.8 Ma trận lỗi RobustSSFL của trường hợp dữ liệu 1 - NBaloT

hi bị tấn cong lat nhãn "cứng" với tỉ lệ 20%

63

P3

Trang 11

n A.9 Ma trận lỗi RobustSSFL của trường hợp dữ liệu 1 - NBaloT

hi bi tấn công lật nhãn của dữ liệu riêng với tỉ lệ 20%

h A.10 Ma trận lỗi SSFL của trường hợp 1 - NBaloT khi tấn công

At nhãn với tỉ lệ 25% 2.0.2.0 000022000000.

h A.11 Ma trận lỗi RobustSSFL của trường hợp dữ liệu 1 - NBaloT

hi bi tấn công lật nhãn "cứng" với tỉ lệ 25%

h A.12 Ma trận lỗi RobustSSFL của trường hợp dữ liệu 1 - NBaloT

hi bị tấn công lật nhãn của dữ liệu riêng với tỉ lệ 25%

h A.13 Ma trận lỗi của trường hợp dữ liệu 2 - NBaloT khi bị tấn

công lật nhãn "cứng" sang Ú ee

h A.14 Ma trận lỗi của trường hợp dữ liệu 2 - NBaloT khi bị tấn

công lật nhãn "cứng" ngẫu

nhiên -h A.15 Ma trận lỗi của trường nhiên -hợp dữ liệu 2 - NBaloT knhiên -hi bị tấn

công lật nhãn của dữ liệu riêng sang Ú

h A.16 Ma trận lỗi của trường hợp dữ liệu 2 - NBaloT khi bị tấn

công lật nhãn của dữ liệu riêng ngẫu nhiên

h A.17 Ma trận lỗi của trường hợp dữ liệu CICIDS2017 khi bị tấn

công lật nhãn "cứng" sang0 2.2 2 ee ee ee

nh A.18 Ma tran lỗi của trường hợp dữ liệu CICIDS2017 khi bi tấn

công lật nhãn "cứng" ngẫu nhiên

h A.19 Ma trận lỗi của trường hợp dữ liệu CICIDS2017 khi bị tấn

công lật nhãn của dữ liệu riêng sang Ú

h A.20 Ma trận lỗi của trường hợp dữ liệu CICIDS2017 khi bị tan

công lật nhãn của dữ liệu riêng ngẫu nhiên

h A.21 Ma trận lỗi của trường hợp 1 - dữ liệu NBaloT khi áp dụng

Trang 12

Hình A.23 Ma trận lỗi của trường hợp 3 - dit liệu CICIDS2017 khi áp

dụng mô hình RobustSSFL P24

Trang 13

DANH MUC CAC BANG BIEU

Bảng 4.1 Số lượng mẫu dữ liệu lành tinh và các tấn công trong bộ

dit liệu thực tế NBaloT ào

Bảng thể hiện chi tiết về các lớp của mô hình CNN day đủ

Bảng thể hiện chỉ tiết về các lớp của mô hình CNN tuỳ chỉnh

Bảng thể hiện các tham số được cài đặt trong thực nghiệm

Hiệu năng của SSFL với 3 trường hợp phân phối dữ liệuđồng nhất sau 100 vòng

Bang so sánh hiệu năng giữa SSFL và RobustSSFL khi bi

ng với các ngưỡng 7 khác nhau trong trường hợp 2 NBaloT.

Bang so sánh hiệu năng giữa SSFL và RobustSSFL khi bị

tấn công với các ngưỡng r khác nhau trong tập dữ liệu CICIDS2017.

Bang so sánh hiệu năng giữa SSFL và RobustSSFL với các

g 7 khác nhau trong 3 trường hợp dữ liệu khi không bị tan

50 51 51

53

60

62

Trang 14

Trong những năm trở lại đây, chứng kiến sự phát triển mạnh mẽ của công

nghệ mạng Kết nối vạn vật (Internet of Things - IoT), bằng khả năng tính toán

và cảm biến, IoT được mong chờ sẽ kết nối mạng lưới rộng lớn các đối tượng và

sự vật trong mạng Internet, cung cấp điều kiện thuận lợi trong ứng dụng và dịch

vụ phục vụ đời sống con người Để ngăn ngừa rủi ro bảo mật thông tin riêng tưcũng như các vụ tấn công mã độc vào các thiết bị mạng có thể gây ra lây nhiễm

ở quy mô lớn, nhiều nghiên cứu đã đề xuất lựa chọn mô hình học liên kết thaythé mô hình hoc máy [3] [10]

Sau quá trình nghiên cứu mô hình phát hiện mã độc áp dụng học liên kết kếthợp chiến lược học bán giám sát của Ruijie Zhao [17], chúng tôi nhận thấy đây

là phương pháp có thể khắc phục nhiều điểm yếu của Học liên kết truyền thống

như di liệu không đồng nhất, sự suy ngược dữ liệu riêng tư trong quá trình trao

đổi trọng số mô hình, chi phí truyền thông cao do kích thước mô hình lớn gâycản trở lớn cho việc triển khai giải pháp thực tế Điểm đặc biệt của mô hìnhnày là máy chủ và các máy khách trao đổi nhãn Mặt khác, điều này lại gây ra

một bề mặt tấn công lật nhãn dé dang từ phía các máy khách độc hại

Trong đề tài này, chúng tôi đề xuất mô hình phát hiện mã độc bền vững

(RobustSSFL) dựa trên SSFL có thể chống lại tấn cong lật nhãn Bên cạnh đó,

chúng tôi đánh giá mức độ hiệu quả của mô hình bền vững này dưới các kịchbản khác nhau như số lượng máy khách độc hại khác nhau tham gia vào môhình và dữ liệu phân phối không đồng nhất với sự phân bố dữ liệu khác nhaucũng như ảnh hưởng của phương pháp này với mô hình gốc khi không có tấn

công Cuối cùng, chúng tôi sẽ kết luận và chỉ ra các ưu, nhược điểm của mô hình

này.

Trang 15

Trong chương này, chúng tôi xin trình bày về lý do chọn đề tài Đồng thờiđưa ra mục tiêu, phạm vi nghiên cứu, cũng như cấu trúc của khóa luận.

1.1 Giới thiệu van dé

Mã độc là một trong những mối đe dọa ngày càng phổ biến và nguy hiểm

trong lĩnh vực công nghệ thông tin Việc tấn công và xâm nhập vào hệ thống

máy tính thông qua mã độc có thể gây ra những hậu quả nghiêm trọng, từ mấtthông tin quan trọng đến việc chiếm quyền kiểm soát hệ thống Do đó, việcnghiên cứu và phát triển các phương pháp phát hiện và ngăn chặn mã độc là

cực kỳ cần thiết

Học liên kết là phương pháp mạnh mẽ để tăng cường khả năng phát hiện mã

độc Thay vì phải thu thập tất cả di liệu tập trung tại một máy chủ, học liên

kết cho phép tổng hợp thông tin từ nhiều nguồn khác nhau để tạo ra một cái

nhìn toàn điện và đa chiều về hệ thống Bên cạnh đó, việc 4p dụng chiến lượchoc bán giám sát trong hệ thống phát hiện mã độc góp phan làm tăng hiệu suất

hệ thống, cải thiện các hạn chế từ học liên kết như dữ liệu không đồng nhất[17] Đặc biệt, sự kết hợp này giúp tiết kiệm chi phí, đầu tiên là chi phí truyềnthông (số vòng giao tiếp), tiếp theo là chi phí duy trì hệ thống vì với chiến lượchoc bán giám sát, ta chỉ can một lượng nhỏ dữ liệu có gắn nhãn

Tấn công lật nhãn là một loại tấn công phổ biến và dễ dàng thực hiện Đặc

biệt, đối với mô hình học liên kết nói chung và mô hình học liên kết có sự kết

hợp của chiến lược học bán giám nói riêng, các máy khách độc hại tham gia

đóng góp vào quá trình đào tạo có thể dễ dàng phá huỷ mô hình chung (nhãnchung) khi không có bất kỳ phương pháp phòng thủ nào Do đó, việc đề xuất

Trang 16

phương pháp phòng chống lật nhãn là một bước quan trọng trong việc đảm bảo

an ninh hoc may.

1.2 Giới thiệu những nghiên cứu liên quan

Valerian Rey đã chỉ ra hiệu quả của việc sử dụng phương pháp học liên kết

là không thua kém so với việc sử dụng học máy tập trung truyền thống[S| Tuy nhiên, phương pháp này không đề cập đến việc tác động của dữ liệu phân phối không đồng nhất ảnh hưởng đến hiệu quả của học liên kết.

Học liên kết cũng giả định việc gửi trọng số mô hình có thể đảm bảo quyền

riêng tư về dữ liệu Ligeng Zhu đã đặt ra câu hỏi liệu chúng ta có thể đánh cắp

dữ liệu từ trọng số mô hình không và đề xuất phương pháp [19] để thực hiện

công việc đó Ngoài ra, số lượng các thiết bị loT cần tải trọng số lên máy chủ

dẫn đến chỉ phí truyền thông đắt hơn Và để khắc phục hai hạn chế này, phương

pháp học liên kết dựa trên chất lọc kiến thức [5](FL-DS) được đề xuất Phương

pháp này trao đổi nhãn nên giảm thiểu được chi phí truyền Tuy nhiên, hiệu

quả của FL-DS cũng bị giảm khi áp dụng vào đào tạo dữ liệu không đồng nhất.

Với mong muốn đề xuất một phương pháp có thể khắc phục được cả ba hạn

chế trên trên, Ruijie Zhao và các cộng sự đã đề xuất mô hình học liên kết kết

hợp chiến lược học bán giám sát để phát hiện mã độc (SSFL) dựa trên FL-DS

Qua quá trình thực nghiệm SSFL, tác giả đã cho thấy sự hiệu quả của SSFL

qua nhiều trường hợp phân phối dữ liệu không đồng nhất cũng như hiệu quảtrong việc tiết kiệm chi phí truyền thông so với các phương pháp khác

Tương tự FL-DS, SSFL trao đổi nhãn Và việc này tạo ra một bề mặt tấn

công lật nhãn dễ dàng cho kẻ tấn công Hơn nữa, phần lớn các nỗ lực hiện tạitrong việc chống lại tấn công lật nhãn đều dựa trên trọng số mô hình vì việc

trao đổi trọng số mô hình nằm trong nhiều kiến trúc học liên kết Do đó, trong

đề tài này, chúng tôi sẽ tập trung nghiên cứu, đề xuất mô hình RobustSSFL cókhả năng chống lại tấn công lật nhãn

Trang 17

Tấn công lật nhãn là một loại kỹ thuật phổ biến và khá dễ dàng trong việcthực hiện Trong lĩnh vực phát hiện mã độc, việc xác định một tập dữ liệu đượcgắn nhãn đúng là rất quan trọng để huấn luyện mô hình Đề tài này sử dụng tập

di liệu mạng của các thiết bị bị nhiễm mã độc trong thực tế với các trường hợp

phân phối không đồng nhất (non-iid) để đánh giá hiệu quả của mô hình phát

hiện mã độc bền vững RobustSSFL trong nhiều trường hợp khác nhau đảm bảotính đúng đắn, khách quan khi đánh giá phương pháp này

1.4 Những thách thức

Hiện nay, theo như chúng tôi tìm hiểu được, do đa phần các mô hình họcliên kết sẽ trao đổi mô hình nên có rất nhiều nghiên cứu đề xuất phương pháp

phòng thủ dựa trên trọng số mô hình Trong khi đó mô hình chúng tôi nghiên

cứu trao đổi nhãn Nhãn có đặc tính rất khác với trọng số mô hình, kẻ tấn công

có thể tấn công lật nhãn ngẫu nhiên với nhiều cách khác nhau Phương phápcủa chúng tôi phải dựa vào một giá trị ngưỡng để tính toán mức độ tin cậy của

một máy khách, do đó, việc phải tìm ra ngưỡng phù hợp với tất cả các trường hợp rất khó, đôi khi ngưỡng này hiệu quả với trường hợp này, không hiệu quả

với trường hợp khác Bên cạnh đó, với từng kiểu phân bố dữ liệu khác nhau (dữ

liệu không đồng nhất), khi số lượng máy khách độc hại tham gia đào tạo càng

cao, hiệu quả của phương pháp phòng thủ sẽ giảm dần

1.5 Mục tiêu, đối tượng, và phạm vi nghiên cứu

1.5.1 Mục tiêu nghiên cứu

Báo cáo hướng tới các van đề:

Trang 18

e Triển khai lại mô hình học liên kết kết hợp chiến lược học bán giám sát (SSFL) theo nghiên cứu [17].

e Dầu độc mô hình đã xây dựng bằng phương pháp lật nhãn và khảo sát sự ảnh hưởng của số lượng máy khách độc hại đến hiệu quả của mô hình.

e Tìm hiểu và triển khai phương pháp bảo vệ mô hình trước các máy khách

độc hại để xây dựng mô hình RObustSSFL và tiến hành đánh giá độ hiệu

quả của phương pháp đã thiết kế

1.5.2 Đối tượng nghiên cứu

Đối tượng nghiên cứu bao gồm:

e Mô hình học liên kết

e Chiến lược học bán giám sát trong mô hình học liên kết

e Các phương pháp tấn công và phòng thủ trong mô hình học liên kết

e Tập dữ liệu từ những thiết bị bị lây nhiễm mã độc thực tế

e Thư viện hỗ trợ máy học tensorflow, keras.

1.5.3 Pham vi nghiên cứu

Tìm hiểu cơ chế hoạt động của mô hình SSFL[17] Nghiên cứu, tim hiểu các

phương pháp tấn công và phòng chống trong học liên kết Áp dụng kiến thức

tìm hiểu được, đề xuất mô hình RobustSSFL chống lại tấn công lật nhãn

1.5.4 Cấu trúc khóa luận tốt nghiệp

Chúng tôi xin trình bày nội dung của Khóa luận theo cấu trúc như sau:

« CHƯƠNG 1: TONG QUAN DE TÀI

Trang 19

Trình bày khái quát về định hướng, phạm vi nghiên cứu của đề tài khóa

luận hướng tới.

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

Trinh bày các định nghĩa, khái niệm cũng như những kiến thức nền tang

liên quan

CHUONG 3: MÔ HINH VÀ PHƯƠNG PHÁP THUC HIEN

Phần trọng tâm - trình bày mô hình cộng tác phát hiện mã độc bền vững

sử dụng học liên kết và chiến lược học bán giám sát đã nghiên cứu; Xác

định các điểm tấn công và chiến lược tấn công lật nhãn của mô hình này;

Đề xuất phương pháp phòng thủ cho loại tấn công này

CHƯƠNG 4: THÍ NGHIỆM VÀ DÁNH GIÁ

Trinh bày quá trình hiện thực hóa phương pháp đề cập ở Chương 3 Sau đó

đưa ra kết quả đánh giá và so sánh.

CHƯƠNG 5: KẾT LUẬN

Kết luận về đề tài, đề xuất một số hướng phát triển mở rộng cho các nghiên

cứu trong tương lai.

Trang 20

Chương này trình bày cơ sở lý thuyết của nghiên cứu: Bao gồm mã độc, các

chiến lược trong học máy, mô hình học liên kết và dữ liệu phan phối không đồng

nhất.

2.1 Giới thiệu chung về mã độc

Mã độc hay phan mém độc hại là một thuật ngữ được sử dung để mô tả cácứng dụng hay mã độc hại có thể gây tổn hại lên hệ thống máy tính, làm phá

vỡ khả năng hoạt động bình thường của các thiết bị, ảnh hưởng đến tính bí

mật, tính toàn vẹn và tính sẵn sàng của dữ liệu người dùng, máy tính hoặc môi

trường mạng Nhìn chung, ta có thể phân loại mã độc thành một vài loại phổ

biến sau:

e Virus: là loại chương trình độc hại mà cần một tệp dữ liệu hay chương

trình khác làm vật chủ để ký sinh, phải được kích hoạt bởi một sự kiện,

hoạt động trên hệ thống máy tính để thực thi, và có khả năng nhân bản

sau khi thực thi.

e Worm: là đoạn chương trình độc hại độc lập, có khả năng tự thân thực

; lan qua các khai thác lỗ hổng phần mềm hoặc

thi, tự nhãn ban, tự động 1é

chính sách an ninh được cấu hình ko cẩn thận

e Trojan: các đoạn mã của Trojan được “che giấu” trong các phần mềm máy

tính thông thường để bí mật xâm nhập vào máy nạn nhân Khi tới thờiđiểm thuận lợi, chúng sẽ đánh cắp thông tin cá nhân và chiếm quyền điềukhiển máy tính Bản chất của Trojan là không tự lây lan mà biến hệ

Trang 21

thống máy tính bị nhiễm thành thành viên của mang botnet và thực hiện

phát tán.

e Botnet: là những máy tinh bị nhiễm virus va bị điều khiển thông qua

Trojan, Virus, Tin tặc lợi dụng sức mạnh của những máy tính bị nhiễm

virus để thực hiện các hành vi phá hoại và ăn cắp thông tin Thiệt hại do

Botnet gấy ra thường vô cùng lớn

Trước khi lây nhiễm, mã độc cần được tải xuống hoặc khi đã xâm nhập vào

máy nạn nhân, chúng cần phải giao tiếp với máy chủ C&C để nhận lệnh, đặcbiệt đối với các botnet thông qua mạng Do đó, chúng ta có thể phát hiện và

ngăn chặn kịp thời bằng các hệ thống tìm kiếm, phát hiện và ngăn chặn xâm

nhập (IDPS) Và với sự phát triển của học máy /học sâu, chúng ta đã không phải

quá phụ thuộc vào việc phải biết tường tận và phân tích sâu hành vi của mã

độc để làm mẫu phát hiện (signature-based) Hơn nữa, việc này chỉ phát hiện

các tấn công đã biết Việc kết hợp các thành tựu hiện đại trong trí tuệ nhân tạo

đã thúc đẩy cho việc phát hiện các mối nguy chưa biết

2.2 Mô hình học máy

2.2.1 Tổng quan vé mô hành học máu

Học mấy (tiếng Anh: Machine Learning - ML) là một mô hình thuật toán mô

tả khả năng của các hệ thống học hỏi từ dit liệu đào tạo dành riêng, tự động xây

dựng mô hình phân tích thực hiện các tác vụ dựa vào khuôn mẫu và suy luận

mà không cần hướng dẫn cụ thể Học máy có mối liên hệ mật thiết tới thống kê,

nó sử dung mô hình thống kê để "ghi nhớ" sự phân bố của bộ dữ liệu, tổng quát

hóa những gì nhìn thấy ở dữ liệu đầu ra, kết hợp dữ liệu đầu vào, đào tạo và đưa ra dự đoán Tiếp cận phương pháp kỹ thuật Học máy áp dụng vào mô hình

mạng lưới loT được đánh giá cải thiện kha năng hoạt động, tăng tính linh hoạtcác xử lý của thiết bị khi tối ưu hóa lưu lượng mạng, phân bổ nguồn tài nguyên

Trang 22

và tránh gây tắc nghẽn [16] Mô hình Học máy được phát triển trên tập dữ liệuđào tạo được thu thập trực tiếp từ nhiều thiết bị riêng lẻ, có thể qua nhiều hoạtđộng xử lý, đưa về máy chủ tổng hợp và đào tạo ra mô hình Học máy chung

Trong Học máy, theo truyền thống, dựa trên vấn đề cần giải quyết, bộ ditliệu tồn tại, phân thành 2 dạng chiến lược chính bao gồm Học máy Giám sát

và Không giám sát Trong chiến lược học máy giám sát, yêu cầu bộ dữ liệu để

huấn luyện phải bao phủ được cả dữ liệu của đầu vào và đầu ra, có nghĩa thuậttoán bắt buộc phải biết trước cặp dữ liệu (đầu vào, đầu ra), còn gọi là cặp (đữ

liệu, nhãn), để dự đoán được đầu ra của dữ liệu mới Dây cũng được xem là một nhược điểm của chiến lược đào tạo mô hình Học máy này Phương pháp Học

có giám sát được áp dụng phổ biến cho các bài toán Phân lớp (Classification)

và bài toán Hồi quy (Regression) Minh họa cho mô hình sử dụng chiến lược

Học có giám sát, ta có mô hình Support Vector Machine (SVM) thuộc bài toán

Phân lớp Ý tưởng của mô hình SVM là siêu mặt phẳng phân chia có lề đạt lớnnhất trong không gian thuộc tính có ø chiều (Hinh 2.1 - trái) Dối với bài toán

Hồi quy, mô hình Linear Regression hướng đến mục đích tìm ra đường thẳng

phù hợp nhất mà ngay tai đó Hàm mat mát (Loss Function) đạt thấp nhất, cónghĩa mức độ chênh lệch giữa giá trị mô hình dự đoán và giá trị thực tế phải

nhỏ, Hinh 2.1 - phải, thể hiện mô hình có đường thẳng thu nhỏ bình phươngchênh lệch giữa giá trị quan sát được (thực tế) và giá trị dự đoán, đường thẳng

đi qua trung bình của các đối tượng đặc điểm độc lập và phụ thuộc

Ở chiến lược học máy không giám sát, mô hình được đào tạo dựa trên dữ liệu

không gan nhãn (unlabeled data), tức ta không biết được kết quả đầu ra mà chỉ

có dit liệu đầu vào Thuật toán này quét dữ liệu mới, cố gắng thiết lập kết nối

có ý nghĩa giữa dữ liệu đầu vào và kết quả định sẵn, tìm ra một thông tin cấutrúc như các nhóm phần tử có chung thuộc tính (gọi là Phân cụm - Clustering)

hoặc biểu diễn dit liệu theo hạng mục (Giảm số chiều - Dimension reduction)

để lưu trữ và tính toán Ý tưởng của bài toán Phân cụm là chia dữ liệu thànhcác clusters (hoặc nhóm/cụm) bằng cách đặt các dữ liệu giống nhau nhiều vào

Trang 23

Hành 2.1: Lược dé biểu diễn điểm của mô hành SVM (bên trái) va mô hànhHồi quy tuyến tính (bên phải).

chung cluster, sẽ có K số trung tam của nhóm có trong bộ dữ liệu, thường tinh

toán khoảng cách để có thể gan dit liệu vào 1 nhóm, đưa đến mục đích chính làgiảm tổng khoảng cách giữa các dữ liệu và trung tâm đại diện của cụm, tạo nên tập hợp các

10

iểm ở gần nhau trong một không gian nào đó (Hinh 2.2)

4 -2 0 2 4 6 8 10 12 14

Hình 2.2: Lược dé biểu diễn phân cụm

Bên cạnh hai hướng tiếp cận phổ biến trên, Học máy tăng cường thay vì cung

cấp cặp dữ liệu (đầu vào, đầu ra) thì sẽ mô tả trạng thái hiện tại của mô hình

và chỉ định ra một mục tiêu, mục đích của mô hình là cố gáng đạt được nhiều

Trang 24

điểm thưởng tối đa ở các bước mà thuật toán trải qua để đạt đến mục tiêu cuối

cùng dưới sự ràng buộc hoàn cảnh cho kết quả đầu ra Hiện tại, thuật toán Tăngcường chủ yếu được 4p dụng vào Lý Thuyết Trò Chơi, các thuật toán cần xác

định nước đi tiếp theo để đạt được điểm số cao nhất.

2.2.2 Chiến lược học ban giám sát trong học máy

Học bán giám sát trong học máy cũng là một chiến lược dựa trên việc mở

rộng của phương pháp học truyền thống là Có giám sát và Không giám sát khi

mà dữ liệu dùng để huấn luyện mô hình bao gồm cả dit liệu có nhãn (labeled

ata) và không nhãn (unlabeled data) Day là một phương pháp dao tạo hiệu

quả mang ngữ cảnh thực tế khi mà chỉ tồn tại số ít dữ liệu có nhãn và lượng

lớn dữ liệu không gán nhãn Phương pháp học bán giám sát có khả năng xâyung bộ phân loại tốt hơn để bù đắp cho việc thiếu dữ liệu có nhãn nếu như mô

hình đã có đủ dữ liệu chưa có nhãn và dựa theo một số giả định nhất định vềphân phối dit liệu [2]; đạt được hiệu suất tốt cho giải quyết bài toán phân loại.Fhực tế thì việc xây dựng mô hình huấn luyện tốt từ quá trình khai thác bộ dit

liệu không gán nhãn có thể nói là không dễ dàng, do dữ liệu không gan nhãn

chỉ có ích khi mà nó là thông tin di liệu mang tính hữu dụng cho việc dự đoán

nhãn nếu như thông tin đó không tồn tại trong dữ liệu đào tạo có nhãn một

cách đơn độc hoặc là thông tin đó không dễ dàng phân tích, trích xuất Vì vậy,

để ứng dụng chiến lược học bán giám sát vào ngữ cảnh thực tế, yêu cầu thuậttoán phải có khả năng trích xuất thông tin

2.2.8 Mô hành Mang noron tích chập - CNN

Mô hình Mạng noron tích chập (tiếng Anh: Convolutional Neural Network CNN) là một kiến trúc phân tích, trích xuất dữ liệu có chiều sâu và khái quát

-hóa đặc điểm dữ liệu dựa vào việc tập hợp các lớp Tích chập (Convolution)chồng lên nhau Mạng tích chập có thể học các đặc điểm trừu tượng cao và cóthể xác định các đối tượng một cách hiệu quả, áp dụng vào các lĩnh vực khác

Trang 25

nhau như phân loại hình ảnh, nhận diện đối tượng, nhận diện giọng nói, phươngtiện hay phát hiện các lưu lượng mạng đáng ngờ, Không giống như mô hình

Mạng noron nhân tạo truyền thống (ANN), các noron trong bất kì lớp cụ thể

nào của mô hình này sẽ chỉ kết nối với một vùng nhỏ của lớp trước nó Cau trúc

cơ bản của mô hình Mạng tích chập sẽ bao gồm 1 lớp đầu vào (input layer),

chồng các lớp tích chập (convolution layer) và lớp tổng hợp (pooling layer) để

trích xuất thuộc tính, 1 lớp kết nối đầy đủ (fully connected layer) cho phân loại,

Hình 2.3 tong quan hóa cấu trúc của mô hình Mạng noron tích chập CNN

Hn HHDD Input image \ mM

Convolutional Layer Pooling Layer

Hình 2.3: Tổng quát hóa mô hành CNN với các lớp khác nhau.

2.2.3.1 Lớp tích chập

Như tên gọi, Lớp tích chập đóng vai trò quan trọng trong trích xuất các đặc

điểm từ dit liệu đầu vào, nó sử dụng các bộ lọc, gọi là kernel, thực hiện phép

tích chập khi đưa bộ lọc này đi qua đầu vào theo các chiều của nó và tham chiếu

lên vùng đữ liệu đặc tính cụ thể đã ma trận hóa Nó thực hiện quét từ trái qua

phải, trên xuống dưới và nhân tương ứng từng giá trị của ma trận đặc tính đầuvào Kết quả đầu ra được gọi là feature map hay activation map Bộ lọc nàythường có kích thước chiều không gian nhỏ so với đầu vào, nhưng sẽ trải dọc

theo toàn bộ độ sâu của đầu vào Các lớp tích chập cũng có thể làm giảm đáng

kể độ phức tap của mô hình thông qua việc tối ưu hóa đầu ra của nó thông qua

ba siêu tham số của bộ lọc, kích thước bộ lọc (kernel size), độ trượt (stride) và

quá trình zero-padding.

Kích thước bộ lọc được biểu diễn là FrFrC, trong đó F,C lần lượt là kích

Trang 26

thước 2 chiều (dài, rộng) và số kênh ứng với dữ liệu đầu vào Giả sử đối với dữ

liệu đầu vào là dạng ảnh RGB thì số kênh của biểu diễn ảnh là 3 và số kênh

của bộ lọc cũng là 3 Và khi thực hiện phép tích chập trên đầu vào kích thước

IxIxC sẽ cho ra một feature map có kích thước Óz@z1 Mỗi kernel cho ra là 1

ma trận nên với k kernel sẽ cho ra k feature map Ta kết hợp k feature map này lại thành 1 tensor 3 chiều có chiều sâu k.

Dộ trượt đối với phép tính chập hoặc phép pooling là giá trị dịch chuyển của

ma trận bộ lọc khi nó thực hiện phép tính tham chiếu xuống ma trận biểu diễnđặc tính Bộ lọc kernel sẽ di chuyển sang phải một giá trị trượt nhất định qua

các điểm ma trận cho đến khi nó đạt tới được chiều rộng phân tích hoàn chỉnh;

tiếp tục, nó đi chuyển xuống phần đầu bên trái của ma trận ảnh với cùng mộtgiá trị độ trượt và lặp lại quy trình cho đến khi toàn bộ ma tran biểu diễn dữliệu đặc tính được duyệt.

Zero-padding là quá trình đệm đường viền của ma trận biểu diễn đầu vàobằng số 0 và là một phương pháp hiệu quả để kiểm soát kích thước đầu rafeature map Bên cạnh phương pháp xác định giá tri padding thủ công, giá trịpadding valid và same cho phương pháp tự động cũng khá phổ biến

e valid: có nghĩa bộ lọc kernel được khởi tạo mà không sử dụng quá trình

đệm đường viền cho ma trận đầu vào Các bước tích chập cuối bị loại bỏnếu không khớp số chiều

same: các giá trị 0 sẽ được đệm vào đường viền của ma trận đầu vào sao cho

khi kernel thực hiện phép tích chập thì feature map đầu ra phải có cùng

số chiều với ma trận đầu vào Đó là lý do phương pháp này được gọi là

"same".

Hình 2.4 mô tả ma tran đầu ra feature map được sinh ra từ ma trận dữ liệu

5z5z1 tích chập với kernel có kích thước 3z3z1 có độ trượt stride = 1 và padding

= same Feature map có kích thước 3z3z1.

Trang 27

4|3|4 4]3]4

2/413 2|4|3

2|3 2|3|4

Hình 2.4: Quá trình thực hiện tích chập của ma trận đầu ào tà kernel 3x3

tao feature map

2.2.3.2 Lớp tổng hợp

Ỏ lớp tổng hợp, mô hình thực hiện giảm kích thước dữ liệu nhưng vẫn đảmbảo giữ được các thuộc tính quan trọng Ky thuật tổng hợp (pooling) nhằm mụcđích giảm dần số chiều của ma trận biểu diễn, từ đó giảm số lượng tham số và

độ phức tạp tính toán của mô hình Phép tổng hợp có thể có nhiều loại khácnhau như:

¢ Maxpooling: thực hiện chọn phan tử có giá trị lớn nhất trong khu vực mà

nó dang áp dung, bảo toàn được các đặc trưng nổi bật từ dữ liệu và được

sử dụng phổ biến Mô tả ở Hinh 2.5

¢ Averagepooling: tính trung bình giá trị của các phan tử trong khu vực mà

nó đang áp dụng.

¢ Sumpooling: tinh tổng giá trị của các phần tử trong khu vực mà nó đang

ấp dụng.

Trang 28

đi vào lớp kết nối đầy đủ để kết hợp các đặc tính, phân loại và đưa đến kết quả

đầu ra cho mô hình Tuy nhiên, trước khi bước vào lớp này, ma trận biểu diễnđiểm dữ liệu trải qua Lớp làm phẳng (Flattening) để chuyển đổi dữ liệu thànhmảng dữ liệu một chiều cho đầu vào của lớp tiếp theo Có thể hiểu là lớp làmphẳng sẽ đặt tất cả dữ liệu vào một dòng và kết nối tới với lớp cuối cùng Trong

mô hình mạng noron tích chập, các tầng kết nói đầy đủ thường được tìm thấy

ở cuối mạng và được dùng để tối ưu hóa mục tiêu của mạng ví dụ như độ chínhxác của lớp Hình 2.6 trực quan hóa giai đoạn làm phẳng và kết hợp dữ liệu choquá trình phân loại.

Hành 2.6: Các điểm dữ liệu được làm phẳng thành mảng một chiều va là đầuuào cho Lớp kết nối đầu đủ cho phân loại

Trang 29

2.9.4 Phương pháp Chắt lọc trí thức

Chat lọc tri thức (tên Tiếng Anh: Knowledge distillation), là một dạng phươngpháp học truyền tải dữ liệu từ một hình lớn, phức tạp hơn đến các mô hình nhỏđơn giản hơn Mục tiêu là mô hình học viên (mô hình nhỏ đơn giản) sẽ bắt chướchành vi và dự đoán của người hướng dẫn (mô hình lớn), tận dụng kiến thức của

người hướng dẫn và cải thiện hiệu suất của mô hình Bên cạnh đó, việc đào tạo

trên các mô hình nhỏ thì sẽ cần ít thời gian huấn luyên cũng như hao tốn tài

nguyên giảm thiểu hơn Loại kiến thức, kỹ thuật chắt lọc và cấu trúc học tập

giữa người hướng dẫn và học viên đều đóng vai trò quan trọng trong quá trìnhchat lọc kiến thức Mô tả Hành 2.7 về 3 thành phần chính của phương pháp

Teacher Model

Student Model

Hình 2.7: Cấu trúc co bản của khung mô hành Chat lọc tri thúc: Dữ liệu kiến

thúc, Thuật toán chat lọc va cấu trúc liên hệ người hướng dẫn va học tiên [4]

Quá trình học tập Chắt lọc tri thức diễn ra theo các bước, đầu tiên mô hìnhhướng dẫn được huấn luyện với tập dữ liệu cung cấp, sinh ra dữ liệu phân phốicác nhãn "mềm" (softmax output) Các nhãn "mềm" này cung cấp thông tin

chỉ tiết hơn về các kết nối giữa các lớp khác nhau và cho phép mô hình học viên học hỏi từ tính chắc chan cũng như không chắc chắn của mô hình người hướng dẫn Và khi huấn luyện mô hình học viên cũng trên tập dữ liệu cung cấp

nhưng sử dụng các softmax output từ mô hình lớn để làm dữ liệu dự đoán cơ

sở Quá trình huấn luyện giữa 2 mô hình học viên và người hướng dẫn tập trung

vào giảm thiểu sự khác biệt của dự đoán đầu ra của học viên và nhãn "mềm"

Trang 30

của người hướng dẫn bằng cách tính toán giá trị của Hàm mất mat (DistillationLoss) Tùy vào loại kiến thức dit liệu mà mô hình tiếp nhận, Hàm mat mát được

xây dựng theo các phương pháp khác nhau như sử dụng Cross-entropy loss,

Euclidean distance, Maximum mean discrepancy loss, [4] Hình 2.8 mô phỏng

cách thức hoc tập dự đoán đơn giản giữa 2 mô hình.

nó thu thập tất cả dữ liệu, bao gồm cả dit liệu mang tính riêng tư, trong quá

trình chia sẻ dữ liệu lên hệ thống trung tâm, và quá trình truyền dữ liệu trựctiếp từ các thiết bị đến các bên Vì vậy, việc rò rỉ thông tin là hoàn toàn có thểxảy ra [15] Với hy vọng khắc phục được vấn đề này, đào tạo mô hình ML một cách an toàn và hiệu quả, giải pháp mô hình Học liên kết đã được ra đời và vận

dụng Adam được đánh giá hiệu quả trong các mô hình yêu cầu bộ dữ liệu lớn,phức tạp với không gian tham số đa chiều

Trang 31

2.3.1 Tổng quan vé mô hành học liên kết

Mô hình Học liên kết ( Tiếng Anh: Federated learning - FL) - được khám pha

với ý tưởng có khả năng huấn luyện cục bộ từng mô hình riêng lẻ trên các thiết

bị đầu cuối và thực hiện chia sẻ mô hình này cho máy chủ để tạo nên một mô

hình chung trong khi vẫn giữ tất cả dit liệu đào tạo trên các thiết bị đó Minh

họa cho mô hình Học liên kết được thể hiện qua Hình 2.9, bao gồm K máy kháchlưu trữ dữ liệu của chính bản thân mình và một máy chủ để điều phối quá trìnhHọc liên kết Cụ thể, máy chủ sẽ gửi cho K máy khách một mô hình chung khởi

tạo Tiếp đến, mỗi thiết bị sẽ sử dụng mô hình chung đó và sử dung dữ liệuriêng huấn luyện mô hình của chính nó Sau đó, các mô hình cục bộ này sẽ được

gửi trên máy chủ Quá trình này sẽ liên tục được lặp lại trong mô hình học liên

kết cho đến khi tìm được mô hình chung có hiệu quả trên tất cả máy khách

Client 1 Client 2 Client K

Model Model Model Model Model Model

ny nis _

evalua-training | | "hon evalua-training | |“ evalua-training | | on

i I Ï I I

IData preprocessing [Data preprocessing IData preprocessing,

| |

Dataset from Dataset from | ` || Dataset from

device 1 device 2 device K

Data acquisition Data acquisition Data acquisition

| | a |

= 2 —

ip $ (0)

Device 4 Device 2 Device K

Hình 2.9: Mô tả kiến trúc của mô hành học liên kết thuan(8]

Trang 32

2.3.2 Các thuật toán tổng hợp mmô hành học liên kết

Thuật toán Tổng hợp trọng số đảm nhận vai trò quan trọng trong mô hình

Học liên kết khi mang nhiệm vụ chính trong việc tạo tương tác với máy chủ,

tạo ra mô hình tổng hợp bằng cách tổng hợp các trọng số từ tất cả các bản cập

nhật mô hình của thiết bị đầu cuối Khảo sát [7] đã đưa ra một quá trình phát

triển của các thuật toán học liên kết trong 6 năm (Hành 2.10)

Thuật toán FedAVG xuất hiện vào những năm đầu khi học liên kết xuất hiện

Đây là một thuật toán tổng hợp trọng số mô hình khá phổ biển hiện nay vì dễcài đặt Công thức dưới đây mô tả cách tổng hợp mô hình chung w, từ các mô

hình ø; được huấn luyện ở các máy khách như sau:

trong đó, N* là số điểm dit liệu của máy khách k, N là tổng số điểm dữ liệu

của tất cả các máy khách

Sau này, nhiều thuật toán tổng hợp khác ra đời với mục đích cải thiện những

hạn chế của học liên kết như tăng hiệu quả khi đào tạo đữ liệu phân phối khôngđồng nhất FedProx[1], giảm thiểu số vòng giao tiếp như FedMA[12] hay để tăngcường khả năng phòng thủ trước các loại tan công như LEGATO[II]

2.3.3 Dữ liệu phân phối không đồng nhất

Sự thành công của học liên kết gắn liền với việc hội tụ của mô hình chung.Tuy nhiên, các thiết bị loT có giới hạn về khả năng tính toán và độ trễ mạng

nên để đáp ứng kịp thời các cảnh báo về các cuộc tấn công để giải quyết vàngăn chặn cần đòi hỏi việc tối ưu hoá được số vòng giao tiếp để hội tụ mô hình

chung Do đó, độ chính xác của mô hình chung cần được cải thiện với số vònggiao tiếp tối ưu Song, trong thực tế, dữ liệu thường gặp tình trạng phân phối

Trang 33

EPPDA FedBuff

Hình 2.10: Sự phát triển của thuật toán tong hợp trong 6 năm [7]

không đồng nhất (Non-iid) làm ảnh hưởng đến độ chính xác của mô hình chung

Lí do dẫn đến hiệu suất huấn luyện mô hình giảm là do sự phân chia các trọng

số ban đầu ở các máy khách hội tụ về các mô hình khác nhau từ việc phân phối

di liệu không đồng nhất ở các thiết bị cuc bộ

Về mặt lý thuyết, tập hợp mẫu dữ liệu được gọi là phân phối đồng nhất khi

nó thoả hai tính chất là có cùng phân phối và độc lập với nhau Cụ thể, phânphối giống hệt nhau chính là việc phân phối không có xu hướng tổng thể - phân

phối không biến động và tất cả các mục trong mẫu được lấy từ cùng một phânphối xác suất Còn độc lập có nghĩa là mỗi mẫu sẽ không có liên quan, không

ết nối với nhau dưới bất kỳ hình thức nào hay kiến thức về giá trị của một mẫu

chong cung cấp thông tin về giá trị của mẫu kia và ngược lại Ví dụ, một đồng

xu có 2 mặt, tung đồng xu này 10 lần, nếu lần đầu là mặt chin thì khi tung

an thứ 2, xác suất là mặt chan hoặc mặt lẻ là như nhau (0.5) và việc tung lần đầu là lần chấn không hề ảnh hưởng đến kết quả của lần tung thứ 2 Như vậy,

từ lý thuyết phân phối đồng nhất, ta có thể suy ra được lý thuyết về phân phối

hông đồng nhất chính là một tập hợp mẫu có phân phối khác nhau và không

độc lập (các mẫu dữ liệu có quan hệ phụ thuộc với nhan).

Theo tác giả Hangyu Zhu và các cộng sự từ công trình khảo sát non-iid [18]

Trang 34

đã đưa ra phân loại non-iid từ không đồng nhất về thuộc tính, nhãn hay thờigian Sự không đồng nhất hay chênh lệch về thuộc tính là trường hợp khi phân

bố đặc tính ở các thiết bị (máy khách) là khác nhau hoàn toàn Hinh 2.11 minhhọa trường hợp tập dữ liệu thông tin người dùng bao gồm 2 máy khách chứa số

lượng đặc tính khác nhau lần lượt là 4 và 3 cho máy khách 1 và 2, đồng thời đặc tính (hay nhãn) của máy khách 1 và máy khách 2 không có bất kì mối liên

hệ nào (Tuổi tác, chiều cao - Giới tính, cân nặng).

Features

Age Height Name Sex Weight

( | Person A 24 178 1 Person A | Male 78

| Person B 61 165 0 | Person B | Female 64

) | Person C 44 182 1 PersonC | Male 89

Samples *) [person D 17 159 0 Person D | Female 52

| Person E il 137 1 PersonE | Male 36

Person F 33 171 0 Person F Female 60

y \fTM' \v

Client 1 Client 2

Hình 2.11: Minh hoa trạng thái non-tid trong trường hợp không dong nhất vé

thuộc tính Máy khách 1 bao gồm đặc tính tên, tuổi, chiều cao va nhãn, Máykhách 2 bao gồm đặc tinh tên, giới tính va cân năng [18]

Không đồng nhất về phân phối nhãn (một hoặc vài nhãn tồn tại ở thiết bị này

nhưng không tồn tại ở thiết bị khác) là một đạng non-iid khá phổ biến trong các

tập dữ liệu huấn luyện, nguyên nhân bắt nguồn từ sự khác biệt về vị trí của cácmáy khách lưu trữ cho cùng loại đữ liệu đào tạo cục bộ Sự mất cân bằng nhãn

được minh hoa qua tình huống mỗi máy khách hoặc nguồn dữ liệu sở hữu các

mẫu dữ liệu được phân loại thành các lớp nhãn cố định c Tham số e xác định

số lớp nhãn và ảnh hưởng đến mức độ mất cân bằng nhãn Nếu c nhỏ hơn, nó

biểu thị sự mất cân bằng nhãn mạnh hơn, trong khi e lớn hơn cho thấy sự mất

cân bằng nhãn ít nghiêm trọng hon Hinh 2.12 cho thay khả năng 2 máy khách truy cập vào mẫu dit liệu cố định 2 nhãn khác nhau, dẫn đến trong trường hợp

này máy khách | chứa 2 dữ liệu nhãn mà máy khách 2 không có và ngược lại.

Trang 35

Ngoài ra, khong đồng nhất về phân phối nhãn còn bao gồm trường hợp sự mất

cân bằng về phân phối dit liệu (dữ liệu của một hoặc vài nhãn có thể chiếm ưu

thế hơn dữ liệu của các nhãn còn lại trên các thiết bị khác nhau), thường được

sinh ra từ hàm phân phối dữ liệu Dirichlet distribution [18].

bird deer frog ship

liệu được thu thập Chẳng han ở Hinh 2.12 mô tả thông tin về giá cổ phiếu mà

2 máy khách cùng thu thập được nhưng ở 2 thời điểm khác nhau là 60 tháng

đầu và 60 tháng sau

Client 1 recorded price Client 2 recorded price

—— Actual value —— Actual value

—— Rolling mean —— Rolling mean

Hình 2.13: Minh họa trạng thái non-iid trong trường hợp không đồng nhất vé

thời gian, 2 máu khách uới dé liệu cổ phiếu được thu thập trong 60 tháng đầu va

60 tháng cuối [18]

Trang 36

2.3.4 Tấn công đều độc mô hinh học liên kết

Dể chuẩn bị cho việc tấn công đầu độc mô hình SSFL tại Chương 3, chúng

tôi sử dụng bài khảo sát [14] của Geming Xia phát hành vào năm 2023 tại hội

nghị JEEE Access để có cái nhìn tổng quan hơn về các phương pháp tấn công

mô hình học liên kết.

Dựa vào phương pháp đầu độc, có thể chia thành hai phương pháp tấn công:

e Tan công đầu độc dữ liệu: dữ liệu được sử dụng để đào tạo mô hình cục

bộ là dữ liệu có nhãn Do đó, trong tấn công này, Geming Xia lại chia nó thành hai loại tấn công khác bao gồm: tấn công giữ nguyên nhãn và tấn

công lật nhãn.

Tan công giữ nguyên nhãn: tin tặc cỗ gắng chỉnh sửa di liệu theo cách nào

ó như thêm nhiễu vào dữ liệu hoặc chèn các dữ liệu giả vào tập dữ liệu

cục bộ gốc bằng cách sử dụng mạng sinh đối kháng (GAN)

Tấn công lật nhãn: là một loại tấn công dé thực hiện bao gồm tấn công thụ

Ong và tấn công chủ động Cụ thể, với tấn công thụ động, tin tặc có thé

lật toàn bộ dữ liệu nhãn 1 thành nhãn 0 Trong khi đó, tấn công chủ động tỉnh vi hơn Yiwei và cộng sự đã dùng khoảng cách giữa các lớp trích xuất

tính năng (softmax hay sigmoid) để tìm mục tiêu tối ưu Cong thức 2.1 tính

toán giá trị trung bình của các véc-td tính năng đầu ra của một lớp e cụ

thể Trong đó, |Dmal(c)| là số lượng các mẫu dit liệu thuộc lớp e trong tập

dữ liệu Dal, ó là hàm trích xuất tính năng Kẻ tan công tính toán khoảng cách euclean giữa nhãn gốc c và tất cả các nhán c’ còn lại theo công thức

2.2 để tìm ra nhãn ¿' có khoảng cách đến e là ngắn nhất Cuối cùng, lật tất

cả mẫu dữ liệu mang nhãn e thành c’.

1

Trang 37

AD(e,e) = |lue = Helle (2.2)

e Tấn công đầu độc mô hình: Theo khảo sát chúng tôi nghiên cứu, phương

pháp đầu độc mô hình sẽ hiệu quả hơn các phương pháp khác trong mô

hình học liên kết vì nó tác động trực tiếp đến việc tổng hợp mô hình chung

Thém nhiễu vào trọng số mô hình là cách dé thực hiện nhất nhưng cũng dé

bi phát hiện Loại tấn công khác tinh vi hơn là kẻ tấn công cố gắng thaotúng quá trình cập nhật của mô hình chung Khi mô hình chung w;° đã hội

tụ thi near, (we — we") © 0 Dựa vào nguyên tắc này, kế tấn công có thểtìm cách thay đổi mô hình cue bộ để ngăn cản quá trình hội tụ của mô hìnhchung Ngoài ra, kẻ tấn công có thể đào tạo mô hình chung với dit liệu của

một nhãn duy nhất nhưng sử dụng hàm tối ưu mất mát khác với các mô

hình cục bộ lành tính.

Bên cạnh đó, Geming Xia cũng phân loại phương pháp tấn công dự trên mụcđích của kẻ tấn công thành ba loại như sau:

e Tấn công có mục tiêu: loại tấn công này rất khó để triển khai, kẻ tấn

công mong muốn làm giảm hiệu quả đến một phần của mô hình chung trongkhi các phần còn lại vẫn hoạt động bình thường

e Tan công bán mục tiêu: kẻ tấn công lật nhãn của các mẫu dữ liệu thành

nhãn khác Loại tấn công này có thể xảy ra trong thực thế giới trong các

tình huống khác nhau Ví dụ, kẻ tấn công gửi một email quảng cáo trai

phép nhằm mục đích có email được xác định là thuộc về một số loại lành

tính hơn là thư rác.

e Tan công không mục tiêu: kẻ tấn công cố gắng làm giảm hiệu suất của

mô hình chung trên tất cả các nhiệm vụ hoặc làm cho mô hình chung không

hội tụ được Phương pháp thêm nhiễu vào dữ liệu và mô hình cục bộ thuộc

loại tấn công này

Trang 38

Dé chống lại tấn công đầu độc vào mô hình học liên kết, tác giả Geming Xiacũng tổng hợp các phương pháp phòng chống và nêu lên ưu, nhược điểm củacác phương pháp này như sau:

e Phân tích mô hình: phương pháp này giả định mô hình lành tính và mô

hình độc hại luôn có sự khác nhau đáng kể Có thể tìm kiếm sự tương đồng

thông qua việc tính toán khoảng cách euclean, cosine, k-means, hệ số tươngquan Pearson giữa các trọng số mô hình cục bộ Hay việc sử dụng thêm

một tap dữ liệu có nhãn tại máy chủ để phát hiện mô hình độc hại cũng

thuộc phương pháp phân tích mô hình Sau đó, có thể chia các mô hình cục bộ thành các nhóm khác nhau và tiến hành tổng hợp mô hình của mỗinhóm Vấn đề lớn nhất của phương pháp này chính là giả định số lượng

máy khách độc hại là rất nhỏ Phương pháp FLARE[13] được trình bàytrong phần 2.14 bị giảm hiệu quả phòng thủ khi số lượng máy khách vượt

qua 30%.

e Tổng hợp bền vững Byzantine: Phương pháp này sử dung một giá trị

ngưỡng và chỉ cho phép các mô hình cục bộ không vượt quá ngưỡng này

tham gia tổng hợp Tuy nhiên, phương pháp này không hoạt động tốt trên

dữ liệu phân phối không đồng nhất và đôi khi các mô hình lành tính cũng

vô tình bị cắt bỏ

2.3.5 Tổng quan vé phương pháp phòng thủ FLARE

Chúng tôi trình bày FLARE (Federated Learning Latent Space

Representa-tion) trong một phần riêng biệt với các phương pháp đã nêu ở phần 2.3.4 vì ýtưởng xây dựng phương pháp phòng chống lật nhãn cho SSFL dựa vào phương

pháp này.

Hành 2.14 mô tả mô hình học liên kết bền vững chống lại tấn công đầu độc

mô hình với phương pháp FLARE tại nghiên cứu [13] Tap dit liệu phụ trợ

(Auxiliary data) có số lượng mẫu nhỏ và thuộc về một nhãn Sau nhận được các

Trang 39

mô hình cục bộ, trước khi trích xuất lớp PLRs, máy chủ sẽ dùng các mô hình

cục bộ đào tạo với tập dữ liệu phụ trợ, điều này làm tăng khả năng các mô hình

lành tính tuân theo một phân bồ

Parameter Server

SofiMax Function Auxiliary

Data ‘Aggregate model parameter 5updates Weighted by their |@) 015

5| 001

1D | Gant

CaleusteMMD | @{ Find tne Nearest }® [1s

between each pair of | —>| Neighbor of each [>|

local models local model lãi lầu

Hình 2.14: Mô hành học liên két bền vitng chóng lại tan công dau độc mô hành

uới phương pháp FLARE

Tiếp theo, máy chủ tính toán khoảng cách MMD (Maximum Mean

Discrep-ancy) của từng cặp PLRs R; và R; của toàn bộ mô hình cục bộ Công thức 2.3

mô tả cách tính khoảng cách MMD.

ach; bcR,,b#a a€ R; bcR;,b#a ch bcR;,b#a

(2.3)

FLARE tiến hành xây dựng một bảng đếm số lần xuất hiện trong 50% hang

xóm gần nhất của các mô hình cục bộ dựa trên khoảng cách MMD vừa tính

Với mỗi lần xuất hiện trong danh sách hàng xóm gần nhất của một mô hình cục

bộ w; nào đó, mô hình wy, giá trị đếm ct; sẽ đang lên 1 Cuối cùng, bác giả sử

dung ham softmax để chuyển giá trị đếm thành điểm tin cậy (có tổng bằng 1)

Cuối cùng, máy chủ tổng hợp mô hình toàn cầu theo điểm tin cậy của mỗi

mô hình cục bộ theo công thức Công thúc 2.4

Trang 40

ws C ws + ` $55; (2.4)

i=l

Hình 2.15 mô tả kết quả khi sử dụng FLARE chống lai tấn công đầu độc môhình với tập dữ liệu fNMIST dựa trên chỉ số ASR - tỉ lệ thành công của tấncông trên tổng các thực nghiệm đã chạy Trong đó, hỳnh 2.15(a), tác giả thực

nghiệm với nhiều số lượng máy khách khác nhau nhưng cố định 10% máy khách độc hại tồn tại trong toàn bộ máy khách Kết quả cho thấy các trường hợp không phòng thủ (màu vàng) có chỉ số ASR cao, còn các trường hợp có phòng thủ (màu xanh) có chỉ số ASR xấp xỉ 0 Bên cạnh đó, tác giả cũng thực nghiệm

mô hình với một số lượng máy khách có định và thay đổi tỉ lệ máy độc hại Kếtquả ở hành 2.15(b) cho thấy FLARE biểu hiện tối nhất với trường hợp số máy

Hinh 2.15: Két qua thực nghiệm của mô hành FLARE trên tập dữ liệu MNIST

Sau quá trình nghiên cứu phương pháp này, chúng tôi nhận thấy rằng FLARE

không cố gắng tìm kiếm và loại bỏ các máy khách độc hại ra khỏi quá trình đào

tạo, thay vào đó, FLARE làm giảm sự ảnh hưởng của các máy khách độc hạitrong bước tổng hợp mô hình chung, mô hình cục bộ có điểm tin cậy thấp sẽ

Ngày đăng: 02/10/2024, 04:21