TÓM TẮT KHOÁ LUẬNNhu cầu về việc huấn luyện mô hình học máy trong các thiết bị phân tán nhưng vẫn giữ được tính bảo mật dữ liệu đang dần trở thành điểm nóng, và trong thời gian gần đây,
Trang 1PHAM THỊ THANH BÌNH - 19520416 NGUYÊN HUỲNH BÁ PHÚC - 19522039
KHOÁ LUẬN TỐT NGHIỆP
NGHIÊN CỨU PHƯƠNG PHÁP HỌC LIÊN KẾT AN
TOÀN CHO TRÌNH CỘNG TÁC PHÁT HIỆN TÁC
NHÂN DE DOA TRONG NGỮ CẢNH PHAN PHỐI
DỮ LIỆU KHÔNG ĐỒNG NHẤT
A STUDY ON SECURITY-ENHANCED FEDERATED LEARNING FOR CYBER THREAT DETECTION IN THE
CONTEXT OF NON-IID DATA
KY SU NGANH AN TOAN THONG TIN
GIANG VIEN HUGNG DAN:
ThS Nghi Hoang Khoa
TP.H6 Chi Minh - 2023
Trang 2LỜI CẢM ƠN
Trong quá trình nghiên cứu và hoàn thành đồ án, nhóm đã được thầy Nghi
Hoàng Khoa định hướng, giúp đỡ và cho ý kiến đóng góp trong suốt thời gian
lên ý tưởng và thực hiện bài khoá luận này Bên cạnh đó các anh/chị/bạn dang công tác tại Phòng thí nghiệm An toàn thông tin - InSecLab đã quan tâm, giúp
đỡ và tạo điều kiện hết mức cho nhóm trong khoảng thời gian này.
Bên cạnh đó, nhóm chúng tôi vô cùng biết ơn gia đình và bạn bè đã là nguồnđộng viên to lớn về mặt tỉnh thần, cũng như đưa ra rất nhiều ý kiến mang tínhxây dựng cho ý tưởng của nhóm trong suốt quá trình làm khoá luận
Nhóm cũng chân thành cẩm ơn các quý thầy cô trường Dai học Công nghệ
Thông tin - ĐHQG TP.HCM, đặc biệt là các thay cô thuộc bộ môn An toàn
Thông tin đã giúp đỡ nhóm hết minh.
Nhóm thực hiện.
Trang 3MỤC LỤC
CHƯƠNG 1 TONG QUAN ĐỀ TÀI
11 Lý do chọn đề tài ee
1.2 Phương pháp nghiên đỨu Ặ SẺ.
13 Mục tiêu nghiên cứu ee
1.4 Phạm vi và đối tượng nghiên cứu
1.5 Cấu trúc khoá luận tốt nghiệp
CHƯƠNG 2 CƠ SỞ LÝ THUYẾT 21 Họclenkết đc" wm
2.11 Tổng quan về học liên kết
2.1.2 Các thành phần chính trong mô hình học liên kết
2.1.3 Phân loại học lên kết
2.2 Tấn công đầu độc Q2 nha 2.2.1 Tấn công đầu độc môhình
2.2.2 Tấn công đầu độc dữ liệu
2.3 Họcsâu Quy y2 2.3.1 Học sâu và mạng no-ron nhân tạo
2.3.2 Mạng nơ-ron tích chập ee ee 2.4 Layer-Wise Relevance Propagation
5 Phân phối dit liệu không đồng nhất
2.5.1 Phân loại dữ liệu không đồng nhất
2.6 Một số công trình nghiên cứu liên quan
CHƯƠNG 3 PHƯƠNG PHÁP THỰC NGHIỆM 3.1 Kiến trúc tổng quất cv 3.2 Thuật toán FedAvg và FedDC
3.2.1 FedAvg 2.2 0.0.0.0 eee 3.2.2 EedDC ee 3.2.3
Bodwligusttdung 000-21 21 22
24 24
25
25 26
Trang 43.2.4 Giới thiệu mô hình đề xuất
CHƯƠNG 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ
Trang 5DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
ML Machine Learning CNN Convolutional Neural Network
FL Federated Learning IDS Intrusion Detection System RNN Recurrent Neural Network SGD Stochastic Gradient Descent
NN Neuron Network LSTM Long Short-Term Memory LRP Layer-Wise Relevance Propa-
gation
Trang 6Tấn công đầu độc dữ liệu
Tan công đầu độc mô hình
Data poisoning attacks Model poisoning attacks Class path
Label-flipping attack Neural network
Convolutional neural network Long short-term memory
Batch normalization
Trang 7DANH MỤC HÌNH VE
inh 2.1 Kiến trúc mô hình học liên kết điển hình
inh 2.2 Môi trường học liên kết phân tán
ình 2.3 Phân loại học liên kết dựa vào cách phân chia dit ligu .inh 2.4 Minh hoa hai kiểu tấn công đầu độc trong một mô hình học
liên Kết ee
ình 2.5 Kiến trúc mạng nơron nhân tạo
ình 2.6 Minh hoạ luồng CNN xử lý hình ảnh đầu vào và phân loại
các đối tượng dựa trên các giá trị được tính toán inh 2.7 Cách Max pooling và Average pooling làm giảm kích thước
mô hình £7 4£P ÀA
ình 2.8 Cách hoạt động của LRP: Mỗi nơ-ron phân bố lại những gi
nhận được từ lớp cao đến lớp thấp
hơn -inh 2.9 Mhơn -inh hoạ phương pháp phát hiện dữ liệu bị đầu độc
inh 3.1 Mô hình đề xuất ẶẶ
inh 3.2 Minh hoa giải thuật FedAvg
inh 3.3 Minh hoa giải thuật FedDC inh 3.4 Số lượng record theo từng nhãn
inh 3.5 Mô hình đề xuất để giải quyết dữ liệu không đồng nhất
inh 4.1 Tỷ lệ nhãn của từng client ee
inh 4.2 Số lượng records của từng Client trong Roundl ình 4.3 Số lượng records trong từng Round của Client0 inh 4.4 Biểu đồ so sánh Accuracy giữa FedAvg và FedDC cùng sử
Trang 9DANH MỤC BA NG BIEU
Bảng 3.1 So sánh số lượng record trong bộ dữ liệu CSE-CIC-IDS2017
và CSE-CIC-IDS2018
Bảng 4.1 Tổng số lượng records dùng để chia trong trường hợp chia
Bảng 4.3 Tổng số lượng records dùng để chia trong trường hợp chia
dit liệu Non-IID cho 10 client trong 5 round
Bang 4.2 Bảng thống kê tập dữ liệu chia theo IID cho 10 clients trong
Bảng thống kê dataset chia
20 Round (tiếp theo)
bộ dữ liệu Non-IID
h giá khi triển khai t
bộ dữ liệu Non-ITD
hai t với bộ dữ liệu
Bảng đánh giá khi triển
và train với bộ dữ liệu
và train với bộ dữ liệu Non-I
theo Non-IID cho 10 Client
theo Non-IID cho 10 Client
huật toán FedAvg trên mode
on-IID
an
huật toán FedDC trên mode
huật toán FedAvg trên mode
huật toán FedDC trên mode Non-IID
huật toán FedAvg trên mode 1D
Trang 10TÓM TẮT KHOÁ LUẬN
Nhu cầu về việc huấn luyện mô hình học máy trong các thiết bị phân tán
nhưng vẫn giữ được tính bảo mật dữ liệu đang dần trở thành điểm nóng, và
trong thời gian gần đây, học liên kết là được ra đời với ý tưởng là mô hình học
máy có thể đáp ứng được nhu cầu này Đặc điểm chính của mô hình này là máy
khách lưu dữ liệu cục bộ và chỉ chia sẻ mô hình cập nhật đến máy chủ chung.
Nhờ điểm này, học liên kết đã giải quyết được một vấn đề về quyền riêng tư
Tuy nhiên mô hình nào cũng có rủi ro, học liên kết cũng vậy Mặc dù đã có
rất nhiều các bài nghiên cứu về điểm yếu của học liên kết và cách khắc phụcchúng Tuy nhiên những đề xuất này van chưa thể giải quyết ổn thoả và triệt đểnhững vấn đề mà mô hình học liên kết phải đối mặt Vì đĩ đó, trong phạm vi bài
khoá luận này, nhóm hướng đến việc nghiên cứu phương pháp tăng hiệu suất
của mô hình học liên kết trong ngữ cảnh phân phối dữ liệu không đồng nhất vàchống lại tấn công đầu độc để tránh các cuộc tấn công nhắm vào mô hình Cụthể, chúng tôi dùng bộ dữ liệu CSE-CIC-IDS2018 là nguồn dit liệu để đào tạo
mô hình đề xuất, đồng thời sử dụng thuật toán tổng hợp FedDC để giải quyếtvấn đề dữ liệu không đồng nhất Sau cùng là phần đánh giá và nhìn nhận kếtquả đã đạt được và đề xuất những cách có thể phát triển khoá luận này trong
tương lai.
Trang 11CHƯƠNG 1 TONG QUAN DE TÀI
bảo vệ những dữ liệu nhạy cảm khỏi bị rò rỉ Vì vậy các giải pháp an ninh mang
mạnh mẽ và hiệu quả là tối quan trọng mà các tổ chức cần lưu ý để giảm thiểucác mối đe doạ này đối với hệ thống của mình Các phương pháp đào tạo vàphan tích mô hình sử dung dif liệu tập trung truyền thống dang gặp vấp phảinhững lo ngại về vấn đề an toàn thông tin khi các tổ chức phải chia sẻ những
di liệu nhạy cảm không mong muốn Với lý do này, học liên kết đã ra đời vớiđặc điểm cho phép các bên chia sẻ mô hình thay vì dữ liệu thô, nhằm giải quyết
thách thức trên.
Một trong những lợi thế quan trọng của học tập liên kết nằm ở khả năng bảo
vệ quyền riêng tư của dữ liệu, vì dữ liệu nhạy cảm vẫn được phân cấp và lưutrữ cục bộ trên các thiết bị tham gia Thực tế, đa phần các nghiên cứu hiện nayđều giả định dit liệu co bản được phân phối giống hệt nhau, điều này hiếm khi
đúng trong thế giới thực Lúc này, các nguồn để thu thập dữ liệu rất đa dạng và
thường thể hiện tính không đồng nhất về mặt thống kê, được đặc trưng bởi cácbiến thể trong phân phối tính năng, kích thước dữ liệu và mắt cân bằng nhãn
Dữ liệu phân phối không đồng nhất như vậy có thể phát sinh do các yếu tô như
sự khác nhau về tệp khách hàng, vị trí địa lý hoặc khả năng của thiết bị.
Việc sử dụng dit liệu ID trong học liên kết có thể làm giảm hiệu suất mô hình
và can trở việc phát hiện các mẫu toàn cục hoặc thông tin chuyên sâu trong tập
2
Trang 12dữ liệu chung Do đó, việc giải quyết các thách thức do dit liệu Non-HD gây ra
là rất cần thiết để nâng cao hiệu quả tổng thể của học liên kết trong phát hiệnmối đe dọa trên mạng
Nghiên cứu này điều tra học tập liên kết được tăng cường bảo mật trong bốicảnh dit liệu Non-IID để phát hiện mối de dọa trên mạng Với mục đích kết hợp
mô hình học liên kết, hệ thống phát hiện xâm nhập và dữ liệu Non-IID, nghiêncứu này tìm cách rút gọn sự cách biệt giữa các giả định lý thuyết và ứng dụngthực tế Những phát hiện của nghiên cứu này có thể nâng cao đáng kể hiệu quảcủa học tập liên kết để phát hiện mối đe dọa mạng trong môi trường thực tế,dẫn đến cải thiện tính bảo mật và hiệu suất hệ thống tổng thể
Dưới đây là một số lý do thúc đẩy nhóm chọn đề tài này:
1 Tính phù hợp thực tế: Số lượng các mối đe doạ mạng và sự phụ thuộcvào các hệ thống kỹ thuật số ngày càng tăng trong các lĩnh vực khác nhau
doi hỏi phải có các giải pháp an ninh mạng mạnh mẽ và hiệu quả Nghiên
cứu này giải quyết tính cấp thiết và cấp bách trong môi trường phát hiện
xâm nhập mạng bằng cách khám phá ứng dụng học tập liên kết được tăng
cường phát hiện các mối đe dọa trên mạng
2 Đặc điểm dữ liệu trong thế giới thực: Trong nhiều tình huống thực
tế, giả định về dữ liệu được phân phối giống hệt nhau là không thực tế
Hiểu và giải quyết các thách thức của dữ liệu Non-IID trong bối cảnh học
liên kết là yếu tố tiên quyết để mở khóa tiềm năng của phương pháp nàyvới mục đích ứng dụng vào thực tiễn Nghiên cứu này nỗ lực phát triển cácthuật toán và kỹ thuật để xử lý tính không đồng nhất thống kê và độ lệch
phân phối thường gặp trong dữ liệu Non-HID.
3 Cải thiện hiệu suất hệ thống: Bằng cách phát triển phương pháp họctập liên kết được tăng cường bảo mat phù hợp với dữ liệu Non-HD, mụctiêu của nghiên cứu này là nâng cao hiệu suất, độ hội tụ và độ chính xác
của hệ thống phát hiện mối đe dọa mạng Những cải tiến như vậy mang
tính quyết định đối với các tổ chức đang tìm kiếm các giải pháp đáng tin
cậy để phát hiện và giảm thiểu các mối đe dọa trên mạng.
4 Khoảng cách nghiên cứu và đóng góp: Mặc dù học tập liên kết đã nhậnđược nhiều sự chú ý từ khi ra mắt, những thách thức do dữ liệu Non-IID
Trang 13đặt ra và việc tích hợp các cơ chế bảo mật vẫn chưa được nghiên cứu bàibản Bài khoá luận này có mục đích bổ sung kiến thức về điểm yếu của hệthống học liên kết và cung cấp những hiểu biết thực tế về việc triển khai
học liên kết được tăng cường bảo mật để phát hiện các cuộc tấn công mạng
khi có dit liệu Non-IID.
Vì lẽ đó, nhóm muốn thực hiện đề tài này với mục tiêu tăng độ bảo mật cho
hệ thống học máy trong lĩnh vực an ninh mạng
1.2 Phương pháp nghiên cứu
Cách tiếp cận của nhóm là tìm hiểu về học liên kết, cách hoạt động củaphương pháp học máy này và những lỗ hong của nó so với những yêu cầu củathời đại Tiếp đó, đề xuất một thuật toán tổng hợp có thể giải quyết yếu điểm
đó (FedDC) [9| trong bối cảnh yêu cầu nhằm tăng tính hiệu quả của mô hình
huấn luyện trong bài toán phân phối dữ liệu không đồng nhất Tiếp theo, nhóm
đề xuất một hệ thống chống lại tấn công đầu độc, giúp tăng tính an toàn của
mô hình học liên kết CUối cùng, nhóm sẽ tiến hành thực nghiệm, nhận xét và
đề xuất hướng phát triển phù hợp của đề tài nếu có
1.3 Mục tiêu nghiên cứu
Bao gồm hai mục tiêu chính sau đây:
1 Phân tích và đánh giá các cơ chế chống lại tấn công đầu độc dữ liệu hiện
có phù hợp với mô hình học liên kết nhằm xác định phương pháp hiệu quảnhất để giữ vững quyền riêng tư và an toàn thông tin trong quá trình họcliên kết
2 Nghiên cứu và áp dụng các thuật toán và kỹ thuật mới để giải quyết cácthách thức của dữ liệu Non-IID trong bối cảnh học tập liên kết Việc này
ao gồm các kỹ thuật xử lý tính không đồng nhất thống kê, thích ứng phanhối dữ liệu và chuẩn hóa tính năng để nâng cao hiệu suất và sự hội tụ củaphương pháp đề xuất
Trang 14Nhó
tăng tí
Phạm vi và đối tượng nghiên cứu
m chúng tôi sẽ nghiên cứu về cơ chế chống lại tấn công đầu độc nhằm
nh bảo mật của hệ thống học liên kết Bên cạnh đó, nhóm cũng sẽ tìmhiểu về tác động của dữ liệu Non-HD trong hệ thống học liên kết và cách để hạnchế ảnh hưởng tiêu cực đến hiệu suất mô hình
1.5. Cau trúc khoá luận tốt nghiệp
Được thể hiện trong 5 chương:
« Chương 1: TONG QUAN ĐỀ TÀI
eC
eC
eC
Khái quát về đề tài khoá luận mà chúng tôi thực hiện.
« Chương 2: CƠ SỞ LÝ THUYET
Cung cấp cơ sở lý thuyết, định nghĩa và những kiến thức liên quan đến cáchái niệm cần dùng trong bài nghiên cứu Đồng thời trình bày sơ lược về
những bài báo nghiên cứu liên quan.
hương 3: PHƯƠNG PHÁP THUC HIỆN
Đây là phần trọng tâm của bài Bao gồm đề xuất mô hình và giải thích
phương pháp thực hiện.
ương 4: THỰC NGHIỆM VÀ DÁNH GIÁ
Trinh bày cách thực hiện theo phương pháp được đề xuất ở chương trước,
mô tả kết quả và đưa ra đánh giá dựa trên những gì đã thực hiện.
ương 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIEN
N in nhận kết qua thực hiện được, cũng như cung cấp hướng phát triểncho các bài nghiên cứu tiếp theo
Trang 15CHƯƠNG 2 CƠ SỞ LÝ THUYẾT
Tóm tắt chương
Đây là phần nhóm chúng tôi sẽ giải thích các khái niệm cần thiết của khoáluận Dầu tiên là giới thiệu tổng quan về học liên kết, cách hoạt động và nhữngkhái niệm cần dùng cho bài khoá luận này
2.1 Học liên kết
2.1.1 Tổng quan vé học liên kết
Đây là một mô hình học máy phi tập trung cho phép đào tạo mô hình hợp
tác trên nhiều thiết bị hoặc thực thể mà vẫn đảm bảo quyền riêng tư của dữliệu Theo cách tiếp cận này, thay vì gửi dữ liệu thô đến một máy chủ tập trung,các thiết bị riêng lẻ sẽ đào tạo mô hình và chỉ trao đổi qua lại các bản cập nhậthoặc độ dốc của nhau trong suốt quá trình học Máy chủ trung tâm sẽ là nơitổng hợp các bản cập nhật này để tạo nên một mô hình toàn cục từ thông sốchung của tất cả các thiết bị tham gia Hình 2.1 minh hoạ cách hoạt động của
mô hình học may này.
Trang 16Hình 2.1: Kiến trúc mô hành học liên kết điển hành
[26]
Lần đầu tiên, từ khoá "hoc liên kết" được các nhà nghiên cứu của Google giới
thiệu trong một bài báo chuyên đề ở [18] Theo đó, họ đã nhận ra cơ hội của
việc tận dụng dữ liệu phân tán từ thiết bị di động để đào tạo các mô hình máyhọc mà vẫn dam bảo quyền riêng tư của dữ liệu Dé xuất này đã đặt ra mộtkhuôn khổ cho phép các thiết bị cùng học một mô hình dùng chung mà khôngcần cung cấp dữ liệu thô của chúng Trong thời đại công nghệ trí tuệ nhân taođang là nhân tố được chú trọng, học liên kết đang giải quyết những khó khănchính của các nút thắt cổ chai trong ứng dụng AI thương mại bằng cách giữvững quyền riêng tư dữ liệu và giải quyết tình trạng thiếu dữ liệu, đồng thời họcliên kết cũng được áp dụng và có hiệu quả đáng kể trong các lĩnh vực tiếp thị,tài chính, sức khoẻ, giáo dục và nhiều hơn nữa [7, 22, 33, 28]
Dong lực chính đằng sau việc nghiên cứu về học liên kết là để xử lý nhữngvấn đề tồn đọng đến việc lưu trữ và xử lý dit liệu tập trung Những phương thứchọc truyền thống yêu cầu phải thu thập, tổng hợp và lưu trữ ở cùng một nơi,
Trang 17đây là vấn đề các tổ chức không mong muốn vì nguy cơ tiết lộ dữ liệu nhạy cảm.
Tuy nhiên, đối với học liên kết, dữ liệu vẫn được phân cấp và lưu trữ cục bộ
trên các thiết bị tham gia, giúp hạn chế vấn đề về quyền riêng tư và giảm nhucầu chuyển dữ liệu nhạy cảm sang máy chủ trung tâm
Có thể mô tả về cách hoạt động của học liên kết như sau: Đầu tiên, máy chủtrung tâm hoặc đám mây sẽ khởi tạo ngẫu nhiên một mô hình toàn cầu Sau
đó, các thiết bị tham gia, chẳng hạn như thiết bị cạnh, sẽ nhận được một bảnsao của mô hình toàn cầu Mỗi thiết bị huấn luyện cục bộ mô hình trên dữ liệucủa chính nó, sử dụng các kỹ thuật như giảm dần độ dốc ngẫu nhiên và tínhtoán độ dốc hoặc cập nhật mô hình Những cập nhật này sau đó được truyền
an toàn đến máy chủ trung tâm, máy chủ này sẽ tổng hợp và kết hợp chúng vào
mô hình toàn cầu Quá trình đào tạo và tổng hợp cục bộ này được thực hiện lặp
đi lặp lại qua nhiều vòng, cho phép mô hình toàn cầu cải thiện theo thời gian
trong khi vẫn giữ vững yêu cầu về quyền riêng tư của dữ liệu.
Mô hình học liên kết đầu tiên được đề xuất bởi [18] đã đặt nền móng cho cácnghiên cứu và tiến bộ sau này trong lĩnh vực này Kể từ đó, nhiều nghiên cứu
đã tìm hiểu nhiều khía cạnh của học liên kết, chẳng hạn như bảo mật, quyềnriêng tư, hiệu quả giao tiếp và khả năng mở rộng
Vi du, [5] đã giới thiệu khái niệm tổng hợp an toàn dé bảo vệ quyền riêng tưcủa người tham gia trong giai đoạn tổng hợp mô hình Họ đã đề xuất một giaothức mật mã cho phép máy chủ trung tâm tổng hợp các bản cập nhật mô hình
mà không cần truy cập vào các bản cập nhật riêng lẻ, đảm bảo rằng thông tinnhạy cảm vẫn ở chế độ riêng tư
Để giải quyết thách thức về dữ liệu Non-IID, trường hợp phân phối dữ liệukhông giống nhau giữa các thiết bị, [15] đã đề xuất FedProx Dây là một giảipháp được kết hợp từ thuật ngữ lan cận (proximity) vào chức năng mục tiêucủa học liên kết, khuyến khích các mô hình cục bộ trở nên gần giống như môhình toàn cầu FedProx giúp giảm thiểu tác động của dữ liệu Non-IID lên hiệusuất mô hình và tạo điều kiện cộng tác hiệu quả hơn giữa các bên có phân phối
Trang 18yêu cầu băng thông và nâng cao hiệu suất tổng thể của mô hình học liên kết.
2.1.2 Các thành phần chính trong m6 hinh học liên kết
Học liên kết bao gồm một số thành phần chính cho phép đào tạo hợp tác và
bảo vệ quyền riêng tư của các mô hình học máy trên một mạng phân tán như
sau:
e Máy chủ trung tâm: May chủ trung tâm đóng vai trò là người điều phối trong học liên kết Vai trò chính của nó là điều phối quá trình học tập giữa
các thiết bị tham gia (máy khách) No bắt đầu quy trình đào tạo bằng cách
gửi một mô hình ban đầu cho khách hàng, nhận các mô hình được cập nhật
sau khi đào tạo cục bộ và tổng hợp chúng để tạo ra một mô hình toàn cầu
được cải thiện Máy chủ trung tâm đảm bảo đồng bộ hóa và cộng tác của
các máy khách trong khi cỗ gắng đảm bảo quyền riêng tư của dit liệu
e Thiết bị tham gia (Máy khách): Các bên tham gia, thường được gọi làkhách hàng, là những thiết bị đóng góp trực tiếp trong quá trình học liênkết diễn ra Các thiết bị này có thể là thiết bị cạnh hoặc các nút phân tán
khác Mỗi khách hàng sở hữu tập dữ liệu cục bộ của mình, tập dữ liệu này
thường không được chia sẻ với các khách hàng khác hoặc máy chủ trung
tâm do lo ngại về quyền riêng tư Khách hàng thực hiện đào tạo mô hìnhcục bộ bằng cách sử dụng đữ liệu riêng của họ và sau đó gửi các thông số
mô hình hoặc độ đốc được cập nhật đến máy chủ trung tâm để tổng hợp.
Hoạt động cục bộ của khách hàng có thể thay đổi phụ thuộc vào sức mạnh
tính toán, kết nối mạng và dữ liệu có sẵn.
e Khởi tạo mô hình: Khởi tạo mô hình là việc đầu tiên cần làm để bắt đầuquá trình học liên kết, trong đó máy chủ trung tâm cung cấp mô hình banđầu cho các máy khách tham gia Mô hình ban đầu đóng vai trò là điểmbắt đầu cho quá trình đào tạo, thường được dựa trên tập dữ liệu quy môlớn hoặc thu được từ một mô hình đã tồn tại trước đó Việc khởi tạo nàyđảm bảo rằng quá trình học tập bắt đầu từ một điểm xuất phát hợp lý,giúp hội tụ hiệu quả đến một mô hình toàn cầu hữu ích
e Đào tạo tại địa phương: Dao tạo cục bộ là khi mỗi thiết bị khách đào
tạo mô hình bằng tập dữ liệu cục bộ của nó Bước này được thực hiện riêng
Trang 19lề ở phía khách hang bang bộ dữ liệu riêng của mình Công việc đào bạo cục
bộ có thể bao gồm một số lần lặp lại, trong đó thiết bị khách cập nhật cáctham số bằng cách sử dụng kỹ thuật giảm dần độ dốc hoặc các kỹ thuậttối ưu hóa khác Quá trình này nhằm tăng hiệu suất của mô hình dựa trên
dữ liệu cục bộ của khách hàng trong khi vẫn đảm bảo dữ liệu không được chia sẻ rộng rãi.
e Tổng hợp mô hình: Tổng hợp mô hình là bước quan trọng trong học liên
ết, trong đó máy chủ trung tâm thu thập các mô hình cập nhật hoặc độ
dốc mô hình từ các máy khách tham gia và tổng hợp thành một mô hình
toàn cầu được tỉnh chỉnh Các phương pháp tổng hợp có thể khác nhau,
với cách tiếp cận phổ biến nhất là FedAvg [18] FedAvg tổng hợp bằng cách
ấy trung bình tham số các bản cập nhật mô hình hoặc độ dốc nhận được
từ máy khách, tạo ra một mô hình đồng thuận phản ánh kiến thức chung
của các thiết bị tham gia Mô hình tổng hợp sau đó được phân phối lại chohách hàng cho các vòng tổng hợp và đào tạo cuc bộ tiếp theo
Các thành phần chính này hoạt động cùng nhau để thiết lập một khuôn khổhọc tập hợp tác và bảo vệ quyền riêng tư trong học liên kết Máy chủ trung tâmđiều phối quá trình đào tạo, khách hàng sẽ huấn luyện mô hình cục bộ trên ditliệu riêng tư của họ và việc tổng hợp mô hình đảm bảo sự hội tụ thành một môhình toàn cầu có lợi từ kiến thức tập thể trong khi vẫn duy trì quyền riêng tưcủa dữ liệu Hiểu các thành phần này là điều cần thiết để hiểu được dòng chảy
và động lực học của các thuật toán học liên kết
2.1.3 Phân loại học liên kết
Học liên kết có thể được chia thành nhiều loại tuỳ theo khía cạnh được xét,bài khoá luận này sẽ đề cập đến 2 khía cạnh phổ biến và liên quan đến đề tàicủa nhóm: dựa vào cấu trúc mạng và đặc điểm phân phối dữ liệu
a) Dựa vào cấu trúc mạng
Mặc dù học liên kết được biết đến là một cấu trúc phi tập trung, dựa vàocấu trúc mạng, học liên kết vẫn được chia thành 2 loại:
10
Trang 20e Học liên kết tập trung: Hình 2.1 thể hiện đúng cấu trúc của một
mô hình tập trung Ỏ đây, máy chủ trung tâm sẽ là nơi tổng hợp mô
hình của các máy khách Dây cũng là thiết kế hệ thống của Gboard doGoogle phát triển [25]
¢ Học liên kết phân tán: Cấu trúc này không yêu cầu một máy chủtrung tâm nào Các máy khách sẽ cập nhật mô hình bằng hình thứcchia sẻ dữ liệu với nhau qua giao thức truyền thông Peer-to-Peer (P2P)
b) Dựa vào đặc điểm phân phối dữ liệu
Theo bài khảo sát [32], học liên kết có thể phân loại dựa vào cách phân chia
dữ liệu của chúng ở máy cục bộ.
Trang 21Gia sử ma trận 7; là bộ dữ liệu của máy khách i Mỗi hàng của ma trận đại điện cho một mẫu (sample) và mỗi cột đại diện cho một thuộc tính
(feature) Đồng thời, một số bộ dữ liệu cũng có thể chứa dữ liệu nhãn Dặtkhông gian tính năng là #, không gian nhãn là ÿ và 7 thể hiện không gian
mẫu.
Tính năng +, nhãn ÿ va Id mẫu 7 tạo thành tập dữ liệu huấn luyện hoànchỉnh (7,4,3) Tính năng và không gian mẫu của các bên dữ liệu có thểkhông giống nhau Vì vậy học liên kết được chia thành học theo chiều ngang,hiều dọc và chuyển liên kết dựa vào cách phân phối dữ liệu giữa các bên
Features Fenues Features
(a) Horizontal Federated Learning (b) Vertical Federated Learning (€) Federated Transfer Learning
Hình 2.3: Phân loại học liên kết dựa vao cách phân chia dit liệu
[14]
¢ Học liên kết theo chiều ngang: Là ngữ cảnh các tập dữ liệu có cùng
tập thuộc tính nhưng khác nhau về số lượng mẫu (Hình 2.3a) Loại
học máy này có tên gọi khác là Homogenous Federated Learning, với Homogenous nghĩa là có cùng tập thuộc tính Trong trường hợp này,
các hàng dữ liệu phù hợp với một tập thuộc tính nhất quán Đây chính
xác là loại dữ liệu được dùng trong các công việc hoc máy có giám sat
[32] Ta có thể công thức hoá lên như sau:
Ai = Xj, Vị = Vị, Ti # 1j,VD¡, Dj, 1 # j (2.1)
e Học liên kết theo chiều dọc: Còn được gọi là Heterogeneous
Feder-ated Learning, là trường hợp hai hay nhiều tập di liệu có cùng số mẫunhưng khác nhau về không gian thuộc tính [32, 16] Ví dụ, có 2 công
tỉ khác nhau cùng kinh doanh trong mắng tài chính ở cùng một thành
phố Công ti A là một ngân hàng, công ti B kinh doanh trong lĩnh vựcthương mại điện tử Phần lớn khác hàng của họ là cư dân sinh sống
12
Trang 22ở đây, vì vậy phần giao nhau của không gian mẫu người dùng của haicông ti này tương đối lớn Tuy nhiên, ngân hang A chỉ thu được dit liệu
về tài sản, hành vi tiêu dùng và điểm tín dụng của khách hàng, còncông ti B thu được dữ liệu về lịch sử mua sắm của khách hàng Khônggian thuộc tính của hai bên rất khác nhau Giả sử hai công tỉ muốn hợp
tác tạo ra mô hình dự đoán việc mua hàng hoá dựa vào thông tin hàng
hoá và người dùng Học liên kết theo chiều dọc (Hình 2.3b) sẽ là quátrình tổng hợp các tập tính năng khác nhau này và tính toán sự thấtthoát khi huấn luyện và độ dốc một cách bảo mật để xây dựng nên một
mô hình cộng tac từ dữ liệu của hai bên Vì vậy ta có thể công thức
hoá mô hình này như sau:
Ai # XV # Vị, Ti = Lj, VDi, Dị, ¡ # j (2.2)
Hoc chuyển liên kết: Dây là trường hợp hai bộ dit liệu khác nhau
về cả tập thuộc tính va không gian mẫu (Hình 2.3c) Vẫn với vi dụ haicông ti như phần 2.2, công ti B mở chi nhánh ở một nước khác Giờ đây
chi nhánh mới của công tỉ B và công ti A nằm ở 2 khu vực địa lý khác
nhau nên phần giao nhau giữa tập khách hàng của hai bên rất nhỏ
Bén cạnh đó, vì kinh doanh ở hai mảng khác nhau nên tệp thuộc tính
của hai bên chỉ giao nhau một phần Lúc này sẽ là trường hợp có thể
áp dụng học chuyển liên kết để cung cấp giải pháp cho toàn bộ thuộctính và không gian mẫu của hệ thống Học chuyển liên kết sẽ tạo ramột đại diện chung của hai không gian thuộc tính học dựa trên phần
tập mẫu chung hạn hữu, sau đó được dùng để tính toán cho các mẫu
chỉ có ở thuộc tính một bên Học chuyển liên kết là một phần mở rộng
quan trọng đối với các hệ thống học liên kết hiện có vì nó xử lý được
điểm yếu vượt quá phạm vi của các thuật toán học liên kết hiện nay
mắc phải.
Xi # XY AY, LD = TVD DAF j (2.3)
Trang 232.2 Tan công đầu độc
Trong học tập liên kết, các cuộc tấn công đầu độc đang là mối nguy hại to
lớn đối với tính toàn vẹn và bảo mật của quy trình đào tạo mô hình hợp tác.
Mục đích của các cuộc tấn công này nhằm thao túng quá trình học tập bằngcách tiêm dit liệu độc hại hoặc cập nhật mô hình, dẫn đến các mô hình bị xâmphạm và có khả năng làm suy yếu hiệu suất tổng thể và đảm bảo quyền riêng
tư của thuật toán học tập liên kết
Tan công đầu độc trong học liên kết là hành động cố ý đưa di liệu độc haihoặc cập nhật mô hình vào quy trình đào tạo để tạo ảnh hưởng lên quyết địnhcủa mô hình sau cùng Mục tiêu của kẻ tấn công là đánh lừa hệ thống học tậpliên kết bằng cách làm ô nhiễm dữ liệu đào tạo hoặc thao túng các bản cập nhật
mô hình để mang lại lợi ích cho kẻ tấn công, chẳng hạn như phân loại sai, xuốngcấp mô hình hoặc trích xuất thông tin nhạy cảm
Dựa vào khả năng của kẻ tấn công, ta có thể chia tấn công đầu độc thành
2 dạng được minh hoạ ở Hình 2.4: tấn công đầu độc ở mức dữ liệu và mô hình
[17].
Hình 2.4: Minh hoa hai kiểu tắn công đầu độc trong một mô hành học liên kết
2.2.1 Tan công đều độc mé hành
Xây ra khi kể tấn công thao túng các bản cập nhật mô hình được chia sẻ
bởi các bên đóng góp trong quá trình tổng hợp Điều này có thể ảnh hưởng đếntham số, việc kiểm soát độ đốc mô hình hoặc chèn các trình kích hoạt backdoorskích hoạt các hành vi cu thể trong mô hình trong quá trình suy luận
14
Trang 24Cách thức tấn công đầu độc có thể bao gồm thay đổi mục tiêu huấn luyện,thêm các đối tượng độc hại vào quá trình huấn luyện, hoặc chỉnh sửa làm thayđổi kiến trúc của mô hình để gây ra sự phụ thuộc vào dữ liệu không mong muốn.Một ví dụ của tấn công đầu độc mô hình là tấn công tên lửa (adversarial attack)trong học sâu, trong đó kẻ tấn công thêm nhiễu hoặc biến đổi dữ liệu huấn luyện
để gây ra sai lệch trong việc phân loại hoặc đánh lừa mô hình
2.2.2 Tắn công đều độc dữ liệu
Nhắm đến việc làm nhiễm độc tập dữ liệu được dùng để huấn luyện mô hình
của mô hình học máy, kẻ tấn công có thể chèn các mẫu dữ liệu có nhãn sai
hoặc dữ liệu mang tính chất gian lận vào tập huấn luyện, dẫn đến việc mô hình
học những quy tắc không chính xác và đưa ra các dự đoán không tin cậy [30].
Trường hợp này sẽ có khả năng xuất hiện khi kẻ tấn công tạo ra các mẫu dit
liệu có nhãn sai hoặc những mẫu dữ liệu chứa thông tin độc hại được chèn vào
tập dữ liệu thu thập cục bộ này Khi mô hình hoc từ tập dit liệu trên, nó có
thể học những đặc trưng không chính xác hoặc gây ra sự phụ thuộc vào dit liệukhông mong muốn Theo [12],mục đích sau cùng của các cuộc tấn công ở mức
độ dữ liệu đều là làm thay đổi đầu ra của máy khách, vì vậy tấn công đầu độc
dữ liệu có thể xem như một dang đặc biệt của tấn công đầu độc mô hình
Một cách tấn công dau độc dit liệu khác là chèn dữ liệu độc hại vào tập huấn
luyện Ví dụ, nghiên cứu [10] đã chi ra cách thức kẻ tấn công có thể chèn mãđộc vào ảnh trong tập huấn luyện để tạo ra các mẫu dữ liệu lây nhiễm Mô hìnhhuấn luyện trên tập dữ liệu này có thể trở nên không đáng tin cậy và dễ bị tấncông khi triển khai
2.3 Học sâu
2.3.1 Học sâu va mang no-ron nhaén tạo
Kiến trúc của mạng nơ-ron nhân tao được lấy cảm hứng từ kiến trúc của bộ
não con người [20] Mau chốt của ý tưởng này là tạo ra cấu trúc mới cho hệthống xử lý thông tin Kiến trúc tiêu chuẩn của một mạng nơ-ron gồm các bộ
xử lý đơn giản liên kết lại, tên gọi khác là nơ-ron, được sắp xếp theo lớp Mỗi
Trang 25bộ xử lý tạo ta một chuỗi các kích hoạt có giá trị thực Các nơ-ron trong mỗi
lớp nhận thông số đầu vào từ lớp trước và sau đó tính toán đầu ra dựa trên giátrị đầu vào vừa nhận được Kết quả đầu ra từ các nơ-ron ở lớp cuối cùng sau
đó được sử dụng để đưa ra dự đoán hoặc phân loại Kiến trúc này được minh
từ dit liệu Một số nơ-ron có thể ảnh hưởng đến môi trường bằng cách kích hoạt
các hành động Tuỳ vào vấn đề và cách các nơ-ron được kết nối, các hành vi của
mạng có thể là một chuỗi các giai đoạn tính toán dài, trong đó mỗi giai đoạn sẽ
biến đổi (thường là phi tuyến tính) việc kích hoạt tổng hợp của mạng
Mặt khác, học sâu [11] được hình thành từ nhiều lớp nơ-ron ẩn có khả năng
xử lý nhiều tác vụ phức tap hơn trên một lượng lớn di liệu, gồm cả cấu trúc
và phi cấu trúc Học sâu xác định các mẫu trong dữ liệu thế giới thực như âmthanh, văn bản, hình ảnh và chuỗi thời gian, sử dụng mô hình đã được huấnluyện để cải thiện độ chính xác của các dự đoán của chúng Công nghệ học sâu
sử dụng nhiều lớp để thể hiện sự trừu tượng của dữ liệu nhằm tạo nên các môhình tính toán Một điểm cần lưu ý về học sâu là công nghệ này mất nhiều thời
16
Trang 26gian để đào tạo một mô hình do số lượng tham số lớn, nhưng trong quá trìnhthử nghiệm lại chỉ tổn một khoảng thời gian ngắn để chạy so với các thuật toán
học máy khác [31].
2.3.2 Mạng no-ron tích chập
CNN [13] là một loại mạng no-ron nhân tạo được thiết kế để chuyên xử lýcác loại dữ liệu có cấu trúc lưới như hình ảnh, âm thanh và video Kiến trúccủa CNN dựa trên cơ chế học tập sâu thông qua việc sử dụng các lớp tích chập
(convolutional layer) và lớp gộp (pooling layer) Theo Hình 2.6, mỗi bộ dữ liệu
đầu vào sẽ được truyền qua một bộ lớp tích chập có bộ loc (kernels), tổng hợp
lại các lớp được kết nối đầy đủ (fully connected) và áp dụng hàm Softmax đểđưa ra dự đoán cuối cùng Kiến trúc này cho phép mạng nơ-ron này tự học đượccác đặc trưng khó và phức tạp của dữ liệu đầu vào
FEATURE LEARNING CLASSIFICATION
Hình 2.6: Minh hoa luồng CNN wit ly hành ánh dau vao va phan loại các đối
tượng dựa trên các giá tri được tính toán
2.3.2.1 Convolutional Layer
Convolutional layer là một phan tối quan trong cấu thành nên kiến trac CNN.Trong lớp này, bộ loc (kernel) được sử dung trên toàn bộ dữ liệu đầu vào đểtrích xuất các đặc trưng quan trọng từ đầu vào Bộ lọc này di chuyển theo từngbước nhỏ (stride) trên toàn bộ đầu vào và thực hiện phép tích chập để tạo racác bản đồ đặc trưng (feature maps)
Trang 272.3.2.2 Batch Normalization
Batch Normalization là một kỹ thuật quan trong trong CNN nhằm cải thiệnhiệu suất huấn luyện bằng cách chuẩn hoá đầu ra của các lớp Điều này giúptăng cường sự ổn định và tốc độ hội tụ của mô hình Nó hoạt động bằng cáchđiều chỉnh dữ liệu đầu vào của mỗi lớp trong mạng sao cho chúng có giá trịtrung bình xấp xỉ 0 và độ lệch tiêu chuẩn xấp xỉ 1 Điều này giúp tạo ra các đầuvào chuẩn hóa và ổn định hơn cho các lớp tiếp theo
Quá trình Batch Normalization bao gồm chuẩn hóa các đặc trưng trong từngbatch của dữ liệu huấn luyện Trước tiên, tính trung bình và độ lệch tiêu chuẩncủa các đặc trưng trong batch hiện tại Tiếp theo, chuẩn hóa các đặc trưng bằngcách trừ đi giá trị trung bình và chia cho độ lệch chuẩn
Batch Normalization giúp ổn định quá trình huấn luyện, giảm độ dao độngcủa đầu ra và giúp mang hoc tập nhanh hơn Nó cũng giúp giảm thiểu vấn đềphân rã và cải thiện tính tổng quát của mạng
2.8.2.3 Stride
Stride là thông số xác định bước nhảy của bộ lọc khi thực hiện tích chap trên
đầu vào Nếu stride là 1, bộ lọc di chuyển một bước một lần Nếu stride lớn hơn
1, bộ lọc sẽ đi chuyển theo khoảng cách lớn hơn, giảm kích thước đầu ra Stride
được sử dụng để kiểm soát kích thước của bản đồ đặc trưng và tốc độ tính toán.
2.3.2.4 Padding
Padding là quá trình thêm các giá trị 0 xung quanh đầu vào trước khi thực
hiện tích chập Mục đích của padding là bảo tồn kích thước của dữ liệu đầu vào
sau khi truyền qua lớp tích chập, đảm bảo rằng thông tin ở biên cũng được xử
lý đúng mức Có hai loại padding phổ biến là ‘valid’ (không padding) và ’same’(padding sao cho kích thước đầu ra bằng kích thước đầu vào)
2.3.2.5 ReLU
Ham Rectified Linear Unit là một hàm kích hoạt thường được đặt sau lớp
tích chập Hàm ReLU thực hiện một phép so sánh đơn giản: nếu dữ liệu đầu vào
18
Trang 28có giá trị lớn hơn 0 thì đầu ra sẽ được giữ nguyên bằng giá trị đầu vào; ngượclại, nếu đầu vào ở trường hợp ngược lại, giá trị đầu ra sẽ là 0.
ReLU giúp loại bỏ các giá trị âm và tăng tính phi tuyến của mô hình Bằng
cách áp dụng hàm ReLu, mạng nơ-ron có thể học được các đặc trưng phức tạphơn và khái quát tốt hơn Mục dich sử dụng hàm ReLU là kích hoạt đầu ra củacác lớp tích chập, cải thiện khả năng học tập của mô hình và tạo tính phi tuyến
tính cho mô hình.
2.3.2.6 Pooling Layer
Pooling layer được sử dung để giảm kích thước của bản đồ đặc trưng vàgiảm độ phức tạp tính toán Lớp gộp thực hiện việc chọn giá trị lớn nhất (max
pooling) hoặc trung bình (average pooling) trong một khu vực nhỏ trên bản đồ
đặc trưng Quá trình này giúp giữ lại các đặc trưng quan trọng và giảm số lượng
Average Pooling
go Bae
Hinh 2.7: Cách Maz pooling va Average pooling làm giảm kích thước mô hành
2.4 Layer-Wise Relevance Propagation
Layer-Wise Relevance Propagation [21, 4] (tam dịch: Tuyên truyền mức độliên quan theo lớp) được dùng để diễn giải các dự đoán của mang no-ron và chỉ
ra những tập thuộc tính mà mạng nơ-ron đã dùng để đưa ra quyết định Dữliệu đầu vào của LRP có thể ở nhiều dạng như ảnh, videos hay văn bản [3, 1,2| LRP hoạt động bằng cách truyền dự đoán ngược qua mạng, từng lớp và gán
Trang 29điểm phù hợp cho từng nơ-ron trong mỗi lớp Độ liên quan của một nơ-ron làthước đo mức độ đóng góp của nơ-ron đó vào dự đoán cuối cùng.
LRP là một kỹ thuật toàn vẹn, nghĩa là độ lớn của bất kỳ đầu ra nào phải
được bảo toàn thông qua quá trình lan truyền ngược đến lớp thấp hơn và bằngtổng của bản đồ liên quan R của lớp đầu vào Điều này có nghĩa là tong điểm
số liên quan sẽ bằng dự đoán cuối cùng của mạng
Ý tưởng cơ bản của LRP là gán điểm liên quan cho các nơ-ron và đặc trưng
đầu vào của một mạng nơ-ron, chỉ ra sự đóng góp của chúng đối với dự đoáncuối cùng Những điểm liên quan này được lan truyền ngược qua các tầng củamạng, cung cấp một bản phân tích về mức độ liên quan tại mỗi tầng Quá trìnhnày cho phép chúng ta hiểu rõ phần nào của đầu vào đang điều khiển quá trình
ra quyết định của mô hình Cách thức lan truyền của LRP phải tuân thủ tínhbảo toàn dữ liệu, tức tổng giá trị đầu vào của một nơ-ron phải được truyền tiếptục cho lớp thấp hơn một cách toàn vẹn
Trong quá trình lan truyền này, LRP đánh giá cả những đóng góp tích cực
lẫn tiêu cực Diểm liên quan tích cực nhấn mạnh các đặc trưng có tác động tíchcực đến dự đoán, trong khi điểm liên quan tiêu cực chỉ ra các đặc trưng ảnhhưởng xấu đến dự đoán Thông tin này giúp hiểu rõ những mạnh yếu của quátrình ra quyết định của mô hình
Nhờ vào LRP, các nhà nghiên cứu và người thực hành có thể hiểu hơn về
hoạt động bên trong các mô hình mạng nơ-ron phức tạp N6 giúp xác định các
đặc trưng và neuron quan trọng nhất đối với các dự đoán, từ đó giúp hiểu rõ
và giải thích cách tính toán ra quyết định của mô hình Hơn nữa, LRP có thể
hỗ trợ trong việc phát hiện các thiên vị hoặc sự phụ thuộc không mong muốntrong hành vi của mô hình, từ đó giúp xác định và giảm thiểu các lỗ hổng nhưtấn công đầu độc và dữ liệu không đồng nhất
Gọi 7 và k là 2 no-ron ở 2 lớp liền kề, z;7 là đại lượng mô phỏng mức độ nơ-ron
7 đóng góp để làm nơ-ron k có liên quan
Trang 30_ 25k
lị = yy = sụn (2.5)
Mẫu số dùng để thực hiện tính toàn vẹn của LRP Quy trình lan truyền sẽkết thúc một khi có được bản đồ đặc trưng dùng thể hiện quá trình đưa ra quyếtđịnh của mạng Không khó để thấy được tính toàn vẹn được thể hiện rất rõ:
5); Hị = 3), Re và mở rộng thành tính toàn vẹn toàn cục 5, Ri = f(x) Hình
2.8 thể hiện cách LRP lan truyền sự liên quan qua các lớp trong khi vẫn đảm
bảo được tính toàn vẹn của dữ liệu.
output
Hình 2.8: Cách hoạt dong của LRP: Mỗi no-ron phân bố lại những gà nhậnđược từ lớp cao đến lớp thấp hơn
(21)
2.5 Phân phối dữ liệu không đồng nhất
Dữ liệu đào tạo trên mỗi máy khách trong PL phụ thuộc rất nhiều vào bộ dữliệu cục bộ của các máy khách trong mô hình học liên kết và do đó, việc phânphối dữ liệu của các máy khách có thể hoàn toàn khác nhau Hiện tượng nàyđược gọi là Non-IID [19] Điều này có thể gây ra sự phân kì mô hình nghiêmtrọng, đặc biệt là mô hình tham số trong học liên kết theo chiều doc
Cụ thể hơn, trong tác vụ học có giám sát trên máy khách k, gọi mỗi mẫu dữ
liệu (x,y), với z là giá trị đầu vào hoặc thuộc tính, là nhãn và 7;(z, ) là sự
phân phối dữ liệu cục bộ Trong trường hợp dữ liệu Non-HD, giá trị P;, giữa các máy khách là khác nhau [36].
2.5.1 Phân loại dữ liệu không đồng nhất
Trong quá trình phân loại dữ liệu không đồng nhất, chúng ta sẽ gặp hai khía cạnh chính là lệch đặc trưng (attribute bias) và lệch nhãn (label bias) [12].
Trang 312.5.1.1 Lệch đặc trưng
Dữ liệu không đồng nhất theo khía cạnh attribute xảy ra khi các đặc trưngcủa dữ liệu 7„(z) khác nhau dựa vào sự khác biệt về đặc điểm của thiết bị thuthập hoặc nguồn di liệu Ví du, trong bài toán phân loại ảnh, bên cạnh thiết
bị có thể chụp ảnh với độ phân giải cao, các thiết bị khác có độ phân giải thấp.Điều này dẫn đến việc các đặc trưng của ảnh không đồng đều giữa các thiết bị,gây ra sự không đồng nhất trong dữ liệu
2.5.1.2 Lệch nhãn
Dữ liệu không đồng nhất theo khía cạnh label xảy ra khi các nhãn (label) của
dữ liệu không phân phối đồng đều giữa các thiết bị hoặc nguồn dữ liệu Ví du,
trong bài toán phân loại email vào các hộp thư theo yêu cầu, một số người dùng
có thể có xu hướng gửi nhiều email vào hộp thư đến hơn là thư rác và ngược lại
Do đó, dữ liệu thu thập được từ các người dùng sẽ không đồng nhất theo khía
cạnh nhãn.
Trong cả hai trường hợp, dữ liệu không đồng nhất gây khó khăn với hiệu suất
của mô hình học liên kết khi làm giảm tính tổng quát trong quá trình học
2.6 Một số công trình nghiên cứu liên quan
Nhiều bài nghiên cứu về phát hiện tấn công đầu độc dit liệu được ra đời,tuy nhiên những bài nghiên cứu này đa phần xoay quanh việc bảo vệ hệ thống
học tập trung |8, 24, 23] Bên cạnh đó, quy trình phát hiện của những phương
pháp này cũng yêu cầu toàn quyền truy cập vào dữ liệu huấn luyện Đây là mộtkhuyết điểm lớn vì đối với hệ thống học liên kết, yếu tố bảo mật dữ liệu của các
bên là tối quan trọng.
Vi vậy, bài báo [35] đã đề xuất phương pháp phát hiện tấn công đầu độc dữ
liệu dựa vào việc trích xuất đường dẫn lớp nhờ LRP.
Cụ thể hơn, đường dẫn lớp được cấu thành từ các nơ-ron quan trọng trongmạng nơ-ron sâu có đóng góp đáng kể với quyết định mô hình của mẫu lưu lượngtruy cập trong cùng một lớp như thể hiện trong Hình 2.9)
22
Trang 33CHƯƠNG 3 PHƯƠNG PHÁP THỰC NGHIỆM
Tóm tắt chương
Đây là chương mà nhóm chúng tôi đưa ra mô tả về mô hình đề xuất và cách
hoạt động của mô hình này để phục vụ yêu cầu cụ thể của đề tài
3.1 Kiến trúc tổng quát
Khoá luận này hướng đến đề xuất một mô hình học liên kết NIDS nhằm phát
hiện những vấn đề mà một mô hình học liên kết thông thường có thể mắc phải:
tấn công đầu độc và dữ liệu phân phối không đồng nhất Hệ thống nhóm đề
xuất vẫn sẽ mang kiến trúc của một hệ thống học liên kết điển hình được thể
hiện ở hình dưới (Hình 3.1).
Model aggregation
Trang 34Trong mô hình trên có 2 thành phần chính:
e Máy chủ: nơi lưu trữ và tổng hợp trọng số mô hình các máy khách gửi lên
e Máy khách: Nơi thu thập và đào tạo với dữ liệu cục bộ để cho ra mô hìnhcục bộ, tiếp đến gửi lên cho máy chủ tổng hợp
3.2 Thuật toán FedAvg và FedDC
3.2.1 FedAug
Giải thuật Federated Averaging (FedAvg) [18] là một giải thuật quan trọng
và phổ biến trong lĩnh vực học liên kết (Federated Learning) Giải thuật được
mô tả trong hình 3.2.
Ý tưởng của giải thuật FedAvg là tổng hợp và cập nhật các mô hình địa
phương từ các thiết bị người dùng thành một mô hình toàn cục trên máy chủ
trung tâm Các bước thực hiện cau FedAvg được thể hiện chi tiếp ở Hình 3.2.C6 thể giải thích FedAvg theo cách khác như sau:
e Bước 1: Server: Khởi tạo tham số wo
e Bước 2: Server chọn ngẫu nhiên các client tham gia vào việc cải thiện mô
inh (điều khiển số lượng client bằng tham số C, tổng số lượng client là K),
và gửi tham số mô hình hiện tại đến client
e Bước 3: Các client: thực hiện tối wu mô hình nhận được từ server trên tập
dữ liệu cục bộ bằng SGD (số epoch £, mini-batch size 8)
e Bước 4: Các client: gửi lại tham số mới của mô hình cho server
e Bước 5: Server: tính trung bình các tham số mới nhận được tit các client
với trọng số bằng số lượng mẫu dữ liệu tương ứng trên client
e Bước 6: Quay lại bước 2 để tiếp tục một vòng lặp mới
Quá trình này sẽ được lặp lại đến khi độ chính xác của mô hình phù hợp vớiyêu cầu hoặc khi không còn cải thiện đáng kể nữa