1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp An toàn thông tin: Nghiên cứu phương pháp học liên kết an toàn cho trình cộng tác phát hiện tác nhân đe dọa trong ngữ cảnh phân phối dữ liệu không đồng nhất

68 3 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên cứu phương pháp học liên kết an toàn cho trình cộng tác phát hiện tác nhân đe dọa trong ngữ cảnh phân phối dữ liệu không đồng nhất
Tác giả Pham Thi Thanh Binh, Nguyen Huynh Ba Phuc
Người hướng dẫn ThS. Nghi Hoang Khoa
Trường học Đại học Công nghệ Thông tin - ĐHQG TP.HCM
Chuyên ngành An toàn thông tin
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2023
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 68
Dung lượng 19,56 MB

Nội dung

TÓM TẮT KHOÁ LUẬNNhu cầu về việc huấn luyện mô hình học máy trong các thiết bị phân tán nhưng vẫn giữ được tính bảo mật dữ liệu đang dần trở thành điểm nóng, và trong thời gian gần đây,

Trang 1

PHAM THỊ THANH BÌNH - 19520416 NGUYÊN HUỲNH BÁ PHÚC - 19522039

KHOÁ LUẬN TỐT NGHIỆP

NGHIÊN CỨU PHƯƠNG PHÁP HỌC LIÊN KẾT AN

TOÀN CHO TRÌNH CỘNG TÁC PHÁT HIỆN TÁC

NHÂN DE DOA TRONG NGỮ CẢNH PHAN PHỐI

DỮ LIỆU KHÔNG ĐỒNG NHẤT

A STUDY ON SECURITY-ENHANCED FEDERATED LEARNING FOR CYBER THREAT DETECTION IN THE

CONTEXT OF NON-IID DATA

KY SU NGANH AN TOAN THONG TIN

GIANG VIEN HUGNG DAN:

ThS Nghi Hoang Khoa

TP.H6 Chi Minh - 2023

Trang 2

LỜI CẢM ƠN

Trong quá trình nghiên cứu và hoàn thành đồ án, nhóm đã được thầy Nghi

Hoàng Khoa định hướng, giúp đỡ và cho ý kiến đóng góp trong suốt thời gian

lên ý tưởng và thực hiện bài khoá luận này Bên cạnh đó các anh/chị/bạn dang công tác tại Phòng thí nghiệm An toàn thông tin - InSecLab đã quan tâm, giúp

đỡ và tạo điều kiện hết mức cho nhóm trong khoảng thời gian này.

Bên cạnh đó, nhóm chúng tôi vô cùng biết ơn gia đình và bạn bè đã là nguồnđộng viên to lớn về mặt tỉnh thần, cũng như đưa ra rất nhiều ý kiến mang tínhxây dựng cho ý tưởng của nhóm trong suốt quá trình làm khoá luận

Nhóm cũng chân thành cẩm ơn các quý thầy cô trường Dai học Công nghệ

Thông tin - ĐHQG TP.HCM, đặc biệt là các thay cô thuộc bộ môn An toàn

Thông tin đã giúp đỡ nhóm hết minh.

Nhóm thực hiện.

Trang 3

MỤC LỤC

CHƯƠNG 1 TONG QUAN ĐỀ TÀI

11 Lý do chọn đề tài ee

1.2 Phương pháp nghiên đỨu Ặ SẺ.

13 Mục tiêu nghiên cứu ee

1.4 Phạm vi và đối tượng nghiên cứu

1.5 Cấu trúc khoá luận tốt nghiệp

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT 21 Họclenkết đc" wm

2.11 Tổng quan về học liên kết

2.1.2 Các thành phần chính trong mô hình học liên kết

2.1.3 Phân loại học lên kết

2.2 Tấn công đầu độc Q2 nha 2.2.1 Tấn công đầu độc môhình

2.2.2 Tấn công đầu độc dữ liệu

2.3 Họcsâu Quy y2 2.3.1 Học sâu và mạng no-ron nhân tạo

2.3.2 Mạng nơ-ron tích chập ee ee 2.4 Layer-Wise Relevance Propagation

5 Phân phối dit liệu không đồng nhất

2.5.1 Phân loại dữ liệu không đồng nhất

2.6 Một số công trình nghiên cứu liên quan

CHƯƠNG 3 PHƯƠNG PHÁP THỰC NGHIỆM 3.1 Kiến trúc tổng quất cv 3.2 Thuật toán FedAvg và FedDC

3.2.1 FedAvg 2.2 0.0.0.0 eee 3.2.2 EedDC ee 3.2.3

Bodwligusttdung 000-21 21 22

24 24

25

25 26

Trang 4

3.2.4 Giới thiệu mô hình đề xuất

CHƯƠNG 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ

Trang 5

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

ML Machine Learning CNN Convolutional Neural Network

FL Federated Learning IDS Intrusion Detection System RNN Recurrent Neural Network SGD Stochastic Gradient Descent

NN Neuron Network LSTM Long Short-Term Memory LRP Layer-Wise Relevance Propa-

gation

Trang 6

Tấn công đầu độc dữ liệu

Tan công đầu độc mô hình

Data poisoning attacks Model poisoning attacks Class path

Label-flipping attack Neural network

Convolutional neural network Long short-term memory

Batch normalization

Trang 7

DANH MỤC HÌNH VE

inh 2.1 Kiến trúc mô hình học liên kết điển hình

inh 2.2 Môi trường học liên kết phân tán

ình 2.3 Phân loại học liên kết dựa vào cách phân chia dit ligu .inh 2.4 Minh hoa hai kiểu tấn công đầu độc trong một mô hình học

liên Kết ee

ình 2.5 Kiến trúc mạng nơron nhân tạo

ình 2.6 Minh hoạ luồng CNN xử lý hình ảnh đầu vào và phân loại

các đối tượng dựa trên các giá trị được tính toán inh 2.7 Cách Max pooling và Average pooling làm giảm kích thước

mô hình £7 4£P ÀA

ình 2.8 Cách hoạt động của LRP: Mỗi nơ-ron phân bố lại những gi

nhận được từ lớp cao đến lớp thấp

hơn -inh 2.9 Mhơn -inh hoạ phương pháp phát hiện dữ liệu bị đầu độc

inh 3.1 Mô hình đề xuất ẶẶ

inh 3.2 Minh hoa giải thuật FedAvg

inh 3.3 Minh hoa giải thuật FedDC inh 3.4 Số lượng record theo từng nhãn

inh 3.5 Mô hình đề xuất để giải quyết dữ liệu không đồng nhất

inh 4.1 Tỷ lệ nhãn của từng client ee

inh 4.2 Số lượng records của từng Client trong Roundl ình 4.3 Số lượng records trong từng Round của Client0 inh 4.4 Biểu đồ so sánh Accuracy giữa FedAvg và FedDC cùng sử

Trang 9

DANH MỤC BA NG BIEU

Bảng 3.1 So sánh số lượng record trong bộ dữ liệu CSE-CIC-IDS2017

và CSE-CIC-IDS2018

Bảng 4.1 Tổng số lượng records dùng để chia trong trường hợp chia

Bảng 4.3 Tổng số lượng records dùng để chia trong trường hợp chia

dit liệu Non-IID cho 10 client trong 5 round

Bang 4.2 Bảng thống kê tập dữ liệu chia theo IID cho 10 clients trong

Bảng thống kê dataset chia

20 Round (tiếp theo)

bộ dữ liệu Non-IID

h giá khi triển khai t

bộ dữ liệu Non-ITD

hai t với bộ dữ liệu

Bảng đánh giá khi triển

và train với bộ dữ liệu

và train với bộ dữ liệu Non-I

theo Non-IID cho 10 Client

theo Non-IID cho 10 Client

huật toán FedAvg trên mode

on-IID

an

huật toán FedDC trên mode

huật toán FedAvg trên mode

huật toán FedDC trên mode Non-IID

huật toán FedAvg trên mode 1D

Trang 10

TÓM TẮT KHOÁ LUẬN

Nhu cầu về việc huấn luyện mô hình học máy trong các thiết bị phân tán

nhưng vẫn giữ được tính bảo mật dữ liệu đang dần trở thành điểm nóng, và

trong thời gian gần đây, học liên kết là được ra đời với ý tưởng là mô hình học

máy có thể đáp ứng được nhu cầu này Đặc điểm chính của mô hình này là máy

khách lưu dữ liệu cục bộ và chỉ chia sẻ mô hình cập nhật đến máy chủ chung.

Nhờ điểm này, học liên kết đã giải quyết được một vấn đề về quyền riêng tư

Tuy nhiên mô hình nào cũng có rủi ro, học liên kết cũng vậy Mặc dù đã có

rất nhiều các bài nghiên cứu về điểm yếu của học liên kết và cách khắc phụcchúng Tuy nhiên những đề xuất này van chưa thể giải quyết ổn thoả và triệt đểnhững vấn đề mà mô hình học liên kết phải đối mặt Vì đĩ đó, trong phạm vi bài

khoá luận này, nhóm hướng đến việc nghiên cứu phương pháp tăng hiệu suất

của mô hình học liên kết trong ngữ cảnh phân phối dữ liệu không đồng nhất vàchống lại tấn công đầu độc để tránh các cuộc tấn công nhắm vào mô hình Cụthể, chúng tôi dùng bộ dữ liệu CSE-CIC-IDS2018 là nguồn dit liệu để đào tạo

mô hình đề xuất, đồng thời sử dụng thuật toán tổng hợp FedDC để giải quyếtvấn đề dữ liệu không đồng nhất Sau cùng là phần đánh giá và nhìn nhận kếtquả đã đạt được và đề xuất những cách có thể phát triển khoá luận này trong

tương lai.

Trang 11

CHƯƠNG 1 TONG QUAN DE TÀI

bảo vệ những dữ liệu nhạy cảm khỏi bị rò rỉ Vì vậy các giải pháp an ninh mang

mạnh mẽ và hiệu quả là tối quan trọng mà các tổ chức cần lưu ý để giảm thiểucác mối đe doạ này đối với hệ thống của mình Các phương pháp đào tạo vàphan tích mô hình sử dung dif liệu tập trung truyền thống dang gặp vấp phảinhững lo ngại về vấn đề an toàn thông tin khi các tổ chức phải chia sẻ những

di liệu nhạy cảm không mong muốn Với lý do này, học liên kết đã ra đời vớiđặc điểm cho phép các bên chia sẻ mô hình thay vì dữ liệu thô, nhằm giải quyết

thách thức trên.

Một trong những lợi thế quan trọng của học tập liên kết nằm ở khả năng bảo

vệ quyền riêng tư của dữ liệu, vì dữ liệu nhạy cảm vẫn được phân cấp và lưutrữ cục bộ trên các thiết bị tham gia Thực tế, đa phần các nghiên cứu hiện nayđều giả định dit liệu co bản được phân phối giống hệt nhau, điều này hiếm khi

đúng trong thế giới thực Lúc này, các nguồn để thu thập dữ liệu rất đa dạng và

thường thể hiện tính không đồng nhất về mặt thống kê, được đặc trưng bởi cácbiến thể trong phân phối tính năng, kích thước dữ liệu và mắt cân bằng nhãn

Dữ liệu phân phối không đồng nhất như vậy có thể phát sinh do các yếu tô như

sự khác nhau về tệp khách hàng, vị trí địa lý hoặc khả năng của thiết bị.

Việc sử dụng dit liệu ID trong học liên kết có thể làm giảm hiệu suất mô hình

và can trở việc phát hiện các mẫu toàn cục hoặc thông tin chuyên sâu trong tập

2

Trang 12

dữ liệu chung Do đó, việc giải quyết các thách thức do dit liệu Non-HD gây ra

là rất cần thiết để nâng cao hiệu quả tổng thể của học liên kết trong phát hiệnmối đe dọa trên mạng

Nghiên cứu này điều tra học tập liên kết được tăng cường bảo mật trong bốicảnh dit liệu Non-IID để phát hiện mối de dọa trên mạng Với mục đích kết hợp

mô hình học liên kết, hệ thống phát hiện xâm nhập và dữ liệu Non-IID, nghiêncứu này tìm cách rút gọn sự cách biệt giữa các giả định lý thuyết và ứng dụngthực tế Những phát hiện của nghiên cứu này có thể nâng cao đáng kể hiệu quảcủa học tập liên kết để phát hiện mối đe dọa mạng trong môi trường thực tế,dẫn đến cải thiện tính bảo mật và hiệu suất hệ thống tổng thể

Dưới đây là một số lý do thúc đẩy nhóm chọn đề tài này:

1 Tính phù hợp thực tế: Số lượng các mối đe doạ mạng và sự phụ thuộcvào các hệ thống kỹ thuật số ngày càng tăng trong các lĩnh vực khác nhau

doi hỏi phải có các giải pháp an ninh mạng mạnh mẽ và hiệu quả Nghiên

cứu này giải quyết tính cấp thiết và cấp bách trong môi trường phát hiện

xâm nhập mạng bằng cách khám phá ứng dụng học tập liên kết được tăng

cường phát hiện các mối đe dọa trên mạng

2 Đặc điểm dữ liệu trong thế giới thực: Trong nhiều tình huống thực

tế, giả định về dữ liệu được phân phối giống hệt nhau là không thực tế

Hiểu và giải quyết các thách thức của dữ liệu Non-IID trong bối cảnh học

liên kết là yếu tố tiên quyết để mở khóa tiềm năng của phương pháp nàyvới mục đích ứng dụng vào thực tiễn Nghiên cứu này nỗ lực phát triển cácthuật toán và kỹ thuật để xử lý tính không đồng nhất thống kê và độ lệch

phân phối thường gặp trong dữ liệu Non-HID.

3 Cải thiện hiệu suất hệ thống: Bằng cách phát triển phương pháp họctập liên kết được tăng cường bảo mat phù hợp với dữ liệu Non-HD, mụctiêu của nghiên cứu này là nâng cao hiệu suất, độ hội tụ và độ chính xác

của hệ thống phát hiện mối đe dọa mạng Những cải tiến như vậy mang

tính quyết định đối với các tổ chức đang tìm kiếm các giải pháp đáng tin

cậy để phát hiện và giảm thiểu các mối đe dọa trên mạng.

4 Khoảng cách nghiên cứu và đóng góp: Mặc dù học tập liên kết đã nhậnđược nhiều sự chú ý từ khi ra mắt, những thách thức do dữ liệu Non-IID

Trang 13

đặt ra và việc tích hợp các cơ chế bảo mật vẫn chưa được nghiên cứu bàibản Bài khoá luận này có mục đích bổ sung kiến thức về điểm yếu của hệthống học liên kết và cung cấp những hiểu biết thực tế về việc triển khai

học liên kết được tăng cường bảo mật để phát hiện các cuộc tấn công mạng

khi có dit liệu Non-IID.

Vì lẽ đó, nhóm muốn thực hiện đề tài này với mục tiêu tăng độ bảo mật cho

hệ thống học máy trong lĩnh vực an ninh mạng

1.2 Phương pháp nghiên cứu

Cách tiếp cận của nhóm là tìm hiểu về học liên kết, cách hoạt động củaphương pháp học máy này và những lỗ hong của nó so với những yêu cầu củathời đại Tiếp đó, đề xuất một thuật toán tổng hợp có thể giải quyết yếu điểm

đó (FedDC) [9| trong bối cảnh yêu cầu nhằm tăng tính hiệu quả của mô hình

huấn luyện trong bài toán phân phối dữ liệu không đồng nhất Tiếp theo, nhóm

đề xuất một hệ thống chống lại tấn công đầu độc, giúp tăng tính an toàn của

mô hình học liên kết CUối cùng, nhóm sẽ tiến hành thực nghiệm, nhận xét và

đề xuất hướng phát triển phù hợp của đề tài nếu có

1.3 Mục tiêu nghiên cứu

Bao gồm hai mục tiêu chính sau đây:

1 Phân tích và đánh giá các cơ chế chống lại tấn công đầu độc dữ liệu hiện

có phù hợp với mô hình học liên kết nhằm xác định phương pháp hiệu quảnhất để giữ vững quyền riêng tư và an toàn thông tin trong quá trình họcliên kết

2 Nghiên cứu và áp dụng các thuật toán và kỹ thuật mới để giải quyết cácthách thức của dữ liệu Non-IID trong bối cảnh học tập liên kết Việc này

ao gồm các kỹ thuật xử lý tính không đồng nhất thống kê, thích ứng phanhối dữ liệu và chuẩn hóa tính năng để nâng cao hiệu suất và sự hội tụ củaphương pháp đề xuất

Trang 14

Nhó

tăng tí

Phạm vi và đối tượng nghiên cứu

m chúng tôi sẽ nghiên cứu về cơ chế chống lại tấn công đầu độc nhằm

nh bảo mật của hệ thống học liên kết Bên cạnh đó, nhóm cũng sẽ tìmhiểu về tác động của dữ liệu Non-HD trong hệ thống học liên kết và cách để hạnchế ảnh hưởng tiêu cực đến hiệu suất mô hình

1.5. Cau trúc khoá luận tốt nghiệp

Được thể hiện trong 5 chương:

« Chương 1: TONG QUAN ĐỀ TÀI

eC

eC

eC

Khái quát về đề tài khoá luận mà chúng tôi thực hiện.

« Chương 2: CƠ SỞ LÝ THUYET

Cung cấp cơ sở lý thuyết, định nghĩa và những kiến thức liên quan đến cáchái niệm cần dùng trong bài nghiên cứu Đồng thời trình bày sơ lược về

những bài báo nghiên cứu liên quan.

hương 3: PHƯƠNG PHÁP THUC HIỆN

Đây là phần trọng tâm của bài Bao gồm đề xuất mô hình và giải thích

phương pháp thực hiện.

ương 4: THỰC NGHIỆM VÀ DÁNH GIÁ

Trinh bày cách thực hiện theo phương pháp được đề xuất ở chương trước,

mô tả kết quả và đưa ra đánh giá dựa trên những gì đã thực hiện.

ương 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIEN

N in nhận kết qua thực hiện được, cũng như cung cấp hướng phát triểncho các bài nghiên cứu tiếp theo

Trang 15

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT

Tóm tắt chương

Đây là phần nhóm chúng tôi sẽ giải thích các khái niệm cần thiết của khoáluận Dầu tiên là giới thiệu tổng quan về học liên kết, cách hoạt động và nhữngkhái niệm cần dùng cho bài khoá luận này

2.1 Học liên kết

2.1.1 Tổng quan vé học liên kết

Đây là một mô hình học máy phi tập trung cho phép đào tạo mô hình hợp

tác trên nhiều thiết bị hoặc thực thể mà vẫn đảm bảo quyền riêng tư của dữliệu Theo cách tiếp cận này, thay vì gửi dữ liệu thô đến một máy chủ tập trung,các thiết bị riêng lẻ sẽ đào tạo mô hình và chỉ trao đổi qua lại các bản cập nhậthoặc độ dốc của nhau trong suốt quá trình học Máy chủ trung tâm sẽ là nơitổng hợp các bản cập nhật này để tạo nên một mô hình toàn cục từ thông sốchung của tất cả các thiết bị tham gia Hình 2.1 minh hoạ cách hoạt động của

mô hình học may này.

Trang 16

Hình 2.1: Kiến trúc mô hành học liên kết điển hành

[26]

Lần đầu tiên, từ khoá "hoc liên kết" được các nhà nghiên cứu của Google giới

thiệu trong một bài báo chuyên đề ở [18] Theo đó, họ đã nhận ra cơ hội của

việc tận dụng dữ liệu phân tán từ thiết bị di động để đào tạo các mô hình máyhọc mà vẫn dam bảo quyền riêng tư của dữ liệu Dé xuất này đã đặt ra mộtkhuôn khổ cho phép các thiết bị cùng học một mô hình dùng chung mà khôngcần cung cấp dữ liệu thô của chúng Trong thời đại công nghệ trí tuệ nhân taođang là nhân tố được chú trọng, học liên kết đang giải quyết những khó khănchính của các nút thắt cổ chai trong ứng dụng AI thương mại bằng cách giữvững quyền riêng tư dữ liệu và giải quyết tình trạng thiếu dữ liệu, đồng thời họcliên kết cũng được áp dụng và có hiệu quả đáng kể trong các lĩnh vực tiếp thị,tài chính, sức khoẻ, giáo dục và nhiều hơn nữa [7, 22, 33, 28]

Dong lực chính đằng sau việc nghiên cứu về học liên kết là để xử lý nhữngvấn đề tồn đọng đến việc lưu trữ và xử lý dit liệu tập trung Những phương thứchọc truyền thống yêu cầu phải thu thập, tổng hợp và lưu trữ ở cùng một nơi,

Trang 17

đây là vấn đề các tổ chức không mong muốn vì nguy cơ tiết lộ dữ liệu nhạy cảm.

Tuy nhiên, đối với học liên kết, dữ liệu vẫn được phân cấp và lưu trữ cục bộ

trên các thiết bị tham gia, giúp hạn chế vấn đề về quyền riêng tư và giảm nhucầu chuyển dữ liệu nhạy cảm sang máy chủ trung tâm

Có thể mô tả về cách hoạt động của học liên kết như sau: Đầu tiên, máy chủtrung tâm hoặc đám mây sẽ khởi tạo ngẫu nhiên một mô hình toàn cầu Sau

đó, các thiết bị tham gia, chẳng hạn như thiết bị cạnh, sẽ nhận được một bảnsao của mô hình toàn cầu Mỗi thiết bị huấn luyện cục bộ mô hình trên dữ liệucủa chính nó, sử dụng các kỹ thuật như giảm dần độ dốc ngẫu nhiên và tínhtoán độ dốc hoặc cập nhật mô hình Những cập nhật này sau đó được truyền

an toàn đến máy chủ trung tâm, máy chủ này sẽ tổng hợp và kết hợp chúng vào

mô hình toàn cầu Quá trình đào tạo và tổng hợp cục bộ này được thực hiện lặp

đi lặp lại qua nhiều vòng, cho phép mô hình toàn cầu cải thiện theo thời gian

trong khi vẫn giữ vững yêu cầu về quyền riêng tư của dữ liệu.

Mô hình học liên kết đầu tiên được đề xuất bởi [18] đã đặt nền móng cho cácnghiên cứu và tiến bộ sau này trong lĩnh vực này Kể từ đó, nhiều nghiên cứu

đã tìm hiểu nhiều khía cạnh của học liên kết, chẳng hạn như bảo mật, quyềnriêng tư, hiệu quả giao tiếp và khả năng mở rộng

Vi du, [5] đã giới thiệu khái niệm tổng hợp an toàn dé bảo vệ quyền riêng tưcủa người tham gia trong giai đoạn tổng hợp mô hình Họ đã đề xuất một giaothức mật mã cho phép máy chủ trung tâm tổng hợp các bản cập nhật mô hình

mà không cần truy cập vào các bản cập nhật riêng lẻ, đảm bảo rằng thông tinnhạy cảm vẫn ở chế độ riêng tư

Để giải quyết thách thức về dữ liệu Non-IID, trường hợp phân phối dữ liệukhông giống nhau giữa các thiết bị, [15] đã đề xuất FedProx Dây là một giảipháp được kết hợp từ thuật ngữ lan cận (proximity) vào chức năng mục tiêucủa học liên kết, khuyến khích các mô hình cục bộ trở nên gần giống như môhình toàn cầu FedProx giúp giảm thiểu tác động của dữ liệu Non-IID lên hiệusuất mô hình và tạo điều kiện cộng tác hiệu quả hơn giữa các bên có phân phối

Trang 18

yêu cầu băng thông và nâng cao hiệu suất tổng thể của mô hình học liên kết.

2.1.2 Các thành phần chính trong m6 hinh học liên kết

Học liên kết bao gồm một số thành phần chính cho phép đào tạo hợp tác và

bảo vệ quyền riêng tư của các mô hình học máy trên một mạng phân tán như

sau:

e Máy chủ trung tâm: May chủ trung tâm đóng vai trò là người điều phối trong học liên kết Vai trò chính của nó là điều phối quá trình học tập giữa

các thiết bị tham gia (máy khách) No bắt đầu quy trình đào tạo bằng cách

gửi một mô hình ban đầu cho khách hàng, nhận các mô hình được cập nhật

sau khi đào tạo cục bộ và tổng hợp chúng để tạo ra một mô hình toàn cầu

được cải thiện Máy chủ trung tâm đảm bảo đồng bộ hóa và cộng tác của

các máy khách trong khi cỗ gắng đảm bảo quyền riêng tư của dit liệu

e Thiết bị tham gia (Máy khách): Các bên tham gia, thường được gọi làkhách hàng, là những thiết bị đóng góp trực tiếp trong quá trình học liênkết diễn ra Các thiết bị này có thể là thiết bị cạnh hoặc các nút phân tán

khác Mỗi khách hàng sở hữu tập dữ liệu cục bộ của mình, tập dữ liệu này

thường không được chia sẻ với các khách hàng khác hoặc máy chủ trung

tâm do lo ngại về quyền riêng tư Khách hàng thực hiện đào tạo mô hìnhcục bộ bằng cách sử dụng đữ liệu riêng của họ và sau đó gửi các thông số

mô hình hoặc độ đốc được cập nhật đến máy chủ trung tâm để tổng hợp.

Hoạt động cục bộ của khách hàng có thể thay đổi phụ thuộc vào sức mạnh

tính toán, kết nối mạng và dữ liệu có sẵn.

e Khởi tạo mô hình: Khởi tạo mô hình là việc đầu tiên cần làm để bắt đầuquá trình học liên kết, trong đó máy chủ trung tâm cung cấp mô hình banđầu cho các máy khách tham gia Mô hình ban đầu đóng vai trò là điểmbắt đầu cho quá trình đào tạo, thường được dựa trên tập dữ liệu quy môlớn hoặc thu được từ một mô hình đã tồn tại trước đó Việc khởi tạo nàyđảm bảo rằng quá trình học tập bắt đầu từ một điểm xuất phát hợp lý,giúp hội tụ hiệu quả đến một mô hình toàn cầu hữu ích

e Đào tạo tại địa phương: Dao tạo cục bộ là khi mỗi thiết bị khách đào

tạo mô hình bằng tập dữ liệu cục bộ của nó Bước này được thực hiện riêng

Trang 19

lề ở phía khách hang bang bộ dữ liệu riêng của mình Công việc đào bạo cục

bộ có thể bao gồm một số lần lặp lại, trong đó thiết bị khách cập nhật cáctham số bằng cách sử dụng kỹ thuật giảm dần độ dốc hoặc các kỹ thuậttối ưu hóa khác Quá trình này nhằm tăng hiệu suất của mô hình dựa trên

dữ liệu cục bộ của khách hàng trong khi vẫn đảm bảo dữ liệu không được chia sẻ rộng rãi.

e Tổng hợp mô hình: Tổng hợp mô hình là bước quan trọng trong học liên

ết, trong đó máy chủ trung tâm thu thập các mô hình cập nhật hoặc độ

dốc mô hình từ các máy khách tham gia và tổng hợp thành một mô hình

toàn cầu được tỉnh chỉnh Các phương pháp tổng hợp có thể khác nhau,

với cách tiếp cận phổ biến nhất là FedAvg [18] FedAvg tổng hợp bằng cách

ấy trung bình tham số các bản cập nhật mô hình hoặc độ dốc nhận được

từ máy khách, tạo ra một mô hình đồng thuận phản ánh kiến thức chung

của các thiết bị tham gia Mô hình tổng hợp sau đó được phân phối lại chohách hàng cho các vòng tổng hợp và đào tạo cuc bộ tiếp theo

Các thành phần chính này hoạt động cùng nhau để thiết lập một khuôn khổhọc tập hợp tác và bảo vệ quyền riêng tư trong học liên kết Máy chủ trung tâmđiều phối quá trình đào tạo, khách hàng sẽ huấn luyện mô hình cục bộ trên ditliệu riêng tư của họ và việc tổng hợp mô hình đảm bảo sự hội tụ thành một môhình toàn cầu có lợi từ kiến thức tập thể trong khi vẫn duy trì quyền riêng tưcủa dữ liệu Hiểu các thành phần này là điều cần thiết để hiểu được dòng chảy

và động lực học của các thuật toán học liên kết

2.1.3 Phân loại học liên kết

Học liên kết có thể được chia thành nhiều loại tuỳ theo khía cạnh được xét,bài khoá luận này sẽ đề cập đến 2 khía cạnh phổ biến và liên quan đến đề tàicủa nhóm: dựa vào cấu trúc mạng và đặc điểm phân phối dữ liệu

a) Dựa vào cấu trúc mạng

Mặc dù học liên kết được biết đến là một cấu trúc phi tập trung, dựa vàocấu trúc mạng, học liên kết vẫn được chia thành 2 loại:

10

Trang 20

e Học liên kết tập trung: Hình 2.1 thể hiện đúng cấu trúc của một

mô hình tập trung Ỏ đây, máy chủ trung tâm sẽ là nơi tổng hợp mô

hình của các máy khách Dây cũng là thiết kế hệ thống của Gboard doGoogle phát triển [25]

¢ Học liên kết phân tán: Cấu trúc này không yêu cầu một máy chủtrung tâm nào Các máy khách sẽ cập nhật mô hình bằng hình thứcchia sẻ dữ liệu với nhau qua giao thức truyền thông Peer-to-Peer (P2P)

b) Dựa vào đặc điểm phân phối dữ liệu

Theo bài khảo sát [32], học liên kết có thể phân loại dựa vào cách phân chia

dữ liệu của chúng ở máy cục bộ.

Trang 21

Gia sử ma trận 7; là bộ dữ liệu của máy khách i Mỗi hàng của ma trận đại điện cho một mẫu (sample) và mỗi cột đại diện cho một thuộc tính

(feature) Đồng thời, một số bộ dữ liệu cũng có thể chứa dữ liệu nhãn Dặtkhông gian tính năng là #, không gian nhãn là ÿ và 7 thể hiện không gian

mẫu.

Tính năng +, nhãn ÿ va Id mẫu 7 tạo thành tập dữ liệu huấn luyện hoànchỉnh (7,4,3) Tính năng và không gian mẫu của các bên dữ liệu có thểkhông giống nhau Vì vậy học liên kết được chia thành học theo chiều ngang,hiều dọc và chuyển liên kết dựa vào cách phân phối dữ liệu giữa các bên

Features Fenues Features

(a) Horizontal Federated Learning (b) Vertical Federated Learning (€) Federated Transfer Learning

Hình 2.3: Phân loại học liên kết dựa vao cách phân chia dit liệu

[14]

¢ Học liên kết theo chiều ngang: Là ngữ cảnh các tập dữ liệu có cùng

tập thuộc tính nhưng khác nhau về số lượng mẫu (Hình 2.3a) Loại

học máy này có tên gọi khác là Homogenous Federated Learning, với Homogenous nghĩa là có cùng tập thuộc tính Trong trường hợp này,

các hàng dữ liệu phù hợp với một tập thuộc tính nhất quán Đây chính

xác là loại dữ liệu được dùng trong các công việc hoc máy có giám sat

[32] Ta có thể công thức hoá lên như sau:

Ai = Xj, Vị = Vị, Ti # 1j,VD¡, Dj, 1 # j (2.1)

e Học liên kết theo chiều dọc: Còn được gọi là Heterogeneous

Feder-ated Learning, là trường hợp hai hay nhiều tập di liệu có cùng số mẫunhưng khác nhau về không gian thuộc tính [32, 16] Ví dụ, có 2 công

tỉ khác nhau cùng kinh doanh trong mắng tài chính ở cùng một thành

phố Công ti A là một ngân hàng, công ti B kinh doanh trong lĩnh vựcthương mại điện tử Phần lớn khác hàng của họ là cư dân sinh sống

12

Trang 22

ở đây, vì vậy phần giao nhau của không gian mẫu người dùng của haicông ti này tương đối lớn Tuy nhiên, ngân hang A chỉ thu được dit liệu

về tài sản, hành vi tiêu dùng và điểm tín dụng của khách hàng, còncông ti B thu được dữ liệu về lịch sử mua sắm của khách hàng Khônggian thuộc tính của hai bên rất khác nhau Giả sử hai công tỉ muốn hợp

tác tạo ra mô hình dự đoán việc mua hàng hoá dựa vào thông tin hàng

hoá và người dùng Học liên kết theo chiều dọc (Hình 2.3b) sẽ là quátrình tổng hợp các tập tính năng khác nhau này và tính toán sự thấtthoát khi huấn luyện và độ dốc một cách bảo mật để xây dựng nên một

mô hình cộng tac từ dữ liệu của hai bên Vì vậy ta có thể công thức

hoá mô hình này như sau:

Ai # XV # Vị, Ti = Lj, VDi, Dị, ¡ # j (2.2)

Hoc chuyển liên kết: Dây là trường hợp hai bộ dit liệu khác nhau

về cả tập thuộc tính va không gian mẫu (Hình 2.3c) Vẫn với vi dụ haicông ti như phần 2.2, công ti B mở chi nhánh ở một nước khác Giờ đây

chi nhánh mới của công tỉ B và công ti A nằm ở 2 khu vực địa lý khác

nhau nên phần giao nhau giữa tập khách hàng của hai bên rất nhỏ

Bén cạnh đó, vì kinh doanh ở hai mảng khác nhau nên tệp thuộc tính

của hai bên chỉ giao nhau một phần Lúc này sẽ là trường hợp có thể

áp dụng học chuyển liên kết để cung cấp giải pháp cho toàn bộ thuộctính và không gian mẫu của hệ thống Học chuyển liên kết sẽ tạo ramột đại diện chung của hai không gian thuộc tính học dựa trên phần

tập mẫu chung hạn hữu, sau đó được dùng để tính toán cho các mẫu

chỉ có ở thuộc tính một bên Học chuyển liên kết là một phần mở rộng

quan trọng đối với các hệ thống học liên kết hiện có vì nó xử lý được

điểm yếu vượt quá phạm vi của các thuật toán học liên kết hiện nay

mắc phải.

Xi # XY AY, LD = TVD DAF j (2.3)

Trang 23

2.2 Tan công đầu độc

Trong học tập liên kết, các cuộc tấn công đầu độc đang là mối nguy hại to

lớn đối với tính toàn vẹn và bảo mật của quy trình đào tạo mô hình hợp tác.

Mục đích của các cuộc tấn công này nhằm thao túng quá trình học tập bằngcách tiêm dit liệu độc hại hoặc cập nhật mô hình, dẫn đến các mô hình bị xâmphạm và có khả năng làm suy yếu hiệu suất tổng thể và đảm bảo quyền riêng

tư của thuật toán học tập liên kết

Tan công đầu độc trong học liên kết là hành động cố ý đưa di liệu độc haihoặc cập nhật mô hình vào quy trình đào tạo để tạo ảnh hưởng lên quyết địnhcủa mô hình sau cùng Mục tiêu của kẻ tấn công là đánh lừa hệ thống học tậpliên kết bằng cách làm ô nhiễm dữ liệu đào tạo hoặc thao túng các bản cập nhật

mô hình để mang lại lợi ích cho kẻ tấn công, chẳng hạn như phân loại sai, xuốngcấp mô hình hoặc trích xuất thông tin nhạy cảm

Dựa vào khả năng của kẻ tấn công, ta có thể chia tấn công đầu độc thành

2 dạng được minh hoạ ở Hình 2.4: tấn công đầu độc ở mức dữ liệu và mô hình

[17].

Hình 2.4: Minh hoa hai kiểu tắn công đầu độc trong một mô hành học liên kết

2.2.1 Tan công đều độc mé hành

Xây ra khi kể tấn công thao túng các bản cập nhật mô hình được chia sẻ

bởi các bên đóng góp trong quá trình tổng hợp Điều này có thể ảnh hưởng đếntham số, việc kiểm soát độ đốc mô hình hoặc chèn các trình kích hoạt backdoorskích hoạt các hành vi cu thể trong mô hình trong quá trình suy luận

14

Trang 24

Cách thức tấn công đầu độc có thể bao gồm thay đổi mục tiêu huấn luyện,thêm các đối tượng độc hại vào quá trình huấn luyện, hoặc chỉnh sửa làm thayđổi kiến trúc của mô hình để gây ra sự phụ thuộc vào dữ liệu không mong muốn.Một ví dụ của tấn công đầu độc mô hình là tấn công tên lửa (adversarial attack)trong học sâu, trong đó kẻ tấn công thêm nhiễu hoặc biến đổi dữ liệu huấn luyện

để gây ra sai lệch trong việc phân loại hoặc đánh lừa mô hình

2.2.2 Tắn công đều độc dữ liệu

Nhắm đến việc làm nhiễm độc tập dữ liệu được dùng để huấn luyện mô hình

của mô hình học máy, kẻ tấn công có thể chèn các mẫu dữ liệu có nhãn sai

hoặc dữ liệu mang tính chất gian lận vào tập huấn luyện, dẫn đến việc mô hình

học những quy tắc không chính xác và đưa ra các dự đoán không tin cậy [30].

Trường hợp này sẽ có khả năng xuất hiện khi kẻ tấn công tạo ra các mẫu dit

liệu có nhãn sai hoặc những mẫu dữ liệu chứa thông tin độc hại được chèn vào

tập dữ liệu thu thập cục bộ này Khi mô hình hoc từ tập dit liệu trên, nó có

thể học những đặc trưng không chính xác hoặc gây ra sự phụ thuộc vào dit liệukhông mong muốn Theo [12],mục đích sau cùng của các cuộc tấn công ở mức

độ dữ liệu đều là làm thay đổi đầu ra của máy khách, vì vậy tấn công đầu độc

dữ liệu có thể xem như một dang đặc biệt của tấn công đầu độc mô hình

Một cách tấn công dau độc dit liệu khác là chèn dữ liệu độc hại vào tập huấn

luyện Ví dụ, nghiên cứu [10] đã chi ra cách thức kẻ tấn công có thể chèn mãđộc vào ảnh trong tập huấn luyện để tạo ra các mẫu dữ liệu lây nhiễm Mô hìnhhuấn luyện trên tập dữ liệu này có thể trở nên không đáng tin cậy và dễ bị tấncông khi triển khai

2.3 Học sâu

2.3.1 Học sâu va mang no-ron nhaén tạo

Kiến trúc của mạng nơ-ron nhân tao được lấy cảm hứng từ kiến trúc của bộ

não con người [20] Mau chốt của ý tưởng này là tạo ra cấu trúc mới cho hệthống xử lý thông tin Kiến trúc tiêu chuẩn của một mạng nơ-ron gồm các bộ

xử lý đơn giản liên kết lại, tên gọi khác là nơ-ron, được sắp xếp theo lớp Mỗi

Trang 25

bộ xử lý tạo ta một chuỗi các kích hoạt có giá trị thực Các nơ-ron trong mỗi

lớp nhận thông số đầu vào từ lớp trước và sau đó tính toán đầu ra dựa trên giátrị đầu vào vừa nhận được Kết quả đầu ra từ các nơ-ron ở lớp cuối cùng sau

đó được sử dụng để đưa ra dự đoán hoặc phân loại Kiến trúc này được minh

từ dit liệu Một số nơ-ron có thể ảnh hưởng đến môi trường bằng cách kích hoạt

các hành động Tuỳ vào vấn đề và cách các nơ-ron được kết nối, các hành vi của

mạng có thể là một chuỗi các giai đoạn tính toán dài, trong đó mỗi giai đoạn sẽ

biến đổi (thường là phi tuyến tính) việc kích hoạt tổng hợp của mạng

Mặt khác, học sâu [11] được hình thành từ nhiều lớp nơ-ron ẩn có khả năng

xử lý nhiều tác vụ phức tap hơn trên một lượng lớn di liệu, gồm cả cấu trúc

và phi cấu trúc Học sâu xác định các mẫu trong dữ liệu thế giới thực như âmthanh, văn bản, hình ảnh và chuỗi thời gian, sử dụng mô hình đã được huấnluyện để cải thiện độ chính xác của các dự đoán của chúng Công nghệ học sâu

sử dụng nhiều lớp để thể hiện sự trừu tượng của dữ liệu nhằm tạo nên các môhình tính toán Một điểm cần lưu ý về học sâu là công nghệ này mất nhiều thời

16

Trang 26

gian để đào tạo một mô hình do số lượng tham số lớn, nhưng trong quá trìnhthử nghiệm lại chỉ tổn một khoảng thời gian ngắn để chạy so với các thuật toán

học máy khác [31].

2.3.2 Mạng no-ron tích chập

CNN [13] là một loại mạng no-ron nhân tạo được thiết kế để chuyên xử lýcác loại dữ liệu có cấu trúc lưới như hình ảnh, âm thanh và video Kiến trúccủa CNN dựa trên cơ chế học tập sâu thông qua việc sử dụng các lớp tích chập

(convolutional layer) và lớp gộp (pooling layer) Theo Hình 2.6, mỗi bộ dữ liệu

đầu vào sẽ được truyền qua một bộ lớp tích chập có bộ loc (kernels), tổng hợp

lại các lớp được kết nối đầy đủ (fully connected) và áp dụng hàm Softmax đểđưa ra dự đoán cuối cùng Kiến trúc này cho phép mạng nơ-ron này tự học đượccác đặc trưng khó và phức tạp của dữ liệu đầu vào

FEATURE LEARNING CLASSIFICATION

Hình 2.6: Minh hoa luồng CNN wit ly hành ánh dau vao va phan loại các đối

tượng dựa trên các giá tri được tính toán

2.3.2.1 Convolutional Layer

Convolutional layer là một phan tối quan trong cấu thành nên kiến trac CNN.Trong lớp này, bộ loc (kernel) được sử dung trên toàn bộ dữ liệu đầu vào đểtrích xuất các đặc trưng quan trọng từ đầu vào Bộ lọc này di chuyển theo từngbước nhỏ (stride) trên toàn bộ đầu vào và thực hiện phép tích chập để tạo racác bản đồ đặc trưng (feature maps)

Trang 27

2.3.2.2 Batch Normalization

Batch Normalization là một kỹ thuật quan trong trong CNN nhằm cải thiệnhiệu suất huấn luyện bằng cách chuẩn hoá đầu ra của các lớp Điều này giúptăng cường sự ổn định và tốc độ hội tụ của mô hình Nó hoạt động bằng cáchđiều chỉnh dữ liệu đầu vào của mỗi lớp trong mạng sao cho chúng có giá trịtrung bình xấp xỉ 0 và độ lệch tiêu chuẩn xấp xỉ 1 Điều này giúp tạo ra các đầuvào chuẩn hóa và ổn định hơn cho các lớp tiếp theo

Quá trình Batch Normalization bao gồm chuẩn hóa các đặc trưng trong từngbatch của dữ liệu huấn luyện Trước tiên, tính trung bình và độ lệch tiêu chuẩncủa các đặc trưng trong batch hiện tại Tiếp theo, chuẩn hóa các đặc trưng bằngcách trừ đi giá trị trung bình và chia cho độ lệch chuẩn

Batch Normalization giúp ổn định quá trình huấn luyện, giảm độ dao độngcủa đầu ra và giúp mang hoc tập nhanh hơn Nó cũng giúp giảm thiểu vấn đềphân rã và cải thiện tính tổng quát của mạng

2.8.2.3 Stride

Stride là thông số xác định bước nhảy của bộ lọc khi thực hiện tích chap trên

đầu vào Nếu stride là 1, bộ lọc di chuyển một bước một lần Nếu stride lớn hơn

1, bộ lọc sẽ đi chuyển theo khoảng cách lớn hơn, giảm kích thước đầu ra Stride

được sử dụng để kiểm soát kích thước của bản đồ đặc trưng và tốc độ tính toán.

2.3.2.4 Padding

Padding là quá trình thêm các giá trị 0 xung quanh đầu vào trước khi thực

hiện tích chập Mục đích của padding là bảo tồn kích thước của dữ liệu đầu vào

sau khi truyền qua lớp tích chập, đảm bảo rằng thông tin ở biên cũng được xử

lý đúng mức Có hai loại padding phổ biến là ‘valid’ (không padding) và ’same’(padding sao cho kích thước đầu ra bằng kích thước đầu vào)

2.3.2.5 ReLU

Ham Rectified Linear Unit là một hàm kích hoạt thường được đặt sau lớp

tích chập Hàm ReLU thực hiện một phép so sánh đơn giản: nếu dữ liệu đầu vào

18

Trang 28

có giá trị lớn hơn 0 thì đầu ra sẽ được giữ nguyên bằng giá trị đầu vào; ngượclại, nếu đầu vào ở trường hợp ngược lại, giá trị đầu ra sẽ là 0.

ReLU giúp loại bỏ các giá trị âm và tăng tính phi tuyến của mô hình Bằng

cách áp dụng hàm ReLu, mạng nơ-ron có thể học được các đặc trưng phức tạphơn và khái quát tốt hơn Mục dich sử dụng hàm ReLU là kích hoạt đầu ra củacác lớp tích chập, cải thiện khả năng học tập của mô hình và tạo tính phi tuyến

tính cho mô hình.

2.3.2.6 Pooling Layer

Pooling layer được sử dung để giảm kích thước của bản đồ đặc trưng vàgiảm độ phức tạp tính toán Lớp gộp thực hiện việc chọn giá trị lớn nhất (max

pooling) hoặc trung bình (average pooling) trong một khu vực nhỏ trên bản đồ

đặc trưng Quá trình này giúp giữ lại các đặc trưng quan trọng và giảm số lượng

Average Pooling

go Bae

Hinh 2.7: Cách Maz pooling va Average pooling làm giảm kích thước mô hành

2.4 Layer-Wise Relevance Propagation

Layer-Wise Relevance Propagation [21, 4] (tam dịch: Tuyên truyền mức độliên quan theo lớp) được dùng để diễn giải các dự đoán của mang no-ron và chỉ

ra những tập thuộc tính mà mạng nơ-ron đã dùng để đưa ra quyết định Dữliệu đầu vào của LRP có thể ở nhiều dạng như ảnh, videos hay văn bản [3, 1,2| LRP hoạt động bằng cách truyền dự đoán ngược qua mạng, từng lớp và gán

Trang 29

điểm phù hợp cho từng nơ-ron trong mỗi lớp Độ liên quan của một nơ-ron làthước đo mức độ đóng góp của nơ-ron đó vào dự đoán cuối cùng.

LRP là một kỹ thuật toàn vẹn, nghĩa là độ lớn của bất kỳ đầu ra nào phải

được bảo toàn thông qua quá trình lan truyền ngược đến lớp thấp hơn và bằngtổng của bản đồ liên quan R của lớp đầu vào Điều này có nghĩa là tong điểm

số liên quan sẽ bằng dự đoán cuối cùng của mạng

Ý tưởng cơ bản của LRP là gán điểm liên quan cho các nơ-ron và đặc trưng

đầu vào của một mạng nơ-ron, chỉ ra sự đóng góp của chúng đối với dự đoáncuối cùng Những điểm liên quan này được lan truyền ngược qua các tầng củamạng, cung cấp một bản phân tích về mức độ liên quan tại mỗi tầng Quá trìnhnày cho phép chúng ta hiểu rõ phần nào của đầu vào đang điều khiển quá trình

ra quyết định của mô hình Cách thức lan truyền của LRP phải tuân thủ tínhbảo toàn dữ liệu, tức tổng giá trị đầu vào của một nơ-ron phải được truyền tiếptục cho lớp thấp hơn một cách toàn vẹn

Trong quá trình lan truyền này, LRP đánh giá cả những đóng góp tích cực

lẫn tiêu cực Diểm liên quan tích cực nhấn mạnh các đặc trưng có tác động tíchcực đến dự đoán, trong khi điểm liên quan tiêu cực chỉ ra các đặc trưng ảnhhưởng xấu đến dự đoán Thông tin này giúp hiểu rõ những mạnh yếu của quátrình ra quyết định của mô hình

Nhờ vào LRP, các nhà nghiên cứu và người thực hành có thể hiểu hơn về

hoạt động bên trong các mô hình mạng nơ-ron phức tạp N6 giúp xác định các

đặc trưng và neuron quan trọng nhất đối với các dự đoán, từ đó giúp hiểu rõ

và giải thích cách tính toán ra quyết định của mô hình Hơn nữa, LRP có thể

hỗ trợ trong việc phát hiện các thiên vị hoặc sự phụ thuộc không mong muốntrong hành vi của mô hình, từ đó giúp xác định và giảm thiểu các lỗ hổng nhưtấn công đầu độc và dữ liệu không đồng nhất

Gọi 7 và k là 2 no-ron ở 2 lớp liền kề, z;7 là đại lượng mô phỏng mức độ nơ-ron

7 đóng góp để làm nơ-ron k có liên quan

Trang 30

_ 25k

lị = yy = sụn (2.5)

Mẫu số dùng để thực hiện tính toàn vẹn của LRP Quy trình lan truyền sẽkết thúc một khi có được bản đồ đặc trưng dùng thể hiện quá trình đưa ra quyếtđịnh của mạng Không khó để thấy được tính toàn vẹn được thể hiện rất rõ:

5); Hị = 3), Re và mở rộng thành tính toàn vẹn toàn cục 5, Ri = f(x) Hình

2.8 thể hiện cách LRP lan truyền sự liên quan qua các lớp trong khi vẫn đảm

bảo được tính toàn vẹn của dữ liệu.

output

Hình 2.8: Cách hoạt dong của LRP: Mỗi no-ron phân bố lại những gà nhậnđược từ lớp cao đến lớp thấp hơn

(21)

2.5 Phân phối dữ liệu không đồng nhất

Dữ liệu đào tạo trên mỗi máy khách trong PL phụ thuộc rất nhiều vào bộ dữliệu cục bộ của các máy khách trong mô hình học liên kết và do đó, việc phânphối dữ liệu của các máy khách có thể hoàn toàn khác nhau Hiện tượng nàyđược gọi là Non-IID [19] Điều này có thể gây ra sự phân kì mô hình nghiêmtrọng, đặc biệt là mô hình tham số trong học liên kết theo chiều doc

Cụ thể hơn, trong tác vụ học có giám sát trên máy khách k, gọi mỗi mẫu dữ

liệu (x,y), với z là giá trị đầu vào hoặc thuộc tính, là nhãn và 7;(z, ) là sự

phân phối dữ liệu cục bộ Trong trường hợp dữ liệu Non-HD, giá trị P;, giữa các máy khách là khác nhau [36].

2.5.1 Phân loại dữ liệu không đồng nhất

Trong quá trình phân loại dữ liệu không đồng nhất, chúng ta sẽ gặp hai khía cạnh chính là lệch đặc trưng (attribute bias) và lệch nhãn (label bias) [12].

Trang 31

2.5.1.1 Lệch đặc trưng

Dữ liệu không đồng nhất theo khía cạnh attribute xảy ra khi các đặc trưngcủa dữ liệu 7„(z) khác nhau dựa vào sự khác biệt về đặc điểm của thiết bị thuthập hoặc nguồn di liệu Ví du, trong bài toán phân loại ảnh, bên cạnh thiết

bị có thể chụp ảnh với độ phân giải cao, các thiết bị khác có độ phân giải thấp.Điều này dẫn đến việc các đặc trưng của ảnh không đồng đều giữa các thiết bị,gây ra sự không đồng nhất trong dữ liệu

2.5.1.2 Lệch nhãn

Dữ liệu không đồng nhất theo khía cạnh label xảy ra khi các nhãn (label) của

dữ liệu không phân phối đồng đều giữa các thiết bị hoặc nguồn dữ liệu Ví du,

trong bài toán phân loại email vào các hộp thư theo yêu cầu, một số người dùng

có thể có xu hướng gửi nhiều email vào hộp thư đến hơn là thư rác và ngược lại

Do đó, dữ liệu thu thập được từ các người dùng sẽ không đồng nhất theo khía

cạnh nhãn.

Trong cả hai trường hợp, dữ liệu không đồng nhất gây khó khăn với hiệu suất

của mô hình học liên kết khi làm giảm tính tổng quát trong quá trình học

2.6 Một số công trình nghiên cứu liên quan

Nhiều bài nghiên cứu về phát hiện tấn công đầu độc dit liệu được ra đời,tuy nhiên những bài nghiên cứu này đa phần xoay quanh việc bảo vệ hệ thống

học tập trung |8, 24, 23] Bên cạnh đó, quy trình phát hiện của những phương

pháp này cũng yêu cầu toàn quyền truy cập vào dữ liệu huấn luyện Đây là mộtkhuyết điểm lớn vì đối với hệ thống học liên kết, yếu tố bảo mật dữ liệu của các

bên là tối quan trọng.

Vi vậy, bài báo [35] đã đề xuất phương pháp phát hiện tấn công đầu độc dữ

liệu dựa vào việc trích xuất đường dẫn lớp nhờ LRP.

Cụ thể hơn, đường dẫn lớp được cấu thành từ các nơ-ron quan trọng trongmạng nơ-ron sâu có đóng góp đáng kể với quyết định mô hình của mẫu lưu lượngtruy cập trong cùng một lớp như thể hiện trong Hình 2.9)

22

Trang 33

CHƯƠNG 3 PHƯƠNG PHÁP THỰC NGHIỆM

Tóm tắt chương

Đây là chương mà nhóm chúng tôi đưa ra mô tả về mô hình đề xuất và cách

hoạt động của mô hình này để phục vụ yêu cầu cụ thể của đề tài

3.1 Kiến trúc tổng quát

Khoá luận này hướng đến đề xuất một mô hình học liên kết NIDS nhằm phát

hiện những vấn đề mà một mô hình học liên kết thông thường có thể mắc phải:

tấn công đầu độc và dữ liệu phân phối không đồng nhất Hệ thống nhóm đề

xuất vẫn sẽ mang kiến trúc của một hệ thống học liên kết điển hình được thể

hiện ở hình dưới (Hình 3.1).

Model aggregation

Trang 34

Trong mô hình trên có 2 thành phần chính:

e Máy chủ: nơi lưu trữ và tổng hợp trọng số mô hình các máy khách gửi lên

e Máy khách: Nơi thu thập và đào tạo với dữ liệu cục bộ để cho ra mô hìnhcục bộ, tiếp đến gửi lên cho máy chủ tổng hợp

3.2 Thuật toán FedAvg và FedDC

3.2.1 FedAug

Giải thuật Federated Averaging (FedAvg) [18] là một giải thuật quan trọng

và phổ biến trong lĩnh vực học liên kết (Federated Learning) Giải thuật được

mô tả trong hình 3.2.

Ý tưởng của giải thuật FedAvg là tổng hợp và cập nhật các mô hình địa

phương từ các thiết bị người dùng thành một mô hình toàn cục trên máy chủ

trung tâm Các bước thực hiện cau FedAvg được thể hiện chi tiếp ở Hình 3.2.C6 thể giải thích FedAvg theo cách khác như sau:

e Bước 1: Server: Khởi tạo tham số wo

e Bước 2: Server chọn ngẫu nhiên các client tham gia vào việc cải thiện mô

inh (điều khiển số lượng client bằng tham số C, tổng số lượng client là K),

và gửi tham số mô hình hiện tại đến client

e Bước 3: Các client: thực hiện tối wu mô hình nhận được từ server trên tập

dữ liệu cục bộ bằng SGD (số epoch £, mini-batch size 8)

e Bước 4: Các client: gửi lại tham số mới của mô hình cho server

e Bước 5: Server: tính trung bình các tham số mới nhận được tit các client

với trọng số bằng số lượng mẫu dữ liệu tương ứng trên client

e Bước 6: Quay lại bước 2 để tiếp tục một vòng lặp mới

Quá trình này sẽ được lặp lại đến khi độ chính xác của mô hình phù hợp vớiyêu cầu hoặc khi không còn cải thiện đáng kể nữa

Ngày đăng: 23/10/2024, 00:05

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN