Mô hình học liên kết (Federated Learning)

Một phần của tài liệu Khóa luận tốt nghiệp An toàn thông tin: Fed-LSAE: Phương pháp ngăn chặn tấn công đầu độc cho bộ khung liên kết phát hiện tác nhân đe dọa sử dụng chiến lược phân tích không gian tiềm ẩn (Trang 37 - 78)

1.5 Ý nghĩa khoa học và thực tiễn

2.1.3. Mô hình học liên kết (Federated Learning)

Tổng quan

Federated Learning (FL) là một phương pháp học máy phi tập trung, trong đó

dữ liệu được phân tán trên nhiều thiết bị hay máy chủ khác nhau. Thay vì tập trung đữ liệu vào một nơi duy nhất để huấn luyện một mô hình, các thiết bị hay máy chủ được kết nối với nhau thông qua mang, va các mô hình được huấn luyện trên các dữ liệu cục bộ và được kết hợp lại để tạo ra một mô hình toàn cục. Theo

14

Chương 2. CƠ SỞ LÍ THUYẾT VÀ CÔNG TRÌNH LIÊN QUAN

đó, các thiết bị đóng vai trò như các nút trong một mạng phân tán, mỗi nút huấn luyện một phần của mô hình trên dữ liệu cục bộ của nó và gửi kết quả cho một máy chủ trung tâm (central server) để tổng hợp thành mô hình toàn cục mới. Sau

đó, mô hình toàn cục được gửi trở lại các thiết bị hay máy chủ để tiếp tục quá trình huấn luyện cho đến khi đạt ngưỡng tối uu.

Một trong những uu điểm của FL là nó cho phép huấn luyện mô hình trên các dữ liệu phân tán mà không cần phải truyền dir liệu qua mạng. Điều này giúp bảo vệ tính riêng tư và an ninh của dir liệu, giảm thiểu việc truyền tải dữ liệu và giảm thời gian và chi phí tính toán.Do đó, FL được sử dụng trong nhiều ứng dụng, bao gồm dịch vụ tìm kiếm trên điện thoại di động, ứng dụng học máy trên thiết bị y

tế và các ứng dụng Internet of Things (IoT).

Server A ) Sending encrypted gradients

Secure aggregation Sending back model updates Updating models

HINH 2.2: M6 hinh hoc lién két

15

Chương 2. CƠ SỞ LÍ THUYẾT VÀ CÔNG TRÌNH LIÊN QUAN

Phân loại

-dfEren sample spa Local Data i

(a) Horizontal Federated Learning (b) Vertical Federated Learning (©) Federated Transfer Learning

(HFL) (VFL) (FTL) HINH 2.3: Các loại mô hình học liên kết theo phân vùng di liệu [40]

Theo như nghiên cứu [40] của tác giả Dinh C. Nguyen, Federated Learning được chia làm ba loại chính như Hình 2.3 :

¢ Horizontal Federated Learning: là phương pháp học mà các máy sẽ chia sẻ

thôn tin của nhiều đối tượng có cùng đặc trưng với nhau. Ví dụ: thông tin

của người dùng ở hai ngân hàng trong các vùng khác nhau. Họ sẽ chia sẻ thông tin khách hàng với nhau.

® Vertical Federated Learning: là phương pháp hoc mà các máy sẽ chia sẻ

thông tin của cùng một đối tượng nhưng khác các đặc trưng. Ví dụ: thông

tin của người dùng ở ngân hàng và bệnh viện trong một khu vực nào đó. Ở

ngân hàng sẽ có những đặc trưng khác với bệnh viện khi có cùng một khách

hàng vì vậy ngân hàng và bệnh viện có thể chia sẽ với nhau và bổ sung cho

nhau ở khía cạnh các đặc trưng.

® Federated Transfer Learning: là phương pháp học liên kết chuyển giao mà các máy sẽ chia sẻ thông tin của nhiều đối tượng với các đặc trưng khác

nhau.

Các thuật toán tổng hợp

Hiện nay có một số phương pháp tổng hợp dành cho các mô hình học liên kết và tuỳ vào mỗi nhu cầu sử dụng thì có thể lựa chọn các thuật toán phù hợp.

16

Chương 2. CƠ SỞ LI THUYET VA CONG TRINH LIEN QUAN

* Federated Averaging (FedAvg)[45]: Day là phương pháp tổng hợp mô hình phổ biến nhất trong FL. Sau khi nhận được các mô hình cục bộ từ thành viên, máy chủ trung tâm tính toán trung bình từ các tham số đã gửi và cập

nhật mô hình toàn cục. Mô hình toàn cục mới được gửi lại cho các thành

viên và tiếp tục quá trình huấn luyện.

e Fed+[54]: là một biến thể của FedAvg dành cho ngữ cảnh non-iid hoặc không đáp ứng được yêu cầu tham gia cộng tác. Fed+ không yêu cầu tất

cả các bên phải đạt được sự đồng thuận, cho phép mỗi bên đào tạo các mô hình cục bộ được cá nhân hóa đồng thời tận dụng được khả năng cộng tác

để cái thiện độ chính xác và hiệu suất.

® FedProx [28]: là một thuật toán tối ưu hoá van đề không cân bằng và nhất quán của dữ liệu. Mỗi thành viên không chỉ gửi các tham số huấn luyện mà còn gửi thêm các thành phần bổ sung "proximal term", đây chính là khoảng. cách của tham số hiện tại và tham số toàn cục. Mô hình toàn cục tính toán trung bình từ các tham số và "proximal term" dã nhận sau đó cập nhật mô hình toàn cục. Mục đích của nó nhằm thúc đẩy tính nhất quán của mô hình

toàn cục.

® Federated Normalized Averaging (FedNova) [51]: để cải thiện không đồng nhất trên dir liệu, FedNova chuẩn hoá các tham số từ các thành viên trước khi được gửi lên máy chủ tổng hợp. Bước chuẩn hoá này giúp đảm bảo rằng các đóng góp khác nhau được cân bằng mặc cho quy mô hoặc phân phối dit liệu chênh lệch. Qua đó đạt được mục đích giảm thiểu tác động của các

thành viên với quy mô dữ liệu khác nhau.

Van dé phân phối dữ liệu trong học liên kết

Trong trường hợp lý tưởng, các thành viên tham gia học liên kết có thể thu thập được dit liệu độc lập và có phân phối đồng nhất hay còn gọi là IID (Independent and Identically Distributed) qua đó có thể giúp mô hình đảm bảo khả năng hội

tụ và đưa ra được kết quả như mong muốn. Tuy nhiên trong thực tế, vấn để phân phối di liệu là một thách thức quan trong cần được giải quyết. Vì dữ liệu được phân tán và tuỳ thuộc vào khả năng thu thập của mỗi thiết bị hay tổ chức

17

Chương 2. CƠ SỞ LI THUYET VA CONG TRINH LIEN QUAN

khiến cho dữ liệu không được độc lập và nhất quán hay còn gọi là Non-IID (Non- Independent and Identically Distributed). Điều này dẫn đến mô hình cộng tác có thể hội tu chậm hay dự đoán sai va làm giảm hiệu suất của quá trình học liên kết (Hình 2.4). Dưới đây là một số van dé của phân phối di liệu trong học liên kết:

IID data '

Ú} >3: @ ị

6 Duy Ta! h

t 9099 h

Op pe H3

01 '

HÌNH 2.4: Ảnh hưởng của thiéu cân bằng dữ liệu trong học liên kết

[35]

© Không cân bằng đữ liệu: Mỗi thiết bị hoặc máy chủ có thể có một phân phối

dữ liệu không đồng đều. Điều này có thể dẫn đến việc mô hình toàn cục không được đại diện tốt cho các đặc trưng của các lớp dữ liệu ít được đại điện. Để giải quyết van dé này, có thể sử dung các phương pháp như lấy mẫu cân bằng, điều chỉnh trọng số hoặc sử dụng kỹ thuật oversampling

hoặc undersampling.

* Dw liệu không đồng nhất: Các thiết bị hoặc máy chủ có thể có dữ liệu không đồng nhất về phân phối hoặc đặc trưng. Điều này có thể gây ra sự không nhất quán trong quá trình huấn luyện và ảnh hưởng đến hiệu suất của mô hình toàn cục. Một phương pháp để giải quyết van dé này là sử dụng kỹ thuật dữ liệu tổng hợp, như trung bình hoặc trọng số trung bình, để tích hợp thông tin từ các thiết bị hoặc máy chủ khác nhau và tạo ra một mô hình toàn cục đồng nhất.

18

Chương 2. CƠ SỞ LI THUYET VA CONG TRINH LIEN QUAN

2.14 Tan công dau độc trong mô hình học liên kết

Tổng quan

Tan công đầu độc (poisoning attack) [34] là một kỹ thuật tan công trong đó kẻ tấn công có gắng thay đổi dữ liệu huấn luyện để làm sai lệch mô hình học máy. Khi

mô hình được huấn luyện trên dữ liệu đã bị đầu độc, nó có thể cho ra kết quả dự đoán sai hoặc thực hiện hành động không mong muốn.

1: send local model gradients

| 2: aggregate local model gradients

| 3: download the latest global model

3 | 4: update local model

ee én)

Aa oa Bo

Party1 Party 2 Party n

HÌNH 2.5: Tan công đầu độc trong học liên kết [34]

Trong FL, tấn công đầu độc có thể được thực hiện bởi các bên tham gia cộng tác bằng cách thêm các dữ liệu độc hại vào tập dữ liệu huấn luyện hoặc sửa đổi các điểm dữ liệu đã có trong tập huấn luyện. Khi mô hình học máy được huấn luyện

trên tập dữ liệu này, nó sẽ học cách phân loại dữ liệu độc hại như là một lớp dữ

liệu bình thường, hoặc bị mắt đi khả năng đưa ra dự đoán chính xác một mẫu dữ liệu bat kì.

Tan công đầu độc có thể gây ra những hậu quả nghiêm trong cho hệ thống học máy, bao gồm việc giảm độ chính xác và độ tin cậy của mô hình, thậm chí có thể làm cho mô hình hoàn toàn vô dụng. Do đó, việc bảo vệ các hệ thống học máy

19

Chương 2. CƠ SỞ LI THUYET VA CONG TRINH LIEN QUAN

trước tân công dau độc là rất quan trong để đảm bảo an toàn va đáng tin cậy cho

các ứng dụng học máy.

Để bảo vệ mô hình FL khỏi các cuộc tắn công đầu độc, cần áp dụng các biện pháp bảo mật, chẳng hạn như kiểm tra tính xác thực của người dùng, và xác thực mô

hình cục bộ trước khi được sử dụng trong quá trình học. Ngoài ra, các phương

pháp phát hiện và xử lý các điểm dữ liệu bất thường cũng có thể được áp dung

để phát hiện và ngăn chặn các tấn công dau độc.

Các loại tan công đầu độc (poisoning attack)

Trong học máy, có một số loại tan công đầu độc (poisoning attacks) [46] mà những

kẻ tấn công có thể thực hiện để làm sai lệch quá trình huấn luyện và gây hại cho

mô hình chung. Và dưới đây là một số loại tắn công đầu độc phổ biến trong học

cộng tác:

¢ Đầu độc dữ liệu (Data poisoning): Day là loại tan công phổ biến nhất trong machine learning. Kẻ tan công sẽ chèn các dữ liệu sai lệch hoặc giả mao vào tập huấn luyện để khiến mô hình học sai. Khi được huấn luyện trên các dữ liệu này, mô hình có thể trở nên không chính xác hoặc bị đánh lừa.

— Làm nhiễu nhãn (Label poisoning): Loại tắn công này liên quan đến việc thay đổi nhãn của các dữ liệu trong tập huan luyện để khiến mô hình học sai. Kẻ tan công có thể thay đổi nhãn của các dữ liệu để khiến

mô hình học sai lầm.

— Làm nhiễu đặc trưng (Feature poisoning): Loại tấn công này liên quan đến việc thay đổi các đặc trưng của các dữ liệu trong tập huấn luyện.

Kẻ tan công có thể thay đổi các đặc trưng để khiến mô hình học sai lam

hoặc bị đánh lừa.

¢ Đầu độc mô hình (Model poisoning): Loại tắn công này liên quan đến việc thay đổi mô hình machine learning bằng cách chèn các mô hình giả mạo

vào mô hình gốc. Một số cách thức phổ biến của loại tấn công này là đánh

sập mô hình, phá vỡ tính toàn vẹn của mô hình hoặc thực hiện các thay đổi

trên mô hình gốc để khiến nó trở nên không chính xác.

20

Chương 2. CƠ SỞ LI THUYET VA CONG TRINH LIEN QUAN

Các phương pháp phòng thủ trước tan công dau độc

Để phòng thủ trước các tắn công đầu độc trong học liên kết, có một số phương

pháp và biện pháp bảo vệ đã được sử dụng như sau:

¢ Predict model: Máy chủ trung tâm sẽ chuẩn bị một tập dữ liệu đã được gán

nhãn trước [57] [49]và các mô hình được gửi lên từ thành viên tham gia sẽ

tiến hành du đoán dựa trên bộ dit liệu đó. Nếu mô hình nào có dự đoán sai quá ngưỡng cho phép (threshhold) thì có thể bị từ chối hoặc xem xét lại.

¢ Clustering: Phương pháp này tập trung vào việc phân loại dữ liệu thành

các nhóm [20] dựa trên tính tương đồng của chúng. Phương pháp này có thể gom nhóm được giữa những thành viên lành tính và thành viên độc

hại.

* Cosine similarity: Phương pháp này đo độ tương đồng giữa các vector dữ liệu sử dụng độ do cosine, cụ thể là các trọng số của mô hình học máy [7][5]. Nếu có dit liệu không phù hợp hoặc có sự khác biệt lớn với các vector khác,

nó có thể được coi là tan công dau độc.

* Outlier detection: Kỹ thuật phát hiện điểm dữ liệu ngoại lai [26] [29] được

sử dụng để tìm kiếm các điểm dữ liệu không tuân thủ quy tắc hoặc khác biệt so với các mẫu thông thường. Máy chủ trung tâm có thể áp dụng kỹ thuật này để phát hiện và xử lý các mô hình bắt thường.

2.1.5 Biểu diễn lớp áp chót (Penultimate Layer Representation -

PLR)

Penultimate layer representation (PLR) [52] [21] là biểu diễn lớp áp chót của một mạng nơ-ron. Nói cách khác, penultimate layer là lớp thứ hai tính từ lớp cuối cùng, và output là lớp cuối cùng. Lớp này có vai trò quan trọng trong việc trích xuất đặc trưng quan trọng của dữ liệu huấn luyện dưới dạng véc-tơ số. Ví dụ, trong mạng nơ-ron để phân loại ảnh, PLR có thể là một véc-tơ mô tả đặc trưng

của hình ảnh bao gồm màu sắc, hình dang, đường viên, ... Khi đưa vào một mô hình máy học, PLR cung cấp cho mô hình thông tin quan trọng về dữ liệu để giúp

21

Chương 2. CƠ SỞ LI THUYET VA CONG TRINH LIEN QUAN

mô hình học cách phân loại chính xác các đối tượng. Ngoài ra, PLR trong mạng

nơ-ron còn có các ứng dụng phổ biến như sau:

¢ Rút trích đặc trưng: PLR giúp rút trích các đặc trưng quan trọng và trừu

tượng của đữ liệu đầu vào. Các đặc trưng này có thể được sử dụng để thực hiện các tác vụ như phân loại, nhận dạng, gom cụm, hoặc trích xuất thông

tin từ dữ liệu.

* Học chuyển giao (Transfer learning): PLR thường được sử dụng trong trans- fer learning [11], khi ta sử dụng mô hình đã được huấn luyện trước đó trên

một tác vụ liên quan để trích xuất đặc trưng và sau đó chỉ cần huấn luyện

lại một số lớp cuối cùng. PLR chứa các đặc trưng đã được học từ dữ liệu

liên quan, và ta có thể sử dụng lại các đặc trưng này để giúp mô hình học tốt hơn trên tác vụ mới.

® Trực quan hóa dữ liệu (Visualizing representations): Biểu dién của penul- timate layer có thể được sử dụng để trực quan hóa các đặc trưng đã học

được từ dữ liệu. Các kỹ thuật như t-SNE (t-Distributed Stochastic Neighbor

Embedding) và PCA (Principal Component Analysis) có thể được áp dụng

để giảm chiều dữ liệu từ penultimate layer và hiển thị chúng trong không gian hai hoặc ba chiều để giúp hiểu và phân tích các đặc trưng đã học.

. FC FC

Convolution Pooling Conv. Pooling Conv. Layer Layer Output

nee f. maps f. maps f. maps

32x32 Featuremaps 6@14x14 16@10x10 16@5x5

6@28x28

10

120

HINH 2.6: Vị trí của Penultimate Layer trong một mô hình CNN co

bản [21].

2

Chương 2. CƠ SỞ LI THUYET VA CONG TRINH LIEN QUAN

2.1.6 Thuật toán Centered Kernel Alignment (CKA)

Thuật toán Centered Kernel Alignment (CKA) được giới thiệu bởi Kornblith va

đồng nghiệp [25] nhằm so sánh các biểu dién đặc trưng trong mang no-ron. Nó được thiết kế để do độ tương đồng giữa các biểu diễn bằng cách làm phẳng các

ma trận nhân (kernel) tương ứng. CKA được sử dụng trong nhiều lĩnh vực khác nhau của máy học và trí tuệ nhân tạo, bao gồm các nghiên cứu tính toán về sự giống nhau của các mô hình học sâu, đánh giá sự tương đồng giữa các bộ lọc hình ảnh, và tìm kiếm các đặc trưng chung trong các tác vụ học khác nhau.

Trong phiên bản rút gọn, điểm CKA sẽ được tính dựa trên Hilbert-Schmidt Inde-

pendence Criterion (HSIC) như Công thức 2.1.

HSIC(K,L)

a (2.1) HSIC(K,K)HSI€(L,L)

CKA(K,L) =

Trong đó, K và L là các mã trận nhân tương ứng với hai biểu diễn đặc trưng. Điểm CKA nam trong khoảng từ 0 đến 1, trong đó điểm 1 chỉ ra sự tương đồng hoàn hảo giữa hai tập hợp biểu diễn đặc trưng.

Trong nghiên cứu này, chúng tôi sử dụng thuật toán CKA để đánh giá sự tương đồng giữa mỗi biểu diễn không gian tiềm ẩn (LSR) cục bộ và LSR toàn cục. Từ đó, chúng tôi có thể lọc ra các véc-tơ LSR độc hại có sự khác biệt rõ ràng với véc-tơ

LSR toàn cục so với các véc-tơ còn lại. Ngoài ra, không như thuật toán Cô-sin

(Cosine), CKA có thể đưa ra sự khác biệt rõ ràng hơn giữa một mô hình độc hại

và một mô hình lành tính huấn luyện bởi dữ liệu non-IID khi so sánh độ tương đồng với một mô hình lành tính khác.

2.17 Bộ tự mã hóa Autoencoder

Tổng quan

Autoencoder là một mô hình học máy không giám sát (Unsupervised Machine

Learning) được sử dụng để tự động học cách biểu diễn dữ liệu. Autoencoder có khả năng giảm chiều dữ liệu và khám phá các đặc trưng quan trọng từ dữ liệu ban đầu.

23

Chương 2. CƠ SỞ LÍ THUYẾT VÀ CÔNG TRÌNH LIÊN QUAN

® Dau vào: dữ liệu gốc được đưa vào để được biểu diễn và giảm chiều. Input

có thể là các dữ liệu số, như các vectơ đặc trưng, hoặc dir liệu hình ảnh, văn

bản, âm thanh,...

¢ Dau ra: dữ liệu được tái tạo từ biểu diễn nén (latent representation) tạo bởi encoder. Đầu ra có cùng định dạng với đầu vào ban đầu và so sánh đầu vào

để đánh giá chất lượng.

Quá trình huấn luyện autoencoder nhằm tối thiểu hóa sai lệch giữa dữ liệu tái tạo và dữ liệu ban đầu. Mô hình cố gắng học cách biểu diễn dữ liệu quan trọng nhất trong quá trình nén và giải mã, từ đó tạo ra một biểu diễn nén của dữ liệu,

hay còn gọi là latent space của dữ liệu.

Autoencoder có nhiều ứng dụng trong lĩnh vực xử lý dữ liệu, nhưng phổ biến nhất là trong việc giảm chiều dữ liệu và trích xuất đặc trưng. Autoencoder cũng,

có thể được sử dụng trong các tác vụ như nén dw liệu, phát hiện bất thường và

tái tạo ảnh.

Input image Reconstructed image

Latent Space

`

J{ J\

Y Y Y Encoder Bottleneck Decoder

HINH 2.7: Cấu trúc của Autoencoder

Các thành phần chính

Autoencoder bao gồm các thành phần chính sau:

® Bộ mã hóa (Encoder): Thành phan này nhận đầu vào dir liệu và biến đổi

nó thành một biểu diễn không gian tiềm ẩn (latent space representation) có

24

Một phần của tài liệu Khóa luận tốt nghiệp An toàn thông tin: Fed-LSAE: Phương pháp ngăn chặn tấn công đầu độc cho bộ khung liên kết phát hiện tác nhân đe dọa sử dụng chiến lược phân tích không gian tiềm ẩn (Trang 37 - 78)

Tải bản đầy đủ (PDF)

(100 trang)