1.5 Ý nghĩa khoa học và thực tiễn
2.1.3. Mô hình học liên kết (Federated Learning)
Tổng quan
Federated Learning (FL) là một phương pháp học máy phi tập trung, trong đó
dữ liệu được phân tán trên nhiều thiết bị hay máy chủ khác nhau. Thay vì tập trung đữ liệu vào một nơi duy nhất để huấn luyện một mô hình, các thiết bị hay máy chủ được kết nối với nhau thông qua mang, va các mô hình được huấn luyện trên các dữ liệu cục bộ và được kết hợp lại để tạo ra một mô hình toàn cục. Theo
14
Chương 2. CƠ SỞ LÍ THUYẾT VÀ CÔNG TRÌNH LIÊN QUAN
đó, các thiết bị đóng vai trò như các nút trong một mạng phân tán, mỗi nút huấn luyện một phần của mô hình trên dữ liệu cục bộ của nó và gửi kết quả cho một máy chủ trung tâm (central server) để tổng hợp thành mô hình toàn cục mới. Sau
đó, mô hình toàn cục được gửi trở lại các thiết bị hay máy chủ để tiếp tục quá trình huấn luyện cho đến khi đạt ngưỡng tối uu.
Một trong những uu điểm của FL là nó cho phép huấn luyện mô hình trên các dữ liệu phân tán mà không cần phải truyền dir liệu qua mạng. Điều này giúp bảo vệ tính riêng tư và an ninh của dir liệu, giảm thiểu việc truyền tải dữ liệu và giảm thời gian và chi phí tính toán.Do đó, FL được sử dụng trong nhiều ứng dụng, bao gồm dịch vụ tìm kiếm trên điện thoại di động, ứng dụng học máy trên thiết bị y
tế và các ứng dụng Internet of Things (IoT).
Server A ) Sending encrypted gradients
Secure aggregation Sending back model updates Updating models
HINH 2.2: M6 hinh hoc lién két
15
Chương 2. CƠ SỞ LÍ THUYẾT VÀ CÔNG TRÌNH LIÊN QUAN
Phân loại
-dfEren sample spa Local Data i
(a) Horizontal Federated Learning (b) Vertical Federated Learning (©) Federated Transfer Learning
(HFL) (VFL) (FTL) HINH 2.3: Các loại mô hình học liên kết theo phân vùng di liệu [40]
Theo như nghiên cứu [40] của tác giả Dinh C. Nguyen, Federated Learning được chia làm ba loại chính như Hình 2.3 :
¢ Horizontal Federated Learning: là phương pháp học mà các máy sẽ chia sẻ
thôn tin của nhiều đối tượng có cùng đặc trưng với nhau. Ví dụ: thông tin
của người dùng ở hai ngân hàng trong các vùng khác nhau. Họ sẽ chia sẻ thông tin khách hàng với nhau.
® Vertical Federated Learning: là phương pháp hoc mà các máy sẽ chia sẻ
thông tin của cùng một đối tượng nhưng khác các đặc trưng. Ví dụ: thông
tin của người dùng ở ngân hàng và bệnh viện trong một khu vực nào đó. Ở
ngân hàng sẽ có những đặc trưng khác với bệnh viện khi có cùng một khách
hàng vì vậy ngân hàng và bệnh viện có thể chia sẽ với nhau và bổ sung cho
nhau ở khía cạnh các đặc trưng.
® Federated Transfer Learning: là phương pháp học liên kết chuyển giao mà các máy sẽ chia sẻ thông tin của nhiều đối tượng với các đặc trưng khác
nhau.
Các thuật toán tổng hợp
Hiện nay có một số phương pháp tổng hợp dành cho các mô hình học liên kết và tuỳ vào mỗi nhu cầu sử dụng thì có thể lựa chọn các thuật toán phù hợp.
16
Chương 2. CƠ SỞ LI THUYET VA CONG TRINH LIEN QUAN
* Federated Averaging (FedAvg)[45]: Day là phương pháp tổng hợp mô hình phổ biến nhất trong FL. Sau khi nhận được các mô hình cục bộ từ thành viên, máy chủ trung tâm tính toán trung bình từ các tham số đã gửi và cập
nhật mô hình toàn cục. Mô hình toàn cục mới được gửi lại cho các thành
viên và tiếp tục quá trình huấn luyện.
e Fed+[54]: là một biến thể của FedAvg dành cho ngữ cảnh non-iid hoặc không đáp ứng được yêu cầu tham gia cộng tác. Fed+ không yêu cầu tất
cả các bên phải đạt được sự đồng thuận, cho phép mỗi bên đào tạo các mô hình cục bộ được cá nhân hóa đồng thời tận dụng được khả năng cộng tác
để cái thiện độ chính xác và hiệu suất.
® FedProx [28]: là một thuật toán tối ưu hoá van đề không cân bằng và nhất quán của dữ liệu. Mỗi thành viên không chỉ gửi các tham số huấn luyện mà còn gửi thêm các thành phần bổ sung "proximal term", đây chính là khoảng. cách của tham số hiện tại và tham số toàn cục. Mô hình toàn cục tính toán trung bình từ các tham số và "proximal term" dã nhận sau đó cập nhật mô hình toàn cục. Mục đích của nó nhằm thúc đẩy tính nhất quán của mô hình
toàn cục.
® Federated Normalized Averaging (FedNova) [51]: để cải thiện không đồng nhất trên dir liệu, FedNova chuẩn hoá các tham số từ các thành viên trước khi được gửi lên máy chủ tổng hợp. Bước chuẩn hoá này giúp đảm bảo rằng các đóng góp khác nhau được cân bằng mặc cho quy mô hoặc phân phối dit liệu chênh lệch. Qua đó đạt được mục đích giảm thiểu tác động của các
thành viên với quy mô dữ liệu khác nhau.
Van dé phân phối dữ liệu trong học liên kết
Trong trường hợp lý tưởng, các thành viên tham gia học liên kết có thể thu thập được dit liệu độc lập và có phân phối đồng nhất hay còn gọi là IID (Independent and Identically Distributed) qua đó có thể giúp mô hình đảm bảo khả năng hội
tụ và đưa ra được kết quả như mong muốn. Tuy nhiên trong thực tế, vấn để phân phối di liệu là một thách thức quan trong cần được giải quyết. Vì dữ liệu được phân tán và tuỳ thuộc vào khả năng thu thập của mỗi thiết bị hay tổ chức
17
Chương 2. CƠ SỞ LI THUYET VA CONG TRINH LIEN QUAN
khiến cho dữ liệu không được độc lập và nhất quán hay còn gọi là Non-IID (Non- Independent and Identically Distributed). Điều này dẫn đến mô hình cộng tác có thể hội tu chậm hay dự đoán sai va làm giảm hiệu suất của quá trình học liên kết (Hình 2.4). Dưới đây là một số van dé của phân phối di liệu trong học liên kết:
IID data '
Ú} >3: @ ị
6 Duy Ta! h
t 9099 h
Op pe H3
01 '
HÌNH 2.4: Ảnh hưởng của thiéu cân bằng dữ liệu trong học liên kết
[35]
© Không cân bằng đữ liệu: Mỗi thiết bị hoặc máy chủ có thể có một phân phối
dữ liệu không đồng đều. Điều này có thể dẫn đến việc mô hình toàn cục không được đại diện tốt cho các đặc trưng của các lớp dữ liệu ít được đại điện. Để giải quyết van dé này, có thể sử dung các phương pháp như lấy mẫu cân bằng, điều chỉnh trọng số hoặc sử dụng kỹ thuật oversampling
hoặc undersampling.
* Dw liệu không đồng nhất: Các thiết bị hoặc máy chủ có thể có dữ liệu không đồng nhất về phân phối hoặc đặc trưng. Điều này có thể gây ra sự không nhất quán trong quá trình huấn luyện và ảnh hưởng đến hiệu suất của mô hình toàn cục. Một phương pháp để giải quyết van dé này là sử dụng kỹ thuật dữ liệu tổng hợp, như trung bình hoặc trọng số trung bình, để tích hợp thông tin từ các thiết bị hoặc máy chủ khác nhau và tạo ra một mô hình toàn cục đồng nhất.
18
Chương 2. CƠ SỞ LI THUYET VA CONG TRINH LIEN QUAN
2.14 Tan công dau độc trong mô hình học liên kết
Tổng quan
Tan công đầu độc (poisoning attack) [34] là một kỹ thuật tan công trong đó kẻ tấn công có gắng thay đổi dữ liệu huấn luyện để làm sai lệch mô hình học máy. Khi
mô hình được huấn luyện trên dữ liệu đã bị đầu độc, nó có thể cho ra kết quả dự đoán sai hoặc thực hiện hành động không mong muốn.
1: send local model gradients
| 2: aggregate local model gradients
| 3: download the latest global model
3 | 4: update local model
ee én)
Aa oa Bo
Party1 Party 2 Party n
HÌNH 2.5: Tan công đầu độc trong học liên kết [34]
Trong FL, tấn công đầu độc có thể được thực hiện bởi các bên tham gia cộng tác bằng cách thêm các dữ liệu độc hại vào tập dữ liệu huấn luyện hoặc sửa đổi các điểm dữ liệu đã có trong tập huấn luyện. Khi mô hình học máy được huấn luyện
trên tập dữ liệu này, nó sẽ học cách phân loại dữ liệu độc hại như là một lớp dữ
liệu bình thường, hoặc bị mắt đi khả năng đưa ra dự đoán chính xác một mẫu dữ liệu bat kì.
Tan công đầu độc có thể gây ra những hậu quả nghiêm trong cho hệ thống học máy, bao gồm việc giảm độ chính xác và độ tin cậy của mô hình, thậm chí có thể làm cho mô hình hoàn toàn vô dụng. Do đó, việc bảo vệ các hệ thống học máy
19
Chương 2. CƠ SỞ LI THUYET VA CONG TRINH LIEN QUAN
trước tân công dau độc là rất quan trong để đảm bảo an toàn va đáng tin cậy cho
các ứng dụng học máy.
Để bảo vệ mô hình FL khỏi các cuộc tắn công đầu độc, cần áp dụng các biện pháp bảo mật, chẳng hạn như kiểm tra tính xác thực của người dùng, và xác thực mô
hình cục bộ trước khi được sử dụng trong quá trình học. Ngoài ra, các phương
pháp phát hiện và xử lý các điểm dữ liệu bất thường cũng có thể được áp dung
để phát hiện và ngăn chặn các tấn công dau độc.
Các loại tan công đầu độc (poisoning attack)
Trong học máy, có một số loại tan công đầu độc (poisoning attacks) [46] mà những
kẻ tấn công có thể thực hiện để làm sai lệch quá trình huấn luyện và gây hại cho
mô hình chung. Và dưới đây là một số loại tắn công đầu độc phổ biến trong học
cộng tác:
¢ Đầu độc dữ liệu (Data poisoning): Day là loại tan công phổ biến nhất trong machine learning. Kẻ tan công sẽ chèn các dữ liệu sai lệch hoặc giả mao vào tập huấn luyện để khiến mô hình học sai. Khi được huấn luyện trên các dữ liệu này, mô hình có thể trở nên không chính xác hoặc bị đánh lừa.
— Làm nhiễu nhãn (Label poisoning): Loại tắn công này liên quan đến việc thay đổi nhãn của các dữ liệu trong tập huan luyện để khiến mô hình học sai. Kẻ tan công có thể thay đổi nhãn của các dữ liệu để khiến
mô hình học sai lầm.
— Làm nhiễu đặc trưng (Feature poisoning): Loại tấn công này liên quan đến việc thay đổi các đặc trưng của các dữ liệu trong tập huấn luyện.
Kẻ tan công có thể thay đổi các đặc trưng để khiến mô hình học sai lam
hoặc bị đánh lừa.
¢ Đầu độc mô hình (Model poisoning): Loại tắn công này liên quan đến việc thay đổi mô hình machine learning bằng cách chèn các mô hình giả mạo
vào mô hình gốc. Một số cách thức phổ biến của loại tấn công này là đánh
sập mô hình, phá vỡ tính toàn vẹn của mô hình hoặc thực hiện các thay đổi
trên mô hình gốc để khiến nó trở nên không chính xác.
20
Chương 2. CƠ SỞ LI THUYET VA CONG TRINH LIEN QUAN
Các phương pháp phòng thủ trước tan công dau độc
Để phòng thủ trước các tắn công đầu độc trong học liên kết, có một số phương
pháp và biện pháp bảo vệ đã được sử dụng như sau:
¢ Predict model: Máy chủ trung tâm sẽ chuẩn bị một tập dữ liệu đã được gán
nhãn trước [57] [49]và các mô hình được gửi lên từ thành viên tham gia sẽ
tiến hành du đoán dựa trên bộ dit liệu đó. Nếu mô hình nào có dự đoán sai quá ngưỡng cho phép (threshhold) thì có thể bị từ chối hoặc xem xét lại.
¢ Clustering: Phương pháp này tập trung vào việc phân loại dữ liệu thành
các nhóm [20] dựa trên tính tương đồng của chúng. Phương pháp này có thể gom nhóm được giữa những thành viên lành tính và thành viên độc
hại.
* Cosine similarity: Phương pháp này đo độ tương đồng giữa các vector dữ liệu sử dụng độ do cosine, cụ thể là các trọng số của mô hình học máy [7][5]. Nếu có dit liệu không phù hợp hoặc có sự khác biệt lớn với các vector khác,
nó có thể được coi là tan công dau độc.
* Outlier detection: Kỹ thuật phát hiện điểm dữ liệu ngoại lai [26] [29] được
sử dụng để tìm kiếm các điểm dữ liệu không tuân thủ quy tắc hoặc khác biệt so với các mẫu thông thường. Máy chủ trung tâm có thể áp dụng kỹ thuật này để phát hiện và xử lý các mô hình bắt thường.
2.1.5 Biểu diễn lớp áp chót (Penultimate Layer Representation -
PLR)
Penultimate layer representation (PLR) [52] [21] là biểu diễn lớp áp chót của một mạng nơ-ron. Nói cách khác, penultimate layer là lớp thứ hai tính từ lớp cuối cùng, và output là lớp cuối cùng. Lớp này có vai trò quan trọng trong việc trích xuất đặc trưng quan trọng của dữ liệu huấn luyện dưới dạng véc-tơ số. Ví dụ, trong mạng nơ-ron để phân loại ảnh, PLR có thể là một véc-tơ mô tả đặc trưng
của hình ảnh bao gồm màu sắc, hình dang, đường viên, ... Khi đưa vào một mô hình máy học, PLR cung cấp cho mô hình thông tin quan trọng về dữ liệu để giúp
21
Chương 2. CƠ SỞ LI THUYET VA CONG TRINH LIEN QUAN
mô hình học cách phân loại chính xác các đối tượng. Ngoài ra, PLR trong mạng
nơ-ron còn có các ứng dụng phổ biến như sau:
¢ Rút trích đặc trưng: PLR giúp rút trích các đặc trưng quan trọng và trừu
tượng của đữ liệu đầu vào. Các đặc trưng này có thể được sử dụng để thực hiện các tác vụ như phân loại, nhận dạng, gom cụm, hoặc trích xuất thông
tin từ dữ liệu.
* Học chuyển giao (Transfer learning): PLR thường được sử dụng trong trans- fer learning [11], khi ta sử dụng mô hình đã được huấn luyện trước đó trên
một tác vụ liên quan để trích xuất đặc trưng và sau đó chỉ cần huấn luyện
lại một số lớp cuối cùng. PLR chứa các đặc trưng đã được học từ dữ liệu
liên quan, và ta có thể sử dụng lại các đặc trưng này để giúp mô hình học tốt hơn trên tác vụ mới.
® Trực quan hóa dữ liệu (Visualizing representations): Biểu dién của penul- timate layer có thể được sử dụng để trực quan hóa các đặc trưng đã học
được từ dữ liệu. Các kỹ thuật như t-SNE (t-Distributed Stochastic Neighbor
Embedding) và PCA (Principal Component Analysis) có thể được áp dụng
để giảm chiều dữ liệu từ penultimate layer và hiển thị chúng trong không gian hai hoặc ba chiều để giúp hiểu và phân tích các đặc trưng đã học.
. FC FC
Convolution Pooling Conv. Pooling Conv. Layer Layer Output
nee f. maps f. maps f. maps
32x32 Featuremaps 6@14x14 16@10x10 16@5x5
6@28x28
10
120
HINH 2.6: Vị trí của Penultimate Layer trong một mô hình CNN co
bản [21].
2
Chương 2. CƠ SỞ LI THUYET VA CONG TRINH LIEN QUAN
2.1.6 Thuật toán Centered Kernel Alignment (CKA)
Thuật toán Centered Kernel Alignment (CKA) được giới thiệu bởi Kornblith va
đồng nghiệp [25] nhằm so sánh các biểu dién đặc trưng trong mang no-ron. Nó được thiết kế để do độ tương đồng giữa các biểu diễn bằng cách làm phẳng các
ma trận nhân (kernel) tương ứng. CKA được sử dụng trong nhiều lĩnh vực khác nhau của máy học và trí tuệ nhân tạo, bao gồm các nghiên cứu tính toán về sự giống nhau của các mô hình học sâu, đánh giá sự tương đồng giữa các bộ lọc hình ảnh, và tìm kiếm các đặc trưng chung trong các tác vụ học khác nhau.
Trong phiên bản rút gọn, điểm CKA sẽ được tính dựa trên Hilbert-Schmidt Inde-
pendence Criterion (HSIC) như Công thức 2.1.
HSIC(K,L)
a (2.1) HSIC(K,K)HSI€(L,L)
CKA(K,L) =
Trong đó, K và L là các mã trận nhân tương ứng với hai biểu diễn đặc trưng. Điểm CKA nam trong khoảng từ 0 đến 1, trong đó điểm 1 chỉ ra sự tương đồng hoàn hảo giữa hai tập hợp biểu diễn đặc trưng.
Trong nghiên cứu này, chúng tôi sử dụng thuật toán CKA để đánh giá sự tương đồng giữa mỗi biểu diễn không gian tiềm ẩn (LSR) cục bộ và LSR toàn cục. Từ đó, chúng tôi có thể lọc ra các véc-tơ LSR độc hại có sự khác biệt rõ ràng với véc-tơ
LSR toàn cục so với các véc-tơ còn lại. Ngoài ra, không như thuật toán Cô-sin
(Cosine), CKA có thể đưa ra sự khác biệt rõ ràng hơn giữa một mô hình độc hại
và một mô hình lành tính huấn luyện bởi dữ liệu non-IID khi so sánh độ tương đồng với một mô hình lành tính khác.
2.17 Bộ tự mã hóa Autoencoder
Tổng quan
Autoencoder là một mô hình học máy không giám sát (Unsupervised Machine
Learning) được sử dụng để tự động học cách biểu diễn dữ liệu. Autoencoder có khả năng giảm chiều dữ liệu và khám phá các đặc trưng quan trọng từ dữ liệu ban đầu.
23
Chương 2. CƠ SỞ LÍ THUYẾT VÀ CÔNG TRÌNH LIÊN QUAN
® Dau vào: dữ liệu gốc được đưa vào để được biểu diễn và giảm chiều. Input
có thể là các dữ liệu số, như các vectơ đặc trưng, hoặc dir liệu hình ảnh, văn
bản, âm thanh,...
¢ Dau ra: dữ liệu được tái tạo từ biểu diễn nén (latent representation) tạo bởi encoder. Đầu ra có cùng định dạng với đầu vào ban đầu và so sánh đầu vào
để đánh giá chất lượng.
Quá trình huấn luyện autoencoder nhằm tối thiểu hóa sai lệch giữa dữ liệu tái tạo và dữ liệu ban đầu. Mô hình cố gắng học cách biểu diễn dữ liệu quan trọng nhất trong quá trình nén và giải mã, từ đó tạo ra một biểu diễn nén của dữ liệu,
hay còn gọi là latent space của dữ liệu.
Autoencoder có nhiều ứng dụng trong lĩnh vực xử lý dữ liệu, nhưng phổ biến nhất là trong việc giảm chiều dữ liệu và trích xuất đặc trưng. Autoencoder cũng,
có thể được sử dụng trong các tác vụ như nén dw liệu, phát hiện bất thường và
tái tạo ảnh.
Input image Reconstructed image
Latent Space
`
J{ J\
Y Y Y Encoder Bottleneck Decoder
HINH 2.7: Cấu trúc của Autoencoder
Các thành phần chính
Autoencoder bao gồm các thành phần chính sau:
® Bộ mã hóa (Encoder): Thành phan này nhận đầu vào dir liệu và biến đổi
nó thành một biểu diễn không gian tiềm ẩn (latent space representation) có
24