CHƯƠNG 2: TỔNG QUAN VỀ MÔ HÌNH HỌC LIÊN KẾT
2.1. Các vấn đề lý luận cơ bản về mô hình Học liên kết
2.1.1. Lịch sử hình thành:
Thuật ngữ “Federated Learning”, hay FL mang ý nghĩa “Học liên kết” được Google đặt ra vào năm 2016 trên một diễn đàn về khoa học máy tính có tiêu đề
"Communication-Efficient Learning of Deep Networks from Decentralized Data" hay
“Phương pháp học tập hiệu quả của Mạng Neuron và Học Sâu từ dữ liệu phi tập trung”. Tuy nhiên, ý tưởng của việc sử dụng dữ liệu phân tán để đào tạo mô hình học
máy đã được nghiên cứu từ những năm trước đó.
Trước khi Federated Learning được giới thiệu, việc đào tạo mô hình học máy thường được thực hiện bằng cách tập trung dữ liệu từ nhiều nguồn vào một trung tâm
dữ liệu duy nhất để đào tạo. Tuy nhiên, phương pháp này gặp phải một số vấn đề về tính bảo mật và quyền riêng tư, cũng như gặp khó khăn trong xử lý dữ liệu lớn.
Trong buổi tọa đàm trên, G.Anthony Reina, trưởng bộ phận AI của công ty giải thích: “Khi dữ liệu bị phân phối giữa hàng triệu khách hàng (trong trường hợp này
là dữ liệu từ điện thoại di động), việc thu thập tất cả thông tin của người dùng để gửi
về máy chủ là vô cùng rủi ro trong việc bảo mật, bên cạnh đó cũng phát sinh nhiều vấn đề như: Thời gian thu thập dữ liệu bị kéo dài, chi phí bỏ ra rất tốn kém, gặp khó
khăn trong vấn đề lưu trữ dữ liệu,…”.
Qua đó, ông đề xuất một phương án giải quyết các vấn đề trên, đó là gửi các
mô hình cục bộ (Local model) tới từng điện thoại, các mô hình này tính toán tham số dựa trên mỗi dữ liệu và gửi chúng về máy chủ. Từ các tham số được gửi về, máy chủ
có thể tổng hợp và phân tích để cho ra một mô hình chính xác nhất. Vì vậy, chỉ có các
mô hình đào tạo mới được di chuyển chứ không phải dữ liệu. Phương án này cho thấy tính khả thi và dần được áp dụng rộng rãi. Đây chính là nguyên lí cơ bản để tạo nên các mô hình Federated Learning sau này.
Copies for internal use only in Phenikaa University
Hình 2.1: Tổng quan của một mô hình Học liên kết/Federated Learning
2.1.2.Khái niệm về Học liên kết:
Theo định nghĩa của IBM: “Federated learning aims at training a machine learning algorithm, for instance deep neural networks, on multiple local datasets contained in local nodes without explicitly exchanging data samples. The general principle consists in training local models on local data samples and exchanging parameters between these local nodes at some frequency to generate a global model shared by all nodes.”
Như vậy, ta có thể định nghĩa cụ thể như sau: “Federated Learing, hay Học liên kết là một phương pháp học máy, đào tạo các bộ dữ liệu phân tán mà không cần
Copies for internal use only in Phenikaa University
trao đổi một cách rõ ràng. Nguyên tắc chung của phương pháp này là đào tạo các mô hình cục bộ thông qua các bộ dữ liệu riêng tư, sau đó gửi các tham số về máy chủ để tạo thành thành mô hình tổng hợp.”
2.1.3.Các điều kiện để tạo thành mô hình Học liên kết:
Dựa vào định nghĩa về mô hình học liên kết cũng như hoàn cảnh ra đời của mô hình FL đã trình bày như trên, chúng ta có thể chỉ ra những trường hợp, điều kiện để
có thể sử dụng mô hình này một cách hiệu quả nhất, bao gồm:
1) Các bộ dữ liệu tham gia đào tạo bị phân tán, quá trình thu thập mọi dữ liệu về máy chủ trung tâm gặp các vấn đề khó khăn như chi phí, thời gian,…
2) Dữ liệu có tính bảo mật cao, không cho phép truy cập tự do, hoặc có kích thước rất lớn, không tiện đưa vào trung tâm dữ liệu chỉ vì mục đích đào tạo
mô hình.
2.1.4. Đối tượng tham gia đào tạo mô hình Học liên kết:
Trong FL, có 3 đối tượng chính tham gia vào quy trình đào tạo mô hình đó là: Máy chủ (Central Server), các Máy cục bộ (Users) và Dữ liệu (Data). Mỗi đối tượng
có một vai trò khác nhau, chi tiết cụ thể được miêu tả trong từng phần dưới đây.
Copies for internal use only in Phenikaa University
Hình 2.2: Sơ đồ tổng quan của một mô hình Học liên kết
2.1.4.1.Máy chủ:
Máy chủ trung tâm, còn gọi là Central Server hoặc Base Station, đóng vị trí chủ đạo trong quá trình xây dựng mô hình FL. Server chịu trách nhiệm quản lý và cập nhật mô hình toàn cầu trong khi các User thực hiện việc huấn luyện trên dữ liệu cục
bộ và gửi thông tin cập nhật cho máy chủ.:
1) Quản lý mô hình: Máy chủ giữ trọng trách quản lý mô hình chung của toàn bộ
hệ thống Federated Learning, đồng thời đảm bảo sự đồng bộ và hiệu quả của toàn bộ mô hình trong quá trình đào tạo.
2) Điều phối quá trình đào tạo: Máy chủ điều phối mọi hoạt động trong quá trình
học liên kết. Server thường được cài đặt các phần mềm liên quan đến Federated Learning để thực hiện các nhiệm vụ quản lý và phân phối mô hình đến các máy cục bộ, cập nhật mô hình dựa trên thông tin đã nhận được. Sau mỗi lần cập nhật, máy chủ yêu cầu lặp lại quy trình đào tạo đến các máy cục bộ.
Copies for internal use only in Phenikaa University
3) Thu nhận thông tin từ máy cục bộ: Thay vì yêu cầu các thiết bị gửi dữ liệu thô
về máy chủ, máy chủ chỉ nhận thông tin cần thiết để cập nhật mô hình mà không tiết lộ dữ liệu cụ thể.
2.1.4.2.Các máy cục bộ:
Các máy cục bộ, còn gọi là các Users, Clients, hoặc Local Devices. Đây là các thiết bị phân tán như điện thoại di động hoặc máy tính cá nhân được cài đặt phần mềm
để tham gia vào quá trình đào tạo mô hình. Đây là nơi lưu trữ những bộ dữ liệu riêng
tư phục vụ cho mô hình học liên kết. Khác với máy chủ trung tâm, số lượng máy cục
bộ tham gia là rất nhiều, tùy vào số lượng dữ liệu và quy mô của mô hình đó. Các vai trò của máy cục bộ bao gồm:
1) Bảo mật và quyền riêng tư: Máy cục bộ là nơi lưu trữ những bộ dữ liệu phân
tán trong mô hình học liên kết, có nhiệm vụ giữ quyền kiểm soát dữ liệu của mình và không chia sẻ nó với các Clients khác hoặc máy chủ tập trung. Việc lưu trữ và bảo mật dữ liệu riêng tư đảm bảo rằng dữ liệu không bị rò rỉ trong quá trình đào tạo.
2) Đào tạo mô hình cục bộ: Mỗi máy cục bộ tham gia vào quá trình đào tạo mô
hình trên chính bộ dữ liệu của nó. Các máy cục bộ tự động đào tạo mô hình trên dữ liệu của mình, sử dụng các thuật toán học máy hoặc mạng neuron để tạo ra các tham số mô hình cục bộ.
3) Giao tiếp với máy chủ: Các máy cục bộ gửi thông tin cập nhật cho máy chủ.
Thông tin này có thể là các tham số, Gradient, hoặc các bản sao mô hình. Thông qua giao tiếp với máy chủ, các máy cục bộ chia sẻ thông tin quan trọng để cập nhật mô hình chung. Nếu máy chủ muốn lặp lại mô hình, máy cục bộ thu nhận chỉ thị và lặp lại quy trình đào tạo dữ liệu đến khi đạt kết quả tốt nhất.
2.1.4.3.Dữ liệu:
Data (Dữ liệu): Các bộ dữ liệu được phân tán trên các thiết bị tham gia đào tạo. Mỗi Client có một tập dữ liệu riêng tư không chia sẻ với các Client khác. Vai trò của
Copies for internal use only in Phenikaa University
Dữ liệu là cung cấp giá trị thông tin cần thiết cho bài toán nghiên cứu. Dữ liệu tại các máy cục bộ tương ứng được đào tạo để cho ra các giá trị tham số và gửi về máy chủ,
từ đó máy chủ tổng hợp các tham số này để đào tạo mô hình toàn cầu. Dữ liệu có thể bao gồm nhiều kiểu khác nhau như hình ảnh, văn bản, âm thanh, hoặc bất kỳ loại dữ liệu nào phù hợp với bài toán cụ thể mà mô hình đang giải quyết.