Các vấn đề lý luận cơ bản về mô hình Học liên kết- 123docz.net

CHƯƠNG 2: TỔNG QUAN VỀ MÔ HÌNH HỌC LIÊN KẾT

2.1. Các vấn đề lý luận cơ bản về mô hình Học liên kết

2.1.1. Lịch sử hình thành:

Thuật ngữ “Federated Learning”, hay FL mang ý nghĩa “Học liên kết” được Google đặt ra vào năm 2016 trên một diễn đàn về khoa học máy tính có tiêu đề

"Communication-Efficient Learning of Deep Networks from Decentralized Data" hay

“Phương pháp học tập hiệu quả của Mạng Neuron và Học Sâu từ dữ liệu phi tập trung”. Tuy nhiên, ý tưởng của việc sử dụng dữ liệu phân tán để đào tạo mô hình học

máy đã được nghiên cứu từ những năm trước đó.

Trước khi Federated Learning được giới thiệu, việc đào tạo mô hình học máy thường được thực hiện bằng cách tập trung dữ liệu từ nhiều nguồn vào một trung tâm

dữ liệu duy nhất để đào tạo. Tuy nhiên, phương pháp này gặp phải một số vấn đề về tính bảo mật và quyền riêng tư, cũng như gặp khó khăn trong xử lý dữ liệu lớn.

Trong buổi tọa đàm trên, G.Anthony Reina, trưởng bộ phận AI của công ty giải thích: “Khi dữ liệu bị phân phối giữa hàng triệu khách hàng (trong trường hợp này

là dữ liệu từ điện thoại di động), việc thu thập tất cả thông tin của người dùng để gửi

về máy chủ là vô cùng rủi ro trong việc bảo mật, bên cạnh đó cũng phát sinh nhiều vấn đề như: Thời gian thu thập dữ liệu bị kéo dài, chi phí bỏ ra rất tốn kém, gặp khó

khăn trong vấn đề lưu trữ dữ liệu,…”.

Qua đó, ông đề xuất một phương án giải quyết các vấn đề trên, đó là gửi các

mô hình cục bộ (Local model) tới từng điện thoại, các mô hình này tính toán tham số dựa trên mỗi dữ liệu và gửi chúng về máy chủ. Từ các tham số được gửi về, máy chủ

có thể tổng hợp và phân tích để cho ra một mô hình chính xác nhất. Vì vậy, chỉ có các

mô hình đào tạo mới được di chuyển chứ không phải dữ liệu. Phương án này cho thấy tính khả thi và dần được áp dụng rộng rãi. Đây chính là nguyên lí cơ bản để tạo nên các mô hình Federated Learning sau này.

Copies for internal use only in Phenikaa University

Hình 2.1: Tổng quan của một mô hình Học liên kết/Federated Learning

2.1.2.Khái niệm về Học liên kết:

Theo định nghĩa của IBM: “Federated learning aims at training a machine learning algorithm, for instance deep neural networks, on multiple local datasets contained in local nodes without explicitly exchanging data samples. The general principle consists in training local models on local data samples and exchanging parameters between these local nodes at some frequency to generate a global model shared by all nodes.”

Như vậy, ta có thể định nghĩa cụ thể như sau: “Federated Learing, hay Học liên kết là một phương pháp học máy, đào tạo các bộ dữ liệu phân tán mà không cần

Copies for internal use only in Phenikaa University

trao đổi một cách rõ ràng. Nguyên tắc chung của phương pháp này là đào tạo các mô hình cục bộ thông qua các bộ dữ liệu riêng tư, sau đó gửi các tham số về máy chủ để tạo thành thành mô hình tổng hợp.”

2.1.3.Các điều kiện để tạo thành mô hình Học liên kết:

Dựa vào định nghĩa về mô hình học liên kết cũng như hoàn cảnh ra đời của mô hình FL đã trình bày như trên, chúng ta có thể chỉ ra những trường hợp, điều kiện để

có thể sử dụng mô hình này một cách hiệu quả nhất, bao gồm:

1) Các bộ dữ liệu tham gia đào tạo bị phân tán, quá trình thu thập mọi dữ liệu về máy chủ trung tâm gặp các vấn đề khó khăn như chi phí, thời gian,…

2) Dữ liệu có tính bảo mật cao, không cho phép truy cập tự do, hoặc có kích thước rất lớn, không tiện đưa vào trung tâm dữ liệu chỉ vì mục đích đào tạo

mô hình.

2.1.4. Đối tượng tham gia đào tạo mô hình Học liên kết:

Trong FL, có 3 đối tượng chính tham gia vào quy trình đào tạo mô hình đó là: Máy chủ (Central Server), các Máy cục bộ (Users) và Dữ liệu (Data). Mỗi đối tượng

có một vai trò khác nhau, chi tiết cụ thể được miêu tả trong từng phần dưới đây.

Copies for internal use only in Phenikaa University

Hình 2.2: Sơ đồ tổng quan của một mô hình Học liên kết

2.1.4.1.Máy chủ:

Máy chủ trung tâm, còn gọi là Central Server hoặc Base Station, đóng vị trí chủ đạo trong quá trình xây dựng mô hình FL. Server chịu trách nhiệm quản lý và cập nhật mô hình toàn cầu trong khi các User thực hiện việc huấn luyện trên dữ liệu cục

bộ và gửi thông tin cập nhật cho máy chủ.:

1) Quản lý mô hình: Máy chủ giữ trọng trách quản lý mô hình chung của toàn bộ

hệ thống Federated Learning, đồng thời đảm bảo sự đồng bộ và hiệu quả của toàn bộ mô hình trong quá trình đào tạo.

2) Điều phối quá trình đào tạo: Máy chủ điều phối mọi hoạt động trong quá trình

học liên kết. Server thường được cài đặt các phần mềm liên quan đến Federated Learning để thực hiện các nhiệm vụ quản lý và phân phối mô hình đến các máy cục bộ, cập nhật mô hình dựa trên thông tin đã nhận được. Sau mỗi lần cập nhật, máy chủ yêu cầu lặp lại quy trình đào tạo đến các máy cục bộ.

Copies for internal use only in Phenikaa University

3) Thu nhận thông tin từ máy cục bộ: Thay vì yêu cầu các thiết bị gửi dữ liệu thô

về máy chủ, máy chủ chỉ nhận thông tin cần thiết để cập nhật mô hình mà không tiết lộ dữ liệu cụ thể.

2.1.4.2.Các máy cục bộ:

Các máy cục bộ, còn gọi là các Users, Clients, hoặc Local Devices. Đây là các thiết bị phân tán như điện thoại di động hoặc máy tính cá nhân được cài đặt phần mềm

để tham gia vào quá trình đào tạo mô hình. Đây là nơi lưu trữ những bộ dữ liệu riêng

tư phục vụ cho mô hình học liên kết. Khác với máy chủ trung tâm, số lượng máy cục

bộ tham gia là rất nhiều, tùy vào số lượng dữ liệu và quy mô của mô hình đó. Các vai trò của máy cục bộ bao gồm:

1) Bảo mật và quyền riêng tư: Máy cục bộ là nơi lưu trữ những bộ dữ liệu phân

tán trong mô hình học liên kết, có nhiệm vụ giữ quyền kiểm soát dữ liệu của mình và không chia sẻ nó với các Clients khác hoặc máy chủ tập trung. Việc lưu trữ và bảo mật dữ liệu riêng tư đảm bảo rằng dữ liệu không bị rò rỉ trong quá trình đào tạo.

2) Đào tạo mô hình cục bộ: Mỗi máy cục bộ tham gia vào quá trình đào tạo mô

hình trên chính bộ dữ liệu của nó. Các máy cục bộ tự động đào tạo mô hình trên dữ liệu của mình, sử dụng các thuật toán học máy hoặc mạng neuron để tạo ra các tham số mô hình cục bộ.

3) Giao tiếp với máy chủ: Các máy cục bộ gửi thông tin cập nhật cho máy chủ.

Thông tin này có thể là các tham số, Gradient, hoặc các bản sao mô hình. Thông qua giao tiếp với máy chủ, các máy cục bộ chia sẻ thông tin quan trọng để cập nhật mô hình chung. Nếu máy chủ muốn lặp lại mô hình, máy cục bộ thu nhận chỉ thị và lặp lại quy trình đào tạo dữ liệu đến khi đạt kết quả tốt nhất.

2.1.4.3.Dữ liệu:

Data (Dữ liệu): Các bộ dữ liệu được phân tán trên các thiết bị tham gia đào tạo. Mỗi Client có một tập dữ liệu riêng tư không chia sẻ với các Client khác. Vai trò của

Copies for internal use only in Phenikaa University

Dữ liệu là cung cấp giá trị thông tin cần thiết cho bài toán nghiên cứu. Dữ liệu tại các máy cục bộ tương ứng được đào tạo để cho ra các giá trị tham số và gửi về máy chủ,

từ đó máy chủ tổng hợp các tham số này để đào tạo mô hình toàn cầu. Dữ liệu có thể bao gồm nhiều kiểu khác nhau như hình ảnh, văn bản, âm thanh, hoặc bất kỳ loại dữ liệu nào phù hợp với bài toán cụ thể mà mô hình đang giải quyết.

Các vấn đề lý luận cơ bản về mô hình Học liên kết

Mô hình Lượng tử hóa trong Machine Learning

Quy trình phân bổ tài nguyên Băng thông