Lựa chọn thuật toán

Một phần của tài liệu ứng dụng học tăng cường sâu cho tối ưu phân bổ tài nguyên trong hệ thống học liên kết (Trang 65 - 69)

CHƯƠNG 4: TIẾN HÀNH THỰC NGHIỆM

4.4. Lựa chọn thuật toán

4.4.1.Thuật toán Fed Avg:

Thuật toán Federated Averaging (FedAvg) là một thuật toán học máy phân tán được sử dụng trong lĩnh vực học máy và trí tuệ nhân tạo. Nó là một phần quan trọng của lĩnh vực học máy phân tán (Federated Learning), trong đó các mô hình học máy được huấn luyện trên các thiết bị phân tán hoặc trên các nút có dữ liệu địa phương,

mà không cần truyền toàn bộ dữ liệu đến một trung tâm trung tâm. Giá trị của tham

số sau khi được gửi về BS sẽ được tính trung bình.

Copies for internal use only in Phenikaa University

Algorithm 1: Fed Avg with uplink TO and QE

1. Khởi tạo mô hình toàn cầu bởi máy chủ.

2. for 𝑡={1,2,…𝑇} do

3. Máy chủ kết nối với hệ thống 𝑁 User

4. Máy chủ phát sóng mô hình toàn cầu 𝑤𝑡−1 tới các User;

5. for máy khách 𝑖𝜖𝑁 do (song song)

6. 𝑤𝑖0(𝑡) = 𝑤(t − 1)

7. for k= {1,2, … 𝐸} do

8. Cập nhật mô hình cục bộ bằng SGD

9. end for

10. Gửi cập nhật mô hình lượng tử hóa tới máy chủ;

11. end for

12. Lặp lại cho tất cả User trong;

13. end for

Bảng 4.1.Thuật toán Fed avg

4.4.2.Thuật toán Deep Q-Networks:

Deep Q-Networks (DQN) là một thuật toán học tăng cường (Reinforcement Learning) sử dụng mạng nơ-ron sâu để ước tính và cải thiện hàm giá trị hành động (action-value function) trong một môi trường tương tác.

Thuật toán Deep Q-Learning (DQL) sử dụng mạng thần kinh sâu (DNN) thay vì bảng

𝒬 để xấp xỉ giá trị 𝒬 ∗ (𝑠, 𝑎). Tuy nhiên, hiệu suất của học tăng cường có thể không

ổn định hoặc thậm chí khác nhau khi sử dụng xấp xỉ hàm phi tuyến. Điều này bắt nguồn từ việc một thay đổi nhỏ trong giá trị 𝒬 có thể ảnh hưởng lớn đến chính sách.

Do đó, việc phân phối dữ liệu và mối tương quan giữa các giá trị 𝒬 và giá trị đích

𝑅 + 𝛾. max𝑎𝒬(𝑠, 𝑎) rất đa dạng. Để giải quyết vấn đề này, chúng tôi sử dụng hai cơ chế: trải nghiệm lặp lại và nhắm mục tiêu mạng 𝒬 như sau:

Copies for internal use only in Phenikaa University

• Cơ chế lưu trữ trạng thái trải nghiệm: Thuật toán triển khai một bộ nhớ tái trải nghiệm 𝓓, còn được gọi là bể nhớ, để lưu trữ các chuyển tiếp 𝑒 = (𝑠𝑡 , 𝑎𝑡 , 𝑟𝑡 , 𝑠𝑡+1) thay vì chạy trên các cặp trạng thái-hành động khi chúng xảy

ra trong quá trình trải nghiệm. Sau đó, thuật toán ngẫu nhiên chọn mẫu, còn được gọi là các mini-batch, từ 𝓓 để huấn luyện DNN. Các giá trị 𝓠 thu được bởi DNN đã được huấn luyện sẽ được sử dụng để tạo ra các trải nghiệm mới, tức là các chuyển tiếp, và những trải nghiệm này sẽ được lưu trữ trong bể nhớ

𝓓. Bằng cách sử dụng cả các trải nghiệm cũ và mới, kỹ thuật này cho phép DNN được huấn luyện hiệu quả hơn. Hơn nữa, bằng cách sử dụng tái trải nghiệm kinh nghiệm, các chuyển tiếp trở nên độc lập và phân phối đồng nhất hơn, từ đó các tương quan giữa các quan sát có thể được loại bỏ.

• Mạng 𝓠 cố định: Giá trị 𝓠 sẽ thay đổi trong quá trình huấn luyện. Kết quả là, các ước lượng giá trị có thể bất ổn nếu sử dụng một tập hợp giá trị không ngừng thay đổi để cập nhật mạng Q chính, dẫn đến sự không ổn định của thuật toán.

Để khắc phục vấn đề này, thuật toán học 𝓠 sâu triển khai một mạng 𝓠 mục tiêu

để cập nhật thường xuyên nhưng chậm dần đến mạng 𝓠 chính. Bằng cách này,

sự tương quan giữa các giá trị 𝓠 mục tiêu và ước lượng được giảm đáng kể, từ

đó ổn định hóa thuật toán.

Copies for internal use only in Phenikaa University

Algorithm 1: Thuật toán DQN

1. Khởi tạo khởi tạo bộ nhớ lưu trữ kinh nghiệm 𝓓

2. Khởi tạo: khởi tạo mạng 𝓠 với trọng số ngẫu nhiên 𝜃

3. for Số vòng học = 1 đến 𝑀 do

4. for 𝑡 = 1 đến 𝑇 do

5. Xem xét trạng thái 𝑠𝑡, với xác suất 𝜀 chọn hành động ngẫu nhiên 𝑎𝑡.

6. Thực thi hành động 𝑎𝑡 và quan sát phần thưởng 𝑟𝑡. và trạng thái tiếp theo

𝑠𝑡+1.

7. Thay thế 𝑠𝑡 = 𝑠𝑡+1

8. Lưu trữ chuyển tiếp 𝑒 = (𝑠𝑡 , 𝑎𝑡 , 𝑟𝑡 , 𝑠𝑡+1) trong 𝓓

9. Chọn 𝑁𝑏 kinh nghiệm ngẫu nhiên 𝑒 = (𝑠𝑡 , 𝑎𝑡 , 𝑟𝑡 , 𝑠𝑡+1) từ bộ nhớ 𝓓.

10. Thực hiện giá trị 𝓠:

11. 𝑦𝑖 = 𝑟𝑖+ 𝛾 max 𝒬(𝑠𝑖+1, 𝑎𝑖+1|𝜃−)

12. Thực hiện bước giảm gradient trên (𝛾 − 𝒬(𝑠𝑖, 𝑎𝑖|𝜃−))2 đối với các tham

số mạng 𝜃.

13. end for

14. end for

Copies for internal use only in Phenikaa University

Hình 4.1: Sơ đồ khối thuật toán DQN cho Mô hình FL

Một phần của tài liệu ứng dụng học tăng cường sâu cho tối ưu phân bổ tài nguyên trong hệ thống học liên kết (Trang 65 - 69)

Tải bản đầy đủ (PDF)

(74 trang)