Thuật toán Q– learning

Một phần của tài liệu Đồ án tốt nghiệp: “Ứng dụng AI trong quản lý tài nguyên và búp sóng vô tuyến cho mạng 5G” (Trang 27 - 29)

2. ReinforcementLearning

2.2. Thuật toán Q– learning

Mơ hình Q-Learning cũng gần giống với quá trình đã được đề cập ở trên. Tuy nhiên, thay vì dựa trên giá trị của các state V(s) mà đưa ra quyết định về hành động thì Q- Learning tập trung hơn vào việc đánh giá chất lượng của một hành động 𝑄(𝑠, 𝑎). Vậy chúng ta làm như nào để đánh giá được các hành động này? Từ bên trên chúng ta có

Đỗ Minh Tồn - D17CQVT07-B 13 công thức: 𝑉(𝑠) = 𝑚𝑎𝑥 𝑎 (𝑅(𝑠, 𝑎) + 𝛾 ∑ 𝑃(𝑠, 𝑎, 𝑠′)𝑉(𝑠′)) 𝑠′ (1.3) Trong công thức này chúng ta đang quan tâm đến tất cả các state và tất cả các action khả thi. Vậy khi bỏ hàm 𝑚𝑎𝑥, chúng ta sẽ được công thức 𝑅(𝑠, 𝑎) +

𝛾 ∑ 𝑃(𝑠, 𝑎, 𝑠′)𝑉(𝑠′)𝑠′ và hãy nghĩ nó như là giá trị của một state được tạo ra cho chỉ một hành động khả thi. Chúng ta sẽ lấy phương trình này làm phương trình đánh giá hành động 𝑄(𝑠, 𝑎) như sau:

𝑄(𝑠, 𝑎) = 𝑅(𝑠, 𝑎) + 𝛾 ∑ 𝑃(𝑠, 𝑎, 𝑠′)𝑉(𝑠′)

𝑠′

(1.4)

Hình 1. 9: Minh họa thuật tốn q-learning

Để giảm thiểu các cơng việc tính tốn đồng thời để tạo nên sự đồng nhất, chúng ta có thể tiến hành cải tiến cơng thức thêm một bước nữa:

𝑄(𝑠, 𝑎) = 𝑅(𝑠, 𝑎) + 𝛾 ∑ 𝑃(𝑠, 𝑎, 𝑠′)𝑚𝑎𝑥

𝑎 𝑄(𝑠′, 𝑎′)

𝑠′

(1.5)

Đồ án tốt nghiệp Đại học Chương 1: Tổng quan về ML và RL

Đỗ Minh Toàn - D17CQVT07-B 14

một state được tính bằng giá trị lớn nhất có thể của 𝑄(𝑠, 𝑎). Giá trị được tính tốn từ cơng thức này được gọi là Q-values và agent sẽ học cách tự tính tốn Q-values và đưa ra hành động dựa trên các giá trị này. Ở trên chúng ta đã hiểu agent đưa ra lựa chọn dựa trên Q-values như thế nào, vậy giờ hãy cùng đến với một phần cuối đó là cách để agent có thể tự tính tốn Q-values.

Temporal Difference (TD)

Chúng ta đã biết môi trường không phải bất biến mà sẽ thay đổi theo thời gian, vậy phải làm như nào để nắm bắt được sự thay đổi của mơi trường? Đó chính là tính lại Q- values mới sử dụng cơng thức vừa xây dựng ở trên sau đó trừ đi Q-values đã biết.

𝑇𝐷(𝑎, 𝑠) = 𝑅(𝑠, 𝑎) + 𝛾∑ 𝑃(𝑠, 𝑎, 𝑠′)𝑚𝑎𝑥

𝑎 𝑄(𝑠′, 𝑎′)− 𝑄(𝑠, 𝑎)

𝑠′

(1.6) Phương trình trên cho thấy một sự thay đổi tạm thời của môi trường dựa theo Q- values. Vậy việc chúng ta cần làm là update các Q-values mới sử dụng công thức:

𝑄𝑡(𝑠, 𝑎) = 𝑄𝑡−1(𝑠, 𝑎) + 𝛼𝑇𝐷𝑡(𝑠, 𝑎) (1.7)

Trong đó,

• 𝛼: là tốc độ học (learning rate) tượng trưng cho việc agent thích nghi nhanh

chóng như thế nào với sự thay đổi của mơi trường.

• 𝑄𝑡(𝑠, 𝑎): là Q-value hiện tại.

• 𝑄𝑡−1(𝑠, 𝑎)): là Q-value trước đó.

Một phần của tài liệu Đồ án tốt nghiệp: “Ứng dụng AI trong quản lý tài nguyên và búp sóng vô tuyến cho mạng 5G” (Trang 27 - 29)

Tải bản đầy đủ (PDF)

(61 trang)