HO CHÍMINH CONG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAMTRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc CÔNG NGHỆ THÔNG TIN ĐĂNG KÝ ĐÈ TÀI KHÓA LUẬN TÓT NGHIỆP Tên đề tài: Kết hợp học tăng cường với các
Phương pháp Policy-basedl
Policy Gradienttheorem|
Trong phương pháp này, ta sử dung stochastic policy 79(a|s) với @ là tham số của mang neural policy Ta sẽ tối ưu policy của agent bằng phương pháp gradient ascent: ỉ8 =0+aVạ/7(7m)
Ta sẽ phân tích Vo J (70):
Xác suất xuất hiện của Trajectory:
P(t\zt) = po(so) TIÊ*o P(st+1|s+, ar)70(a#ls+)
VolnP(t|79) = Velnpo(so) + 3 ”[ValnP(s¿ 1|s;„ứ;) + Valnzr¿(4i|s¿)]
Chương 2 Kiến thức cơ bản
VoT (mt) = E (3 Volnmo(asR (rt) ® =0
Deterministic Policy Gradient theorem sees 13 [2.2.3 Phuong pháp Actor-Critic|
Trong phương pháp nay, ta sử dung deterministic policy 7rạ(s) = a làm policy cho agent Đây có thể coi là một trường hợp đặc biệt của stochastic policy với phương sai là 0 Tuy nhiên, có một điểm khác biệt giữa hai loại policy này Trong trường hợp stochastic policy, hàm policy lấy tích phân trên cả state và action, trong khi đó với deterministic policy thì chỉ lấy tích phân trên state Chính vì như thế, việc tính toán stochastic policy gradient sẽ cần nhiều sample hơn, đặc biệt khi không gian action có số chiều lớn Tương tự phương pháp trên, ta sẽ tối ưu policy của agent bằng phương pháp gradient ascent:
= = Jp“(s) 'VạQ”*(s, 7rạ(s))ds Áp dụng quy tắc chain rule, ta có:
Chương 2 Kiến thức cơ bản
Vạ/Z7(mạ) = E_ [VaQ”°(s,a)Vạ7ra(s)] s~p70
2.2.3 Phương pháp Actor-Critic Ở phần trước, ta đã biết được rằng có thể tìm được policy tối ưu bằng hai cách: tối ưu policy trực tiếp bằng phương pháp policy-based hoặc tính giá trị của Q- function, từ đó agent sẽ chọn thực hiện action nào tại state đó để Q-funtion đạt giá trị tối đa Actor-Critic là phương pháp kết hợp của của hai phương pháp trên nhằm tận dụng được các điểm mạnh của cả hai phương pháp Nhóm thuật toán này gồm hai mạng là mạng Actor và mạng Critic Mạng Actor có vai trò tối ưu policy, cơ bản thì nó tương tụ như mạng policy và ta có thể tìm policy tối ưu bằng phương pháp policy gradient Còn mạng Critic tương tự như mạng Q-network, có nhiệm vụ tính toán giá trị của Q-funtion để sử dụng cho việc update tham số của mạng Actor.
Thuật toán chung của phương pháp Actor-Critic xem tại|Algorithm1
Chương 2 Kiến thức cơ bản
Khởi tạo s,0,p, a ~ 79(a|s) for = 1to T do
Lay rar; ~ R(s,a) và state tiếp theo s” ~ P(s'|s,a)
Va lay ra action tiếp theo a’ ~ 7t9(s’,a’)
Cập nhật tham số của mang Actor: 6 — ỉ + ạQ¿(s,a)Vạln7r(als)
Tính giá trị hiệu chỉnh của Q-function: G¡ = r¡ + yQ(s⁄,a') — Q(®)(s,a)
Cập nhật tham số của mang Critic: @ ÿ + apGrV pQo(s,4)
Cập nhật a