Phương pháp học chính sách xác định sâu (Deep dete- 123docz.net

gradient)

DDPG là một giải thuật RL được giới thiệu lần đầu vào năm 2016. DDPG khắc phục nhược điểm của Policy Gradient là có thể sử dụng cho các môi trường liên tục và hành động liên tục. Đây là khởi nguồn ý tưởng sử dụng DDPG cho điều khiển các hệ thống động lực. Đây là một thuật toán học đồng thời hàm giá trị hành động Q s a, (Q- value function) và học một chính sách xác định s .

Cấu trúc DDPG gồm 4 mạng neural network với các trọng số:

Q: Q network ( Critic network) dùng để ước tính hàm giá trị hành động ( Q-value function)

: Actor network dùng để xác định chính sách st

Q : Mạng mục tiêu Critic

Các mạng mục tiêu Critic và mạng mục tiêu Actor được cập nhập trọng số tương tự với các mạng Critic và Actor. Tuy nhiên sẽ được nhân thêm một hệ số làm mượt để cập nhập ổn định hơn.

- Trước tiên Critic có nhiệm vụ ước tính hàm Q s at, t tối ưu từ phương trình Bellman: ' ' * * | , , , max , a s s a Q s a r s a Q s a           (2.46)

Với  s s a' | , : là xác xuất chuyển từ trạng thái s sang s' khi thực hiện hành động a. Và r s a, là phần thưởng thực hiện hành động a tại trạng thái s.

Qua việc thực hiện khám phá, Agent sẽ thu được 1 bộ dữ liệu về môi trường

, , , ... s a r s d

  với d cho biết liệu trạng thái thu được có là trạng thái cuối hay không. Thiết lập phương trình mean-squared Bellman error (MSBE) để kiểm tra lượng sai số của hàm Q s aQ , do Critic ước tính với thực tế.

' ' 2 ' ' , , , ... ~ , Q , 1 max Q , Q a s a r s d L Q s a r d Q s a              (2.47)

Cập nhập trọng số cho Critic theo Gradient descent để giảm thiểu hàm MSBE: ,

Q Q L Q N

   (2.48)

Với N s a r si, , ,i i i1 là một tập mẫu lấy từ   s a r s d, , , ...'

- Mạng Actor được sử dụng để xấp xỉ chính sách xác định s sao cho mạng Critic trả lại giá trị Q s aQ , tối đa. Đây là một dạng của Policy Gradient nhưng đơn giản hơn. , 1 s, | | | | i i i Q a s s a s s i J Q a s N       (2.49)

Hình 2.14: DDPG Algorithm từ "Continuous Control With Deep Reinforcement Learning" (Lillicrap et al, 2015)"

Tuy nhiên trong thực tế triển khai DDPG cần có thêm rất nhiều kỹ thuật nhằm tối ưu quá trình đào tạo Agent như Baseline, Relay Buffer, OU noise…

Tổng quan quá trình thực hiện DDPG được mô tả sơ đồ sau

CHƯƠNG 3: THIẾT KẾ BỘ ĐIỀU KHIỂN MÔ HÌNH PENDUBOT

Phương pháp học chính sách xác định sâu (Deep deterministic policy

Giới thiệu về phương pháp điều khiển mờ