Policy Gradient Optimization

Một phần của tài liệu reinforcement learning (Trang 27 - 28)

Policy gradients là một trong những kỹ thuật phổ biến và mạnh mẽ nhất để tối ưu hóa chính sách được tham số hóa. Khi chính sách được tham số hóa bởi , có thể sử dụng policy gradient optimization trên các tham số để cải thiện chính sách nhanh hơn nhiều so với việc lặp lại truyền thống. Tham số hóa có thể là một mạng nơ-ron nhiều lớp, trong trường hợp này, đây sẽ là một deep policy network, mặc dù các biểu diễn và xấp xỉ hàm khác có thể hữu ích. Trong mọi trường hợp, thay vì trích xuất chính sách làm đối số tối đa hóa các hàm giá trị hoặc chất lượng, có thể tối ưu hóa trực tiếp các tham số , ví dụ: thông qua gradient descent hoặc stochastic gradient descent. Hàm giá trị , tùy thuộc vào chính sách sau đó trở thành và có thể thực hiện sửa đổi tương tự đối với hàm chất lượng Q.

Tổng phần thưởng ước tính được biểu diễn bởi :

trong đó là trạng thái ổn định tiệm cận của MDP được đưa ra chính sách được tham số hóa bởi . Sau đó, Sau đó, nó có thể tính toán gradient của tổng số ước tính

khen thưởng đối với :

trong đó là trọng số học; lưu ý rằng có thể được thay thế bằng một vectơ trọng số học cho mỗi thành phần của . Có một số cách tiếp cận để xấp xỉ gradient này, bao gồm thông qua finite differences, REINFORCE algorithm và natural policy gradients.

Các phương pháp policy gradient khác nhau đáng kể vì chúng không bị ràng buộc theo một chuẩn khung định sẵn. Ví dụ: trạng thái không chắc chắn có thể làm giảm hiệu suất của chính sách (nếu không có công cụ ước tính trạng thái bổ sung nào được sử dụng) nhưng các kỹ thuật Optimization cho chính sách không cần phải thay đổi. Các trạng thái và hành động liên tục có thể được xử lý theo cách giống hệt như các trạng thái rời rạc trong khi hiệu suất học tập thường được tăng lên. Sự hội tụ ít nhất đến mức tối ưu cục bộ được đảm bảo.

Các lợi thế của phương pháp gradient chính sách cho các ứng dụng trong thế giới thực là rất nhiều. Trong số những điều quan trọng nhất là các đại diện chính sách có thể được chọn sao cho nó có ý nghĩa cho nhiệm vụ và có thể kết hợp kiến thức miền, thường ít tham số cần thiết hơn trong quá trình học tập so với các phương pháp tiếp cận dựa trên hàm giá trị và có nhiều thuật toán khác nhau để ước tính độ dốc chính sách. Ngoài ra, các phương pháp gradient chính sách có thể được sử dụng không có mô hình hoặc dựa trên mô hình vì chúng là một công thức chung.

Tất nhiên, policy gradients không phải là giải pháp tối ưu cho mọi vấn đề nhưng có những vấn đề đáng kể. Theo định nghĩa, chúng là On-Policy (lưu ý rằng các thủ thuật như lấy mẫu mức độ quan trọng có thể làm giảm nhẹ vấn đề này) và cần quên dữ liệu rất nhanh để tránh đưa ra sai lệch đối với công cụ ước tính gradient. Do đó, việc sử dụng dữ liệu được lấy mẫu không hiệu quả lắm. Trong các biểu diễn dạng bảng, các phương thức hàm giá trị được đảm bảo hội tụ đến mức tối đa toàn cục trong khi policy gradients chỉ hội tụ đến mức tối đa cục bộ và có thể có nhiều điểm cực đại trong các bài toán rời rạc. Phương pháp policy gradients thường khá khắt khe để áp dụng, chủ yếu là do người ta phải có kiến thức đáng kể về hệ thống mà người ta muốn kiểm soát để đưa ra các định nghĩa chính sách hợp lý.

Một phần của tài liệu reinforcement learning (Trang 27 - 28)

Tải bản đầy đủ (DOCX)

(47 trang)
w