PHƯƠNG PHÁP QUY HOẠCH ĐỘNG (DP)

Thuật ngữ quy hoạch động liên quan đến tập các giải thuật được sử dụng để

tính các chiến lược tối ưu với mô hình về môi trường hoàn hảo được đưa ra. Các thuật toán DP cổ điển bị giới hạn trong RL cả về giả thiết một mô hình hoàn hảo về môi trường và cả về phí tổn tính toán của nó tuy nhiên chúng vẫn đóng một vai trò quan trọng về lý thuyết. DP cung cấp một nền tảng thiết yếu để hiểu được các phương pháp khác. Thực tế tất cả các phương pháp khác ra đời đều với mục

đích là đạt được cùng hiệu năng như phương pháp DP với ít chi phí tính toán hơn và không cần giả thiết một mô hình hoàn hảo về môi trường.

Để áp dụng được quy hoạch động, chúng ta phải sử dụng các giả thiết sau: - Môi trường có thể được mô hình dưới dạng một bài toán Markov hữu hạn.

Nghĩa là tập các trạng thái và hành động là hữu hạn, và tính động được

đưa ra là các khả năng chuyển đổi trạng thái.

- Mục tiêu tức thì được kỳ vọng:

Phương pháp quy hoạch động sử dụng các hàm giá trị để tổ chức và cấu trúc hóa phép tìm kiếm các chính sách tối ưu. Chúng ta có thể dễ dàng thu được các chính sách tối ưu mỗi khi tìm thấy các hàm giá trị tối ưu, V* hoặc Q*, thỏa mãn

phương trình tối ưu Bellman. Các thuật toán DP thu được chính là nhờ phép biến

đổi phương trình Bellman.

Ví dụ với mô hình DP cho trước chúng ta có thể tính các hàm giá trị tối ưu một cách trực tiếp như hình vẽ minh họa sau đây:

Kỹ thuật ε-greedy, ε-soft và softmax

Học không có mô hình