Phương pháp quy hoạch động (DP)

Một phần của tài liệu Phương pháp học tăng cường (Trang 56 - 59)

Trong trường hợp đã biết về mô hình của môi trường, bài toán được biểu diễn dưới dạng bài toán quyết định Markov và sử dụng phương pháp quy hoạch động (DP) để giải quyết dựa trên thuật toán lặp giá trị hoặc thuật toán lặp chiến lược

để tìm ra chiến lược tối ưu.

Trong phương pháp lặp giá trị, trước tiên sẽ tính hàm giá trị tối ưu và dựa trên

đó để có được chính sách tối ưu. Để tính hàm giá trị tối ưu, trong bài toán thực nghiệm này, ta định nghĩa Vk(Si) là giá trị cực đại tổng các mục tiêu có thể đạt

được trong tương lai bắt đầu từ trạng thái Si và sau k bước. Như vậy, V1(Si) sẽ là mục tiêu tức thời và V2(Si) là hàm của V1(Si). Mở rộng khái niệm này, ta có thể

biểu diễn Vt+1(Si) cho việc thiết lập kinh nghiệm như sau:

Trong đó:

- PCost = PathCost.

- P(s’|s,a) = xác suất chuyển từ trạng thái s sang trạng thái s’ sau hành động a.

- xss’ = Vt(s’) nếu phép chuyển đổi từ s sang s’ là an toàn.

xss’ = Penalty + Vt(s), nếu phép chuyển trạng thái từ s sang s’ là không an toàn.

Phép lặp được thực hiện đến tận khi hàm giá trị hội tụ và không có sự thay

phạt và chiến lược tối ưu sẽ là: lựa chọn hành động với trạng thái có hàm giá trị

nhỏ nhất:

Thuật toán lặp chiến lược:

Phương pháp này thao tác trực tiếp trên chiến lược thay vì phải tìm chúng thông qua hàm giá trị tối ưu. Các bước cơ bản của thuật toán như sau:

- Chọn một chiến lược bất kỳ. - Đánh giá chiến lược.

- Cập nhật chiến lược.

- Nếu chưa phải là chiến lược tối ưu, quay về bước 2.

Bước lặp giá trịở trên được sử dụng đểđánh giá chiến lược và tìm hàm giá trị

V(s) cho chiến lược π(s). Hàm giá trị được tính để đánh giá chiến lược cũng có thể được sử dụng để cập nhật chiến lược. Chiến lược mới được quyết định tương tự như trong phương pháp lặp giá trịở trên.

Một phần của tài liệu Phương pháp học tăng cường (Trang 56 - 59)