Đây là một thuật toán thông minh dựa trên mô hình. Thăm dò các phần của không gian trạng thái sử dụng thông tin có được từ kinh nghiệm. Nó sử dụng và cập nhật các giá trị kết hợp với trạng thái thay vì cặp trạng thái – hành động như
phương pháp Q-Learning.
Ý tưởng cơ bản của thuật toán này là khi tác tử bắt gặp một bước chuyển trạng thái đáng ngạc nhiên, ví dụ như khi bước chuyển trạng thái làm thay đổi hàm giá trị của trạng thái hiện tại với một lượng đáng kể. Thông tin này sẽ được lưu lại. Khi bước chuyển trạng thái được lặp lại (khi giá trị mới của hàm giá trị
bằng với giá trị mong đợi), các tính toán tiếp tục được thực hiện trong các phần tương ứng. Để xây dựng mô hình và tạo ra các lựa chọn xấp xỉ, tác tử phải thực hiện lưu trữ các thông tin sau:
o Các thông tin thống kê cho bước chuyển từ trạng thái s sang trạng thái s’ trên hành động a. Thông tin này được sử dụng để ước lượng xác suất phép chuyển đổi trạng thái P(s’|s,a).
o Các thông tin thống kê cho giá trị tăng cường nhận được để thực hiện hành
động a trong trạng thái s.
o Thông tin về mọi trạng thái trước: trạng thái có xác suất chuyển đổi khác 0
đối với một số hành động.
Sử dụng xây dựng mô hình từ kinh nghiệm. Thuật toán ước lượng giá trị
trạng thái V(s) sử dụng phép lặp giá trị theo luật cập nhật sau:
Trong đó:
- V(s): ước lượng giá trị tối ưu từ trạng thái bắt đầu s. - ria: ước lượng giá trị tăng cường tức thì.
- qass’: ước lượng xác suất chuyển trạng thái từ trạng thái s sang s’ với hành
động a.