Các phương pháp Monte Carlo thích hợp cho việc học từ các kinh nghiệm trong đó không yêu cầu nhận thức trước đó về tính động của môi trường. Chúng giải quyết bài toán quyết định dựa trên việc tính trung bình các giá trị phản hồi mẫu.
Có hai kiểu phương pháp Monte Carlo được áp dụng để ước lượng Vπ(s) và Qπ(s,a) đó là phương pháp MC kiểm tra toàn bộ và phương pháp MC kiểm tra
đầu tiên.
Phương pháp MC kiểm tra toàn bộ ước lượng Vπ(s) bằng trung bình các phản hồi sau tất cả các bước kiểm tra đối với s. Qπ(s,a) được ước lượng là trung bình các phản hồi sau tất cả các bước kiểm tra đối với cặp (s,a). Phương pháp MC kiểm tra đầu tiên tính trung bình chỉ giá trị phản hồi sau bước kiểm tra đầu tiên
trong phép ước lượng Vπ(s) và Qπ(s,a). Cả hai phương pháp này đều hội tụ đến Vπ(s) hoặc Qπ(s,a) như là số các bước thăm đến s hoặc cặp (s,a).
Đánh giá chiến lược sử dụng phương pháp MC Lặp vô hạn:
(a)Tạo một đoạn mẫu sử dụng chiến lược được ước lượng s0, a0; s1, a1, r1; …;st, rt
(b)Với mỗi trạng thái s xuất hiện trong đoạn
Chú ý rằng khi tạo từng đoạn, tất cả các trạng thái phải có khả năng tương
đương với trạng thái bắt đầu. Nếu mô hình môi trường không sẵn có thì sử dụng
ước lượng các giá trị hành động tốt hơn là ước lượng các giá trị trạng thái. Nếu có mô hình môi trường thì các giá trị trạng thái đủ khả năng để quyết định chiến lược. Chúng ta không thể sử dụng các ước lượng giá trị trạng thái để quyết định chiến lược mà không có mô hình về môi trường. Trong khi đó, chúng ta có thể
sử dụng các ước lượng giá trị hành động trong việc quyết định chiến lược mà không cần yêu cầu mô hình môi trường.
Với một chiến lược π, chúng ta sẽ chỉ quan sát các giá trị phản hồi đối với chỉ
một hành động tại mỗi trạng thái. Như vậy, ước lượng Monte Carlo của các trạng thái khác sẽ không cải tiến theo kinh nghiệm. Đây là một vấn đề quan trọng vì mục đích của các giá trị hành động học là giúp cho việc lựa chọn giữa các giá trị
có hiệu lực trong mỗi trạng thái.
Kết quả là chúng ta cần ước lượng giá trị của tất cả các hành động từ mỗi trạng thái. Để giải quyết vấn đề này, chúng ta có thể bắt đầu mỗi đoạn tại một
cặp hành động - trạng thái, mọi cặp như vậy sẽ có khả năng lựa chọn <>0 khi bắt
đầu. Giải pháp khác là sử dụng chiến lược ngẫu nhiên với khả năng lựa chọn tất cả các hành động khác 0. Điều này đảm bảo rằng tất cả các cặp hành động – trạng thái sẽ được kiểm tra một số lần vô hạn trong giới hạn là có vô hạn các
đoạn.
Chiến lược tối ưu sử dụng phương pháp MC
Bắt đầu với một chiến lược π ngẫu nhiên và Q(s,a) ngẫu nhiên
Lặp vô hạn:
(a) Tạo một đoạn mẫu sử dụng π với khả năng lựa chọn tất cả các hành động là khác 0, độc lập với π tại thời điểm bắt đầu: s0, a0; s1, a1, r1; …;st, rt
(b)Với mỗi cặp s, a xuất hiện trong đoạn
(c)Với mỗi s trong đoạn
Tóm lại, một vấn đề chính trong khi sử dụng phương pháp MC là đảm bảo rằng tất cả các hành động được lựa chọn không giới hạn. Để đảm bảo điều này, chúng ta sử dụng các chiến lược soft với π(s,a) > 0 cho tất cả các trạng thái và hành
động. Khả năng thực hiện có thể được chuyển dần chiến lược hướng đến chiến lược tối ưu. Ví dụ, có thể áp dụng phương pháp lựa chọn hành động ε-greeady và softmax để thực hiện khả năng trên.