Trong Q-learning, chúng ta cần tìm giá trị Q tối đa cho hành động tiếp theo.
Tuy nhiên, việc tối đa hóa giá trị Q là khó khăn đối với không gian điều khiển liên tục.
Chúng ta có thể giải quyết nó như một bài toán tối ưu hóa bằng cách tìm kiếm không gian điều khiển cho giá trị Q tối đa . Nhưng việc tối ưu hóa như vậy là rất cao về mặt tính toán. Tuy nhiên, hiệu quả của mẫu và phương sai cao là một vấn đề lớn. Chúng ta có thể sử dụng TD, đường cơ sở, kích thước lô lớn hơn hoặc chỉ tiêu để giảm phương sai. Tuy nhiên, kích thước lô lớn hơn sẽ ảnh hưởng đến hiệu quả của mẫu.
Đối với học giá trị, quá trình này ít rõ ràng hơn và ít diễn giải hơn. Khởi tạo một chính sách bắt chước một cuộc trình diễn dễ dàng hơn nhiều so với việc khởi tạo một hàm giá trị. Tuy nhiên, học giá trị hiệu quả hơn. Các phương pháp học tập giá trị có thể sử dụng học tập Off-Policy và phát lại kinh nghiệm để tăng hiệu quả lấy mẫu.
Các phương pháp dựa trên chính sách tối ưu hóa một chính sách một cách trực tiếp. Các phương pháp khác có thể phát triển một mô hình động hoặc phù hợp với một hàm giá trị để tạo ra một chính sách ngầm định sau khóa đào tạo. Các giả định và phép gần đúng được đưa ra bởi các phương pháp đó có thể gây ra sự kém hiệu quả ở giữa các phương pháp đó. Nói tóm lại, việc giảm thiểu lỗi điều chỉnh hoặc tạo mô hình tốt nhất không hoàn toàn giống với việc tối ưu hóa chính sách một cách trực tiếp. Nhưng nó khám phá ít hơn so với các phương pháp khác.