So sánh model-free và model-based

RL không có mô hình tập trung vào việc lấy mẫu để xây dựng chính sách hoặc các chức năng giá trị. Nó hoàn toàn bỏ qua động lực học của mô hình. Phương pháp dựa trên mô hình sử dụng mô hình để tìm ra chính sách tối ưu. Nó không cần phải tạo một chính sách một cách rõ ràng.

Một số phương pháp dựa trên mô hình có các giả định rõ ràng để làm cho việc tối ưu hóa dễ dàng hơn. Ví dụ, hàm chi phí có thể gần đúng là bậc hai và động lực học là tuyến tính cục bộ. RL không có mô hình nhấn mạnh việc học từ các mẫu hàng loạt

với ít giả định hơn về động lực của hệ thống hoặc các chức năng phần thưởng. Nó có thể áp dụng cho nhiều nhiệm vụ hơn và ít chuyên biệt hơn so với các phương pháp RL dựa trên mô hình. Hãy tóm tắt sự khác biệt chính ở đây.

Các phương pháp dựa trên mô hình

 Nó có thể được tự đào tạo và do đó có thể mở rộng hơn.  Mẫu hiệu quả.

 Mô hình động đã học có thể chuyển nhượng được.

 Nhưng cần đào tạo lại để tối ưu lại bộ điều khiển cho một nhiệm vụ cụ thể.  Không trực tiếp tối ưu hóa chính sách.

 Nhiều giả định hơn và không hoạt động với tất cả các nhiệm vụ.  Một mô hình có thể phức tạp hơn nhiều so với một chính sách.

Các phương pháp không dựa trên mô hình

 Nó có ít ước tính và giả định hơn phù hợp với nhiều nhiệm vụ hơn.  Giỏi các chính sách phức tạp.

 Chính sách có thể được khái quát tốt hơn trong một số nhiệm vụ.  Hiệu quả mẫu ít hơn.

 Dễ bị tổn thương khi trang bị quá mức với một mô hình phức tạp. Dẫn đến những quyết định kém cỏi.

Một nhiệm vụ được mô hình hóa bởi chính sách hay mô hình có dễ dàng hơn không? Trong bài toán cột xe, khi cột rơi sang trái, chúng ta di chuyển sang trái. Chúng ta có thể cân bằng cực mà không cần bất kỳ phương trình Vật lý nào. Học chính sách có thể trực quan hơn và tiềm năng đơn giản hơn cho một số nhiệm vụ. Nguyên tắc được phát hiện bởi chính sách có thể rất cơ bản và khái quát tốt cho các nhiệm vụ khác. Nếu chúng ta muốn hiểu về mô hình động, chúng ta có thể cần phải nghiên cứu kỹ hơn.

cực xe

Nhưng việc tìm kiếm một người mẫu không phải lúc nào cũng khó. Trong GO, mô hình là quy tắc của trò chơi. Chúng ta có thể sử dụng nó để tìm kiếm những bước di chuyển đầy hứa hẹn. Ngược lại, đối với một người mới bắt đầu, bạn sẽ không dễ dàng biết phải làm gì khi nhìn vào bảng. Việc mô hình hóa một chính sách như vậy một cách trực tiếp có vẻ khó hơn.

Như đã thảo luận trước đây, sự mượt mà của các chức năng đó cũng có thể đóng một vai trò quan trọng. Theo một nguyên tắc tốt, chúng ta có thể hỏi từ góc độ con người, liệu chính sách hay mô hình có thể trông đơn giản hơn không? Nhưng xin nhắc lại, chúng không loại trừ lẫn nhau. nhiều phương pháp kết hợp cả phương pháp dựa trên mô hình và không có mô hình. Ngay cả khi chúng ta bắt đầu từ phương pháp dựa trên mô hình, nếu một chính sách tương đối dễ học, chúng ta có thể sử dụng mô hình để tạo các mẫu đào tạo cho chính sách đó thông qua học tập có giám sát. Chính sách được đào tạo có thể mang tính khái quát hơn là một mô hình động cho các tình huống chưa được đào tạo chặt chẽ.

So sánh Q-learning và SARSA

Ổn định và hội tụ