So sánh Q-learning và SARSA

Một phần của tài liệu Reinforcement learning (Trang 26 - 27)

Nói chung, Q-learning sẽ tìm hiểu một giải pháp tối ưu hơn nhanh hơn SARSA, nhưng với nhiều phương sai hơn trong giải pháp. Tuy nhiên, SARSA thường sẽ mang lại nhiều phần thưởng tích lũy hơn trong quá trình đào tạo, vì nó nằm trong chính sách. Trong các ứng dụng quan trọng về an toàn, chẳng hạn như ô tô tự lái hoặc các ứng dụng khác có thể xảy ra sự cố nghiêm trọng, SARSA thường sẽ tìm hiểu các giải pháp ít tối ưu hơn, nhưng với biên độ an toàn tốt hơn, vì nó đang tối đa hóa phần thưởng theo chính sách.

Q-learning áp dụng cho không gian hành động rời rạc A và không gian trạng thái S được điều chỉnh bởi MDP hữu hạn. Hàm Q được biểu diễn theo kiểu cổ điển dưới dạng một bảng các giá trị Q được cập nhật thông qua một số lần lặp lại dựa trên thông tin mới khi một chính sách được kiểm tra và đánh giá. Tuy nhiên, cách tiếp cận dạng bảng này không chia tỷ lệ tốt với không gian trạng thái lớn và do đó, phép gần đúng hàm thường được sử dụng để biểu thị hàm Q, chẳng hạn như mạng nơ-ron trong học tập Q sâu. Ngay cả khi không gian hành động và trạng thái là liên tục, như trong con lắc trên hệ thống xe đẩy, có thể tùy ý và sau đó áp dụng Q-learning. Ngoài việc

không có mô hình, Q-learning còn được gọi là RL Off-Policy, vì nó không yêu cầu phải ban hành một chính sách tối ưu, như trong thuật toán policy iteration và value

iteration. Việc học hỏi ngoài chính sách thực tế hơn trong các ứng dụng thực tế, cho

phép Agent cải thiện khi chính sách của họ là dưới mức tối ưu và bằng cách xem và bắt chước các Agent khác có kỹ năng hơn. Q-learning đặc biệt tốt cho các trò chơi, chẳng hạn như cờ vua và cờ vây. Đặc biệt, Deep Q - Learning, gần đúng với hàm Q sử dụng mạng nơ-ron sâu, đã được sử dụng để vượt qua các nhà vô địch thế giới trong các trò chơi đầy thử thách này.

Một phần của tài liệu Reinforcement learning (Trang 26 - 27)

Tải bản đầy đủ (DOCX)

(47 trang)
w