Các thuật toán tiến hóa, một loại thuật toán phỏng đoán ngẫu nhiên được giáo dục, có hiệu quả lấy mẫu thấp nhất. Dữ liệu mẫu đầy đủ các phương pháp trực tuyến (như A3C) và cập nhật chính sách lặp đi lặp lại. Hiệu quả lấy mẫu cải thiện gấp 10 lần. Dưới đây là mức độ hiệu quả so với các phương pháp RL khác.
Mặt khác, các phương pháp dựa trên mô hình tận dụng sự hiểu biết bên trong về động lực học của hệ thống. Kiến thức này làm giảm khối lượng của các mẫu cần thiết để đào tạo. Nhưng để cung cấp một mạng lưới sâu bên trong các phương pháp dựa trên mô hình, chúng ta cần nhiều mẫu hơn 10 lần so với mô hình nông. Phương pháp Chính sách Gradient (PG) phụ thuộc rất nhiều vào việc lấy mẫu để ước tính phần thưởng. Chúng ta càng biết ít về mô hình động, thì càng cần nhiều thử nghiệm và sai sót để biết chính sách nào hoạt động.
Các phương pháp trên chính sách cập nhật và lấy mẫu từ cùng một chính sách. Các thay đổi trong chính sách cần có mẫu mới để tối ưu hóa nó. Bằng cách tách chính sách mục tiêu khỏi chính sách hành vi, chúng tôi có cơ hội sử dụng lại các mẫu. Phương pháp Vanilla PG, một phương pháp On-Policy, có hiệu quả lấy mẫu kém. Q- learning, sử dụng chính sách ngoại tuyến, được thiết kế để cải thiện hiệu quả của mẫu trong quá trình lắp mô hình.
Dưới đây là sơ đồ về hiệu suất của nhiều phương pháp không có mô hình. Như đã lưu ý, cần có hơn 80 triệu khung hình đối với nhiều phương pháp tiên tiến để vượt trội hơn chuyên gia chơi trò chơi Atari của con người. Biểu đồ dưới đây được chuẩn hóa. Một chuyên gia về con người trung bình đạt điểm dưới 100%.
Nguồn
Hiệu suất mẫu thấp khiến nhiều vấn đề trong thế giới thực không thể giải quyết được. Đối với nghiên cứu trong tương lai, chúng ta có thể tìm thấy các thuật toán dựa trên mô hình tốt hơn, thuật toán nhanh hơn và áp dụng kiến thức tích lũy (kiến thức trước đó) trong việc giải quyết vấn đề.