Ổn định và hội tụ

Gradient descent được nghiên cứu nhiều với sự hội tụ đẹp nếu hàm mục tiêu là lồi. Tuy nhiên, nhiều phương pháp RL không dựa trên gradient descent. Do đó, các câu hỏi mới được đặt ra về sự hội tụ của các phương pháp RL.Chúng ta cần hỏi:Liệu giải pháp có hội tụ,nơi nó hội tụ, và tần suất nó hội tụ (mức độ nhạy cảm với các hạt ngẫu nhiên và siêu tham số)

Các phương pháp dựa trên mô hình phù hợp với động lực học của hệ thống. Các phương pháp này thường hội tụ. Tuy nhiên, giải pháp thường ít khái quát hơn. Khi đối phó với các tình huống không quen thuộc, dự đoán có thể bị sai. Tính ổn định sẽ phụ thuộc vào nhiều yếu tố bao gồm loại mô hình nào (như Quy trình Gaussian, GMM), mô hình toàn cầu hoặc cục bộ, số bước dự đoán, kết quả đầu ra của mô hình (như phân phối Gaussian) và thuật toán phù hợp với mô hình ( chi tiết trên các phương pháp dựa trên mô hình). Nếu một chính sách được tối ưu hóa bằng cách sử dụng sao chép ngược theo thời gian từ mô hình (như PILCO), thì quá trình này thường không tầm thường. Nếu chúng ta học một chính sách với mạng sâu bằng cách sử dụng các mẫu từ mô hình, thì quá trình sẽ kế thừa các vấn đề trong các phương pháp không có mô hình. Và nếu mô hình có sai sót,chính sách có thể khai thác mô hình để nhận phần thưởng tối đa dẫn đến các hành vi không thực tế.

Đường dốc xuống trong các phương pháp Gradient chính sách sẽ hội tụ cho các hàm mục tiêu lồi. Nhưng chính sách Gradient có phương sai cao và hiệu quả mẫu kém. Chúng ta có thể đưa ra những quyết định tồi làm phá hủy tiến độ đào tạo. Chúng tôi có thể sử dụng một hàm cơ sở hoặc một kích thước lô lớn để giải quyết vấn đề. Kích thước lô lớn làm giảm hiệu quả của mẫu nhưng nó thường tạo ra kết quả tốt hơn. Việc thiết kế một đường cơ sở tốt hơn để giảm phương sai là quan trọng nhưng sẽ cần rất nhiều nỗ lực về mặt kỹ thuật. Điều chỉnh tốc độ học tập hoặc lịch trình trong PG đặc biệt khó khăn. Các siêu tham số quan trọng khác cần được điều chỉnh là kích thước lô và đường cơ sở.

Các nhà nghiên cứu đang tích cực cải thiện các thuật toán để ổn định. Và chúng ta có thể tiếp cận các cải tiến thuật toán để giảm bớt những vấn đề này. Đối với các phương pháp PG, một khả năng là giới thiệu các khái niệm vùng tin cậy như TRPO và PPO.

Đối với việc học dựa trên giá trị, chúng được giải quyết bằng cách phát lại trải nghiệm và mạng mục tiêu trong DQN. Tuy nhiên, những cải tiến này trong việc học giá trị giới thiệu nhiều siêu tham số bao gồm độ trễ mạng mục tiêu, kích thước bộ đệm phát lại, cắt và lịch tốc độ học tập, v.v.… Việc điều chỉnh siêu tham số cho các thuật toán phù hợp giá trị được coi là khó hơn. Trong thực tế, với sự điều chỉnh của tác nhân, mô hình có thể hội tụ. Nhưng các siêu tham số này có thể không tổng quát hóa tốt cho các tác vụ RL khác. Một vòng điều chỉnh chính khác có thể được yêu cầu.

Việc lựa chọn các thuật toán có thể nhạy cảm với nhiệm vụ vì chúng có các đặc điểm độ cong khác nhau trong hàm phần thưởng của chúng. Do đó, một số thử nghiệm là cần thiết trong việc lựa chọn các thuật toán.

Có thể cần nhiều nghiên cứu hơn để phát triển các phương pháp trong các tham số thích ứng trong quá trình đào tạo (ví dụ, biến thể / đường cơ sở của điều khiển thích ứng trong Q-prop.), Giảm siêu tham số, điều chỉnh siêu tham số tự động và giảm độ nhạy siêu tham số.

So sánh Q-learning và SARSA

So sánh model-free và model-based