Các yếu tố quyết định để chọn một thuật toán Reinforcement Learning

Một phần của tài liệu reinforcement learning (Trang 36 - 38)

Việc chọn một thuật toán RL có thể gây khó khăn và dẫn đến nhầm lẫn. Trong bài viết này, chúng ta sẽ tập trung vào các yếu tố quyết định khác nhau trong việc lựa chọn thuật toán phù hợp với ứng dụng của chúng ta.

 Hiệu quả mẫu - cần bao nhiêu mẫu để đào tạo một chính sách tốt?  Tính ổn định và hội tụ - mô hình hội tụ dễ dàng và nhanh như thế nào.  Tổng quát hóa - Mô hình sẽ tổng quát hóa cho các nhiệm vụ khác?

 Giả định & xấp xỉ - Phương pháp có bất kỳ ràng buộc nào khác không? Phương pháp hoạt động trên không gian hành động rời rạc hay liên tục? Những gì gần đúng được sử dụng?

 Khám phá - Nó khám phá không gian hành động tốt như thế nào?  Tập trung vào chính sách so với Trung tâm vào mô hình.

 Học tập giá trị và Gradient chính sách.

 Mô phỏng cuộc sống thực rất tốn kém. Mô phỏng vật lý chậm hơn 10.000 lần so với mô phỏng máy tính như MuJoCo. Nhưng đối với điều khiển bằng robot, việc mô phỏng ngoài đời thực dường như không thể tránh khỏi.

 Nhiều miền vấn đề có độ cong lớn đối với chức năng phần thưởng của chúng. Điều này dẫn đến việc đào tạo không ổn định, dễ phá hủy tiến độ đào tạo.

 Các bài toán quy mô lớn cần độ song song cao để tăng tốc độ tính toán. Một số phương pháp RL như học tập dựa trên giá trị và RL dựa trên mô hình không rõ ràng về cách song song hóa các công việc.

 Các phương pháp lặp lại trong các giải pháp dựa trên Mô hình rất tốn kém về mặt tính toán.

 Tăng hiệu quả mẫu, độ chệch thấp hơn và phương sai thấp hơn thường là những mục tiêu mâu thuẫn. Trong học máy, lỗi bao gồm độ chệch và phương sai. Một phương pháp có thể làm giảm phương sai nhưng làm tăng độ chệch một cách tồi tệ, hoặc ngược lại. Khi đưa ra các lựa chọn về thiết kế, chúng ta sẽ thường phải chọn lựa để đạt được sự cân bằng này.

Phương pháp Monte-Carlo có phương sai cao nhưng độ chệch bằng không. Chính sách ngẫu nhiên tạo ra các quỹ đạo khác nhau trong các lần chạy khác nhau. Trong RL, những thay đổi nhỏ trong quỹ đạo có thể dẫn đến những phần thưởng khác nhau. Do đó, MC có phương sai cao qua các lần chạy khác nhau.

Mặt khác, TD learning 1 bước sử dụng tra cứu một bước trong tính toán hàm giá trị. Vì chỉ có một hành động được tham gia nên sự thay đổi là nhỏ và phương sai thấp. Nhưng kết quả là sai lệch, đặc biệt là trong quá trình đào tạo sớm.

Policy Gradient (PG) dễ bị sai lệch. Một phép tính có thể cho chúng ta biết tăng cơ hội của một hành động trong khi một phép tính khác cho chúng ta biết giảm nó. Nó làm tổn hại đến sự hội tụ của mô hình. Có nhiều phương pháp để giảm phương sai của nó. Chúng ta có thể sử dụng một chức năng lợi thế hơn hoặc hạn chế các thay đổi gradient với vùng tin cậy, v.v.

Một cách khác để giảm phương sai là tăng số lần lấy mẫu. Chạy MC nhiều lần để tìm giá trị trung bình hoặc sử dụng kích thước lô lớn cho mỗi lần lặp lại đào tạo. Nhưng điều này làm ảnh hưởng đến hiệu quả của mẫu. Khi mô phỏng mất nhiều thời gian, hiệu quả mẫu thấp sẽ gây hại.

Actors-critic Off-Policy, Q-learning và nhiều phương pháp phù hợp giá trị thích ứng với các khái niệm TD. Trong khi chúng có phương sai thấp hơn, chúng thường yêu cầu tìm kiếm siêu tham số rộng để làm cho nó hoạt động. Sự quá nhạy cảm trong điều chỉnh siêu thông số làm tổn hại đến sự ổn định và tổng quát.

Một phần của tài liệu reinforcement learning (Trang 36 - 38)

Tải bản đầy đủ (DOCX)

(47 trang)
w