On-Policy so với Off-policy

Một phần của tài liệu Reinforcement learning (Trang 38 - 41)

Phương pháp Policy Gradient lấy mẫu các hành động bằng chính sách �, sau đó, quan sát các phần thưởng để tối ưu hóa �. Tóm lại, chúng ta thực hiện các hành động có phần thưởng cao có nhiều khả năng hơn bằng cách sử dụng gradient đi lên. Đối với phương pháp học theo giá trị, chúng ta sử dụng phần thưởng quan sát được để phù hợp với hàm Q-value thay vào đó sử dụng hàm Q-value để rút ra chính sách. Bất kể sự khác biệt, chính sách lấy mẫu dữ liệu và chính sách được tối ưu hóa là chính sách giống nhau �. Đây được gọi là On-Policy vì chỉ có một chính sách trong suốt quá trình lặp lại.

Trong ví dụ về chính sách bên dưới, chúng ta lấy mẫu và tối ưu hóa chính sách ε tham lam �. Lưu ý thêm, � là một chính sách dưới mức tối ưu và đây là một bản

hack để cải thiện khả năng khám phá. Tuy nhiên, sau khi đào tạo, chúng ta có thể lấy được các chính sách tối ưu từ Q .

Các phương pháp On-Policy thường đơn giản hơn, ít phương sai hơn và hội tụ nhanh hơn so với phương pháp Off-Policy.

Trong ví dụ trên, chúng tôi giới thiệu các bản hack để cải thiện những thiếu sót của nó. Nhưng những vấn đề này có thể được giải quyết theo cách linh hoạt hơn bằng cách có hai chính sách riêng biệt: chính sách hành vi để chúng tôi tạo mẫu và chính sách mục tiêu để chúng tôi tối ưu hóa.

Đối với các phương pháp On-Policy, chính sách hành vi và chính sách mục tiêu là giống nhau. Nhưng trong các phương pháp Off-Policy thì không. Các chính sách này có thể liên quan lỏng lẻo hoặc thậm chí không liên quan. Ví dụ, chính sách hành vi có thể là một chính sách ngẫu nhiên. Điều này hoàn toàn không liên quan đến � để cải thiện khả năng khám phá, mặc dù đây sẽ là một việc làm quá mức cần thiết.

Các phương pháp Off-Policy được thiết kế để giải quyết những thiếu sót khác nhau với sự cân bằng ở sự đơn giản và hội tụ. Ví dụ: một số phương pháp Off-Policy cải thiện khả năng thăm dò và một số phương pháp cải thiện chính sách mục tiêu mà không cần tạo mẫu mới liên tục.

Trong các phương pháp On-Policy, các mẫu được tạo từ một chính sách đang tích cực tối ưu hóa. Những thay đổi trong chính sách có thể yêu cầu các mẫu mới để cải thiện nó. Điều này làm ảnh hưởng xấu đến hiệu quả lấy mẫu. Như được hiển thị bên dưới, độ dốc của phương pháp PG được tính bằng cách sử dụng các mẫu được thu thập từ �. Nếu � bị thay đổi, chúng ta nên vẽ lại các mẫu mới. Điều này cực kỳ kém hiệu quả khi một quỹ đạo có thể chứa hàng trăm bước di chuyển và các mẫu được thu thập chỉ tốt cho một bản cập nhật gradient duy nhất.

Để cải thiện hiệu quả của mẫu, học tập Off-Policy có thể sử dụng một chính sách bổ sung để kiểm soát rõ ràng những mẫu nào sẽ sử dụng trong việc tối ưu hóa chính sách mục tiêu. Cụ thể, nhiều phương pháp trong chính sách có thể được sửa đổi để trở thành phương pháp Off-Policy bằng cách sử dụng lấy mẫu mức độ quan trọng (1,2). Chúng ta sử dụng một chính sách hơi khó khăn θ ' làm chính sách hành vi để các mẫu cũ có thể được sử dụng lại. Chúng ta được tái kiểm định phần thưởng quan sát cũ với lấy mẫu trọng xấp xỉ thưởng theo chính sách mục tiêu θ phân phối. Những phần thưởng đã được hiệu chỉnh lại này sẽ được sử dụng để giảm dần độ dốc nhằm tối ưu hóa chính sách mục tiêu θ . Chúng ta đồng bộ hóa θ ' với θ thường xuyên, nói rằng cứ bốn lần cập nhật, để cải thiện độ chính xác của ước tính.

DQN là một phương pháp Off-Policy khác. Chúng tôi lấy mẫu từ bộ đệm phát lại để phù hợp với Q -value.

Q -learning cũng là thuật toán Off-Policy. Nó sử dụng ε-tham lam để lấy mẫu

các hành động. Sau đó, hàm Q được trang bị cho một chính sách tối ưu.

Đối với các phương pháp On-Policy, chỉ có một chính sách trong khi các phương pháp Off-Policy có nhiều chính sách. Như hình dưới đây, SARSA chỉ có một chính sách (một phương pháp đúng chính sách) trong khi Q-learning (hay còn gọi là SARSA max) có hai chính sách.

Các phương pháp Off-Policy thường tận dụng chính sách thứ hai để cải thiện hiệu quả của mẫu. Tuy nhiên, đối với một số phương pháp RL, nhiều người khó xác định liệu chúng là chính sách hay không chính sách. Thay vì những gì nhãn được cấp cho một thuật toán, chúng ta có thể chỉ tập trung vào thiết kế cụ thể của nó - những gì nó cải thiện hoặc hy sinh. Đối với Q-learning, A' được chọn bởi chính sách mục tiêu do Q suy ra . Điều này giúp ổn định vì lựa chọn A' ít ngẫu nhiên hơn so với ε-tham lam. Trong DQN, bộ đệm phát lại cải thiện cả độ ổn định và hiệu quả lấy mẫu. Đối với các thiết kế khác, trọng tâm chính có thể là khám phá.

Một phần của tài liệu Reinforcement learning (Trang 38 - 41)

Tải bản đầy đủ (DOCX)

(47 trang)
w