Mối quan hệ giữa giá trị chiến lược và hệ số học- 123docz.net

Bảng các số liệu thống kê:

Số đoạn lặp (Episodes) Giá trị chiến lược

1000 25581 2000 7092 3000 4005 4000 5768 5000 3428 6000 19398 7000 1394 8000 902 9000 16735 Từ các số liệu thực nghiệm ở trên ta vẽ biểu đồ biểu diễn giá trị chiến lược khi số bước lặp tăng trong thuật toán Q-Learning như sau:

0 5000 10000 15000 20000 25000 30000 1000 3000 5000 7000 9000

Giá trị chiến lược

Thử nghiệm hệ số học = 0.001

Bảng các số liệu thống kê:

Số các đoạn lặp (Episodes) Giá trị chiến lược

1000 26645 2000 870 3000 2468 4000 875 5000 14495 6000 7472 7000 453

8000 2955 9000 6348 Từ các số liệu thực nghiệm ở trên ta vẽ biểu đồ biểu diễn giá trị chiến lược khi số bước lặp tăng trong thuật toán Q-Learning như sau:

0 5000 10000 15000 20000 25000 30000 1000 3000 5000 7000 9000

Giá trị chiến lược

3.3.2.3 Phân tích kết quả

Với hệ số học = 0.1, tác tử cải thiện chiến lược của nó nhanh hơn nhưng không ổn định ngay đến chiến lược tối ưu mà giữ sự dao động giữa vị trí gần một chiến lược tối ưu và một chiến lược tồi. Trong khi với hệ số học = 0.001, tác tử

tiến tới chiến lược tối ưu chậm nhưng đều đặn và chắc chắn.

3.3.2.4 Giải pháp cải thiện

Qua kết quả thử nghiệm ta thấy rằng trong thực tế, tác tử nhạy cảm đối với giá trị tăng cường nó nhận từ môi trường hơn nếu hệ số học cao hơn. Trong môi trường nhiễu, tác tử thực hiện một hành động nhưng có thể không phải là chuyển sang trạng thái tiếp theo được kỳ vọng mà nó bị đẩy sang trạng thái kề có xác suất chắc chắn. Trong môi trường nhiễu, tác tử có thể thực hiện hành động tối ưu nhưng kết quả lại là bước di chuyển sang một trạng thái tồi hoặc nhận một giá trị

thái-hành động thay đổi đáng kể, dẫn đến tác tử thay đổi độ tin cậy về khả năng tối ưu của hành động và tác tử thay đổi chiến lược của nó. Tuy nhiên, khi hệ số

học lớn, tác tử lại nhạy cảm hơn với nhiễu môi trường tạo nên bất lợi.

Như vậy, để đạt được tối ưu, ta cần sử dụng hệ số học lớn trong những giai

đoạn đầu của tương tác giữa tác tử và môi trường, giúp cho tác tử có thể học

được tính động của môi trường nhanh chóng. Sau đó phải thực hiện giảm hệ số

học để tiến dần đến chiến lược tối ưu. Đây chính là việc sử dụng phép phân rã hệ

số học trong suốt thời gian thực hiện thuật toán.

3.3.2.5 Kết luận

Hệ số học có giá trị lớn hoạt động tốt hơn hệ số học có giá trị nhỏ trong những giai đoạn đầu của tương tác tác tử với môi trường trong khi hệ số học có giá trị nhỏ hoạt động tốt nhất trong các giai đoạn sau của tương tác tác tử với môi trường.

Mối quan hệ giữa giá trị chiến lược và hệ số học

Kỹ thuật ε-greedy, ε-soft và softmax

Học không có mô hình