Học không có mô hình (Phương pháp Q-Learning)

Một phần của tài liệu Phương pháp học tăng cường (Trang 59 - 60)

Thuật toán Q-Learning ước lượng giá trị của cặp trạng thái – hành động Q(s,a). Mỗi khi các giá trị này được học, hành động tối ưu từ bất kỳ trạng thái nào sẽ ứng với giá trị Q nhỏ nhất.. Vì thế, nếu Q*(s,a) là giá trị tối ưu thì chiến lược tối ưu được biểu diễn như sau:

Ước lượng các giá trị Q được thực hiện trên cơ sở kinh nghiệm sử dụng luật học sau:

Trong đó:

- s’ là trạng thái mới sau khi thực hiện hành động a trên trạng thái s. - X là giá trị tăng cường quan sát được.

X = PathCost, nếu bước chuyển trạng thái là an toàn. X = R, nếu bước chuyển trạng thái là không an toàn.

- α là hệ số học. Hệ số học quyết định khả năng cập nhật giá trị Q hiện tại. Hệ số học lớn nghĩa là việc học xảy ra nhanh và ngược lại.

Để các giá trị Q hội tụ đến giá trị tối ưu, đòi hỏi mọi cặp trạng thái – hành

động phải được thăm dò với đủ số lần cần thiết, nói chung là một số vô hạn lần. Chiến lược thăm dò cần được sử dụng để lựa chọn một hành động với trạng thái cho trước.

Có một số chiến lược lựa chọn ta đã trình bày trong phần lý thuyết chương 1.

Ở bài toán thực nghiệm này ta sử dụng một số chiến lược thăm dò cho việc tích luỹ kinh nghiệm đó là chiến lược ε-greedy: lựa chọn hành động tốt nhất với xác suất (1-ε) và lựa chọn hành động ngẫu nhiên với xác suất ε. Mỗi khi đến đích, xác lập lại trạng thái bắt đầu ngẫu nhiên cho bước lặp tiếp theo.

Một phần của tài liệu Phương pháp học tăng cường (Trang 59 - 60)