Sự cần thiết phải sử dụng xấp xỉ hàm trong RL

Một phần của tài liệu LUẬN ÁN TIẾN SĨ NGHIÊN CỨU GIẢI THUẬT HỌC CỦNG CỐ TRONG ĐIỀU KHIỂN THÍCH NGHI BỀN VỮNG CHO HỆ PHI TUYẾN (Trang 37)

Trong Giải thuật 2.1 và 2.2, ở mỗi bước lặp, hàm 𝑉 𝑥𝑘 phải được cập nhật và lưu trữ với mọi trạng thái 𝑥𝑘, và trong Giải thuật 2.3, ở mỗi bước lặp, hàm 𝑄 𝑥𝑘, 𝑢𝑘

được cập nhật và lưu trữ với mọi tổ hợp 𝑥𝑘 và 𝑢𝑘. Do đó, nếu áp dụng các giải thuật này trong điều khiển sẽ tồn tại một số hạn chế sau:

- Chỉ áp dụng được cho hệ thống với số lượng hữu hạn các điểm giá trị trạng thái và tín hiệu điều khiển rời rạc. Trong trường hợp hệ thống với không gian trạng thái và tín hiệu điều khiển liên tục, có vô số điểm giá trị cần rời rạc thì chi phí tính toán không cho phép các giải thuật trên lặp qua toàn bộ các điểm này để cập nhật và lưu trữ hàm đánh giá một cách tường minh.

- Với giải thuật Q-learning, chi phí lưu trữ và tính toán tăng theo hàm mũ (𝛺𝑥 𝑈(𝑥) ) giữa số lượng các điểm trong không gian trạng thái với số lượng tín hiệu điều khiển phân rã ở mỗi trạng thái. Điều này dẫn đến việc bùng nổ tổ hợp.

20

ma trận đa chiều, khó có thể xử lý dữ liệu với kích cỡ mỗi chiều lớn hàng trăm.

Sẽ giảm được chi phí tính toán nếu giá trị hàm ở các điểm trong không gian trạng thái chưa được cập nhật có thể nội suy được từ giá trị hàm của những điểm lân cận đã được cập nhật. Xấp xỉ hàm là một trong những công cụ hữu hiệu có thể giải quyết được vấn đề này [99], [123]. Ngoài ra, khi sử dụng xấp xỉ hàm thì tài nguyên lưu trữ không còn là vấn đề thách thức bởi vì lưu trữ tường minh hàm đánh giá của từng điểm trạng thái riêng biệt là điều không cần thiết.

Một phần của tài liệu LUẬN ÁN TIẾN SĨ NGHIÊN CỨU GIẢI THUẬT HỌC CỦNG CỐ TRONG ĐIỀU KHIỂN THÍCH NGHI BỀN VỮNG CHO HỆ PHI TUYẾN (Trang 37)

Tải bản đầy đủ (PDF)

(175 trang)