Học không có mô hình

Phương pháp này tìm thấy chính sách tối ưu mà không phải học theo mô hình. Tác tử học các giá trị hành động mà không có mô hình về môi trường được mô tả bởi và . Trong phương pháp này tác tử tương tác trực tiếp với môi

trường và biên dịch thông tin nó thu thập được thành một cấu trúc phản hồi mà không có học từ mô hình. Trong phương pháp này, các bước chuyển đổi trạng thái và các giá trị phản hồi tác tử quan sát thay thế cho mô hình môi trường.

Một trong các khó khăn lớn nhất gặp phải đó là làm cách nào để tính toán

được mối liên kết giữa hành động hiện tại và các hệ quả trong tương lai. Để giải quyết khó khăn này có hai cách tiếp cận: thứ nhất là đợi đến khi kết thúc và thực hiện thưởng/phạt mọi hành động được thực hiện trong quá khứ, dựa trên kết quả

cuối cùng. Trong đó phương pháp Monte Carlo là một ví dụ. Vấn đề hạn chế

trong cách tiếp cận này đã được Kaelbling và các cộng sự chỉ ra vào năm 1996,

đó là khó khăn trong việc nhận biết khi nào kết thúc trong chuỗi liên tiếp các sự

việc đang xảy ra. Thậm chí nếu biết được nó thì cũng yêu cầu một lượng lớn về

bộ nhớ.

Cách tiếp cận khác là phương pháp TD được đưa ra bởi Sutton vào năm 1988. Trong phương pháp này, một mạng đặc biệt được điều chỉnh để học kết hợp các giá trị tăng cường cục bộ với các trạng thái tức thì giữa hành động và giá trị tăng cường bên ngoài. Ý tưởng quan trọng của phương pháp này là giá trị tăng cường cục bộ của một trạng thái tức thì hồi quy về giá trị tăng cường thành công.

Sau đây chúng ta sẽ đi tìm hiểu một số giải thuật RL điển hình với những đặc

điểm riêng, bao gồm phương pháp quy hoạch động, phương pháp Monte Carlo và phương pháp TD. Với phương pháp quy hoạch động, nó đòi hỏi một mô hình hoàn hảo về môi trường, điều này không phù hợp trong những tình huống học của robot trong thực tế nên thường được dùng trong lý thuyết trò chơi, toán học,…Phương pháp Monte Carlo không đòi hỏi mô hình về môi trường và không cần có cơ chế tự cập nhật mà bắt đầu từ việc thăm dò. Phương pháp TD

cũng không đòi hỏi mô hình môi trường nhưng có cơ chế tự mồi nghĩa là chiến lược sẽđược cập nhật tại mỗi bước thời gian thay vì mỗi giai đoạn.

Chúng ta đã trình bày các vấn đề chính trong phương pháp học tăng cường bao gồm mô hình bài toán, các phần tử cấu thành và các loại thuật toán học tăng cường. Phần cuối chương này, đề tài xin giới thiệu sơ lược một số thông tin về

lịch sử phát triển cũng như lĩnh vực ứng dụng của phương pháp học tăng cường.

Kỹ thuật ε-greedy, ε-soft và softmax

PHƯƠNG PHÁP QUY HOẠCH ĐỘNG (DP)