Kỹ thuật ε-greedy, ε-soft và softmax

Chiến lược lựa chọn hành động ε-greedy

Đây là cách đơn giản và phổ biến nhất để cân bằng giữa khảo sát và khai thác. Trong phương pháp này, hành động có ước lượng về giá trị phản hồi lớn nhất sẽ được lựa chọn trong hầu hết thời gian, gọi là hành động tham lam. Nhưng bất cứ

khi nào với khả năng rất nhỏ ε, hành động được lựa chọn ngẫu nhiên, giống nhau và độc lập với các ước lượng về giá trị hành động.

Trong hầu hết các trường hợp với khả năng của hành động là 1-ε thì giá trị

hành động được ước lượng lớn nhất Q(s,a) được lựa chọn.

Giả sử A là tập tất cả các hành động và N là số hành động. Giả sử thêm nữa là khả năng lựa chọn một hành động tham lam a, và là khả năng lựa chọn một hành động không tham lam a. Trong phương pháp lựa chọn hành động

ε-greedy, khả năng lựa chọn một hành động không tham lam được cho bởi công thức:

Từđó dễ dàng chỉ ra rằng khả năng lựa chọn một hành động tham lam:

Phương pháp này chỉ ra rằng nếu phép thử là đủ, mỗi hành động sẽ được thử

một số vô hạn các lần thì đảm bảo rằng sẽ tìm ra được các hành động tối ưu.

Chiến lược lựa chọn hành động ε-soft

Tương tự như phương pháp ε-greedy, hành động tốt nhất được lựa chọn với khả năng 1-ε và trong các trường hợp khác thực hiện lựa chọn hành động một cách ngẫu nhiên giống nhau.

Chiến lược lựa chọn hành động softmax

Kỹ thuật ε-greedy và ε-soft có hạn chế là trong một số tình huống chúng lựa chọn các hành động ngẫu nhiên giống nhau, như vậy hành động có khả năng tồi nhất có thể được lựa chọn như là hành động tốt thứ hai. Kỹ thuật softmax khắc phục nhược điểm này bằng cách gán thứ hạng hoặc trọng số cho mỗi hành động,

như vậy các hành động tồi nhất sẽ chắc chắn không được chọn. Như vậy trong kỹ thuật này, hành động tham lam vẫn đem lại khả năng lựa chọn cao nhất. Tất cả các hành động khác được phân hạng và định lượng phụ thuộc vào giá trị ước lượng của nó. Phép phân bố Boltzmann được sử dụng để tính toán khả năng lựa chọn hành động.

Cho A là tập tất cả các hành động. Khả năng thực hiện một hành động aЄA

được cho bởi phương trình sau:

Tham số τ được gọi là “nhiệt độ” và luôn dương. Nhiệt độ cao gây ra hành

động có xác suất ngang nhau. Nhiệt độ thấp gây ra sự khác nhau lớn hơn trong khả năng lựa chọn hành động chính là sự khác nhau trong các ước lượng giá trị

của chúng.

Học không có mô hình

PHƯƠNG PHÁP QUY HOẠCH ĐỘNG (DP)