Bất kỳ dạng thức MAB nào của một chuỗi quyết định cũng cần phải quan tâm đến việc trao đổi, khám phá lẫn nhau. Ví dụ như sự cân bằng giữa việc khám phá các hành động để tìm thấy những hành động có lợi nhuận cao nhất trong khi phải khai thác hành động được xác định là tốt nhất càng thường xuyên càng tốt. Có
rất nhiều thuật toán cung cấp các chiến lược để giải quyết dạng thức thức MAB của một vấn đề quyết định có tính tuần tự được cho trước. Giá trị dùng để đánh giá sự thành công của một chính sách chính là tham số độ hối tiếc. Một số thí nghiệm cho thấy độ hối tiếc của dạng thức MAB phải tăng lên ít nhất là theo hàm mũ với số lượng thực thi (thực thi A được định nghĩa là việc đưa ra quyết định). Trong phần này, ba thuật toán hiện nay đang được sử dụng cho dạng thức MAB: ε−greedy
, softmax and upper confidence bounds được trình bày:
Đầu tiên là luật ε−greedy
[38] (Alg. VIII-0,1) là chính sách đơn giản và nổi tiếng nhất về vấn đề bandit. Đối với thuật toán này, bộ ra quyết định sẽ lựa chọn hành động có giá trị trả về trung bình cao nhất với xác suất (1−ε)
, và một hành động ngẫu nhiên trong số những hành động thống nhất đã có với xác suất ε
.
Thứ hai, thuật toán softmax [38] sử dụng một hàm để gán giá trị trả về trung bình với các xác suất hành động. Hàm
i
p
được sử dụng được chứng minh (trong Alg. VIII-.2). Các bộ quyết định sẽ chọn một hành động dựa trên xác suất
i p được gán cho mỗi một hành động i a
. Thuật toán khám phá các hành động ít được sử dụng nhất tại một thời điểm nhất định nhưng cũng cố gắng tập trung vào những hành động tốt nhất về mặt độ lợi kỳ vọng có quan tâm đến phân bố mẫu Gibbs.
Thuật toán ε−greedy :
[ 0 0 1 1 1 1]
______ ______
: , , , ,..., , , 1, 0 1
: