III.3.1 Multi-Armed Bandit

MAB là dạng thức của nhiệm vụ đưa ra chuỗi quyết định bao gồm một bộ ra quyết định và các hành động quyết định cố định ai với i=1... (N N ≥1)

quyết định lựa chọn một hành động

i t a

tại thời điểm t, nó nhận được giá trị trả về là

t t a

được rút ra từ một hàm phân phối chưa biết liên kết với hành động cụ thể đó. Mục tiêu của người ra quyết định là tối đa hóa tổng giá trị nhận được thông qua một chuỗi các hành động được lựa chọn. Vì vậy, trong từng thời điểm t=1, 2,...,T

thì: • Các bộ ra quyết định lựa chọn

, dựa trên giá trị trả về trước đó và

các hành động được lựa chọn 1 2 1 1, , , ,...,1 2 2 1, t1 t t a a a a r a r a r − − −

• Bộ ra quyết định chỉ nhận được giá trị trả về

t t a

MAB có thể được mô hình hóa bằng một tập hợp các phân bố thực

( 1, 2,..., N)

Ψ = Φ Φ Φ

gọi là các arms (vũ khí). Mỗi một phân bố Φi

được liên kết với các giá trị mà hành động ai trả về. Giá trị trung bình kết hợp với các hàm phân phối trả về này là ξ ξ1, ,...,2 ξN

. Độ hối tiếc được định nghĩa là sự khác biệt giữa giá trị thực tế và giá trị sẽ đạt được nếu chọn một tập các hành động khác. Tỷ lệ hối tiếc là tỷ lệ giữa giá trị thực tế và giá trị tốt nhất. Cụ thể, độ hối tiếc ρ

sau T vòng được định nghĩa là sự khác biệt giữa tổng giá trị trả về kết hợp với một chiến lược tối ưu và tổng của các giá trị thu thập được:

* 1 1 t T t t T r ρ ξ = = = −∑ (5)

với

*ξ ξ

là giá trị cao nhất trả về, nghĩa là ξ* =max( )ξi

, và rt là giá trị trả về tại thời điểm t. Tất cả các chiến lược hay thuật toán được đề xuất bởi MAB có xu hướng tối thiểu hóa giá trị hối tiếc trên mỗi vòng ρ/T

. Chủ nghĩa hình thức này là một mô tả chung cho hành động rời rạc dựa trên việc học tăng cường với một trạng thái duy nhất.

Dạng thức MAB được chọn vì những lý do sau:

• Dạng thức MAB không có giả định liên quan đến hàm trả về. Phương pháp này luôn luôn thực hiện việc thăm dò và trao đổi qua lại với một hàm trả về bất kỳ. Trong luận văn này, hàm trả về cần được quan tâm là điểm UPS thể hiện các giá trị đánh giá QoE

• Không giống như các phương pháp tối ưu QoS khác MAB không sử dụng các thông số mạng. Trong khi các phương pháp cổ điển khác thường cố gắng tối ưu hóa các thông số như độ trễ từ đầu cuối tới đầu cuối (end-to-end), số hop… thì MAB giảm thiểu độ hối tiếc ρ một cách rõ ràng

• Trong số các phương pháp có thể xử lý MDP, chỉ có phương pháp MAB có thể làm như vậy bằng cách sử dụng duy nhất một trạng thái. Các hành động tương lai được lựa chọn dựa trên các giá trị thu được và trạng thái duy nhất này. Ưu điểm này rất phù hợp cho quá trình lựa chọn máy chủ đang nghiên cứu vì ta chỉ biết được tình trạng hiện tại của mỗi máy chủ

II.4 Mô hình điều khiển thích ứng

II.5 Tham số UPS và MOS