4 – MDP quan sát được một phần
4.2 Lặp giá trị cho POMDP
2. Nhận thứce.
3. Tính trạng thái tin tưởng bởiFORWARD(b,a,e)và lặp lại.
Hãy nhìn cẩn thận hơn vào đầu ra của hành động. Cụ thể, hãy tính xác suất mà chủ thể ở trạng thái tin tưởngbđạt tới trạng thái tin tưởngb0khi thực hiện hành độnga. Xác suất nhận thứce, với hành độngatừ trạng thái tin tưởngb, được tính bằng tổng tất cả các trạng thái thựcs0mà chủ thể có thể đạt tới: P(e|a,b) =∑ s0 P(e|a,s0,b)P(s0|a,b) =∑ s0 P(e|s0)∑ s P(s0|s,a)b(s). Ta ký hiệu xác suất đạtb0từb, với hành độnga, làP(b0|b,a). Khi đó: P(b0|b,a) =∑ e P(b0|e,a,b)P(e|a,b) =∑ e P(b0|e,a,b)∑ s0 P(e|s0)∑ s P(s0|s,a)b(s), trong đóP(b0|e,a,b)bằng 1 nếub0=FORWARD(b,a,e)và bằng 0 nếu
ngược lại.
Ta có thể định nghĩa hàm thưởng cho các trạng thái tin tưởng:
ρ(b) =∑ s
b(s)R(s).
4.2 Lặp giá trị cho POMDP
Xét một chính sách tối ưuπ∗và trạng thái tin tưởngb: chính sách sinh một hành động, sau đó, với mỗi chuỗi nhận thức con, trạng thái tin tưởng được cập nhật và một hành động mới được sinh ra, cứ tiếp tục như vậy. Vớibcụ thể, chính sách tương đương vớibản kế hoạch có điều kiện.
Ta có hai nhận xét:
1. Gọi hiệu quả khi thực thi một bản kế hoạch có điều kiện cứng ptừ một trạng tháislàαp(s). Khi đó kỳ vọng của hiệu quả khi thực thipở trạng thái tin tưởngblà∑
s
b(s)αp(s)hoặcb.αpnếu coi chúng là các vector. Do đó, kỳ vọng của hiệu quả tương ứng với một siêu phẳng trong không gian tin tưởng.
2. Tại bất kỳ trạng thái tin tưởngbnào, chính sách tối ưu sẽ chọn thực thi bản kế hoạch có điều kiện với kỳ vọng hiệu quả cao nhất; và kỳ vọng hiệu quả củabvới chính sách tối ưu chính là hiệu quả của bản kế hoạch có điều kiện:
U(b) =Uπ∗(b) =max
p b.α(b).
Từ hai nhận xét trên, ta thấy rằng hàm hiệu quảU(b)trên không gian tin tưởng, là max của tập các siêu phẳng, sẽ tuyến tính từng phần và lồi. Lấy ví dụ, môi trường hai trạng thái. Các trạng thái được gán nhãn 0 và 1, vớiR(0) =0vàR(1) =1. Có hai hành động: Stay giữ nguyên trạng thái với xác suất 0.9 và Go chuyển sang trạng thái khác với xác suất 0.9. Ta giả định hệ sốγ=1. Cảm biến thông báo đúng trạng thái với xác suất 0.6. Hiển nhiên, chủ thể nên Stay khi nó nghĩ rằng nó ở trạng thái 1, và Go khi nó nghĩ rằng nó ở trạng thái 0.
Ưu điểm của môi trường hai trạng thái là không gian tin tưởng có thể biểu diễn trên không gian một chiều, vì tổng xác suất phải bằng 1.
4.2 Lặp giá trị cho POMDP 25
Ở hình a, trục x thể hiện không gian tin tưởng, định nghĩa bởib(1), xác suất ở trạng thái 1.
α[Stay](0) =R(0) +γ(0.9R(0) +0.1R(1)) =0.1
α[Stay](1) =R(1) +γ(0.9R(1) +0.1R(0)) =1.9
α[Go](0) =R(0) +γ(0.9R(1) +0.1R(0)) =0.9
α[Go](1) =R(1) +γ(0.9R(0) +0.1R(1)) =1.1
Khi ta đã có các hiệu quảαp(s)cho mọi bản kế hoạch có điều kiệnpvới độ sâu 1 với mọi trạng tháis, ta có thể tính các hiệu quả cho các bản kế hoạch có điều kiện với độ sâu 2:
[Stay; if Percept = 0 then Stay else Go]...
Ta lặp lại quá trình cho độ sâu 3, và tiếp tục như vậy. Tổng quát, gọiplà một bản kế hoạch có điều kiện độ sâudvới hành động khởi tạoavà bản kế hoạch con độ sâud−1cho nhận thứcelà p.e; khi đó
αp(s) =R(s) +γ ∑ s0 P(s0|s,a)∑ e P(e|s0)αp.e(s0) ! .
Algorithm 3Thuật toán lặp giá trị POMDP U0←tập rỗng [], vớiα[](s) =R(s);
whileMAX−DIFFERENCE(U,U0)≥ε(1−γ)/γ do
U←U0;
U0←tập tất cả các bản kế hoạch bao gồm một hành động và, với mỗi nhận thức khả thi tiếp theo, một bản kế hoạch trongU; U0←REMOV E−DOMINAT ED−PLANS(U0);