HỆ HỖ TRỢ QUYẾT ĐỊNH: RA QUYẾT ĐỊNH PHỨC TẠP

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề	Hệ Hỗ Trợ Quyết Định: Ra Quyết Định Phức Tạp
Tác giả	Lê Chí Ngọc, Đặng Đình Trung
Trường học	Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành	Toán Tin
Thể loại	thesis
Năm xuất bản	2019
Thành phố	Hà Nội

Định dạng
Số trang	35
Dung lượng	2,24 MB

Nội dung

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN TOÁN ỨNG DỤNG VÀ TIN HỌC HỆ HỖ TRỢ QUYẾT ĐỊNH RA QUYẾT ĐỊNH PHỨC TẠP Chủ biên Lê Chí Ngọc Sinh viên thực hiện Đặng Đình Trung MSSV 20153957 Lớp KSTN Toán Tin K60 Hà Nội Tháng 122019 Contents 1 Bài toán chuỗi quyết định 3 1 1 Hiệu quả theo thời gian 6 1 2 Các chính sách tối ưu và hiệu quả của các trạng thái 8 2 Lặp giá trị 11 2 1 Phương trình Bellman cho hiệu quả 11 2 2 Thuật toán lặp giá trị 12 2 3 Sự hội tụ của thuật toán lặp giá trị 13 3 Lặp chính sách 17.

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN TOÁN ỨNG DỤNG VÀ TIN HỌC HỆ HỖ TRỢ QUYẾT ĐỊNH: RA QUYẾT ĐỊNH PHỨC TẠP Chủ biên: Lê Chí Ngọc Sinh viên thực hiện: Đặng Đình Trung MSSV: 20153957 Lớp: KSTN Toán Tin K60 Hà Nội - Tháng 12/2019 Contents Bài toán chuỗi định 1.1 Hiệu theo thời gian 1.2 Các sách tối ưu hiệu trạng thái Lặp giá trị 11 2.1 Phương trình Bellman cho hiệu 11 2.2 Thuật tốn lặp giá trị 12 2.3 Sự hội tụ thuật toán lặp giá trị 13 Lặp sách 17 MDP quan sát phần 21 4.1 Định nghĩa 22 4.2 Lặp giá trị cho POMDP 23 Quyết định với nhiều chủ thể: Lý thuyết trò chơi 27 Contents Lời nói đầu Ta giải vấn đề tính tốn liên quan đến q trình định môi trường ngẫu nhiên Ta tập trung vào tốn chuỗi định, tính hữu dụng chủ thể phụ thuộc vào chuỗi định Bài toán chuỗi định kết hợp tính hữu dụng, tính khơng chắn, tính cảm nhận, bao gồm tìm kiếm lập kế hoạch Chương trình bày tốn chuỗi định, chương giải thích cách đưa hành vi cho cân thưởng phạt môi trường bất định Chương mở rộng ý tưởng lên môi trường quan sát phần, phần 4.3 phát triển chủ thể định đầy đủ môi trường quan sát phần, kết hợp với mạng Bayes động mạng định Phần cuối ta xem xét môi trường nhiều chủ thể Ở môi trường vậy, khái niệm hành vi tối ưu trở nên phức tạp tương tác chủ thể Chương giới thiệu ý tưởng lý thuyết trò chơi, bao gồm ý tưởng chủ thể hợp lý phải hành xử ngẫu nhiên Hiệu theo thời gian Các sách tối ưu hiệu trạng thái – Bài toán chuỗi định Giả sử chủ thể nằm môi trường × hình Từ trạng thái bắt đầu, chủ thể phải chọn hành động bước Sự tương tác với môi trường kết thúc chủ thể đạt tới trạng thái đích, ký hiệu +1 -1 Các hành động khả thi chủ thể trạng thái đưa ACTIONS(s), viết tắt bới A(s); mơi trường × 3, hành động trạng thái Lên, Xuống, Trái, Phải Ta giả sử mơi trường quan sát tồn bộ, chủ thể ln biết vị trí Bài tốn chuỗi định Nếu mơi trường tất định, lời giải đơn giản: [Lên, Lên, Phải, Phải, Phải] Mơ hình q trình chuyển động ngẫu nhiên biểu diễn hình b Mỗi hành động có chủ đích với xác suất 0.8, cịn lại, di chuyển vng góc so với hướng chủ đích Hơn nữa, chủ thể va phải tường giữ ngun vị trí Ví dụ, từ bắt đầu (1, 1), hành động Lên di chuyển chủ thể lên ô (1, 2) với xác suất 0.8, với xác suất 0.1, di chuyển sang phải tới ô (2, 1), với xác suất 0.1, di chuyển sang trái, va phải tường giữ nguyên vị trí (1, 1) Chuỗi [Lên, Lên, Phải, Phải, Phải] vịng lên đạt trạng thái đích (4, 3) với xác suất 0.85 = 0.32768 Còn tỉ lệ nhỏ đạt tới trạng thái đích +1 đường khác với xác suất 0.14 × 0.8 (đi vòng xuống trước, lên), nâng tổng xác suất lên 0.32776 Mơ hình chuyển trạng thái mơ tả đầu cho hành động trạng thái Ở đây, đầu ngẫu nhiên nên ta viết P(s |s, a) để ký hiệu cho xác suất đạt tới trạng thái s hành động a thực trạng thái s Ta giả sử mơ hình chuyển trạng thái Markov, nghĩa là, xác suất đạt trạng thái s từ trạng thái s phụ thuộc vào trạng thái s không phụ thuộc vào trạng thái trước Ta hình dung P(s |s, a) bảng ba chiều chứa xác suất Bởi trình định chuỗi định, nên hàm hiệu (utility function) phải phụ thuộc vào chuỗi trạng thái, trạng thái đơn lẻ Ở đây, ta qui định với trạng thái s, chủ thể nhận phần thưởng R(s), dương âm, phải bị chặn Trong ví dụ ta, phần thưởng -0.04 bước trừ trạng thái kết thúc (có phần thưởng +1 -1) Hiệu chuỗi trạng thái đơn giản tổng phần thưởng nhận Ví dụ, chủ thể đạt trạng thái +1 sau 10 bước, tổng hiệu 0.6 Phần thưởng -0.04 khích lệ chủ thể đạt trạng thái (4, 3) nhanh Một cách nói khác, chủ thể khơng thoải mái mơi trường muốn rời sớm Tổng kết lại, tốn chuỗi định mơi trường ngẫu nhiên, quan sát tồn vói xác suất chuyển trạng thái Markov có phần thưởng gọi trình định Markov - (Markov decision process) hay MDP, bao gồm tập trạng thái (với trạng thái bắt đầu s0 ); tập hành động cho trạng thái ACTIONS(s); xác suất chuyển trạng thái P(s |s, a); hàm thưởng R(s) Câu hỏi lời giải cho toán trông nào? Ta biết lời giải cứng khơng giải tốn này, chủ thể dừng trạng thái khơng phải trạng thái đích Một lời giải cho dạng tốn gọi sách Nó thường ký hiệu π, π(s) hành động khuyên dùng sách π cho trạng thái s Nếu chủ thể có sách cụ thể, đầu hành động gì, chủ thể ln biết phải làm Mỗi lần thực sách từ trạng thái bắt đầu, q trình ngẫu nhiên mơi trường dẫn tới chuỗi hành động khác Chất lượng sách đo hiệu kỳ vọng chuỗi hành động sinh sách Một sách tối ưu sách dẫn tới hiệu kỳ vọng cao Ta ký hiệu sách tối ưu π ∗ Cho π ∗ , chủ thể định dựa quan sát được, thơng qua trạng thái s, thực thi hành động π ∗ (s) Một sách biểu diễn hàm mô tả đơn giản chủ thể, tính thơng qua thơng tin cho chủ thể hướng hiệu – Lặp sách Thuật tốn lặp sách bao gồm hai bước sau, bước khởi tạo sách π0 : • Đánh giá sách: cho sách πi , tính Ui = U πi , hiệu trạng thái sách πi thực thi • Cải thiện sách: Tính sách πi+1 , dựa Ui Thuật toán dừng cải thiện sách khơng làm thay đổi hiệu Tại thời điểm này, ta biết hàm hiệu Ui đến điểm bất động cập nhật Bellman, lời giải phương trình Bellman, πi phải sách tối ưu Bởi có hữu hạn sách cho khơng gian hữu hạn trạng thái, nên lặp sách phải dừng thời điểm Ta có dạng đơn giản phương trình Bellman: Ui (s) = R(s) + γ ∑ P(s |s, πi (s))Ui (s ) s Lặp sách 18 Lấy ví dụ, giả sử sách πi , ta có πi (1, 1) = Lên, πi (1, 2) = Lên, phương trình Bellman dạng đơn giản là: Ui (1, 1) = −0.04 + 0.8Ui (1, 2) + 0.1Ui (1, 1) + 0.1Ui (2, 1), Ui (1, 2) = −0.04 + 0.8Ui (1, 3) + 0.2Ui (1, 2), Điểm quan trọng phương trình tuyến tính, tốn tử "max" bị loại bỏ Với n trạng thái, ta có n phương trình tuyến tính với n giá trị chưa biết, ta giải thời gian O(n3 ) phương pháp đại số tuyến tính Với khơng gian trạng thái nhỏ, sử dụng phương pháp giải xác cách hiệu Với không gian lớn, O(n3 ) khơng phù hợp May mắn ta khơng phải giải nghiệm xác Thay vào đó, ta thực vài bước lặp đơn giản để đạt xấp xỉ đủ tốt Cập nhật Bellman dạng đơn giản cho trình là: Ui+1 (s) ← R(s) + γ ∑ P(s |s, πi (s))Ui (s ), s lặp lại k lần để sinh ước lượng hiệu Thuật toán thu gọi lặp sách cải tiến Nó thường hiệu lặp sách chuẩn lặp giá trị 19 Algorithm Thuật tốn lặp sách để tính sách tối ưu while unchanged? == f alse U ← POLICY − EVALUAT ION(π,U, md p); unchanged? ← true; for s S if max ∑ P(s |s, a)U[s ] > ∑ P(s |s, π[s])U[s ] then a∈A(s) s s π[s] ← argmax sums P(s |s, a)U[s ]; a∈A(s) unchanged? ← f alse end end end Các thuật toán ta xét đến yêu cầu cập nhật hiệu hay sách cho tất trạng thái lúc Tuy nhiên điều kiện khơng cần phải q chặt Thực tế, bước lặp, ta lấy tập trạng thái cập nhật (cải thiện sách lặp giá trị) tập Thuật tốn gọi lặp sách khơng đồng Cho sách khởi tạo hàm hiệu khởi tạo, lặp sách khơng đồng đảm bảo hội tụ tới nghiệm tối ưu Cách chọn trạng thái cho phép ta thiết kế thuật toán heuristic ngày hiệu Định nghĩa Lặp giá trị cho POMDP – MDP quan sát phầ Mô tả chuỗi định Markov giả định môi trường quan sát toàn Với giả định này, chủ thể ln biết trạng thái đâu Cộng với giả định Markov cho xác suất chuyển trạng thái, sách tối ưu phụ thuộc vào trạng thái Khi môi trường quan sát phần, tình rõ ràng Chủ thể khơng biết trạng thái đâu, khơng thể thực hành động π(s) cho trạng thái Hơn nữa, hiệu s hành động tối ưu không phụ thuộc vào s, mà phụ thuộc vào chủ thể biết thông tin trạng thái s Với lí này, MDP quan sát phần (partially observable MDPs - POMDPs) khó nhiều so với MDPs thông thường Ta tránh POMDPs, giới thực POMDP MDP quan sát phần 22 4.1 Định nghĩa Một POMDP có thành phần giống MDP - xác suất chuyển trạng thái P(s |s, a), tập hành động A(s), hàm thưởng R(s) - giống tốn tìm kiếm quan sát phần, có xác suất cảm biến P(e|s), xác suất nhận thức chứng e trạng thái s Ví dụ, mơi trường × 3, ta thêm nhiễu cảm biến thay cho giả định chủ thể biết xác vị trí đâu Cảm biến đo số lượng tường kề với đứng; nhiếu làm giá trị sai lệch với xác suất 0.1 Trong POMDP, trạng thái tin tưởng b - tập trạng thái thực tế chủ thể vào - trở thành phân phối xác suất tồn trạng thái Ví dụ trạng thái tin tưởng khởi tạo cho × POMDP phân phối 1 1 1 1 chín trạng thái chưa kết thúc ( , , , , , , , , , 0, 0) Ta 9 9 9 9 viết b(s) xác suất gắn với trạng thái thực s trạng thái tin tưởng b Trong POMDP, b(s) trạng thái tin tưởng trước, chủ thể thực hành động a sau nhận thức chứng e, trạng thái tin tưởng tính bởi: b (s ) = αP(e|s ) ∑ P(s |s, a)b(s), s α số chuẩn hóa tổng trạng thái tin tưởng Ta viết: b = FORWARD(b, a, e) Điều để hiểu POMDP là: hành động tối ưu phụ thuộc vào trạng thái tin tưởng chủ thể Chính sách tối ưu mơ tả ánh xạ π ∗ (b) từ trạng thái tin tưởng đến hành động Nó khơng phụ thuộc vào trạng thái thực mà chủ thể đứng Do đó, vịng định chủ thể POMDP là: Với trạng thái tin tưởng b, thực hành động a = π ∗ (b) 4.2 Lặp giá trị cho POMDP 23 Nhận thức e Tính trạng thái tin tưởng FORWARD(b, a, e) lặp lại Hãy nhìn cẩn thận vào đầu hành động Cụ thể, tính xác suất mà chủ thể trạng thái tin tưởng b đạt tới trạng thái tin tưởng b thực hành động a Xác suất nhận thức e, với hành động a từ trạng thái tin tưởng b, tính tổng tất trạng thái thực s mà chủ thể đạt tới: P(e|a, b) = ∑ P(e|a, s , b)P(s |a, b) = ∑ P(e|s ) ∑ P(s |s, a)b(s) s s s Ta ký hiệu xác suất đạt b từ b, với hành động a, P(b |b, a) Khi đó: P(b |b, a) = ∑ P(b |e, a, b)P(e|a, b) = ∑ P(b |e, a, b) ∑ P(e|s ) ∑ P(s |s, a)b(s), e e s s P(b |e, a, b) b = FORWARD(b, a, e) ngược lại Ta định nghĩa hàm thưởng cho trạng thái tin tưởng: ρ(b) = ∑ b(s)R(s) s 4.2 Lặp giá trị cho POMDP Xét sách tối ưu π ∗ trạng thái tin tưởng b: sách sinh hành động, sau đó, với chuỗi nhận thức con, trạng thái tin tưởng cập nhật hành động sinh ra, tiếp tục Với b cụ thể, sách tương đương với kế hoạch có điều kiện Ta có hai nhận xét: Gọi hiệu thực thi kế hoạch có điều kiện cứng p từ trạng thái s α p (s) Khi kỳ vọng hiệu thực thi p trạng thái tin tưởng b ∑ b(s)α p (s) b.α p coi chúng vector s Do đó, kỳ vọng hiệu tương ứng với siêu phẳng không gian tin tưởng MDP quan sát phần 24 Tại trạng thái tin tưởng b nào, sách tối ưu chọn thực thi kế hoạch có điều kiện với kỳ vọng hiệu cao nhất; kỳ vọng hiệu b với sách tối ưu hiệu kế hoạch có điều kiện: ∗ U(b) = U π (b) = max b.α(b) p Từ hai nhận xét trên, ta thấy hàm hiệu U(b) không gian tin tưởng, max tập siêu phẳng, tuyến tính phần lồi Lấy ví dụ, mơi trường hai trạng thái Các trạng thái gán nhãn 1, với R(0) = R(1) = Có hai hành động: Stay giữ nguyên trạng thái với xác suất 0.9 Go chuyển sang trạng thái khác với xác suất 0.9 Ta giả định hệ số γ = Cảm biến thông báo trạng thái với xác suất 0.6 Hiển nhiên, chủ thể nên Stay nghĩ trạng thái 1, Go nghĩ trạng thái Ưu điểm môi trường hai trạng thái khơng gian tin tưởng biểu diễn khơng gian chiều, tổng xác suất phải 4.2 Lặp giá trị cho POMDP 25 Ở hình a, trục x thể khơng gian tin tưởng, định nghĩa b(1), xác suất trạng thái α[Stay] (0) = R(0) + γ(0.9R(0) + 0.1R(1)) = 0.1 α[Stay] (1) = R(1) + γ(0.9R(1) + 0.1R(0)) = 1.9 α[Go] (0) = R(0) + γ(0.9R(1) + 0.1R(0)) = 0.9 α[Go] (1) = R(1) + γ(0.9R(0) + 0.1R(1)) = 1.1 Khi ta có hiệu α p (s) cho kế hoạch có điều kiện p với độ sâu với trạng thái s, ta tính hiệu cho kế hoạch có điều kiện với độ sâu 2: [Stay; if Percept = then Stay else Stay] MDP quan sát phần 26 [Stay; if Percept = then Stay else Go] Ta lặp lại trình cho độ sâu 3, tiếp tục Tổng quát, gọi p kế hoạch có điều kiện độ sâu d với hành động khởi tạo a kế hoạch độ sâu d − cho nhận thức e p.e; α p (s) = R(s) + γ ∑ P(s |s, a) ∑ P(e|s )α p.e (s ) s e Algorithm Thuật toán lặp giá trị POMDP U ← tập rỗng [], với α[] (s) = R(s); while MAX − DIFFERENCE(U,U ) ≥ ε(1 − γ)/γ U ←U ; U ← tập tất kế hoạch bao gồm hành động và, với nhận thức khả thi tiếp theo, kế hoạch U; U ← REMOV E − DOMINAT ED − PLANS(U ); end – Quyết định với nhiều chủ thể Từ trước đến ta quan tâm đến trò chơi theo lượt mơi trường quan sát tồn phần Trong chương này, ta tìm hiểu khía cạnh lý thuyết trị chơi Lý thuyết trị chơi sử dụng hai cách: Thiết kế chủ thể: Lý thuyết trị chơi phân tích định chủ thể tính kỳ vọng hiệu cho định (với giả thiết chủ thể khác hành động tối ưu) Ví dụ, trị chơi hai ngón tay Morra, hai người chơi, O E, đồng thời đưa hai ngón tay Gọi tổng số ngón tay f Nếu f lẻ, O nhận f đô-la từ E, f chẵn E lấy f đơ-la từ O Lý thuyết trị chơi định chiến lược tốt phần thưởng kỳ vọng cho người chơi Thiết kế chế: Khi có nhiều chủ thể sống mơi trường, ta định nghĩa luật mơi trường Lấy ví dụ, lý thuyết trị chơi giúp thiết kế giao thức cho tập router Internet cho 28 Quyết định với nhiều chủ thể: Lý thuyết trò chơi router có xu hướng hoạt động để thơng lượng tồn cầu lớn Ta bắt đầu trị chơi đơn giản: tất người chơi đồng thời thực hành động kết trò chơi dựa tập hành động (Không thiết, tất hành động phải thực lúc; không người chơi biết lựa chọn người chơi khác) Trị chơi thường sử dụng tình định bao gồm đấu giá quyền khoan dầu, tiến hành phá sản, phát triển sản phẩm định giá, phịng thủ quốc gia - tình liên quan đến hàng tỉ đơ-la hàng trăm nghìn mạng sống Trò chơi nước bao gồm ba thành phần: • Người chơi hay chủ thể, người định Trò chơi hai người chơi quan tâm nhiều hơn, trò chơi n người chơi (n > 2) phổ biến Ta đặt tên người chơi tên in hoa, Alice Bob, hay O E • Hành động mà người chơi chọn Ta đặt tên hành động chữ in thường Các người chơi khơng có tập hành động • Hàm trả giá trả giá trị hiệu người chơi với tổ hợp hành động tất người chơi Trong trò chơi nước hàm trả giá biểu diễn ma trận, thường gọi dạng chiến lược Ma trận trả giá cho trò chơi hai ngón tay Morra sau: 29 Mỗi người chơi trò chơi phải thực chiến lược Một chiến lược đơn giản sách tất định; trò chơi nước đi, chiến lược đơn giản hành động Trong nhiều trò chơi chủ thể thực chiến lược kết hợp, sách ngẫu nhiên chọn hành động dựa phân phối xác suất Chiến lược kết hợp lựa chọn hành động a với xác suất p hành động b trường hợp lại ký hiệu [p : a; (1 − p) : b] Một hồ sơ chiến lược phân công chiến lược cho người chơi; với hồ sơ chiến lược, đầu trò chơi giá trị số cho người chơi Một lời giải cho trò chơi hồ sơ chiến lược cho người chơi thực chiến lược hợp lý Ta tháy vấn đề quan trọng lý thuyết trò chơi "hợp lý" người chơi thực phần hồ sơ chiến lược Xét hai người bị cáo buộc trộm cắp, Alice Bob, bị bắt tang trường vụ trộm, họ bị thẩm vấn tách biệt Một công tố viên đưa đề nghị cho người: anh làm chứng chống lại bạn anh chủ mưu vụ trộm, anh thả tinh thần hợp tác, bạn anh lãnh án 10 năm tù Tuy nhiên, hai làm chứng chống lại nhau, hai lãnh án năm tù Alice Bob biết hai từ chối làm chứng họ phải nhận năm tù Lúc Alice Bob đối mặt với nghịch lý người tù: họ nên làm chứng hay từ chối? Là chủ thể hợp lý, Alice Bob người muốn tối đa kỳ vọng hiệu Để đưa định hợp lý, họ phải xây dựng ma trận trả giá: Alice nhận thấy làm chứng chiến lược có ưu trị chơi Ta nói chiến lược s cho người chơi p có ưu mạnh chiến lược s đầu s tốt cho p đầu s , với lựa chọn chiến 30 Quyết định với nhiều chủ thể: Lý thuyết trò chơi lược người chơi khác Chiến lược s có ưu yếu chiến lược s s tốt s hồ sơ chiến lược không tệ hồ sơ chiến lược khác Một cách hợp lý, Alice chọn chiến lược có ưu Khi người chơi có chiến lược có ưu thế, tổ hợp chiến lược gọi điểm cân chiến lược có ưu Tổng quát, hồ sơ chiến lược hình thành điểm cân khơng người chơi thu đươc lợi ích cách thay đổi chiến lược Nhà toán học John Nash (1928-) chứng minh trị chơi có điểm cân Khái niệm tổng quát điểm cân gọi điểm cân Nash Rõ ràng điểm cân có ưu điểm cân Nash, số trị chơi có điểm cân Nash khơng có điểm cân có ưu Một trị chơi có nhiều điểm cân Nash; ta biết trị chơi có điểm? Lấy ví dụ, hồ sơ chiến lược đơn giản cho trị chơi hai ngón tay Morra Nếu tổng số ngón tay chẵn, O muốn chuyển; ngược lại, tổng lẻ E muốn chuyển Do khơng có hồ sơ chiến lược đơn giản điểm cân ta phải thay hồ sơ chiến lược kết hợp Nhưng hồ sơ chiến lược kết hợp nào? Năm 1928, von Neumann phát triển phương pháp tìm chiến lược kết hợp tối ưu cho trị chơi hai người chơi, trò chơi zero-sum - trò chơi mà tổng trả giá Rõ ràng Morra trò chơi Phương pháp von Neumann gọi kỹ thuật maximin, thực sau: • Giả sử ta thay đổi luật sau: E chọn chiến lược cô tiết lộ cho O Sau O chọn chiến lược anh ấy, biết chiến lược E Cuối ta tính kỳ vọng trả giá trò chơi dựa chiến lược chọn Giả sử đầu UE,O Rõ ràng trò chơi lợi cho O, nên hiệu thực U trị chơi ban đầu khơng nhỏ nhơn UE,O • Giờ ta giả sử thay đổi luật để ép O tiết lộ chiến lược trước, đến E Khi minimax trò chơi UO,E , trị chơi lợi cho E ta suy U không vượt UO,E

Ngày đăng: 26/06/2022, 00:35