Quyết định với nhiều chủ thể: Lý thuyết trò chơ

Một phần của tài liệu HỆ HỖ TRỢ QUYẾT ĐỊNH: RA QUYẾT ĐỊNH PHỨC TẠP (Trang 32 - 35)

Từ trước đến giờ ta mới chỉ quan tâm đến các trò chơi theo lượt trong môi trường quan sát được toàn phần. Trong chương này, ta sẽ tìm hiểu khía cạnh lý thuyết trò chơi. Lý thuyết trò chơi có thể được sử dụng ít nhất hai cách:

1. Thiết kế chủ thể: Lý thuyết trò chơi có thể phân tích các quyết định

của chủ thể và tính kỳ vọng của hiệu quả cho mỗi quyết định (với giả thiết các chủ thể khác hành động tối ưu). Ví dụ, trong trò chơi hai ngón tay Morra, hai người chơi, O và E, đồng thời đưa ra một hoặc hai ngón tay. Gọi tổng số ngón tay là f. Nếu f là lẻ, O nhận f đô-la từ E, và nếu f là chẵn thì E lấy f đô-la từ O. Lý thuyết trò chơi có thể quyết định chiến lược tốt nhất và phần thưởng kỳ vọng cho mỗi người chơi.

2. Thiết kế cơ chế: Khi có nhiều chủ thể cùng sống trong một môi trường,

ta có thể định nghĩa các luật của môi trường. Lấy ví dụ, lý thuyết trò chơi có thể giúp thiết kế giao thức cho một tập các router Internet sao cho mỗi

router có xu hướng hoạt động để thông lượng toàn cầu là lớn nhất. Ta bắt đầu bằng trò chơi đơn giản: tất cả các người chơi đồng thời thực hiện hành động và kết quả của trò chơi dựa trên tập hành động này. (Không nhất thiết, tất cả các hành động phải thực hiện cùng lúc; nhưng không người chơi nào biết lựa chọn của các người chơi khác). Trò chơi thường được sử dụng trong tình huống ra quyết định bao gồm đấu giá quyền khoan dầu, tiến hành phá sản, phát triển sản phẩm và quyết định giá, phòng thủ quốc gia - tình huống liên quan đến hàng tỉ đô-la và hàng trăm nghìn mạng sống. Trò chơi một nước đi bao gồm ba thành phần:

Người chơihay chủ thể, người sẽ ra quyết định. Trò chơi hai người chơi được quan tâm nhiều hơn, mặc dù trò chơinngười chơi (n>2) phổ biến hơn. Ta đặt tên người chơi là tên in hoa, như Alice và Bob, hay O và E.

Hành độngmà người chơi có thể chọn. Ta đặt tên hành động bởi chữ in thường. Các người chơi không có cùng một tập các hành động.

Hàm trả giátrả về giá trị hiệu quả của mỗi người chơi với mỗi tổ hợp hành động của tất cả các người chơi. Trong trò chơi một nước đi hàm trả giá có thể biểu diễn bởi một ma trận, thường được gọi là dạng chiến lược. Ma trận trả giá cho trò chơi hai ngón tay Morra như sau:

29

Mỗi người chơi trong trò chơi phải thực hiện một chiến lược. Một chiến lược đơn giản là một chính sách tất định; trong trò chơi một nước đi, một chiến lược đơn giản là một hành động. Trong nhiều trò chơi chủ thể có thể thực hiện chiến lược kết hợp, chính là một chính sách ngẫu nhiên chọn một hành động dựa trên một phân phối xác suất. Chiến lược kết hợp lựa chọn hành độngavới xác suấtpvà hành độngbtrong trường hợp còn lại được ký hiệu là[p:a;(1−p):b]. Một hồ sơ chiến lược là một bản phân công các chiến lược cho các người chơi; với một hồ sơ chiến lược, đầu ra của trò chơi là một giá trị số cho mỗi người chơi.

Một lời giải cho một trò chơi là một hồ sơ chiến lược sao cho mỗi người chơi thực hiện một chiến lược hợp lý. Ta sẽ tháy rằng vấn đề quan trọng nhất trong lý thuyết trò chơi là thế nào là "hợp lý" khi mỗi người chơi chỉ thực hiện một phần của hồ sơ chiến lược.

Xét hai người bị cáo buộc trộm cắp, Alice và Bob, bị bắt quả tang tại hiện trường của một vụ trộm, họ bị thẩm vấn tách biệt. Một công tố viên đưa ra đề nghị cho mỗi người: nếu anh làm chứng chống lại bạn của anh là chủ mưu của vụ trộm, anh sẽ được thả tự do vì tinh thần hợp tác, và bạn anh sẽ lãnh án 10 năm tù. Tuy nhiên, nếu cả hai làm chứng chống lại nhau, cả hai sẽ lãnh án 5 năm tù. Alice và Bob đều biết rằng nếu cả hai đều từ chối làm chứng thì họ chỉ phải nhận 1 năm tù. Lúc này Alice và Bob đối mặt vớinghịch lý người tù: họ nên làm chứng hay từ chối? Là

những chủ thể hợp lý, Alice và Bob mỗi người đều muốn tối đa kỳ vọng hiệu quả của mình. Để đưa ra quyết định hợp lý, họ đều phải xây dựng ma trận trả giá:

Alice nhận thấy rằng làm chứng là chiến lược có ưu thế trong trò chơi. Ta nói rằng chiến lượcscho người chơipcó ưu thế mạnh chiến lượcs0 nếu đầu ra củaslà tốt hơn chophơn đầu ra củas0, với mọi lựa chọn chiến

lược của các người chơi khác. Chiến lượcscó ưu thế yếu chiến lượcs0 nếuschỉ tốt hơns0ở ít nhất một hồ sơ chiến lược và không tệ hơn ở các hồ sơ chiến lược khác. Một cách hợp lý, Alice chọn chiến lược có ưu thế. Khi mỗi người chơi có một chiến lược có ưu thế, tổ hợp các chiến lược đó được gọi là điểm cân bằng chiến lược có ưu thế. Tổng quát, một hồ sơ chiến lược hình thành một điểm cân bằng nếu không người chơi nào có thể thu đươc lợi ích bằng cách thay đổi chiến lược.

Nhà toán học John Nash (1928-) đã chứng minh rằng mọi trò chơi đều có ít nhất một điểm cân bằng. Khái niệm tổng quát của điểm cân bằng được gọi là điểm cân bằng Nash. Rõ ràng điểm cân bằng có ưu thế là một điểm cân bằng Nash, nhưng trong một số trò chơi có điểm cân bằng Nash nhưng không có điểm cân bằng có ưu thế.

Một trò chơi có thể có nhiều hơn một điểm cân bằng Nash; làm sao ta có thể biết được mọi trò chơi đều có ít nhất một điểm? Lấy ví dụ, bất kỳ một hồ sơ chiến lược đơn giản nào cho trò chơi hai ngón tay Morra. Nếu tổng số ngón tay là chẵn, thì O muốn chuyển; và ngược lại, nếu tổng là lẻ thì E muốn chuyển. Do đó không có một hồ sơ chiến lược đơn giản nào có thể là một điểm cân bằng và ta phải thay thế bởi hồ sơ chiến lược kết hợp. Nhưng là hồ sơ chiến lược kết hợp nào? Năm 1928, von Neumann phát triển một phương pháp tìm một chiến lược kết hợp tối ưu cho trò chơi hai người chơi, trò chơi zero-sum - trò chơi mà tổng của trả giá luôn bằng 0. Rõ ràng Morra là một trò chơi như thế. Phương pháp của von Neumann được gọi là kỹ thuật maximin, và thực hiện như sau:

• Giả sử ta thay đổi luật như sau: đầu tiên E chọn chiến lược của cô ấy và tiết lộ cho O. Sau đó O chọn chiến lược của anh ấy, biết được chiến lược của E. Cuối cùng ta tính kỳ vọng trả giá của trò chơi dựa trên chiến lược đã chọn. Giả sử đầu ra làUE,O. Rõ ràng trò chơi này lợi thế cho O, nên hiệu quả thực U của trò chơi ban đầu không nhỏ nhơnUE,O.

• Giờ ta giả sử thay đổi luật để ép O tiết lộ chiến lược trước, rồi đến E. Khi đó minimax của trò chơi này làUO,E, và bởi vì trò chơi này lợi thế cho E ta suy ra U không vượt quáUO,E

Một phần của tài liệu HỆ HỖ TRỢ QUYẾT ĐỊNH: RA QUYẾT ĐỊNH PHỨC TẠP (Trang 32 - 35)

Tải bản đầy đủ (PDF)

(35 trang)