Mối quan hệ giữa cân bằng Nash và phép khử lặp các- 123docz.net

Trò chơi tĩnh với thông tin đầy đủ

3.3.2 Mối quan hệ giữa cân bằng Nash và phép khử lặp các chiến lược bị trội ngặt

trội ngặt

Trước hết ta có thể so sánh cân bằng Nash và cân bằng chiến lược trội như sau:

Cân bằng chiến lược ưu thế (trội) nói về việc: Tôi đang làm điều tốt nhất có thể được cho tôi, bất kể bạn có làm gì đi nữa. Bạn đang làm điều tốt nhất có thể được cho bạn, bất kể tôi có làm gì đi nữa.

Cân bằng Nash nói về việc: Tôi đang làm điều tốt nhất có thể được cho tôi,

khi biết trước cái bạn đang làm. Bạn đang làm điều tốt nhất có thể được cho bạn, khi biết trước cái tôi đang làm.

Nếu phép khử lặp các chiến lược bị trội ngặt loại bỏ tất cả các chiến lược trừ tổ hợp cân bằng chiến lược trội (s1*, s2*, …, sn*) thì tổ hợp chiến lược này là cân bằng Nash duy nhất của trò chơi. Tuy nhiên, phép khử lặp không phải bao giờ cũng loại bỏ được tất cả các chiến lược và để lại duy nhất một chiến lược trội như vậy.

Qua trình bày ở trên ta còn thấy, cân bằng Nash mạnh hơn lời giải phép khử lặp các chiến lược bị trội ngặt, tức là nếu tổ hợp chiến lược (s1*, s2*, …, sn*) là cân bằng Nash thì nó không bị loại sau phép khử lặp các chiến lược bị trội ngặt.

Tuy nhiên, cũng có thể xảy ra trường hợp những chiến lược không bị loại sau phép khử lặp các chiến lược bị trội ngặt (hay không có chiến lược bị trội để khử) nhưng cũng không phải là một phần của bất cứ cân bằng Nash nào, chẳng hạn như trò chơi đọ xu.

Một trò chơi cũng có thể có nhiều cân bằng Nash, chẳng hạn như trò chơi Cuộc chiến giữa hai giới:

Các chiến lược của Nam

Ca nhạc Thể thao

Các chiến lược của Nữ

Ca nhạc (2; 1) (0 ; 0)

Thể thao (0; 0) (1; 2)

Trong trò chơi này có hai cân bằng Nash là (Ca nhạc, Ca nhạc) và (Thể thao, Thể thao).

Trong trường hợp không tồn tại cân bằng Nash nào hoặc tồn tại nhiều cân bằng Nash, khi ra quyết định người ra phải dựa vào một phân phối xác suất, tức là trò chơi dựa vào những quyết định mang tính ngẫu nhiên để có được kết quả của trò chơi; phát triển này gọi là chiến lược hỗn hợp sẽ bàn đến trong chương 5.

Tóm tắt

1. Không gian chiến lược Sicủa đấu thủ i là tập hợp các khả năng ra quyết định sẵn có của dấu thủ i, ( i=1, …n); (s1, s2, …, sn) là một tổ hợp chiến lược của các đấu thủ và ui(s1, s2, …, sn) là thu hoạch của đấu thủ i nếu các đấu thủ chọn tổ hợp chiến lược (s1, s2, …, sn). Biểu diễn dạng chuẩn của trò chơi n đấu thủ là việc chỉ rõ không gian chiến lược S1, S2, …, Sn của các đấu thủ và hàm thu hoạch u1, u2, …, un của họ.

2. Chiến lược si’’ được gọi là trội ngặt (ưu thế hơn hẳn) so với chiến lược si’ đối với đấu thủ i nếu ui(s1, s2, …, si-1, si’, si+1, …, sn) < ui(s1, s2, …, si-1, si’’, si+1,

…, sn) đối với mọi tổ hợp (s1, s2, …, si-1, si+1, …, sn) có thể lựa chọn từ các không gian chiến lược (S1, S2, …, Si-1, Si+1, …, Sn) của các đấu thủ còn lại. 3. Để tìm cách giải quyết bài toán LTTC ta bắt đầu bằng phép khử lặp các chiến

lược bị trội ngặt nếu như nó tồn tại. Trong trò chơi dạng chuẩn n đấu thủ G = {S1, S2, …, Sn; u1, u2, …, un}, cho si’ và si’’là hai chiến lược khả thi đối với đấu thủ i và si’ là chiến lược bị trối ngặt so với si’’thì chiến lược si’ sẽ bị loại và không được chọn trong quá trình tìm đến một cân bằng tối ưu đối với mọi đấu thủ.

4. Trong trò chơi mà không có chiến lược nào bị trội ngặt so với chiến lược khác, nên không có chiến lược nào bị loại bởi phép khử lặp các chiến lược bị trội ngặt. John Nash đã đề xuất một thuật toán cân bằng Nash đưa đến một kết quả một cân bằng mà phép khử lặp các chiến lược bị trội ngặt không giải quyết được. Thuật toán này dựa trên ý tưởng: mỗi đấu thủ sẽ chọn ra một chiến lược phản ứng tốt nhất (thu hoạch cao nhất) trước các chiến lược đã cho của tất cả các đấu thủ còn lại.

Câu hỏi thảo luận

1. Trình bày cách biểu diễn dạng chuẩn của một trò chơi? Hãy biểu diễn dạng chuẩn của các trò chơi trong phần câu hỏi thảo luận ở chương 2?

2. Trong các dạng trò chơi ở câu 1, trò chơi nào có thể tìm cân bằng bằng phép khử lặp các chiến lược bị trội ngặt? Trò chơi nào có thể tìm cân bằng bằng cân bằng Nash? Hãy giải thích.

Bài tập

1.Giả sử có hai hãng A và B bán các sản phẩm cạnh tranh và đang suy tính có nên mở một chiến dịch quảng cáo hay không. Mỗi hãng đều bị ảnh hưởng do hành động này của đối thủ cạnh tranh. Các kết quả cụ thể của trò chơi này được minh họa bằng ma trận lợi ích trong bảng sau: Nếu cả hai quyết định cùng quảng cáo thì A có lợi nhuận bằng 10 triệu đồng và B có lợi nhuận bằng 5 triệu đồng. Nếu A quảng cáo còn B không quảng cáo thì A có lợi nhuận bằng 15 triệu đồng và B có lợi nhuận bằng 0. Nếu cả hai không quảng cáo thì A có lợi nhuận bằng 10 triệu đồng và B có lợi nhuận bằng 2 triệu đồng. Nếu A không quảng cáo còn B quảng cáo thì A có lợi nhuận bằng 6 triệu đồng và B có lợi nhuận bằng 8.

Các chiến lược của hãng B Quảng cáo Không quảng cáo Các chiến lược

của hãng A

Quảng cáo (10; 5) (15 ; 0)

Không quảng cáo (6; 8) (10; 2)

Chiến lược nào là chiến lược bị trội ngặt đối với A và B? Hãy tìm cặp chiến lược cân bằng của trò chơi.

2.Cho như bài tập 1 với câu hỏi tương tự nếu ma trận lợi ích thay đổi như sau:

Các chiến lược của hãng B Quảng cáo Không quảng cáo Các chiến lược

của hãng A

Quảng cáo (10; 5) (15 ; 0)

Không quảng cáo (6; 8) (20; 2)

3.Có lẽ chúng ta còn phân vân về câu thành ngữ “Người hiền lành sẽ được hưởng tất cả” hay “Ở hiền gặp lành”. Trong khi chúng ta còn chưa khẳng định được điều đó có luôn đúng hay không, thì câu chuyện sau đây như là một ví dụ phản ánh đâu là sự thật. Hai nhà tâm lý học nhốt hai chú lợn gồm một bé (Little Pig) và một lớn (Big Pig) vào một bãi nhốt gia súc có một

chiếc đòn bảy đặt ở đầu bãi và một máng ăn đặt ở cuối bãi. Khi một chú lợn ấn đòn bày ở đầu này thì ở đầu kia thức ăn được đưa vào máng. Nếu Little Pig ấn đòn bảy, thì do lớn hơn nên Big Pig có thể ăn hết thức ăn và không để lại chút nào cho Little Pig. Nếu Big Pig ấn đòn bảy, thì Little Pig có đủ thời gian để ăn được một phần thức ăn trước khi bị Big Pig chạy đến máng và đuổi đi. Chúng ta biểu diễn tình huống này dưới dạng một trò chơi: Mỗi chú lợn có hai chiến lược để lựa chọn; Ấn đòn bảy, và Chờ tại máng ăn. Nếu cả hai chờ ở máng ăn thì cả hai không có gì để ăn. Nếu cả hai ấn đòn bảy, thì Big Pig ăn hết thức ăn trong máng, và Little Pig còn bị Big Pig huých vào sườn khi tranh nhau chạy đến máng. Nếu Little Pig ấn đòn bảy và Big Pig chờ ở máng ăn thì Big Pig ăn hết thức ăn còn Little Pig đứng nhìn trong thất vọng. Nếu Big Pig ấn đòn bảy và Little Pig chờ ở máng ăn thì chú lợn bé có thể ăn được 2/3 số thức ăn trong máng trước khi bị Big Pig đuổi đi. Các hàm thu hoạch được cho trong bảng sau (số liệu này tương đối nhất quán với thí nghiệm nghiên cứu Hành vi động vật của Baldwin và Meese, 1979):

Các chiến lược của Big Pig

Ấn đòn bẩy Chờ

Các chiến lược của Little Big

Ấn đòn bẩy (-1; 9) (-1 ; -10)

Chờ (6; 4) (0; 0)

a. Liệu có tồn tại một chiến lược trội cho Little Pig hay không? Liệu có tồn tại một chiến lược trội cho Big Pig hay không?

b. Hãy tìm cân bằng Nash của trò chơi. Trò chơi này có tồn tại nhiều hơn một cân bằng Nash hay không? (Mặc dù Baldwin và Meese không diễn giải thí nghiệm này như một trò chơi, nhưng kết quả họ quan sát được tình cờ lại đúng như kết quả được dự đoán bởi cân bằng Nash).

4.Hai sinh viên một nam và một nữ đã gặp nhau lần đầu tại một cuộc giao lưu cho sinh viên năm thứ nhất. Họ muốn gặp lại nhau lần nữa nhưng lại quên trao đổi tên và điện thoại ở lần gặp đầu. Có hai khả năng chiến lược đối với

mỗi người: họ có thể tham dự một trong hai lễ hội của trường sắp tới. Nếu cả hai cùng chọn tham dự lễ hội nhỏ thì hầu như chắc chắn họ sẽ gặp lại nhau và thu hoạch kỳ vọng của mỗi người được cho là 1000. Nếu cả hai tham dự lễ hội lớn thì cơ hội gặp nhau của họ chỉ còn 50-50 và thu hoạch mỗi người chỉ còn 500. Nếu mỗi người đi dự một lễ hội khác nhau thì thu hoạch của họ đều bằng 0.

a.Trò chơi này có một bằng trội hay không? b.Cân bằng Nash của trò chơi là gì? c.Tìm chiến lược hỗn hợp của trò chơi.

5.Một trò chơi 2 đấu thủ nổi tiếng với cái tên “Chicken”. Hai thanh niên đua xe với tốc độ lớn trong những chiếc ô tô đã cải tiến động cơ. Người nào đầu tiên trượt khỏi đường đua là “chicken”. Khả năng tốt nhất có thể xảy ra đối với ai không bị trượt khỏi đường đua trong khi người kia bị trượt khỏi đường đua, khi đó anh ta trở thành anh hùng còn người kia là “chicken”. Nếu cả hai bị trượt khỏi đường đua thì cả hai là chicken. Nếu cả hai đều không bị trượt khỏi đường đua thì đích cuối cùng của họ là bệnh viện. Ma trận thu hoạch cho trò chơi kiểu “Chicken” này cho như sau:

Các chiến lược của B Trượt Không trượt Các chiến

lược của A

Trượt (1; 1) (1 ; 2)

Không trượt (2; 1) (0; 0)

a. Trò chơi này có chiến lược trội nào không? Hai cân bằng Nash chiến lược thuần túy là gì?

b. Tìm một cân bằng Nash trong các chiến lược hỗn hợp cho trò chơi này. 6.Trò chơi dạng chuẩn là gì? Chiến lược bị trội ngặt trong một trò chơi dạng

chuẩn là gì? Cân bằng Nash chiến lược thuần túy trong một trò chơi dạng chuẩn là gì?

Các chiến lược của Cột L R Các chiến lược của hàng T (a; b) (c ; d) B (e; f) (g; h)

trong đó đấu thủ hàng có hai chiến lược T và B. Đấu thủ côt có hai chiến lược L và R; thu hoạch từ mỗi chiến lược được cho trong các ô của bảng.

a. Nếu (T,L) là chiến lược cân bằng trột ngặt thì các quan hệ giữa các thu hoạch cho trong bảng là như thế nào?

b. Nếu (T,L) là chiến lược cân bằng Nash thì các quan hệ giữa các thu hoạch trong bảng là như thế nào?

c. Nếu (T,L) là chiến lược cân bằng trột ngặt thì nó có phải là cân bằng Nash không?

8.Trong trò chơi dạng chuẩn sau đây, các chiến lược nào không bị loại sau phép thử lặp các chiến lược trội ngặt?

Chiến lược nào là cân bằng Nash chiến lược thuần túy?

Các chiến lược của Cột

L C R Các chiến lược của hàng T (2; 0 ) (1; 1) (4 ; 2) M (3; 4) (1, 2) (2; 3) B (1; 3) (0; 2) (3; 0)

Chương 4

Mối quan hệ giữa cân bằng Nash và phép khử lặp các chiến lược bị trội ngặt

Trò chơi Nhị độc quyền Bertrand

Phát triển cân bằng Nash