σtr iaˊ =1/5 EU1 = (1/5)(1/5)(−10) + (4/5)(1/5)(−2) + (1/5)(4/5)(2) + (4/5)(4/5)(0) EU1 = −2/5 EU2 = (1/5)(1/5)(−10) + (1/5)(4/5)(2) + (4/5)(1/5)(−2) + (4/5)(4/5)(0)
→ Giống với người chơi 1
Bây giờ ta biết lợi ích dự kiến của mỗi người trong MSNE, ta thấy kết quả <rẽ, rẽ> sẽ làm 2 người chơi tốt hơn khi mà 0 lớn hơn -2/5. Tuy nhiên ta cũng sẽ thấy trong thế lưỡng nan của người tù, khi mà kết quả là không ổn định và mỗi người chơi có thể có đi chệch sang hướng có lợi để tiếp tục.
Cuộc chiến giới tính
Một người đàn ông và một người phụ nữ muốn có một cuộc hẹn vào một buổi tối thứ 6 trong năm 1980. Có hai nơi hẹn gặp để giải trí ở trong thành phố vào buổi tối hôm đó: một vở kịch và một trận đấu tay đôi. Người phụ nữ muốn tới xem vở ballet và người đàn ông muốn xem trận đâu tay đôi. Tuy nhiên là cả hai đều muốn xem cùng nhau hơn là xem một mình, họ sẽ về nhà ngay lập tức nếu người còn lại không có mặt ở địa điểm mà người đó chọn. Một cuộc điện thoại, một tin nhắn hay email sẽ dễ dàng giải quyết tình huống này thế nhưng những năm 1980 thì không có những thứ như vậy và do đó, cả hai phải chọn địa điểm mà mình tới ngay lập tức mà không có phương tiện kết nối nào với người còn lại.
Một mô hình khác của trò chơi là việc hai người quyết định xem buổi hòa nhạc của Johann Sebastion Bach hoặc Igor Stravinsky, nhưng về cấu trúc và phần thưởng thì là tương tự. Ta vẽ được ma trận trả thưởng sau:
Đánh dấu các phản ứng tốt nhất để tìm chiến lược cân bằng Nash là không cần thiết trong bài toán như thế này, ta có thể suy luận rằng nếu cả hai cùng đi tới xem Ballet thì cả hai không có lựa chọn nào tốt hơn cả bởi họ sẽ bị chia ra và nhận được 0 thay vì một kết quả tốt. Vì vậy <ballet, ballet> là một trạng thái cân bằng Nash và tương tự như vậy nếu cả hai cùng đi xem cuộc đấu tay đôi thì mọi cách chuyển động khỏi payoffs của người chơi đều từ một số dương xuống về 0, nên là <đấu tay đôi, đấu tay đôi> cũng là một trạng thái cân bằng Nash. <đấu tay đôi, ballet> và <ballet, đấu tay đôi>
không phải cân bằng Nash khi mà mỗi người đều sẽ muốn đi tới nơi hẹn hò hơn là bám vào chiến lược hiện tại và cô đơn.
Bây giờ cần xác định MSNE của trò chơi, ta đổi lại tên các chiến lược thành các hướng đi:
Ta có lợi ích dự kiến của người chơi 2 nếu như cô ấy chọn bên trái như chiến lược thuần túy là:
Tiếp tục xem xét lợi ích dự kiến của cô ấy nếu chọn bên phải là chiến lược thuần túy
Để tìm được chiến lược hỗn hợp của người chơi 1 sẽ làm cho người chơi 2 không có sự khác biệt giữa các lựa chọn của mình ta giải phương trình sau:
Vậy trong MSNE, người chơi 1 tới xem ballet với xác suất 1/3 và tới xem trận đấu tay đôi với xác suất 2
Tiếp tục xem xét tương tự với người chơi 2, ta có lợi ích dự kiến của người chơi 1 nếu chọn trên
Và lợi ích dự kiến của anh ta nếu anh ta chọn dưới:
Cuối cùng ta giải phương trình
Vậy người chơi hai sẽ tới xem ballet với xác suất là 2/3 và tới xem trận đấu tay đôi với xác suất là 1/3.
Tổng kết lại thì mỗi người chơi sẽ tới loại hình giải trí mà anh/cô ấy thích thú hơn với xác suất là 2/3 và tới nơi ít hứng thú hơn với xác suất là 1/3.
EUtr iaˊ = (σtr ne^ )(2) +(−σtr ne^ )(0)EUphải = (σtr ne^ )(0) +(1 −σdưới)(1) EUphải = (σtr ne^ )(0) +(1 −σdưới)(1) EUtr iaˊ = EUphải σtr ne^ =1/3 EUtr ne^ = (σtr iaˊ )(1) +(1 −σtr iaˊ)(0) EUdưới = (σtr iaˊ )(0) +(1 −σtr iaˊ)(2) EUdưới =EUtr ne^ σtr iaˊ = 2/3
Nhưng xác suất chưa cho chúng ta thấy được tác dụng của MSNE. Bây giờ ta sẽ tính các giá trị của các payoffs trong MSNE:
→ Người chơi 1 nhận được kết quả thấp hơn một chút trong MSNE Thực hiện tương tự ta nhận được kết quả của người chơi 2 cũng là 2/3:
Cả <ballet, đấu tay đôi> và <đấu tay đôi, ballet> đều là những kết quả kết hợp không thành công. Cả hai đều có xác suất dương trong MSNE, cụ thể là 5/9. Điều này có nghĩa là cặp đôi sẽ đi hẹn hò không tới một nửa số lần nếu như họ kết hợp với nhau, điều này kéo theo payoffs của họ. Thực vậy, mỗi người sẽ tốt hơn là đồng ý gặp tại loại hình giải trí mà họ không hứng thú hơn; giá trị 1 họ nhận được từ kết quả lớn hơn 2/3 trong MSNE. Kết luận rằng MSNE là dựa trên lý trí nhưng lại là một tập hợp chiến lược khá là khó hiểu. Vả lại nếu người chơi tiếp tục sử dụng MSNE thì chúng ta sẽ tự hỏi rằng tại sao họ không đơn giản là lựa chọn một trong những PSNE. Sự điều phối thuần túy
Xem xét trò chơi sau:
Ta gọi đây là sự điều phối thuần túy. Người chơi có những bước di chuyển hỗn hợp trong cuộc chiến giới tình; họ muốn đi cùng nhau những họ cũng muốn xem màn biểu diễn mà họ hứng thú hơn. Trong sự điều phối thuần túy, những người chơi chỉ quan tâm tới việc đi cùng nhau.
Ta giải thích đơn giản về lựa chọn này cũng như khi chọn lái xe bên phải hay bên trái, điều này không thực sự quan trọng bất kể là tất cả chúng ta đều lái xe bên trái hoặc tất cả chúng ta đều lái xe bên phải, miễn là một
EU1 = (1/3)(2/3)(1) + (2/3)(2/3)(0) + (1/3)(1/3)(0) +(2/3)(1/3)(2) (2/3)(1/3)(2) EU1 = 2/3 EU2 = (1/3)(2/3)(2) + (2/3)(2/3)(0) + (1/3)(1/3)(0) + (2/3)(1/3)(1) EU2 = 2/3
số người trong chúng ta không lái xe bên trái trong khi người khác lái xe bên phải
Dễ thấy <trên, trái> và <dưới, phải> là các trạng thái cân bằng Nash thuần túy; mọi lựa chọn chiến thuật khác nằm ngoài tập hợp các chiến lược này sẽ giảm payoffs từ 1 xuống 0. Tuy nhiên là trạng thái cân bằng Nash hỗn hợp cũng xuất hiện và giờ ta sẽ tìm ra nó:
Ta có lợi ích dự kiến của người chơi 2 cho việc chọn trái là:
Và lợi ích dự kiến của người chơi 2 nếu chọn phải là:
Ta giải phương trình
Vậy hỗn hợp của cô ấy có giá trị tương đương giữa bên trái và bên phải. Ta có lợi dự kiến của người chơi 1 nếu chọn trên là:
Và lợi ích dự kiến của người chơi 1 nếu chọn dưới là:
Ta giải phương trình
Vậy hỗn hợp chiến lược của anh ta cũng có giá trị tương đương igwax bên trái và bên phải.
Mỗi kết quả xuất hiện trong MSNE với xác suất 1/4. Trong cả hai kết quả thì người chơi đều nhận được 0. Và trong hai kết quả còn lại thì nhận được 1. Do đó, lợi ích dự kiện của họ trong MSNE là 1/2. Đây kém hơn hoàn toàn so với PSNE.
Cách để tránh khỏi sự vô ích của chiến lược hốn hợp cân bằng Nash trong bài toán sự phối hợp thuần túy và cuộc chiến giới tính là làm theo chuẩn mực xã hội và luật lệ. Lái xe ở Việt Nam trở nên dễ dàng vì luật bảo rằng chúng ta lái xe ở bên phải đường, và đây là một cân bằng Nash có giá trị. Trong cuộc chiến giới tính, thì cặp đôi có thể có luật lệ là người đàn ông chọn tới đâu vào thứ 6 còn người phụ nữ thì lựa chọn vào thứ 7. Với cách giải quyết này thì họ chỉ cần lịch thôi kể cả khi không có cách liên lạc trực tiếp. Vì vậy những trạng thái cân bằng Nash hỗn hợp kì lạ này giúp chúng ta giải tích sự hữu ích của các quy tắc phối hợp này. EUtr iaˊ = (σtr ne^ )(1) +(1 −σtr ne^ )(0) EUphải = (σtr ne^ )(0) +(1 −σtr ne^ )(1) EUtr iaˊ =EUphải σtr ne^ = 1/2 EUtr ne^ = (σtr iaˊ )(1) +(1 −σtr iaˊ)(0) EUdưới = (σtr iaˊ )(0) +(1 −σtr iaˊ)(1) EUdưới =EUtr ne^ σtr iaˊ =1/2
Rút gọn trò chơi có tổng bằng 0
Trong trò chơi gan dạ và cuộc chiến giới tính, payoff của mỗi người chơi trong MSNE là bằng với đối phương của anh/cô ấy. Tuy nhiên, trừ khi trò chơi là đối xứng ra thì đó sẽ không thường xuyên là lời giải. Hãy xem một ví dụ cho chúng ta payoff khác nhau, quay lại bài toán Nối đồng xu:
Ta đã có hỗn hợp của người chơi 1 là xác suất 1/6 trên và 5/6 dưới còn hỗn hợp của người chơi 2 là xác suất 1/3 bên trái và 2/3 bên phải. Từ đó ta tính được lợi ích dự kiến của người chơi 1:
Thay vì tính lợi ích dự kiến của người chơi 2 như thông thường, ta nhận thấy đây là trò chơi có tổng bằng 0: khi một người chơi nhận được số lượng phần thưởng xác định thì người chơi còn lại mất số lượng đó. Nói cách khác, nếu chúng ta cộng tất cả các payoff của kết quả riêng từng các nhân thì tất cả đều sẽ là 0. Giả sử phần người chơi 1 nhận được là phần mà người chơi 2 mất. Nếu lợi ích dự kiến của người chơi 1 là -1/3 thì lợi ích dự kiến của người chơi 2 sẽ là 1/3 tức là âm của payoff đó.
Tổng kết lại, ta đã biết cách tính payoffs từ chiến lược cân bằng Nash hỗn hợp của trò chơi có tổng bằng 0. Ngoài ra là payoffs của các người chơi cần khác nhau trong MSNE; trạng thái cân bằng chỉ tương ứng với sự ổn định của một chiến lược xác định chứ không phải mọi sự cân bằng trong payoffs của các người chơi.
Kiểm tra câu trả lời
Thuật toán chiến lược hỗn hợp bảo đảm cho người chơi nhận được payoffs cho việc lựa chọn bất kì chiến lược nào trong các chiến lược thuần túy của anh/cô ấy. Vì vậy ta cũng có thể tính payoff của mỗi người chơi bằng cách tính toán payoff của anh/cô ấy cho việc lựa chọn một trong các chiến lược thuần túy của anh/cô ấy.
EU1 = (1/6)(1/3)(3) + (5/6)(1/3)(−1) + (1/6)(2/3)(−2) +(5/6)(2/3)(0) (5/6)(2/3)(0)
Lấy ví dụ, ta thấy người chơi 1 nhận được -1/3 từ trạng thái cân bằng của trò chơi trước thông qua mỗi kết quả khả thi. Nhưng xem xét các lợi ích dự kiến của anh ta để lựa chọn thì anh ta nhận được 3 mỗi khi người chơi 2 chọn trái và -2 mỗi khi cô ấy chọn phải. Trong trạng thái cân bằng, cô ấy di chuyển trái với xác suất là 1/3 và phải với xác suất là 2/3. Vì vậy, lợi ích dự kiến của người chơi 1 cho trên bằng:
Và chúng ta thu được trạng thái cân bằng lợi ích dự kiến của anh ta. Có một phương pháp để tính trạng thái cân bằng lợi ích dự kiến sẽ hữu dụng trong nhiều trường hợp. Đầu tiên thì nó cho phép chúng ta kiểm tra lại câu trả lời. Nếu như phương pháp ban đầu cho ra những payoffs khác nhau thì ta biết là chúng ta đã làm sai ở chỗ nào đó và cần kiểm tra lại. Thứ hai, dù rằng là phương pháp ban đầu khá dễ nắm bắt, nhưng phương pháp mới này ít phức tạp hơn. Một khi chúng ta hiểu tiến trình thì sẽ chỉ muốn sử dụng phương pháp thứ 2 mà thôi.
Ý chính 1.
2. Trong trò chơi có tổng bằng 0 thì payoff của người chơi là số âm payoff của đối phương.
Strict Dominance in Mixed Strategies
Thống trị tuyệt đối trong các chiến lược hỗn hợp Xem xét trò chơi sau:
Giữa không bị áp đảo bởi bất kì chiến lược thuần túy nào khác của người chơi 1, ta sẽ dễ dàng thấy được điều đó khi lần lượt so sánh giữa với trên và giữa với dưới.
EUtr ne^ = (1/3)(3) + (2/3)(−2)
Với hai thông tin này, ta biết được rằng không có chiến lược thuần túy nào thống trị giữa. Tuy nhiên, giữa bị áp đảo hoàn toàn. Lý do cho việc này là nếu hỗn hợp của hai chiến lược thuần túy cùng thống trị một chiến lược thứ ba thì chiến lược thứ ba đó là chiến lược bị áp đảo.
Để xem giữa bị áp đảo như thế nào trong trò chơi riêng biệt này, xem xét chiến lược hỗn hợp của người chơi 1 khi mà anh ta chọn trên với xác suất là 1/2 và chọn dưới cũng với xác suất 1/2. Ta có lợi ích dự kiến nếu người chơi 2 chọn trái là: (1/2)(3) + (1/2)(-1)=1
→ Lợi ích dự kiến cho việc anh ta chơi chiến lược hỗn hợp này lớn hơn 0 mà anh ta nhận được nếu anh ta chọn giữa như là chiến lược thuần túy. Giả sử người chơi 2 chọn phải và người chơi 1 vẫn sử dụng chiến lược hỗn hợp trên, lợi ích dự kiến của anh ta là: (1/2)(-1) + (1/2)(2)=1/2
→ Kết quả này vẫn lớn hơn 0 mà anh ta nhận được nếu anh ta chọn giữa để phản ứng lại việc người chơi 2 chọn phải. Điều này có nghĩa là bất kể lựa chọn của người chơi 2 là gì thì người chơi 1 sẽ tốt hơn hết là chơi chiến lược hỗn hợp giữa trên và dưới hơn là chọn giữa như một chiến lược thuần túy. Vì lẽ đó nên giữa bị áp đảo hoàn toàn.
Một hỗn hợp khác giữa trên và dưới cũng là chiến lược thống trị với giữa. Ví dụ như trên với xác suất 49/100 và dưới với xác suất 51/100 hoặc là trên với xác suất 51/100 và dưới với xác suất 49/100 đều sẽ cho ra kết quả trội hơn hoàn toàn với giữa bất kể là người chơi hai làm gì. Tuy nhiên đây là những thông tin không cần thiết. Một khi chúng ta biết rằng một hỗn hơp hay nhiều hỗn hợp của một số những chiến lược thuần túy nào đó thống trị một chiến lược thuần túy khác thì chúng ta có thể dễ dàng loại bỏ chiến lược thuần túy bị áp đảo đó như chúng ta vẫn thường làm.
Nhờ đó chúng ta đưa cho chơi ban đầu thành dạng nhìn trong đỡ phức tạp hơn
Dễ thấy không có chiến lược cân bằng Nash thuần túy ở đây. Với kết quả <up, left>, người chơi 2 có thể chuyển hướng sang phải và cải thiện từ -1 lên
1. Với kết quả <dưới, phải>, người chơi 2 có thể chuyển hướng sang trái và có sự cải thiện từ -1 lê 2. Cuối cùng với kết quả <dưới, trái>, người chơi 1 có thể chuyển hướng lên trên với sự cải thiện từ -1 lên 3.
Bây giờ chúng ta sẽ sử dụng thuật toán chiến lược hỗn hợp để đưa ra được lời giải; ta có lợi ích dự kiến của người chơi 2 khi chọn trái là:
và lợi ích dự kiến của cô ta khi chọn phải là:
Cho hai giá trị bằng nhau và giải phương trình ta được
→ Vậy người chơi 1 sẽ chọn trên với xác suất 3/5 và dưới với xác suất 2/5 trong MSNE.
Chuyển sang tìm chiến lược hỗn hợp của người chơi 2; Lợi ích dự kiến của người chơi 1 khi chọn trên và khi chọn dưới lần lượt là:
Cho và giải phương trình này ta được
→ Vậy trong MSNE, người chơi 1 chọn trên với xác suất 3/5 và dưới với xác suất 2/5 trong khi đó người chơi 2 chọn trái với xác suất 3/7 và phải với xác suất 4/7.
Dù là chiến lược thống trị đảm bảo rằng người chơi 1 không thể có lợi nhuận lớn hơn khi chuyển sang giữa nhưng hãy thử kiểm ra lại. Lưu ý rằng đảm bảo người chơi 1 sẽ nhận được payoff là 0 nếu chọn giữa.
Anh ta có thể giữ payoff là 0 cho bản thân mình, và chiến lược của người chơi 2 trở nên không thích hợp cho anh ta nếu anh ta chọn giữa. Và kết quả là nếu người chơi 1 không có cách chuyển hướng từ MSNE để chọn giữa như là chiến lược thuần túy thì lợi ích dự kiến của anh ta từ MSNE phải lớn hơn hoặc bằng với 0.
Ta sẽ kiểm tra điều này bằng việc tính xác suất của mỗi kết quả xuất hiện trong MSNE: EUtr iaˊ = (σtr ne^ )(−1) +(1 −σtr ne^ )(2) EUphải = (σtr ne^ )(1) +(1 −σtr ne^ )(−1) EUtr iaˊ =EUph iả σtr ne^ = 3/5 EUtr ne^ = (σtr iaˊ )(3) +(1 −σtr iaˊ )(−1) EUdưới = (σtr iaˊ )(−1) +(1 −σtr iaˊ )(2) EUtr ne^ = EUdưới σtr iaˊ =3/7 EU1 = (3/5)(3/7)(3) + (2/5)(3/7)(−1) + (3/5)(4/7)(−1) + (2/5)(4/7)(2) EU1 = 5/7
Đủ để chắc chắn rằng lợi ích dự kiến của anh ta là 5/7 trong MSNE lớn hơn 0