Các chiến lược hỗn hợp và sự tồn tại cân bằng
5.1 Các chiến lược hỗn hợp
Trong nhiều bài toán trò chơi không tồn tại cân bàng Nash (hoặc tồn tại nhiều hơn một cân bằng Nash), khi đó mỗi đấu thủ không chắc chắn về lựa chọn chiến lược của đấu thủ. Ví dụ như trò chơi đọ xu của hai đấu thủ R và C sau:
Các chiến lược của C
Sấp Ngửa
Các chiến lược của R
Sấp (1; -1) (-1 ; 1)
Ngửa (-1; 1) (1; -1)
Để đi tìm một cân bằng Nash cho trò chơi, mỗi đấu thủ phải xem xét các đấu thủ còn lại lựa chọn chiến lược trong không gian chiến lược thuần túy của họ với một xác suất nào đó.
Như vậy vấn đề bây giờ là đi tìm phân phối xác suất cho mỗi đấu thủ để họ cực đại lợi ích (thu hoạch) kỳ vọng của họ. Nếu tìm được các phân phối xác suất đó thì một cân bằng Nash sẽ lại được thiết lập.
Định nghĩa 5.1: Chiến lược hỗn hợp
Trong trò chơidạng chuẩn n đấu thủ G = {S1, S2, …, Sn; u1, u2, …, un}, giả sử không chiến lược thuần túy của đấu thủ i là Si = {si1, si2, …, siK}. Khi đó một chiến
lược hỗn hợp đối với đấu i được định nghĩa là một phân phối xác suất pi = (pi1, pi2, …, piK) với 0 ≤ pik ≤ 1 và
pi1 + pi2 +… + piK = 1; k = 1, 2, …, K. Trong đó trò chơi đọ xu chiến lược hỗn hợp đối với R là
p1 = (p11, p12) với p11 + p12 = 1; chiến lược hỗn hợp đối với C là
p2 = (p21, p22) với p21 + p22 = 1.
5.2 Thiết lập cân bằng Nash chiến lược hỗn hợp
Xét trò chơi dạng chuẩn có hai đấu thủ G = {S1, S2; u1, u2} tương tự như trò chơi Cuộc chiến giữa hai giới như trong bảng:
Các chiến lược thuần túy của đấu thủ 2
L R
Các chiến lược thuần túy của đấu thủ 1
T (2; 1) (0 ; 0)
B (0; 0) (1; 2)
Giả sử đấu thủ 1 chơi chiến (T, B) với xác suất p1 = (pt, pb) với pt + pb = 1; và đấu thủ 2 chơi chiến (L, R) với xác suất p2 = (pl, pr) với pl + pr = 1. Khi đó, lợi ích kỳ vọng của đấu thủ 1 sẽ là:
v1(p1; p2) = pt[pl.u1(T, L) + pr.u1(T, R)] + pb[pl.u1(B, L) + pr.u1(B, R)] = pt[pl.2 + pr.0] + pb[pl.0 + pr.1] = 2pt.pl + pb.pr
lợi ích kỳ vọng của đấu thủ 2 sẽ là:
v2(p1; p2) = pl[pt.u2(T, L) + pb.u2(B, L)] + pr[pt.u2(T, R) + pb.u2(B, R)] = pl[pt.1 + pb.0] + pr[pt.0 + pb.2] = Pt.pl + 2pb.pr.
Cân bằng Nash chiến lược hỗn hợp đòi hỏi chiến lược hỗn hợp của mỗi đấu thủ là phản ứng tốt nhất đối với chiến lược hỗn hợp của đấu thủ kia, tức là để cặp chiến lược hỗn hợp (p1*; p2*) là một cân bằng Nash thì p1* phải thỏa mãn:
v1(p1*; p2*) ≥ v1(p1; p2*) đối với mọi phân phối xác suất p1 trên S1 và p2* phải thỏa mãn:
v2(p1*; p2*) ≥ v2(p1*; p2) đối với mọi phân phối xác suất p2 trên S2.
Để tìm chiến lược hỗn hợp cân bằng, mỗi đấu thủ phải cực đại hóa lợi ích kỳ vọng của mình. Đấu thủ 1 phải giải bài toán cực trị có điều kiện:
Max (2pt.pl + pb.pr) với (pt, pb) pt + pb = 1; pt ≥ 0 ; pb ≥ 0. Đấu thủ 2 phải giải bài toán cực trị có điều kiện:
Max (Pt.pl + 2pb.pr) với
(pl, pr) pl + pr = 1; pl ≥ 0 ; pr ≥ 0. Giải bài toán thứ nhất: Hàm Lagrange có dạng:
£ = 2pt.pl + pb.pr – λ(pt + pb – 1) + µ1.pt + µ2.pb Từ điều kiện bậc nhất ta có pt. t p L ∂ ∂ = 0; pb. b p L ∂ ∂ = 0; λ. λ ∂ ∂L = 0; µ1. 1 µ ∂ ∂L = 0; µ2. 2 µ ∂ ∂L = 0 hay pt.(2pl – λ + µ1) = 0; pb.(pr – λ + µ2) = 0; -λ.(pt + pb – 1) = 0; µ1.pt = 0; µ2.pb = 0 Do chúng ta đã biết chiến lược thuần túy của đấu thủ 1 nên ở đây chỉ xem xét trường hợp pt > 0 và pb > 0. Suy ra µ1 = 0; µ2 = 0 và 2pl = pr = λ. Mặt khác pl + pr = 1 nên ta tìm được:
pt* = 2/3 và pb* = 1/3.
Tương tự, giải bài toán 2 ta tìm được pl* = 1/3 và pr* = 2/3.
Trường hợp trò chơi chỉ có 2 đấu thủ và không gian chiến lược của mỗi cầu thủ chỉ gồm 2 chiến lược thuần túy như ví dụ trên bài toán có thể giải đơn giản bằng cách rút Pb = 1-pt rồi thế vào hàm mục tiêu (ở bài toán 1) và rút Pr = 1-pl rồi thế vào hàm mục tiêu (ở bài toán 2); bài toán cực trị có điểu kiện trở thành bài toán cực trị tự do; trường hợp số đấu thủ bằng n > 2; hoặc số chiến lược thuàn túy bằng k > 2 bài toán phải giải bằng Phương pháp nhân tử.
Ở Bài toán 1: ta tìm Max (2pt.p
l + pb.pr) = Max[2ptpl + (1-pt).pr] theo Pt . Lấy đạo hàm hàm mục tiêu theo Pt và đặt bằng 0 ta được
2p l – pr = 0. Mặt khác pl = 1 – p r, suy ra pr = 2pt= 2(1-pr) 3p r = 2 hay pr = 2/3;do đó pl = 1/3. Ở Bài toán 2: ta tìm Max (pt.p
l + 2pb.pr) = Max[ptpl + 2pb(1-pl) theo Pl . Lấy đạo hàm hàm mục tiêu theo Pl và đặt bằng 0 ta được
p t – 2pb = 0. Mặt khác pb = 1 – p t, suy ra pt = 2pb= 2(1-pt) => 3p t = 2 hay pt* = 2/3;do đó pb* = 1/3.
Vậy cặp chiến lược hỗn hợp (p1*; p2*) là một cân bằng Nash với P1* = (2/3;
1/3) và P2* = (1/3; 2/3)
Tóm tắt
1. Trong nhiều trò chơi không tồn tại cân bàng Nash (hoặc tồn tại nhiều hơn một cân bằng Nash), khi đó mỗi đấu thủ không chắc chắn về lựa chọn chiến lược của đấu thủ. Mỗi đấu thủ phải xem xét các đấu thủ còn lại lựa chọn chiến lược trong không gian chiến lược thuần túy của họ với một xác suất nào đó. 2. Trong trò chơidạng chuẩn n đấu thủ G = {S1, S2, …, Sn; u1, u2, …, un}, giả sử
không gian chiến lược thuần túy của đấu thủ i là Si = {si1, si2, …, siK}. Khi đó một chiến lược hỗn hợp đối với đấu i được định nghĩa là một phân phối xác suất pi = (pi1, pi2, …, piK) với 0 ≤ pik ≤ 1 và pi1 + pi2 +… + piK = 1; k = 1, 2, .., K.
3. Cân bằng Nash chiến lược hỗn hợp đòi hỏi chiến lược hỗn hợp của mỗi đấu thủ là phản ứng tốt nhất đối với chiến lược hỗn hợp của đấu thủ kia, tức là để cặp chiến lược hỗn hợp (p1*; p2*) là một cân bằng Nash thì p1* phải thỏa mãn:
v1(p1*; p2*) ≥ v1(p1; p2*)
v2(p1*; p2*) ≥ v2(p1*; p2) đối với mọi phân phối xác suất p2 trên S2.
Bài toán được giải bằng phương pháp nhân tử Lagrange.
Bài tập
1. Trên một thị trường chỉ có hai hãng A và B.sản xuất cùng một loại sản phẩm. Mỗi hàng đều có hai chiến lược thuần túy là: Sản xuất hàng hóa của mình cho tiêu dùng trực tiếp hoặc sản xuất cho thị trường của một ngành công nghiệp. Nếu cả hai hãng đều sử dụng chiến lược giống nhau thì lợi nhuận của mỗi hãng đều bằng 0. Nếu hãng A chọn chiến lược sản xuất hàng hóa của mình cho tiêu dùng còn hãng B chọn chiến lược sản xuất cho thị trường của ngành công nghiệp thì mỗi hãng thu được lợi nhuận 10 triệu $ mỗi năm. Nếu hãng A chọn chiến lược sản xuất hàng hóa của mình cho thị trường của ngành công nghiệp còn hãng B chon chiến lược sản xuất cho tiêu dùng thì mỗi hãng thu được lợi nhuận 5 triệu $ mỗi năm.
a)Hãy mô tả dạng ma trận của trò chơi. b)Tìm cân bằng Nash của trò chơi.
c)Tìm cân bằng Nash chiến lược hỗn hợp của trò chơi này.
2. Hai công ty thức ăn buổi sáng bằng ngũ cốc đang đứng trước một thị trường trong đó hai loại thực phẩm mới bằng ngũ cốc có thể được đưa ra một cách thành công chừng nào mà mỗi hãng chỉ đưa ra một loại. Loại thực phẩm mới bằng ngũ cốc ngọt ăn khách hơn loại mới bằng ngũ cốc dòn, đưa lại một lợi nhuận là 20 triệu $ , còn loại ngũ cốc dòn là 10 triệu $ (có lẽ vì những người tiêu dùng thích các món ngọt hơn các món dòn). Nếu hai hãng cùng đưa ra một loại thực phẩm thì mỗi hãng sẽ lỗ 5 triệu $.Giả dụ cả hai hãng, do không biết các ý đồ của nhau, phải công bố các quyết định của mình một cách độc lập và trong cùng một lúc.
a)Hãy mô tả dạng ma trận của trò chơi. b)Tìm cân bằng Nash của trò chơi.
3. Trên một thị trường chỉ có hai hãng A và B, mỗi hãng .sản xuất một loại hàng hóa là hàng hóa bổ sung cho sản phẩm của hãng kia, sản phẩm của chúng được đưa đến bán tại hai địa điểm C và D. Nếu hai hãng cùng bán ở địa điểm C thì lợi nhuận của hãng thứ nhất là 6 nghìn $ mỗi tuần, của hãng thứ hai là 4 nghìn $ mỗi tuần. Do chi phí vận chuyển đến hai địa điểm của hai hãng là khác nhau nên nếu hai hãng cùng bán ở địa điểm D thì lợi nhuận của hãng thứ nhất là 4 nghìn $ mỗi tuần, của hãng thứ hai là 6 nghìn $ mỗi tuần. Nếu mỗi hãng bán sản phẩm ở một địa điểm khác nhau thì cả hai đều có lợi nhuận bằng 0.
a) Hãy mô tả dạng ma trận của trò chơi này. b) Tìm cân bằng Nash của trò chơi này.
c) Tìm cân bằng Nash chiến lược hỗn hợp của trò chơi này.
4. Trên một thị trường chỉ có hai hãng A và B.sản xuất cùng một loại sản phẩm. Mỗi hàng đều có hai chiến lược thuần túy là: Sản xuất hàng hóa của mình cho tiêu dùng trực tiếp hoặc sản xuất cho thị trường của một ngành công nghiệp. Nếu cả hai hãng đều sử dụng chiến lược giống nhau thì lợi nhuận của mỗi hãng đều bằng 0. Nếu hãng A chọn chiến lược sản xuất hàng hóa của mình cho tiêu dùng còn hãng B chon chiến lược sản xuất cho thị trường của ngành công nghiệp thì mỗi hãng thu được lợi nhuận 30 triệu $ mỗi năm. Nếu hãng A chọn chiến lược sản xuất hàng hóa của mình cho thị trường của ngành công nghiệp còn hãng B chon chiến lược sản xuất cho tiêu dùng thì mỗi hãng thu được lợi nhuận 20 triệu $ mỗi năm.
a)Hãy mô tả dạng ma trận của trò chơi này. b)Tìm cân bằng Nash của trò chơi này.
Chương 6