Lý thuyết trò chơi gametheory được xem như là một nhánh của toán học ứng dụng và kinh tế họcứng dụng nhằm nghiên cứu về các tình huống trong đó các bên tham gia tròchơi áp dụng những chi
Lý thuyết trò chơi
Giới thiệu Lý thuyết trò chơi
1.1 Giới thiệu Lý thuyết trò chơi Lý thuyết trò chơi bắt đầu hình thành và được áp dụng từ những ngày đầu của Thế chiến thứ hai, khi các lực lượng hải quân Anh chơi trò mèo vờn chuột với các tàu chiến ngầm của phát xít Đức và họ muốn nắm rõ hơn về trò chơi để có thể thắng được nhiều hơn Họ đã khám phá ra rằng những bước đi đúng hóa ra lại không phải là những gì mà các hoa tiêu và thuyền trưởng vẫn làm dựa vào trực giác của mình Bằng cách áp dụng những khái niệm về sau được biết đến như lý thuyết trò chơi, người Anh đã có thể cải thiện thành tích bắn trúng đích của mình lên đáng kể Thắng lợi đối với các tàu ngầm của địch đã cho phép họ tiếp tục áp dụng lý thuyết trò chơi vào các hoạt động khác trong chiến tranh Như vậy, có thể nói lý thuyết trò chơi đã chứng tỏ được mình trong những tình huống sống còn trên thực tế trước khi nó được viết ra giấy và trở thành một lý thuyết mang tính hệ thống [6].
Lý thuyết trò chơi chưa thực sự tồn tại cho đến khi nhà toán học John VonNeumann và nhà kinh tế Oscar Morgenstern xuất bản cuốn sách Lý thuyết trò chơi và các hành vi kinh tế vào năm 1944, tác phẩm này chứa đựng lời giải tối ưu cho những trò chơi tổng bằng không với trò chơi hai người Từ đó dẫn đến một số lượng lớn các công trình kĩ thuật được viết ra trong các lĩnh vực kinh tế, chính trị, chiến lược quân sự, luật, công nghệ thông tin, sinh học, Trong mỗi lĩnh vực kể trên, lý thuyết trò chơi lại đưa ra những khám phá quan trọng.
Vào năm1950 John Nash đã phát biểu một định nghĩa về một chiến thuật tối ưu cho trò chơi với nhiều người chơi và nó được biết đến như một cân bằng Nash Cân bằng này là đủ tổng quát giúp chúng ta bước ra bên ngoài những ý tưởng giản đơn về cạnh tranh và hợp tác để đạt đến tầm nhìn của cạnh tranh hợp tác hay để đưa cạnh tranh và hợp tác lại gần nhau hơn - một tầm nhìn phù hợp hơn với các cơ hội trong thời đại chúng ta.
Vào năm 1965, Reinhard Selten giới thiệu khái niệm lời giải của các cân bằng lí tưởng của các trò chơi con, làm chính xác thêm cân bằng Nash Vào năm 1967, John Harsanyi phát triển các khái niệm thông tin đầy đủ và trò chơi Bayesian Năm 1994 ba nhà tiên phong trong lý thuyết trò chơi là John Nash, John Harsanyi, Reinhard Selten đã được nhận giải Nobel về kinh tế.
Trong những năm 1970, lý thuyết trò chơi được áp dụng rộng rãi vào sinh học chủ yếu là do kết quả của các công trình của John Maynard Smith và chiến lược tiến hóa bền vững của ông.
Thomas Schelling đã tạo ra các mô hình động và các ví dụ ban đầu của lý thuyết tiến hóa trò chơi và Robert Aumann đóng góp thêm vào trường cân bằng (equilibrium school), phát triển một cân bằng làm thô đi những cân bằng liên quan nhau và phát triển các phân tích chi tiết về giả sử của các kiến thức chung Với những thành tựu đó, vào năm 2005 hai nhà lý thuyết gia trò chơi này đạt giải thưởng Nobel về kinh tế.
Biễu diễn trò chơi
1 N là tập hợp những người chơi trong trò chơi 2 Các chiến lược có thể thực hiện mỗi người chơi
3 Mức thưởng phạt nhận được của mỗi người chơi cho mỗi sự kết hợp các chiến lược có thể được chọn bởi người chơi đó.
Trò chơi N người chơi gồm N người được đánh số từ 1 đến N, gọi người thứ i là người chơi i Tập S i là tập hợp các chiến lược người chơi i có thể thực hiện (hay không gian chiến lược của người chơi i), si là một phần tử của tập này Bộ (s 1 , , s N ) là tổ hợp các chiến lược tương ứng của mỗi người chơi, hàm u i : S 1 ×S 2 × ×S N −→R cho mức thưởng phạt của người chơi i, do đó ui(s1, , sN) là mức thưởng phạt nếu tất cả người chơi chọn chiến lược tương ứng (s 1 , , s N ).
Dạng chuẩn tắc của một trò chơi N người chơi được đặc trưng bởi những không gian chiến lược của từng người chơi S 1 , , S N và các hàm thưởng phạt của họ u 1 , , u N Kí hiệu của một trò chơi là G = {S 1 , , S N ;u 1 , , u N }.
Thông thường 3 thành phần này thường được biểu diễn trong một bảng kết hợp.
Ví dụ 1 Một trò chơi có 2 đối thủ: một người chọn hàng, một người chọn cột Mỗi đối thủ có 2 chiến lược: S1 = { trên, dưới } và S2 = { trái, phải },mỗi chiến lược được biểu diễn bởi số hiệu hàng hoặc số hiệu cột của nó Mức thưởng phạt ghi trong ô đó Trong ô thưởng phạt có 2 giá trị: giá trị đầu là mức thưởng phạt cho đối thủ chơi theo hàng (đối thủ 1), giá trị thứ hai là mức thưởng phạt cho đối thủ chơi theo cột (đối thủ 2) Ví dụ: đối thủ 1 chọn di chuyển lên đồng thời đối thủ 2 chọn di chuyển sang trái thì đối thủ 1 sẽ
−3 điểm còn đối thủ 2 cũng sẽ −3 điểm.
Di chuyển sang trái Di chuyển sang phải
Tuy nhiên trò chơi này cũng có biễu diễn theo 2 ma trận riêng lẻ:
Ma trận thưởng phạt cho đối thủ 1:
Di chuyển sang trái Di chuyển sang phải
Ma trận thưởng phạt cho đối thủ 2:
Di chuyển sang trái Di chuyển phải
Khi một trò chơi được biểu diễn dưới dạng chuẩn tắc, giả định là mỗi đối thủ đưa ra quyết định hành động của mình đồng thời hoặc không có thông tin về hành động của đối phương.
1.2.2 Biễu diễn trò chơi dạng mở rộng Dạng mở rộng được biểu diễn dưới dạng "cây trò chơi" Hầu hết các tình huống trong thực tế có nhiều cách ra quyết định và mỗi cách như vậy lại có nhiều khả năng để lựa chọn và nếu chỉ dùng trí nhớ thì khó nhớ hết được các khả năng đó Chúng ta cần một công cụ hiệu quả hơn để suy luận ngược lại bài toán và giúp chúng ta có cái nhìn tổng quát hơn Công cụ đó chính là
"cây trò chơi" Như vậy "cây trò chơi " chỉ ra thứ tự các quyết định trong trò chơi.
Mỗi đỉnh biểu diễn các khả năng mà người chơi có thể lựa chọn Người chơi được chỉ rõ bằng một con số ghi trên đỉnh, các đoạn thẳng đi ra từ đỉnh đó biểu diễn các khả năng có thể của người chơi đó Mức thưởng phạt được ghi rõ tại đáy cạnh Một cạnh từ một đỉnh u đến một đỉnh v kế tiếp (v được vẽ dưới u ) chỉ một bước đi có thể có trong trò chơi Những đỉnh mà không có đỉnh kế tiếp trong cây được gọi là các đỉnh cuối hay các lá.
Như vậy, trong dạng mở rộng này thì các đối thủ có thông tin về sự lựa chọn của các đối thủ khác Và chúng ta sẽ sử dụng thông tin trên cây đồ thị để dự đoán tất cả các bước đi trong tương lai và suy ngược lại những quyết định ban đầu.
Ví dụ 2 ( Cây trò chơi )[7]
Giả sử thị trường máy hút bụi ở Cu - Ba đang bị chi phối bởi nhãn hiệu Fastcleaner (F) và một công ty mới có tên Newcleaner (N) đang xem xét có nên nhảy vào thị trường này hay không? Nếu N tham gia thì F có hai lựa chọn: dàn xếp với N hoặc chiến tranh giá cả Giả sử F dàn xếp với N khi N tham gia thị trường thì N sẽ có lợi nhuận 100.000 đô la, nếu cạnh tranh giá cả thì N sẽ mất 200.000 đô la Nếu N không nhảy vào thị trường Cuba thì lợi nhuận của công ty N sẽ là 0.
Chúng ta sẽ mô tả bài toán này bằng "cây trò chơi":
Hình 1.1: Ví dụ về cây trò chơi
Các loại trò chơi
Theo cách phân loại thứ ba dựa trên thời gian hành động của người chơi, có hai loại trò chơi: tĩnh và động Kết hợp với cách phân chia thứ hai dựa trên lượng thông tin, có 4 dạng trò chơi: động đầy đủ thông tin, tĩnh đầy đủ thông tin, tĩnh không đầy đủ thông tin và động không đầy đủ thông tin Thứ tư, dựa trên tổng kết quả của người chơi, trò chơi được chia thành hai loại: không tổng bằng không và tổng khác không.
1.3.1 Trò chơi tổng bằng không và trò chơi tổng khác không Để hiểu rõ hơn về hai loại trò chơi này, ta chỉ xét các trò chơi hai người tham gia Với S i , i ∈ {1,2} là tập các chiến lược của hai người chơi và hàm thưởng phạt ui : S1 × S2 −→ R Nếu hai người chơi lần lượt chọn các chiến lược s 1j , s 2k thì mức thưởng phạt của hai người lần lượt là u 1 (s 1j , s 2k ), u 2 (s 1j , s 2k ), j = 1, , m;k = 1, , n. Để thuận tiện, ta có thể biểu diễn trò chơi dưới dạng một ma trận m×n:
• m là số phương án của người chơi 1
• n là số phương án của người chơi 2 a Trò chơi tổng bằng không Trò chơi hai đối thủ với tổng bằng không là trò chơi mà số thu hoạch của người này bằng sự tổn thất của người kia hay nói cách khác tổng điểm của những người chơi trong ván chơi luôn bằng không Cờ vua là một trò chơi có tổng bằng không bởi không thể có trường hợp cả hai bên đều thắng hoặc đều thua Nếu một bên thắng thì bên kia nhất định là thua và ngược lại.
Thể thao là những ví dụ điển hình nhất của trò chơi có tổng bằng không.
Nhà vô địch chỉ có thể đạt được vinh quang khi toàn bộ các đối thủ khác đều thua cuộc Trong một giải bóng đá tổng số trận thắng luôn bằng tổng số trận thua cũng là bởi cái tính chất tổng bằng không ấy Đầu tư kinh doanh chứng khoán cũng là một trò chơi có tổng bằng không, bởi vì ở đó, số tiền thua lỗ của nhà đầu tư này sẽ là tiền lãi của nhà đầu tư khác Nhà đầu tư có thể mất trắng hoặc thắng lớn, lợi nhuận mà anh ta thu được có thể đổi bằng cả gia tài.
Như vậy trong trò chơi tổng bằng không ta có: u 1 (s 1j , s 2k ) +u 2 (s 1j , s 2k ) = 0, ∀s 1j ∈ S 1 , s 2k ∈ S 2
Chú ý A 2 = −A 1 nên ta giả sử chỉ có một hàm u(s 1j , s 2k ) và cũng chỉ có một ma trận A = A1 Như vậy trò chơi hai người tổng bằng không được biểu diễn bởi:
Với ajk = u(s1j, s2k) Khi đó a jk là lợi nhuận thu được của người chơi 1 ( tương ứng là tổn thất của người chơi 2) khi người chơi 1 chọn chiến lược thứ j còn người chơi 2 chọn chiến lược thứ k và A là ma trận lợi nhuận của người chơi 1 (hay ma trận tổn thất của người chơi 2).
Ví dụ 3 Trong một trận đấu bóng đá mức thưởng phạt được tính bằng diện tích lấn sân hay diện tích bị lấn sân Trong đó có hai bên chơi: bên tấn công (P 1 ) và bên phòng thủ (P 2 ) Mối quan tâm của bên tấn công là lấn càng nhiều sân càng tốt trong khi đó mục tiêu của bên phòng thủ là giữ cho đối thủ chiếm càng ít sân càng tốt Giả sử bên tấn công có hai chiến lược lựa chọn:
S 1 = { dắt bóng, chuyền bóng } Bên phòng ngự có ba chiến lược lựa chọn:
S 2 = { chống dắt bóng, chống chuyền bóng, phản công chớp nhoáng }Chúng ta tính toán phần diện tích sân mà bên tấn công đạt được cho mỗi sự kết hợp chiến lược trong số 6 khả năng có thể xảy ra Và diện tích lấn sân của bên tấn công cũng chính là phần diện tích bị lấn sân của bên phòng thủ. Ở đây ta có: u(dắt bóng, chống dắt bóng)= (−3,3) u(dắt bóng, chống chuyền bóng)= (9,−9) u(dắt bóng, phản công)=(−5,5) u(chuyền bóng, chống dắt bóng)= (4,−4) u(chuyền bống, chống chuyền bóng)= (−3,3) u(chuyền bóng, phản công)= (6,−6)
Bên tấn công chọn cột, bên phòng thủ chọn dòng thì bài toán này được tóm gọn trong bảng sau đây:
Chống dắt bóng Chống chuyền bóng Phản công
Bên tấn công cố gắng bằng mọi cách để diện tích lấn sân là lớn nhất.
Trong khi bên phòng thủ cố gắng giữ sao cho con số đó là nhỏ nhất.
Trò chơi tổng bằng không là tình huống trong đó tổng lợi nhuận của tất cả những người tham gia bằng không, nghĩa là lợi nhuận của người này chính là thiệt hại của người kia Tuy nhiên, trong thực tế, nhiều tình huống không phải là trò chơi tổng bằng không, chẳng hạn như trong kinh tế, nơi giá trị có thể được tạo ra, phá hủy hoặc phân phối theo nhiều cách khác nhau, mang lại lợi nhuận hoặc mất mát cho nhiều bên liên quan Trong những trường hợp như vậy, các giao dịch chỉ xảy ra khi chúng có lợi cho cả hai bên, vượt quá chi phí giao dịch.
Như vậy trong trò chơi tổng khác không ta có: u1(s1j, s2k) +u2(s1j, s2k) =c, ∀s 1j ∈ S1, s2k ∈ S2 với c là một hằng số.
Ví dụ 4 (Trò chơi "Chicken") Xem xét trò chơi 2 người: hai chiếc xe đối mặt với nhau và bắt đầu lái xe hướng về nhau Người đầu tiên tách ra bị mất 1 điểm, người còn thắng 1 điểm Nếu cả hai cùng tách ra thì mỗi người nhận 0 điểm Nếu cả hai đều không tách ra thì một vụ tai nạn rất xấu xảy ra và cả hai mất 10 điểm Ta xem các chiến lược cho người 1 là các dòng trong khi của người 2 là các cột.
Tách ra Không tách ra
Không tách ra 1,-1 -10,-10 Đây là trò chơi có tổng khác không.
1.3.2 Trò chơi hợp tác và trò chơi bất hợp tác Trong trò chơi hợp tác những người chơi có khả năng cùng nhau lập chương trình (kế hoạch) hành động từ trước đồng thời cũng có khả năng chế tài được những thỏa thuận này Còn trong trò chơi bất hợp tác, những người chơi không thể tiến tới một hợp đồng trước khi hành động, hoặc nếu có hợp đồng thì những hợp đồng này khó có thể được chế tài
1.3.3 Trò chơi tĩnh và trò chơi độngTrong các trò chơi tĩnh các đối thủ thực hiện các nước đi một cách đồng thời, hoặc nếu không thì đối thủ này không biết về các hành động trước đó của các đối thủ khác Và kết quả cuối cùng của mỗi người phụ thuộc vào phối hơp hành động của tất cả mọi người Còn trong các trò chơi động người đi sau có biết một số (nhưng không nhất thiết toàn bộ ) thông tin về các nước đi trước Một ví dụ cổ điển về loại trò chơi này là bài toán "Người tù Dilemma" sẽ được giới thiệu ở chương 2.
Trò chơi động diễn ra trong nhiều giai đoạn, và một số người chơi sẽ phải hành động ở mỗi một giai đoạn Trò chơi động khác với trò chơi tĩnh ở một số khía cạnh quan trọng Thứ nhất, trong trò chơi động, thông tin mà mỗi người chơi có được về những người chơi khác rất quan trọng Một người có thông tin đầy đủ khi người ấy biết kết quả (payoff) của những người chơi khác Còn một người có thông tin hoàn hảo nếu như tại mỗi bước phải ra quyết định (hành động), người ấy biết được toàn bộ lịch sử của các bước đi trước đó của trò chơi Thứ hai, khác với các trò chơi tĩnh trong trò chơi động mức độ đáng tin cậy (credibility ) của những lời hứa hay đe dọa là yếu tố then chốt [10]
1.4 Ứng dụng trong một số lĩnh vực của lý thuyết trò chơi 1.4.1 Ứng dụng trong lĩnh vực sinh học
Trong sinh học, thuật ngữ lợi ích của các trò chơi thường tương ứng với sự thích nghi Khái niệm hợp lý ít được chú trọng hơn, thay vào đó là tập trung vào những gì có thể duy trì bởi lực tiến hóa Chiến lược Tiến hóa Bền vững (ESS) do John Maynard Smith đề xuất là cân bằng nổi bật nhất trong lĩnh vực sinh học Lý thuyết trò chơi đã được ứng dụng trong sinh học để lý giải nhiều hiện tượng khác nhau, đặc biệt là giải thích sự tiến hóa và sự bền vững của tỷ lệ giới tính cân bằng.
Ngoài ra, các nhà sinh vật học đã sử dụng lý thuyết trò chơi tiến hóa và ESS để lý giải sự hình thành liên lạc giữa muôn thú (Maynard Smith và Harper, 2003) Phân tích trò chơi tín hiệu và các trò chơi liên lạc khác cung cấp trực quan về quá trình tiến hóa của sự liên lạc giữa muôn thú.
Cuối cùng, các nhà sinh vật đã sử dụng trò chơi "diều hâu- bồ câu" để phân tích những hành vi đánh nhau và tranh giành lãnh thổ.
1.4.2 Ứng dụng trong lĩnh vực kinh tế và kinh doanh Các nhà kinh tế học đã sử dụng lý thuyết trò chơi để phân tích một diện rộng các hiện tượng kinh tế trong đó có đấu giá, mặc cả, duopoly, oligopoly, các tổ chức mạng lưới xã hội và bầu cử Nghiên cứu này thường tập trung vào một tập cụ thể các chiến lược được biết với tên các trạng thái cân bằng trong trò chơi Nổi tiếng nhất là cân bằng Nash của nhà toán học John Nash [8].
1.4.3 Ứng dụng trong lĩnh vực chính trị
Các nghiên cứu trong khoa học chính trị cũng sử dụng lý thuyết trò chơi.
Chiến lược thuần túy, chiến lược hỗn hợp của trò chơi
Cho Si = {s i1 , si2, , sir i } là tập hợp hữu hạn và ri = |S i | Một chiến lược hỗn hợp cho người chơi i là một hàm phân phối xác suất σ i rời rạc trên S i
Và P i là không gian của tất cả các chiến lược σ i của người i hay X i
(1.1) 1.5.2 Chiến lược thuần túy của trò chơi Định nghĩa 3 [4]
,0, 0) thì σ i được gọi là chiến lược thuần túy thứ i cho người chơi.
Cho bất kì σ i ∈ P i thì thành phần thứ q của nó là σ iq (thường kí hiệu σi(siq)) là xác suất mà người i áp dụng chiến lược thuần túy siq khi chọn chiến lược hỗn hợp σ i
Tập hợp các chiến lược hỗn hợp của N người chơi là:
Sau này chúng ta sẽ kí hiệu : s −i = (s 1 , , s i−1 , s i+1 , , s N ) ui(s1, , sN) =ui(si, s−i) σ −i = (σ 1 , , σ i−1 , σ i+1 , , σ N )S −i = S 1 × ×S i−1 ×S i+1 ×S N
Xét một trò chơi hai người, người 1 chọn dòng và người 2 chọn cột Đầu Đuôi Đầu -1,1 1,-1 Đuôi 1,-1 -1,1
Trong trò chơi này, chiến lược của người chơi Si gồm hai lựa chọn: đầu hoặc đuôi Người chơi i có thể áp dụng chiến lược hỗn hợp với xác suất q để chơi đầu và 1-q để chơi đuôi, trong đó 0 ≤ q ≤ 1 Hai chiến lược hỗn hợp đơn giản nhất là (0,1) chỉ chơi đuôi và (1,0) chỉ chơi đầu.
Xét một trò chơi hai người, người 1 chọn dòng và người 2 chọn cột
Trái Giữa Phải Trên 1,0 1,2 0,1 Dưới 0,3 0,1 2,0 Người chơi 2 có 3 chiến lược thuần túy trái, giữa và phải Một chiến lược hỗn hợp cho người chơi 2 là một phân phối xác suất (q, r,1−q −r), với q là xác suất chơi trái, r là xác suất chơi giữa, và 1−q −r là xác suất chơi phải với 0 ≤ q ≤ 1,0 ≤ r ≤ 1,0 ≤ q + r ≤ 1 Trong trò chơi này, chiến lược hỗn hợp (1
3) đặt xác suất cân bằng vào trái, giữa và phải Còn (1
2,12,0) đặt xác suất cân bằng vào trái, giữa nhưng không có xác suất cho phải Chiến lược thuần túy trái của người chơi 2 là trường hợp đơn giản cho chiến lược hỗn hợp (1,0,0). Định nghĩa 4 (Chiến lược áp đảo )[5]
Trong trò chơi dạng chuẩn tắc G = {S 1 , , S N ;u 1 , , u N }, cho s 0 i ∈ S i và s 00 i ∈ Si Chiến lược s 0 i ∈ Si áp đảo chiến lược s 00 i ∈ Si nếu trong mỗi chiến lược kết hợp với những người chơi khác, mức thưởng phạt của người chơi i khi chơi chiến lược s 0 i lớn hơn hoặc bằng mức thưởng phạt khi chơi chiến lược s 00 i : u i (s 1 , , s i−1 , s 0 i , , s N ) ≥ u i (s 1 , , s i−1 , s 00 i , , s N ) (1.2)
Mỗi bộ chiến lược (s 1 , , s i−1 , s i+1 , s N ) được xây dựng từ các không gian chiến lược
(S 1 , , S i−1 , S i+1 , , S N ) của những người chơi khác.
Chiến lược s0i ∈ Si áp đảo chiến lược s00i ∈ Si khi thỏa mãn điều kiện ui(s1, , si-1, s0i, , sN) > ui(s1, , si-1, s00i, , sN) (1.3) Theo đó, chiến lược áp đảo chiến lược bị áp đảo và chiến lược bị áp đảo ngặt.
Trong trò chơi dạng chuẩn tắc G = {S 1 , , S N ;u 1 , , u N }, cho s 0 i ∈ S i và s 00 i ∈ S i Chiến lược s 0 i ∈ S i bị áp đảo bởi chiến lược s 00 i ∈ S i nếu trong mỗi chiến lược kết hợp với những người chơi khác, mức thưởng phạt của người chơi i khi chơi chiến lược s 0 i bé hơn hoặc bằng mức thưởng phạt khi chơi chiến lược s 00 i : ui(s1, , si−1, s 0 i , , sN) ≤ ui(s1, , si−1, s 00 i , , sN) (1.4)
Mỗi bộ chiến lược (s1, , s i−1 , si+1 , sN) được xây dựng từ các không gian chiến lược (S 1 , , S i−1 , S i+1 , , S N ) của những người chơi khác.
Tương tự, chiến lược s 0 i ∈ S i bị áp đảo ngặt bởi chiến lược s 00 i ∈ S i nếu u i (s 1 , , s i−1 , s 0 i , , s N ) < u i (s 1 , , s i−1 , s 00 i , , s N )
Như vậy một chiến lược bị áp đảo nếu tồn tại một chiến lược s 00 i áp đảo ngặt nó
Trò chơi tĩnh với thông tin đầy đủ, trò chơi tĩnh với thông tin không đầy đủ
Trò chơi tĩnh với thông tin đầy đủ
Chúng ta bắt đầu với hai người chơi ( mọi việc mà chúng ta làm cho trò chơi hai người đều có thể mở rộng cho ba hoặc nhiều người chơi) Quá trình cụ thể của trò chơi này như sau:
(1) Người chơi 1 chọn một hành động s1j từ tập hợp các hành động khả thiS 1 Đồng thời người chơi 2chọn một hành động s 2k từ tập hợp các hành động khả thi S 2
(2) Sau khi những người chơi chọn hành động của mình, họ nhận được các mức thưởng phạt của mình: u 1 (s 1j , s 2k ) cho người chơi 1 và u 2 (s 1j , s 2k ) cho người chơi 2
Một ví dụ cổ điển của loại trò chơi di chuyển đồng thời này là Bài toán người tù
Ví dụ 8 (Bài toán người tù) Hai tên tội phạm bị bắt với cùng một tội danh nhưng cảnh sát chưa tìm đủ chứng cứ để kết tội hai người này trừ khi ít nhất một người nhận tội Cảnh sát giam họ vào 2 phòng riêng không cho họ trao đổi thông tin cho nhau và đưa cho họ yêu cầu như sau: nếu cả 2 cùng nhận tội thì mỗi người sẽ ngồi tù 6 tháng Nếu cả hai đều không nhận tội thì mỗi người sẽ bị giữ thêm 1 tháng để tìm thêm chứng cứ Nếu chỉ một người khai còn người kia ngoan cố không khai thì người khai sẽ được thả còn người kia sẽ bị giam 9 tháng Trò chơi này được biểu diễn dưới bảng sau:
Khai Không khai Khai -6,-6 0,-9 Không khai -9,0 -1,-1
Trong trò chơi này mỗi người chỉ có 2 chiến lược lựa chọn và chiến lược áp ảo sẽ là chiến lược tốt nhất Với người chơi 1 thì chiến lược "khai" tốt hơn(áp đảo) "không khai" dù người chơi 2 chọn quyết định thế nào vì −6> −9 và 0 > −1 Còn với người chơi 2 cũng vậy, chiến lược "khai" tốt hơn (áp đảo) "không khai" dù người chơi 1 chọn quyết định thế nào vì −6 > −9 và0 > −1 Nói cách khác đối với cả 2 người thì chiến lược " khai " là chiến lược áp đảo so với chiến lược " không khai " Vậy chiến lược áp đảo của trò chơi này là " (khai, khai) ".
2.1.1 Phương pháp loại bỏ các chiến lược bị áp đảo Trong những bài toán lớn hơn (nhiều người chơi, nhiều chiến lược hơn) ta sẽ loại bỏ những chiến lược bị áp đảo để tìm ra chiến lược áp đảo Hay những trò chơi ma trận lớn có thể giảm kích thước bằng cách bỏ đi các dòng và các cột mà không tốt cho người chơi khi sử dụng chúng.
Loại bỏ các chiến lược bị áp đảo ra khỏi tính toán và tiếp tục như vậy một cách lần lượt sẽ được thể hiện trong các ví dụ sau:
Xét trò chơi 2 người chơi, người 1 chọn dòng và người 2 chọn cột
Trái Giữa Phải Trên 1,0 1,2 0,1 Dưới 0,3 0,1 2,0
Trong trò chơi này người chơi 1 có hai chiến lược S 1 = { Trên, dưới } và người chơi 2 có ba chiến lược S 2 = { Trái, giữa, phải } Với người chơi 1 thì cả "trên" và "dưới" đều không phải là chiến lược bi áp đảo vì :
• "Trên" tốt hơn "dưới" nếu người chơi 2 chọn "trái" và "giữa" (vì 1 > 0)
• "Dưới" tốt hơn "trên" nếu người chơi 2 chọn "phải" (vì 2 > 0)
Người chơi 1 có thể loại trừ khả năng người chơi 2 chọn "phải" khỏi không gian chiến lược của họ Điều này là do chiến lược "giữa" trội hơn "phải", nên người chơi 2 không có lý do gì để chọn "phải" Do đó, trò chơi được đơn giản hóa thành một bảng gồm một dòng duy nhất.
Trái GiữaTrên 1,0 1,2Dưới 0,3 0,1 Ở bảng này "dưới" bị áp đảo ngặt bởi "trên" cho người chơi 1 Do đó người chơi 1 sẽ không chơi "dưới" Người chơi 2 biết người 1 sẽ đi như vậy và cũng biết người 1 sẽ biết người chơi 2 sẽ đi bước tiếp theo nên 2 sẽ loại
"dưới" ra khỏi không gian chiến lược của người 1 Khi đó bài toán được rút gọn lại trong bảng sau:
Trái Giữa Trên 1,0 1,2 Bây giờ "trái" bị áp đảo ngặt bởi "giữa" với người chơi 2 nên (trên, giữa) là chiến lược áp đảo của bài toán này.
Tuy nhiên phương pháp loại bỏ những chiến lược bị áp đảo ngặt này không đơn giản trong những bài toán phức tạp vì nhiều khi loại bỏ hết những chiến lược bị áp đảo ngặt vẫn chưa tìm được chiến lược áp đảo Phương pháp này có hai bất lợi.
• Thứ nhất, các bước đòi hỏi một giả thuyết mạnh hơn về những người chơi dự đoán nước đi của mỗi người chơi khác Nếu chúng ta muốn áp dụng qui trình cho một số bước bất kì, chúng ta cần giả định kiến thức chung là những người chơi đều là có lý Chúng ta không những giả định tất cả những người chơi là có lý mà còn tất cả những người chơi đều biết điều đó.
• Thứ hai, phương pháp loại bỏ những chiến lược bị áp đảo ngặt thường nảy sinh những dự đoán không chính xác về lối chơi của trò chơi Chúng ta có thể xem xét trò chơi sau:
Ví dụ 10 Xét một trò chơi hai người chơi, người 1 chọn dòng và người
Trái Giữa Phải Trên 0,4 4,0 5,3 Giữa 4,0 0,4 5,3 Dưới 3,5 3,5 6,6 Trong trò chơi này không có chiến lược bị áp đảo ngặt bị loại bỏ.
Xuất phát từ những hạn chế này mà Nash đã đưa ra cân bằng Nash, đó là khái niệm nghiệm mạnh hơn phương pháp lặp loại bỏ các chiến lược bị áp đảo ngặt.
2.1.2 Cân bằng Nash Để tìm hiểu khái niệm cân bằng Nash, chúng ta cần hiểu rằng nếu lý thuyết trò chơi cung cấp một nghiệm duy nhất thì nghiệm đó phải là cân bằng Nash theo nghĩa sau đây: giả định rằng lý thuyết trò chơi tạo ra một dự đoán duy nhất về chiến lược mà mỗi người chơi phải chọn Để giả định này đúng thì điều cần thiết là mỗi người chơi phải sẵn sàng chọn chiến lược được dự đoán bởi lý thuyết Do đó, mỗi chiến lược được dự đoán của người chơi phải là phản ứng tốt nhất của người chơi đó đối với những chiến lược được dự đoán của những người chơi khác Một dự đoán như vậy có thể được gọi ổn định về mặt chiến lược vì không người chơi đơn phương nào muốn tách ra khỏi chiến lược được dự đoán của họ. Định nghĩa 6 (Cân bằng Nash cho các chiến lược thuần túy)[2]
Trong trò chơi dạng chuẩn tắc n người chơi G = {S 1 , , S N ;u 1 , , u N }, các chiến lược (s ∗ 1 , , s ∗ N ) là một cân bằng Nash nếu với mỗi người chơi i nào đó thì s ∗ i là phản ứng tốt nhất của người chơi i đối với các chiến lược của N −1 người chơi còn lại {s ∗ 1 , s ∗ 2 , , s ∗ i−1 , s ∗ i+1 , , s ∗ N } : u i (s ∗ 1 , , s ∗ i−1 , s ∗ i , s ∗ i+1 , , s ∗ N ) ≥ u i (s ∗ 1 , , s ∗ i−1 , s i , s ∗ i+1 , , s ∗ N ) (2.1) với mọi chiến lược khả thi s i ∈ S i
Nói cách khác u i (s ∗ i , s ∗ −i ) ≥ u i (s i , s ∗ −i ) Về mặt toán học s ∗ i là nghiệm của bài toán : maxs i ∈S i u i (s ∗ 1 , , s ∗ i−1 , s i , s ∗ i+1 , , s ∗ N ) (N E) (2.2)
Trò chơi tĩnh với thông tin không đầy đủ
(1) Những người chơi đồng thời chọn các hành động (người chơi i chọn s i từ tập S i )
(2) Các mức thưởng phạt u i (s 1 , , s N ) được nhận
Bây giờ chúng ta bổ sung thêm các yếu tố của trò chơi thông tin không đầy đủ các bước di chuyển đồng thời, còn được goi là một trò chơi tĩnh Bayesian.
Bước đầu tiên là mỗi người chơi biết hàm thưởng phạt của họ nhưng không chắc về những hàm thưởng phạt của những người chơi khác Hàm thưởng phạt của người chơi i là u i (s 1 , , s N ;t i ), trong đó t i được gọi là dạng có thể có của người chơi i và nó nằm trong không gian những dạng có thể có T i Mỗi loại t i tương ứng với một hàm thưởng phạt khác nhau mà người chơi i có thể nhận được.
Nếu người chơi i có hai hàm thưởng phạt có thể, ta nói người chơi i có hai dạng có thể có t i1 và t i2 Không gian dạng có thể có của người chơi i là Ti = {t i1 , ti2}, hai hàm thưởng phạt của người chơi i là ui(s1, , sN;ti1), u i (s 1 , , s N ;t i2 ).
Một ví dụ cụ thể hơn là mô hình Cournot.
Ví dụ 15 Xem xét mô hình độc quyền song phương Cournot với P(Q) a−Q trong đó Q = q 1 +q 2 là tổng sản lượng của thị trường Hàm chi phí của công ty 1 là C 1 (q 1 ) = cq 1 Hàm chi phí của công ty 2 là C 2 (q 2 ) = c H q 2 với xác suất θ và C2(q2) = cLq2 với xác suất 1−θ Hơn nữa, thông tin là không đối xứng: công ty 2 biết hàm chi phí của nó và của công ty 1 nhưng công ty 1 biết hàm chi phí của mình và chỉ biết rằng chi phí biên của công ty 2 là c H với xác suất θ và cL với xác suất 1−θ.
Các hành động của các công ty là lựa chọn sản lượng của họ: q 1 , q 2 Công ty 2 có hai hàm chi phí khả thi và vì vậy có thể có hai lợi nhuận hoặc hai hàm thưởng phạt: u 2 (q 1 , q 2 ;c L ) = [(a−q 1 −q 2 )−c L ]q 2 và u 2 (q 1 , q 2 ;c H ) = [(a−q 1 −q 2 )−c H ]q 2 Công ty 1 chỉ có một hàm thưởng phạt có thể là: u 1 (q 1 , q 2 ;c) = [(a−q q −q 2 )−c]q
Ta nói rằng không gian dạng của công ty 2 là T 2 = {c L , c H } và không gian dạng của công ty 1 là T 1 = {c}.
Khi đó việc nói người chơi i biết hàm thưởng phạt của họ cũng tương đương với viêc nói người chơi i biết dạng của họ Tương tự, nói người chơi i có thể không chắc chắn về các hàm thưởng phạt của những người khác tương đương với việc nói người i không chắc chắn về các dạng của những người khác là t−i = {t 1 , , ti−1, ti+1, , tN} Và:
Ta kí hiệu phân phối xác suất pi(t −i |t i ) miêu tả sự không chắc chắn của người i về các loại của những người khác:t −i Trường hợpp i (t −i |t i ) không phụ thuộc vào t i , ta có thể viết mức tin cậy của người i là p i (t −i ) Định nghĩa 9 (Dạng chuẩn tắc của trò chơi tĩnh Bayesian)[2] Đại diện dạng chuẩn tắc của trò chơi tĩnh Bayesian n người chơi là
Trong trò chơi tương tác, các không gian hành động và dạng không gian của người chơi lần lượt được ký hiệu là S1, , SN và T1, , TN Mức độ tin tưởng của người chơi được biểu diễn bằng các thông số p1, , pN, trong khi các hàm thưởng phạt của họ được thể hiện qua u1, , uN.
Trò chơi này gặp phải hai vấn đề kỹ thuật cơ bản Đầu tiên, người chơi i có thông tin cá nhân không chỉ về mức thưởng phạt của chính họ mà còn về mức thưởng phạt của những người chơi khác Trong trường hợp N người chơi, mức thưởng phạt của người chơi i phụ thuộc không chỉ các hành động (s1, , sN) mà còn phụ thuộc vào các dạng (t1, , tN).
Thứ hai là về mức độ tin cậyp i (t −i |t i ), chúng ta có thể sử dụng luật Bayes để tính mức tin cậy của người chơi i là p i (t −i |t i ): p i (t −i |t i ) = p(t −i , t i ) p(t i ) = p(t −i , t i )
X t −i ∈T −i p(t −i , ti) Định nghĩa 10 (Định nghĩa chiến lược Bayesian Nash)[2]
Trong trò chơi tĩnh Bayesian
Một chiến lược cho người chơi i là một hàm s i (t i ), trong đó với mỗi dạng t i ∈ T i s i (t i ) đặc trưng cho hành động từ tập các dạng T i đến không gian hành động S i sao cho dạng t i sẽ được chọn
Kí hiệu S i là tập các chiến lược của người chơi i.
Trong mô hình thông tin không đối xứng Cournot ở phần trước, theo định nghĩa chiến lược đã cho, cặp (q 2 ∗ (cH), q ∗ 2 (cL)) là một chiến lược của công ty 2 và q 1 ∗ là một chiến lược của công ty 1 Công ty 2 chọn các sản lượng khác nhau tùy thuộc vào chi phí của nó. Định nghĩa 11 (Định nghĩa cân bằng Bayesian Nash)[2]
Trong trò chơi tĩnh Bayesian
G= {S 1 , , S N ;T 1 , , T N ;p 1 , , p N ;u 1 , , u N }, các chiến lược s ∗ = (s ∗ 1 , , s ∗ N ) là một cân bằng Bayesian Nash thuần túy nếu với mỗi người chơi i và mỗi loại của i là t i ∈ T i thì s ∗ i (t i ) là nghiệm bài toán: maxs i ∈S i
X t −i ∈T −i ui(s ∗ 1 (t1), , s ∗ i−1 (t i−1 ), si, t ∗ i+1 (ti+1), , s ∗ n (tn);t)pi(t −i |t i ) (2.26) Điều này có nghĩa không ai muốn thay đổi chiến lược của mình thậm chí là chỉ thay đổi một hành động của một dạng.
Ví dụ 16 (Cuộc chiến của hai giới)[2]
Bóng đá 0,0 1,2 Ở những phần trước ta đã tìm được hai cân bằng Nash thuần túy là (opera, opera) và (bóng đá, bóng đá)và một cân bằng Nash hỗn hợp mà trong đó người 1 chọn "opera" với xác suất 1
3, người 2 chọn "bóng đá" với xác suất 2
3 Bây giờ ta giả sử cả hai người đều không biết chắc mức thưởng phạt của người kia Giả sử mức thưởng phạt của 1 khi cả hai dự định xem "opera" là2 +t 1 với t 1 là nhận biết riêng của người 1; mức thưởng phạt của 2 khi cả hai dự định xem "bóng đá" là 2 +t 2 với t 2 là nhận biết riêng của người 2;t 1 và t 2 được phân phối đều trên [0, x] (sự lựa chọn của một phân phối đều trên [0, x] không quan trọng nhưng chúng ta có thể nhận thấy rằng các giá trị của t 1 và t 2 chỉ làm xáo trộn nhỏ các mức thưởng phạt nên x khá nhỏ) Do vậy trò chơi tĩnh Bayesian này có dạng G = {A 1 , A2;T1, T2;p1, p2;u1, u2} Trong đó :
• Các không gian hành động S 1 = S 2 = { opera,bóng đá }
• Các mức tin cậy là p1(t2) = p2(t1) = 1 x với mọi t1, t2
• Và các mức thưởng phạt như sau:
Opera Bóng đá Opera 2 + t 1 ,1 0,0 Bóng đá 0,0 1,2 + t 2
Chúng ta sẽ xây dựng một cân bằng Nash Bayesian thuần túy của "cuộc chiến hai giới" với phiên bản thông tin không hoàn hảo này Ta xem xét các chiến lược thuần túy cho trò chơi này:
• 1 chọn "opera" nếu t 1 vượt qua một giá trị tới hạn c hay t 1 > c(trong đó 0 < c < x)
• 2 chọn "bóng đá" nếu t 2 vượt qua một giá trị tới hạn phay t 2 < p(trong đó 0 < p < x)
Một số ứng dụng của lý thuyết trò chơi
Đấu giá
3.3.1 Đấu giá kín và chọn giá cao nhất (First - price sealed bid auction) Ở đây có một vật thể được bán và hai nhà thầu muốn mua nó thông qua một cuộc đấu giá Hai nhà thầu được gán i = 1,2 Nhà thầu i định giá v i cho hàng hóa nên nếu nhà thầu i lấy hàng hóa và trả giá p thì lợi nhuận của i là vi−p Việc định giá của hai nhà thầu là độc lập và được phân phối đều trên đoạn [0,1] Những hồ sơ dự thầu phải là số dương Các nhà thầu đồng thời nộp hồ sơ dự thầu Người trả giá cao hơn sẽ thắng và phải trả giá mà họ thầu Nếu họ cùng giá thầu thì người chiến thắng được xác định bằng viêc tung đồng xu Tất cả những điều này là kiến thức phổ biến. Để viết bài toán này như một trò chơi tĩnh Bayesian, chúng ta cần đồng nhất các không gian hành động, các không gian dạng, các mức độ tin cậy và các hàm thưởng phạt Hành động của nhà thầu i là nộp một hồ sơ dự thầu b i và loại của họ là định giá v i Vậy trò chơi có thể viết G = {S 1 , S 2 ;T 1 , T 2 ;b 1 , b 2 ;u 1 , u 2 }, trong đó:
• Không gian hành động là S i = [0,∞)
Do các việc định giá là độc lập, người i tin rằng v j được phân phối đều trên đoạn [0,1] dù giá trị v i là gì.
Ta có hàm thường phạt của người i là: ui(b1, b2;v1, v2)
Chúng ta sẽ xây dựng các không gian chiến lược cho những người chơi.
Trong trò chơi tĩnh Bayesian, chiến lược là hàm ánh xạ từ không gian thông tin của người chơi vào các hành động khả thi Đối với người chơi i, chiến lược là hàm bi(vi) xác định giá thầu của người chơi cho từng thông tin vi được chọn Trong cân bằng Nash Bayesian, chiến lược bi(vi) của người chơi 1 là phản ứng tối ưu với chiến lược b2(v2) của người chơi 2, và ngược lại Nhìn chung, một cặp chiến lược
(b 1 (v 1 ), b 2 (v 2 )) là một cân bằng Bayesian Nash nếu với mỗi v i ∈ [0,1], b i (v i ) là nghiệm của bài toán: maxb i (vi −bi)P{b i > bj(vj)}+ 1
Tiếp theo chúng ta sẽ tính toán cân bằng Baysian Nash Đầu tiên ta xem xét một cân bằng đặc biệt Kỹ thuật mà ta sử dụng ở đây là một kỹ thuật thông dụng trong việc tính toán cân bằng Baysian Nash.
Cân bằng đối xứng, tuyến tính Trong phần này ta tính toán một cân bằng đối xứng tuyến tính Đối xứng có nghĩa là các không gian chiến lược của những người chơi là đồng nhất.
Điểm cân bằng Bayesian Nash đối xứng duy nhất tồn tại khi có hàm duy nhất b(v_i) sao cho chiến lược của người chơi 1 là b(v_1), chiến lược của người chơi 2 là b(v_2) với b là một hàm từ không gian loại tới không gian hành động.
Tuyến tính có nghĩa b là một hàm tuyến tính: b i (v i ) =a i +c i v i Chú ý rằng chúng ta không giới hạn các không gian chiến lược của người chơi chỉ gồm các chiến lược tuyến tính Ta cho phép những người chơi chọn các chiến lược bất kì sao cho một cân bằng là tuyến tính Nó trở nên như vậy vì các mức định giá của những người chơi được phân phối đều, một cân bằng tuyến tính không những tồn tại mà còn duy nhất Một hồ sơ dự thầu như vậy phản ánh giao dịch cơ bản mà một nhà thầu phải đối mặt trong một cuộc đấu giá: hồ sơ dự thầu càng cao nhà thầu càng dễ chiến thắng; hồ sơ dự thầu càng thấp thì càng kiếm được nhiều tiền hơn nếu nhà thầu chiến thắng. Để tính toán một cân bằng đối xứng tuyến tính ta trải qua các bước sau:
Bước 1: Giả sử một cân bằng tuyến tính đối xứng Chúng ta đơn giản hóa việc trình bày bằng cách tìm một tuyến tính: b 1 (v 1 ) = a 1 +c 1 v 1 và b 2 (v 2 ) =a 2 +c 2 v 2 cho tất cả các loại v 1 , v 2 cho các hằng số a i , c i i = 1,2- sẽ được xác định sau Điều quan trọng ở đây là các hằng số không phụ thuộc vào các nhà thầu hay các loại của họ.
Nếu người chơi j áp dụng chiến lược: bj(vj) = aj +cjvj thì với một giá trị vi cho trước, phản ứng tốt nhất của người i là tìm nghiệm của bài toán max bi.
(v i −b i )P{b i > a j +c j v j } (3.3) Ở đây P{b i = b j (v j )} = 0 vì b j (v j ) = a j +c j v j và v j được phân phối đều nên b j cũng được phân phối đều Người chơi i không nên chào giá thấp hơn giá thầu tối thiểu của người chơi j và vô nghĩa cho i để chào giá trên giá thầu tối đa của j Ta có a j ≤ b i ≤ a j +c j nên:
= b i −a j c j Khi đó mục tiêu của người i là: max b i
= max b i v i b i −b 2 i +b i a j −v i a j c j Nên phản ứng tốt nhất của người i là : b i (v i )
• Nếu 0 < aj < 1 thì có vài giá trị vi sao cho vi < aj, trong trường hợp b i (v i ) không tuyến tính.
• Ta có nếu a j ≥ 1 và c j ≥ 0 suy ra b j (v j ) = a j + c j v j ≥ 1 ⇒ b j (v j ) ≥ v j thì không có tối ưu.
• Nếu a j ≤0 thì b i (v i ) là tuyến tính, trong trường hợp b i (v i ) = v i +a j
2. Chúng ta làm tương tự cho người chơi j dưới giả thuyết người i áp dụng b i (v i ) = a i +c i v i Ta cũng có a i ≤ 0, a j = a i
2. Bước 3: Chứng minh rằng các hàm phản ứng tốt nhất thực sự là hàm tuyến tính
2 là các hằng số và chúng không phụ thuộc vào vi
Bước 4: Tính toán các hằng số a i , c i i = 1,2
2,điều này có nghĩa là mỗi nhà thầu nộp hồ sơ dự thầu bằng nửa mức định giá của họ.
Cân bằng Bayesian Nash đối xứng bất kì Một cân bằng Nash Bayesian được gọi là đối xứng nếu các không gian chiến lược của những người chơi là đồng nhất Có nghĩa trong một cân bằng Nash Bayesian đối xứng có duy nhất một hàm b(vi) sao cho chiến lược của người 1 là b(v 1 ), chiến lược của người chơi 2 là b(v 2 ) và chiến lược duy nhất này là phản ứng tốt nhất của chính nó Tất nhiên vì các mức định giá của những người chơi là khác nhau nên các hồ sơ dự thầu cũng khác nhau thậm chí nếu họ sử dụng cùng một chiến lược.
Bước 1 Giả sử một cân bằng Baysian Nash có dạng: b ∗ 1 (v1) =b(v1) b ∗ 2 (v 2 ) =b(v 2 ) Với b là hàm tăng và khả vi
Bước 2: Tính toán phản ứng tốt nhất của mỗi loại Nếu người j áp dụng chiến lược b(.) và giả sử rằng b(.) là tăng ngặt và khả vi thì với một giá trị v i cho trước giá thầu tối ưu của người i là nghiệm của: max b i
Cho b −1 (b j ) là mức định giá mà nhà thầu j cần có để chào giá b j Có nghĩa b −1 (bj) = vj nếu bj = b(vj) Vì vj được phân phối đều trên [0,1] nên P{b i > b(v j )} = P{b −1 (b i ) > v j } = P{v j < b −1 (b i )} = b −1 (b i ) Khi đó phản ứng tốt nhất của người i là : maxb i (v i −b i )b −1 (b i ) (1) (3.4) Ta có:
(1) ⇒ −b −1 (b i ) + (v i −b i ) d db i b −1 (b i ) = 0 (2) (3.5) Điều kiện này là một phương trình ẩn cho phản ứng tốt nhất của nhà thầu i với chiến lược b(.) được chọn bởi nhà thầu j với mức định giá của nhà thầu i là v i được cho trước Nếu chiến lược b(.) là một cân bằng Nash Bayesian đối xứng, chúng ta xem xét nghiệm của điều kiện (2) là b(v i ) sao cho: với mỗi mức định giá dự kiến của nhà thầu i, nhà thầu i không muốn tách ra khỏi chiến lược b(.), cho rằng nhà thầu j cũng chơi chiến lược này Thay b i = b(v i ) vào (2) ta được :
Bước 3: Đồng nhất phản ứng tốt nhất với hàng động cân bằng
Ta có b −1 (b(v i )) = v i , d db i b −1 (b(v i )) = 1 b 0 (b −1 (b i )) = 1 b 0 (v i ) và d db i b −1 (b i ) đo đạc định giá của nhà thầu i cần thay đổi bao nhiêu để để tạo nên một đơn vị thay đổi trong hồ sơ sự thầu, trong khi b 0 (v i ) đo đạc giá thầu phải thay đổi bao nhiêu để đáp ứng với một đơn vị thay đổi trong việc định giá Do đó, b(.) cần phải thỏa:
⇔ d dv i (b(v i )v i ) =v i (3.7) Lấy nguyên hàm hai vế phương trình này ta được: b(v i )v i = 1
Vì không một nhà thầu nào đấu thầu hơn mức định giá của họ nên b(v i ) ≤ v i ∀v i ⇒ b(0) ≤ 0 Mặt khác các hồ sơ dự thầu phải là số không âm nên b(0) = 0 ⇒C = 0 và b(v i ) = v i
2 3.3.2 Đấu giá kín và chọn giá thấp thứ hai (Second - price sealed bid auction)
Cuộc đấu giá này về cơ bản giống với cuộc đấu giá trước về các vấn đề sau:
• Các không gian hành động: S 1 = {b 1 ≥ 0} và S 2 = {b 2 ≥ 0}
• Giá trị hàng hóa với các nhà thầu: 0 ≤ v1 ≤ 1 và 0 ≤ v2 ≤ 1 hay các không gian dạng của những nhà thầu là T 1 = [0,1] và T 2 = [0,1]
• Chúng ta giả sử rằng mức độ tin cậy của mỗi nhà thầu về giá trị của đối phương được phân phối đều trên [0,1]
Sự khác nhau ở đây là nhà thầu nộp giá thầu cao nhất để lấy hàng hóa nhưng chỉ trả giá thầu cao thứ hai Do đó mức thưởng phạt của những người chơi ở đây là: u 1 (b 1 , b 2 )
Các chiến lược đối xứng cho hai nhà thầu là là hàm b(v 1 ) và b(v 2 ) tăng ngặt và khả vi ngặt Tương tự ta cũng có :
Nếu biết v i và lấy trung bình v −i thì kì vọng mức thưởng phạt của người i là:
(v i −b(v −i ))dv −i Vì vậy phản ứng tốt nhất của người i là: max b i b −1 (b i )
Sử dụng qui tắc Leibniz :
Nên bài toán phản ứng tốt nhất của người i trở thành:
(v i −b(b −1 (b i )))db −1 (b i ) db i = 0 ⇔(v i −b i ) 1 b 0 (v i ) = 0Chúng ta giới hạn các chiến lược sao cho b 0 (v i ) > 0
Do (v i −b i ) 1 b 0 (vi) = 0 i ∈ {1,2} nên cân bằng Nash duy nhất cho cuộc đấu giá này là : b(v i ) = v i i ∈ {1,2}
Vậy mỗi nhà thầu sẽ nộp hồ sơ dự thầu bằng mức định giá của họ.