Trò chơi lặp lại (repeated games)

D P S P SP t Lấy đạo hàm hai vế theo t ta được:

T R= (300-3Q)Q =300Q 3Q2 MR = R’ = 300 6Q

4.1.6. Trò chơi lặp lại (repeated games)

Cho đến nay, chúng ta mới chỉ xét đến các trò chơi một lần, nghĩa là các trò chơi kết thúc ngay sau khi mỗi người chơi thực hiện một chiến lược chơi. Ví dụ, hai người chơi đánh bài chỉ chơi 1 ván rồi dừng lại. Hai tên trộm chỉ gặp

140

nhau một lần, thực hiện một vụ trộm rồi không gặp nhau nữa,…Tuy nhiên, trong thực tế các trò chơi thường kéo dài và lặp lại. Hai người chơi bài có thể chơi nhiều ván bài. Hai tên trộm có thể gặp nhau thực hiện nhiều vụ trộm. Việc các trò chơi được lặp lại, thoạt nhìn chỉ là sự lặp lại của trò chơi 1 lần, kết quả của trò chơi dường như sẽ không thay đổi. Tuy nhiên, trong các trò chơi mang tính hợp tác, việc trò chơi được lặp lại có ý nghĩa rất lớn đối với chiến lược chơi của người chơi và ảnh hưởng lớn tới cân bằng của trò chơi.

Trở lại ví dụ về trò chơi thế lưỡng nan của người tù. Nếu đây là trò chơi một lần, rõ ràng chiến lược thống trị cho mỗi người chơi là thú tội. Tuy nhiên, nếu đây là trò chơi lặp lại, lựa chọn chiến lược của hai tên trộm có thể thay đổi. Giả định rằng trong vòng chơi đầu, một tên trộm A lựa chọn chối tội do tin tưởng đồng bọn cũng chối tội. Tuy nhiên, tên trộm B lựa chọn thú tội. Điều này khiến cho A bị phạt 6 tháng tù. Đây rõ ràng là tình huống không mong muốn với A. Do B bị coi là “phản bội”, A quyết định sẽ “trừng phạt” B trong vòng chơi sau. Trong một trò chơi lặp lại, một sự “phản bội” sẽ bị trừng phạt. Hơn nữa, danh tiếng của mỗi người chơi cũng hình thành. Nếu một người chơi có danh tiếng xấu, sẽ rất khó cho những người cùng chơi quyết định hợp tác. Một người chơi cũng căn cứ vào danh tiếng của đối thủ để lựa chọn chiến lược tốt nhất. Ví dụ, nếu một tên trộm có danh tiếng là cứng đầu, không bao giờ thú tội, thì chối tội có lẽ là chiến lược sẽ được tên trộm kia lựa chọn vì nó biết tên kia sẽ không thú tội.

Trong trò chơi lặp lại, người chơi hợp tác với nhau bởi vì hợp tác tại vòng chơi này tạo điều kiện cho sự hợp tác ở những vòng sau. Nếu một người chơi bất hợp tác, hậu quả sẽ là toàn bộ những vòng chơi sau, họ không thể hợp tác. Điều này rõ ràng là một sự trừng phạt.

Robert Axelrod (1984) đã tiến hành một loạt thí nghiệm về trò chơi lặp lại. Ông hỏi các chuyên gia về lý thuyết trò chơi về chiến lược ưa thích của họ đối với trò chơi thế lưỡng nan của người tù lặp lại. Sau đó, ông dùng máy tính để mô phỏng các chiến lược chơi và tính toán phần thưởng với mỗi chiến lược.

141

Kết quả là, chiến lược tốt nhất, có phần thưởng lớn nhất lại là chiến lược rất đơn giản. Đó là chiến lược “ăn miếng trả miếng” (tit for tat): vòng chơi đầu tiên, bạn “chối tội”. Nếu tại mỗi vòng chơi đối thủ đều hợp tác chối tội, ở vòng tiếp theo bạn tiếp tục hợp tác. Bất cứ khi nào đối thủ thú tội, bạn “thú tội” ở vòng chơi sau. Chiến lược “ăn miếng trả miếng” cho phép áp đặt sự trừng phạt ngay ở vòng chơi sau đối với bất kỳ sự vi phạm hợp tác nào.

CÁC ĐƯỜNG CHI PHÍ SẢN XUẤT

Dịch chuyển đường cung, đường cầu