D P S P SP t Lấy đạo hàm hai vế theo t ta được:
T R= (300-3Q)Q =300Q 3Q2 MR = R’ = 300 6Q
4.1.2. Ma trận phần thưởng
Để làm quen với lý thuyết trò chơi, trước hết chúng ta bắt đầu với một trò chơi đơn giản: Trò chơi 2 con dê qua cầu.
Giả sử dê Trắng và dê Đen cùng đi qua một chiếc cầu hẹp từ hai phía ngược chiều nhau. Cả dê Trắng và dê Đen có hai phương án để quyết định: cứ đi thẳng hoặc tránh đường cho đối phương. Vậy theo bạn, hai con dê nên chọn phương án nào?
Bảng 4.1tổng hợp các phương án và phần thưởng mà các con dê nhận được với mỗi phương án chúng chọn:
Dê trắng Dê đen Kết quả/phần thưởng
Đi thẳng Đi thẳng Húc nhau
Đi thẳng Tránh Dê đen thua
Tránh Đi thẳng Dê trắng thua
Tránh Tránh Không con nào qua cầu
Như vậy, có 4 tình huống có thể xảy ra, mặc dù mỗi con dê chỉ có hai lựa chọn. Kết quả cuối cùng phụ thuộc vào không chỉ lựa chọn của một mà lựa chọn của cả hai con dê. Các kết quả này có thể mô tả thành một bảng ma trận như hình 4.1:
131
Hình 4.1 Ma trận phương án lựa chọn trong trò chơi hai con dê qua cầu Để dễ so sánh phần thưởng của các phương án, ta có thể chuyển phần thưởng thành các con số. Trong phần lớn trường hợp, các phần thưởng này chỉ có giá trị tương đối để so sánh lợi ích. Chẳng hạn, với bài toán 2 con dê qua cầu, ta có ma trận kết quả như sau:
Hình 4.2 Ma trận phần thưởng bài toán 2 con dê qua cầu
Ma trận này gọi là ma trận phần thưởng. Nếu hai con dê cùng tránh, cả hai cùng có phần thưởng là 0, vì chúng đều không qua được cầu. Nếu một con
132
dê tránh con kia, nó có phần thưởng là -1, vì nó bị thua, trong khi đối phương được phần thưởng là 1 do có thể qua cầu không cần tránh. Nếu cả hai con dê cùng tiến lên, chúng sẽ húc nhau và kết quả, cả hai đều được phần thưởng -5.
Chiến lược tốt nhất và chiến lược thống trị
Vậy hai con dê nên chọn chiến lược nào để có phần thưởng cao nhất? ◦ Nếu dê đen biết dê trắng sẽ tránh đường, chiến lược tốt nhất là đi
thẳng (1>0).
◦ Nếu dê đen biết dê trắng sẽ đi thẳng, chiến lược tốt nhất là tránh đường (-1 > -5)
◦ Nếu dê đen không biết dê trắng sẽ chọn chiến lược nào, nó không thể biết chiến lược nào là tốt nhất.
Điều tương tự cũng xảy ra với dê Trắng. Chiến lược tốt nhất là chiến lược có phần thưởng cao nhất cho người chơi khi biết chiến lược của đối phương. Nếu không biết chiến lược của đối phương, thì không thể biết chiến lược nào tốt nhất.
Bây giờ giả sử rằng ma trận phần thưởng thay đổi như sau:
Hình 4.3
Ma trận phần thưởng này chỉ khác ở chỗ, nếu cả hai con dê cùng chọn tránh, chúng sẽ được phần thưởng lớn nhất. Chẳng hạn, sự nhường nhịn được
133
đánh giá cao và nếu cả hai cùng nhường nhịn, chúng giữ được hòa khí lâu dài. Vậy thay đổi này sẽ thay đổi lựa chọn và chiến lược tốt nhất của các chú dê ra sao.
Rõ ràng, trong mọi trường hợp, dê Đen đều có lợi hơn nếu chọn tránh đường. Tương tự, dê Trắng cũng có lợi hơn nếu chọn tránh đường. Như thế, bất kể đối phương lựa chọn gì, chiến lược tốt nhất mà mỗi con dê lựa chọn sẽ là tránh đường. Chiến lược được lựa chọn trong trường hợp này gọi là chiến lược thống trị (dominant strategy): chiến lược tối ưu cho mỗi người chơi, bất kể người chơi kia lựa chọn chiến lược nào. Và phương án cân bằng (equilibirium outcome) là phương án cả hai cùng tránh đường, là phương án mà cả hai người chơi đều lựa chọn nhằm tối đa hóa lợi ích.
Nếu trong một trò chơi có chiến lược thống trị, lựa chọn của người chơi cực kỳ đơn giản: lựa chọn chiến lược ấy bất kể đối phương lựa chọn chiến lược gì. Tuy nhiên, trong nhiều trò chơi, chiến lược thống trị không tồn tại, ví dụ như bài toán hai con dê qua cầu ban đầu.