Truy hồi ngược và trò chơi chân rết.

Một phần của tài liệu Ứng dụng thuyết trò chơi trong kinh tế và kinh doanh (Trang 79 - 86)

Mở rộng trò chơi tĩnh

7.2 Truy hồi ngược và trò chơi chân rết.

Sự hữu ích của truy hồi ngược trong tư duy chiến lược được minh họa rất rõ trong một trò chơi đơn giản gọi là trò chơi chân rết. Nhiều nghiên cứu đã sử dụng trò chơi này để nghiên cứu liệu các chủ thể có nên sử dụng và hiểu được tư duy truy hồi ngược. Trò chơi này được minh họa trong hình 7.2.

Hai đấu thủ (A và B) lường truớc trong trò chơi theo dãy liên tiếp. Đấu thủ A đi trước và có thể chọn hoặc là xuống (D) hoặc sang phải (R). Nếu đấu thủ A chọn D, thì trò chơi kết thúc và cả hai đấu thủ nhận được một thanh toán là 1 $. Nếu đấu thủ A chọn R, thì khi đó đấu thủ B đối mặt với một lựa chọn tương tự. Chị ta có thể chọn d hoặc r. Nếu đấu thủ B chọn d, thì trò chơi kết thúc; A nhận được một thanh toán là 0 $ và B nhận được một thanh toán là 3 $. Nếu đấu thủ B chọn r, thì trò chơi tiếp tục và đấu thủ A lại chọn D hoặc R. Trò chơi tiếp tục cho tới khi một đấu thủ chọn xuống hoặc B được đề nghị chọn lần thứ 3. Tại điểm này, nếu đấu thủ B chọn d, thì A nhận 3 $ và B nhận 6 $. Nếu đấu thủ B chọn r tại điểm này, thì cả hai nhận được 5 $. Hãy xem hình 6.2 và giả sử bạn là đấu thủ A. Chiến lược nào bạn sẽ chọn?

Chúng ta giải trò chơi này bằng việc sử dụng truy hồi ngược. Trò chơi này thực tế là một dãy 6 quyết định. Đấu thủ A chọn các giai đoạn 1, 3 và 5; đấu thủ B chọn các giai đoạn 2, 4 và 6. Chúng ta cần đi tới kết thúc trò chơi và lựa chọn từ tương lai. Nhìn vào giai đoạn thứ 6: đấu thủ B có thể chọn xuống và nhận 6 $ hoặc chọn sang phải và nhận 5 $. Do 6 $ lớn hơn 5 $, nên chúng ta lường trước đấu thủ B sẽ chọn xuống. Chuyển ngược về giai đoạn 5, vì bây giờ chúng ta đã biết tương lai. Đấu thủ A đối mặt như sau. Nếu A chọn phải, thì anh ta biết (lường trước chính xác) B sẽ chọn xuống cho A một thanh toán là 3 $. Hoặc, A có thể chọn xuống và nhận được thanh toán là 3,5 $. Do 3,5 $ lớn hơn 3 $, nên A sẽ chọn xuống tại giai đoạn 5. Đấu thủ B cần chọn gì ở giai đoạn 4 khi biết điều này? B có thể chọn xuống và nhận được thanh toán là 4,5 $ hoặc chọn phải và nhận được thanh toán là 3,5 $ (vì chúng ta biết được A sẽ chọn xuống ở giai đoạn 5). Do 4,5 $ lớn hơn 3,5 $, nên B sẽ chọn xuống tại giai đoạn 4. Chúng ta chuyển ngược lại từ tương lai về giai đoạn 3. Đấu thủ A có thể chọn xuống và nhận được thanh toán là 2,5 $ hoặc chọn phải và nhận được thanh toán là 1,5 $ (vì chúng ta lường trước B sẽ chọn xuống ở giai đoạn 4). Do 2,5 $ lớn hơn 1,5 $, nên A sẽ chọn xuống ở giai đoạn 3. Chúng ta bây giờ chỉ còn một bước nữa, tại giai đoạn 2. Đấu thủ B có thể chọn xuống và nhận được thanh toán là 3 $ hoặc chọn phải và nhận được thanh toán là 2,5 $ (vì đấu thủ A sẽ chọn xuống ở giai đoạn 3). Như vậy, đấu thủ B sẽ chọn xuống tại giai đoạn 2. Cuối cùng chúng ta tự thấy mình ở hiện tại, đó là thời điểm ra quyết định. Tại giai đoạn 1, đấu thủ A có

thể chọn xuống và nhận được 1 $ hoặc chọn phải và nhận được 0 $ (vì B sẽ chọn xuống ở giai đoạn 2). Đấu thủ A sẽ chọn xuống ở giai đoạn 1. Đây là lựa chọn hợp lý duy nhất, dựa vào cách nhìn của chúng ta về tương lai. Đấu thủ A sẽ chọn xuống tại giai đoạn 1 và cả hai nhận được thanh toán là 1 $. Điều mà người cổ xưa đã gọi là cách nhìn xa, thì mô hình lý thuyết trò chơi gọi là truy hồi ngược.

Bây giờ đi tới câu hỏi thực tế. Các chủ thể có hành vi như thế nào khi chơi loại trò chơi này? Đầu tiên, có tương đối ít chủ thể sử dụng cách nhìn xa (hoặc họ có một cách nhìn sai lệch về tương lai). Các chủ thể hành động tập trung vào qui mô tăng lên của các thanh toán và cố gắng đi xuống theo con đường này. Tại một giai đoạn sau đó, hoăc họ chọn xuống hoặc đối thủ đang chơi cùng chọn xuống. Vào lần sau họ chơi, hầu hết các chủ thể đều chọn xuống tại một giai đoạn trước đó (nhất là những người có đối thủ đã chọn xuống ở giai đoạn trước). Với ba hoặc bốn lượt chơi, hầu hết các đấu thủ A phải thừa nhận họ nên chọn xuống tại giai đoạn 1. Họ rất do dự, vi họ vẫn còn thấy còn đường với những thanh toán lớn hơn. Nhưng, họ cũng biết được tương lai. Kinh nghiệm đã chỉ ra sự thông thái của truy hồi ngược.

7.3 Sự tin cậy vào cam kết

Trong trò chơi tĩnh với thông tin đầy đủ giả thiết ngầm định của mô hình là không có lòng tin giữa các đấu thủ và do đó không có sự cam kết ở đây. Tuy nhiên trong cuộc sống ta lại phải có luôn phải có lòng tin và khi tồn tại lòng tin vào một cam kết thì lợi ích của cả hai bên đều tăng lên. Như vậy để có lòng tin người ta phải tìm cách kiểm tra được sự tin cậy vào cam kết.

Truy hồi ngược có rất nhiều ứng dụng. Một ứng dụng là kiểm tra sự tin cậy vào các cam kết. Từ đe dọa cho tới hứa hẹn, từ việc gọi tên tục cho tới sự biểu lộ tình yêu, chúng ta đều muốn biết có nên tin vào những người khác hay không? Khi gặp những tình huống đó, luôn phải kiểm tra trước hết sự tin cậy. Đó là một chiến lược trội. Chỉ xem xét các cam kết có thể tin cậy. Một cam kết là có thể tin cậy nếu chi phí của thông điệp truyền đi sai là lớn hơn lợi ích có liên quan. Một công ty tuyên bố sản phẩm của nó là tốt nhất là không tin cậy được. Có rất ít chi phí đối với tuyên bố này và lợi ích có liên quan là rất cao. Công ty có thể làm cho tuyên bố này có thể tin cậy

bằng việc đưa ra một qui trình bảo hành sản phẩm. Một qui trình bảo hành làm tăng chi phí cam kết (nếu nó gửi đi thông điệp sai). Robin và Styne đã định nghĩa ngắn gọn sự tin cậy như sau: “một cái hôn lên bàn tay có thể hoàn toàn mang tính xã giao, nhưng các viên kim cương là người bạn tốt nhất của một cô gái”.

Xét tình huống sau. Nhắc lại Barkley đã mở rộng dây chuyền sản phẩm của nó nhưng Allied thì không. Các nhà quản lý của Allied quyết định đối phó với việc mở rộng dây chuyền sản phẩm của Barkley bằng cách hạ giá sản phẩm của họ. Tuy nhiên, họ lo lắng rằng, nếu họ hạ giá sản phẩm của mình Barkley cũng làm theo bằng cách giảm giá của nó. Thực tế, Barkley đã nói với đại lý cung ứng chung sản phẩm của cả hai hãng rằng nếu Allied hạ giá thì họ sẽ hạ giá của họ. Allied cần phải làm gì?

Các nhà quản lý của Allied trước hết phải xem xét liệu sự đe dọa giảm giá của Barkley có đáng tin cậy hay không. Họ có thể làm điều đó bằng cách xem Hình 7.3 và giải trò chơi với việc sử dụng qui nạp ngược. Barkley có thể giữ giá cao hoặc hạ giá. Allied cũng có hai chiến lược giống như vậy. Điều gì xảy ra nếu Allied hạ giá? Khi đó Barkley có thể hoặc giữ giá cao và nhận 30 triệu $ hay hạ giá và nhận 20 triệu $. Do 30 triệu $ lớn hơn 20 triệu $, nên Barkley cần giữ giá cao nếu Allied hạ giá. Điều gì xảy ra nếu Allied giữ nguyên giá của nó? Khi đó Barkley có thể hoặc giữ giá của nó cao và nhận 50 triệu $ hay hạ giá và nhận 70 triệu $. Do đó, Barkley sẽ hạ giá của nó nếu Allied giữ nguyên giá. Căn cứ vào việc Allied có thể lường trước các hành động đó của Barkley, thì Allied cần làm gì? Nó cần giảm giá (để nhận 40 triệu $ nếu không chỉ nhận được 20 triệu $). Rõ ràng, Barkley sẽ không giảm giá. Thực ra, một chiến lược trội cho Barkley là giữ giá cao. Sự đe dọa do Barkley giảm giá là không đáng tin, nên cần bỏ qua. Nếu buộc phải tiến hành đe dọa, thì các nhà quản lý của Barkley sẽ từ chối giảm giá. Vì nếu làm ngược lại họ sẽ mất 10 triệu $ lợi nhuận.

Cân bằng này được mô tả là một cân bằng hoàn hảo trò chơi phụ. Một trò chơi phụ được định nghĩa là một phần của trò chơi lớn hơn. Các trò chơi phụ được đánh dấu trong Hình 7.3. Như bạn thấy, trong phạm vi một trò chơi tổng thể số 3 tạo ra ba trò chơi phụ. Trong các trò chơi lặp lại, tất cả các cân bằng hoàn hảo trò chơi phụ cũng là các cân bằng Nash, mặc dù không phải tất cả các cân bằng Nash là hoàn

hảo trò chơi phụ. Bằng trực giác, điều này nói lên cân bằng cho mỗi trò chơi phụ là hợp lý, có điều kiện về trò chơi cân bằng trong tương lai. Ví dụ, trong trò chơi chân rết thì mô tả chiến lược của A bằng việc chọn D (xuống) trong giai đoạn 1 là hợp lý, có điều kiện về điều gì chúng ta biết sẽ xảy ra trong các trò chơi phụ trong tương lai. Như vậy, đó là một cân bằng hoàn hảo trò chơi phụ.

Hình 7.3 Barkley có sự đe dọa đáng tin hay không? 7.4 Các trò chơi lặp

Thế giới kinh doanh được đặc trưng bởi các hoạt động tương tác lặp đi lặp lại. Trong nhiều thị trường, các hãng cạnh tranh chống lại nhau hàng chục năm. Bên trong các hãng, các nhà quản lý tương tác người này với người kia trong những khoảng thời gian rất dài. Các nhà quản lý cần hiểu viễn cảnh của một tương lai cùng nhau có thể thay đổi các hoạt động của người chơi như thế nào. Một lần nữa, chúng ta quay lại qui nạp ngược để giúp chúng ta hiểu được các hàm ý của trò chơi lặp.

Chúng ta minh họa ảnh hưởng chiến lược của trò chơi lặp bằng cách sử dụng một ví dụ được cách điệu hóa từ một lớp các trò chơi gọi là tình thế lưỡng nan của người tù. Giả sử Allied và Barkley sản xuất một loại sản phẩm thuần nhất. Họ cũng có các cấu trúc chi phí tương tự nhau. Cả hai phải quyết định xem liệu đặt giá sản phẩm tại mức giá cao hay mức giá thấp. Tình huống này được minh họa trong Hình 7.4.

Các chiến lược giá của Allied Giá cao Giá thấp Các chiến lược

giá của Barkley

Giá cao 5; 5 1 20

Giá thấp 20; 1 3; 3

Hình 7.4 Đặt giá như tình thế lưỡng nan của người tù

Cân bằng Nash của trò chơi này là cả hai hãng bán sản phẩm của họ tại mức giá thấp (và mỗi bên kiếm được 3 triệu $). Mặc dù cả hai đều nhận ra rằng họ sẽ tốt hơn nếu mỗi hãng giữ ở mức giá cao, nhưng họ sợ rằng (do không có lòng tin) hãng kia sau đó sẽ hạ giá của nó và lấy mất thị trường. Do đó, cả hai hãng đặt giá thấp. Nếu Allied và Barkley tiến hành cạnh tranh chỉ trong một thị trường với một trường hợp duy nhất, thì khi đó chúng ta kỳ vọng cả hai đều giữ giá thấp. Sau hết, đó là một lựa chọn hợp lý. Nhưng điều gì xảy ra nếu họ là những đối thủ cạnh tranh trong một thời gian dài? Thay vì chơi trò chơi đặt giá này một lần, họ chơi lại nhiều lần. Nếu như chúng ta vẫn kỳ vọng cả hai hãng đặt giá thấp, thì có thể thấy mỗi hãng mất 2 triệu $ mỗi giai đoạn, đơn giản là do không hãng nào tin rằng hãng kia duy trì mức giá cao. Như Emerson đã bình luận ”Sự nghi ngờ có giá rất đắt”.

Về mặt chiến lược, sự khác nhau cơ bản giữa trò chơi một lần và những trò chơi được lặp lại là sự hiện diện của tương lai. Tương lai đưa đến hành vi không thể có trong một thế giới chỉ có một lần. Sự tin cậy, danh tiếng, những hứa hẹn, những đe dọa, và sự nhân nhượng cần thiết đến tương lai để tồn tại. Tương lai cũng có nghĩa rằng các thanh toán không còn dành riệng cho ngắn hạn, do chúng ta bây giờ đối mặt với những hàm ý dài hạn. Sự phản bội lòng tin có thể đưa đến lợi ích trong hiện tại, nhưng chúng có thể bị ảnh hưởng do mất mát lợi ích ở tương lai.

Các mô hình trò chơi lặp phản ánh và tính đến một phạm vi rộng hơn các hành vi khả thi này. Họ sử dụng ý tưởng về tương lai để xây dựng các chuẩn cho phép các đấu thủ đạt tới các kết quả có lợi ích tương hỗ. Ví dụ, trong tình huống ở trên các chuẩn này giúp duy trì một cân bằng tại nơi cả hai hãng đặt giá cao. Rủi ro về việc một hãng hạ giá thấp hơn hãng khác bị giảm bớt thông qua sự đe dọa trừng

phạt trong tương lai. Dĩ nhiên, các đe dọa này phải là đáng tin cậy. Chúng ta hãy xem các mô hình này vận hành như thế nào.

Điểm khác đầu tiên các mô hình này tạo ra là liệu có hay không về việc phạm vi thời gian là hữu hạn. Hành vi hợp tác là dễ hơn để duy trì trong một trò chơi có phạm vi vô hạn vì tương lai luôn hiện dần ra. Trong các trò chơi có phạm vi hữu hạn, tương lai hiện ra ít hơn khi chúng ta tiếp cận giai đoạn cuối cùng. Như vậy, hãy xét một phạm vi vô hạn trong trò chơi được chỉ ra trong Hình 7.4. Nếu Allied và Barkley hợp tác và đặt giá cao, thì mỗi người nhận được một thanh toán bằng 5 cho mỗi giai đoạn. Một người ta có thể từ bỏ, đặt giá thấp, và kiếm được 20 cho chỉ một giai đoạn. Người kia sau đó sẽ đặt giá thấp và mỗi người sẽ nhận được 3 cho phần còn lại của trò chơi. Như vậy số tiền kiếm được tăng thêm là 15 (20-5) lại bị mất đi trong phạm vi 8 giai đoạn ((5-3)×8). Thực tế, trong một trò chơi có phạm vi vô hạn sẽ khôngxảy ra việc thanh toán bất hợp tác cho chỉ một giai đoạn sẽ lớn hơn tổng các thanh toán hợp tác trong tương lai.

Bóng dâm rất dài của một tương lai trong một trò chơi có phạm vi vô hạn đưa đến kết quả nổi tiếng gọi là định lý khả thi tổng quát. Định lý này về cơ bản khẳng định rằng mỗi kiểu hành vi có thể được hỗ trợ bởi một cân bằng. Sự hỗ trợ cho một phạm vi rộng các hành vi là do tương lai luôn xuất hiện trong các trò chơi này; do đó, sự đe dọa và sự hứa hẹn đáng tin cậy có thể làm thay đổi hành vi hiện tại của các đấu thủ. Dĩ nhiên, điều này tạo ra nhiều khó khăn hơn để dự đoán chính xác hành vi trong những trò chơi có phạm vi vô hạn.

Các trò chơi có phạm vi hữu hạn về cơ bản lại khác, vì khi trò chơi tiến triển, thì tương lai cần hiện ra gần hơn. Do hành vi trong những trò chơi này được dự đoán dựa vào việc sử dụng các tín hiệu đáng tin cậy của hành vi tương lai, nên sức mạnh của nó biến mất khi tương lai hiện ra gần hơn. Và, trong giai đoạn cuối cùng, các tín hiệu không còn sức mạnh vì không có tương lai (giai đoạn cuối cùng trong trò chơi lặp giống như một trò chơi một lần). Do đó, cân bằng Nash là trùng với cân bằng của trò chơi một lần. Trong trò chơi đặt giá, điều này có nghĩa rằng cả hai hãng đặt giá thấp. Không có ràng buộc của các tín hiệu đáng tin cậy và một tương lai, người ta sẽ kỳ vọng những đấu thủ khác hành động mang tính cơ hội. Điều này giải thích tại sao

Một phần của tài liệu Ứng dụng thuyết trò chơi trong kinh tế và kinh doanh (Trang 79 - 86)

Tải bản đầy đủ (PDF)

(105 trang)