Chương 14 LTTC dai hoc UEH aaaaaa

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	31
Dung lượng	1,2 MB

Nội dung

LTTC ggh, fsf, fdasfsd, sdfds,l fsdfsdfsa ffd dsad dsfsd sdfsd sdaf asf sdf fddsaf sdf sd fds fsdaf sdfas d fsd sddf fsdfsd sdffsdsda asdfds fhg fsdf sfsd fsdf dsf sdf sdf dsf sdff fas sdfsd fsd sdf fsd sdf ffsda sdfas adsfsad sdafasdf

CHƯƠNG 14 CÁC TRÒ CHƠI LẶP LẠI: LƯỠNG ĐỀ NGƯỜI TÙ 14.1 Các ý 14.2 Sự ưa thích 14.3 Các trị chơi lặp lại 14.4 Việc lặp lại có hạn Lưỡng đề người tù 14.5 Việc lặp lại vô hạn Lưỡng đề người tù 14.6 Các chiến lược Lưỡng đề người tù lặp lại vô hạn 14.7 Một vài cân Nash Lưỡng đề người tù lặp lại vô hạn 14.8 Hàm thưởng phạt Lưỡng đề người tù lặp lại vô hạn 14.9 Các cân hồn hảo trị chơi đặc tính độ lệch 14.10 Một vài cân hồn hảo trị chơi Lưỡng đề người tù lặp lại vô hạn 14.11 Hàm thưởng phạt cân hồn hảo trị chơi Lưỡng đề người tù lặp lại vô hạn 14.12 Những kết luận chủ yếu Điều kiện tiên quyết: Chương Khi nhóm người chơi tương tác lặp lặp lại, thành viên quy định hành động điểm theo thời gian dựa vào hành động trước người chơi khác Mơ hình trị chơi mở rộng (Chương 5-7) cho phép nghĩ cách xác khả Trong chương chương ta nghiên cứu trò chơi mở rộng dạng Trong trò chơi này, tập người chơi thực lặp lặp lại trò chơi chiến lược Trong chương này, trò chơi chiến lược Lưỡng đề người tù, ví dụ minh họa nhiều điểm Chương phân tích mở rộng đến trò chơi chiến lược tùy ý 14.1 Các ý Các ý lý thuyết người chơi bị ngăn cản khỏi việc khai thác thuận lợi ngắn hạn “đe dọa” “sự trừng phạt” giảm hàm thưởng phạt dài hạn Ví dụ, giả sử hai người lặp lặp lại việc trò chơi Lưỡng đề người tù (Phần 2.2), với hàm thưởng phạt Bảng 420.1 Xem C “sự hợp tác” D “sự ly khai” Như biết, trị chơi chiến lược có cân Nash nhất, người chơi chọn D Bây xem xét chiến lược sau trò chơi lặp lại, gọi chiến lược bóp cị nhanh:  Chọn C miễn người chơi khác chọn C  Nếu chu kỳ mà người chơi khác chọn D, chọn D chu kỳ 419 C D C $1,  $1  $1, $1 D  $1, $1 $1,  $1 Bảng 420.1 Lưỡng đề người tù Chiến lược bắt đầu việc chơi hợp tác liên tục làm người chơi khác ly khai; ly khai đơn ly khai không ngừng đối thủ, mà xem trả đũa “trừng phạt” đối thủ Người chơi đáp ứng đối thủ sử dụng chiến lược này? Nếu người chơi chọn C chu kỳ, kết (C, C) hàm thưởng phạt chu kỳ Nếu người chơi chuyển sang chọn D vài chu kỳ, đạt giá trị chu kỳ (lợi ích ngắn hạn) hàm thưởng phạt chu kỳ (tổn thất dài hạn) Người chơi đánh giá cao tương lai – người chơi khơng kiên nhẫn – miễn giá trị mà người chơi gán vào hàm thưởng phạt tương lại không nhỏ so sánh với giá trị mà người chơi gán cho hàm thưởng phạt tại, chuỗi hàm thưởng phạt (3, 1, 1, …) tệ chuỗi (2, 2, 2, …), tốt người chơi nên chọn C chu kỳ, thay v chuyển sang D vài chu kỳ Lập luận người chơi đủ kiên nhẫn, chiến lược chọn C sau khứ đáp ứng tốt cho chiến lược bóp cị nhanh Nếu đối thủ bạn sử dụng chiến lược bóp cị nhanh, kết bạn sử dụng chiến lược bóp cị nhanh kết bạn sử dụng chiến lược chọn C sau chu kỳ Trong hai trường hợp, kết chu kỳ (C, C) (người chơi khác khơng ly khai, chiến lược bóp cị nhanh khơng chuyển thành hình phạt) Và chệch hướng khỏi chiến lược bóp cị nhanh liên quan đến việc sử dụng D cách không kích động, có biểu chệch hướng tương tự khỏi chiến lược cố định C Vì người chơi đủ kiên nhẫn, cặp chiến lược hai người chơi sử dụng chiến lược bóp cị nhanh cân Nash Trò chơi Lưỡng đề người tù lặp lặp lại: khơng có người chơi làm tốt cách chấp nhận chiến lược khác trò chơi lặp lại Kết cân (C, C) chu kỳ Kết luận phù hợp với trực giác mối quan hệ dài hạn có tầm hạn cho chiến lược hỗ trợ qua lại mà không tận dụng lợi ích ngắn hạn Tuy nhiên, cặp chiến lược khơng cân Nash trị chơi lặp lại Một cân Nash khác cặp chiến lược người chơi chọn D sau khứ: người chơi chấp nhận chiến lược này, người chơi khác khơng thể làm tốt chấp nhận chiến lược mình, người chơi định giá tương lai nào, việc chọn D mối quan tâm người chơi ngắn hạn việc chọn C khơng có ảnh hưởng đến hành vi tương lai người chơi khác Phân tích dẫn đến nhiều câu hỏi: 420  Người chơi cần phải kiên nhẫn trò chơi Lưỡng đề người tù lặp lại, để có cân Nash kết (C, C) chu kỳ  Có kết khác tạo cân Nash?  Ta thấy Chương cân Nash trò chơi mở rộng luôn hấp dẫn trực giác hành động mà họ phải thực sau khứ mà kết chệch hướng khơng tối ưu Kí hiệu cân hồn hảo trị chơi con, với u cầu chiến lược phải tối ưu sau khứ có thể, không đạt người chơi tuân theo chiến lược họ, hấp dẫn Cặp chiến lược người chơi sử dụng chiến lược bóp cị nhanh cân hồn hảo trị chơi con? Như thế, người chơi có phạt tối đa người chơi khác họ chệch hướng khơng? Nếu khơng, trị chơi có cân hồn hảo trò chơi hỗ trợ cho kết mong muốn khơng?  Chiến lược bóp cị nhanh quy định đáp trả chặt chẽ Có cân Nash cân hồn hảo trị chơi mà chiến lược người chơi trừng phạt chệch hướng khắc khe khơng?  Lập luận áp dụng trò chơi khác Lưỡng đề người tù? Chương tập trung trả lời câu hỏi này, câu cuối giải chương Tơi bắt đầu mơ hình hóa trị chơi lặp lại cách ngắn gọn, bắt đầu với ưa thích người chơi 14.2 Các ưa thích 14.2.1 Sự chiết khấu Kết trị chơi lặp lại chuỗi kết trò chơi chiến lược Người chơi đánh giá chuỗi nào? Tôi giả sử người chơi gán hàm thưởng phạt kết trò chơi chiến lược đánh giá chuỗi kết trò chơi chiến lược tổng chiết khấu chuỗi tương ứng hàm thưởng phạt Nói cách ngắn gọn, người chơi i có hàm thưởng phạt ui trò chơi chiến lược có nhân tố chiết khấu  i giá trị cho người chơi đánh giá chuỗi kết ( a1 , a , , aT ) trò chơi chiến lược tổng sau: T ui (a1 )   i ui (a )   i2ui (a )    iT  1ui (aT )   it  (a t ) t 1 (Chú ý số biểu thức sử dụng cho hai mục đích: a t hồ sơ hành t động chu kỳ t,  i nhân tố chiết khấu  i mũ t) 421 Nếu  i gần 0, người chơi quan tâm đến tương lai – người chơi thiếu kiên nhẫn,  i gần 1, người chơi kiên nhẫn Tôi giả sử từ đầu đến cuối tất người chơi có nhân tố chiết khấu  i  i Tại người định giá hàm thưởng phạt tương lai nhỏ giá trị Có lẽ người chơi khơng đủ kiên nhẫn (Có lẽ đe dọa chết thiên vị cho người tạo sớm hơn, dẫn đến tiến hóa lồi người ưa thích thiếu kiên nhẫn) Hoặc có lẽ ưa thích sở người chơi thiếu kiên nhẫn, người chơi tiến hành tính tốn xác suất dương mà người chơi chết chu kỳ Hoặc, kết chu kỳ thể số tiền mà người chơi nhận được, người cư xử theo cách người chơi không kiên nhẫn, số tiền mà người chơi vay cho vay số tiền với mức lãi suất dương Nếu người chơi vay cho vay mức lãi suất r, ưa thích sở người chơi chuỗi hàm thưởng phạt tiền, thể thiếu kiên nhẫn, người chơi khơng thiên lệch, ví dụ chuỗi (100$, 100$) chuỗi (100$ + 100$/(1+r), 0), cho vay số tiền 100$/(1+r) chu kỳ đầu tiên, người chơi nhận số tiền 100$ chu kỳ thứ hai Thật ra, với giả thiết này, ưa thích người chơi biểu diễn ngắn gọn cách tổng chiết khấu hàm thưởng phạt người chơi với nhân tố chiết khấu 1/(1+r): chuỗi tính từ chuỗi khác cách đưa lãi suất cho vay lãi suất vay vào Giả thiết mà ưa thích người chuỗi kết biểu diễn tổng chiết khấu hạn chế: ưa thích người khơng thiết phải dạng Tuy niên, tổng chiết khấu thể ý tưởng đơn giản người định giá cao tương lai, thể khơng q tối nghĩa đặc tính khác ưa thích vấn đề mà quan tâm Giả sử ưa thích người chơi chuỗi ( w1 , w2 , ) hàm thưởng phạt biểu diễn tổng có chiết khấu hàm thưởng phạt   t 1  t  1wt , với    Đối với chuỗi ( w1 , w2 , ) , có giá trị c cho người chơi khơng có thiên lệch chuỗi ( w1 , w2 , ) chuỗi số (c, c, ) Kí hiệu tổng có chiết khấu chuỗi ( w1 , w2 , ) V Tổng có chiết khấu chuỗi (c, c, ) c /(1   ) (xem thêm Phần 17.5 bạn đọc khơng biết tính tổng cấp số nhân), người chơi khơng có thiên lệch hai chuỗi c (1   )V Như ta gọi (1   )V trung bình chiết khấu chuỗi ( w1 , w2 , ) Nói tóm lại, trung bình chiết khấu chuỗi hàm thưởng phạt ( w1 , w2 , )  t t nhân tố chiết khấu  (1   ) t 1  w Nhân tố   số, giá trị cho  , tổng có chiết khấu trung bình chiết khấu biểu diễn ưa thích Chú ý đố ivới nhân tốt chiết khấu  nằm 1, số c bất kỳ, trung bình chiết khấu chuỗi số hàm thưởng phạt (c, c, ) c 422 14.2.2 Hàm thưởng phạt cân Khi xem xét ưa thích kết tất định theo thời gian, ta thấy nhiều hàm thưởng phạt biểu diễn ưa thích Cụ thể, u hàm thưởng phạt biểu diễn ưa thích người kết tất định, hàm tăng u biểu diễn ưa thích người (Xem Phần 1.2.2) Khi xem xét ưa thích ngẫu nhiên theo thời gian, ta thấy tương đương hàm thưởng phạt hạn chế: u hàm thưởng phạt Bernoulli với giá trị kỳ vọng biểu diễn ưa thích người với ngẫu nhiên, hàm thưởng phạt người chơi khác với giá trị kỳ vọng biểu diễn hàm thưởng phạt hàm tuyến tính tăng u (xem Phần 4.12.2) Trong phần này, nhiều hàm thưởng phạt biểu diễn ưa thích Như trường hợp ưa thích ngẫu nhiên theo thời gian, hàm thưởng phạt tương đương hàm tuyến tính người khác Cụ thể, ưa thích người biểu diễn trung bình chiết khấu hàm thưởng phạt với hàm thưởng phạt u nhân tố chiết khấu  , biểu diễn trung bình chiết khấu hàm thưởng phạt    u nhân tố chiết khấu  , với   số với  > ? BÀI TẬP 423.1 (Sự tương đương hàm thưởng phạt) Minh họa cho câu kết luận Hơn nữa, chuyển đổi tuyến tính u hàm bảo tồn ưa thích: trung bình chiết khấu sử dụng hàm thưởng phạt u v nhân tố chiết khấu biểu diễn ưa thích, v    u vài giá trị    Ý nghĩa kết hàm thưởng phạt khác trò chơi chiến lược tạo ưa thích khác trò chơi lặp lại, quan tâm đến kết tất định Ví dụ, ưa thích người chơi trị chơi lặp lại dựa vào Lưỡng đề người tù với hàm thưởng phạt Bảng 420.1 khác với ưa thích người chơi trị chơi lặp lại dựa vào Lưỡng đề người tù cặp hàm thưởng phạt (0, 3) (3, 0) Bảng 420.1 thay (0, 5) (5, 0) Ví dụ, nhân tố chiết khấu gần 1, người chơi thích chuỗi kết ((C, C), (C, C) chuỗi kết ((D, C), (C, D)) trường hợp đầu, trường hợp thứ hai Vì thế, tơi muốn đề cập đến trị chơi Lưỡng đề người tù lặp lại nói chung, đề cập đến Lưỡng đề người tù cụ thể Nói cách tổng quát hơn, suốt chương chương kế tiếp, tơi định nghĩa trị chơi chiến lược theo ý nghĩa hàm thưởng phạt ưa thích: trị chơi chiến lược bao gồm tập hợp người chơi, người chơi có tập hành động hàm thưởng phạt Trò chơi mà hàm thưởng phạt xếp hạn Bảng 420.1 gọi trị chơi Lưỡng đề người tù 14.3 Trò chơi lặp lại Với trò chơi chiến lược G cho, trò chơi lặp lại G trò chơi mở rộng với thơng tin hồn hảo di chuyển đồng thời (xem Định nghĩa 206.1) khứ chuỗi hồ sơ hành động G Sau khứ không cuối cùng, người chơi chọn hành 423 động G Chiều dài khứ số dương xác định T , ta gọi trò chơi lặp lại xác định, số dương không xác định, ta gọi trị chơi lặp lại khơng xác định ĐỊNH NGHĨA 424.1 (Trò chơi lặp lại) Gọi G trị chơi chiến lược Kí hiệu tập hợp người chơi N tập hợp hành động hàm thưởng phạt người chơi i Ai ui Trò chơi G lặp lại T -chu kỳ, với nhân tố chiết khấu  trị chơi mở rộng với thơng tin hồn hảo di chuyển đồng thời,  Tập hợp người chơi N  Tập khứ cuối tập chuỗi ( a1 , a , aT ) hồ sơ hành động G  Hàm người chơi gán tập tất người chơi khứ ( a1 , a , a t ) (đối với giá trị t)  Tập hành động có sẵn người chơi i sau khứ Ai  Mỗi người chơi i đánh giá khứ cuối ( a1 , a , aT ) vào trung bình T t t chiết khấu (1   ) t 1  ui (a ) Trị chơi lặp lại khơng xác định G nhân tố chiết khấu  khác tập khứ cuối chuỗi không xác định ( a1 , a , ) hàm thưởng phạt người chơi i  t t khứ cuối ( a1 , a , ) trung bình chiết khấu (1   ) t 1  ui (a ) Trong hai trường hợp, khứ cuối gọi đường kết 14.4 Lưỡng đề người tù lặp lại xác định 14.4.1 Cân Nash Chiến lược người chơi trò chơi mở rộng định hành động người chơi tất khứ xảy sau lượt di chuyển người chơi, bao gồm khứ mâu thuẫn với chiến lược người chơi (xem Định nghĩa 208.1) Vì thế, chiến lược người chơi i trò chơi lặp lại T-chu kỳ trò chơi chiến lược G định hành động người chơi i (là thành phần Ai ) điểm bắt đầu trò chơi (nghĩa sau khứ rỗng  ) chuỗi kết ( a1 , a , a t ) G với t T  Xem xét trò chơi lặp lại T-chu kỳ Lưỡng đề người tù Giả sử chiến lược người chơi chọn D chu kỳ, khứ Người chơi khác làm gì? Dù người chơi có làm gì, đối thủ chọn D chu kỳ, người chơi khơng có cách tốt chọn D chu kỳ Vì thế, cặp chiến lược chiến lược người chơi chọn D chu kỳ khứ cân Nash 424 củ trò chơi T-chu kỳ Cặp chiến lược tạo đường kết kết (D, D) chu kỳ Tôi cho cân Nash tạo đường kết quả, trị chơi khơng thể ý tưởng đề cập đến phần giới thiệu chương này, kết hợp tan trì đe dọa bị trừng phạt chệch hướng Lập luận đơn giản: chệch hướng thành C thay D chu kỳ cuối người chơi chọn C bị phạt – kết chu kỳ (D, D) trường hợp – khơng có người chơi đạt tối ưu chọn C chu kỳ Nói cách ngắn gọn, giả sử cặp chiến lược ( s1 , s2 ) tạo đường kết hành động người chơi khác với D chu kỳ kí hiệu t chu kỳ cuối mà kết (D, D), giả sử hành động người chơi C chu kỳ Tơi cho người chơi chệch hướng khỏi s1 làm tăng hàm thưởng phạt Giả sử người chơi chọn chiến lược s1 khác với s1 chỗ từ chu kỳ t, người chơi chọn D cho chu kỳ Đường kết tạo cặp chiến lược ( s1, s2 ) , khác với đường kết tạo ( s1 , s2 ) chỗ hành động người chơi chu kỳ t, D C, hành động người chơi chu kỳ t  sau Trong chu kỳ t, hành động người chơi ( s1, s2 ) ( s1 , s2 ) , s1 khác s1 kể từ chu kỳ t trở Từ chu kỳ t  trở đi, hành động người chơi hai trường hợp D Vì thế, hàm thưởng phạt người chơi hai cặp chiến lược chu kỳ t  , chu kỳ t , hàm thưởng phạt ( s1, s2 ) cao ( s1 , s2 ) , chu kỳ từ t  đến T, hàm thưởng phạt ( s1, s2 ) cao ( s1 , s2 ) Đồ thị 425.1 đường kết tạo từ cặp chiến lược mối quan hệ hàm thưởng phạt người chơi chu kỳ Ta kết luận cân Nash trò chơi Lưỡng đề người tù lặp lại xác định tạo kết (D, D) chu kỳ Chiến lược người chơi định hành động khác với D khứ mà kết vài chu kỳ (D, D) – hứa hẹn hợp tác người chơi khác hợp tác – kết tạo cặp chiến lược cân (D, D) chu kỳ (không có người chơi chọn C, khơng có hợp tác tạo ra) Cụ thể, kí hiệu cân Nash khơng giải thích ý tưởng thảo luận phần đầu chương 14.4.2 Cân hồn hảo trị chơi Mọi cân hồn hảo trò chơi trò chơi mở rộng cân Nash, ta biết cbng hồn hảo trị chơi trị chơi Lưỡng đề người tù lặp lại xác định, giống cân Nash, tạo kết (D, D) chu kỳ Nhưng cân hoàn hảo trị chơi con, ta giới hạn thêm chiến lược BÀI TẬP 426.1 (Cân hoàn hảo trò chơi trò chơi Lưỡng đề người tù lặp lại xác định) Chỉ trò chơi Lưỡng đề người tù lặp lại xác định có cân hồn hảo trị chơi chiến lược người chơi chọn D chu kỳ 425 14.5 Lưỡng đề người tù lặp lại không xác định Lập luận cân Nash Lưỡng đề người tù lặp lại xác định, hành động người chơi D chu kỳ phụ thuộc vào yếu tố đường kết dạng trị chơi có chu kỳ cuối người chơi chọn C Trị chơi chơi mãi, có đường kết mà người chơi chu kỳ t , có chu kỳ tương lai hành động người chơi C, cách chọn D thay chọn C, người chơi trừng phạt người chơi khác chệch hướng chu kỳ t Điều dẫn đến ý kiến trị chơi lặp lại khơng xác định mơ hình phù hợp mà giải thích ý tưởng hợp tác trì chiến lược “trừng phạt” người chơi tương tác lặp lặp lại Hầu hết tương tác cuối số chu kỳ xác định xác định trước (như mơ hình trị chơi lặp lại xác định) chu kỳ liên tục không xác định Giả thiết giải thích tốt lý chiến lược người chơi? Như thấy, mơ hình trị chơi Lưỡng đề người tù lặp lại xác suất, chu kỳ xác định cố định áp dụng ảnh hưởng áp đảo hành vi người chơi Trực giác cho thấy nhiều tương tác kéo dài, ngày kết thúc đóng vai trị nhỏ việc tính tốn chiến lược người chơi xảy Trong trường hợp này, mơ hình trị chơi diễn liên tục khơng xác định có lẽ giải thích quan tâm tương ứng với lựa chọn chiến lược người chơi tốt mơ hình trò chơi lặp lại xác định Trước nghiên cứu cân trò chơi Lưỡng đề người tù lặp lại không xác suất, thảo luận cách thuận lợi để mô tả chiến lược 14.6 Các chiến lược Lưỡng đề người tù lặp lại không xác định Một chiến lược người chơi i trị chơi lặp lại khơng xác định G định hành động người chơi i (là thành phần Ai ) chuỗi kết ( a1 , a , a t ) G Ví dụ, chiến lược bóp cị nhanh Lưỡng đề người tù lặp lại không xác định đề cập đến Phần 14.1 định nghĩa sau: si ( ) C C neu (a1j , , a tj ) (C , , C ) si (a , a , a )   D truong hop khac t (426.2) Đối với khứ ( a1 , , a t ) với j người chơi khác Như thế, người chơi i chọn C điểm bắt đầu trò chơi (sau khứ rỗng  ) sau khứ hành động trước người chơi j C, D sau khứ khác Ta nghĩ chiến lược có hai trạng thái: gọi C , C chọn, trạng thái khác gọi D, D chọn Đầu tiên trạng thái C Nếu, trạng thái C, người chơi khác chọn D, trạng thái chuyển sang D, lại trạng thái Đồ thị 427.1 trình bày chiến lược ta nghĩ dạng Trong hộp bên trái, với đường đậm màu, biểu diễn trạng thái ban đầu C, người chơi chọn hành động C Trạng thái C, trừ người chơi khác chọn D (được đặt tên (, D) nằm 426 mũi tên, trường hợp trạng thái thay đổi thành D, người chơi khác chọn D (Tôi sử dụng quy ước trạng thái trì trừ kiện xảy ra, tên mũi tên bắt nguồn từ trạng thái đó) Khi trạng thái D đạt đến, khơng rời khỏi: khơng có mũi tên hộp cho trạng thái D Một chiến lược biểu diễn Đồ thị 427.1 Trong nhiều trường hợp, đồ thị dễ giải thích hợp kí hiệu hành động diễn sau khứ biểu diễn công thức (426.2) Đồ thị 427.1 Chiến lược bóp cị cho trị chơi Lưỡng đề người tù lặp lại không xác định Đồ thị 427.2 Chiến lược cho trò chơi Lưỡng đề người tù lặp lại khơng xác định mà có trừng phạt chệch hướng ba chu kỳ Đồ thị 427.3 Chiến lược ăn miếng trả miếng cho trò chơi Lưỡng đề người tù lặp lại không xác định Đồ thị 427.2 chiến lược mà gây trừng phạt khắc nghiệt chiến lược bóp cò nhanh Chiến lược trừng phạt chệch hướng ba chu kỳ: đáp ứng chệch hướng cách chọn hành động D ba chu kỳ, sau chuyển lại C, người chơi khác cư xử suốt trình trừng phạt (Chú ý chiến lược Như chiến lược bóp cị nhanh, q trình chuyển đổi xảy từ trạng thái ban đầu người chơi khác chọn D Ở phần sau (Phần 14.10), ta gặp chiến lược mà việc chuyển đổi bị gây hành động người chơi) Trong chiến lược trả đũa, chiến lược trừng phạt phụ thuộc vào hành động người bị phạt Nếu người tiếp tục chọn D, trả đũa tiếp tục; người chuyển thành C, trả đũa chuyển thành C Chiến lược mơ tả ngắn gọn: làm điều mà người chơi khác làm chu kỳ trước Xem minh họa Đồ thị 427.3 427 ? BÀI TẬP 428.1 (Các chiến lược trò chơi Lưỡng đề người tù lặp lại không xác định) Biểu diễn chiến lược sau cho trị chơi Lưỡng đề người tù lặp lại khơng xác định Đồ thị 427.1 a Chọn C chu kỳ sau khứ mà người chơi khác chọn C chu kỳ ngoại trừ chu kỳ vừa rồi; chọn D sau khứ khác (Như thế, trừng phạt nghiêm khắc, bị trì hỗn chu kỳ) b Chọn C chu kỳ sau khứ mà người chơi khác chọn D nhiều chu kỳ; chọn D sau khứ khác (Như trừng phạt nghiêm khắc, sai lệch tha thứ) c (Pavlov, hay trì chiến thắng, chuyển đổi thất bại) Chọn C chu kỳ sau khứ kết chu kỳ cuối (C, C) (D, D); chọn D sau khứ khác (Như thế, chọn hành động trở lại kết tốt bạn, chuyển hành động khơng tốt) 14.7 Một vài cân Nash trị chơi Lưỡng đề người tù lặp lại khơng xác định Nếu người chơi chọn D sau khứ trò chơi Lưỡng đề người tù lặp lại khơng xác suất, người chơi khác tốt nên chon (bởi (D, D) cân Nash Lưỡng đề người tù) Vì thế, cặp chiến lược người chơi chọn D sau khứ cân Nash trị chơi lặp lại khơng xác định Lập luận phần đầu chương cho người chơi đủ kiên nhẫn, trị chơi Lưỡng đề người tù lặp lại khơng xác định có cân khác, ảm đạm – ví dụ, cặp chiến lược mà người chơi sử dụng chiến lược bóp cị nhanh định nghĩa Đồ thị 427.1 Bây lập luận cách ngắn gọn Từ đầu đến cuối, xem xét trị chơi Lưỡng đề người tù lặp lại khơng xác định nhân tố chiết khấu người chơi  hàm thưởng phạt đợt trình bày Bảng 420.1 14.7.1 Chiến lược bóp cò nhanh Giả sử người chơi sử dụng chiến lược bóp cị nhanh Nếu người chơi sử dụng chiến lược, kết (C, C) chu kỳ, người chơi đạt chuỗi hàm thưởng phạt (2, 2, …) với trung bình chiết khấu Nếu người chơi chấp nhận chiến lược mà tạo chuỗi kết khác, chu kỳ, hành động người chơi D Trong tất chu kỳ tiếp theo, người chơi chọn D (sự lựa chọn D người chơi làm gây trừng phạt nghiêm khắc), chệch hướng tốt cho người chơi chọn D chu kỳ (bởi D đáp ứng tốt nhất người chơi D) Lui lại chu kỳ mà người chơi chọn D, người chơi đạt hàm thưởng phạt chu kỳ, người chơi sử dụgn chiến lược bóp cị nhanh Lần lượt thế, người chơi đạt chuỗi hàm thưởng phạt (3, 1, 1,…) (người chơi thu đơn vị hàm thưởng phạt chu kỳ mà chệch hướng, đơn vị chu kỳ kế tiếp), với trung bình chiết khấu là:  (1   )(3        ) (1   )(3  ) 1  3(1   )   Vì thế, người chơi tăng hàm thưởng phạt chệch hướng 428 Lập luận dẫn đến cặp hàm thưởng phạt ( x1 , x2 ) trò chơi Lưỡng đề người tù, với nhân tố chiết khấu gần một, trị chơi lặp lại khơng xác định có cân Nash cặp hàm thưởng phạt trung bình chiết khấu xấp xỉ ( x1 , x2 ) Thật ra, với số phép tính tốn nữa, ta bỏ qua xấp xỉ, đạt kết sau đây, nhiều kết gọi “định lý dân gian”, cấu trúc hiểu lâu trước có cơng trình chứng minh ĐỊNH ĐỀ 435.1 (Định lý dân gian Nash cho trò chơi Lưỡng đề người tù lặp lại không xác định) Gọi G trò chơi Lưỡng đề người tù  Đối với nhân tố chiết khấu  bất kỳ, cho    , hàm thưởng phạt trung bình chiết khấu người chơi i cân Nash trị chơi lặp lại khơng xác định G nhỏ ui ( D, D)  Gọi ( x1 , x2 ) cặp hàm thưởng phạt G mà xi  ui ( D, D ) người chơi i Sẽ tồn giá trị   cho nhân tố chiết khấu lớn  , trị chơi lặp lại khơng xác định G có cân Nash hàm thưởng phạt trung bình chu kỳ người chơi i xi  Đối với giá trị nhân tố chiết khấu bất kỳ, trị chơi lặp lại khơng xác định G có cân Nash hàm thưởng phạt trung bình chiết khấu người chơi i ui ( D, D) Bạn đọc thắc mắc phần hai định đề không phát biểu đơn giản hơn: không phát biểu đường kết mà hàm thưởng phạt trung bình chiết khấu người chơi vượt hàm thưởng phạt đố với ( D, D) tạo cân Nash? Lý đơn giản: tuyên bố khơng đúng! Ví dụ, xem xét đường kết ((C , C ), ( D, D), ( D, D), ) kết chu kỳ ngoại trừ chu kỳ ( D, D) Đối với nhân tố chiết khấu nhỏ 1, hàm thưởng phạt trung bình chiết khấu người chơi vượt hàm thưởng phạt ( D, D) đường kết Tuy nhiên, khơng có cân Nash tạo đường kết quả: người chơi mà chệch hướng thành D chu kỳ đạt hàm thưởng phạt cao chu kỳ hàm thưởng phạt chu kỳ kế tiếp, nhiên đối thủ họ cư xử phải phép (Lập luận tương tự lập luận việc không tồn cân Nash mà trong hai người chơi chọn C chu kỳ trò chơi lặp lại xác định (xem thêm phần 14.4.1)) Đồ thị 436.1 minh họa tập hợp hàm thưởng phạt trung bình chiết khấu tạo cân Nash trị chơi Lưỡng đề người tù lặp lại khơng xác định với hàm thưởng phạt Bảng 420.1, đề cập đến Định đề 435.1 Đối với điểm ( x1 , x2 ) phần hình mờ, cách chọn nhân tố chiết khấu gần ta đảm bảo có điểm gần ( x1 , x2 ) muốn, để cặp hàm thưởng phạt trung bình chiết khấu cân Nash trò chơi lặp lại không xác định Biểu đồ thể rõ ràng tập hợp hàm thưởng phạt cân Nash trò chơi lặp lại lớn Lưỡng đề người tù có cân Nash nhất, cặp hàm thưởng phạt cân Nash nhất, cặp hàm thưởng phạt cân Nash trị chơi lặp lại khơng xác định biến đổi từ nhỏ tới lớn 435 Đồ thị 436.1 Tập hợp xấp xỉ hàm thưởng phạt trung bình chiết khấu cân Nash cho trò chơi Lưỡng đề người tù lặp lại không xác định với hàm thưởng phạt lần Bảng 420.1 nhân tố chiết khấu gần Kết chiến lược cân Việc chứng minh định đề cặp chiến lược người chơi trừng phạt chệch hwóng cách chuyển sang chọn D vĩnh viễn cân Nash ngược lại shed light cân Trong cân mà người chơi chọn C vài chu kỳ, chiến lược người chơi khác phải ngăn cản chệch hướng sang D cách chọn D vài chu kỳ tương lai mà đó, khơng có chệch hướng, họ chọn C Với ý này, chiến lược cân gây “sự trừng phạt” Nhưng ta thấy Phần 14.7, người chơi đủ kiên nhẫn, kết hợp tác đạt trì trừng phạt khắc khe CÁC BẰNG CHỨNG THÍ NGHIỆM Trong tháng giêng năm 1950, John Nash nghiên cứu sinh, Melvin Dresher Merrill Flood đưa trò chơi gọi Lưỡng đề người tù tiến hành thí nghiệm hai người bạn cua rhọ chơi 100 lần liên tiếp (xem cơng trình Flood 1958/59, trang 11) Dresher Flood dự định kiểm tra kí hiệu cân Nash cách xem 100 vòng quan sát độc lập kết trò chơi Lưỡng đề người tù nhìn vào số chu kỳ kết cân ( D, D) Nash thí nghiệm nên quan sát 100 lần chơi độc lập trò chơi Lưỡng đề người tù, mà nên xem 100 đoạn trò chơi lặp lại - nhận xét ghi lại trang 16 báo cáo Flood Nash lưu ý cân Nash trò chơi lặp lại xác định này, người chơi chọn D chu kỳ (như ta thấy Phần 14.4.1) Nhưng ông lập luận cặp chiến lược người chơi sử dụng chiến lược bóp cị nhanh “gần như” cân bằng, la cân trị chơi biến thể với chu kỳ khơng xác định Ông tiếp tục lập luận có 100 lần thử làm trò chơi đủ dài để “một người nên kỳ vọng xấp xỉ [chiến lược bóp cị nhanh]…., với cơng kích cuối, có lẽ cơng, để kiểm tra lòng can đảm đối thủ suốt trò chơi” Hành vi chủ thể thí nghiệm phù hợp với ý tưởng Nash 60 89 chu kỳ cuối, kết (C , C ) Trong tất kết quả, ngoại trừ hai chu kỳ, kết phù hợp với việc người chơi sử dụng chiến lược “sự trừng phạt bị giới hạn” số chu kỳ trừng phạt biến đổi từ đến 4, người chơi sử dụng chiến lược chọn C hầu hết lần 436 cố gắng chệch hướng chu kỳ sang D, bị trừng phạt, tiếp tục chọn D người chơi ngừng trừng phạt Trong thí nghiệm này, hai chủ chơi trị chơi lần Nếu chủ thể có kinh nghiệm, hành vi có khác khơng? Một thí nghiệm tiến hành với sinh viên ngành kinh tế quản trị kinh doanh trường Đại học Bielefeld, Đức vào năm đầu 1980, kiểm tra khía cạnh này: Khi chủ thể thu kinh nghiệm chơi trò chơi Lưỡng đề người tù lặp lại xác định, kết có phải cân Nash nhất, kết ( D, D) chu kỳ? Mỗi người 35 người chơi 25 lần, trò chơi Lưỡng đề người tù lặp lại 10- chu kỳ, với đối thủ người khác (xem Selten Stoecker 1986) Hầu hết đường kết (96%) trò chơi lặp lại cuối chơi người bao gồm chu kỳ cặp hành động (C , C ) theo sau chệch hướng thành D hai người chơi, hành động ( D, D) chu kỳ cịn lại Vì thế, dễ dàng tháy hầu hết người chơi hoạch định để chọn C chu kỳ đầu tiên, chọn D đối thủ chọn thế, đầu họ có chu kỳ họ dự định chuyển hướng thành D đối thủ họ chưa làm Các nhà thí nghiệm suy luận chu kỳ chệch hướng người chơi cách nghiên cứu trò chơi quan sát, nhận xét viết người chơi suốt trò chơi Họ thấy 13 lần chơi cuối trị chơi lặp lại, trung bình chu kỳ chệch hướng dự định nằm khoảng từ 9.2 đến 7.4 Như thí nghiệm “trị chơi rết” thảo luận trang 234, hành vi người chơi xa với cân Nash nhất, di chuyển chậm chạp hướng cân Các kết đưa có 25 lần chơi trị chơi lặp lai không đủ cho hành vi người chơi ổn định khơng máy la fnó khơng đưa cho manh mối tính chất hành vi ổn định Các thí nghiệm liên quan đến nhiều lượt chơi trò chơi tiến hành khó khăn (và tốn kém), câu hỏi đưa thí nghiệm Dresher Flood chưa trả lời 14.9 Các cân hồn hảo trị chơi đặc điểm lần chệch hướng Ta biết nghiên cứu trò chơi mở rộng (ở Chương 5) cân Nash đưa đến đe dọa khơng đáng tin Kí hiệu cân hồn hảo trò chơi loại trừ đe dọa Các cân Nash trò chơi Lưỡng đề người tù lặp lại không xác định nghiên cứu Phần 14.7 mà tạo kết (C , C ) chu kỳ dẫn đến đe dọa Thật vậy, hiệu lực dựa hồn tồn mối đe dọa “trừng phạt” người chơi khác chệch hướng khỏi (C , C ) Những mối đe dọa có đáng tin cậy? Một cặp chiến lược trò chơi mở rộng cân hồn hảo trị chơi cặp chiến lược tạo trị chơi cân trị chơi Để kiểm tra xem điều kiện có thỏa trị chơi với chu kỳ xác định tùy ý chu kỳ khơng xác suất, khó khăn Trong phần này, mô tả kết mà đơn giản hóa Trong phần kế tiếp, tơi sử dụng kết để nghiên cứu cân hồn hảo trị chơi trò chơi Lưỡng đề người tù lặp lại không xác định Tôi cho hồ sơ chiến lược trò chơi mở rộng với chu kỳ xác định trị chơi lặp lại khơng xác định với chiết khấu cân hồn hảo trị chơi thỏa mãn điều kiện sau đây: 437 Đồ thị 438.1 Minh họa trò chơi mở rộng người chơi mà kết hồ sơ chiến lược thỏa mãn đặc tính lần chệch hướng cân hồn hảo trị chơi Đặc điểm chệch hướng: khơng có người chơi làm tăng hàm thưởng phạt họ thay đổi hành động điểm bắt đầu trị chơi mà người chơi người di chuyển đầu tiên, với chiến lược người chơi khác phần lại chiến lược người chơi cho trước Nếu hồ sơ chiến lược cân hoàn hảo trị chơi con, chắn thỏa mãn đặc tính chệch hướng, khơng có người chơi gia tằng hàm thưởng phạt thay đổi chiến lược họ Để hình thành tun bố tơi, cần phải điều ngược lại: hồ sơ chiến lược thỏa đặc tính chệch hướng, phải cân hồn hảo trị chơi Ý tưởng lập luận minh họa Đồ thị 438.1 Giả sử chiến lược CEG thỏa mãn đặc điểm chệch hướng Thì người chơi khơng thể tăng hàm thưởng phạt cách chuyển đổi từ E sang F trò chơi theo sau C (trị chơi có chu kỳ), w  x , tương tự tăng hàm thưởng phạt cách chuyển từ G sang H trò chơi theo sau D, y  z Hơn nữa, người chơi khơng thể tăng hàm thưởng phạt tồn trò chơi (trò chơi theo sau  ) cách chuyển từ C sang D điểm bắt đầu trò chơi, giữ phần chiến lược cịn lại cố định (và chọn G sau khứ D) Vì w  y Ta kết luận w  z , thay đổi lại chiến lược người chơi từ CEG thành DEH DFH (mà liên quan đến chệch hướng hai chu kỳ) khơng mang lại hiệu Vì CEG cân hồn hảo trị chơi Ta thấy giả thiết mà người chơi tăng hàm thưởng phạt cách thay đổi hành động điểm bắt đầu trị chơi dẫn đến kết luận người chơi gia tăng hàm thưởng phạt thay đổi chiến lược mình, thay đổi chiến lược người chơi bị phá vỡ chuỗi thay đổi một-chu kỳ Lập luận khơng phụ thuộc vào có mặt người chơi đơn, kí hiệu cân hồn hảo trị chơi (giống kí hiệuc cân Nash) chri liên quan đến quan tâm chệch hướng người chơi đơn với chiến lược người chơi khác cho trước Nó khơng phụ thuộc vào chiều dài trị chơi 2, mà áp dụng cho trò chơi với chu kỳ xác định Vì thế, ta có kết sau (Tơi bỏ qua phần chứng minh ngắn) ĐỊNH ĐỀ 438.1 (Đặc tính chệch hướng cân hoàn hảo trị chơi trị chơi có chu kỳ xác định) Một hồ sơ chiến lược trò chơi mở rộng với thơng tin hồn hảo chu kỳ xác định cân hồn hảo trị chơi thỏa đặc tính chệch hướng 438

Ngày đăng: 21/07/2023, 20:02