1. Trang chủ
  2. » Luận Văn - Báo Cáo

Một số thuật toán trong lý thuyết trò chơi

46 1,5K 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 46
Dung lượng 0,97 MB

Nội dung

Lý thuyết trò chơi nghiên cứu các quyết định được đưa ra trong một môi trường gồm có các đối thủ tương tác với nhau và nghiên cứu cách lựa chọn hành vi tối ưu khi chi phí và lợi ích của

Trang 1

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

ĐẠI HỌC THÁI NGUYÊN

TRƯỜNG ĐẠI HỌC KHOA HỌC

PHẠM THỊ THU PHƯƠNG

MỘT SỐ THUẬT TOÁN TRONG LÝ THUYẾT TRÒ CHƠI

Trang 2

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

MỤC LỤC

MỤC LỤC

LỜI CẢM ƠN 1

MỞ ĐẦU 2

Chương 1: SƠ LƯỢC VỀ LÝ THUYẾT TRÒ CHƠI 3

1.1 Xuất xứ 3

1.2 Một số bài toán 6

1.2.1 Bài toán 1 6

1.2.2 Bài toán 2 8

1.3 Một số khái niệm 10

Chương 2: MỘT SỐ THUẬT TOÁN TRÒ CHƠI 14

2.1 Trò chơi ma trận 14

2.2 Các chiến lược trong trò chơi ma trận 16

2.2.1 Các chiến lược thuần túy trong trò chơi ma trận 16

2.2.2 Các chiến lược hỗn hợp trong trò chơi ma trận 20

2.2.3 Lý thuyết trò chơi dưới dạng qui hoạch tuyến tính 32

2.2.4 Chiến lược từng bước và phương pháp Brown 37

KẾT LUẬN 43

TÀI LIỆU THAM KHẢO 44

Trang 3

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

LỜI CẢM ƠN

Sau một thời gian nghiên cứu tìm hiểu, em đã hoàn thành Luận văn Thạc

sỹ toán học chuyên ngành Toán ứng dụng với đề tài: “Một số thuật toán

trong lý thuyết trò chơi”

Lời đầu tiên em xin bày tỏ lòng biết ơn sâu sắc tới Thầy giáo TS Vũ Mạnh Xuân đã tận tình hướng dẫn em trong suốt quá trình nghiên cứu và

thực hiện luận văn Em cũng xin chân thành cảm ơn Quý thầy cô tham gia giảng dạy,các thầy cô phòng đào tạo và cô Nguyễn Thị Thu Thủy trưởng khoa Toán Tin trường Đại học Khoa học – Đại học Thái Nguyên đã hướng dẫn, truyền đạt kiến thức, tạo mọi điều kiện giúp đỡ cho em trong suốt thời gian theo học và thực hiện luận văn này

Qua việc nghiên cứu và hoàn thành luận văn, em đã có thêm nhiều kiến thức bổ ích trong chuyên môn cũng như phương pháp luận nghiên cứu khoa học Trong khuôn khổ của một luận văn, chắc chắn chưa đáp ứng được đầy đủ những vấn đề đặt ra Vì điều kiện nghiên cứu còn hạn chế, nên mặc dù đã cố gắng rất nhiều nhưng luận văn không tránh khỏi những thiếu sót Em rất mong nhận được sự đóng góp ý kiến, phê bình quý báu của các nhà khoa học, các thầy cô và các bạn đồng nghiệp

Một lần nữa em xin chân thành cảm ơn !

Thái Nguyên, tháng 09 năm 2014

Học viên

Phạm Thị Thu Phương

Trang 4

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

MỞ ĐẦU

Lý thuyết trò chơi là một nhánh của Toán học ứng dụng Ngành này nghiên cứu các tình huống chiến thuật trong đó các đối thủ lựa chọn các hành động khác nhau để cố gắng làm tối đa kết quả nhận được Lý thuyết trò chơi nghiên cứu các quyết định được đưa ra trong một môi trường gồm có các đối thủ tương tác với nhau và nghiên cứu cách lựa chọn hành vi tối ưu khi chi phí

và lợi ích của mỗi lựa chọn là không cố định mà phụ thuộc vào lựa chọn của các cá nhân khác Mặc dù còn là lĩnh vực khá mới mẻ, song lý thuyết trò chơi được sử dụng trong nhiều ngành khoa học, từ Sinh học, Triết học, khoa học máy tính, kinh tế học cho đến chính trị, quân sự và văn hóa

Trong các trường đại học, lý thuyết trò chơi mới chủ yếu được giới thiệu sơ lược với một số ngành thuộc lĩnh vực kinh tế

Mục đích của đề tài này nhằm nghiên cứu khái quát về lý thuyết trò chơi, một số chiến lược trong trò chơi ma trận và minh họa bằng những ví dụ

Trang 5

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Chương này trình bày về lý thuyết trò chơi và xuất xứ của nó, các bài toán cũng như các khái niệm và ứng dụng của lý thuyết trò chơi trong thực tế Các kiến thức trong chương được tham khảo và sử dụng trong các tài liệu:

Don Ross (2010), Games Theory

Jim Ratliff (1997), Strategic form Games

Fudenberg (1991), Drew and Jean Tirole: Game Theory, MIT Press

1.1 Xuất xứ

Lý thuyết trò chơi là một nhánh của Toán học ứng dụng Ngành này nghiên cứu các tình huống chiến thuật trong đó các đối thủ lựa chọn các hành động khác nhau để cố gắng làm tối đa kết quả nhận được Việc phân tích các tình huống cạnh tranh có hai mục tiêu Mục tiêu thứ nhất là tìm hiểu được tại sao các bên tham gia trò chơi trong các tình huống cạnh tranh đó lại ứng xử như họ làm Mục tiêu thứ hai có tính thực dụng hơn là có khả năng gợi ra cho người chơi cách chơi cách chơi nào tốt nhất Mục tiêu thứ nhất đặc biệt quan trọng khi trò chơi ở mức rộng, có nhiều người chơi và có các quy tắc chơi phức tạp Theo đuổi mục tiêu thứ hai có thể cho phép mô tả cho từng người chơi một chiến lược tốt nhất mà người ta có thể chơi

Những thảo luận đầu tiên được biết đến về lý thuyết trò chơi xuất hiện trong một lá thư viết bởi James Waldegrave vào năm 1713 Trong lá thư này, Waldegrave đưa ra lời giải chiến thuật hỗn hợp minimax cho một trò đánh bài hai người chơi Le Her Chỉ đến khi sự xuất bản “Nghiên cứu về những Định luật toán học của lý thuyết Tài sản” của Antoine Augustin Cournot vào năm

1838 thì những phân tích chung về lý thuyết trò chơi mới được theo đuổi

Mặc dù những phân tích của Cournot là tổng quát hơn là của Waldegrave, lý thuyết trò chơi chưa thật sự tồn tại như là một ngành duy nhất cho đến khi John von Neumann xuất bản một loạt các bài báo vào năm 1928

Trang 6

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Những kết quả này sau này được mở rộng thêm ra trong cuốn sách xuất bản năm 1944 “Lý thuyết trò chơi và các hành vi kinh tế” bởi von Neumann và Oskar Morgenstern Tác phẩm uyên thâm này chứa đựng phương pháp tìm những lời giải tối ưu cho những trò chơi tổng bằng không với hai người chơi Trong suốt khoảng thời gian này, những tác phẩm về lý thuyết trò chơi chủ yếu tập trung vào lý thuyết các trò chơi hợp tác, phân tích về những chiến thuật tối ưu cho một nhóm các cá nhân, giả sử rằng họ có thể bảo đảm những thỏa thuận giữ họ với những chiến thuật thích hợp

Vào năm 1950, thảo luận đầu tiên của Prisoner's dilemma xuất hiện, và một thí nghiệm được làm về trò chơi này tại công ty RAND Vào khoảng cùng thời gian đó, John Nash phát triển một định nghĩa về một chiến thuật

"tối ưu" cho các trò chơi với nhiều người chơi, và được biết đến như là cân bằng Nash Cân bằng này là đủ tổng quát, cho phép sự phân tích về trò chơi không hợp tác thêm vào những trò chơi có hợp tác

Lý thuyết trò chơi trải qua một thời gian sôi động trong những năm

1950, trong những năm đó những khái niệm về cốt lõi, dạng trò chơi bao quát, trò chơi giả, trò chơi lặp, và giá trị Shapley được phát triển Thêm vào đó, những ứng dụng đầu tiên của lý thuyết trò chơi vào triết học và khoa học chính trị diễn ra trong thời gian này

Vào năm 1965, Reinhard Selten giới thiệu khái niệm lời giải của các cân bằng lý tưởng của các trò chơi con, làm chính xác thêm cân bằng Nash Vào năm 1967, John Harsanyi phát triển các khái niệm thông tin hoàn toàn và trò chơi Bayesian Ông ta, cùng với John Nash và Reinhard Selten, đoạt giải thưởng Nobel về kinh tế vào năm 1994

Trong những năm 1970, lý thuyết trò chơi được áp dụng rộng rãi vào sinh học, chủ yếu là do kết quả của các công trình của John Maynard Smith

và chiến lược tiến hóa bền vững của ông Thêm vào đó, những khái niệm về

Trang 7

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

cân bằng liên quan, sự hoàn toàn rung tay, và kiến thức chung được giới thiệu

và phân tích

Vào năm 2005, những lý thuyết gia trò chơi Thomas Schelling và Robert Aumann đoạt giải thưởng Nobel về kinh tế Schelling là về các mô hình động, các ví dụ ban đầu của lý thuyết tiến hóa trò chơi Aumann đóng góp thêm vào trường cân bằng (equilibrium school), phát triển một cân bằng làm thô đi những cân bằng liên quan nhau và phát triển các phân tích chi tiết

về giả sử của kiến thức chung

Năm 2012, hai người Mỹ là Alvin Roth và Lloyd Shapley cùng được trao giải Nobel về kinh tế nhờ những công trình về lý thuyết phân phối ổn định và thực tiễn tạo lập thị trường, trên cơ sở sử dụng lý thuyết trò chơi và thực nghiệm

Ngày nay, trong cuộc sống của chúng ta có rất nhiều ví dụ liên quan đến

áp dụng lý thuyết trò chơi như:

- Chơi cờ, chơi bài, đánh bạc hoặc chơi xổ số khi nghiên cứu tần số xuất hiện các con số

- Thi đấu thể thao

- Chiến thuật, chiến lược quân sự

- Cạnh tranh kinh tế của các doanh nghiệp với nhau hoặc chiến lược sản xuất khi nghiên cứu thị trường tiêu thụ

- Cạnh tranh với thời tiết và nói chung với thiên nhiên trong sản xuất nông nghiệp nói riêng hay trong nền kinh tế nói chung

- Phương án vận chuyển trên các tuyến đường trong tình thế khẩn cấp với thời tiết thay đổi vvv

Từ đây ta có thể thấy rằng, lý thuyết trò chơi giờ đây đã được ứng dụng rộng khắp trong tất cả các lĩnh vực từ văn hóa, chính trị, quân sự, kinh tế cho đến nhiều ngành khác

Trang 8

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

1.2 Một số bài toán

1.2.1 Bài toán 1

Bài toán trò chơi qua sông:

Giả sử bạn muốn đi ngang qua một con sông và ở đó có ba chiếc cầu (Giả sử việc bơi, lội, đi thuyền đều không thể được) Chiếc cầu đầu tiên an toàn và không có trở ngại gì Chiếc cầu thứ hai nằm dưới chân một mỏm đá trên đó có những tảng đá lớn thỉnh thoảng vẫn rơi xuống Chiếc cầu thứ ba thì

có những con rắn hổ mang rất độc sống ở đó Giả sử bạn là người trốn chạy

và một người có một khẩu súng đang đợi bạn một bên bờ sông Hắn ta sẽ đuổi kịp, và bắn bạn, chúng ta giả định như vậy, nếu chỉ khi hắn ta đợi ở chiếc cầu

an toàn mà bạn cố vượt qua Vấn đề đặt ra là bạn sẽ chọn cho mình chiếc cầu nào để vượt qua sông?

Bài toán này bạn nhận ra rằng: bạn phải chọn lối đi nào an toàn nhất cho mình sao cho tránh được các chướng ngại vật cũng như tránh được người truy đuổi Dường như bạn đã bị rơi vào một cái bẫy tình huống không thể quyết định được Toàn bộ những gì an ủi bạn chỉ là: ở bờ sông bên kia người săn đuổi bạn cũng bị mắc chính vào cái bẫy khó xử đó, không thể quyết định được nên đợi ở cây cầu nào,vì ngay khi hắn ta hình dung phải đợi ở cây cầu này thì hắn ta lại nhận ra rằng nếu hắn ta có thể tìm ra một lý do tốt hơn để chọn được một cây cầu, thì bạn có thể đoán trước được đúng cái lý do đó và

để rồi lại tránh hắn ta

Vì trong trò chơi này cả người chạy trốn lẫn kẻ truy đuổi đều chỉ có một vận động và mỗi người lựa chọn vận động của họ mà không hề biết người kia lựa chọn vận động nào

Ba chiến lược của người chạy – qua chiếc cầu an toàn, những tảng đá

có nguy cơ bị rơi và nguy cơ gặp rắn hổ mang – tạo thành các hàng của ma trận Tương tự như vậy ba chiến lược của người săn đuổi - đợi ở chiếc cầu an toàn, đợi ở chiếc cầu có đá rơi, và đợi ở chiếc cầu có rắn hổ mang – tạo thành

Trang 9

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

cột của ma trận Mỗi ô của ma trận chỉ rõ hoặc sẽ chỉ rõ nếu ma trận của

chúng ta hoàn thiện – một kết quả được xác định trong khuôn khổ những

khoản được trả của người chơi Một khoản được trả của người chơi đơn giản

là một con số được ấn định bởi hàm tiện ích thứ tự của người săn đuổi cho hiện trạng của các sự kiện phù hợp với kết quả Đối với mỗi kết quả, khoản được trả của Hàng luôn luôn được kê trước hết, sau đó đến khoản được trả của Cột Vì vậy chẳng hạn như góc trái ở trên cùng cho thấy rằng khi người chạy trốn đi qua chiếc cầu an toàn còn người săn đuổi cũng đang chờ ở đó thì người chạy trốn nhận được một khoản được trả bằng 0, và người săn đuổi nhận được khoản được trả bằng 1 Chúng ta lý giải điều này bằng cách qui chiếu vào hàm tiện ích của họ mà trong cuộc chơi này là rất đơn giản Nếu người chạy trốn qua sông được an toàn thì anh ta nhận được một khoản được trả là 1; nếu không an toàn thì anh ta được 0 Nếu người chạy trốn không thực hiện được vì anh ta bị bắn hoặc bị đá rơi vào hoặc bị rắn hổ mang tấn công thì người săn đuổi nhận được khoản được trả là 1 và người chạy trốn là 0

Bất cứ khi nào người săn đuổi đợi ở chiếc cầu mà người chạy trốn lựa chọn thì người chạy trốn sẽ bị bắn Tất cả những kết quả này tạo ra vector của khoản được trả là (0, 1) Bạn có thể tìm ra chúng bằng cách vạch chéo xuống qua ma trận từ góc phía trên bên trái xuống Bất cứ khi nào mà người bỏ trốn chọn chiếc cầu an toàn nhưng người săn đuổi lại đợi ở chỗ khác thì người chạy trốn qua sông được an toàn, bằng cách nhận được khoản được trả theo vector (1, 0) Hai kết quả này được chỉ rõ trong hai ô thứ hai của hàng đầu

Đến lúc này toàn bộ những ô còn lại được đánh dấu bằng dấu hỏi Tại sao?

Vấn đề ở đây là nếu người bỏ trốn qua sông ở chỗ cây cầu đá rơi hoặc chỗ cây cầu có rắn hổ mang thì anh ta đã đưa các yếu tố tham số vào trò chơi Trong những trường hợp này anh ta đã hứng lấy rủi ro bị giết, và vì vậy mà tạo ra vector khoản được trả là (0,1), có nghĩa là độc lập với bất cứ cái gì người săn

Trang 10

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

đuổi làm Vậy thì ta có thể minh họa những phân tích ở trên bởi ma trận của trò chơi như sau:

1.2.2 Bài toán 2

Bài toán tình thế lưỡng nan của người tù:

Có hai người tù A và B bị bắt vì tội cướp của Cảnh sát cách ly A và B

để chúng không thể liên lạc, thông đồng với nhau Cảnh sát yêu cầu chúng thành thật khai báo nhận tội, và đưa ra điều kiện: Nếu anh ta nhận tội và khai báo người kia thì sẽ chỉ bị 2 năm tù trong trường hợp người kia không nhận tội, và 5 năm tù nếu người kia cũng nhận tội Mặt khác, nếu anh ta không nhận tội mà người kia nhận tội thì anh ta sẽ bị 10 năm tù Cuối cùng nếu cả hai không nhận tội thì cả hai sẽ chỉ bị 2 năm tù

Bài toán này có thể tóm tắt ở bảng sau:

Tù nhân A không nhận tội Tù nhân A nhận tội

hổ mang

Kẻ chạy

trốn

Cầu an toàn

Trang 11

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Bài toán này có hai người tham gia là A và B Hai người bị cách ly nên người này không biết người kia chọn điều gì (nhận tội hay không) Vì vậy tình huống là rất khó xử, như tên gọi của bài toán

Ta có thể thấy rằng, ở địa vị A (hoặc B) đều có thể suy nghĩ nếu nhận tội thì có thể chỉ bị 1 năm tù khi mà B (hoặc A) không nhận tội, còn B (hoặc A) sẽ chịu 10 năm tù; còn nếu B (hoặc A) cũng thú tội thì bị 5 năm tù Ý nghĩ này xuất phát từ mong muốn ích kỷ sao cho mình có thể bị tù ít nhất nên nhận tội và đào ngũ với bạn Trường hợp đào ngũ khiến tổng thời gian tù của cả hai

sẽ là 11 năm (trong có kẻ ích kỷ chỉ chịu 1 năm), hoặc là 10 năm (nếu cả hai cùng suy nghĩ ích kỷ như nhau) nhiều hơn là khi không nhận tội (hợp tác với nhau) sẽ cùng bị 2 năm tù, tổng cộng chung cả hai là 4 năm Như vậy cả A và

B đều chỉ có hai chiến lược là hợp tác và đào ngũ

Trên đây chúng ta chỉ xét bài toán kết thúc sau một bước đi Người ta

đã mở rộng bài toán này bằng cách cho người chơi thực hiện nhiều bước đi và gọi là bài toán tình thế lưỡng nan của tù nhân lặp lại Người chơi cũng chỉ có

Trang 12

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

2 chiến lược là hợp tác và

mỗi bước đi của mình Bài toán mở rộng này được Robert Axelrod khảo sát bài toán này và trình bày trong tác phẩm “Sự tiến hóa của sự hợp tác” (1984) ông đã mời nhiều nhà nghiên cứu từ khắp thế giới tạo những

Nhiều chương trình máy tính với các chiến thuật rất khác nhau với độ phức tạp khác nhau của thuật toán, mức độ thù địch ban đầu, và khả năng tha thứ… được gửi tới ông Sau một thời gian dài với nhiều người tham gia cuộc đấu này, kết quả là những chiến thuật tham lam (đào ngũ) có kết quả thấp hơn các chiến thuật vị tha (hợp tác) Chiến thuật tốt nhất là ăn miếng trả miếng (tit for tat) do Anatol Rapoport xây dựng Chiến thuật này là: bước đi đầu tiên là hợp tác, sau đó chỉ làm theo đối thủ trong các bước sau, nghĩa là nếu đối thủ đào ngũ thì mình cũng đào ngũ, còn hợp tác thì mình cũng hợp tác

Axelrod kết luận rằng “ăn miếng trả miếng” là một chiến thuật đẹp, nó bắt đầu bằng sự hợp tác, và chỉ đào ngũ nếu đối thủ không hợp tác (đào ngũ)

Vì có nhiều tiếp theo nên người chơi có thể phản ứng lại ngay và trừng phạt đối thủ

1.3 Một số khái niệm

Lý thuyết trò chơi là lý thuyết toán học mô tả và giải quyết các tình thế đối kháng Với mỗi “ cuộc chơi ” có thể là:

- Cuộc chơi giữa hai đối thủ ( trò chơi đôi )

- Cuộc chơi giữa n đối thủ ( trò chơi tập thể )

- Cuộc chơi có vô số đối thủ

Hơn nữa, mỗi cuộc chơi đều có thể là:

- Cuộc chơi đối kháng khi quyền lợi giữa các bên tham gia hoàn toàn t rái ngược nhau, thắng lợi của mỗi người dẫn tới tổn thất của ít nhất một người khác

Trang 13

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

- Cuộc chơi không hoàng toàn đối kháng, nếu một nhóm trong số những người chơi có lợi ích chung ngoài lợi ích riêng

Đương nhiên là trong mỗi bước đi và trong suốt quá trình chơi mỗi bên tham gia đều có thể nhận được những tổn thất và thắng lợi nào đó Vì vậy trong quá trình chơi mỗi bên tham gia đều tìm cách sao cho:

- Thắng lợi về phía mình lớn nhất

- Tổn thất về phía đối phương lớn nhất ( trong trò chơi hoàn toàn đối kháng ), hoặc tổn thất về phía mình nhỏ nhất (cả trong đối kháng và không đối kháng) Nền kinh tế thị trường có điều tiết của Nhà nước là một ví dụ về mô hình của lý thuyết trò chơi không hoàn toàn đối kháng giữa nhiều bên tham gia, trong đó mỗi bên ngoài việc cực đại hóa lợi ích của mình còn có trách nhiệm ( tự nhiên hoặc cưỡng chế bằng hệ thống chính sách, luật pháp, thuế khóa, trợ giá ) nâng cao lợi ích cộng đồng

Trong lý thuyết trò chơi người ta sử dụng một số thuật ngữ sau:

Trò chơi liên hiệp: Là trò chơi mà trong đó hành động của những người

chơi hướng tới cực đại hóa lợi ích (thắng lợi) của tập thể (liên hiệp), không tính đến việc phân tích thắng lợi giữa những người tham gia

Trò chơi không liên hiệp: Là trò chơi mà mục đích của mỗi thành viên

là thu về cho bản thân thắng lợi càng lớn càng tốt

Với tư cách là ví dụ về trò chơi không liên hiệp có thể xét nền kinh tế thị trường hoàn toàn tự phát, tự điều tiết theo quan điểm kinh tế tân – cổ điển

Chiến lược của người chơi: Là một tập hợp các quy tắc, các chọn lựa

được xác định duy nhất trong hành vì của người chơi ở mỗi bước chơi, phụ thuộc vào mỗi trạng thái xảy ra trong quá trình chơi Cũng có thể nói rằng nó phụ thuộc vào kết quả ở mỗi bước do hành vi của đối phương gây ra

Tùy thuộc vào số lượng các chiến lược có thể mà trò chơi phân thành:

- Trò chơi hữu hạn bước ( nếu chỉ có một số hữu hạn chiến lược )

- Trò chơi vô hạn bước

Trang 14

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Giả sử có I người tham gia trò chơi Gọi Ti ; i = 1, I ; là tập hợp mọi chiến lược có thể có của người chơi thứ i Khi đó quá trình chơi được thể hiện ở chỗ người chơi thứ i chọn cho mình một chiến lược ti Ti trong cả quá trình chơi Kết quả là đạt được một trạng thái s, do đó người chơi i thu được thành quả ( lợi ích ) H (s)i

Trò chơi cũng có thể được tiến hành theo nhiều bước, mà ở bước j người chơi i áp dụng chiến lược tij Ti Do xảy ra trạng thái sj ở bước đó mà người chơi i thu được thành quả H (s )i j , và lại áp dụng chiến lược ti j+1 Ti ở bước (j+1) Khi đó tổng hợp thành quả của người chơi i tại mọi bước cho đến khi kết thúc quá trình chơi hoặc cho đến một bước nào đó sẽ là thành quả của người đó trong suốt quá trình chơi

Với các ký hiệu đã cho thì trò chơi không liên hiệp là tập:

Tt nhận những giá trị thực Nói cách khác, Hi

là thành quả thu được của người i (i I ) do kết quả áp dụng “đồng thời” chiến lược của mọi người chơi ở mỗi bước trong cả cuộc chơi

Trạng thái chấp nhận được: Trạng thái s trong trò chơi gọi là chấp

nhận được đối với người chơi i, nếu trong trạng thái đó người chơi i có đổi chiến lược ti của mình bằng bất cứ chiến lược '

i

t nào khác (tất nhiên '

i i i

t , t T ) cũng không làm tăng thêm thắng lợi bản thân

Trạng thái cân bằng: Trạng thái s được gọi là trạng thái cân bằng, nếu

nó là trạng thái chấp nhận được đối với mọi người chơi

Khái niệm trạng thái cân bằng trong lý thuyết trò chơi có ý nghĩa gần tương tự với điểm Pareto trong kinh tế thị trường (hiệu quả Pareto xảy ra trong một phân bố xác định tài nguyên hoặc lợi ích giữa các thành viên, mà

Trang 15

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

bất cứ một thành viên nào trong đó muốn tăng thêm lợi ích cho mình – tức là thay đổi phân bố đã có, đều làm giảm lợi ích của ít nhất một thành viên khác)

Ở đây trạng thái cân bằng là trạng thái mà nếu thay đổi nó đi một chút cũng đều làm giảm thẳng lợi bản thân chấp nhận được của ít nhất một người chơi Trong trò chơi không liên hiệp thì quá trình giải trò chơi chính là quá trình tìm trạng thái cân bằng

Trò chơi với tổng là hằng số: Trò chơi không liên hiệp gọi là trò chơi

với tổng là hằng số, nếu tồn tại một hằng số C sao cho:

I

i

i=1

H (s) = C (1.1)

với mọi trạng thái s S (S là tập mọi trạng thái có thể xảy ra)

Chẳng hạn, gọi I là tập hợp doanh nghiệp và C là mức thuế ấn định của Nhà nước trong một kỳ ngân sách thì ta có một trò chơi với tổng hằng, dù trò chơi là liên hiệp hay không liên hiệp

Trò chơi với tổng không: Là trò chơi với tổng hằng mà C=0 (ở đây ta

xét trò chơi đôi tức 2 đối thủ )

Trò chơi đôi với tổng 0 là trò chơi mà nếu người này thắng bao nhiêu thì người kia thua bấy nhiêu trong mỗi ván chơi

Chiến lược thuần túy: Là chiến lược xác định riêng biệt và người chơi

có thể chọn với xác suất bằng 1

Nếu Ti là tập hợp mọi chiến lược có thể của người chơi i thì mỗi chiến lược riêng biệt trong đó là một chiến lược thuần túy

Chiến lược hỗn hợp: Là chiến lược trong đó kết hợp một số chiến lược

thuần túy mà mỗi chiến lược thuần túy này xuất hiện được sử dụng với một tần suất ( xác suất ) nào đó

Trang 16

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Chương 2: MỘT SỐ THUẬT TOÁN TRÒ CHƠI

Chương này trình bày về trò chơi ma trận và các thuật toán trong trò chơi ma trận Các kiến thức trong chương được tham khảo và trích dẫn trong cuốn:

Tô Cẩm Tú (1997), Một số phương pháp tối ưu hóa trong kinh

tế, NXB Khoa học và kỹ thuật

Bierman, H S and L Fernandez (1998), Game Theory with

economic applications, Addison-Wesley

2.1 Trò chơi ma trận

Trò chơi đôi với tổng 0 gọi là trò chơi ma trận nếu mỗi người chơi đều

có một số hữu hạn chiến lược thuần túy Xét bài toán có hai người chơi, giả sử người chơi thứ nhất có m chiến lược thuần túy, còn người chơi thứ hai có n chiến lược thuần túy Từ đó hình thức trò chơi đôi với tổng 0, trong đó có m chiến lược thuần túy của người chơi thứ nhất và n chiến lược thuần túy của người chơi thứ hai được cho bởi ma trận:

1

11 12

21 22 2

1 2

n n m m mn a a a a a a A a a a

Trong đó aij là biểu thị thắng lợi của người chơi thứ nhất ( tương ứng đó

là tổn thất của người chơi thứ hai ), nếu người chơi thứ nhất chọn chiến lược thuần túy i, còn người chơi thứ hai chọn chiến lược thuần túy j

Ma trận A gọi là ma trận trò chơi hay ma trận thanh toán nghĩa là với kết quả thực hiện chiến lược i của người chơi thứ nhất và chiến lược j của người chơi thứ hai thì người thứ hai phải “trả” cho người thứ nhất aij

Cũng có thể gọi A là ma trận thắng của người thứ nhất, do đó là ma trận thua của người thứ hai

Trang 17

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Đương nhiên các thuật ngữ “thắng lợi”, “tổn thất” và “trả” ở đây chuyển sang nghĩa thông thường như sau:

- Nếu aij > 0 thì “thắng lợi” đó là thắng lợi thật của người 1, tức là được thêm

Vì vậy nội dung đặt ra của bài toán trò chơi là tìm trạng thái cân bằng Nếu một đối thủ áp dụng chiến lược nhằm đạt trạng thái cân bằng, mà đối thủ kia áp dụng chiến lược không nhằm đạt trạng thái đó thì tổn thất của người sau sẽ tăng lên

Trong một số trường hợp trò chơi đôi với tổng hằng số C 0 vẫn có thể

là trò chơi ma trận Chẳng hạn trò chơi với quy ước:

- Người chơi thứ nhất phải nộp C nếu aij > 0 khi người thứ nhất dụng chiến lược i còn người thứ hai sử dụng chiến lược j (thông thường phải có aij

> C)

- Người thứ hai phải nộp C nếu aij < 0

Như vậy nếu aij > 0 thì người thứ hai phải thanh toán aij nhưng người thứ nhất chỉ được hưởng aij - C, còn nếu aij < 0 thì người thứ nhất tổn thất

ij

a và người thứ hai được lợi aij C

Trang 18

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

2.2 Các chiến lược trong trò chơi ma trận

2.2.1 Các chiến lược thuần túy trong trò chơi ma trận

- Chiến lược maximin của người chơi thứ nhất

Thắng lợi đảm bảo (thắng lợi thấp nhất ) của người chơi thứ nhất khi chọn chiến lược i là:

ij

min

1 j n Người chơi thứ nhất, nếu không “mạo hiểm”, cần tìm trong các chiến lược có thể có của mình chiến lược nào mà thắng lợi đảm bảo lớn nhất

Đại lượng:

ij 1

max i max min

i m

Chiến lược thuần túy i0 mà với nó:

gọi là chiến lược maximin của người chơi thứ nhất

- Chiến lược minimax của người chơi thứ hai

Đối lại với chiến lược của người chơi thứ nhất (tìm chiến lược cực đại hóa thắng lợi thấp nhất ) người chơi thứ hai trước hết tìm xem nếu sử dụng chiến lược j; j = 1, n; thì tổn thất lớn nhất bằng bao nhiêu, nếu người thứ nhất

có thể dùng bất cứ chiến lược nào trong m chiến lược có thể có, tức là tìm:

ij 1

max

j

i m

a Hợp lý nhất là người thứ hai áp dụng chiến lược nhằm cực tiểu hóa tổn thất lớn nhất của mình (tương ứng với thắng lợi nhất của đối phương), tức là trong mọi chiến lược j 1,n, tìm chiến lược j0 mà:

Trang 19

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Nếu v v v thì trò chơi có điểm yên ngựa trong các chiến lược thuần túy, và số v được gọi là giá hay giá trị của trò chơi

Như vậy, trò chơi ma trận có điểm yên ngựa trong các chiến lược thuần túy khi và chỉ khi tồn tại phần tử

Mọi cặp (i , j )0 0 tức là mọi ô (i , j ) 0 0 trong ma trận có tính chất (*) được gọi

là các điểm yên ngựa

Ví dụ: Ta xét bài toán thực tiễn trong nông nghiệp như sau:

Ở một vùng nào đó có thể trồng ba giống cây A1, A 2, A 3; mà năng suất bình quân của mỗi giống đều phụ thuộc vào thời tiết (chẳng hạn khô hạn, bình thường và mưa nhiều) Cần xác định xem phương thức gieo trồng nào cho giá trị tổng sản lượng đảm bảo lớn nhất, biết rằng đơn giá 1 tấn sản phẩm Ai là

i

p ; i 1,3

Ta có thể đưa ra mô hình toán học của bài toán như sau:

Với người nông dân ( người chơi thứ nhất ) có ba chiến lược thuần túy là

Trang 20

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

diện tích của người nông dân khi thu hoạch, thì ma trận trò chơi (ma trận hàm thu nhập của người nông dân) là:

1 11 1 12 1 13

2 21 2 22 2 23

3 31 3 32 3 33

p t p t p t

A = p t p t p t

p t p t p t

Bài toán thực tiễn trong thương nghiệp:

Một nhu yếu phẩm có n kiểu mẫu mã Bài toán đặt ra với một cửa hàng thương nghiệp là nhập kiểu nào thì hợp lý nhất theo nghĩa sau: nếu hàng hóa kiểu j; j = 1, n ; được tiêu thụ thì cửa hàng bán nó được lại pj; nếu không bán được thì cửa hàng tổn thất qj do chi phí bảo quản và tiền mua buôn (ở đây để đơn giản ta chỉ xét trên một đơn vị nhu yếu phẩm)

Mô hình toán học của bài toán:

Trong điều kiện nhu cầu và thị hiếu của người tiêu dùng không được xác định thì cuộc đụng độ giữa các kiểu hàng nhập vào cửa hàng tạo thành một trò chơi mà người chơi thứ nhất là cửa hàng và người chơi thứ hai là thị hiếu khách hàng

Mỗi người chơi đều có n chiến lược thuần túy;

- Chiến lược i của người chơi thứ nhất là nhập hàng kiểu i; i = 1, n

- Chiến lược j của người chơi thứ hai (thị trường) là tiêu thụ hàng hóa kiểu j; j = 1, n

Ma trận thắng lợi của cửa hàng là:

A

Từ bài toán tổng quát trên ta xét ma trận sau:

Trang 21

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Mệnh đề: Nếu ma trận A có điểm yên ngựa trong các chiến lược thuần túy thì quá trình giải trò chơi là quá trình tìm điểm yên ngựa của A

Chiến lược tối ưu của người chơi được xác định bởi tọa độ (i , j )0 0 của điểm yên ngựa của A, còn giá trị của cuộc chơi bằng giá trị

0 0

i j

a tại điểm yên ngựa

Ta xét bài toán sau:

Input: Cho ma trận trò chơi sau:

5 4 1 3 1 A= 1 5 6 4 2

3 2 2 3 5

Out put: Hãy tìm chiến lược tối ưu của mỗi người và giá của cuộc chơi

Thuật toán giải:

Trang 22

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Đánh giá kết quả: Chiến lược tối ưu của người chơi thứ nhất là chiến lược 1,

và của người thứ hai là chiến lược 3, với nó thắng lợi đảm bảo của người thứ nhất là -1 (người thứ nhất thua 1 và người thứ hai được 1)

Nhìn trên ma trận A ra thấy rõ ràng rằng nếu người thứ nhất áp dụng chiến lược 1 thì sẽ thắng :

5 nếu người thứ hai áp dụng chiến lược 1

4 nếu người thứ hai áp dụng chiến lược 2

-1 (thua 1) nếu người thứ hai áp dụng chiến lược 3

3 nếu người thứ hai áp dụng chiến lược 4

1 nếu người thứ hai áp dụng chiến lược 5

2.2.2 Các chiến lược hỗn hợp trong trò chơi ma trận

q ; q j 0 là vectơ n chiều, trong đó qj là xác suất (tần suất) để người chơi thứ hai chọn chiến lược j ; j 1,n

Trang 23

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Các vectơ p và q lần lượt được gọi là chiến lược hỗn hợp của người chơi thứ nhất và người chơi thứ hai

Như vậy mỗi người đều có một tập các chiến lược hỗn hợp

Gọi Ti là tập các chiến lược hỗ hợp của người chơi thứ i, i=1,2 thì

- Bài toán của người chơi thứ nhất là chọn chiến lược * * * *

p (p , p , , p )m T sao cho cực đại hóa lợi ích của mình khi không có thông tin về việc chọn chiến lược của người thứ hai

- Bài toán của người chơi thứ hai là chọn chiến lược * * * *

q (q , q , , q )n T sao cho cực tiểu hóa thắng lợi của người thứ nhất khi không có thông tin về hành

vi của người đó

Thắng lợi trung bình của người chơi thứ nhất

Nếu người thứ nhất chọn chiến lược p (p , p , , p )1 2 m , còn người thứ hai chọn chiến lược q (q , q , , q )1 2 n thì thắng lợi trung bình của người nhất, ký hiệu M(p,q) bằng:

Ví dụ 1: Trong bài toán với ma trận:

Ngày đăng: 19/08/2015, 09:30

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w