Các yếu tố hình thành trò chơi

3.2.1 Đối tượng chơi (player)

Trong Lý thuyết trò chơi, các trò chơi được nghiên cứu là các đối tượng toán học được định nghĩa rõ ràng. Một trò chơi bao gồm một tập các người chơi/đấu thủ, một tập các nước đi (hoặc chiến lược) mà người chơi có thể chọn, và một đặc tả về cơ chế thưởng phạt cho mỗi tổ hợp của các chiến lược. Như vậy có nghĩa là đối tượng tham gia trò chơi có thể là tập hợp đối tượng chơi hay cũng có thể chỉ là tập hợp các quyết định trong những tình huống khác nhau của một đối tượng, một chủ thể.

Lý thuyết trò chơi nghiên cứu các tình huống ra quyết định có liên quan tới nhiều đối tượng chơi và các quyết định của mỗi đối tượng ảnh hưởng đến lợi ích và quyết định của những đối tượng khác.

3.2.2 Cách biểu diễn một trò chơi

Thông thường có hai cách biểu diễn trò chơi: Dạng chuẩn tắc và Dạng mở rộng. Việc lựa chọn biểu diễn dạng nào phụ thuộc vào tính chất, đặc điểm, định hướng và quy mô của trò chơi.

a) Dạng chuẩn tắc

Trò chơi chuẩn tắc hoặc dạng chiến lược (strategic form) là một ma trận cho biết thông tin về các đấu thủ, chiến lược, và cơ chế thưởng phạt (lợi ích)

Ví dụ về một trò chơi dạng chuẩn tắc được biểu diễn tại bảng sau

Bảng 3.1. Biểu diễn trò chơi dạng chuẩn tắc

Đấu thủ 2 chọn cột trái Đấu thủ 2 chọn cột phải

Đấu thủ 1 chọn hàng trên 4, 3 -1, -1

Đấu thủ 1 chọn hàng dưới 0, 0 3, 4

Trong ví dụ, có hai đấu thủ, một người chọn hàng, người kia chọn cột. Mỗi đấu thủ có hai chiến lược, mỗi chiến lược được biểu diễn bởi một ô được xác định bởi số hiệu hàng và số hiệu cột của nó. Mức thưởng phạt được ghi trong ô đó. Giá trị thứ nhất là mức thưởng phạt cho đấu thủ chơi theo hàng (trong ví dụ là Đấu thủ 1); giá trị thứ hai là mức thưởng phạt cho đấu thủ chơi theo cột (trong ví dụ là Đấu thủ 2). Giả sử Đấu thủ 1 chơi hàng trên và Đấu thủ 2 chơi cột trái. Khi đó, Đấu thủ 1 nhận 4 điểm và Đấu thủ 2 nhận 3 điểm.

Dạng chuẩn tắc có thể biểu diễn dưới dạng ma trận A= {S1, S2 …, Sn; u1, u1, …, un}, trong đó chúng ta có thể đọc được thông tin về số người chơi (n), không gian chiến lược (hay chiến lược có thể Si), và kết quả các lợi ích (playoff) tương ứng (ui).

Khi một trò chơi được biểu diễn bằng dạng chuẩn tắc, người ta coi rằng các đấu thủ hành động một cách đồng thời, hoặc ít nhất không biết về hành động của người kia.

Nếu các đấu thủ có thông tin về lựa chọn của các đấu thủ khác, trò chơi thường được biểu diễn bằng dạng mở rộng.

b) Dạng mở rộng

Các trò chơi dạng mở rộng cố gắng mô tả các trò chơi có thứ tự quan trọng. Ở đây, các trò chơi được biểu diễn bằng cây (như trong Hình 3.1). Mỗi đỉnh (hoặc nút) biểu diễn một điểm mà người chơi có thể lựa chọn hoặc thực hiện một hành động. Người chơi được chỉ rõ bằng một số ghi cạnh đỉnh. Các đoạn thẳng (nhánh) đi ra từ đỉnh đó biểu diễn các hành động có thể cho người chơi đó. Mức thưởng phạt (lợi ích) được ghi rõ tại đáy cây hiển thị tương ứng với thứ tự của người chơi.

Một trò chơi dạng mở rộng

Trong trò chơi trong Hình 3.1, có hai người chơi (người chơi 1 và người chơi 2). Đấu thủ 1 đi trước và chọn E hoặc F. Đấu thủ 2 nhìn thấy nước đi của Đấu thủ 1 và chọn G hoặc H.

Hình 3.1. Biểu thị trò chơi dạng mở rộng

Giả sử Đấu thủ 1 chọn F và sau đó Đấu thủ 2 chọn G, khi đó Đấu thủ 1 được 7 điểm và Đấu thủ 2 được 2điểm. Giả sử Đấu thủ 1 chọn F và sau đó Đấu thủ 2 chọn H, khi đó cả hai đấu thủ đều không có được lợi ích trong cuộc chơi, giá trị bằng 0 sẽ chia

1 2 2 3,3 0,1 7,2 0,0 E F G H G H 50

đều cho các đấu thủ. Tương tự như thế ta có các lợi ích của các Đấu thủ tại nhánh còn lại tùy theo lựa chọn của các đấu thủ là (3,3) và (0,1).

Các trò chơi mở rộng còn có thể mô tả các trò chơi đi-đồng-thời. Hoặc có một đường chấm chấm hoặc một đườngtròn vẽ quanh hai đỉnh khác nhau để biểu diễn rằng chúng đều thuộc cùng một tập hợp thông tin (nghĩa là, lúc đó với các thông tin có được ngườichơi không biết họ đang ở điểm nào giữa những điểm được khoanh tròn).

3.2.3 Nguyên tắc của trò chơi

Lý thuyết trò chơi nhìn chung được áp dụng trong các môi trường có tương tác chiến lược. Tại đó, nguyên tắc chơi được hình thành dựa trên giả định chủ yếu liên quan đến cạnh tranh năng động như:

- Hợp lý - Các đối thủ cạnh tranh sẽ hành động hợp lý để cố gắng đạt được lợi nhuận của họ.

- Sự phụ thuộc lẫn nhau - Các đối thủ cạnh tranh ở trong mối quan hệ phụ thuộc với nhau. Do vậy một động thái của một đối thủ cạnh tranh chắc chắn kích động sự đáp trả từ đối thủ cạnh tranh khác và kết quả của những lựa chọn bởi một người này phụ thuộc vào sự lựa chọn của người khác. Hơn nữa, ở mức độ nhiều hay ít các đối thủ cạnh tranh nhận thức được sự tương tác đó và những hành động mà các đối thủ có thể thực hiện.

Xuất phát từ những giả định này, có 2 nguyên tắc để xây dựng chiến lược cạnh tranh thành công:

- ‘Get in the mind’ của các đối thủ cạnh tranh. Các nhà lập chiến lược cần đặt họ vào vị trí của đối thủ cạnh tranh, có một cái nhìn hợp lý về những gì các đối thủ cạnh tranh chắc chắn sẽ làm và lựa chọn chiến lược cho riêng mình theo cách nhìn này. Họ cần biết về trò chơi của họ để lập kế hoạch hành động, ra quyết định.

- ‘Think forwards and reason backwards’. Quyết định chiến lược trên cơ sở hiểu được kết quả của những hành động chiến lược có thể của các đối thủ cạnh tranh. Lý thuyết trò chơi vì vậy nhấn mạnh tầm quan trọng của sự cạnh tranh năng động trên thị trường [23].

3.2.4 Chiến lược chơi (Strategy)

Chiến lược được hiểu theo cách chung là chương trình hành động, kế hoạch hành

động của một chủ thể được thiết kế để đạt được một mục tiêu cụ thể, hoặc là tổ hợp các

đường lối và các biện pháp, các cách thức, con đường đạt đến các mục tiêu đó.

Trong Lý thuyết trò chơi, người chơi thực hiện các chiến lược hành động cụ thể. Để xác định chiến lược hành động cụ thể, người chơi cần có sự cảm nhận, đánh giá cho đến lựa chọn quyết định hành động, thông thường có thể mô tả theo quá trình:

i) Tập hợp thông tin, dự báo và nhận định, đánh giá hoàn cảnh, tình huống; ii) Phân tích, tính toán các dữ liệu, các con đường để đến được với các kết quả; iii) Lựa chọn và thực hiện các hành động để đạt được những kết quả ưa thích nhất hoặc lợi ích nhất, tối ưu nhất dựa trên những hành động nhất định của các tay chơi khác.

Sau khi dự báo được ứng xử của những người chơi khác, thì mỗi người chơi lựa chọn chiến lược (quyết định) để tối ưu hóa lợi ích của mình và chiến lược này được xem là phản ứng tốt nhất (best response). Việc thay đổi chiến lược hành động chơi trong mỗi thời điểm, hoàn cảnh nhất định là điều thường xảy ra trên thực tế.

Có rất nhiều dạng trò chơi, vì vậy ứng với mỗi dạng sẽ có những chiến lược chơi khác nhau phù hợp với mục tiêu của trò chơi. Để có được chiến lược hợp lý tại từng thời điểm, từng cuộc chơi thì trước tiên phải xác định dạng trò chơi, đối tượng chơi và đặc điểm của đối tượng chơi, mô hình tính chất của trò chơi. Khi xác định được đối tượng chơi và dạng trò chơi, chúng ta mới bắt đầu xem xét đến chiến lược chơi.

3.2.5 Đánh giá - Thu hoạch (payoff)

Sau mỗi lựa chọn quyết định, hành động trong quá trình tham gia trò chơi, việc phân tích, đánh giá lợi ích thu được và xu hướng, chiến lược của các người chơi khác để có thể có những quyết định, hành động hiệu quả tiếp theo, đôi khi là điều chỉnh chiến lược chơi nhằm đem lại hiệu quả cao hơn. Việc đánh giá này có thể thông qua các tiêu chí đánh giá chung, theo đó người chơi có thể có một cách nhìn mang tính hiệu quả hơn trong việc điều chỉnh chiến lược chơi.

Cân bằng Nash (Nash Equilibrium-NE) được xem như là một tiêu chí đánh giá, lựa chọn đối với quyết định, hành động của các đối tượng chơi trong một số mô hình điển hình của lý thuyết trò chơi.

Cân bằng Nash: Trong trò chơi dạng chuẩn tắc G={S1, S2, …,Sn; u1, u2, …, un}, tổ hợp chiến lược (s*

1, s*2, …,s*n) là một cân bằng nếu: với mỗi người chơi i nào đó, s* i (tức là chiến lược do người thứ i lựa chọn) là phản ứng tốt nhất của người chơi này đối với các chiến lược của (n-1) người chơi còn lại (s*

1, s*2,…,s*i-1, s*i+1,…,s*n) được ký hiệu là s*

-i. Nói cách khác ui(s*i, s*-i) ≥ ui(s i, s*-i). Về mặt toán học, s*

i là nghiệm của bài toán tối ưu: Max ui(s*i, s*-i), trong đó s* iϵ Si NE là tập hợp các chiến lược cân bằng xác định của các người chơi mà không một người chơi nào muốn lựa chọn chiến lược lệch ra khỏi chiến lược cân bằng, bởi nếu người chơi chọn chiến lược lệch ra khỏi chiến lược cân bằng thì sẽ bất lợi hơn người chơi khác [25].

Có thể xem NE được tạo bởi những chiến lược phản ứng tối ưu của tất cả người chơi (ứng với các chiến lược tối ưu của những người chơi còn lại) nên nó có tính ổn định và bền vững về mặt chiến lược (strategically stable), đồng thời nó có tính chất tự chế tài (self – enforcement) tức là mỗi người chơi khi cực đại hóa lợi ích của mình, sẽ tự nguyện tuân thủ cân bằng Nash, họ không có động cơ để di chuyển khỏi điểm cân bằng này.

Tuy nhiên có những dạng trò chơi khó xác định được cân bằng do có nhiều lựa chọn tương đương nhau, khi đó việc lựa chọn nào trong những tình huống nào đôi khi còn phụ thuộc vào tính cách, xu hướng của người chơi đó.

Trên thực tế, cân bằng Nash có thể dễ dàng được tìm thấy trong những trò chơi đơn giản thông qua việc loại bỏ những chiến lược hành động kém hiệu quả. Sử dụng hiệu ứng ưu việt này có thể giản ước được ma trận tính toán (không gian chiến lược), giảm khối lượng tính toán.

3.3 Áp dụng mô hình Lý thuyết trò chơi trong chào giá trên thị trường điện điện

3.3.1 Phương pháp luận

Có thể áp dụng lý thuyết trò chơi vào nghiên cứu thị trường phát điện cạnh tranh, phân tích chiến lược trong việc chào giá giúp cho các nhà máy điện nói chung, thủy điện nói riêng giảm thiểu rủi ro và có được lợi ích trong quá trình tham gia thị trường. Căn cứ trên lý thuyết trò chơi, chúng ta có thể đưa ra một số mô hình giả thiết phù hợp với những quy định về thị trường điện, với mỗi mô hình thì việc thể hiện chiến lược của những đối tượng nghiên cứu cũng khác nhau tùy thuộc vào hoàn cảnh, đối tượng, mục tiêu, chiến lược hành động. Có rất nhiều mô hình trò chơi đã được nghiên cứu một cách tổng quát hoặc thông qua các ví dụ cụ thể, điển hình cho mỗi dạng trò chơi như: Trò chơi tổng thanh toán bằng không, trò chơi tổng thanh toán khác không, trò chơi trong tình huống bất định…

Giả thiết trò chơi tổng quát: Có 02 đấu thủ tham gia, Đấu thủ 1 và Đấu thủ 2. Hai đấu thủ này tham gia trò chơi với các chiến lược hành động nhằm đạt được các lợi ích thiết thực cho mình.

Đấu thủ 1 có tập m chiến lược: X = {x1 , x2 , …, xm} Đấu thủ 2 có tập n chiến lược: Y = {y1 , y2 , …, yn}

Một giả định khác là đấu thủ 1 có một tập X với m chiến lược trong bối cảnh có một tập hợp n tình huống khác nhau là Y = {y1 , y2 , …, yn} có ảnh hưởng khác nhau đến mỗi một chiến lược của đấu thủ 1. Về mặt tổng quát ta coi trường hợp này như là trường hợp 02 người chơi, trong đó người chơi thứ 2 đại diện cho n tình huống trên.

Ứng với một cặp chiến lược (xi, yj) mà hai đấu thủ đã chọn cho ván chơi lượng thanh toán (khoản phải trả hoặc lợi ích) là aij. Tập hợp các tình huống chiến lược trên có thể được biểu diễn dưới dạng ma trận thanh toán A, kích thước m × n.

Mục tiêu là tìm lời giải cho bài toán lý thuyết trò chơi giả thiết trên thông qua việc phân tích các hành động chiến lược, lựa chọn quyết định của từng người chơi, để tìm ra xu thế chung của cuộc chơi hay còn gọi là các trạng thái cân bằng. Một số tiêu chuẩn thường gặp được sử dụng để phân tích các trạng thái của trò chơi như: Tiêu chuẩn Maximin hay còn ký hiệu là max(min); tiêu chuẩn Minnimax (min (max)); tiêu chuẩn kỳ vọng cao nhất; tiêu chuẩn Gurovitx (Hurwicz L)…

Thông qua việc phân tích ma trận A dựa trên các tiêu chuẩn lựa chọn theo tình huống của người chơi để tìm ra lời giải cho trò chơi này.

𝑞𝑞1 𝑞𝑞2 … 𝑞𝑞𝑗𝑗 … 𝑞𝑞𝑛𝑛 A = 𝑥𝑥1 𝑥𝑥2 … 𝑥𝑥i … 𝑥𝑥𝑚𝑚 ⎣⎢ ⎢ ⎢ ⎢ ⎡𝒂𝒂𝒂𝒂𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏 𝒂𝒂𝒂𝒂𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏 … … 𝒂𝒂𝒂𝒂𝟏𝟏𝒋𝒋𝟏𝟏𝒋𝒋 … … 𝒂𝒂𝒂𝒂𝟏𝟏𝒏𝒏𝟏𝟏𝒏𝒏 … … … … … 𝒂𝒂𝒊𝒊𝟏𝟏 𝒂𝒂𝒊𝒊𝟏𝟏 … 𝒂𝒂𝒊𝒊𝒋𝒋 … 𝒂𝒂𝒊𝒊𝒏𝒏 … … … … … 𝒂𝒂𝒎𝒎𝟏𝟏 𝒂𝒂𝒎𝒎𝟏𝟏 … 𝒂𝒂𝒎𝒎𝒋𝒋 … 𝒂𝒂𝒎𝒎𝒏𝒏⎦⎥ ⎥ ⎥ ⎥ ⎤

Bảng 3.2 Biểu diễn Ma trận thanh toán A

* Trong tập các hành động của ma trận thanh toán A có thể có những hành động ưu việt hơn những hành động khác, ta định nghĩa về hành động ưu việt này như sau:

Hành động xk được gọi là ưu việt (vượt trội) hơn hành động x1 nếu mọi tình huống yj (j = 1÷n), ta luôn có:

akj ≥ a1j ; j = 1÷n

Một cách thường thấy là xét trong cùng một hoàn cảnh, ta có thể loại bỏ đi các chiến lược chơi kém hiệu quả tối ưu hóa ma trận thanh toán, quá trình tính toán theo đó cũng đơn giản hơn trước khi áp dụng các tiêu chuẩn để đánh giá [14].

3.3.2 Giả thiết mô hình chào giá trong thị trường

Đầu tiên ta nghiên cứu, phân tích giả thiết với 02 người chơi (01 người chơi là một nhà máy thủy điện, người chơi còn lại có thể là 1 nhà máy điện khác hoặc có thể là tập hợp các yếu tố khách quan đại diện của những tình huống bất lợi ảnh hưởng đến hoạt động của nhà máy thủy điện trong thị trường.

Hiểu rộng hơn một cách tương đối thì người chơi thứ 2 trong trò chơi ta có thể xem là phần còn lại của thị trường, tuy nhiên để phân tích một cách rõ nét trường hợp này là rất phức tạp bởi lẽ mỗi một người chơi tự tạo cho mình một chiến lược luôn biến đổi dựa trên quy định chung của thị trường. Do khi đó sẽ là trò chơi với tập n chiến lược hỗn hợp bao gồm chiến lược hỗn hợp của người chơi 1 và phân tích thêm n-1 chiến lược hỗn hợp của người chơi 2 (khi đó đang xem là phần còn lại của thị trường).

Để rõ hơn ta ví dụ một mô hình chào giá trên thị trường điện với 02 người chơi với những giả thiết như sau:

Ví dụ:Một công ty SB là đơn vị mua điện, công bố dự định mua sản lượng điện d MWh trong một chu kỳ chào giá của thị trường với một mức giá chấp nhận được lớn nhất là p, và 02 nhà máy EPP1 và EPP2 chào giá để bán d MWh điện năng của họ cho SB. Tại đây giả sử P là mức giá trần của thị trường mà tại đó tất cả các bản chào giá mà cao hơn hoặc bằng P đều không được chấp nhận (không hợp lệ). Cả hai nhà máy đều có thể cung cấp sản lượng điện năng d đến đơn vị mua điện SB.

Đặt c1 là chi phí của nhà máy EPP1 để sản suất ra d MWh điện năng, Đặt p1 là giá chào của nhà máy EPP1

Tương tự, c2 là chi phí của nhà máy EPP2 để sản suất ra d MWh điện năng,

Các đặc điểm khác ngoài phát điện

Đánh giá Thu hoạch (payoff)