Tạp chí Khoa học Cơng nghệ, Số 52A, 2021 KẾT HỢP THUẬT TOÁN SA VÀ Q-LEARNING ÁP DỤNG TRONG THỊ TRƯỜNG ĐIỆN BÁN BUÔN CẠNH TRANH BẠCH THANH QUÝ, PHAN LÂM VŨ, VĂN THỊ KIỀU NHI Khoa Công nghệ Điện, Đại học Cơng nghiệp Thành phố Hồ Chí Minh bachthanhquy@iuh.edu.vn Tóm tắt: Thị trường điện Việt Nam chuyển sang cấp độ – Cấp độ thị trường điện bán buôn cạnh tranh Các nhà máy điện (Gencos) công ty kinh doanh phụ tải điện (LSEs) tham gia thị trường bán buôn cạnh tranh với mục tiêu đối đa hóa lợi nhuận Chiến thuật chào giá tối ưu đơn vị tham gia triệt để khai thác Bài viết trình bày thị trường điện bán bn cạnh tranh dạng mơ hình động Trong mơi trường cạnh tranh thơng tin khơng hồn hảo, thuật tốn tối ưu sử dụng để tối ưu hóa chào giá Thuật tốn mơ luyện kim (SA - Simulated annealing algorithm) kết hợp với thuật toán học Q tăng cường ( Q – Learning reinforcement algorithm) thành thuật tốn SA – Q learning nhóm tác giả đề xuất áp dụng cho chiến lược chào giá tối ưu cho đơn vị cung cấp điện Sơ đồ tiêu chuẩn IEEE – 30 nút sử dụng để mơ mức độ đáp ứng thuật tốn đề xuất Từ khóa: Thị trường điện, thuật tốn Q-learning, thuật tốn SA, thị trường điện bán bn COMBINED THE SIMULATED ANNEALING AND THE Q-LEARNING ALGORITHM APPLICATION TO THE WHOLESALE ELCTRICITY MARKET Abstract: Vietnam’s electricity market has moved to the level – The competitive wholesale electricity market level The generation companies (GenCos) and the load service entities (LSEs) paticipate in the market with aim maximum profits The optimal bidding strategy is a key for exploitation by the participants In this article, The dynamic competitive wholesale power market model is presented The optimization algorithms are used to solve the optimal bidding strategy problems The SA-Q learning algorithm is a combined of the simulated annealing algorithm and the Q – reinforcement learning algorithm, that is proposed and used for GenCos to bidding strategy The IEEE 30-nút test system with six Gencos and three LSEs is used for simulations Keywords: Electricity market, Q-learning algorithm, SA algorithm, Wholesale electricity market ĐẶT VẤN ĐỀ Trong [1], Thị trường điện Việt Nam phê duyệt lộ trình phát triển theo cấp độ: Cấp độ thị trường phát điện cạnh tranh (VCGM – Vietnam Competition Generation Market), cấp độ thị trường bán buôn cạnh tranh (VWEM – Vietnam Wholesale Electricity Market), cấp độ thị trường bán lẻ cạnh tranh (VDEM - Vietnam Detail Electricity Market) VCGM thức vào hoạt động từ ngày 01/7/2012 theo mơ hình thị trường chào giá tập trung theo chi phí biến đổi Điện nhà máy điện bán cho đơn vị mua bn Cơng ty Mua bán điện thuộc Tập đồn Điện lực Việt Nam Mơ hình VCGM trình bày Hình sau: © 2021 Trường Đại học Cơng nghiệp thành phố Hồ Chí Minh KẾT HỢP THUẬT TỐN SA VÀ Q-LEARNING ÁP DỤNG TRONG THỊ TRƯỜNG ĐIỆN BÁN BUÔN CẠNH TRANH 29 Thanh toán Hợp đồng song phương Chào giá Đơn vị Vận hành Hệ thống Bảng kê toán Thị trường Điều độ Các đơn vị phát điện Bảng kê toán Số liệu đo đếm Đo đếm điện Điện Vận hành hệ thống Các đơn vị cung cấp dịch vụ Thanh tốn Cơng ty Điện lực Số liệu đo đếm Đơn vị Phát điện Đơn vị Mua buôn Số liệu đo đếm Điện Đơn vị mua buôn Phân phối/ Bán lẻ Hình 1: Cấu trúc thị trường VCGM Theo [2], thị trường điện Việt Nam chuyển sang cấp độ thị trường cấp độ – cấp độ bán buôn điện cạnh tranh VWEM sau giai đoạn tính tốn mơ vận hành thí điểm thức chuyển sang tốn thật từ 1/2019 Mơ hình bán bn điện cạnh tranh trình bày Hình Hình 2: Mơ hình thị trường VWEM Trong VWEM khơng có cơng ty mua bn mơ hình VCGM mà có nhiều đơn vị mua bn tham gia cạnh tranh với Đơn vị vận hành thị trường (Market operator - MO) đơn vị vận hành hệ thống độc lập (Independent system operator - ISO) hai đơn vị đóng vai trị trọng tài chơi bên công ty phát điện (Generation companies - GenCos) bên đơn vị mua buôn phụ tải điện (Load service entities - LSEs) MO ISO không tham gia kinh doanh hay bán buôn điện, đảm nhiệm minh bạch thị trường vận hành hệ thống điện để đảm bảo an toàn, an ninh lượng cho hệ thống điện Những đơn vị tham gia thị trường (gồm GenCos LSEs) có điều kiện cạnh tranh giá bán buôn với nhau, tìm kiếm hội gia tăng lợi nhuận Hai bên đại diện cho hai đối trọng cán cân kinh tế cung cầu, giá điện hình thành dựa cân cung cầu Trong môi trường thị trường điện cạnh tranh, nhà máy điện muốn nâng cao lợi nhuận cần phải có chiến lược chào giá tối ưu Vì thị trường giá điện định dựa sở chào giá bán nhà máy điện chào giá mua đơn vị mua bn Do hành vi chào giá đơn vị không ảnh hưởng trực tiếp đến khả huy động phát nhà máy mà cịn tác động đến giá toàn hệ thống Ý thức việc ảnh hưởng này, nên thông tin đối thủ hệ thống hồn tồn © 2021 Trường Đại học Cơng nghiệp thành phố Hồ Chí Minh 30 KẾT HỢP THUẬT TỐN SA VÀ Q-LEARNING ÁP DỤNG TRONG THỊ TRƯỜNG ĐIỆN BÁN BN CẠNH TRANH khơng biết Việc thiếu thơng tin trở ngại cho việc định phương án chào giá Nhiều thuật toán đề xuất cho tốn tối ưu mơi trường thơng tin khơng hồn hảo Nâng cao khả cạnh tranh chiến lược chào giá tối ưu cho đơn vị tham gia thị trường nghiên cứu nhiều năm gần Lý thuyết trò chơi áp dụng chiến lược chào giá tối ưu nghiên cứu Trong [3] [4], lý thuyết tiếp cận trò chơi Nash áp dụng cho chiến thuật chào giá tối ưu thị trường điện điều tiết, nơi mà đơn vị tham gia thị trường thiếu thông tin đối thủ Tuy nhiên, kết mô cho thấy chiến lược chào giá tối ưu thay đổi theo cấp độ thông tin mà đơn vị tham gia có đối thủ cạnh tranh Lý thuyết trò chơi bất hợp tác Cournot đưa áp dụng để xác định lượng công suất phát tối ưu cho nhà máy điện tham gia thị trường điện độc quyền nêu [5] Kết cho thấy ước tính độ xác hàm chi phí sản xuất đối thủ đóng vai trị định thị trường Quá trình định Markov cho chiến lược chào giá tối ưu thị trường điện giao đề xuất [6] Thuật toán di truyền phát triển chiến lược chào giá thầu cho đơn vị tham gia thị trường đấu giá hai chiều trình bày [7] [8] Thuật toán mờ mạng nơ ron nhân tạo áp dụng cho chiến lược chào giá tối ưu thị trường điện cạnh tranh phát triển [9] Thuật toán học Q- learning sử dụng để giải chiến lược chào giá tối ưu cho đơn vị tham gia thị trường [10] [11] Thuật toán học Q – learning áp dụng cho máy điện thực chiến lược chào giá tối ưu tham gia cạnh tranh thị trường cạnh tranh thơng tin khơng hồn chỉnh đề xuất [12],[13], [14] Kết mức độ hội tụ, phù hợp thuật toán thị trường điện cạnh tranh phân tích chứng minh Trong viết này, mơ hình thị trường VWEM trước ngày trình bày, xác định chức đơn vị tham gia trình bày chế vận hành thị trường Giá điện bán buôn xác định dựa quy luật cân cung cầu thị trường, giao dịch xác lập giá biên cơng bố để làm minh bạch thông tin, tạo chế “cuộc chơi” cạnh tranh lành mạnh Đơn vị ISO không tham gia cạnh tranh, đảm trách vai trò đảm bảo kỹ thuật vận hành tối ưu hố cơng suất hệ thống phương pháp tối ưu trào lưu công suất DC – OPF (Direct current – Optimal power flow) để xác định công suất giao dịch nút Trong viết này, để tối ưu hoá lợi nhuận đơn vị tham gia cạnh tranh, nhóm tác giả đề xuất sử dụng thuật tốn mơ luyện kim (SA - Simulated annealing algorithm) kết hợp với thuật toán học Q tăng cường ( Q – Learning reinforcement algorithm) thành thuật toán SA – Q learning áp dụng tìm chiến lược chào giá tối ưu Sơ đồ tiêu chuẩn IEEE – 30 nút sử dụng để mô mức độ đáp ứng thuật tốn MƠ HÌNH THỊ TRƯỜNG ĐỘNG Giá điện bán bn hình thành từ kết thay đổi liên tục cấp độ cung cầu thị trường, mơ hình thị trường động xây dựng chi tiết sở mơ hình bán bn cạnh tranh VWEM, khơng gian thị trường thay đổi khơng ngừng Mơ hình thị trường VWEM triển khai chi tiết Hình Thơng tin thị trường cho giao dịch Lưới truyền tải công suất GenCos ISO DC - OPF LSEs Thông tin Thanh tốn MO Hình 3: Cấu trúc hoạt động VWEM Trong hình 3, ISO MO đóng vai trò đảm bảo giao dịch, giao dịch thực trước ngày, thông tin giao dịch thành công công bố công khai Trên sở thơng tin giao dịch trước đó, Gencos LSEs tiến hành lựa chọn chiến lược tốt để chào giá tham gia thị trường ISO tính tốn lượng cơng suất giá tương ứng nút hệ thống sau nhận chào giá mua giá chào bán bên tham gia Giá giao dịch công suất giao dịch đơn vị giao dịch thành công công bố Toàn giao dịch ngày trước thực ngày hơm nên mơ hình gọi tên mơ hình thị trường bán bn trước ngày Chi tiết mơ tả Hình © 2021 Trường Đại học Cơng nghiệp thành phố Hồ Chí Minh KẾT HỢP THUẬT TOÁN SA VÀ Q-LEARNING ÁP DỤNG TRONG THỊ TRƯỜNG ĐIỆN BÁN BUÔN CẠNH TRANH Kết thúc gửi bảng chào cho ngày D+1 31 Kết thúc gửi bảng chào cho ngày D+2 Ngày D+1 Ngày D Ngày D+2 Thời gian Thị trường tính tốn cho ngày D+1 Công bố kết giao dịch ngày D Thị trường tính tốn cho ngày D+2 Cơng bố kết giao dịch ngày D+1 Hình 4: Mơ hình thị trường bán buôn trước ngày Trong ngày D, t(h), ISO nhận giá thầu giá cung cấp tất thành viên tham gia cho 24h giao dịch ngày D+1, sau ISO tiến hành tính tốn số lượng công suất giá tương ứng nút giao dịch hệ thống ISO có nhiệm vụ đảm bảo cho hệ thống hoạt động tin cậy, ổn định cơng Có nhiều giải thuật phân bố cơng suất, nhiên mơ hình tác giả chọn giải pháp DC-OPF để tính tốn tốn phân bố công suất cân hệ thống Kết giao dịch ngày D+1 công bố đầu ngày D+1 Bắt đầu ngày D+1, giao dịch thành công ngày D+1 phải cam kết thực để đảm bảo ổn định hệ thống Bên cạnh phận tham gia thị trường chuẩn bị giao dịch cho ngày D+2 Để đồng giá biên thị trường, mơ hình thị trường giao dịch hai bên đề xuất hình Giá [$] Đường cầu Đường cung (1) Giá đơn vị phát điện bị từ chối (2) (2) Giá đơn vị mua điện cuối chấp (3) (4) (3) Giá đơn vị mua điện bị từ chối (4) Giá đơn vị phát điện cuối Khoảng chênh giá chấp nhận cung cầu (1) Công suất [MW] Hình 5: Giá biên thị trường giao dịch hai bên Giá chào Gencos giá thầu LSEs giá không co giản, giá chào xếp theo thứ tự tăng dần giá thầu xếp theo thứ tự giảm dần Với số thị trường áp dụng, đơn vị vận hành thị trường chọn bốn Hình làm giá giao dịch cuối là: Giá đơn vị phát điện bị từ chối; giá đơn vị mua điện cuối chấp nhận; giá đơn vị mua điện bị từ chối; giá đơn vị phát điện cuối chấp nhận Trong viết này, giá biên giao dịch MO định nằm khoảng chênh lệch giá cung cầu 2.1 Giá chào Mục tiêu Gencos thị trường cạnh tranh tối đa hoá lợi nhuận, điều kiện trước chào giá môi trường thiếu thông tin đối thủ Giá chào Gencos xác định: Ci ( Pgi ) Pgi2 bi Pgi ci Cmi Ci 2ai Pgi bi Pgi Pgi _ Pgi Pgi _ max (1) (2) (3) Trong ai, bi, ci hệ số hàm giá thực Ci ( Pgi ) máy phát thứ i, phát lượng công suất tác dụng Pgi Pgi_min Pgi_max giới hạn giới hạn máy phát thứ i, công thức (2) đạo hàm giá theo công suất máy phát gọi chi phí cận biên thực máy phát thứ i © 2021 Trường Đại học Cơng nghiệp thành phố Hồ Chí Minh 32 KẾT HỢP THUẬT TOÁN SA VÀ Q-LEARNING ÁP DỤNG TRONG THỊ TRƯỜNG ĐIỆN BÁN BUÔN CẠNH TRANH Với giao dịch, Gencos cung cấp đến ISO MO bảng chào chứa đựng hai thành phần lượng công suất phát giá tương ứng Các bảng chào tính tốn từ giá phát theo cơng thức (1) đến giới hạn công suất phát theo công thức (3) Hàm giá chào xác định sau: f i offer (qi1 ; Aik pi1 ), , (qin ; Aik pin ) k i _ A A A k i k i _ max (4) (5) k k (6) Ai _ max Aik_ h Trong qi , pi công suất giá máy phát thứ i Aik hành động thứ k tập hành động Aik Aik_ máy phát thứ i Dựa hành động Aik mà máy phát thứ i thay đổi giá hàm chào giá f i offer (4), h số hành động lựa chọn (k = 1, 2, …,h) N ISO MO tính tốn cơng bố giá điện nút giao dịch N thời điểm t xác định p,t Giá trị lợi nhuận thu máy phát thứ i 24h giao dịch xác định: 24 ri ,t (Np ,t Pgi,t Ci ( Pgi,t )) (7) t 1 Trong ri , t hàm số lợi nhuận máy phát i t 2.2 Giá Thầu Tương tự Gencos, hàm lợi nhuận LSEs xác định sau: B j ( Pdj ) e j Pdj f j Pdj2 Bmj (8) B j e j 2f j Pdj Pdj (9) P P dj (10) gi Trong ej, fj hệ số hàm lợi nhuận B j ( Pdj ) LSEs thứ j Pdj công suất tác dụng mua từ thị trường LSEs thứ j Mỗi giao dịch LSEs cung cấp cho ISO MO chào giá thầu, có chứa hai thành phần lượng cơng suất giá tương ứng có nhu cầu mua Bảng chào giá thầu tính tốn từ hàm lợi nhuận (8) lượng công suất tải cần tiêu thụ Hàm giá thầu xác định sau: f jbid (q1j ; p1j ), , (q nj ; p nj ) (11) THUẬT TỐN HỌC Q - LEARNING Thuật tốn học tăng cường Q-learning đề xuất Watkins để giải q trình định Markov mơi trường thông tin không đầy đủ Ý tưởng chủ đạo thuật tốn học học cách sinh tồn lồi vật môi trường tự nhiên Các đối tượng tự nhiên phải tương tác theo môi trường tồn Đối tượng nhận kết sau hành động, rút kinh nghiệm để tồn Ưu điểm lớn ý tưởng thuật toán tính đơn giản, dễ áp dụng trực tiếp lên đối tượng Những đơn vị tham gia sử dụng thuật toán học Q – learning để thực chiến lược chào giá tối ưu thị trường điện bán buôn cạnh tranh trước ngày môi trường thiếu thông tin đối thủ Đối tượng sn Trạng thái an Hành động rn Kết Mơi trường Hình 6: Mơ hình thuật tốn học tăng cường © 2021 Trường Đại học Cơng nghiệp thành phố Hồ Chí Minh KẾT HỢP THUẬT TOÁN SA VÀ Q-LEARNING ÁP DỤNG TRONG THỊ TRƯỜNG ĐIỆN BÁN BN CẠNH TRANH 33 Như trình bày Hình 6, đối tượng nhận kết rn tương ứng với cặp hành động – trạng thái (an , sn) hành động thứ n Hàm giá trị cặp hành động – trạng thái lưu lại bảng giá trị kinh nghiệm Q cập nhật hành động Gọi S = {s1, s2, …, sm} tập chứa m giá trị trạng thái môi trường A = {a1, a2, …, ak} tập k hành động mà đối tượng thực Giả sử bước thứ n, tương ứng với trạng thái môi trường snS, đối tượng chọn cho hành động tốt anA, nhận kết rn Đối tượng tiếp tục xem xét trạng thái môi trường sn+1S cập nhật lại giá trị kinh nghiệm Q tương ứng: (1 )Qn ( s, a) [rn max Qn ( sn 1 , a ' )] ' a if s s n and a a n (12) Qn 1 ( s, a) Qn ( s, a) otherwise Trong (12), α(0,1] hệ số học [1,0) hệ số suy giảm Ý nghĩa hệ số suy giảm giá trị nhận tương lai gần lớn giá trị nhận tương lai xa Thuật toán SA-Q sử dụng phương pháp ε – greedy đề xuất theo bước: Begin: Nhận diện tất cặp giá trị Q(s, a) Vòng lặp (cho cặp giá trị): a Lựa chọn ngẫu nhiên hành động ar A b Lựa chọn hành động theo quy luật (ε – greedy) ap A: (13) a p arg max Qn 1 ( sn , a) a c Tạo giá trị ngẫu nhiên (0, 1) d Lựa chọn thực hành động an A theo quy luật gần ngẫu nhiên: a a p n a r Qn 1(sn , ar ) Qn 1(sn , a p ) exp Temperature otherwise if (14) e Nhận giá trị phản hồi r cập nhật lại trạng thái s’ f Cập nhật lại bảng giá trị Q theo công thức (12) Tính tốn lại giá trị temperature hệ số suy giảm Temperature Cho đến đạt giá trị mục tiêu End Gọi Tn hệ số Temperature bước thứ n, Tn+1=xTn hệ số Temperature bước n+1 Hệ số suy giảm (0.5, 1) định tốc độ hội tụ nhanh hay chậm thuật toán ÁP DỤNG SA-Q LEARNING CHO THỊ TRƯỜNG ĐIỆN Giả định đơn vị tham gia thị trường với mục tiêu tối đa hóa lợi nhuận giảm thiểu rủi ro Để đưa thuật toán SA-Q learning áp dụng vào đơn vị tham gia , cần định nghĩa tập trạng thái, hành động kết Trạng thái (s): Trạng thái xác định giá điện thị trường Hành động (a): Mỗi đơn vị tham gia có tập hành động, chi tiết hành động theo công thức (6) xác định chi tiết: Aik_ ; Aik_ max ; h 10 Kết (r): Sau ISO MO tính tốn cơng bố cơng suất giá tương ứng nút hệ thống, đơn vị tham gia tính tốn lợi ích thu dựa hàm giá lượng công suất cam kết phát đưa lên hệ thống theo công thức (7) Theo [15], thơng số thuật tốn ảnh hưởng khơng nhỏ đến tốc độ hội tụ thuật tốn, viết này, nhóm tác giả chọn khơng thay đổi thơng số thuật tốn là: Hệ số học = 0.5; hệ số suy giảm = 0.1; hệ số Temperature T = 100,000; = 0.99; giá trị ban đầu bảng học Q0(s0,a0) = © 2021 Trường Đại học Cơng nghiệp thành phố Hồ Chí Minh 34 KẾT HỢP THUẬT TỐN SA VÀ Q-LEARNING ÁP DỤNG TRONG THỊ TRƯỜNG ĐIỆN BÁN BUÔN CẠNH TRANH MÔ PHỎNG Sử dụng hệ thống điện tiêu chuẩn IEEE 30 nút với nhà máy điện thực mô phân bố công suất vận hành thị trường động Sơ đồ mạng điện Hình Area Area 28 15 18 14 19 12 13 16 11 Area 17 20 10 23 26 25 22 27 21 24 29 30 Fig.4 30-Bus Transmission Gridtải IEEE 30 nút [16] Hình 7: Sơ đồ đơn tuyến lưới truyền Thông tin hệ thống trình bày Bảng Bảng 1: Thơng tin hệ thống Tổng công suất máy phát Tải cố định Tải điều chỉnh 352MW 151.64MW 90MW Phân bố cơng suất tính tốn theo thuật tốn phân bố cơng suất tối ưu DC-OPF môi trường Matlab nhà máy điện hệ thống phân bố vùng, nút số 01, 02, 13, 23, 22 27 đề xuất sử dụng thuật tốn SA-Q learning với thơng số Bảng bảng bảng giá chào giá thầu nhà máy điện đơn vị mua buôn tải Bảng 2: Thông tin bảng giá chào GenCos Block Block Block Pg max MW; $/MWh MW; $/MWh MW; $/MWh Gen Nút Pg Min 1 10 60 12; A1k 20 24; A1k 50 24; A1k 60 2 10 60 12; A2k 20 24; A2k 40 24; A2k 70 22 10 60 12; A3k 20 24; A3k 42 24; A3k 80 27 10 60 12; A4k 20 24; A4k 44 24; A4k 90 23 10 60 12; A5k 20 24; A5k 46 24; A5k 75 13 10 60 12; A6k 20 24; A6k 48 24; A6k 60 Bảng 3: Thông tin bảng giá thầu LSEs LSE Nút Block MW; $/MWh Block MW; $/MWh Block MW; $/MWh 15 30 10 ; 100 10 ; 100 10 ; 100 10 ; 70 10 ; 50 10 ; 60 10 ; 60 10 ; 20 10 ; 50 Tại nút hệ thống, công suất điều tiết tối đa 30MW Tiến hành thực nghiệm hai trường hợp mô phỏng: Trường hợp 01: Sáu Gencos thay đổi ngẫu nhiên bảng giá chào 200 lần giao dịch, khơng có Gencos sử dụng thuật toán ( Aik ) Ba LSEs có nhu cầu tải tối thiểu 90MW Trường hợp 02: Sáu Gencos sử dụng SA-Q learning để tối ưu hóa bảng giá chào 200 lần giao dịch, khơng có Gencos sử dụng thuật tốn ( Aik lựa chọn tập hành động thuật toán) Ba LSEs có nhu cầu tải tối thiểu 90MW Trong hai trường hợp mô phỏng, hai thông số quan trọng cân nhắc giá trung bình thị trường lợi nhuận GenCos Kết mô trường hợp trường hợp trình bày tương ứng Hình 8, Hình 10,11 © 2021 Trường Đại học Công nghiệp thành phố Hồ Chí Minh KẾT HỢP THUẬT TỐN SA VÀ Q-LEARNING ÁP DỤNG TRONG THỊ TRƯỜNG ĐIỆN BÁN BUÔN CẠNH TRANH 35 Kết Hình Hình bảng giá chào bảng giá thầu thay đổi dẫn đến giá trung bình thị trường thay đổi Công suất lợi nhuận GenCos biến động Kết mơ hình thị trường động, giá thị trường biến động liên tục không ổn định, giá thị trường dẫn dắt bảng giá chào bảng giá thầu Khuyết điểm lớn dạng mơ hình cần nhiều chế để kiểm sốt Kết tích cực trường hợp mơ thứ trình bày hình 10 hình 11 Khi GenCos sử dụng thuật tốn SA-Q learning thơng qua 200 lần giao dịch giá trung bình thị trường lợi nhuận GenCos hội tụ nhanh sau 100 lần giao dịch Thị trường bắt đầu hoạt động ổn định yếu điểm thị trường động khắc phục 60 average market prices [$] 55 50 45 40 35 20 40 60 80 100 120 trading times 140 160 180 200 Hình 8: Trung bình giá điện trường hợp 1000 1000 profit profit of of Gen Gen No.02 No.02 profit of Gen No.01 profit of Gen No.01 1000 1000 500 500 00 -500 -500 00 5050 100 100 trading tradingtimes times 150 150 200 200 50 100 100 trading trading times times 150 150 200 200 50 100 100 trading trading times times 150 150 200 200 50 100 100 trading trading times times 150 150 200 200 profit profit of of Gen Gen No.04 No.04 profit of Gen No.03 profit of Gen No.03 800 800 600 600 400 400 200 200 5050 100 100 trading tradingtimes times 150 150 600 600 400 400 200 200 00 00 200 200 1000 1000 profit profit of of Gen Gen No.06 No.06 profit of Gen No.05 profit of Gen No.05 800 800 600 600 400 400 200 200 5050 100 100 trading tradingtimes times 150 150 200 200 500 500 00 -500 -500 00 Hình 9: Lợi nhuận đạt 06 GenCos trường hợp 60 55 average market prices [$] 00 00 00 -500 -500 00 800 800 00 00 500 500 50 45 40 35 30 20 40 60 80 100 120 trading time 140 160 180 200 Hình 10: Trung bình giá điện trường hợp © 2021 Trường Đại học Cơng nghiệp thành phố Hồ Chí Minh KẾT HỢP THUẬT TOÁN SA VÀ Q-LEARNING ÁP DỤNG TRONG THỊ TRƯỜNG ĐIỆN BÁN BUÔN CẠNH TRANH 36 800 profit of Gen No 02 profit of Gen No 01 600 600 400 400 200 200 0 -200 -200 -400 -400 0 50 50 100 trading trading times 150 200 profit of Gen No 04 profit of Gen No 03 400 400 200 200 50 50 100 trading trading times 150 50 100 trading times 150 200 50 100 trading times 150 200 50 100 trading times 150 200 600 400 200 0 200 1000 profit of Gen No 06 800 800 profit of Gen No 05 200 800 600 600 600 600 400 400 200 200 0 0 400 -200 800 800 0 0 600 50 50 100 trading trading times 150 200 500 -500 Hình 11: Lợi nhuận đạt GenCos trường hợp KẾT LUẬN Mơ hình thị trường động sở cân cung cầu đơn vị tham gia nhu cầu đòi hỏi từ thực tế kinh tế thị trường Tuy nhiên, mơ hình xuất khuyết điểm lớn khơng ổn định, giá trung bình thị trường ln có biến động Kết mô cho thấy GenCos sử dụng thuật toán SA-Q learning để tối ưu chiến lược chào giá làm cho thị trường ổn định giá trị hội tụ sau 100 lần biến động giao dịch ban đầu Mô thực hệ thống tiêu chuẩn IEEE 30 nút xem đủ lớn để kiểm chứng giới hạn điều kiện so với hệ thống thực Kết khích lệ nghiên cứu sở cho nghiên cứu sâu lĩnh vực thị trường điện thông minh Một loại thị trường phức hợp phức tạp có kết hợp nhiều loại hình như: Dự trữ lượng, lượng tái tạo, công suất phản kháng thị trường hợp đồng song phương Trong dạng mơ hình thị trường cần phải thiết lập nhiều ràng buộc giá carbon thấp, giá chi phí dự phịng dịch vụ phụ trợ … Đây chủ đề nghiên cứu cho thị trường điện tương lai./ DANH MỤC TÀI LIỆU THAM KHẢO [1] Quyết định 26/2006/QĐ-TTg; Quyết định phê duyệt lộ trình, điều kiện hình thành phát triển cấp độ thị trường điện lực Việt Nam [2] (2019) Thị trường bán buôn cạnh tranh: “cuộc đua” bắt đầu [Online] Available: https://www.evn.com.vn/d6/news/Thi-truong-ban-buon-dien-canh-tranh-2019-Cuoc-dua-bat-dau-6-15-22947.aspx [3] Dong-Joo Kang, Balho H Kim, Don Hur, Supplier Bidding Strategy Based On Non-Cooperative Game Theory Concepts In Single Auction Power Pools, Electric Power Systems Research, vol 77, 2007, pp 630 – 636 [4] R W Ferrero, J F Rivera, S M Shahidehpour, Application Of Game With Incomplete Information For Pricing Electricity In Deregulated Power Pools, IEEE Transaction on Power Systems, vol 13, n 1, 1998, pp 184 – 189 [5] Fushuan Wen, A Kumar David, Oligopoly Electricity Market Production Under Incomplete Information, IEEE Power Engineering Review, vol 21, n 4, April 2001, pp 24 – 28 [6] Haili Song, Chenching Liu, Jacques Lawarrée, Robert W.Dahlgren, Optimal Electricity Supply Bidding By Markov Decision Process, IEEE Transactions on Power Systems, vol 15, n 2, May 2000, pp 618 – 624 [7] Charles W Richter, Jr Gerald B Sheblé, Genetic algorithm evolution of utility bidding strategies for the competitive marketplace, IEEE Transaction on Power Systems, vol 13, n 1, Feb.1998, pp 256 – 261 © 2021 Trường Đại học Cơng nghiệp thành phố Hồ Chí Minh KẾT HỢP THUẬT TOÁN SA VÀ Q-LEARNING ÁP DỤNG TRONG THỊ TRƯỜNG ĐIỆN BÁN BUÔN CẠNH TRANH 37 [8] Charles W Richter, Jr Gerald B Sheblé, Dan Ashlock, Comprehensive Bidding Strategies With Genetic Programming/Finite State Automata, IEEE Transaction on Power Systems, vol 14, n 4, Nov.1999, pp.1207 – 1212 [9] Y Y Hong, S W Tsai and M T Weng, Bidding Strategy Based On Artificial Intelligence For A Competitive Electric Market, IEE Proceeding Generation Transmission and Distribution, vol 148, n 2, pp 159 – 164 , March 2001 [10] Gaofeng Xiong, T Hashiyama, S Okuma, An Electricity Supplier Bidding Strategy Through Q-Learning, IEEE Power Engineering Society Summer Meeting, vol 03, pp 1516 – 1521, July 2002 [11] Chen Haoyong, Yang Yan, Zhang Yao, Realization Of Decision Making Module In Agent-Based Simulation Of Power Markets, Automation of Electric Power Systems on China, vol 32, n 20, Oct 2008, pp 22 – 26 [12] Thanhquy Bach, Jiangang Yao The SA – Q learning algorithm application to the wholesale power markets International Journal of Electrical Engineering & Technology, 2012, Vol 3, No.1 (1-15) [13] Maozu Guo, Yang Liu, Jacek Malec A New Q – Learning Algorithm Based on The Metropolis Criterion IEEE Transactions on Power Systems Vol.34, No.5, pp.2140-2143 [14] Anastasios G Bakirtzis, Athina C Tellidou Agent-Based Simulation of Power Markets under Uniform and Pay-as-Bid Pricing Rules using Reinforcement Learning, 2006 IEEE Power Systems Conference and Exposition, Atlanta, pp.1168-1173 [15] Thanhquy Bach, Jiangang Yao, Shengjie Yang Fuzzy Q – Learning for Uniform Price Wholesale Power Markets, 2013 International Conference on Communication Systems and Network Technologies, 6-8 April 2013, Gwalior, India [16] Sawan Sen, S Sengupta, Chakrabart Alleviation of Line Congestion using Multiobjective Particle Swarm Optimization, International Journal of Electronic and Electrical Engineering, ISSN 0974-2174 Volume 4, Number (2011), pp.123-134 Ngày nhận bài: 14/12/2020 Ngày chấp nhận đăng: 30/03/2021 © 2021 Trường Đại học Cơng nghiệp thành phố Hồ Chí Minh ... hình thị trường bán bn trước ngày Chi tiết mơ tả Hình © 2021 Trường Đại học Cơng nghiệp thành phố Hồ Chí Minh KẾT HỢP THUẬT TOÁN SA VÀ Q- LEARNING ÁP DỤNG TRONG THỊ TRƯỜNG ĐIỆN BÁN BUÔN CẠNH TRANH. .. học Q0 (s0,a0) = © 2021 Trường Đại học Cơng nghiệp thành phố Hồ Chí Minh 34 KẾT HỢP THUẬT TOÁN SA VÀ Q- LEARNING ÁP DỤNG TRONG THỊ TRƯỜNG ĐIỆN BÁN BUÔN CẠNH TRANH MÔ PHỎNG Sử dụng hệ thống điện. ..KẾT HỢP THUẬT TOÁN SA VÀ Q- LEARNING ÁP DỤNG TRONG THỊ TRƯỜNG ĐIỆN BÁN BN CẠNH TRANH 29 Thanh tốn Hợp đồng song phương Chào giá Đơn vị Vận hành Hệ thống Bảng kê toán Thị trường Điều