Điều khiển tối ưu thích nghi dùng học củng cố áp dụng cho hệ thống lưu trữ năng lượng tái tạo

BỘ CÔNG THƯƠNG ĐẠI HỌC CÔNG NGHIỆP THÀNH PHỐ HỒ CHÍ MINH BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC KẾT QUẢ THỰC HIỆN ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CẤP TRƯỜNG Tên đề tài: Điều Khiển Tối Ưu Thích Nghi Dùng Học Củng Cố Áp Dụng Cho Hệ Thống Lưu Trữ Năng Lượng Tái Tạo Mã số đề tài: 21/1DT 03 Chủ nhiệm đề tài: Huỳnh Tuyết Vy Đơn vị thực hiện: Khoa Công Nghệ Điện Tử LỜI CÁM ƠN Đề tài thực tài trợ Đại học Cơng Nghiệp Thành Phố Hồ Chí Minh với mã số 21/1DT 03 PHẦN I THÔNG TIN CHUNG I Thông tin tổng quát 1.1 Tên đề tài: Điều Khiển Tối Ưu Thích Nghi Dùng Học Củng Cố Áp Dụng Cho Hệ Thống Lưu Trữ Năng Lượng Tái Tạo 1.2 Mã số: 21/1DT 03 1.3 Danh sách chủ trì, thành viên tham gia thực đề tài TT Họ tên (học hàm, học vị) Đơn vị cơng tác Vai trị thực đề tài Th.S Huỳnh Tuyết Vy Đại học Công nghiệp Tp.HCM Chủ nhiệm PGS TS Nguyễn Tấn Lũy Đại học Công nghiệp Tp.HCM Thành viên chủ chốt Th.S Nguyễn Thanh Đăng Đại học Công nghiệp Tp.HCM Tham gia Th.S Lê Văn Hùng Đại học Công nghiệp Tp.HCM Tham gia Th.S Trương Năng Tồn Đại học Cơng nghiệp Tp.HCM Tham gia Th.S Trần Hồng Vinh Đại học Công nghiệp Tp.HCM Tham gia Th.S Đặng Quang Minh Đại học Cơng nghiệp Tp.HCM Tham gia 1.4 Đơn vị chủ trì: 1.5 Thời gian thực hiện: 1.5.1 Theo hợp đồng: từ tháng 03 năm 2021 đến tháng 03 năm 2022 1.5.2 Gia hạn (nếu có): khơng gia hạn 1.5.3 Thực thực tế: từ tháng 03 năm 2021 đến tháng 03 năm 2022 1.6 Những thay đổi so với thuyết minh ban đầu (nếu có): (Về mục tiêu, nội dung, phương pháp, kết nghiên cứu tổ chức thực hiện; Nguyên nhân; Ý kiến Cơ quan quản lý) 1.7 Tổng kinh phí phê duyệt đề tài: 50.000.000 VNĐ (Năm mươi triệu đồng) II Kết nghiên cứu Đặt vấn đề Nguồn lượng tái tạo cộng đồng khoa học quan tâm khả đáp ứng nhu cầu lượng giá rẻ giảm thiểu ô nhiễm môi trường đạt lợi ích kinh tế xã hội phát triển bền vững Việc kết hợp nguồn lượng mặt trời, điện lưới hệ thống lưu trữ tạo thành hệ thống lưới điện thông minh việc tối ưu hoạt động thành phần hệ thống cần thiết Mục tiêu a Mục tiêu tổng quát: Xây dựng thuật toán tự học, điều khiển hoạt động hệ thống kết nối nguồn cung cấp điện từ lượng mặt trời điện lưới, cung cấp điện cho tải hệ thống lưu trữ, nhằm tối thiểu chi phí sử dụng điện kéo dài tuổi thọ lưu trữ b Mục tiêu cụ thể: - Nghiên cứu tổng quan hệ thống điều khiển tối ưu lưu trữ lượng - Xây dựng hàm chi phí bao gồm giá điện, tuổi thọ lưu trữ - Phân tích thiết kế thuật tốn điều khiển tối ưu cho hệ thống kết nối - Mô (Matlab Simulink) so sánh - Thực nghiệm để đánh giá Phương pháp nghiên cứu Nội dung 1: Nghiên cứu tổng quan hệ thống điều khiển tối ưu lưu trữ lượng  Cách tiếp cận: Đọc tổng hợp tài liệu nghiên cứu cơng bố, khảo sát hệ thống có ngồi nước  Kết quả: Mơ hình điều khiển hệ thống quản lý lượng tái tạo Nội dung 2: Xây dựng hàm chi phí bao gồm giá điện, tuổi thọ lưu trữ  Cách tiếp cận: Xác định mục tiêu điều khiển sử dụng tài liệu nghiên cứu công bố lý thuyết điều khiển để xây dựng hàm tiêu chất lượng  Kết quả: Hàm tiêu chất lượng Nội dung 3: Phân tích thiết kế thuật tốn điều khiển tối ưu cho hệ thống kết nối  Cách tiếp cận: sử dụng cơng bố có liên quan để xây dựng thuật toán thỏa mãn mục tiêu điều khiển hàm tiêu chất lượng xác định nội dung  Kết quả: Thuật toán điều khiển tối ưu Nội dung 4: Mô (Matlab Simulink) so sánh  Cách tiếp cận: Dựa lý thuyết nghiên cứu được, hàm tiêu chất lượng thuật tốn thiết kế, viết chương trình mơ  Kết quả: Chương trình mơ kết Nội dung 5: Thực nghiệm để đánh giá  Cách tiếp cận: Xây dựng hệ thống thực gồm thành phần, thực nghiệm phân tích đánh giá  Kết quả: Báo cáo đánh giá thuật toán hệ thống thực, đề xuất cải tiến (nếu có) Nội dung 6: Nộp báo chỉnh sửa theo yêu cầu phản biện  Cách tiếp cận: Tổng hợp viết báo cáo kết thực gồm thuật tốn, kết mơ phỏng, kết thực nghiệm, phân tích đánh giá chỉnh sửa nội dung theo yêu cầu phản biện  Kết quả: Bài báo chấp nhận đăng tạp chí ISI Tổng kết kết nghiên cứu Với mục tiêu xây dựng thuật toán để kiểm soát tối ưu kết hợp hệ thống lưu trữ lượng nguồn lượng mặt trời nhằm sử dụng hiệu nguồn lượng mặt trời miễn phí đảm bảo sẵn sàng nguồn điện cho tải tình Từ phân tích nghiên cứu công bố áp dụng cho hệ thống quản lý lưu trữ lượng, thuật toán Q-ROC đề xuất với cải tiến đóng góp sau:  Nhiễu đưa vào xem xét xử lý để đảm bảo toán điều khiển tối ưu bền vững  Thay sử dụng mạng truyền thẳng để xấp xỉ hàm thuật toán công bố, Q-ROC sử dụng CMAC để tăng hiệu tính tốn, tăng tốc độ hội tụ  Sử dụng liệu thu thập thực tế từ nguồn có độ tin cậy cao, mơ số có so sánh thuật toán Q-ROC thuật toán điều khiển tối ưu không xét nhiễu thực để đánh giá tính hiệu phương pháp đề xuất Đánh giá kết đạt kết luận Các kết sản phẩm đáp ứng yêu cầu đề thuyết minh Tóm tắt kết (tiếng Việt tiếng Anh) Dựa kỹ thuật học máy Q-learning, thuật toán Q-ROC phân tích đề xuất để điều khiển tối ưu bền vững hệ thống quản lý lượng tái tạo Bộ điều khiển có khả nạp/xả lượng cách tối ưu nhằm tối thiểu hàm chi phí bao gồm tổng bình phương giá điện, tuổi thọ lưu trữ, tín hiệu điều khiển tín hiệu loại nhiễu Bằng việc khai thác ưu điểm mạng CMAC, độ phức tạp tính tốn thuật tốn giảm tốc độ hội tụ tăng lên phù hợp yêu cầu học đièu khiển trực tuyến Nhiễu ngồi bù cách áp dụng lý thuyết trị chơi điều khiển Kết điểm yên ngựa bao gồm cặp tín hiệu điều khiển tối ưu tín hiệu bù nhiễu tối ưu xấp xỉ Kết thực nghiệm số cho hệ thống bao gồm pin mặt trời, lưới ắc qui với nguồn liệu đo đạc thực tế chứng minh thuật toán đề xuất hiệu Based on the Q-learning algorithm, the Q-ROC algorithm was analyzed and proposed with the ability to provide the robust optimal control for the renewable energy management system The controller has the ability to charge and discharge optimally according to the sum of squares of electricity price, battery lifetime, control signals, and disturbance compensation signals By utilizing the advantages of CMAC, the computational complexity is reduced and the convergence is speeded up, which are required as the important conditions in online control The external disturbance is compensated for by utilizing ZSG theory in control As a result, the saddle point, including the control policy and disturbance compensation policy, is approximated According to the practically measured data, the results from simulation for the system, including solar energy, grid, and battery, compared to another method without disturbance rejection, justify the proposed algorithm III Sản phẩm đề tài, công bố kết đào tạo 3.1 Kết nghiên cứu (sản phẩm dạng 1,2,3) TT Yêu cầu khoa học hoặc/và tiêu kinh tế - kỹ thuật Tên sản phẩm Q-LEARNING ALGORITHM AND CMAC APPROXIMATION BASED ROBUST OPTIMAL CONTROL FOR RENEWABLE ENERGY MANAGEMENT SYSTEMS Ghi chú: Đăng ký Đạt ISI ISI - Các ấn phẩm khoa học (bài báo, báo cáo KH, sách chuyên khảo…) chấp nhận có ghi nhận địa cảm ơn trường ĐH Công Nghiệp Tp HCM cấp kính phí thực nghiên cứu theo quy định - Các ấn phẩm (bản photo) đính kèm phần phụ lục minh chứng cuối báo cáo (đối với ấn phẩm sách, giáo trình cần có photo trang bìa, trang trang cuối kèm thơng tin định số hiệu xuất bản) 3.2 Kết đào tạo Thời gian Tên đề tài Tên chuyên đề NCS TT Họ tên thực đề tài Đã bảo vệ Tên luận văn Cao học Nghiên cứu sinh Học viên cao học Nguyễn Khương Thành tháng Điều Khiển Tối Ưu Thích Nghi Dùng Học Củng Cố Áp Dụng 25/01/2021 Cho Hệ Thống Lưu Trữ Năng Lượng Mặt Trời Sinh viên Đại học Ghi chú: - Kèm photo trang bìa chuyên đề nghiên cứu sinh/ luận văn/ khóa luận bằng/giấy chứng nhận nghiên cứu sinh/thạc sỹ học viên bảo vệ thành công luận án/ luận văn;( thể phần cuối báo cáo khoa học) IV Tình hình sử dụng kinh phí T T A Nội dung chi Chi phí trực tiếp Th khốn chun mơn Nguyên, nhiên vật liệu, con… Thiết bị, dụng cụ Kinh phí duyệt (triệu đồng) Kinh phí thực (triệu đồng) 50.000.000 50.000.000 Ghi 6 B Cơng tác phí Dịch vụ thuê Hội nghị, hội thảo,thù lao nghiệm thu kỳ In ấn, Văn phịng phẩm Chi phí khác Chi phí gián tiếp Quản lý phí Chi phí điện, nước Tổng số 50.000.000 50.000.000 V Kiến nghị (về phát triển kết nghiên cứu đề tài) VI Phụ lục sản phẩm (liệt kê minh chứng sản phẩm nêu Phần III) Chủ nhiệm đề tài Huỳnh Tuyết Vy Phòng QLKH&HTQT Tp HCM, ngày 30 tháng 03 năm 2022 Khoa Công Nghệ Điện Tử Trưởng (đơn vị) (Họ tên, chữ ký) TS Mai Thăng Long PHẦN II BÁO CÁO CHI TIẾT ĐỀ TÀI NGHIÊN CỨU KHOA HỌC (báo cáo tổng kết sau nghiệm thu, bao gồm nội dung góp ý hội đồng nghiệm thu) DANH SÁCH TỪ VIẾT TẮT DANH SÁCH HÌNH ẢNH 10 Chương Giới thiệu 11 Chương Mơ Tả Bài Tốn 13 2.1 Mô hình điều khiển hệ thống quản lý lượng tái tạo 13 2.2 Mô hình phi tuyến mục tiêu điều khiển 14 Chương Thuật Toán Q-ROC 16 3.1 Q-Learning hệ thống quản lý lượng .16 3.2 Q-ROC sử dụng mạng CMAC 17 3.3 Thuật Toán Điều Khiển 19 Chương Mô Phỏng Và Kết Quả .20 4.1 Thiết lập mô 21 4.2 Kết so sánh đánh giá .22 Chương Kết Luận Kiến Nghị .25 5.1 Kết luận 25 5.2 Kiến nghị 26 TÀI LIỆU THAM KHẢO 27 DANH SÁCH TỪ VIẾT TẮT ADP Adaptive dynamic programming CMAC Cerebellar Model Articulation Controller Q-OC Q-Learning optimal control Q-ROC Q-Learning robust optimal control Fb,k Storage energy (kWh) Fbmin / Fbmax Minimum/maximum storage energy (kWh)  (.) Charging/discharging efficiency Trate Rated charing/discharging power (kW) TG ,k Power supply of the grid (kW) TL ,k Power of the load (kW) TR ,k Power of the renewable resource (kW) TRL ,k Power from the renewable resource to the load (kW) TRB ,k Power from the renewable resource to the battery (kW) TGL ,k Power from the power grid to the load (kW) TGB ,k Power from the power grid to the battery (kW) TBL ,k Power from the battery to the load (kW) Fb0 Middle of storage limit (kWh) Ck Electricity rate (cents/kWh) uk Control law wk Disturbance compensation law dk Disturbance wk  arg max Q l ( xk , uk ,Wk ) Wk (19) Phương trình (17)-(19) lặp qua nhiều bước lặp hội tụ Ql ( xk , uk , wk )  Ql 1 ( xk , uk , wk )   ,  số dương nhỏ 3.2 Q-ROC sử dụng mạng CMAC Quan sát phương trình (17) bước lặp l, chi phí lưu trữ tính tốn tăng theo hàm mũ ( ) số lượng điểm tường minh không gian trạng thái với tập số lượng tín hiệu điều khiển nhiễu trạng thái Điều dẫn đến việc bùng nổ tổ hợp Để khắc phục nhược điểm xấp xỉ hàm khai thác Cấu trúc học Q-ROC đề xuất hình 2, xấp xỉ hàm CMAC dùng để xấp xỉ hàm Q j ( xk , uk , wk ) , luật điều khiển u k luật bù nhiễu wk xấp xỉ hai xấp xỉ hàm hai lớp (two-layer perceptron (2-LP)) [20] Hình Cấu trúc học Q-ROC Mặc dù mạng 2-LP [20] sử dụng báo này, xấp xỉ hàm Q  xk , uk , w k  thực mạng CMAC để tăng tốc độ hội tụ, giảm phức tạp tính tốn Mạng CMAC mơ theo mơ hình xử lý thơng tin tiểu não người, gồm nhiều tế bào xếp chồng lên [32] Khi nhận thơng tin bên ngồi, số tế bào tiểu não bị kích thích để nội suy ngõ cách sử dụng thông tin lưu trữ nhớ Tầm giá trị ngõ vào i CMAC lượng tử thành Bi phần tử phân giải có độ rộng nhân lên K lớp, xếp chồng trượt lên khoảng Ngõ vào ánh xạ liên tiếp thành giá trị lượng tử hóa tất lớp Hình mơ tả cấu trúc hoạt động CMAC CMAC sử dụng để xấp xỉ hàm đánh giá Q từ ngõ vào  , Q( xk , uk , wk ) :   Q ,   [ xk , uk , wk ]T  Q  Thuật toán 17 CMAC gồm hai bước ánh xạ để xác định giá trị ngõ xấp xỉ gồm ánh xạ giá trị ngõ vào thành giá trị lượng tử lớp, chiều, sau tiếp tục ánh xạ vào trọng số lưu ô nhớ tương ứng với giá trị lượng tử ánh xạ Tổng giá trị trọng số giá trị ngõ Trong đề tài, để giảm độ phức tạp tính tốn, hàm tiếp nhận hàm xung đơn vị hàm tiếp nhận đa chiều bỏ qua Hàm tiếp nhận đa chiều mơ tả sử dụng [34] Hình Cấu trúc mạng CMAC Mỗi ngõ vào nhận giá trị trạng thái x , CMAC thực ánh xạ để tính giá trị ngõ hàm xấp xỉ: Qˆ l ( xk , uk , wk )  WˆcT  (20) T    xk , uk , w k  , Wˆ véc tơ trọng số Tầm giá trị lớp chia thành giá trị với khoảng cách nhau, phương pháp lượng tử hóa sử dụng để tính tốn đề tài Hình Mạng CMAC hai chiều bốn lớp 18 Hình mơ tả cách ánh xạ để xác định giá trị ngõ từ giá trị ngõ vào mạng CMAC hai chiều, bốn lớp Tầm giá trị lớp lượng tử thành mười khoảng Giá trị ngõ vào ánh xạ thành giá trị lượng tử lớp, chiều tương ứng với ô nhớ Mỗi ô nhớ có trọng số riêng xác định tối ưu trình huấn luyện Tổng đại số trọng số kích hoạt giá trị ngõ vào lớp giá trị ngõ xấp xỉ Khi giá trị ngõ vào thay đổi, nhớ kích hoạt thay đổi dẫn đến giá trị ngõ xấp xỉ thay đổi Luật điều khiển luật bù nhiễu xấp xỉ mạng 2-LP biểu diễn sau: uˆk  Wˆ1T  (V1T xk ) wˆ  Wˆ T  (V T x ) k 2 k (21) (22) Vi , Wî , i  1, trọng số lớp vào lớp mạng 2-LP,  (.) hàm tác động sigmoid Trọng số lớp vào Vi , i  1, 2, không cần cập nhật, luật cập nhật trọng số lớp bước lặp l , l  1, 2, biểu diễn sau [33]: Ei j (l ) Wî j (l  1)  Wî j (l )   i , i  1, (23) Wî j (l ) E1j (l )  2(uˆk  arg Q j ( xk ,U k , wk )) , E2j (l )  2( wˆ k  arg max Q j ( xk , uk ,Wk )) , Wk Uk i , i  1, tốc độ học Luật cập nhật trọng số CMAC thiết kế sau:  c Ecj (l ) Qˆ j ,l ( ) j j ˆ ˆ (24) Wc (l  1)  Wc (l )  K Qˆ j ,l ( ) Wˆc j (l )  c tốc độ học Ecj (l )  l R ( xk , uk , wk )   max Q j 1,l ( xk 1 ,U k ,Wk )  Q j 1,l ( xk , uk , wk )   U W k 3.3 k Thuật Toán Điều Khiển Thuật tốn Q-ROC tương ứng với sơ đồ hình luật cập nhật trọng số (23), (24) xây dựng trình bày Bảng Bảng 1: Thuật toán Q-ROC Bước 1: Khởi tạo ngẫu nhiên Wc (0),Wi (0),Vi , i  1, 2,0    1, tốc độ học   c ,i ,   1, Q  x0T Px0 với P ma trận xác định dương Bước 2: Gán bước lặp l  Cho xk vào mạng 2-LP, tính tín hiệu truyền thuận từ lớp 19 vào thơng qua lớp ẩn đến lớp để có uk , w k sau: với i  1, , tín hiệu vào tế bào k , k  1, , nh lớp ẩn: ni netk , j (l )  Vk , j ,i (l ) xk , j j 1 Tín hiệu tế bào ẩn:  k ,i (l )  a(netk ,i (l ))  1 e  netk ,i ( l ) Tín hiệu vào tế bào h, h  1, , n0 lớp ra: nh ,i ˆ (l ) neth ,i (l )   W h , k ,i k ,i k 1 Tín hiệu tế bào h, h  1, , n0 (tín hiệu điều khiển tín hiệu bù nhiễu) lớp ra: ˆ k  netk ,2 (l ) uˆk  netk ,1 (l ), w Thuật toán khám phá:   rand [0,1] Nếu   0.1 , kích thích hệ thống sử dụng: uˆk  uˆk   wˆ k  wˆ k   với:   0.1rand  1,1 Bước 3: Cập nhật tham số CMAC: ˆ k )  Qˆ l ( xk , uˆk , w ˆ k )   ( S ( xk , uˆk , w ˆ k )   Qˆ l ( xk 1 , uˆk 1 , w ˆ k 1 )  Qˆ l ( xk , uˆk , w ˆ k) Qˆ l 1 ( xk , uˆk , w Bước 4: Tính tốn ngõ mong muốn: umin  arg Qˆ l 1 uk wmax  arg max Qˆ l 1 wk Bước 5: Cập nhật tham số mạng 2-LP: Wˆ1 (l  1)  Wˆ1 (l )  1 (umin  uˆk ) T ( xk ) Wˆ2 (l  1)  Wˆ2 (l )   ( wmax  wˆ k )T ( xk ) Bước 6: Dừng thuật toán Qˆ l 1 (.)  Qˆ l (.)   (  số dương đủ nhỏ làm điều kiện kết thúc), ngược lại l  l  quay lại Bước Chương Mô Phỏng Và Kết Quả Các liệu thực nghiệm từ phần cứng tập hợp tham số hệ thống thiết lập Thuật tốn Q-ROC phát sinh tín điều khiển tối ưu tín hiệu bù nhiễu cho hệ 20 thống bao gồm pin mặt trời, lưới ắc qui Kết đánh giá so sánh với thuật tốn khác 4.1 Thiết lập mơ Tỉ giá điện tham chiếu từ công ty ComEd Company [37] Công suất tải tiêu thụ tham chiếu từ báo cáo kết thống kê NAHB Research report [38] Công suất tải tiêu thụ tỉ giá điện 168 (1 tuần) biểu diễn hình 5(a) 6(a) Cơng suất tải trung bình tỉ giá điện 24 (1 ngày) tính từ tỉ giá điện công suất tải 168 biểu diễn hình 5(b) 6(b) Nguồn lượng tái tạo đo tuần vào T7/2019 San Francisco tham chiếu từ báo cáo kết thống kê NAHB Research report [39] Công suất từ lượng tái tạo lấy mẫu ngày cơng suất trung bình ngày mơ tả hình 7(a) 7(b) (Xem cơng thức tính cơng suất từ nguồn pin mặt trời tuỳ theo diện tích pin từ [21]) Hình Tải mong muốn 168 24 Hình Tỉ giá điện 168 24 Ghi chú: tỉ giá điện trung bình, cơng suất tải trung bình lượng tái tạo trung bình 24 sử dụng lặp lại với chu kỳ   24 để thực thi thuật toán Để so sánh với phương pháp điều khiển không quan tâm nhiễu, tham số lưu trữ chọn tương tự [20] Do đó, lưu trữ chọn có dung lượng 14kWh, cơng suất định mức Prate  kW, dung lượng lưu trữ tối đa tối thiểu Fbmax  10 KWh, Fbmin  KWh , dung lượng ban đầu 9KWh Hệ số suy giảm   0.95 , hàm 21 tiêu chất lượng (10) có trọng số   ,   0.3 ,   0.2 ,   Khởi tạo T x0  1, 4 , Qˆ  x0T Px0 , P   2.05, 0.11;0.11, 8.07  nên giá trị ban đầu hàm đánh giá Qˆ  x0T Px0 Nhiễu từ lưới pin mặt trời dk  0.1sin(TG ,k )cos(TR ,k ) Hình Công suất từ Pin mặt trời 168 24 Mạng 2-LP có ngõ vào, ngõ ra, lớp ẩn với 10 đơn vị ẩn, hàm kích hoạt sigmoid Cần nhấn mạnh rằng, số đơn vị ẩn lớp ẩn chọn với số lượng lớn ngõ có độ xác cao Tuy nhiên, đề tài cần cân độ xác ngõ độ phức tạp tính tốn, tốc độ hội tụ thuật tốn Thơng thường, trọng số Wî (0),Vi , i=1,2 khởi tạo khoảng  0,1 hệ số học chọn i  0.001 Hệ số học lớn trọng số nhanh hội tụ điểm cận tối ưu bù lại chất lượng điều khiển giảm Theo [36], khơng có phương pháp hồn hảo để xác định tham số tối ưu cho mạng CMAC gồm số lớp số phần tử lớp Để đảm bảo cân độ xác ngõ kích thước nhớ yêu cầu, mạng CMAC mơ đề tài có lớp xếp chồng ( K  4) , lớp có 10 phần tử Bi  10, i  1,2 Số vị trí nhớ yêu cầu cho mạng CMAC N w  K  Bi   100  400 Mặc dù số vị trí nhớ yêu cầu đáp ứng cho xấp i 1 xỉ mạng CMAC lớn so với phương pháp tra bảng Mặc khác, tốc độ hội tụ thuật toán CMAC nhanh mạng truyền thẳng nhiều lớp (Multi-Layer Perceptron – MLP) hay phương pháp thuộc nhóm xấp xỉ hàm sở xuyên tâm (Radial Basic Function – RBF) 4.2 Kết so sánh đánh giá Thuật tốn Q-ROC với số liệu mơ nêu so sánh với phương pháp điều khiển tối ưu Q-Learning khơng xét đến nhiễu ngồi [20], gọi tắt Q-OC (Q-Learning 22 optimal control) Các tham số mô thiết lập giống cho hai thuật tốn Hình Tín hiệu điều khiển nạp/xả tối ưu dùng Q-OC Hình Tín hiệu điều khiển nạp/xả tối ưu dùng Q-ROC Hình 10 Dung lượng Acquy dùng Q-OC Hình 11 Dung lượng Acquy dùng Q-ROC 23 Hình 12 Cơng suất lưới tối ưu dùng Q-OC Hình 13 Cơng suất lưới tối ưu dùng Q-ROC Hình 14 Cân tải tối ưu dùng Q-OC Hình 15 Cân tải tối ưu dùng Q-ROC Hình cho thấy thuật tốn Q-ROC Q-OC cung cấp tín hiệu điều khiển tối ưu để nạp/xả lượng cho ắc qui tương ứng với công suất tải, giá điện lượng mặt trời 24 theo thời gian tương ứng với hình 5-7 Chú ý giá trị âm uˆ k lưu trữ trạng thái nạp dương trạng thái xả Hình 10 11 biểu diễn dung lượng lưu trữ tối ưu Từ giá trị lưu trữ trung bình Fb0  (10  2)  kWh, thấy Q-ROC cho giá trị nạp/xả xoay quanh điểm trung bình để tối thiểu hàm tiêu chất lượng từ tăng tuổi thọ ắc qui, Q-OC cho giá trị cách xa điểm trung bình dẫn đến chất lượng nạp thấp xả sâu Hình 12 13 biểu diễn công suất tối ưu lấy từ lưới phối hợp với công suất từ pin mặt trời để cân tải nạp cho ắc qui Tại thời điểm ban đêm nguồn lượng mặt trời không, công suất điện lưới ắc qui nạp cho tải lưới vừa làm nhiệm vụ nạp cho tải ắc qui, tuỳ theo trạng thái hồi tiếp từ ắc qui tải Hình 14 15 biểu diễn tải mong muốn tổng công suất cung cấp cho tải từ lưới, lượng tái tạo lưu trữ Thuật tốn Q-ROC có khả bù nhiễu nên tổng công suất đáp ứng cân tải đạt đến giá trị cận tối ưu Ngược lại, Q-OC không bù nhiễu nên tổng công suất cao tải dẫn đến việc lãng phí lượng Chương 5.1 Kết Luận Kiến Nghị Kết luận Đề tài sử dụng kỹ thuật học máy Q-Learning cung cấp thuật toán để điều khiển tối ưu bền vững hệ thống quản lý lượng tái tạo Bộ điều khiển có khả nạp/xả lượng cách tối ưu nhằm tối thiểu hàm chi phí bao gồm tổng bình phương giá điện, tuổi thọ lưu trữ, tín hiệu điều khiển tín hiệu loại nhiễu Bằng việc khai thác ưu điểm mạng CMAC, độ phức tạp tính tốn thuật tốn giảm tốc độ hội tụ tăng lên phù hợp yêu cầu học đièu khiển trực tuyến Nhiễu bù cách áp dụng lý thuyết trò chơi điều khiển H  Kết điểm yên ngựa bao gồm cặp tín hiệu điều khiển tối ưu tín hiệu bù nhiễu tối ưu xấp xỉ Kết mô áp dụng cho hệ thống bao gồm pin mặt trời, lưới ắc qui với nguồn liệu đo đạc thực tế chứng minh thuật toán đề xuất hiệu Đề tài thực gần đầy đủ nội dung khoa học đề tài yêu cầu sản phẩm đầu đề tài đạt thuyết minh phê duyệt Thuật tốn điều khiển tối ưu thích nghi việc nạp/xả lưu trữ áp dụng cho hệ thống quản lý lượng đề xuất Hàm tiêu chất lượng tối ưu định nghĩa dựa 25 liệu giá điện thực, phụ tải, lượng tái tạo mặt trời tuổi thọ lưu trữ Hàm chi phí tối thiểu để giảm tổng chi phí điện đồng thời kéo dài tuổi thọ acquy Luật điều khiển tối ưu luật bù nhiễu xấp xỉ đảm bảo cân tải nguồn lượng điện lưới, lượng mặt trời lưu trữ Kết mô chứng minh tính hiệu thuật tốn Việc thực nghiệm tiến hành thực hệ thống với thuật toán Q-OC chưa xét đến nhiễu ngồi (kết thực nghiệm trình bày báo cáo luận văn thạc sĩ SV Nguyễn Khương Thành – luận văn bảo vệ vào T01/2021) Thuật tốn QROC đề xuất có xem xét đến nhiễu chưa thực nghiệm hệ thống thực ảnh hưởng dịch bệnh Tuy nhiên, kết mô so sánh thuật toán Q-OC QROC với thơng số thiết lập, thuật tốn Q-ROC cho kết tốt 5.2 Kiến nghị Kết nghiên cứu đề tài nguồn tài liệu tham khảo cho nhà sản xuất lựa chọn giải pháp tối ưu việc sử dụng nguồn lượng mặt trời miễn phí Thuật tốn cần xem xét thêm hướng hòa lưới điện từ nguồn lượng mặt trời lưu trữ lên điện lưới công suất lượng mặt trời cao nhu cầu tải lưu trữ Điều tăng nguồn thu nhập, bù phần chi phí phải trả cho nguồn điện lưới sử dụng thời điểm nhu cầu cao Đồng thời, việc thực nghiệm cần tiến hành chạy thử thiết bị có cơng suất lớn (tải xoay chiều, lưu trữ, nguồn lượng mặt trời) phù hợp với thực tế Việc mô thực nghiệm cần khảo sát thời gian đủ lớn, 168 mơ dẫn đến chưa đánh giá tồn diện tính hiệu tồn cục thuật tốn nguồn lượng thu từ pin lượng mặt trời tùy thuộc vào nhiều yếu tố khách quan (thời tiết, vị trí đặt thực nghiệm, thời điểm thực nghiệm) 26 TÀI LIỆU THAM KHẢO [1] J M Guerrero, M Chandorkar, T Lee and P C Loh, "Advanced Control Architectures for Intelligent Microgrids—Part I: Decentralized and Hierarchical Control," IEEE Transactions on Industrial Electronics, vol 60, no 4, pp 1254-1262, April 2013, doi: 10.1109/TIE.2012.2194969 [2] F De Angelis, M Boaro, D Fuselli, S Squartini, F Piazza and Q Wei, "Optimal Home Energy Management Under Dynamic Electrical and Thermal Constraints," IEEE Transactions on Industrial Informatics, vol 9, no 3, pp 1518-1527, Aug 2013, doi: 10.1109/TII.2012.2230637 [3] C S Lai and M D McCulloch, "Sizing of Stand-Alone Solar PV and Storage System with Anaerobic Digestion Biogas Power Plants," IEEE Transactions on Industrial Electronics, vol 64, no 3, pp 2112-2121, March 2017, doi: 10.1109/TIE.2016.2625781 [4] H Liu, P C Loh, X Wang, Y Yang, W Wang and D Xu, "Droop Control with Improved Disturbance Adaption for a PV System with Two Power Conversion Stages," IEEE Transactions on Industrial Electronics, vol 63, no 10, pp 6073-6085, 2016, doi: 10.1109/TIE.2016.2580525 [5] J von Appen, T Stetz, M Braun and A Schmiegel, "Local Voltage Control Strategies for PV Storage Systems in Distribution Grids," IEEE Transactions on Smart Grid, vol 5, no 2, pp 1002-1009, 2014, doi: 10.1109/TSG.2013.2291116 [6] Q Shafiee, Č Stefanović, T Dragičević, P Popovski, J C Vasquez and J M Guerrero, "Robust Networked Control Scheme for Distributed Secondary Control of Islanded Microgrids," IEEE Transactions on Industrial Electronics, vol 61, no 10, pp.5363-5374, 2014, doi: 10.1109/TIE.2013.2293711 [7] F L Lewis, D Vrabie, and K G Vamvoudakis, “Reinforcement learning and feedback control: Using natural decision methods to design optimal adaptive controllers,” IEEE Control Systems, vol 32, no 6, pp 76–105, Dec 2012, doi: 10.1109/MCS.2012.2214134 [8] Q Yang, S Jagannathan, and Y Sun, “Robust integral of neural network and error sign control of MIMO nonlinear systems,” IEEE Transactions on Neural Networks and Learning Systems, vol 26, no 12, pp 3278– 3286, Dec 2015, doi: 10.1109/TNNLS.2015.2470175 27 [9] Y Jiang and Z P Jiang, “Robust adaptive dynamic programming and feedback stabilization of nonlinear systems,” IEEE Transactions on Neural Networks and Learning, vol 25, no 5, pp 882-893, May 2014, doi: 10.1109/TNNLS.2013.2294968 [10] Paul Werbos, “Advanced forecasting methods for global crisis warning and models of intelligence”, General system, vol.22, 1977 [11] Q Wei, D Liu, G Shi, and Y Liu, “Multibattery Optimal Coordination Control for home energy management systems via distributed iterative adaptive dynamic programming,” IEEE Transactions on Industrial Electronics, vol 42, no 7, pp 4203– 4214, Jul 2015, doi: 10.1109/TIE.2014.2388198 [12] Q Wei, D Liu, F L Lewis, and Y Liu, “Mixed iterative adaptive dynamic programming for optimal battery energy control in smart residential microgrids,” IEEE Transactions on Industrial Electronics, vol 64, no 5, pp 4110-4120, May 2017, doi: 10.1109/TIE.2017.2650872 [13] R Song, W Xiao, H Zhang, and C Sun, “Adaptive dynamic programming for a class of complex-valued nonlinear systems,” IEEE Transactions on Neural Networks and Learning Systems, vol 25, no 9, pp 1733–1739, Sep 2014, doi: 10.1109/TNNLS.2014.2306201 [14] G K Venayagamoorthy, R K Sharma, P K Gautam, and A Ahmadi, “Dynamic energy management system for a smart microgrid,” IEEE Transactions on Neural Networks and Learning Systems, vol 27, no 8, pp 1643-1656, Aug 2016, doi: 10.1109/TNNLS.2016.2514358 [15] T Huang and D Liu, “A self-learning scheme for residential energy system control and management,” Neural Computing and Applications, vol 22, no 2, pp 259–269, Feb 2013, doi: 10.1007/s00521-011-0711-6 [16] J Si and Y.-T Wang, “On-line learning control by association and reinforcement,” IEEE Transactions on Neural Networks, vol 12, no 2, pp 264–276, Mar 2001, doi: 10.1109/72.914523 [17] M Boaro et al., “Adaptive dynamic programming algorithm for renewable energy scheduling and battery management,” Cognitive Computer, vol 5, no 2, pp 264–277, Jun 2013, doi.org/10.1007/s12559-012-9191-y [18] D Fuselli et al., “Action dependent heuristic dynamic programming for home energy resource scheduling,” International Journal of Electrical Power and Energy Systems, 28 vol 48, pp 148–160, Jun 2013, doi.org/10.1016/j.ijepes.2012.11.023 [19] D Fuselli, F D Angelis, M Boaro, D Liu, Q Wei, S Squartini, and F Piazza, “Action dependent heuristic dynamic programming for home energy resource scheduling,” International Journal of Electrical Power and Energy Systems, vol 48, pp 148–160, Jun 2013, doi.org/10.1016/j.ijepes.2012.11.023 [20] Q Wei, D Liu and G Shi, "A novel dual iterative Q-learning method for optimal battery management in smart residential environments," IEEE Transactions on Industrial Electronics, vol 62, no 4, pp 2509-2518, April 2015, doi: 10.1109/TIE.2014.2361485 [21] Q Wei, G Shi, R Song and Y Liu, "Adaptive Dynamic Programming-Based Optimal Control Scheme for Energy Storage Systems with Solar Renewable Energy," IEEE Transactions on Industrial Electronics, vol 64, no 7, pp 5468-5478, July 2017, doi: 10.1109/TIE.2017.2674581 [22] Li, H., Liu D and Wang, D “Integral reinforcement learning for linear continuous-time zero-sum games with completely unknown dynamics”, IEEE Transactions on Automation Science and Engineering, vol 11, no 3, pp 706–714, 2014, doi: 10.1109/TASE.2014.2300532 [23] Van der Schaft, A J (1992), “ feedback -gain analysis of nonlinear systems and nonlinear state control,” IEEE Transactions on Automatic Control, vol 37, no 6, pp 770-784 June 1992, doi: 10.1109/9.256331 [24] Basar, T and Bernhard, P “H-infinity Optimal Control and Related Minimax Design Problems”, Boston: Birkhäuser, second edition, 2008 [25] Wu, W.H.and Biao, L., “Neural network based online simultaneous policy update algorithm for solving the HJI equation in nonlinear H∞ control,” IEEE Transactions on Neural Networks and Learning Systems, vol 23, no 12, pp 1884-1895, 2012, doi: 10.1109/TNNLS.2012.2217349 [26] Abu-Khalaf, M and Lewis, F.L., “Neurodynamic programming and zero-sum games for constrained control systems,” IEEE Transactions on Neural Networks, vol 19, no 7, pp 1243-1252, July 2008, doi: 10.1109/TNN.2008.2000204 [27] Abu-Khalaf, M., Lewis, F.L and Huang, J “Policy iterations on the Hamilton–Jacobi– Isaacs equation for H∞ state feedback control with input saturation,” IEEE Transaction on Automatic Control, vol 51, no 12, pp 1989–1995, 2006, doi: 29 10.1109/TAC.2006.884959 [28] Xu, X., Zuo, L and Huang, Z (2014), “Reinforcement learning algorithms with function approximation: Recent advances and applications,” Information Sciences, 261, pp 1–31, doi.org/10.1016/j.ins.2013.08.037 [29] Tham, C.K (1994), Modular online function approximation for scaling up reinforcement learning, Ph.D Thesis, University of Cambridge [30] Q Wei, D Liu, Q Lin and R Song, “Adaptive dynamic programming for discrete-time Zero-Sum games,” IEEE Transactions on Neural Networks and Learning Systems, vol 29, no 4, pp 957-969, 2018, doi: 10.1109/TNNLS.2016.2638863 [31] C Watkins, Learning from Delayed Rewards Ph.D Thesis, Cambridge University, Cambridge, England, 1989 [32] J.S Albus, “Data Storage in the Cerebellar Model Articulation Controller (CMAC),” Journal of Dynamic System, Measurement and Control, vol 97, no 3, pp 228–223, 1975 [33] J Si and Y.-T Wang, “On-line learning control by association and reinforcement,” IEEE Transactions on Neural Network, vol 12, no 2, pp 264–276, 2001, doi: 10.1109/72.914523 [34] Kim, Y & Lewis, F., 2000 Optimal design of CMAC neural-network controller for robot manipulators IEEE Transactions on Systems, Man, and Cybernetics Part C, Volume 30, pp 22-31, doi:10.1109/5326.827451 [35] Sutton, S R & Barto, G A., 1998 Reinforcement learning-an introduction s.l.:Cambridge, MA: MIT Press [36] C.S, L & H., K., 1995 Selection of learning parameters for CMAC-based adaptive critic learning IEEE Transactions on Neural Networks, 6(3), pp 642-647, doi: 10.1109/72.377969 [37] ComEd, C., Data of electricity rate from ComEd Company [Online] Available at: https://hourlypricing.comed.com/pricing-tabletoday [38] NREL, Data of load demand from National Renewable Energy Laboratory (NREL), USA [Online] Available at: https://data.openei.org/submissions/153 [39] NREL, Data of solar energy from National Renewable Energy Laboratory (NREL), USA [Online] Available at: https://www.nrel.gov/grid/solar-resource/renewable- resource-data.html 30 PHẦN III PHỤ LỤC ĐÍNH KÈM (tất văn có sẵn, chủ nhiệm cần photo đính kèm sau nội dung trên, sử dụng lý hợp đồng với phịng kế tốn Khi lý, báo cáo in thành 03 cuốn, đó, 01 đóng bìa mạ vàng, 02 đóng bìa cứng thường) Hợp đồng thực đề tài nghiên cứu khoa học Thuyết minh đề tài phê duyệt Quyết định nghiệm thu Hồ sơ nghiệm thu (biên họp, phiếu đánh giá, bảng tổng hợp điểm, giải trình, phiếu phản biện) Sản phẩm nghiên cứu (bài báo, vẽ, mơ hình .) 31 ... Thuật tốn điều khiển tối ưu thích nghi việc nạp/xả lưu trữ áp dụng cho hệ thống quản lý lượng đề xuất Hàm tiêu chất lượng tối ưu định nghĩa dựa 25 liệu giá điện thực, phụ tải, lượng tái tạo mặt... Đại học Công Nghi? ??p Thành Phố Hồ Chí Minh với mã số 21/1DT 03 PHẦN I THƠNG TIN CHUNG I Thơng tin tổng qt 1.1 Tên đề tài: Điều Khiển Tối Ưu Thích Nghi Dùng Học Củng Cố Áp Dụng Cho Hệ Thống Lưu Trữ. .. Trate ) (4) với Fb,k mức lượng lưu trữ cho Fbmin  Fb ,k  Fbmax ; Fbmin Fbmax mức lưu trữ tối thiểu tối đa Chú ý Fb ,k  lưu trữ xả, Fb ,k  lưu trữ nạp Fb ,k  lưu trữ trạng thái dừng 2.2 Mơ

Định dạng
Số trang	33
Dung lượng	2,08 MB