Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 44 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
44
Dung lượng
2 MB
Nội dung
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Ứng dụng trí tuệ nhân tạo việc dị điểm công suất cực đại hệ thống pin mặt trời điều kiện lượng xạ không bề mặt NGUYỄN XUÂN NAM nam.NXCB190087@sis.hust.edu.vn Ngành Điều khiển tự động hóa Giảng viên hướng dẫn: TS Vũ Thị Thúy Nga Viện: Điện HÀ NỘI, 03/2022 Chữ ký GVHD LỜI NÓI ĐẦU Khoa học kỹ thuật ngày giúp giới ngày thay đổi nhanh hơn, văn minh đại Trong đó, phát triển kỹ thuật tự động hóa tạo hàng loạt thiết bị với đặc điểm bật độ xác, bảo mật cao, tốc độ nhanh, gọn nhẹ Đây yếu tố cần thiết cho tiện lợi sống Cùng với phát triển nhân loại, vấn đề đáng quan tâm kể đến Năng lượng Con người ngày sử dụng nhiều lượng nguồn lượng sẵn có ngày cạn kiệt Chúng ta cần hướng đến việc vận dụng triệt để nguồn lượng tự nhiên, lượng tái tạo Và số kể đến lượng mặt trời Từ đó, pin mặt trời đời Pin mặt trời thiết bị có chức chuyển đổi lượng quang mặt trời thành điện Đây cách quan trọng để tạo lượng tái tạo Để có hiệu quả, pin mặt trời phải liên tục tạo công suất tối đa điều kiện môi trường khác Bài tốn tìm mức lượng tối đa tạo giải cách sử dụng phương pháp lý thuyết điều khiển cổ điển Mặc dù đem lại kết tốt, nhiên giải pháp thường áp dụng trường hợp cụ thể việc vận dụng Chính em tìm hiểu phương pháp dùng trí tuệ nhân tạo để tối ưu hóa lợi ích pin mặt trời đem lại Đây nội dung đồ án em, là: “Ứng dụng trí tuệ nhân tạo việc dị điểm công suất cực đại hệ thống pin mặt trời điều kiện lượng xạ không bề mặt” Trong trình làm đồ án, thời gian nghiên cứu tìm hiểu chưa lâu, chắn cịn nhiều hạn chế sai sót, em mong nhận bảo, hướng dẫn cô đóng góp thầy để đồ án hồn thiện Em chân thành cảm ơn! TÓM TẮT LUẬN VĂN THẠC SĨ Đề tài: Ứng dụng trí tuệ nhân tạo việc dị điểm cơng suất cực đại hệ thống pin mặt trời điều kiện lượng xạ không bề mặt Tác giả luận văn:.Nguyễn Xuân Nam Khóa:2019B Người hướng dẫn: TS Vũ Thị Thúy Nga Từ khóa (Keyword): Học tăng cường, Reinforcement Learning, pin mặt trời, Q Learning, công suất cực đại Nội dung tóm tắt: a) Lý chọn đề tài Pin mặt trời thiết bị có chức chuyển đổi quang mặt trời thành điện Để có hiệu quả, pin mặt trời phải liên tục tạo công suất tối đa điều kiện mơi trường khác Bài tốn giải cách sử dụng phương pháp lý thuyết điều khiển cổ điển Mặc dù đem lại kết tốt, nhiên giải pháp thường áp dụng trường hợp cụ thể việc vận dụng Chính tác giả tìm hiểu phương pháp dùng trí tuệ nhân tạo để tối ưu hóa lợi ích pin mặt trời đem lại b) Tóm tắt nội dung CHƯƠNG Giới thiệu hệ thống phát điện sử dụng pin mặt trời Tìm hiểu cấu tạo nguyên lý hoạt động pin mặt trời Tìm hiểu số phương pháp điều khiển cho pin mặt trời CHƯƠNG Lý thuyết điều khiển học tăng cường Làm rõ vấn đề lý thuyết liên quan đến học tăng cường CHƯƠNG Áp dụng học tăng cường vào tốn điều khiển MPPT Tìm hiểu thuật tốn điều khiển học tăng cường Q Learning, Deep Q Learning, Double Deep Q Learning để giải tốn tìm điểm MPPT cho hệ thống pin mặt trời c) Phương pháp nghiên cứu Sử dụng công cụ mô phần mềm Matlab để tính tốn mơ hệ thống pin mặt trời điều kiện khác d) Kết luận Sử dụng phần mềm Matlab để mô cho kết tốt đầy hứa hẹn cho việc xây dựng phương pháp kiểm soát MPPT phổ biến không phụ thuộc vào đặc tính PV Mặc dù phương pháp điều khiển RLMPPT đề xuất thiết kế cho nguồn PV, phát triển cho nhiệm vụ MPPT lĩnh vực nghiên cứu khác máy phát điện gió pin nhiên liệu Mục lục Mục lục Danh mục hình ảnh, bảng biểu Danh mục hình ảnh CHƯƠNG Giới thiệu hệ thống phát điện sử dụng pin mặt trời 1.1 Cấu trúc, nguyên lý hoạt động hệ thống 1.1.1 Pin lượng mặt trời gì? Hoạt động nào? 1.1.2 Cấu tạo pin lượng mặt trời 1.1.3 Sự chuyển đổi quang thành điện 1.1.4 Hệ thống phát điện sử dụng pin mặt trời 1.2 Các toán điều khiển hệ thống phát điện sử dụng pin mặt trời 1.3 Bài toán điều khiển MPPT điều kiện xạ bề mặt 10 1.4 Điều khiển MPPT điều kiện xạ không bề mặt 12 CHƯƠNG Lý thuyết điều khiển học tăng cường 15 2.1 Học tăng cường 15 2.2 Mối liên hệ điều khiển truyền thống điều khiển học tăng cường 15 2.3 Quá trình Markov 16 CHƯƠNG Áp dụng học tăng cường vào toán điều khiển MPPT 21 3.1 3.2 Các khái niệm thường dùng học tăng cường 21 3.1.1 Không gian trạng thái (State space) 21 3.1.2 Danh sách hành động (Action list) 22 3.1.3 Phần thưởng (reward) 23 Một số thuật toán học tăng cường điều khiển pin mặt trời 23 3.2.1 Thuật toán Q Learning: 23 3.2.2 Thuật toán Deep Q learning 30 3.2.3 Thuật toán Double Deep Q Learning 35 Tài liệu tham khảo 43 Danh mục hình ảnh, bảng biểu Danh mục hình ảnh Hình 1.1 Đường cong I-V nguồn PV điều kiện mơi trường khơng đổi 10 Hình 1.2 Đường cong I-V điều kiện xạ mặt trời khác 11 Hình 1.3 Mạch điện tương đương của: a)Nguồn PV, b) Bộ Buck Converter 12 Hình 1.4: Hệ thống pin chiếu xạ không 13 Hình 1.5: Đặc tính P(U) 13 Hình 1.6: Đặc tính P(I) 14 Hình 1.7: Đặc tính I(V) 14 Hình 3.1 Góc θ θ MPP 22 Hình 3.2 Cơng suất nguồn PV1 điều kiện a) NOCT b) STC 26 Hình 3.3 Nhiệt độ khơng đổi Q-learning 27 Hình 3.4 Bức xạ khơng đổi Q-learning 28 Hình 3.5 Biến thiên đồng thời tải điều kiện môi trường Q-learning 28 Hình 3.6 Tải có cơng suất lớn Q-learning 29 Hình 3.7 Lưu đồ thuật toán P&O 29 Hình 3.8 So sánh phương pháp P&O RLMPPT 30 Hình 3.9 Điều kiện NOTC Deep Q 32 Hình 3.10 Điều kiện STC Deep Q 32 Hình 3.11 Nhiệt độ không đổi Deep Q 33 Hình 3.12 Bức xạ khơng đổi Deep Q 34 Hình 3.13 Biến thiên tải điều kiện mơi trường Deep Q 34 Hình 3.14 Tải có cơng suất lớn Deep Q 35 Hình 3.15 Cơng suất sinh pin điều kiện NOCT 37 Hình 3.16 Cơng suất sinh pin điều kiện SCT 38 Hình 3.17 Cơng suất sinh pin điều kiện biến thiên xạ 39 Hình 3.18 Công suất sinh pin điều kiện biến thiên nhiệt độ 39 Hình 3.19 Cơng suất sinh pin biến thiên tải điều kiện mơi trường 40 Hình 3.20 So sánh DDQN DQN 41 Danh mục bảng biểu Bảng 3.1 Thông số số loại pin mặt trời 24 Danh mục từ viết tắt DDQN: Double Deep Q Network – Thuật toán học tăng cường Double Deep Q Network MDP: Markov Decision Process – Q trình Markov MPP: Maximum Power Point – Điểm cơng suất cực đại MPPT: Maximum Power Point Tracking – Bám điểm công suất cực đại NOCT: Norminal Operating Test Condition – Điều kiện thử nghiệm hoạt động danh nghĩa PV: PhotoVoltaic – Pin mặt trời P&O: Perturb and Observe – Nhiễu loạn Quan sát RL: Reinforcement Learning – Học tăng cường RLMPPT: Reinforcement Learning Maximum Power Point Tracking – Học tăng cường bám điểm công suất cực đại STC: Standard Test Condition – Điều kiện thử nghiệm tiêu chuẩn CHƯƠNG Giới thiệu hệ thống phát điện sử dụng pin mặt trời 1.1 Cấu trúc, nguyên lý hoạt động hệ thống Các pin lượng Mặt trời có nhiều ứng dụng thực tế Chúng đặc biệt thích hợp cho vùng mà điện lưới khó vươn tới núi cao, đảo xa, phục vụ hoạt động không gian; cụ thể vệ tinh quay xung quanh quỹ đạo trái đất, máy tính cầm tay, máy điện thoại cầm tay từ xa, thiết bị bơm nước… 1.1.1 Pin lượng mặt trời gì? Hoạt động nào? Pin lượng mặt trời (pin mặt trời/pin quang điện) thiết bị giúp chuyển hóa trực tiếp lượng ánh sáng mặt trời (quang năng) thành lượng điện (điện năng) dựa hiệu ứng quang điện Hiệu ứng quang điện khả vật chất phát điện tử (electron) ánh sáng chiếu vào Tấm pin mặt trời có bề mặt lớn thu thập ánh nắng mặt trời biến thành điện năng, làm nhiều tế bào quang điện có nhiệm vụ thực trình tạo điện từ ánh sáng mặt trời 1.1.2 Cấu tạo pin lượng mặt trời 1.1.2.1 Lớp tế bào quang điện Solar Cells bên Như nói trên, tế bào quang điện thành phần có chức hấp thu ánh sáng mặt trời biến đổi thành điện Các tế bào tinh thể Silics đơn tinh thể (gọi Pin Mono) đa tinh thể (Gọi Pin Poly), tùy theo quy trình sản xuất hãng pin mặt trời Các đặc tính kỹ thuật là: kích thước, màu sắc, số lượng tế bào – Cells pin quan trọng hết hiệu suất chuyển đổi pin mặt trời Hiện nay, tế bào Cells pin phổ biến tế bào đa tinh thể Poly với hiệu suất chuyển hóa khoảng 17,6%, tạo pin mặt trời 250W với 60 cells Các tế bào Cells liên kết với dây đồng mỏng phủ lớp hợp kim thiếc 1.1.2.2 Lớp kính trước pin mặt trời Phần Kính mặt trước pin mặt trời phần nặng Nó có chức bảo vệ đảm bảo độ bền cho tồn pin mặt trời, trì độ suốt cao Độ dày lớp thường 3,3mm dao động từ 2mm đến 4mm tùy thuộc vào loại kính mà hãng sản xuất pin chọn Điều quan trọng phải ý đến yếu tố chất lượng độ cứng, độ truyền quang phổ truyền ánh sáng Pin tốt lớp kính trước hấp thu ánh sáng qua tốt hơn, phản xạ ánh sáng 1.1.2.3 Tấm pin Tấm mặt sau pin mặt trời làm từ vật liệu nhựa có chức cách ly điện, bảo vệ che chắn tế bào quang điện khỏi thời tiết độ ẩm Tấm thường có màu trắng bán dạng cuộn Các loại pin hãng có khác biệt độ dày, màu sắc diện vật liệu cụ thể để che chắn tốt cho độ bền học cao 1.1.2.4 Vật liệu đóng gói hoàn thiện Pin mặt trời Một vật liệu quan trọng chất liệu đóng gói – chất kết dính lớp khác pin mặt trời Vật liệu phổ biến sử dụng làm chất đóng gói EVA – Ethylene vinyl acetate Nó loại polymer đục mờ đóng theo cuộn Nó phải cắt thành tấm, nằm trước sau tế bào quang điện Khi chịu trình nhiệt nấu chân khơng, loại polymer đặc biệt trở đặc lại thành keo suốt kết dính tế bào quang điện Chất lượng trình này, gọi cán màng, đảm bảo tuổi thọ cao cho pin đó, đồng thời có ảnh hưởng đến việc truyền ánh sáng, tốc độ xử lý khả chống lại màu vàng tia UV 1.1.2.5 Khung pin mặt trời Một phần cuối lắp ráp pin mặt trời khung Nó thường làm nhơm có chức đảm bảo độ bền cho pin Đối với trường hợp sử dụng đặc biệt, có sẵn pin không khung giải pháp nhựa đặc biệt Những giải pháp thường liên quan đến việc sử dụng dung dịch hỗ trợ dán phía sau với cơng nghệ kính thủy tinh 1.1.2.6 Hộp đựng mối nối mạch điện Hộp nối có chức đưa mối nối điện mô đun pin mặt trời bên ngồi Nó chứa dây cáp để kết nối hệ thống Khi chọn hộp nối, nên ý đến chất lượng nhựa, độ tốt hộp nối 1.1.3 Sự chuyển đổi quang thành điện Khi photon chạm vào mảnh silic (chất bán dẫn), hai trường hợp sau xảy ra: - Photon truyền trực xuyên qua mảnh silic Điều thường xảy lượng photon thấp lượng đủ để đưa hạt electron lên mức lượng cao - Năng lượng photon hấp thụ silic Điều thường xảy lượng photon lớn lượng để đưa electron lên mức lượng cao Khi photon hấp thụ, lượng truyền đến hạt electron màng tinh thể Thông thường electron lớp cùng, thường kết dính với ngun tử lân cận khơng thể di chuyển xa Khi electron kích thích, electron tự di chuyển bán dẫn trở thành dẫn điện Khi nguyên tử thiếu electron gọi “lỗ trống” Lỗ trống tạo điều kiện cho electron nguyên tử bên cạnh di chuyển đến điền vào “lỗ trống”, điều tạo lỗ trống cho nguyên tử lân cận có “lỗ trống” Cứ tiếp tục “lỗ trống” di chuyển xuyên suốt mạch bán dẫn Một photon cần có lượng lớn luợng đủ để kích thích electron lớp ngồi dẫn điện Tuy nhiên, tần số mặt trời thường tương đương 6000°K, nên phần lớn lượng mặt trời hấp thụ silic Tuy nhiên hầu hết lượng mặt trời chuyển đổi thành lượng nhiệt nhiều lượng điện sử dụng • 1.1.4 Hệ thống phát điện sử dụng pin mặt trời 1.1.4.1 Cấu tạo điện mặt trời bao gồm phận sau Hệ thống pin lượng mặt trời hay gọi pin quang điện Các pin mặt trời có nhiệm vụ thu nhận chuyển hóa lượng mặt trời thành điện Sau cung cấp nguồn điện cho hệ thống hoạt động • Sạc lượng mặt trời: Hệ thống sạc lượng mặt trời có nhiệm vụ đảm bảo sạc lượng từ pin mặt trời sang hệ thống ắc quy Sao cho bình ắc quy khơng bị sạc tải không bị xả sâu Giúp cho ắc quy hệ thống hoạt động tốt nâng cao tuổi thọ • Inverter chuyển đổi nguồn điện: Thiết bị inverter có nhiệm vụ chuyển đổi nguồn điện chiều pin mặt trời sang điện xoay chiều chuẩn 220v • Hệ thống ắc quy lưu trữ: Các bình ắc quy sử dụng để lưu trữ nguồn điện Sau cung cấp cho tải tiêu thụ điện lưới bị hệ thống điện mặt trời không sản xuất điện 1.1.4.2 Nguyên lý hoạt động điện mặt trời Nguyên lý hoạt động điện mặt trời nhìn chung đơn giản Đầu tiên hệ thống pin lượng mặt trời lắp đặt mái nhà, vách tường nơi thuận lợi để tiếp thu nhiều ánh nắng mặt trời Ánh sáng mặt trời chiếu thẳng vào pin mặt trời biến đổi thành dòng điện chiều theo hiệu ứng quang điện Dòng điện chiều thiết bị chuyển đổi dịng điện (inverter) kích lên thành dòng điện xoay chiều Khi dòng điện kích lên thành điện xoay chiều chuẩn 220v có công suất tần số với điện lưới thông qua sạc lượng mặt trời để sạc đầy hệ thống ắc quy lưu trữ Sau trực tiếp hịa vào điện lưới nhà nước Cả hai nguồn điện song song cung cấp điện cho tải tiêu thụ điện Tuy nhiên ưu tiên sử dụng điện mặt trời Chỉ điện mặt trời không sản sinh đủ cung cấp cho hệ thống tải tiêu thụ nhận điện từ điện lưới 1.2 Các toán điều khiển hệ thống phát điện sử dụng pin mặt trời Trong năm gần đây, nhu cầu điện tồn cầu khơng ngừng tăng lên với nhiễm, nóng lên tồn cầu sử dụng lượng hoá thạch, điều thúc đẩy nhà khoa học nghiên cứu nguồn lượng tái tạo, phương pháp bền vững để sản xuất điện mà khơng phát sinh khí thải nhà kính, ảnh hưởng tới mơi trường Trong lượng mặt trời có tiềm lớn độ tin cậy cao, nguồn lượng dồi dào, đặc biệt khu vực chiếu sáng nhiều ánh nắng mặt trời ngày Trong nhiều thập kỷ qua, lượng lớn dự án điện mặt trời phát triển tồn giới như: cơng viên lượng mặt trời, hệ thống điện mặt trời áp mái, vv… Để tối ưu hóa hiệu suất pin mặt trời (PV), số kỹ thuật Maximum Power Point Tracking (MPPT) đề xuất Chúng chủ yếu chia thành hai loại: gián tiếp trực tiếp Phương pháp gián tiếp dựa tính tốn trước liệu liên quan đến đường cong Power-Voltage (PV) cho điều kiện mơi trường khác hàm tốn học thu từ thử nghiệm thực tiễn, thực nguồn PV khác Một số phương thức gián tiếp sử dụng phổ biến dựa Điện áp hở mạch (Open Circuit Voltage - OV) Dòng điện ngắn mạch (Short Circuit Current - SC), điểm cơng suất cực đại (MPP) tính tốn dựa điện áp hở mạch dòng ngắn mạch [1] Ngoài ra, phương pháp tra cứu bảng so sánh điện áp dòng điện đo với MPP tương ứng điều kiện môi trường cụ thể sử dụng phương pháp xấp xỉ đường cong, mơ hình hóa đặc tính nguồn PV sử dụng xấp xỉ số Ưu điểm phương pháp cấu trúc đơn giản chúng chúng khơng thể dễ dàng thích nghi với thay đổi bên ngồi nguồn PV (ví dụ lão hóa nguồn, thay đổi liên quan đến mức lượng cài đặt) hoạt động chúng dựa ước tính liên quan đến nguồn cụ thể Mặt khác, phương pháp trực tiếp dựa phép đo điện áp, có lợi độc lập với kiến thức trước nguồn PV Các phương pháp trực tiếp phổ biến P&O [2], logic mờ [3] phương pháp mạng nơron [4] Phương pháp P&O có ưu điểm thực đơn giản, nhiên nhược điểm phương pháp việc dao động quanh điểm MPP điểm làm việc ổn định Phương pháp logic mờ cho thấy ổn định, đồng thời loại bỏ dao động điểm MPP, bám điểm cực đại nhanh thích ứng với thay đổi môi trường Tuy nhiên độ tin cậy phương pháp phụ thuộc vào kiến thức chuyên gia Để khắc phục vấn đề nói trên, năm gần nhà nghiên cứu sử dụng kỹ thuật RL [5] để giải vấn đề điều khiển MPPT Học củng cố (RL) phương pháp học máy, học cách đưa hành động nhận kích thích từ mơi trường nhằm đạt mục đích định Những nghiên cứu trước có đề xuất mơ hình Q-Learning nhằm giải toán MPPT cho pin mặt trời Và tiếp nối nghiên cứu đó, đồ án tìm hiểu thuật toán học củng cố khác Double Deep Q Network (DDQN) Cụ thể, thuật toán điểu khiển MPPT dựa dòng điện ngắn mạch (𝐼𝐼𝑆𝑆𝑆𝑆𝑆𝑆 ) điện áp mạch mở (𝑉𝑉𝑂𝑂𝑂𝑂𝑂𝑂 ), điều kiện kiểm tra tiêu chuẩn (STC) Các thơng số tính tốn bảng liệu mơ đun PV thơng qua cấu hình Những đóng góp phương pháp sau: - Đề xuất phương pháp điều khiển MPPT sử dụng Double Deep Q Network Tải có cơng suất lớn Hình 3.6 Tải có cơng suất lớn Q-learning c So sánh với P&0 Trong phần này, điều khiển đề xuất so sánh với phương pháp thông thường P&O Thuật toán P&O sử dụng rộng rãi, dựa việc tính tốn cơng suất điện nguồn quang điện (lưu đồ thuật tốn trình bày Hình 3.7) Hình 3.7 Lưu đồ thuật tốn P&O 29 Thuật tốn tính tốn cơng suất nguồn PV cách đo điện áp dòng điện tạo hai bước thời gian liên tiếp (k-1, k) Trong khoảng thời gian định, cơng suất tính tốn so sánh Trong trường hợp chênh lệch dương, nhiễu loạn tiếp tục theo hướng, ngược lại (nếu chênh lệch âm) hướng nhiễu loạn bị đảo ngược Kích thước bước (C) chu kỳ nhiệm vụ P&O (D) cho mô sau đặt thành 0,01, hành động nhỏ thuật toán RLMPPT Hai thuật toán thử nghiệm giá trị nhiệt độ xạ khác trình bày với cơng suất tạo Hình 3.8 Hình 3.8 So sánh phương pháp P&O RLMPPT So sánh hai thuật toán, tốc độ hiệu quả, thấy điều kiện mơi trường áp dụng (lần chạy đầu tiên) RLMPPT rõ ràng chậm P&0 thuật tốn học từ đầu Tuy nhiên, điều kiện tương tự áp dụng lại (lần chạy thứ hai), thuật toán RLMPPT vượt trội P&O tốc độ trực tiếp đạt mục tiêu Trong trường hợp cần thay đổi lớn chu kỳ làm việc (D), P&O chậm bước đặt thành 0,01 RLMPPT áp dụng thay đổi lớn cần thay đổi để đạt giá trị mục tiêu 3.2.2 Thuật toán Deep Q learning Deep Q learning thuật toán nâng cấp từ Q learing việc thay bảng Q-value mạng nơron với đầu vào trạng thái đầu Q-value ứng với hành động tương ứng Một số thành phần thuật toán Deep Q learning định nghĩa sau: Danh sách trạng thái: Bằng việc thay bảng Q-value mạng nơron, ta áp dụng thuật tốn cho tập trạng thái liên tục thay tập trạng thái rời rạc thuật tốn Q-learning 30 Để áp dụng cho tập trạng thái liên tục, thuật toán khám phá chọn thuật toán epsilon greedy policy: o Lấy ngẫu nhiên số khoảng từ đến o Nếu số nhỏ giá trị ε cho trước tiến hành chọn ngẫu nhiên hành động o Ngươc lại, số lớn giá trị ε chọn hành động cho kết tốt o Giá trị epsilon cần giảm sau vịng lặp để đảm bảo thuật tốn hội tụ o Tốc độ giảm ε cần lựa chọn hợp lí, chậm dẫn đến việc thuật toán nhiều thời gian để hội tụ, nhanh dẫn đến việc khám phá chưa hết trạng thái chất lượng sau khám phá thuật toán Để huấn luyện mạng ta tiến hành lưu giá trị st, at, rt, st+1 vào khơng gian nhơ gọi buffer sau vịng lặp Tại vòng lặp, ta lấy mini-batch để huấn luyện mạng Để áp dụng thuật tốn điều kiện mơi trường thay đổi, ta lập bảng lưu giá trị ε ứng với điều kiện môi trường Danh sách hành động cách tính phần thưởng tương tự phần Q learning a Nội dung thuật toán: Khởi tạo danh sách hoạt động A, danh sách biến môi trường Khởi tạo mạng nơron với lớp ẩn có kích thước 10 20 với trọng số ngẫu nhiên Khởi tạo vùng nhớ buffer Khởi tạo bảng epsilon với giá trị ban đầu Chọn γ = 0.9, α = 0.1 Xác định điểm làm việc ban đầu Thực vòng lặp đến hội tụ: o Lựa chọn hành động: hành động lựa chọn theo thuật toán epsilon greedy policy o Thực hành động, chuyển sang trạng thái nhận lại phần thưởng o Lưu giá trị s t , a t , r t , s t+1 vào buffer o Lấy ngẫu nhiên mini-batch từ buffer để huấn luyện mạng o Tiến hành huấn luyện mạng nơron với: Input: s t Target: y t = r t + γ max a Q(s t+1 ,a;θ) b Kết mô Điều kiện NOCT STC - Norminal Operating Test Condition (NOCT): T PV = 470C, G PV = 800 W/m2 31 Hình 3.9 Điều kiện NOTC Deep Q - Standard Test Condition (STC): T PV = 250C, G PV = 1000 W/m2 Hình 3.10 Điều kiện STC Deep Q 32 Điều kiện làm việc biến thiên - Nhiệt độ khơng đổi: T PV = 250C Hình 3.11 Nhiệt độ không đổi Deep Q 33 - Bức xạ không đổi: P PV = 1000W/m2 Hình 3.12 Bức xạ khơng đổi Deep Q Biến thiên tải điều kiện môi trường Hình 3.13 Biến thiên tải điều kiện mơi trường Deep Q 34 Tải có cơng suất lớn Hình 3.14 Tải có cơng suất lớn Deep Q 3.2.3 Thuật toán Double Deep Q Learning Đối với toán điều khiển RLMPPT với thuật toán DDQN, phương pháp khám phá lựa chọn epsilon greedy policy – thực khám phá với xác suất ε giảm dần Phương pháp áp dụng cho nhiều nguồn PV khác với chút điều chỉnh Những đặc điểm cho thấy lợi đáng kể so với phương pháp khác DDQN thuật toán nâng cấp từ Deep Q Network việc sử dụng mạng nơron: online network target network Mạng online network dùng để chọn giá trị hành động trạng thái định Mạng target network dùng để tính tốn giá trị target huấn luyện mạng Mạng target network cập nhật sau số lần lặp định Một số thành phần thuật toán DDQN: Danh sách trạng thái: thay tập trạng thái rời rạc thuật toán Q Learning, ta áp dụng thuật tốn DDQN cho tập trạng thái liên tục Để áp dụng cho tập trạng thái liên tục, thuật toán khám phá chọn thuật toán epsilon greedy policy: 35 o Lấy ngẫu nhiên số khoảng từ đến o Nếu số nhỏ giá trị ε cho trước tiến hành chọn ngẫu nhiên hành động o Ngược lại, số lớn giá trị ε chọn hành động cho kết tốt o Giá trị epsilon cần giảm sau vòng lặp để đảm bảo thuật toán hội tụ o Tốc độ giảm ε cần lựa chọn hợp lí, chậm dẫn đến việc thuật toán nhiều thời gian để hội tụ, nhanh dẫn đến việc khám phá chưa hết trạng thái chất lượng sau khám phá thuật toán Để huấn luyện mạng ta tiến hành lưu giá trị s t , a t , r t , s t+1 vào khơng gian nhơ gọi buffer sau vịng lặp Tại vòng lặp, ta lấy mini-batch để huấn luyện mạng Để áp dụng thuật tốn điều kiện môi trường thay đổi, ta lập bảng lưu giá trị ε ứng với điều kiện mơi trường rời rạc hố Tập giá trị hành động {-0.01, -0.001, 0, 0.001, 0.01} Phần thưởng tính theo cơng thức mục 3.3 với w n = 4, w p = a Nội dung thuật toán DDQN toán MPPT: Khởi tạo danh sách hoạt động A, danh sách biến mơi trường rời rạc hố Sử dụng Neural Network Toolbox Malab khởi tạo online network: layer1Size = 10; layer2Size = 20; online_net = layer2Size],'trainlm'); net.trainParam.lr = alpha; net.trainParam.epochs = 2; fitnet([layer1Size Khởi tạo mạng target network với mạng online network: Khởi tạo vùng nhớ buffer Khởi tạo bảng epsilon với giá trị ban đầu 1: để đảm bảo thuật tốn hoạt động với điều kiện môi trường thay đổi, điều kiện môi trường rời rạc hoá gán giá trị epsilon lưu trữ bảng giá trị epsilon Chọn γ = 0.9 Xác định điểm làm việc ban đầu Thực vòng lặp đến hội tụ: o Lựa chọn hành động: hành động lựa chọn theo thuật toán epsilon greedy policy o Thực hành động, chuyển sang trạng thái nhận lại phần thưởng o Lưu giá trị s t , a t , r t , s t+1 vào buffer o Lấy ngẫu nhiên mini-batch từ buffer để huấn luyện mạng o Tiến hành huấn luyện mạng nơron với: 36 Input: s t Target: y t = r t + γ max a Q target (s t+1 ,a;θ) o Cập nhật mạng target network sau 30 vòng lặp b Mơ đánh giá thuật tốn Để đánh giá phương pháp điều khiển RLMPPT sử dụng thuật toán DDQN, số kịch mô thực với điều kiện làm việc nguồn PV khác Mục đích để kiểm tra hiệu phương pháp điều khiển RLMPPT hiệu suất (công suất tối đa) hiệu loại nguồn PV điều kiện làm việc khác Các kịch từ đến sử dụng nguồn pin PV1, kịch sử dụng nguồn pin PV4 Điều kiện NOCT STC Norminal Operating Test Condition (NOCT): nhiệt độ 470C xạ 800 W/m2 - Standard Test Condition (STC): nhiệt độ 250C xạ 1000 W/m2 - Các điều kiện nhắm tới việc kiểm tra phương pháp điều khiển RLMPPT điều kiện làm việc bình thường Hình 3.15 3.16 thể công suất sinh pin theo thời gian điều kiện NOCT SCT Dễ thấy công suất pin thay đổi ngẫu ngẫu nhiên trước hội tụ điểm công suất cực đại Khoảng thời gian công suất thay đổi ngẫu nhiên khoảng thời gian khám phá thuật toán Deep Q Learning Thuật tốn khám phá theo luật epsilon greedy policy nên thấy mức độ thay đổi ngẫu nhiên công suất giảm dần theo thời gian Sau trình khám phá, công suất hội tụ điểm công suất cực đại - Hình 3.15 Cơng suất sinh pin điều kiện NOCT 37 Hình 3.16 Cơng suất sinh pin điều kiện SCT Thời gian hội tụ thuật toán phụ thuộc vào tốc độ giảm tham số epsilon luật khám phá epsilon greedy policy Tốc độ giảm cần lựa chọn hợp lí, giảm q nhanh khơng đủ liệu để huấn luyện mạng Ngược lại, giảm chậm khiến cho tốc độ hội tụ thuật tốn trở lên chậm Điều kiện mơi trường biến thiên Trong trường hợp kiểm tra nhắm tới việc kiểm tra hoạt động phương pháp điều khiển RLMPPT điều kiện việc khác nhau: - Đầu tiên, nhiệt độ giữ không đổi 250C xạ biến thiên với giá trị: 600, 800, 1000 W/m2 - Tiếp theo, xạ giữ không đổi 1000W/m2 nhiệt độ biến thiên với giá trị: 0, 25, 500C 38 Hình 3.17 Cơng suất sinh pin điều kiện biến thiên xạ Hình 3.18 Cơng suất sinh pin điều kiện biến thiên nhiệt độ 39 Kết mơ thể hình 3.17 3.18 Có thấy sau điều kiện mơi trường thay đổi cơng suất phát pin hội tụ điểm cơng suất cực đại Đồng thời thấy sau điều kiện môi trường lặp lại cơng suất phát pin hội tụ điểm công suất cực đại thời gian ngắn Điều trạng thái làm việc ứng với điều kiện mơi trường thuật tốn huấn luyện trước nên thuật tốn khơng cần phải thực bước khám phá Biến thiên tải điều kiện mơi trường Hình 3.19 Cơng suất sinh pin biến thiên tải điều kiện mơi trường So sánh thuật tốn Double Deep Q Network với thuật toán Deep Q Network với nguồn pin cơng suất lớn 40 Hình 3.20 So sánh DDQN DQN Nguồn pin sử dụng trường hợp nguồn pin PV4 khảo sát hoạt động điều kiện biến thiên nhiệt độ để so sánh đánh giá hiệu thuật toán DDQN DQN Kết mô thể hình Có thể thấy DDQN có xu hướng hội tụ điểm công suất cực đại nhanh mức độ thay đổi ngẫu nhiên cơng suất so với thuật toán DQN Điều việc tách riêng mạng online network target network khiển cho thuật tốn ổn định Tuy nhiên thấy công suất sau hội tụ thuật tốn DDQN có xu hướng dao động nhỏ quanh điểm công suất cực đại Điều việc lựa chọn tập liệu huấn luyện chưa phù hợp gây nhiễu trình huấn luyện mạng, số lượng liệu huấn luyện chưa đủ khiến cho mạng nơron chưa thể dự đoán hết tất trạng thái mơ hình 41 KẾT LUẬN Luận văn trình bày mơ hình MDP để giải vấn đề điều khiển MPPT nguồn quang điện thông qua học tập củng cố Phương pháp điều khiển RLMPPT trình bày dựa ba tham số trạng thái phân biệt liệu điểm hoạt động có gần với MPP hay khơng thuật tốn đề xuất để giải MDP hoạt động tối ưu điều kiện hoạt động khác mà không cần thiết lập thêm Phương pháp kiểm sốt RLMPPT thực mơ số tình để đánh giá hiệu xác nhận hiệu suất Mơ mang lại kết tốt điều kiện hoạt động khác nhau, nhiệt độ, xạ tải điện thay đổi Phương pháp điều khiển RLMPPT thử nghiệm mảng PV khác mà không cần thiết lập bắt buộc mang lại khả ứng dụng phổ biến phần cứng khác Thuật toán đề xuất so sánh với thuật toán P&O cho thấy kết tốt tốc độ công suất tạo Công việc mang lại kết tốt đầy hứa hẹn cho việc xây dựng phương pháp kiểm soát MPPT phổ biến khơng phụ thuộc vào đặc tính PV Tuy nhiên, có nhiều tiềm cho nghiên cứu tương lai chủ đề Công việc tương lai hướng tới việc giảm không gian trạng thái để xác định trạng thái tiềm ẩn không kiểm tra trạng thái dư thừa Hơn nữa, trọng tâm đặt vào việc tối ưu hóa thuật tốn học tăng cường Một nghiên cứu so sánh thuật toán RL khác nên thực để xác định thủ tục tối ưu cho toán điều khiển MPPT Một chiến lược thăm dị hiệu cải thiện hiệu suất thuật toán mặt thời gian Ngồi ra, vấn đề nghiên cứu MPPT che bóng phần PV Khi PV che bóng phần, cơng suất tối đa bị giới hạn mức công suất thấp tạo đường cong 1-V thay đổi đáng kể Thuật tốn RLMPPT có khả đưa kết tốt vấn đề nghiên cứu tương lai nên tập trung vào vấn đề Mặc dù phương pháp điều khiển RLMPPT đề xuất thiết kế cho nguồn PV, phát triển cho nhiệm vụ MPPT lĩnh vực nghiên cứu khác máy phát điện gió pin nhiên liệu 42 Tài liệu tham khảo [1] R Faranda, R Faranda, S Leva, Energy comparison of MPPT techniques for PV systems, WSES Trans POWER Syst, 2008 [2] T Tafticht, K Agbossou, M.L Doumbia, A Chériti, An improved maximum power point tracking method for photovoltaic systems, Renew Energy 33 (no 7), 2008 [3] A.I Dounis, P Kofinas, C Alafodimos, D Tseles, Adaptive fuzzy gain scheduling PID controller for maximum power point tracking of photovoltaic system, Renew Energy 60, 2013 [4] A.I Dounis, P Kofinas, G Papadakis, C Alafodimos, A direct adaptive neural control for maximum power point tracking of photovoltaic system, Sol En- ergy 115 (2015) 145–165 E.T El Shenawy, 2015 [5] C Wei, Z Zhang, W Qiao, L Qu, Reinforcement-learning-based intelligent maximum power point tracking control for wind energy conversion systems, IEEE Trans Ind Electron 62 (no 10), 2015 [6] W B Powell, Approximate Dynamic Progamming, Hoboken, NJ: Wiley, 2007 [7] R S Sutton and A G Barto, Reinforcement learning: An Introduction, Cambridge, MA: MIT Press, 2017 [8] P J Werbos, “A menu of designs for reinforcement learning over time," Neural Network for Control, Eds Cambridge, MA: MIT Press, 1991 [9] L Busoniu, R Babuska, B De Schutter, and D Ernst, Reinforcement learning and dynamic propramming using fuction approximators, Boca Raton, FL: CRC Press, 2009 [10] Vũ Thị Thúy Nga, Ong Xuân Lộc, Trịnh Hải Nam, Học tăng cường điều khiển tự động với MATLAB & SIMULINK, Nhà xuất Bách Khoa Hà Nội, 2020 [11] P Kofinas, S Doltsinis, A.I Dounis, G.A Vouros, A reinforcement learning approach for MPPT control method of photovoltaic sources, Renewable Energy 108, 2017 43 ... thành cảm ơn! TÓM TẮT LUẬN VĂN THẠC SĨ Đề tài: Ứng dụng trí tuệ nhân tạo việc dị điểm cơng suất cực đại hệ thống pin mặt trời điều kiện lượng xạ không bề mặt Tác giả luận văn:.Nguyễn Xuân Nam Khóa:2019B... 1.1.4 Hệ thống phát điện sử dụng pin mặt trời 1.2 Các toán điều khiển hệ thống phát điện sử dụng pin mặt trời 1.3 Bài toán điều khiển MPPT điều kiện xạ bề mặt 10 1.4 Điều khiển MPPT điều kiện. .. việc vận dụng Chính em tìm hiểu phương pháp dùng trí tuệ nhân tạo để tối ưu hóa lợi ích pin mặt trời đem lại Đây nội dung đồ án em, là: ? ?Ứng dụng trí tuệ nhân tạo việc dị điểm công suất cực đại