1. Trang chủ
  2. » Luận Văn - Báo Cáo

ứng dụng trí tuệ nhân tạo để dự đoán cường độ bức xạ mặt trời

84 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Ứng Dụng Trí Tuệ Nhân Tạo Để Dự Đoán Cường Độ Bức Xạ Mặt Trời
Tác giả Nguyễn Nhật Trường, Đào Thái Cát Tường
Người hướng dẫn TS. Nguyễn Văn Trung
Trường học Trường Đại Học Sư Phạm Kỹ Thuật Thành Phố Hồ Chí Minh
Chuyên ngành Năng Lượng Tái Tạo
Thể loại Khóa Luận Tốt Nghiệp
Năm xuất bản 2024
Thành phố Tp. Hồ Chí Minh
Định dạng
Số trang 84
Dung lượng 10,23 MB

Cấu trúc

  • Chương 1. Tổng quan (19)
    • 1.1. Lý do chọn đề tài (19)
    • 1.2. Mục tiêu của đề tài (23)
    • 1.3. Đối tượng nghiên cứu (23)
    • 1.4. Phạm vi nghiên cứu (23)
    • 1.5. Tình hình nghiên cứu trong và ngoài nước liên quan đến đề tài (24)
      • 1.5.1. Tại Việt Nam (24)
      • 1.5.2. Trên thế giới (24)
    • 1.6. Những đóng góp của đề tài (26)
    • 1.7. Những hạn chế của đề tài (26)
  • Chương 2. Dự đoán bức xạ mặt trời dựa trên thuật toán hồi quy tuyến tính (0)
    • 2.1. Cơ sở lý thuyết (27)
      • 2.1.1. Mô hình hồi quy tuyến tính đơn giản (27)
      • 2.1.2. Mô hình hồi quy đa biến (28)
      • 2.1.3. Phương pháp bình phương nhỏ nhất (29)
    • 2.2. Phương pháp thực hiện (30)
      • 2.2.1. Thu thập dữ liệu (30)
      • 2.2.2. Phân tích dữ liệu (34)
    • 2.3. Kết quả đạt được (43)
  • Chương 3. Dự đoán bức xạ mặt trời dựa trên thuật toán XGBoost (0)
    • 3.1. Cơ sở lý thuyết (53)
      • 3.1.1. Ensemble learning (53)
      • 3.1.2. GBM (Gradient Boosting Machine) (55)
      • 3.1.3. XGBoost (58)
    • 3.2. Phương pháp thực hiện (61)
      • 3.2.1. Thu thập dữ liệu (61)
      • 3.2.2. Phương pháp lựa chọn giá trị đặc trưng (62)
        • 3.2.2.1. Ma trận tương quan (62)
        • 3.2.2.2. SelectKBest Method (Chi square) (63)
        • 3.2.2.3. Extra Tree Classifier (65)
      • 3.2.3. Chuẩn hoá dữ liệu (Feature Engineering) bằng phương pháp Min-Max (0)
    • 3.3. Kết quả đạt được (69)
  • Chương 4. Kết luận và kiến nghị (78)
    • 4.1. Kết luận (78)
    • 4.2. Kiến nghị (78)

Nội dung

Biểu đồ đánh giá giá trị thực tế, dự đoán của BXMT Phương pháp 1 ... Biểu đồ đánh giá giá trị thực tế, dự đoán của BXMT Phương pháp 2 ... Biểu đồ đánh giá giá trị thực tế, dự đoán của BX

Tổng quan

Lý do chọn đề tài

Hiện nay, nhiên liệu hóa thạch (NLHT) chiếm vai trò quan trọng hàng đầu trong hệ thống năng lượng (NL) toàn cầu Theo ước tính của Cơ quan Thông tin Năng lượng Hoa

Kỳ (Energy Information Administration, EIA), than đá vẫn sẽ chiếm thứ hai trong tổng số các nguồn NL lớn trên thế giới sau dầu mỏ và nhiên liệu lỏng cho đến năm 2030 Từ năm

2030 đến năm 2040, than đá sẽ xuống thứ ba, sau nhiên liệu lỏng và khí tự nhiên [1] Song song với những mặt lợi ích về kinh tế mà NLHT mang lại, nguồn nhiên liệu này cũng gây ra những tác hại đối với môi trường sống và thể trạng con người [2, 3, 4] Liên minh nhóm nhà khoa học (Union of Concerned Scientists) đã nêu rõ, quá trình khai thác, vận chuyển và sử dụng NLHT gây ra tác động tiêu cực đáng kể [5]

Hình 1.1 Những tác động của NLHT lên khí hậu, môi trường và thể trạng con người [2]

Hình 1.2 Những hệ luỵ của việc đốt NLHT [3]

Theo thống kê của EIA, mỗi năm tổng tiêu thụ NLHT tương đương với khoảng 11 tỷ tấn dầu Theo dự báo, nguồn dầu thô sẽ cạn kiệt vào năm 2052, nguồn khí tự nhiên sẽ cạn kiệt vào năm 2060 và than đá sẽ cạn kiệt vào năm 2088 [6] Trong kịch bản chuyển đổi

NL, điện mặt trời (ĐMT) được dự đoán sẽ trở thành nguồn phát điện chính, đóng góp từ

41 đến 96 PWh/năm và cung cấp hơn 25% tổng nhu cầu điện vào năm 2050 [7, 8]

NL được tạo ra từ các nhà máy ĐMT phụ thuộc mật thiết với cường độ bức xạ mặt trời (BXMT) chiếu xuống bề mặt tấm pin NL mặt trời Trong quá trình tích hợp công nghệ quang điện (Photovoltaic, PV) vào lưới điện, sự phức tạp của việc quản lý lưới điện đang gia tăng do tính biến thiên liên tục của năng lượng mặt trời (NLMT) Cường độ BXMT dao động với biên độ lớn có thể lên tới hàng trăm W/m 2 Mất điện đột ngột do giảm BXMT sẽ làm giảm tính ổn định và chất lượng điện năng của lưới điện cục bộ, gây ra hiệu ứng lan truyền cho các nút điện lân cận trong hệ thống lưới điện thông minh (Smart grid) [9]

Do đó, việc ước tính chính xác BXMT giúp thiết kế hệ thống PV một cách phù hợp, giảm sự phụ thuộc vào việc lưu trữ NL dự phòng lớn và tối thiểu hóa lãng phí NL trong các nhà máy quang điện Tuy nhiên, giá trị của BXMT bị ảnh hưởng bởi nhiều hiện tượng khí quyển khác nhau Ngoài ra, việc đo đạc và ghi lại giá trị BXMT không phổ biến ở các nước đang phát triển Nguyên nhân chủ yếu là do vấn đề kỹ thuật và kinh phí thực hiện

Có nhiều phương pháp được thực hiện nhằm ước tính giá trị BXMT Phép đo mặt đất bằng nhật xạ kế (pyranometer, solarimeter) là phương pháp đơn giản và cơ bản nhất để thu thập giá trị BXMT Nhật xạ kế là loại máy đo bức xạ được lắp đặt phổ biến nhất tại các trạm khí tượng, hiển thị tổng lượng bức xạ mà bề mặt ngang ở mặt đất nhận được Nếu được hiệu chuẩn tốt, bản ghi nhật xạ kế là ước tính chính xác nhất về giá trị BXMT Tuy nhiên, nhật xạ kế là một thiết bị cảm biến khá nhạy, cần được bảo trì và hiệu chuẩn liên tục để giữ độ chính xác tối ưu Bên cạnh đó, chi phí lắp đặt nhật xạ kế cao khiến chúng không được lắp đặt rộng rãi [10]

Ngoài phương pháp sử dụng nhật xạ kế, mô hình thực nghiệm được áp dụng rộng rãi do có quan hệ toán học đơn giản, tính sẵn có lâu dài và khả thi với các phép đo mặt đất Nhiều loại mô hình thực nghiệm khác nhau đã được xây dựng để ước tính BXMT, như mô hình dựa trên đám mây [10], mô hình dựa trên nhiệt độ [11, 12, 13], mô hình dựa trên nhiệt độ và lượng mưa [14], mô hình dựa trên số giờ nắng [15], mô hình dựa trên ánh sáng mặt

3 trời [16, 17, 18, 19] Trong đó, mô hình dựa trên ánh sáng mặt trời hoạt động hiệu quả hơn so với các mô hình dựa trên các biến số khí tượng đơn lẻ khác (thời gian nắng, độ che phủ mây, nhiệt độ, áp suất trung bình hằng ngày (P), áp suất hơi nước (Pv), tốc độ gió (W), độ ẩm tương đối (RH) và hơi nước kết tủa, Nhược điểm của mô hình thực nghiệm là không thể xử lý mối quan hệ phức tạp và phi tuyến tính giữa các biến Đặc biệt, mô hình thực nghiệm dự đoán kém chính xác ở những vùng có thời tiết nhiều mây mù, ẩm ướt, nơi mà BXMT chịu ảnh hưởng lớn bởi các đám mây dày trong những ngày mưa [15]

Khác với phương pháp đo BXMT bằng mô hình thực nghiệm, việc thu thập thông số BXMT từ vệ tinh có thể cung cấp bộ dữ liệu BXMT với độ phân giải không gian, thời gian cao liên tục Hình ảnh được thiết bị trên vệ tinh ghi lại sau 10 phút (hoặc 15 phút), 30 phút, 60 phút và được chuyển đổi thành giá trị BXMT thông qua các thuật toán chuyển đổi Tuy nhiên, việc thu thập vệ tinh không thể nắm bắt đầy đủ sự biến thiên của BXMT trong thời gian dài, điều này có thể dẫn đến khả năng dự đoán giá trị BXMT bị hạn chế [20]

Các phương pháp dự đoán cường độ BXMT có những ưu điểm và hạn chế riêng biệt Trong đó, nghiên cứu về dự đoán BXMT dựa trên phương pháp học máy (Machine Learning, ML) được đánh giá là một phương pháp đầy triển vọng [21, 22, 23, 24]

Nhiều nghiên cứu được tài trợ thực hiện nhằm xây dựng và đánh giá độ chính xác của các phương pháp dự đoán BXMT dựa trên thuật toán ML Một số thuật toán được đánh giá cao trong việc dự đoán chính xác về cường độ BXMT như mạng nơ-ron nhân tạo (Artificial Neural Network, ANN), mạng nơ-ron hồi quy (Recurrent Neural Network, RNN), mạng nơ-ron tích chập (Convolutional Neural Network, CNN), Long Short Term Memory (LSTM), Support Vector Machine (SVM),…[25] Tuy nhiên, mỗi thuật toán đều có những ưu và nhược điểm riêng [21] Ngoài ra, nhiều bộ dữ liệu chỉ phù hợp với một số phương pháp dự đoán và không tối ưu cho các mô hình khác Vì vậy, đề tài này được thực hiện nhằm đánh giá độ chính xác của thuật toán hồi quy tuyến tính (Linear Regression, LR) và thuật toán tăng cường độ dốc cấp cao (Extreme Gradient Boosting, XGBoost) khi xử lý bộ dữ liệu có sẵn Đồng thời, đề tài so sánh kết quả của hai thuật toán dự đoán để tìm ra thuật toán tối ưu hơn

Hình 1.3 Phân nhóm các thuật toán ML [21]

Bảng 1.1 Bảng so sánh các kỹ thuật ML [21]

Kỹ thuật Ưu điểm Nhược điểm Các ứng dụng

LR Dễ thực hiện, đào tạo nhanh

Giới hạn mối quan hệ tuyến tính

Phân tích dự đoán giá cả, chuỗi thời gian

Dễ thực hiện, hoạt động tốt với dữ liệu nhỏ

Chỉ áp dụng cho bài toán phân loại

Dự đoán tình trạng mất điện, phân loại sự kiện thời tiết

Hiệu suất cải thiện nhờ kết hợp nhiều mô hình

Tốn kém chi phí tính toán, cần xây dựng từng bước

Dự báo năng lượng tái tạo (NLTT) nhận dạng hình ảnh

Xử lý bài toán phân loại và biến liên tục

Dễ xảy ra hiện tượng overfitting

Dự đoán bảo trì, tài chính

(Random Forest, RF) Độ chính xác cao, ít xảy ra hiện tượng overfitting

Khó giải thích Phân loại hình ảnh

CNN Phân tích hình ảnh đạt hiệu quả cao

Cần khối lượng dữ liệu lớn, thời gian xử lý dữ liệu

Phân loại hình ảnh, dự đoán nhu cầu NL

Xử lý dữ liệu lớn và các mối quan hệ phi tuyến tính

NL, nhận dạng hình ảnh, giọng nói

RNN Xử lý tốt dữ liệu chuỗi thời gian

Thời gian xử lý dữ liệu lâu

Dự báo NL, nhận dạng giọng nói

LSTM Xử lý tốt dữ liệu chuỗi thời gian

Cần xây dựng từng bước

Nhận dạng giọng nói, dự báo tải và giá NL

Mục tiêu của đề tài

Xây dựng và huấn luyện 2 mô hình dự đoán BXMT dựa trên thuật toán LR và XGBoost Từ đó đánh giá độ chính xác của 2 thuật toán này dựa trên 4 phương pháp đánh giá: sai số bình phương trung bình (Mean Squared Error, MSE), lỗi trung bình bình phương gốc (Root Mean Square Error, RMSE), trung bình giá trị tuyệt đối của sai số (Mean Absolute Error, MAE) và hệ số xác định (The Coefficient of Determination, R 2 ).Kết quả chỉ ra rằng mô hình sử dụng thuật toán XGBoost cho ra kết quả dự đoán (R 2 = 0.93) chuẩn xác hơn mô hình sử dụng thuật toán LR (R 2 = 0.57)

Có thể nhận định, mỗi bộ dữ liệu tương thích với các phương pháp dự đoán khác nhau Vì thế cần lựa chọn và xây dựng nhiều phương pháp dự đoán khác nhau để đưa ra mô hình tối ưu nhất, tương thích với bộ dữ liệu.

Đối tượng nghiên cứu

Đề tài xây dựng mô hình dự đoán BXMT tại thủ đô Moscow, Liên bang Nga Trong đó, biến đầu vào là giá trị BXMT, nhiệt độ, áp suất, độ ẩm, hướng gió, tốc độ gió, Unix time, Date, Thời gian, Thời gian MT mọc, Thời gian MT lặn và biến đầu ra là giá trị BXMT.

Phạm vi nghiên cứu

Bộ dữ liệu có sẵn từ Kaggle.com [26] Đề tài sử dụng phần mềm Python làm công cụ lập trình và xây dựng 2 thuật toán

Tình hình nghiên cứu trong và ngoài nước liên quan đến đề tài

Nhóm sinh viên Nguyễn Tuấn Anh, Vũ Xuân Sơn Hữu, Phan Văn Long, Nguyễn Trọng Thành, Nguyễn Đăng Dương (Khoa Kỹ thuật Điện, Trường Đại học Bách khoa Hà Nội) đã áp dụng phương pháp DL nghiên cứu nên một phần mềm dự báo BXMT Phần mềm này bao gồm các mô hình dự báo đa dạng và có khả năng lưu trữ kết quả cho các lần xem tiếp theo Đề tài “Xây dựng ứng dụng dự báo BXMT dựa trên phương pháp DL” của nhóm sinh viên đạt giải nhì trong cuộc thi “Giải thưởng khoa học và công nghệ dành cho sinh viên trong các cơ sở giáo dục đại học năm 2021” [27]

TS Nguyễn Quang Ninh và nhóm nghiên cứu Viện Khoa học Năng lượng [28] đã xây dựng công cụ dự đoán công suất phát đầu ra của nhà máy ĐMT ở Việt Nam dựa trên thuật toán LSTM “Nghiên cứu phương pháp và xây dựng phần mềm dự báo công suất phát ngắn hạn của nhà máy ĐMT ứng dụng trí tuệ nhân tạo” được Hội đồng nghiệm thu cấp Viện Hàn lâm Khoa học và Công nghệ Việt Nam xếp loại A và được hy vọng sẽ trở thành công cụ hỗ trợ quan trọng cho các chủ sở hữu nhà máy ĐMT

Nhiều nghiên cứu được triển khai nhằm so sánh độ chính xác giữa các thuật toán Bharat Girdhani và Meena Agrawal [29] tiến hành nghiên cứu sử dụng 4 kỹ thuật ML: LR, SVM, RF và ANN để dự đoán BXMT cho 4 bang của Ấn Độ (Bhadla – Rajasthan, Rewa – Madhyabang, Amguri – Assam và Shillong – Meghalaya) Kết quả dự đoán được đánh giá dựa trên 7 chỉ số đánh giá (MBE, MAE, MSE, RMSE, Max Error, R 2 và MAPE) Kết quả cho thấy địa điểm nằm ở Bhadla – Rajasthan có tiềm năng rất lớn về BXMT và ANN là mô hình dự đoán BXMT hoạt động tốt nhất

Bảng 1.2 Hiệu suất các mô hình Địa điểm Tốt nhất Tốt Trung bình Tệ nhất

Bhadla, Rajasthan ANN RF SVM LR

Rewa, Madhyabang ANN RF SVM LR

Amguri, Assam ANN SVM RF LR

Shillong, Meghalaya ANN RF LR SVM

Md Shafiul Alam và cộng sự [30] xây dựng mô hình dự đoán BXMT ở Bangladesh dựa trên các thuật toán kết hợp bao gồm hồi quy Adaboost (Adaboost Regression), hồi quy tăng cường độ dốc (Gradient Boosting Regression), hồi quy rừng ngẫu nhiên (Random Forest Regression) và hồi quy đóng bao (Bagging Regression) Dữ liệu khí tượng được thu thập từ 32 trạm bao gồm nhiệt độ tối đa, nhiệt độ tối thiểu, tổng lượng mưa, độ ẩm, ánh nắng, tốc độ gió, độ che phủ của mây và bức xạ Kết quả cho thấy hồi quy tăng cường độ dốc mang lại khả năng dự đoán tốt nhất (R 2 = 0.9995)

Hình 1.4 Cấu trúc của thuật toán ML kết hợp được đề xuất [30]

Những đóng góp của đề tài

Dựa vào bộ dữ liệu có sẵn, đề tài xây dựng mô hình XGBoost để dự đoán BXMT XGBoost đã được chứng minh là một phương pháp hữu hiệu trong việc xử lý dữ liệu lớn và cho ra kết quả dự đoán chính xác Trong quá trình nghiên cứu tiền xử lý dữ liệu, nhận thấy các biến có mối quan hệ tuyến tính Do đó, đề tài xây dựng thêm mô hình LR Mô hình này được xây dựng nhằm so sánh và đánh giá hiệu suất với mô hình XGBoost

Từ 2 mô hình dự đoán của đề tài, có thể tiến hành phân tích, rút kinh nghiệm và cải thiện cho việc xây dựng các mô hình dự đoán tương tự (khi các thông số đầu vào có thể thay đổi) Đây là nền tảng cho việc phát triển hệ thống dự đoán BXMT với độ chính xác cao hơn, dự đoán được nhiều yếu tố ảnh hưởng đến công suất phát của hệ thống ĐMT nhằm nâng cao hiệu suất, giảm chi phí sản xuất.

Những hạn chế của đề tài

Do thời gian thực hiện đề tài có giới hạn, số lượng mô hình được sử dụng trong đề tài còn hạn chế Đề tài chỉ ở mức độ xây dựng các mô hình riêng lẻ, chưa xây dựng các mô hình lai, kết hợp nhiều thuật toán của học máy nhằm tăng độ chính xác của mô hình dự đoán Ngoài ra, độ chính xác của hai mô hình dự đoán chưa thật sự đạt giá trị tối ưu

Bộ dữ liệu được sử dụng trong đề tài là bộ dữ liệu có sẵn và đã được chia sẻ công khai miễn phí đối với mọi người dùng Đây cũng là một trong những hạn chế của đề tài khi chưa thu thập và sử dụng các dữ liệu hoàn toàn mới.

Dự đoán bức xạ mặt trời dựa trên thuật toán hồi quy tuyến tính

Cơ sở lý thuyết

2.1.1 Mô hình hồi quy tuyến tính đơn giản

Hồi quy tuyến tính (Linear Regression, LR) là thuật toán học máy có giám sát phổ biến trong mô hình dự đoán Mục tiêu của LR là xác định một đường hồi quy (đường tuyến tính) phù hợp nhất để mô hình hóa mối quan hệ giữa các biến phụ thuộc và các biến độc lập dựa trên bộ dữ liệu huấn luyện

Mô hình LR đơn giản có dạng:

● 𝑦 𝑖 : giá trị biến phụ thuộc 𝑦

● 𝑥 𝑖 : giá trị biến độc lập 𝑥

● 𝑒: sai số ngẫu nhiên hay còn gọi là phần dư

● 𝛽 0 : tung độ gốc thuộc đường hồi quy tổng thể

● 𝛽 1 : độ dốc thuộc đường hồi quy tổng thể

Có thể tính toán các thông số (𝛽 0 , 𝛽 1 ) của phương trình dựa trên số liệu của các mẫu ngẫu nhiên Dựa vào số liệu của mẫu, tìm được phương trình LR của mẫu:

● 𝑦̂ 𝑖 : dự đoán của giá trị trung bình của 𝑦 đối với biến 𝑥 đã biết

Hình 2.1 Hàm hồi quy tuyến tính a) Ưu điểm

Mô hình LR có công thức toán học đơn giản, dễ ứng dụng Kết quả của mô hình có thể được giải thích rõ ràng, đưa ra nhận định về mối tương quan giữa các biến b) Nhược điểm

Mô hình LR không thể đưa ra dự đoán chính xác đối với mối tương quan phi tuyến tính Ngoài ra, mô hình không phù hợp đối với các mối quan hệ phức tạp nhiều biến Ngoài ra, kết quả dự đoán của mô hình dễ bị ảnh hưởng bởi các điểm dị biệt (outlier)

Hồi quy nghĩa là liên hệ biến phụ thuộc 𝑦 cho trước với nhiều biến độc lập

Mô hình LR tổng quát:

● 𝛽 0 : tung độ gốc của đường hồi quy

● 𝛽 𝑗 : độ dốc của đường hồi quy

Hàm hồi quy mẫu tổng quát:

𝑦 𝑖 ̂= 𝛽 ̂ 0 + 𝛽 ̂ 1 𝑥 1𝑖 + 𝛽 ̂ 2 𝑥 2𝑖 + ⋯ + 𝛽 ̂ 𝑘 𝑥 𝑘𝑖 + 𝑒 Để ước tính các thông số (𝛽 1 , 𝛽 2 , 𝛽 3 , … ), phương pháp bình phương nhỏ nhất được áp dụng từ đó tìm ra 𝛽 ̂ 1 , 𝛽 ̂ 2 , 𝛽 ̂ 3 , …

2.1.3 Phương pháp bình phương nhỏ nhất

Phương pháp bình phương nhỏ nhất (Ordinary Least Square, OLS) là một phương pháp phổ biến để ước tính các thông số của mô hình LR Mục đích của OLS là tìm một tập thông số mô hình sao cho tổng bình phương các phần dư là bé nhất Phần dư là hiệu giữa giá trị thực tế của biến phụ thuộc và giá trị dự đoán của mô hình Bằng cách tìm các ước lượng của tung độ gốc 𝛽 0 và độ dốc 𝛽 𝑗 của đường hồi quy, OLS cố gắng tìm mô hình LR mà các điểm bộ dữ liệu gần nhất với đường hồi quy nhất có thể Phần dư được định nghĩa như sau:

● 𝑒: phần dư hay còn gọi là sai số ngẫu nhiên

● 𝑦 𝑖 : giá trị của biến phụ thuộc 𝑦

● 𝑦̂ 𝑖 : giá trị hàm hồi quy mẫu

Hình 2.2 Phần dư 𝑒 được biểu diễn trong mô hình LR

Do đó, cực tiểu hoá 𝛴(𝑦 𝑖 − 𝑦̂ 𝑖 ) 2 sẽ tương ứng với cực tiểu 𝛴(𝑒 𝑖 ) 2

Biết 𝛴(𝑒 𝑖 ) 2 = 𝛴(𝑦 𝑖 − (𝛽 ̂ 0 + 𝛽 ̂ 1 𝑥 1𝑖 + 𝛽 ̂ 2 𝑥 2𝑖 + ⋯ + 𝛽 ̂ 𝑘 𝑥 𝑘𝑖 )) 2 Từ đó tìm ra 𝛽 0 , 𝛽 1

Phương pháp thực hiện

Bộ dữ liệu được đăng tải trên Kaggle.com [26], từ hệ thống dữ liệu toàn cầu của NASA Meteoblue Bộ dữ liệu cung cấp thông tin khí tượng của thành phố Moscow, Liên bang Nga, được thu thập tại trạm thời tiết HI-SEAS, Hawaii trong thời gian bốn tháng 01/09/2016 – 31/12/2016 Bộ dữ liệu bao gồm 11 thông số và có tốc độ lấy mẫu

5 phút/lần; chứa tổng cộng 32686 mẫu cho mỗi thông số Đề tài chọn tỷ lệ 80:20, 80% dữ liệu huấn luyện và 20% dữ liệu kiểm tra

Bảng 2.1 Thu thập dữ liệu

Nguồn dữ liệu Trạm thời tiết HI-SEAS, Hawaii

Nơi đo Thành phố Moscow, Liên bang Nga

Thông số và đơn vị

BXMT (W/m 2 ), nhiệt độ (° F), áp suất (inHg), độ ẩm (%), hướng gió (Degrees), tốc độ gió (Miles/h), Unix time (giây), Date (Ngày/Tháng/Năm Giờ/phút/giây), Thời gian (Giờ/phút/giây), Thời gian MT mọc (Giờ/phút/giây), Thời gian MT lặn (Giờ/phút/giây)

Số lượng mẫu của một thông số 32686

Tốc độ lấy mẫu 5 phút/lần

Trực quan hóa giá trị đặc trưng Ở thuật toán LR, đề tài chỉ chú trọng vào 6 thông số: BXMT, nhiệt độ, áp suất, độ ẩm, hướng gió, tốc độ gió Những thông số này được biểu diễn lần lượt bằng biểu đồ Trong đó, trục tung 𝑥 thể hiện số lượng giá trị, biết mỗi thông số có tổng số giá trị

13 là 32686 Trục hoành 𝑦 thể hiện giá trị của thông số: W/m 2 (BXMT), ° F (nhiệt độ), inHg (áp suất), % (độ ẩm), Degrees (hướng gió) và Miles/h (tốc độ gió)

Hình 2.3 Biểu đồ biểu diễn giá trị BXMT Giá trị tập trung 0 W/m 2 – 62.5 W/m 2

Hình 2.4 Biểu đồ biểu diễn giá trị nhiệt độ Giá trị tập trung 43° F – 53° F

Hình 2.5 Biểu đồ biểu diễn giá trị áp suất, trong đó các giá trị dao động không đáng kể

Hình 2.6 Biểu đồ biểu diễn giá trị độ ẩm

Hình 2.7 Biểu đồ biểu diễn giá trị hướng gió Giá trị tập trung 130° – 200°

Hình 2.8 Biểu đồ biểu diễn giá trị tốc độ gió

Hình 2.9 Xây dựng, huấn luyện mô hình LR Đề tài sử dụng 3 phương pháp phân tích dữ liệu nhằm tìm được phương pháp tương thích cho mô hình

⮚ Phương pháp 1: Sử dụng toàn bộ dữ liệu

⮚ Phương pháp 2: Sử dụng dữ liệu trong thời gian hoạt động của mặt trời 6h00 – 18h00 Sau khi phân tích, 16396 giá trị được lọc và sử dụng từ 32686 giá trị gốc

⮚ Phương pháp 3: Sử dụng giá trị trung bình của các thông số Ở phương pháp này, đề tài tính giá trị trung bình hằng ngày của BXMT và giá trị tối thiểu – tối đa trung bình hàng ngày của các thông số còn lại trong khoảng thời

17 gian 6h00 – 18h00 [31] Như vậy, bộ dữ liệu có 118 giá trị/thông số, tương ứng 1 giá trị/ngày

Công thức tính giá trị trung bình hàng ngày của BXMT:

Trong đó: 𝑦 𝑛 : bộ dữ liệu đã được chuẩn hóa

𝑦: bộ dữ liệu quan sát hiện tại

Công thức tính giá trị tối thiểu – tối đa trung bình hàng ngày của nhiệt độ, áp suất, độ ẩm, hướng gió, tốc độ gió:

𝑥 𝑚𝑎𝑥 : giá trị cao nhất trong bộ dữ liệu quan sát hiện tại

𝑥 𝑚𝑖𝑛 : giá trị thấp nhất trong bộ dữ liệu quan sát hiện tại

Hình 2.10 Đồ thị thể hiện giá trị BXMT

Hình 2.11 Đồ thị thể hiện giá trị nhiệt độ

Hình 2.12 Đồ thị thể hiện giá trị áp suất

Hình 2.13 Đồ thị thể hiện giá trị độ ẩm

Hình 2.14 Đồ thị thể hiện giá trị hướng gió

Hình 2.15 Đồ thị thể hiện giá trị tốc độ gió Đánh giá sai số a) Tiêu chí dựa trên sai số tuyệt đối

Công thức tính trung bình giá trị tuyệt đối của sai số:

𝑖=1 b) Tiêu chí dựa vào bình phương sai số

Công thức tính sai số bình phương trung bình:

Công thức tính sai số bình phương trung bình gốc:

21 c) Tiêu chí dựa trên sai số tương đối

Công thức tính hệ số xác định:

● 𝑦 𝑖 : giá trị thực của biến 𝑦 tại quan sát thứ 𝑖

● y̅: giá trị trung bình của biến 𝑦

● 𝑦̂ 𝑖 : giá trị dự đoán của biến 𝑦 tại quan sát thứ 𝑖

● Σ: ký hiệu tổng của tất cả các quan sát

𝑅 2 ≅ 1 có nghĩa là các biến độc lập giải thích được phần lớn sự biến thiên của biến phụ thuộc Phần còn lại của sự biến thiên được giải thích bởi các biến không được xem xét trong mô hình và sai số ngẫu nhiên

𝑅 2 ≅ 0 kết quả của mô hình không đạt yêu cầu

Kiểm tra mối tương quan giữa các biến

Hệ số tương quan Pearson biểu thị mức độ tương thích giữa các cặp biến Hình 2.16 thể hiện mối tương thích giữa 6 cặp biến: BXMT – nhiệt độ, BXMT – áp suất, BXMT – độ ẩm, BXMT – hướng gió và BXMT – tốc độ gió

Công thức tính hệ số tương quan Pearson:

● 𝑟: hệ số tương quan Pearson

● 𝑥 𝑖 , 𝑦 𝑖 : giá trị thực của biến 𝑥, 𝑦 tại quan sát thứ 𝑖

● 𝑥, 𝑦: giá trị trung bình của biến 𝑥, 𝑦

● 𝛴: ký hiệu tổng của tất cả các quan sát

𝑟 ≅ –1 hoặc r≅1 biểu thị sự tương quan mạnh giữa 2 biến được xét

𝑟 = −1: thể hiện mối tương quan âm hoàn toàn (cực nghịch) Khi một biến giảm thì biến còn lại tăng và ngược lại

𝑟 = 1: thể hiện mối tương quan dương hoàn toàn (cực thuận) Khi một biến giảm thì biến còn lại giảm đồng thời và ngược lại

𝑟 ≅ 0: cho thấy mối tương quan yếu hoặc không có mối tương quan tuyến tính giữa 2 biến được xét

Quan sát Hình 2.17, có thể rút ra nhận xét, có mối tương quan mạnh giữa BXMT và nhiệt độ (r = 0.73) Khi nhiệt độ tăng, BXMT tăng và ngược lại Trong khi đó, mối tương quan giữa BXMT và độ ẩm, hướng gió được đánh giá là cực nghịch (r = – 0.23 cho cả 2 mối tương quan) Mối tương quan giữa BXMT và áp suất, giữa BXMT và tốc độ gió là mối tương quan yếu (r = 0.12, r = 0.074)

Ngoài sử dụng biểu đồ hệ số tương quan Pearson, đề tài còn sử dụng biểu đồ phân tán (Scatter Plot)

Hình 2.16 Ma trận tương quan Pearson giữa các biến

Hình 2.17 Biểu đồ tương quan Scatter Plot giữa các biến (Phương pháp 1)

Kết quả R 2 được biểu diễn trong Hình 2.18, có thể đưa ra nhận định hoàn toàn trùng khớp với nhận xét được rút ra từ Hình 2.17 Sự tương quan giữa BXMT và nhiệt độ là một mối tương quan thuận với R 2 = 0.4555 Sự tương quan giữa BXMT và các thông số còn lại được đánh giá là khá yếu

Hình 2.18 Ma trận tương quan Pearson giữa các biến (Phương pháp 3)

Sau khi chuyển đổi giá trị trung bình của các thông số, sự tương quan giữa BXMT và nhiệt độ vẫn được đánh giá là mối tương quan thuận (r = 0.55) Trong khi đó, sự tương quan giữa BXMT và độ ẩm là mối tương quan nghịch (r = – 0.65)

Hình 2.19 Biểu đồ tương quan Scatter Plot giữa các biến (Phương pháp 3)

Kết quả đạt được

Biểu đồ đánh giá giá trị thực tế và giá trị dự đoán được dùng để kiểm tra tính tuyến tính của mô hình Biểu đồ này so sánh sự trùng khớp giữa giá trị thực tế và giá trị dự đoán từ mô hình

Ngoài ra, đề tài cũng sử dụng biểu đồ kiểm tra sai số dư (Residual error) Trong đó, sai số dư được định nghĩa là hiệu giữa giá trị thực tế và giá trị dự đoán từ mô hình

⮚ Phương pháp 1: Sử dụng toàn bộ dữ liệu

Hình 2.20 Biểu đồ đánh giá giá trị thực tế và dự đoán của BXMT (Phương pháp 1)

Hệ số xác định R 2 = 0.57 thể hiện rằng, ở phương pháp 1, 57% các giá trị thực tế của BXMT được giải thích bởi mô hình dự đoán Có thể thấy kết quả dự đoán này chưa tối ưu Ngoài ra, tại các điểm BXMT đạt giá trị thực tế bằng 0 W/m 2 , mô hình cho thấy kết quả dự đoán là các giá trị âm Đây là một kết quả dự đoán sai nghiêm trọng

Hình 2.21 Biểu đồ kiểm tra sai số dư (Phương pháp 1)

Bảng 2.2 Kết quả đánh giá (Phương pháp 1)

Chỉ số đánh giá Kết quả

Hình 2.22 So sánh giá trị 25 mẫu dữ liệu bất kỳ (Phương pháp 1)

Dựa vào hình ảnh đồ thị và các kết quả, có thể thấy mô hình dự đoán ở phương pháp 1 có kết quả dự đoán chưa chính xác Mặc dù vậy, mô hình đã có khả năng dự đoán đúng một phần đáng kể giá trị của BXMT và thể hiện được sự ảnh hưởng của các thông số nhiệt độ, áp suất, độ ẩm không khí, hướng gió, tốc độ gió lên giá trị BXMT

⮚ Phương pháp 2: Sử dụng dữ liệu trong khoảng thời gian 6h00 – 18h00

Hình 2.23 Biểu đồ đánh giá giá trị thực tế và dự đoán của BXMT (phương pháp 2)

Kết quả R 2 = 0.47 thể hiện rằng, khi sử dụng dữ liệu trong thời gian 6h00 – 18h00,

47% các giá trị thực tế của BXMT được giải thích bởi mô hình dự đoán Tương tự như biểu đồ của phương pháp 1, tại các điểm BXMT đạt giá trị thực tế bằng 0 W/m 2 , mô hình đưa ra dự đoán là các giá trị âm

Hình 2.24 Biểu đồ kiểm tra sai số dư (Phương pháp 2) Bảng 2.3 Kết quả đánh giá (Phương pháp 2)

Chỉ số đánh giá Kết quả

Hình 2.25 So sánh giá trị 25 mẫu dữ liệu bất kỳ (Phương pháp 2)

Dựa vào hình ảnh biểu đồ và kết quả thu được, có thể thấy, mô hình dự đoán ở phương pháp 2 có kết quả không cải thiện và hiệu suất dự đoán cũng giảm so với mô hình dự đoán ở phương pháp 1

⮚ Phương pháp 3: Sử dụng giá trị trung bình của các thông số

Hình 2.26 Biểu đồ đánh giá giá trị thực tế và dự đoán của BXMT (Phương pháp 3)

Kết quả R 2 = 0.52 thể hiện rằng, 52% các giá trị thực tế của BXMT được giải thích bởi mô hình dự đoán

Hình 2.27 Biểu đồ kiểm tra sai số dư (Phương pháp 3)

Bảng 2.4 Kết quả đánh giá (Phương pháp 3)

Chỉ số đánh giá Kết quả

Hình 2.28 So sánh giá trị 25 mẫu dữ liệu bất kỳ (Phương pháp 3)

Bảng 2.5 So sánh và đánh giá các phương pháp phân tích dữ liệu

Phương pháp 1 Phương pháp 2 Phương pháp 3

Lựa chọn giá trị đặc trưng Không Có Có

Sai số dư Lớn Lớn Lớn

Loại bỏ biến không đóng góp Không Không Không

Cả 3 phương pháp trên đều chưa đạt kết quả tối ưu Trong đó, phương pháp 1 (R 2 = 0.57) cho ra hiệu suất dự đoán cao nhất và phương pháp 2 (R 2 = 0.47) cho ra hiệu suất dự đoán thấp nhất Để khắc phục và cải thiện độ chính xác của mô hình dự đoán, đề tài xây dựng thêm mô hình dự đoán cường độ BXMT dựa trên thuật toán XGBoost Thuật toán được dự đoán sẽ cho ra dự đoán chính xác hơn thuật toán LR.

Dự đoán bức xạ mặt trời dựa trên thuật toán XGBoost

Cơ sở lý thuyết

Ensemble learning là một thuật toán quan trọng trong lĩnh vực ML cho phép sử dựng nhiều mô hình độc lập tạo nên một mô hình tổng thể Những mô hình độc lập này khác nhau về cấu trúc, đặc trưng và được huấn luyện bằng các thuật toán khác nhau Bằng cách kết hợp các điểm mạnh của nhiều mô hình, Ensemble learning đạt độ chính xác và độ ổn định tốt hơn so với các mô hình đơn lẻ

Hình 3.1 Ensemble learning đạt hiệu suất cao nhờ kết hợp nhiều mô hình huấn luyện

Ensemble learning bao gồm 2 nhóm chính là phương pháp đóng bao (Bagging Ensembles) và phương pháp tăng cường (Boosting Ensembles) a) Phương pháp đóng bao Bagging

Bagging là một phương pháp quan trọng trong Ensemble learning, với mục đích xây dựng các mô hình dự đoán tốt hơn nhờ kết hợp dự đoán của nhiều mô hình dự đoán độc lập Phương pháp này giúp giảm thiểu hiện tượng overfitting và đưa ra một mô hình tổng quát hơn và ổn định hơn

36 Ý tưởng cơ bản của Bagging là huấn luyện các mô hình dự đoán độc lập với các dữ liệu con được tái chọn từ bộ dữ liệu huấn luyện ban đầu Mỗi mô hình có thể có những sai lệch nhỏ trong việc mô hình hóa bộ dữ liệu huấn luyện, nhưng tổng thể, các sai lệch này có thể hủy bỏ lẫn nhau Kết thúc quá trình huấn luyện, dự đoán của các mô hình được kết hợp lại thông qua việc tính trung bình hoặc sử dụng phương pháp đa số để tạo ra dự đoán cuối cùng Tính trung bình các dự đoán giúp tạo ra một dự đoán tổng quát và ổn định Sử dụng phương pháp đa số giúp tạo ra dự đoán dựa trên sự đồng thuận của các mô hình

Bagging giúp giảm thiểu hiện tượng overfitting bằng cách giảm sai lệch của mô hình Đồng thời, Bagging làm tăng tính ổn định của mô hình bằng cách giảm phương sai của các dự đoán Kết hợp dự đoán của nhiều mô hình giúp Bagging giảm sự biến động giữa các dự đoán và tạo ra một dự đoán cuối cùng ổn định hơn Việc sử dụng Bagging cần cân nhắc đến việc lựa chọn các mô hình cơ bản độc lập và phù hợp và cũng cần quan tâm đến việc kết hợp các dự đoán một cách thích hợp b) Phương pháp tăng cường Boosting

Khác với Bagging, Boosting xây dựng mô hình dự đoán theo cách tuần tự, tập trung cải thiện các dự đoán sai sót của các mô hình trước

Boosting là tạo ra chuỗi những mô hình dự đoán yếu, mỗi mô hình tập trung vào việc đặc biệt hóa dự đoán các điểm dữ liệu mà các mô hình trước đó dự đoán sai Để làm điều này, trọng số của các điểm dữ liệu được điều chỉnh liên tục Các điểm dữ liệu dự đoán sai sẽ nhận được trọng số cao hơn, trong khi các điểm dữ liệu dự đoán đúng nhận được trọng số thấp hơn Việc điều chỉnh trọng số giúp mô hình chú trong hơn vào những điểm dữ liệu khó khăn

Sau đó, chuỗi các kết quả dự đoán được kết hợp lại tạo nên dự đoán cuối cùng Thông thường, việc kết hợp này được thực hiện nhờ vào tính trọng số trung bình của các dự đoán hoặc sử dụng các thuật toán tối ưu để tìm ra trọng số tối ưu cho việc kết hợp này

Hình 3.2 Mô hình Bagging [32] Hình 3.3 Mô hình Boosting [32]

Gradient Boosting Machine (GBM) là một phương pháp học máy mạnh mẽ thuộc lớp thuật toán boosting trong Ensemble learning GBM xây dựng mô hình dự đoán theo cách tuần tự và cải thiện các dự đoán sai sót của những mô hình trước bằng cách sử dụng Gradient descent

Trong GBM, Weak learner được xây dựng dựa trên các hàm mất mát và gradient của nó Mô hình yếu ban đầu thường là những mô hình đơn giản, Sau đó, mô hình yếu được thực hiện tuần tự, mỗi lần tạo ra một mô hình mới để cải thiện dự đoán sai sót của những mô hình trước

Gradient descent được sử dụng để điều chỉnh các trọng số sao cho hàm mất mát được giảm xuống một cách tối ưu Mô hình yếu mới được thêm vào chuỗi các mô hình yếu trước đó và liên tục lặp lại đến khi hàm mất mát không còn giảm đáng kể

Cuối cùng, các mô hình yếu trong GBM kết hợp lại tạo nên mô hình cuối cùng Thông thường, việc kết hợp này được thực hiện bằng cách tính trọng số trung bình của các dự đoán Mô hình dự đoán cuối cùng có thể dự đoán mạnh mẽ hơn so với mô hình yếu ban đầu, nhờ việc tập trung vào cải thiện từng lần

Tuy GBM là một phương pháp mạnh mẽ, việc sử dụng nó cũng cần cân nhắc đến việc điều chỉnh các thông số (hyperparameters) như số lượng mô hình yếu, độ sâu của cây quyết định và tốc độ học (learning rate) a) Các bước xây dựng mô hình GBM

GBM hoạt động theo cơ chế tuần tự Mô hình GBM được xây dựng theo các bước sau:

Bước 1: Thiết lập mô hình cơ bản (Base Model)

Trong bước này, một mô hình cơ bản được xây dựng trên bộ dữ liệu huấn luyện để dự đoán biến mục tiêu Mô hình cơ bản có thể là một cây quyết định hoặc một mô hình LR đơn giản

⇨ Giá trị dự đoán lần 1: 𝑦̂ 𝑖 1 = 𝑓1(𝑥 𝑖 )

Bước 2: Tính toán sai số dự đoán

Thực hiện ước tính sai số dự đoán giữa đầu ra dự đoán và giá trị thực tế Sai số này được dùng làm cơ sở cho việc thiết lập mô hình tiếp theo

⇨ Giá trị dự đoán lần 2: 𝑦̂ 𝑖 2 = 𝑦̂ 𝑖 1 + 𝑓 2 (𝑥 𝑖 )

Bước 3: Thiết lập mô hình tiếp theo

Một mô hình mới được thiết lập để cải thiện sai số từ bước trước Mô hình mới này được thiết lập dựa trên Gradient descent hoặc các thuật toán tối ưu hóa khác

⇨ Giá trị dự đoán lần m: 𝑦̂ 𝑖 𝑚 = 𝑦̂ 𝑖 𝑚−1 + 𝑓 𝑚 (𝑥 𝑖 )

Bước 4: Cập nhật mô hình tổng hợp

Sau khi có mô hình mới, cập nhật mô hình tổng hợp bằng cách thêm mô hình mới vào mô hình cơ bản Mục tiêu là tạo nên mô hình tổng hợp mạnh mẽ hơn nhờ kết hợp nhiều mô hình dự đoán

Bước 5: Lặp lại quá trình

Phương pháp thực hiện

Hình 3.6 Xây dựng, huấn luyện mô hình XGBoost

Bộ dữ liệu được trình bày tại chương 2

3.2.2 Phương pháp lựa chọn giá trị đặc trưng

Lựa chọn đặc trưng là một giai đoạn quan trọng nhằm tìm ra một tập hợp con các đặc trưng quan trọng nhất, dựa trên những tiêu chí như độ quan trọng, tương quan và khả năng dự đoán Việc lựa chọn đặc trưng được thực hiện để tăng cường khả năng giải thích, giảm chiều bộ dữ liệu và cải thiện hiệu suất của mô hình dự đoán Ý nghĩa

Khi bộ dữ liệu có số lượng đặc trưng lớn, lựa chọn đặc trưng giúp giảm chiều dữ liệu, giảm độ phức tạp tính toán và tăng tốc độ huấn luyện

Lựa chọn đặc trưng giúp loại bỏ những đặc trưng không mang lại thông tin quan trọng cho mô hình, giảm nhiễu

Việc lựa chọn đặc trưng có thể giảm nguy cơ overfitting, chỉ giữ lại những đặc trưng quan trọng nhất và loại bỏ đặc trưng không quan trọng

Công thức tính hệ số tương quan Pearson là:

𝑟: hệ số tương quan Pearson

𝑥 𝑖 , 𝑦 𝑖 : giá trị thực của biến 𝑥, 𝑦 x̅, y̅: giá trị trung bình của biến 𝑥, 𝑦 Σ: ký hiệu tổng của tất cả các quan sát

Ma trận tương quan đo lường mức độ tương quan giữa các cặp đặc trưng Giá trị tương quan nằm trong khoảng từ -1 đến 1 Giá trị tiến gần -1 cho thấy mối tương quan âm mạnh, giá trị xấp xỉ 1 biểu thị mối tương quan dương mạnh và giá trị xấp xỉ 0 cho

45 thấy không có mối tương quan Phương pháp này giúp việc lựa chọn dễ dàng các mối tương quan mạnh với nhau và loại bỏ những đặc trưng không cần thiết Việc loại bỏ giúp giảm thiểu sự trùng lặp thông tin và tiềm năng gây nhiễu cho mô hình dự đoán a) Các bước thực hiện

Bước 1: Tính toán ma trận tương quan

Tính toán ma trận tương quan của tất cả các đặc trưng

Bước 2: Loại bỏ những đặc trưng tương quan cao Đối với các cặp đặc trưng có mức tương quan cao cần chọn một trong hai đặc trưng để giữ lại và loại bỏ đặc trưng còn lại

Bước 3: Xây dựng mô hình

Sử dụng bộ dữ liệu đã được lựa chọn đặc trưng để xây dựng mô hình dự đoán b) Ưu điểm Đây là phương pháp dễ thực hiện để lựa chọn đặc trưng

Giúp loại bỏ các đặc trưng có mức tương quan cao với nhau, giúp giảm chiều bộ dữ liệu và tránh việc mô hình bị nhiễu c) Nhược điểm

Ma trận tương quan chỉ xem xét tương quan tuyến tính giữa các đặc trưng Tuy nhiên vẫn tồn tại tương quan phi tuyến giữa chúng

Phương pháp này không xem xét tương quan giữa các đặc trưng và biến mục tiêu Do đó các đặc trưng quan trọng cho mô hình dự đoán có thể bị loại bỏ

Phương pháp SelectKBest dựa trên việc đánh giá các đặc trưng bằng một hàm điểm được chọn trước Các đặc trưng được xếp hạng dựa trên hàm điểm và sau đó, K đặc trưng có điểm số cao nhất được lựa chọn Các hàm điểm thường được sử dụng bao

46 gồm ANOVA F-value, thông tin chung (mutual information), Chi-square và các phương pháp khác, Đề tài sử dụng phương pháp Chi-square để lựa chọn các đặc trưng trong quá trình xây dựng mô hình dự đoán với mục tiêu lựa chọn đặc trưng có mức độ tương quan cao nhất với biến mục tiêu là BXMT (emrget variable)

Công thức tính toán giá trị Chi-square cho một đặc trưng:

∑(𝑂 − 𝐸) 2 : tổng bình phương của sự khác biệt giữa giá trị quan sát 𝑂 và giá trị dự đoán 𝐸

𝐸: giá trị dự đoán được tính toán dựa trên nguyên lý độc lập giữa đặc trưng và biến mục tiêu Giá trị 𝐸 được tính bằng cách nhân tổng số lượng quan sát trong phân nhóm của đặc trưng với tổng tỷ lệ phần trăm biến mục tiêu trong phân nhóm tương ứng a) Các bước thực hiện phương pháp Chi-square [35]

Xác định số lượng đặc trưng K muốn giữ lại

Bước 2: Đánh giá đặc trưng

Mỗi đặc trưng được đánh giá bằng phép đo Chi-square, đo lường mức độ tương quan giữa đặc trưng và biến mục tiêu Phép đo Chi-square tính toán sự khác biệt giữa phân phối quan sát thực tế và phân phối dự đoán và chúng em muốn tìm các đặc trưng có sự khác biệt đáng kể

Bước 3: Chọn k đặc trưng tốt nhất

Các đặc trưng được sắp xếp theo giá trị đo Chi-square giảm dần và giá trị cao nhất được giữ lại

Chi-square có cách thức hoạt động đơn giản và dễ hiểu

Chi-square đánh giá mức độ tương quan giữa đặc trưng và biến mục tiêu, từ đó chọn ra đặc trưng quan trọng có ảnh hưởng lớn đến biến mục tiêu

Chi-square thường được sử dụng trong bài toán phân loại khi biến mục tiêu là một biến hạng mục c) Nhược điểm

Chi-square chỉ xem xét tương quan giữa từng đặc trưng và biến mục tiêu, không xem xét sự tương quan giữa các đặc trưng với nhau Do đó, có thể loại bỏ các đặc trưng quan trọng nhưng có tương quan với các đặc trưng khác

Chi-square hoạt động tốt khi biến mục tiêu và đặc trưng đều có số lượng hạng mục lớn Nếu số lượng hạng mục quá nhỏ, kết quả có thể không chính xác

Extra Tree Classifier là một biến thể của thuật toán Random Forest Đề tài sử dụng Extra Tree Classifier để đánh giá mức độ quan trọng của các đặc trưng trong quá trình xây dựng mô hình dự đoán Extra Tree Classifier sử dụng một tập hợp các cây quyết định ngẫu nhiên và kỹ thuật chọn ngẫu nhiên các điểm ngưỡng để xây dựng các cây con Nhờ kết hợp kết quả từ các cây con, Extra Tree Classifier ước tính mức độ quan trọng của các đặc trưng bằng cách xem xét tần suất mỗi đặc trưng được sử dụng để chia nhánh cây

Hình 3.7 Mô hình Extra Tree Classifier [36] a) Các bước thực hiện Extra Tree Classifier [37]

Bước 1: Thiết lập cây quyết định

Xây dựng một tập hợp các cây quyết định ngẫu nhiên (random decision trees) từ bộ dữ liệu huấn luyện

⮚ Chọn số lượng cây quyết định ngẫu nhiên để xây dựng (n_estimators)

Kết quả đạt được

Việc loại bỏ các điểm dữ liệu bị lỗi trong 32686 mẫu dữ liệu là cần thiết để cải thiện tính chính xác của mô hình Đối với việc chuẩn hóa các giá trị đặc trưng Temperature, Pressure, Humidity, Wind Direction và Speed có đơn vị khác nhau, việc áp dụng phương pháp Min-max transformation là một lựa chọn thông thường Phương pháp này giúp đưa các giá trị đặc trưng về cùng khoảng giá trị [0; 1] bằng phép biến đổi tuyến tính Quá trình chuẩn hóa

52 này giúp đồng nhất các đặc trưng và giảm thiểu ảnh hưởng của đơn vị đo lường khác nhau lên mô hình

Bằng cách áp dụng Min-max transformation, các giá trị đặc trưng được đưa về khoảng giá trị tiêu chuẩn, giúp mô hình XGBoost xử lý dữ liệu hiệu quả hơn, giảm thiểu sai số và ảnh hưởng của các đơn vị đo lường khác nhau

Hình 3.8 Ma trận tương quan Pearson giữa các biến (XGBoost)

53 r = 0.73 biểu thị mối tương quan thuận giữa BXMT và nhiệt độ Vì vậy nhiệt độ môi trường là giá trị đặc trưng

Phép đo Chi-square được sử dụng để đánh giá mức độ tương quan giữa các đặc trưng và biến mục tiêu trong bài toán phân loại và chọn lựa các đặc trưng dựa trên ý tưởng rằng đặc trưng cần có mức độ tương quan cao với biến mục tiêu để được giữ lại

Hình 3.9 Biểu đồ áp dụng phương pháp Chi-square đánh giá mức độ tương quan giữa các đặc trưng và biến mục tiêu

Thông số thời gian mặt trời lặn (set-hour), hướng gió (Wind Direction), nhiệt độ (Temperature), độ ẩm (Huminity), áp suất (Pressure), tốc độ gió (Speed) được xác định là các đặc trưng quan trọng trong mô hình Thông tin về các đặc trưng này giúp dự đoán

54 mức độ tác động của các thông số môi trường lên hệ thống và đưa ra quyết định giá trị dự đoán

Mô hình Extra Tree Classifier xử lý bộ dữ liệu còn lại và lọc ra các giá trị quan trọng Extra Tree Classifier sử dụng cách tiếp cận ngẫu nhiên để xây dựng cây quyết định, giúp lọc ra các giá trị chuẩn và đồng thời giảm thiểu overfitting và over range

Hình 3.10 so sánh mức độ quan trọng của từng thông số, từ đó đánh giá tầm quan trọng của các thông số trong mô hình dự đoán

Hình 3.10 Biểu đồ áp dụng mô hình Extra Tree Classifier so sánh mức độ ảnh hưởng của các đặc trưng

55 Đặc trưng hướng gió (WindDirection) được đánh giá có giá trị quan trọng cao nhất là 0.16 Kế tiếp là độ ẩm (Humidity), nhiệt độ (Temperature) và áp suất (Pressure) cũng được đánh giá là các giá trị đặc trưng quan trọng

Tuy nhiên, giá trị cụ thể của mức độ quan trọng phụ thuộc vào bộ dữ liệu cụ thể và phương pháp tính toán được sử dụng Do đó, không có giá trị cụ thể nào để nói rằng mức độ quan trọng sẽ nằm trong khoảng nào Khoảng giá trị này có thể thay đổi phụ thuộc vào từng trường hợp và từng bài toán khi áp dụng mô hình Extra Tree Classifier

Tiếp theo, tiến hành tạo ra các đặc trưng mới hoặc biến đổi các đặc trưng hiện có trong bộ dữ liệu để cải thiện hiệu suất dự đoán dựa trên thuật toán Feature Engineering Cũng như đồng bộ các giá trị đặc trưng tránh chênh lệch đơn vị

Qua quá trình nghiên cứu, đề tài lựa chọn các phương pháp cải thiện dữ liệu khác nhau đối với mỗi thông số khác nhau Việc lựa chọn các phương pháp thích hợp sẽ giúp tăng khả năng dự đoán của mô hình

Bảng 3.1 Thông số và phương pháp lựa chọn giá trị đặc trưng

Thông số Phương pháp chuẩn hóa giá trị đặc trưng

Nhiệt độ môi trường Min-Max Transformation Áp suất khí quyển Min-Max Transformation Độ ẩm không khí Min-Max Transformation

Tốc độ gió Min-Max Transformation

Hướng gió Min-Max Transformation

Hình 3.11 Lựa chọn giá trị đặc trưng Min-max Transformation cho nhiệt độ

Hình 3.12 Lựa chọn giá trị đặc trưng Min-max Transformation cho áp suất

Hình 3.13 Lựa chọn giá trị đặc trưng Min-max Transformation cho độ ẩm

Hình 3.14 Lựa chọn giá trị đặc trưng Min-max Transformation cho tốc độ gió

Hình 3.15 Lựa chọn giá trị đặc trưng Min-Max Transformation cho hướng gió

Sau khi hoàn thành quá trình chuẩn hóa và đồng bộ hóa giá trị đặc trưng, tiến hành chia tỷ lệ 80:20 cho dữ liệu huấn luyện và kiểm tra để xây dựng mô hình XGBoost Việc chia dữ liệu thành hai phần nhằm đánh giá độ chính xác của dự đoán

Tập huấn luyện (training set) được sử dụng để huấn luyện mô hình XGBoost

Mô hình sẽ học từ các mẫu trong tập huấn luyện để tìm ra quy tắc, mối quan hệ giữa các đặc trưng Việc phân chia tập huấn luyện đủ lớn là rất cần thiết cho mô hình

Tập kiểm tra (test set) được sử dụng để đánh giá hiệu suất của mô hình XGBoost đã được huấn luyện Tập kiểm tra đóng vai trò như một bộ dữ liệu mới, giúp đánh giá khả năng dự đoán của mô hình

Quá trình chia dữ liệu được thực hiện một cách ngẫu nhiên, tránh tình trạng overfitting khi mô hình chỉ ghi nhớ dữ liệu đã huấn luyện

Hình 3.16 Biểu đồ đánh giá giá trị thực tế và dự đoán của BXMT (XGBoost)

Bảng 3.2 Kết quả mô hình XGBoost

Chỉ số đánh giá Kết quả

Hình 3.17 So sánh giá trị 25 mẫu dữ liệu bất kỳ (XGBoost)

Một số giá trị dự đoán không khớp với giá trị thực tế (Hình 3.16) Tuy nhiên dựa vào kết quả R 2 = 0.93, mô hình XGBoost đã dự đoán chính xác và đạt độ tin cậy cao hơn mô hình LR Trong 25 mẫu bất kỳ không có giá trị được dự đoán kết quả âm, trái nghịch hoàn toàn so với của giá trị thực tế là dương như dự đoán của mô hình LR ở phương pháp 1 và phương pháp 2 (Hình 3.17).

Ngày đăng: 07/06/2024, 16:31

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
1.World Energy Outlook 2017, (2017), International Energy Agency. https://www.iea.org/reports/world-energy-outlook-2017 Sách, tạp chí
Tiêu đề: World Energy Outlook 2017
Tác giả: World Energy Outlook 2017
Năm: 2017
3. Yali Zhang, Azhu Han, Shizhou Deng, Xiaowen Wang, Huanhuan Zhang, Shakoor Hajat, John S. Ji, Wannian Liang, Cunrui Huang. (2023). The impact of fossil fuel combustion on children's health and the associated losses of human capital. ScienceDirect, Volume 5, Pages 117-124 Sách, tạp chí
Tiêu đề: ScienceDirect
Tác giả: Yali Zhang, Azhu Han, Shizhou Deng, Xiaowen Wang, Huanhuan Zhang, Shakoor Hajat, John S. Ji, Wannian Liang, Cunrui Huang
Năm: 2023
5. The Hidden Costs of Fossil Fuels. (2016). Union of Concerned Scientists. https://www.ucsusa.org/resources/hidden-costs-fossil-fuels Sách, tạp chí
Tiêu đề: The Hidden Costs of Fossil Fuels
Tác giả: The Hidden Costs of Fossil Fuels
Năm: 2016
6. Trung tâm Thông tin và Thống kê khoa học và công nghệ. (2022). Những xu hướng dịch chuyển năng lượng – Thách thức và hành động. UBND tỉnh Quảng Ngãi.https://quangngai.gov.vn/documents/321194/13340797/tl5_2022.pdf/637b3df5-7162-4260-b02a-39122bb793e4 Sách, tạp chí
Tiêu đề: UBND tỉnh Quảng Ngãi
Tác giả: Trung tâm Thông tin và Thống kê khoa học và công nghệ
Năm: 2022
7. Fa Liu, Xunming Wang, Fubao Sun, Hong Wang. (2022). Correct and remap solar radiation and photovoltaic power in China based on machine learning models.ScienceDirect, Volume 312 Sách, tạp chí
Tiêu đề: ScienceDirect
Tác giả: Fa Liu, Xunming Wang, Fubao Sun, Hong Wang
Năm: 2022
8. Sarah R. Kurtz, Ashling (Mehdi) Leilaeioun, Richard R. King, Ian Marius Peters, Michael J. Heben, Wyatt K. Metzger, Nancy M. Haegel. (2020). Revisiting the Terawatt Challenge. Springer Link. Volume 45, Pages 159-164 Sách, tạp chí
Tiêu đề: Springer Link
Tác giả: Sarah R. Kurtz, Ashling (Mehdi) Leilaeioun, Richard R. King, Ian Marius Peters, Michael J. Heben, Wyatt K. Metzger, Nancy M. Haegel
Năm: 2020
10. A. Zagouras, A. Kazantzidis, E. Nikitidou, A.A. Argiriou. (2013). Determination of measuring sites for solar irradiance, based on cluster analysis of satellite-derived cloud estimations. ScienceDirect, Volume 97, Pages 1-11 Sách, tạp chí
Tiêu đề: ScienceDirect
Tác giả: A. Zagouras, A. Kazantzidis, E. Nikitidou, A.A. Argiriou
Năm: 2013
11. Jesús-Ignacio Prieto, David García. (2022). Modified temperature-based global solar radiation models for estimation in regions with scarce experimental data. ScienceDirect, Volume 268 Sách, tạp chí
Tiêu đề: ScienceDirect
Tác giả: Jesús-Ignacio Prieto, David García
Năm: 2022
12. Sandeep Dhakal, Yogesh Gautam,Aayush Bhattarai. (2020). Evaluation of Temperature-Based Empirical Models and Machine Learning Techniques to Estimate Daily Global Solar Radiation at Biratnagar Airport, Nepal. Hindawi Advances in Meteorology, Volume 2020 Sách, tạp chí
Tiêu đề: Hindawi Advances in Meteorology
Tác giả: Sandeep Dhakal, Yogesh Gautam,Aayush Bhattarai
Năm: 2020
13. Nnditshedzeni Eric Maluta, Sophie Tshimangadzo Mulaudzi. (2018). Evaluation of the Temperature based Models for the Estimation of Global Solar Radiation in Pretoria, Gauteng province of South Africa. International Energy Journal, Volume 18, Pages 181- 190 Sách, tạp chí
Tiêu đề: International Energy Journal
Tác giả: Nnditshedzeni Eric Maluta, Sophie Tshimangadzo Mulaudzi
Năm: 2018
14. Junliang Fan, Xiukang Wang, Lifeng Wu, Hanmi Zhou, Fucang Zhang , Xiang Yu, Xianghui Lu, Youzhen Xiang. (2018). Comparison of Support Vector Machine and Extreme Gradient Boosting for predicting daily global solar radiation using temperature and precipitation in humid subtropical climates: A case study in China. ScienceDirect, Volume 164, Pages 102-111 Sách, tạp chí
Tiêu đề: ScienceDirect
Tác giả: Junliang Fan, Xiukang Wang, Lifeng Wu, Hanmi Zhou, Fucang Zhang , Xiang Yu, Xianghui Lu, Youzhen Xiang
Năm: 2018
15. Junliang Fan, Lifeng Wu, Fucang Zhang, Huanjie Cai, Wenzhi Zeng, Xiukang Wang, Haiyang Zou. (2019). Empirical and machine learning models for predicting daily global solar radiation from sunshine duration: A review and case study in China. ScienceDirect, Volume 100, Pages 186-212 Sách, tạp chí
Tiêu đề: ScienceDirect
Tác giả: Junliang Fan, Lifeng Wu, Fucang Zhang, Huanjie Cai, Wenzhi Zeng, Xiukang Wang, Haiyang Zou
Năm: 2019
17. Tegenu Argaw Woldegiyorgis, Ashenafi Admasu, Natei Ermias Benti, Ashenafi Abebe Asfaw. (2021). A Comparative Evaluation of Artificial Neural Network and Sunshine Based models in prediction of Daily Global Solar Radiation of Lalibela, Ethiopia. Cogent Engineering, Volume 9 Sách, tạp chí
Tiêu đề: Cogent Engineering
Tác giả: Tegenu Argaw Woldegiyorgis, Ashenafi Admasu, Natei Ermias Benti, Ashenafi Abebe Asfaw
Năm: 2021
18. Samuel Chukwujindu Nwokolo, Solomom Okechukwu Amadi, Anthony Umunnakwe Obiwulu, Julie C. Ogbulezie, Effiong Ekpenyong Eyibio. (2022). Prediction of global solar radiation potential for sustainable and cleaner energy generation using improved Angstrom-Prescott and Gumbel probabilistic models. ScienceDirect, Volume 6 Sách, tạp chí
Tiêu đề: ScienceDirect
Tác giả: Samuel Chukwujindu Nwokolo, Solomom Okechukwu Amadi, Anthony Umunnakwe Obiwulu, Julie C. Ogbulezie, Effiong Ekpenyong Eyibio
Năm: 2022
20. Fa Liu, Xunming Wang, Fubao Sun, Hong Wang. (2022). Correct and remap solar radiation and photovoltaic power in China based on machine learning models.ScienceDirect, Volume 312 Sách, tạp chí
Tiêu đề: ScienceDirect
Tác giả: Fa Liu, Xunming Wang, Fubao Sun, Hong Wang
Năm: 2022
22. ĩmit Ağbulut, Ali Etem Gỹrel, Yunus Biỗen. (2021). Prediction of daily global solar radiation using different machine learning algorithms: Evaluation and comparison.ScienceDirect, Volume 135 Sách, tạp chí
Tiêu đề: ScienceDirect
Tác giả: ĩmit Ağbulut, Ali Etem Gỹrel, Yunus Biỗen
Năm: 2021
23. A. Khosravi, R.N.N. Koury, L. Machado, J.J.G. Pabon. (2018). Prediction of hourly solar radiation in Abu Musa Island using machine learning algorithms. ScienceDirect, Volume 176, Pages 63-75 Sách, tạp chí
Tiêu đề: ScienceDirect
Tác giả: A. Khosravi, R.N.N. Koury, L. Machado, J.J.G. Pabon
Năm: 2018
24. Muhammed A. Hassan, A. Khalil, S. Kaseb, M.A. Kassem. (2017). Potential of four different machine-learning algorithms in modeling daily global solar radiation.ScienceDirect, Volume 111, Pages 52-62 Sách, tạp chí
Tiêu đề: ScienceDirect
Tác giả: Muhammed A. Hassan, A. Khalil, S. Kaseb, M.A. Kassem
Năm: 2017
27. Đoàn Thảo. (2022). Ứng dụng trí tuệ nhân tạo dự báo bức xạ mặt trời. Quân đội nhân dân.https://www.qdnd.vn/giao-duc-khoa-hoc/cac-van-de/ung-dung-tri-tue-nhan-tao-du-bao-buc-xa-mat-troi-690306 Sách, tạp chí
Tiêu đề: Quân đội nhân dân
Tác giả: Đoàn Thảo
Năm: 2022
28. Minh Tâm. (2023). Phần mềm dự báo công suất phát ngắn hạn của nhà máy điện mặt trời ứng dụng trí tuệ nhân tạo. Viện hàn lâm Khoa học và Công nghệ Việt Nam.https://vast.gov.vn/tin-chi-tiet/-/chi-tiet/phan-mem-du-bao-cong-suat-phat-ngan-han-cua-nha-may-%C4%91ien-mat-troi-ung-dung-tri-tue-nhan-tao-95827-463.html Sách, tạp chí
Tiêu đề: Viện hàn lâm Khoa học và Công nghệ Việt Nam
Tác giả: Minh Tâm
Năm: 2023

HÌNH ẢNH LIÊN QUAN

Hình 1.2. Những hệ luỵ của việc đốt NLHT [3] - ứng dụng trí tuệ nhân tạo để dự đoán cường độ bức xạ mặt trời
Hình 1.2. Những hệ luỵ của việc đốt NLHT [3] (Trang 19)
Hình 1.3. Phân nhóm các thuật toán ML [21] - ứng dụng trí tuệ nhân tạo để dự đoán cường độ bức xạ mặt trời
Hình 1.3. Phân nhóm các thuật toán ML [21] (Trang 22)
Hình 1.4. Cấu trúc của thuật toán ML kết hợp được đề xuất [30] - ứng dụng trí tuệ nhân tạo để dự đoán cường độ bức xạ mặt trời
Hình 1.4. Cấu trúc của thuật toán ML kết hợp được đề xuất [30] (Trang 25)
Hình 2.2. Phần dư ? được biểu diễn trong mô hình LR - ứng dụng trí tuệ nhân tạo để dự đoán cường độ bức xạ mặt trời
Hình 2.2. Phần dư ? được biểu diễn trong mô hình LR (Trang 29)
Hình 2.3. Biểu đồ biểu diễn giá trị BXMT. Giá trị tập trung 0 W/m 2  – 62.5 W/m 2 - ứng dụng trí tuệ nhân tạo để dự đoán cường độ bức xạ mặt trời
Hình 2.3. Biểu đồ biểu diễn giá trị BXMT. Giá trị tập trung 0 W/m 2 – 62.5 W/m 2 (Trang 31)
Hình 2.5. Biểu đồ biểu diễn giá trị áp suất, trong đó các giá trị dao động không đáng - ứng dụng trí tuệ nhân tạo để dự đoán cường độ bức xạ mặt trời
Hình 2.5. Biểu đồ biểu diễn giá trị áp suất, trong đó các giá trị dao động không đáng (Trang 32)
Hình 2.6. Biểu đồ biểu diễn giá trị độ ẩm - ứng dụng trí tuệ nhân tạo để dự đoán cường độ bức xạ mặt trời
Hình 2.6. Biểu đồ biểu diễn giá trị độ ẩm (Trang 32)
Hình 2.8. Biểu đồ biểu diễn giá trị tốc độ gió - ứng dụng trí tuệ nhân tạo để dự đoán cường độ bức xạ mặt trời
Hình 2.8. Biểu đồ biểu diễn giá trị tốc độ gió (Trang 33)
Hình 2.9. Xây dựng, huấn luyện mô hình LR - ứng dụng trí tuệ nhân tạo để dự đoán cường độ bức xạ mặt trời
Hình 2.9. Xây dựng, huấn luyện mô hình LR (Trang 34)
Hình 2.10. Đồ thị thể hiện giá trị BXMT - ứng dụng trí tuệ nhân tạo để dự đoán cường độ bức xạ mặt trời
Hình 2.10. Đồ thị thể hiện giá trị BXMT (Trang 35)
Hình 2.11. Đồ thị thể hiện giá trị nhiệt độ - ứng dụng trí tuệ nhân tạo để dự đoán cường độ bức xạ mặt trời
Hình 2.11. Đồ thị thể hiện giá trị nhiệt độ (Trang 36)
Hình 2.19. Biểu đồ tương quan Scatter Plot giữa các biến (Phương pháp 3) - ứng dụng trí tuệ nhân tạo để dự đoán cường độ bức xạ mặt trời
Hình 2.19. Biểu đồ tương quan Scatter Plot giữa các biến (Phương pháp 3) (Trang 43)
Hình 2.20. Biểu đồ đánh giá giá trị thực tế và dự đoán của BXMT (Phương pháp 1) - ứng dụng trí tuệ nhân tạo để dự đoán cường độ bức xạ mặt trời
Hình 2.20. Biểu đồ đánh giá giá trị thực tế và dự đoán của BXMT (Phương pháp 1) (Trang 44)
Hình 2.21. Biểu đồ kiểm tra sai số dư (Phương pháp 1) - ứng dụng trí tuệ nhân tạo để dự đoán cường độ bức xạ mặt trời
Hình 2.21. Biểu đồ kiểm tra sai số dư (Phương pháp 1) (Trang 45)
Hình 2.22. So sánh giá trị 25 mẫu dữ liệu bất kỳ (Phương pháp 1) - ứng dụng trí tuệ nhân tạo để dự đoán cường độ bức xạ mặt trời
Hình 2.22. So sánh giá trị 25 mẫu dữ liệu bất kỳ (Phương pháp 1) (Trang 46)
Hình 2.23. Biểu đồ đánh giá giá trị thực tế và dự đoán của BXMT (phương pháp 2) - ứng dụng trí tuệ nhân tạo để dự đoán cường độ bức xạ mặt trời
Hình 2.23. Biểu đồ đánh giá giá trị thực tế và dự đoán của BXMT (phương pháp 2) (Trang 47)
Hình 2.24. Biểu đồ kiểm tra sai số dư (Phương pháp 2)  Bảng 2.3. Kết quả đánh giá (Phương pháp 2) - ứng dụng trí tuệ nhân tạo để dự đoán cường độ bức xạ mặt trời
Hình 2.24. Biểu đồ kiểm tra sai số dư (Phương pháp 2) Bảng 2.3. Kết quả đánh giá (Phương pháp 2) (Trang 48)
Hình 2.25. So sánh giá trị 25 mẫu dữ liệu bất kỳ (Phương pháp 2) - ứng dụng trí tuệ nhân tạo để dự đoán cường độ bức xạ mặt trời
Hình 2.25. So sánh giá trị 25 mẫu dữ liệu bất kỳ (Phương pháp 2) (Trang 49)
Hình 2.26. Biểu đồ đánh giá giá trị thực tế và dự đoán của BXMT (Phương pháp 3) - ứng dụng trí tuệ nhân tạo để dự đoán cường độ bức xạ mặt trời
Hình 2.26. Biểu đồ đánh giá giá trị thực tế và dự đoán của BXMT (Phương pháp 3) (Trang 50)
Hình 2.27. Biểu đồ kiểm tra sai số dư (Phương pháp 3) - ứng dụng trí tuệ nhân tạo để dự đoán cường độ bức xạ mặt trời
Hình 2.27. Biểu đồ kiểm tra sai số dư (Phương pháp 3) (Trang 51)
Hình 2.28. So sánh giá trị 25 mẫu dữ liệu bất kỳ (Phương pháp 3) - ứng dụng trí tuệ nhân tạo để dự đoán cường độ bức xạ mặt trời
Hình 2.28. So sánh giá trị 25 mẫu dữ liệu bất kỳ (Phương pháp 3) (Trang 52)
Hình 3.1. Ensemble learning đạt hiệu suất cao nhờ kết hợp nhiều mô hình huấn luyện - ứng dụng trí tuệ nhân tạo để dự đoán cường độ bức xạ mặt trời
Hình 3.1. Ensemble learning đạt hiệu suất cao nhờ kết hợp nhiều mô hình huấn luyện (Trang 53)
Hình 3.5. Khả năng vượt trội của XGBoost [34] - ứng dụng trí tuệ nhân tạo để dự đoán cường độ bức xạ mặt trời
Hình 3.5. Khả năng vượt trội của XGBoost [34] (Trang 58)
Hình 3.7. Mô hình Extra Tree Classifier [36] - ứng dụng trí tuệ nhân tạo để dự đoán cường độ bức xạ mặt trời
Hình 3.7. Mô hình Extra Tree Classifier [36] (Trang 66)
Hình 3.9. Biểu đồ áp dụng phương pháp Chi-square đánh giá mức độ tương quan giữa - ứng dụng trí tuệ nhân tạo để dự đoán cường độ bức xạ mặt trời
Hình 3.9. Biểu đồ áp dụng phương pháp Chi-square đánh giá mức độ tương quan giữa (Trang 71)
Hình 3.11. Lựa chọn giá trị đặc trưng Min-max Transformation cho nhiệt độ - ứng dụng trí tuệ nhân tạo để dự đoán cường độ bức xạ mặt trời
Hình 3.11. Lựa chọn giá trị đặc trưng Min-max Transformation cho nhiệt độ (Trang 74)
Hình 3.14. Lựa chọn giá trị đặc trưng Min-max Transformation cho tốc độ gió - ứng dụng trí tuệ nhân tạo để dự đoán cường độ bức xạ mặt trời
Hình 3.14. Lựa chọn giá trị đặc trưng Min-max Transformation cho tốc độ gió (Trang 75)
Hình 3.15. Lựa chọn giá trị đặc trưng Min-Max Transformation cho hướng gió - ứng dụng trí tuệ nhân tạo để dự đoán cường độ bức xạ mặt trời
Hình 3.15. Lựa chọn giá trị đặc trưng Min-Max Transformation cho hướng gió (Trang 75)
Hình 3.16. Biểu đồ đánh giá giá trị thực tế và dự đoán của BXMT (XGBoost) - ứng dụng trí tuệ nhân tạo để dự đoán cường độ bức xạ mặt trời
Hình 3.16. Biểu đồ đánh giá giá trị thực tế và dự đoán của BXMT (XGBoost) (Trang 76)
Hình 3.17. So sánh giá trị 25 mẫu dữ liệu bất kỳ (XGBoost) - ứng dụng trí tuệ nhân tạo để dự đoán cường độ bức xạ mặt trời
Hình 3.17. So sánh giá trị 25 mẫu dữ liệu bất kỳ (XGBoost) (Trang 77)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w