Biểu đồ đánh giá giá trị thực tế, dự đoán của BXMT Phương pháp 1 ... Biểu đồ đánh giá giá trị thực tế, dự đoán của BXMT Phương pháp 2 ... Biểu đồ đánh giá giá trị thực tế, dự đoán của BX
Tổng quan
Lý do chọn đề tài
Hiện nay, nhiên liệu hóa thạch (NLHT) chiếm vai trò quan trọng hàng đầu trong hệ thống năng lượng (NL) toàn cầu Theo ước tính của Cơ quan Thông tin Năng lượng Hoa
Kỳ (Energy Information Administration, EIA), than đá vẫn sẽ chiếm thứ hai trong tổng số các nguồn NL lớn trên thế giới sau dầu mỏ và nhiên liệu lỏng cho đến năm 2030 Từ năm
2030 đến năm 2040, than đá sẽ xuống thứ ba, sau nhiên liệu lỏng và khí tự nhiên [1] Song song với những mặt lợi ích về kinh tế mà NLHT mang lại, nguồn nhiên liệu này cũng gây ra những tác hại đối với môi trường sống và thể trạng con người [2, 3, 4] Liên minh nhóm nhà khoa học (Union of Concerned Scientists) đã nêu rõ, quá trình khai thác, vận chuyển và sử dụng NLHT gây ra tác động tiêu cực đáng kể [5]
Hình 1.1 Những tác động của NLHT lên khí hậu, môi trường và thể trạng con người [2]
Hình 1.2 Những hệ luỵ của việc đốt NLHT [3]
Theo thống kê của EIA, mỗi năm tổng tiêu thụ NLHT tương đương với khoảng 11 tỷ tấn dầu Theo dự báo, nguồn dầu thô sẽ cạn kiệt vào năm 2052, nguồn khí tự nhiên sẽ cạn kiệt vào năm 2060 và than đá sẽ cạn kiệt vào năm 2088 [6] Trong kịch bản chuyển đổi
NL, điện mặt trời (ĐMT) được dự đoán sẽ trở thành nguồn phát điện chính, đóng góp từ
41 đến 96 PWh/năm và cung cấp hơn 25% tổng nhu cầu điện vào năm 2050 [7, 8]
NL được tạo ra từ các nhà máy ĐMT phụ thuộc mật thiết với cường độ bức xạ mặt trời (BXMT) chiếu xuống bề mặt tấm pin NL mặt trời Trong quá trình tích hợp công nghệ quang điện (Photovoltaic, PV) vào lưới điện, sự phức tạp của việc quản lý lưới điện đang gia tăng do tính biến thiên liên tục của năng lượng mặt trời (NLMT) Cường độ BXMT dao động với biên độ lớn có thể lên tới hàng trăm W/m 2 Mất điện đột ngột do giảm BXMT sẽ làm giảm tính ổn định và chất lượng điện năng của lưới điện cục bộ, gây ra hiệu ứng lan truyền cho các nút điện lân cận trong hệ thống lưới điện thông minh (Smart grid) [9]
Do đó, việc ước tính chính xác BXMT giúp thiết kế hệ thống PV một cách phù hợp, giảm sự phụ thuộc vào việc lưu trữ NL dự phòng lớn và tối thiểu hóa lãng phí NL trong các nhà máy quang điện Tuy nhiên, giá trị của BXMT bị ảnh hưởng bởi nhiều hiện tượng khí quyển khác nhau Ngoài ra, việc đo đạc và ghi lại giá trị BXMT không phổ biến ở các nước đang phát triển Nguyên nhân chủ yếu là do vấn đề kỹ thuật và kinh phí thực hiện
Có nhiều phương pháp được thực hiện nhằm ước tính giá trị BXMT Phép đo mặt đất bằng nhật xạ kế (pyranometer, solarimeter) là phương pháp đơn giản và cơ bản nhất để thu thập giá trị BXMT Nhật xạ kế là loại máy đo bức xạ được lắp đặt phổ biến nhất tại các trạm khí tượng, hiển thị tổng lượng bức xạ mà bề mặt ngang ở mặt đất nhận được Nếu được hiệu chuẩn tốt, bản ghi nhật xạ kế là ước tính chính xác nhất về giá trị BXMT Tuy nhiên, nhật xạ kế là một thiết bị cảm biến khá nhạy, cần được bảo trì và hiệu chuẩn liên tục để giữ độ chính xác tối ưu Bên cạnh đó, chi phí lắp đặt nhật xạ kế cao khiến chúng không được lắp đặt rộng rãi [10]
Ngoài phương pháp sử dụng nhật xạ kế, mô hình thực nghiệm được áp dụng rộng rãi do có quan hệ toán học đơn giản, tính sẵn có lâu dài và khả thi với các phép đo mặt đất Nhiều loại mô hình thực nghiệm khác nhau đã được xây dựng để ước tính BXMT, như mô hình dựa trên đám mây [10], mô hình dựa trên nhiệt độ [11, 12, 13], mô hình dựa trên nhiệt độ và lượng mưa [14], mô hình dựa trên số giờ nắng [15], mô hình dựa trên ánh sáng mặt
3 trời [16, 17, 18, 19] Trong đó, mô hình dựa trên ánh sáng mặt trời hoạt động hiệu quả hơn so với các mô hình dựa trên các biến số khí tượng đơn lẻ khác (thời gian nắng, độ che phủ mây, nhiệt độ, áp suất trung bình hằng ngày (P), áp suất hơi nước (Pv), tốc độ gió (W), độ ẩm tương đối (RH) và hơi nước kết tủa, Nhược điểm của mô hình thực nghiệm là không thể xử lý mối quan hệ phức tạp và phi tuyến tính giữa các biến Đặc biệt, mô hình thực nghiệm dự đoán kém chính xác ở những vùng có thời tiết nhiều mây mù, ẩm ướt, nơi mà BXMT chịu ảnh hưởng lớn bởi các đám mây dày trong những ngày mưa [15]
Khác với phương pháp đo BXMT bằng mô hình thực nghiệm, việc thu thập thông số BXMT từ vệ tinh có thể cung cấp bộ dữ liệu BXMT với độ phân giải không gian, thời gian cao liên tục Hình ảnh được thiết bị trên vệ tinh ghi lại sau 10 phút (hoặc 15 phút), 30 phút, 60 phút và được chuyển đổi thành giá trị BXMT thông qua các thuật toán chuyển đổi Tuy nhiên, việc thu thập vệ tinh không thể nắm bắt đầy đủ sự biến thiên của BXMT trong thời gian dài, điều này có thể dẫn đến khả năng dự đoán giá trị BXMT bị hạn chế [20]
Các phương pháp dự đoán cường độ BXMT có những ưu điểm và hạn chế riêng biệt Trong đó, nghiên cứu về dự đoán BXMT dựa trên phương pháp học máy (Machine Learning, ML) được đánh giá là một phương pháp đầy triển vọng [21, 22, 23, 24]
Nhiều nghiên cứu được tài trợ thực hiện nhằm xây dựng và đánh giá độ chính xác của các phương pháp dự đoán BXMT dựa trên thuật toán ML Một số thuật toán được đánh giá cao trong việc dự đoán chính xác về cường độ BXMT như mạng nơ-ron nhân tạo (Artificial Neural Network, ANN), mạng nơ-ron hồi quy (Recurrent Neural Network, RNN), mạng nơ-ron tích chập (Convolutional Neural Network, CNN), Long Short Term Memory (LSTM), Support Vector Machine (SVM),…[25] Tuy nhiên, mỗi thuật toán đều có những ưu và nhược điểm riêng [21] Ngoài ra, nhiều bộ dữ liệu chỉ phù hợp với một số phương pháp dự đoán và không tối ưu cho các mô hình khác Vì vậy, đề tài này được thực hiện nhằm đánh giá độ chính xác của thuật toán hồi quy tuyến tính (Linear Regression, LR) và thuật toán tăng cường độ dốc cấp cao (Extreme Gradient Boosting, XGBoost) khi xử lý bộ dữ liệu có sẵn Đồng thời, đề tài so sánh kết quả của hai thuật toán dự đoán để tìm ra thuật toán tối ưu hơn
Hình 1.3 Phân nhóm các thuật toán ML [21]
Bảng 1.1 Bảng so sánh các kỹ thuật ML [21]
Kỹ thuật Ưu điểm Nhược điểm Các ứng dụng
LR Dễ thực hiện, đào tạo nhanh
Giới hạn mối quan hệ tuyến tính
Phân tích dự đoán giá cả, chuỗi thời gian
Dễ thực hiện, hoạt động tốt với dữ liệu nhỏ
Chỉ áp dụng cho bài toán phân loại
Dự đoán tình trạng mất điện, phân loại sự kiện thời tiết
Hiệu suất cải thiện nhờ kết hợp nhiều mô hình
Tốn kém chi phí tính toán, cần xây dựng từng bước
Dự báo năng lượng tái tạo (NLTT) nhận dạng hình ảnh
Xử lý bài toán phân loại và biến liên tục
Dễ xảy ra hiện tượng overfitting
Dự đoán bảo trì, tài chính
(Random Forest, RF) Độ chính xác cao, ít xảy ra hiện tượng overfitting
Khó giải thích Phân loại hình ảnh
CNN Phân tích hình ảnh đạt hiệu quả cao
Cần khối lượng dữ liệu lớn, thời gian xử lý dữ liệu
Phân loại hình ảnh, dự đoán nhu cầu NL
Xử lý dữ liệu lớn và các mối quan hệ phi tuyến tính
NL, nhận dạng hình ảnh, giọng nói
RNN Xử lý tốt dữ liệu chuỗi thời gian
Thời gian xử lý dữ liệu lâu
Dự báo NL, nhận dạng giọng nói
LSTM Xử lý tốt dữ liệu chuỗi thời gian
Cần xây dựng từng bước
Nhận dạng giọng nói, dự báo tải và giá NL
Mục tiêu của đề tài
Xây dựng và huấn luyện 2 mô hình dự đoán BXMT dựa trên thuật toán LR và XGBoost Từ đó đánh giá độ chính xác của 2 thuật toán này dựa trên 4 phương pháp đánh giá: sai số bình phương trung bình (Mean Squared Error, MSE), lỗi trung bình bình phương gốc (Root Mean Square Error, RMSE), trung bình giá trị tuyệt đối của sai số (Mean Absolute Error, MAE) và hệ số xác định (The Coefficient of Determination, R 2 ).Kết quả chỉ ra rằng mô hình sử dụng thuật toán XGBoost cho ra kết quả dự đoán (R 2 = 0.93) chuẩn xác hơn mô hình sử dụng thuật toán LR (R 2 = 0.57)
Có thể nhận định, mỗi bộ dữ liệu tương thích với các phương pháp dự đoán khác nhau Vì thế cần lựa chọn và xây dựng nhiều phương pháp dự đoán khác nhau để đưa ra mô hình tối ưu nhất, tương thích với bộ dữ liệu.
Đối tượng nghiên cứu
Đề tài xây dựng mô hình dự đoán BXMT tại thủ đô Moscow, Liên bang Nga Trong đó, biến đầu vào là giá trị BXMT, nhiệt độ, áp suất, độ ẩm, hướng gió, tốc độ gió, Unix time, Date, Thời gian, Thời gian MT mọc, Thời gian MT lặn và biến đầu ra là giá trị BXMT.
Phạm vi nghiên cứu
Bộ dữ liệu có sẵn từ Kaggle.com [26] Đề tài sử dụng phần mềm Python làm công cụ lập trình và xây dựng 2 thuật toán
Tình hình nghiên cứu trong và ngoài nước liên quan đến đề tài
Nhóm sinh viên Nguyễn Tuấn Anh, Vũ Xuân Sơn Hữu, Phan Văn Long, Nguyễn Trọng Thành, Nguyễn Đăng Dương (Khoa Kỹ thuật Điện, Trường Đại học Bách khoa Hà Nội) đã áp dụng phương pháp DL nghiên cứu nên một phần mềm dự báo BXMT Phần mềm này bao gồm các mô hình dự báo đa dạng và có khả năng lưu trữ kết quả cho các lần xem tiếp theo Đề tài “Xây dựng ứng dụng dự báo BXMT dựa trên phương pháp DL” của nhóm sinh viên đạt giải nhì trong cuộc thi “Giải thưởng khoa học và công nghệ dành cho sinh viên trong các cơ sở giáo dục đại học năm 2021” [27]
TS Nguyễn Quang Ninh và nhóm nghiên cứu Viện Khoa học Năng lượng [28] đã xây dựng công cụ dự đoán công suất phát đầu ra của nhà máy ĐMT ở Việt Nam dựa trên thuật toán LSTM “Nghiên cứu phương pháp và xây dựng phần mềm dự báo công suất phát ngắn hạn của nhà máy ĐMT ứng dụng trí tuệ nhân tạo” được Hội đồng nghiệm thu cấp Viện Hàn lâm Khoa học và Công nghệ Việt Nam xếp loại A và được hy vọng sẽ trở thành công cụ hỗ trợ quan trọng cho các chủ sở hữu nhà máy ĐMT
Nhiều nghiên cứu được triển khai nhằm so sánh độ chính xác giữa các thuật toán Bharat Girdhani và Meena Agrawal [29] tiến hành nghiên cứu sử dụng 4 kỹ thuật ML: LR, SVM, RF và ANN để dự đoán BXMT cho 4 bang của Ấn Độ (Bhadla – Rajasthan, Rewa – Madhyabang, Amguri – Assam và Shillong – Meghalaya) Kết quả dự đoán được đánh giá dựa trên 7 chỉ số đánh giá (MBE, MAE, MSE, RMSE, Max Error, R 2 và MAPE) Kết quả cho thấy địa điểm nằm ở Bhadla – Rajasthan có tiềm năng rất lớn về BXMT và ANN là mô hình dự đoán BXMT hoạt động tốt nhất
Bảng 1.2 Hiệu suất các mô hình Địa điểm Tốt nhất Tốt Trung bình Tệ nhất
Bhadla, Rajasthan ANN RF SVM LR
Rewa, Madhyabang ANN RF SVM LR
Amguri, Assam ANN SVM RF LR
Shillong, Meghalaya ANN RF LR SVM
Md Shafiul Alam và cộng sự [30] xây dựng mô hình dự đoán BXMT ở Bangladesh dựa trên các thuật toán kết hợp bao gồm hồi quy Adaboost (Adaboost Regression), hồi quy tăng cường độ dốc (Gradient Boosting Regression), hồi quy rừng ngẫu nhiên (Random Forest Regression) và hồi quy đóng bao (Bagging Regression) Dữ liệu khí tượng được thu thập từ 32 trạm bao gồm nhiệt độ tối đa, nhiệt độ tối thiểu, tổng lượng mưa, độ ẩm, ánh nắng, tốc độ gió, độ che phủ của mây và bức xạ Kết quả cho thấy hồi quy tăng cường độ dốc mang lại khả năng dự đoán tốt nhất (R 2 = 0.9995)
Hình 1.4 Cấu trúc của thuật toán ML kết hợp được đề xuất [30]
Những đóng góp của đề tài
Dựa vào bộ dữ liệu có sẵn, đề tài xây dựng mô hình XGBoost để dự đoán BXMT XGBoost đã được chứng minh là một phương pháp hữu hiệu trong việc xử lý dữ liệu lớn và cho ra kết quả dự đoán chính xác Trong quá trình nghiên cứu tiền xử lý dữ liệu, nhận thấy các biến có mối quan hệ tuyến tính Do đó, đề tài xây dựng thêm mô hình LR Mô hình này được xây dựng nhằm so sánh và đánh giá hiệu suất với mô hình XGBoost
Từ 2 mô hình dự đoán của đề tài, có thể tiến hành phân tích, rút kinh nghiệm và cải thiện cho việc xây dựng các mô hình dự đoán tương tự (khi các thông số đầu vào có thể thay đổi) Đây là nền tảng cho việc phát triển hệ thống dự đoán BXMT với độ chính xác cao hơn, dự đoán được nhiều yếu tố ảnh hưởng đến công suất phát của hệ thống ĐMT nhằm nâng cao hiệu suất, giảm chi phí sản xuất.
Những hạn chế của đề tài
Do thời gian thực hiện đề tài có giới hạn, số lượng mô hình được sử dụng trong đề tài còn hạn chế Đề tài chỉ ở mức độ xây dựng các mô hình riêng lẻ, chưa xây dựng các mô hình lai, kết hợp nhiều thuật toán của học máy nhằm tăng độ chính xác của mô hình dự đoán Ngoài ra, độ chính xác của hai mô hình dự đoán chưa thật sự đạt giá trị tối ưu
Bộ dữ liệu được sử dụng trong đề tài là bộ dữ liệu có sẵn và đã được chia sẻ công khai miễn phí đối với mọi người dùng Đây cũng là một trong những hạn chế của đề tài khi chưa thu thập và sử dụng các dữ liệu hoàn toàn mới.
Dự đoán bức xạ mặt trời dựa trên thuật toán hồi quy tuyến tính
Cơ sở lý thuyết
2.1.1 Mô hình hồi quy tuyến tính đơn giản
Hồi quy tuyến tính (Linear Regression, LR) là thuật toán học máy có giám sát phổ biến trong mô hình dự đoán Mục tiêu của LR là xác định một đường hồi quy (đường tuyến tính) phù hợp nhất để mô hình hóa mối quan hệ giữa các biến phụ thuộc và các biến độc lập dựa trên bộ dữ liệu huấn luyện
Mô hình LR đơn giản có dạng:
● 𝑦 𝑖 : giá trị biến phụ thuộc 𝑦
● 𝑥 𝑖 : giá trị biến độc lập 𝑥
● 𝑒: sai số ngẫu nhiên hay còn gọi là phần dư
● 𝛽 0 : tung độ gốc thuộc đường hồi quy tổng thể
● 𝛽 1 : độ dốc thuộc đường hồi quy tổng thể
Có thể tính toán các thông số (𝛽 0 , 𝛽 1 ) của phương trình dựa trên số liệu của các mẫu ngẫu nhiên Dựa vào số liệu của mẫu, tìm được phương trình LR của mẫu:
● 𝑦̂ 𝑖 : dự đoán của giá trị trung bình của 𝑦 đối với biến 𝑥 đã biết
Hình 2.1 Hàm hồi quy tuyến tính a) Ưu điểm
Mô hình LR có công thức toán học đơn giản, dễ ứng dụng Kết quả của mô hình có thể được giải thích rõ ràng, đưa ra nhận định về mối tương quan giữa các biến b) Nhược điểm
Mô hình LR không thể đưa ra dự đoán chính xác đối với mối tương quan phi tuyến tính Ngoài ra, mô hình không phù hợp đối với các mối quan hệ phức tạp nhiều biến Ngoài ra, kết quả dự đoán của mô hình dễ bị ảnh hưởng bởi các điểm dị biệt (outlier)
Hồi quy nghĩa là liên hệ biến phụ thuộc 𝑦 cho trước với nhiều biến độc lập
Mô hình LR tổng quát:
● 𝛽 0 : tung độ gốc của đường hồi quy
● 𝛽 𝑗 : độ dốc của đường hồi quy
Hàm hồi quy mẫu tổng quát:
𝑦 𝑖 ̂= 𝛽 ̂ 0 + 𝛽 ̂ 1 𝑥 1𝑖 + 𝛽 ̂ 2 𝑥 2𝑖 + ⋯ + 𝛽 ̂ 𝑘 𝑥 𝑘𝑖 + 𝑒 Để ước tính các thông số (𝛽 1 , 𝛽 2 , 𝛽 3 , … ), phương pháp bình phương nhỏ nhất được áp dụng từ đó tìm ra 𝛽 ̂ 1 , 𝛽 ̂ 2 , 𝛽 ̂ 3 , …
2.1.3 Phương pháp bình phương nhỏ nhất
Phương pháp bình phương nhỏ nhất (Ordinary Least Square, OLS) là một phương pháp phổ biến để ước tính các thông số của mô hình LR Mục đích của OLS là tìm một tập thông số mô hình sao cho tổng bình phương các phần dư là bé nhất Phần dư là hiệu giữa giá trị thực tế của biến phụ thuộc và giá trị dự đoán của mô hình Bằng cách tìm các ước lượng của tung độ gốc 𝛽 0 và độ dốc 𝛽 𝑗 của đường hồi quy, OLS cố gắng tìm mô hình LR mà các điểm bộ dữ liệu gần nhất với đường hồi quy nhất có thể Phần dư được định nghĩa như sau:
● 𝑒: phần dư hay còn gọi là sai số ngẫu nhiên
● 𝑦 𝑖 : giá trị của biến phụ thuộc 𝑦
● 𝑦̂ 𝑖 : giá trị hàm hồi quy mẫu
Hình 2.2 Phần dư 𝑒 được biểu diễn trong mô hình LR
Do đó, cực tiểu hoá 𝛴(𝑦 𝑖 − 𝑦̂ 𝑖 ) 2 sẽ tương ứng với cực tiểu 𝛴(𝑒 𝑖 ) 2
Biết 𝛴(𝑒 𝑖 ) 2 = 𝛴(𝑦 𝑖 − (𝛽 ̂ 0 + 𝛽 ̂ 1 𝑥 1𝑖 + 𝛽 ̂ 2 𝑥 2𝑖 + ⋯ + 𝛽 ̂ 𝑘 𝑥 𝑘𝑖 )) 2 Từ đó tìm ra 𝛽 0 , 𝛽 1
Phương pháp thực hiện
Bộ dữ liệu được đăng tải trên Kaggle.com [26], từ hệ thống dữ liệu toàn cầu của NASA Meteoblue Bộ dữ liệu cung cấp thông tin khí tượng của thành phố Moscow, Liên bang Nga, được thu thập tại trạm thời tiết HI-SEAS, Hawaii trong thời gian bốn tháng 01/09/2016 – 31/12/2016 Bộ dữ liệu bao gồm 11 thông số và có tốc độ lấy mẫu
5 phút/lần; chứa tổng cộng 32686 mẫu cho mỗi thông số Đề tài chọn tỷ lệ 80:20, 80% dữ liệu huấn luyện và 20% dữ liệu kiểm tra
Bảng 2.1 Thu thập dữ liệu
Nguồn dữ liệu Trạm thời tiết HI-SEAS, Hawaii
Nơi đo Thành phố Moscow, Liên bang Nga
Thông số và đơn vị
BXMT (W/m 2 ), nhiệt độ (° F), áp suất (inHg), độ ẩm (%), hướng gió (Degrees), tốc độ gió (Miles/h), Unix time (giây), Date (Ngày/Tháng/Năm Giờ/phút/giây), Thời gian (Giờ/phút/giây), Thời gian MT mọc (Giờ/phút/giây), Thời gian MT lặn (Giờ/phút/giây)
Số lượng mẫu của một thông số 32686
Tốc độ lấy mẫu 5 phút/lần
Trực quan hóa giá trị đặc trưng Ở thuật toán LR, đề tài chỉ chú trọng vào 6 thông số: BXMT, nhiệt độ, áp suất, độ ẩm, hướng gió, tốc độ gió Những thông số này được biểu diễn lần lượt bằng biểu đồ Trong đó, trục tung 𝑥 thể hiện số lượng giá trị, biết mỗi thông số có tổng số giá trị
13 là 32686 Trục hoành 𝑦 thể hiện giá trị của thông số: W/m 2 (BXMT), ° F (nhiệt độ), inHg (áp suất), % (độ ẩm), Degrees (hướng gió) và Miles/h (tốc độ gió)
Hình 2.3 Biểu đồ biểu diễn giá trị BXMT Giá trị tập trung 0 W/m 2 – 62.5 W/m 2
Hình 2.4 Biểu đồ biểu diễn giá trị nhiệt độ Giá trị tập trung 43° F – 53° F
Hình 2.5 Biểu đồ biểu diễn giá trị áp suất, trong đó các giá trị dao động không đáng kể
Hình 2.6 Biểu đồ biểu diễn giá trị độ ẩm
Hình 2.7 Biểu đồ biểu diễn giá trị hướng gió Giá trị tập trung 130° – 200°
Hình 2.8 Biểu đồ biểu diễn giá trị tốc độ gió
Hình 2.9 Xây dựng, huấn luyện mô hình LR Đề tài sử dụng 3 phương pháp phân tích dữ liệu nhằm tìm được phương pháp tương thích cho mô hình
⮚ Phương pháp 1: Sử dụng toàn bộ dữ liệu
⮚ Phương pháp 2: Sử dụng dữ liệu trong thời gian hoạt động của mặt trời 6h00 – 18h00 Sau khi phân tích, 16396 giá trị được lọc và sử dụng từ 32686 giá trị gốc
⮚ Phương pháp 3: Sử dụng giá trị trung bình của các thông số Ở phương pháp này, đề tài tính giá trị trung bình hằng ngày của BXMT và giá trị tối thiểu – tối đa trung bình hàng ngày của các thông số còn lại trong khoảng thời
17 gian 6h00 – 18h00 [31] Như vậy, bộ dữ liệu có 118 giá trị/thông số, tương ứng 1 giá trị/ngày
Công thức tính giá trị trung bình hàng ngày của BXMT:
Trong đó: 𝑦 𝑛 : bộ dữ liệu đã được chuẩn hóa
𝑦: bộ dữ liệu quan sát hiện tại
Công thức tính giá trị tối thiểu – tối đa trung bình hàng ngày của nhiệt độ, áp suất, độ ẩm, hướng gió, tốc độ gió:
𝑥 𝑚𝑎𝑥 : giá trị cao nhất trong bộ dữ liệu quan sát hiện tại
𝑥 𝑚𝑖𝑛 : giá trị thấp nhất trong bộ dữ liệu quan sát hiện tại
Hình 2.10 Đồ thị thể hiện giá trị BXMT
Hình 2.11 Đồ thị thể hiện giá trị nhiệt độ
Hình 2.12 Đồ thị thể hiện giá trị áp suất
Hình 2.13 Đồ thị thể hiện giá trị độ ẩm
Hình 2.14 Đồ thị thể hiện giá trị hướng gió
Hình 2.15 Đồ thị thể hiện giá trị tốc độ gió Đánh giá sai số a) Tiêu chí dựa trên sai số tuyệt đối
Công thức tính trung bình giá trị tuyệt đối của sai số:
𝑖=1 b) Tiêu chí dựa vào bình phương sai số
Công thức tính sai số bình phương trung bình:
Công thức tính sai số bình phương trung bình gốc:
21 c) Tiêu chí dựa trên sai số tương đối
Công thức tính hệ số xác định:
● 𝑦 𝑖 : giá trị thực của biến 𝑦 tại quan sát thứ 𝑖
● y̅: giá trị trung bình của biến 𝑦
● 𝑦̂ 𝑖 : giá trị dự đoán của biến 𝑦 tại quan sát thứ 𝑖
● Σ: ký hiệu tổng của tất cả các quan sát
𝑅 2 ≅ 1 có nghĩa là các biến độc lập giải thích được phần lớn sự biến thiên của biến phụ thuộc Phần còn lại của sự biến thiên được giải thích bởi các biến không được xem xét trong mô hình và sai số ngẫu nhiên
𝑅 2 ≅ 0 kết quả của mô hình không đạt yêu cầu
Kiểm tra mối tương quan giữa các biến
Hệ số tương quan Pearson biểu thị mức độ tương thích giữa các cặp biến Hình 2.16 thể hiện mối tương thích giữa 6 cặp biến: BXMT – nhiệt độ, BXMT – áp suất, BXMT – độ ẩm, BXMT – hướng gió và BXMT – tốc độ gió
Công thức tính hệ số tương quan Pearson:
● 𝑟: hệ số tương quan Pearson
● 𝑥 𝑖 , 𝑦 𝑖 : giá trị thực của biến 𝑥, 𝑦 tại quan sát thứ 𝑖
● 𝑥, 𝑦: giá trị trung bình của biến 𝑥, 𝑦
● 𝛴: ký hiệu tổng của tất cả các quan sát
𝑟 ≅ –1 hoặc r≅1 biểu thị sự tương quan mạnh giữa 2 biến được xét
𝑟 = −1: thể hiện mối tương quan âm hoàn toàn (cực nghịch) Khi một biến giảm thì biến còn lại tăng và ngược lại
𝑟 = 1: thể hiện mối tương quan dương hoàn toàn (cực thuận) Khi một biến giảm thì biến còn lại giảm đồng thời và ngược lại
𝑟 ≅ 0: cho thấy mối tương quan yếu hoặc không có mối tương quan tuyến tính giữa 2 biến được xét
Quan sát Hình 2.17, có thể rút ra nhận xét, có mối tương quan mạnh giữa BXMT và nhiệt độ (r = 0.73) Khi nhiệt độ tăng, BXMT tăng và ngược lại Trong khi đó, mối tương quan giữa BXMT và độ ẩm, hướng gió được đánh giá là cực nghịch (r = – 0.23 cho cả 2 mối tương quan) Mối tương quan giữa BXMT và áp suất, giữa BXMT và tốc độ gió là mối tương quan yếu (r = 0.12, r = 0.074)
Ngoài sử dụng biểu đồ hệ số tương quan Pearson, đề tài còn sử dụng biểu đồ phân tán (Scatter Plot)
Hình 2.16 Ma trận tương quan Pearson giữa các biến
Hình 2.17 Biểu đồ tương quan Scatter Plot giữa các biến (Phương pháp 1)
Kết quả R 2 được biểu diễn trong Hình 2.18, có thể đưa ra nhận định hoàn toàn trùng khớp với nhận xét được rút ra từ Hình 2.17 Sự tương quan giữa BXMT và nhiệt độ là một mối tương quan thuận với R 2 = 0.4555 Sự tương quan giữa BXMT và các thông số còn lại được đánh giá là khá yếu
Hình 2.18 Ma trận tương quan Pearson giữa các biến (Phương pháp 3)
Sau khi chuyển đổi giá trị trung bình của các thông số, sự tương quan giữa BXMT và nhiệt độ vẫn được đánh giá là mối tương quan thuận (r = 0.55) Trong khi đó, sự tương quan giữa BXMT và độ ẩm là mối tương quan nghịch (r = – 0.65)
Hình 2.19 Biểu đồ tương quan Scatter Plot giữa các biến (Phương pháp 3)
Kết quả đạt được
Biểu đồ đánh giá giá trị thực tế và giá trị dự đoán được dùng để kiểm tra tính tuyến tính của mô hình Biểu đồ này so sánh sự trùng khớp giữa giá trị thực tế và giá trị dự đoán từ mô hình
Ngoài ra, đề tài cũng sử dụng biểu đồ kiểm tra sai số dư (Residual error) Trong đó, sai số dư được định nghĩa là hiệu giữa giá trị thực tế và giá trị dự đoán từ mô hình
⮚ Phương pháp 1: Sử dụng toàn bộ dữ liệu
Hình 2.20 Biểu đồ đánh giá giá trị thực tế và dự đoán của BXMT (Phương pháp 1)
Hệ số xác định R 2 = 0.57 thể hiện rằng, ở phương pháp 1, 57% các giá trị thực tế của BXMT được giải thích bởi mô hình dự đoán Có thể thấy kết quả dự đoán này chưa tối ưu Ngoài ra, tại các điểm BXMT đạt giá trị thực tế bằng 0 W/m 2 , mô hình cho thấy kết quả dự đoán là các giá trị âm Đây là một kết quả dự đoán sai nghiêm trọng
Hình 2.21 Biểu đồ kiểm tra sai số dư (Phương pháp 1)
Bảng 2.2 Kết quả đánh giá (Phương pháp 1)
Chỉ số đánh giá Kết quả
Hình 2.22 So sánh giá trị 25 mẫu dữ liệu bất kỳ (Phương pháp 1)
Dựa vào hình ảnh đồ thị và các kết quả, có thể thấy mô hình dự đoán ở phương pháp 1 có kết quả dự đoán chưa chính xác Mặc dù vậy, mô hình đã có khả năng dự đoán đúng một phần đáng kể giá trị của BXMT và thể hiện được sự ảnh hưởng của các thông số nhiệt độ, áp suất, độ ẩm không khí, hướng gió, tốc độ gió lên giá trị BXMT
⮚ Phương pháp 2: Sử dụng dữ liệu trong khoảng thời gian 6h00 – 18h00
Hình 2.23 Biểu đồ đánh giá giá trị thực tế và dự đoán của BXMT (phương pháp 2)
Kết quả R 2 = 0.47 thể hiện rằng, khi sử dụng dữ liệu trong thời gian 6h00 – 18h00,
47% các giá trị thực tế của BXMT được giải thích bởi mô hình dự đoán Tương tự như biểu đồ của phương pháp 1, tại các điểm BXMT đạt giá trị thực tế bằng 0 W/m 2 , mô hình đưa ra dự đoán là các giá trị âm
Hình 2.24 Biểu đồ kiểm tra sai số dư (Phương pháp 2) Bảng 2.3 Kết quả đánh giá (Phương pháp 2)
Chỉ số đánh giá Kết quả
Hình 2.25 So sánh giá trị 25 mẫu dữ liệu bất kỳ (Phương pháp 2)
Dựa vào hình ảnh biểu đồ và kết quả thu được, có thể thấy, mô hình dự đoán ở phương pháp 2 có kết quả không cải thiện và hiệu suất dự đoán cũng giảm so với mô hình dự đoán ở phương pháp 1
⮚ Phương pháp 3: Sử dụng giá trị trung bình của các thông số
Hình 2.26 Biểu đồ đánh giá giá trị thực tế và dự đoán của BXMT (Phương pháp 3)
Kết quả R 2 = 0.52 thể hiện rằng, 52% các giá trị thực tế của BXMT được giải thích bởi mô hình dự đoán
Hình 2.27 Biểu đồ kiểm tra sai số dư (Phương pháp 3)
Bảng 2.4 Kết quả đánh giá (Phương pháp 3)
Chỉ số đánh giá Kết quả
Hình 2.28 So sánh giá trị 25 mẫu dữ liệu bất kỳ (Phương pháp 3)
Bảng 2.5 So sánh và đánh giá các phương pháp phân tích dữ liệu
Phương pháp 1 Phương pháp 2 Phương pháp 3
Lựa chọn giá trị đặc trưng Không Có Có
Sai số dư Lớn Lớn Lớn
Loại bỏ biến không đóng góp Không Không Không
Cả 3 phương pháp trên đều chưa đạt kết quả tối ưu Trong đó, phương pháp 1 (R 2 = 0.57) cho ra hiệu suất dự đoán cao nhất và phương pháp 2 (R 2 = 0.47) cho ra hiệu suất dự đoán thấp nhất Để khắc phục và cải thiện độ chính xác của mô hình dự đoán, đề tài xây dựng thêm mô hình dự đoán cường độ BXMT dựa trên thuật toán XGBoost Thuật toán được dự đoán sẽ cho ra dự đoán chính xác hơn thuật toán LR.
Dự đoán bức xạ mặt trời dựa trên thuật toán XGBoost
Cơ sở lý thuyết
Ensemble learning là một thuật toán quan trọng trong lĩnh vực ML cho phép sử dựng nhiều mô hình độc lập tạo nên một mô hình tổng thể Những mô hình độc lập này khác nhau về cấu trúc, đặc trưng và được huấn luyện bằng các thuật toán khác nhau Bằng cách kết hợp các điểm mạnh của nhiều mô hình, Ensemble learning đạt độ chính xác và độ ổn định tốt hơn so với các mô hình đơn lẻ
Hình 3.1 Ensemble learning đạt hiệu suất cao nhờ kết hợp nhiều mô hình huấn luyện
Ensemble learning bao gồm 2 nhóm chính là phương pháp đóng bao (Bagging Ensembles) và phương pháp tăng cường (Boosting Ensembles) a) Phương pháp đóng bao Bagging
Bagging là một phương pháp quan trọng trong Ensemble learning, với mục đích xây dựng các mô hình dự đoán tốt hơn nhờ kết hợp dự đoán của nhiều mô hình dự đoán độc lập Phương pháp này giúp giảm thiểu hiện tượng overfitting và đưa ra một mô hình tổng quát hơn và ổn định hơn
36 Ý tưởng cơ bản của Bagging là huấn luyện các mô hình dự đoán độc lập với các dữ liệu con được tái chọn từ bộ dữ liệu huấn luyện ban đầu Mỗi mô hình có thể có những sai lệch nhỏ trong việc mô hình hóa bộ dữ liệu huấn luyện, nhưng tổng thể, các sai lệch này có thể hủy bỏ lẫn nhau Kết thúc quá trình huấn luyện, dự đoán của các mô hình được kết hợp lại thông qua việc tính trung bình hoặc sử dụng phương pháp đa số để tạo ra dự đoán cuối cùng Tính trung bình các dự đoán giúp tạo ra một dự đoán tổng quát và ổn định Sử dụng phương pháp đa số giúp tạo ra dự đoán dựa trên sự đồng thuận của các mô hình
Bagging giúp giảm thiểu hiện tượng overfitting bằng cách giảm sai lệch của mô hình Đồng thời, Bagging làm tăng tính ổn định của mô hình bằng cách giảm phương sai của các dự đoán Kết hợp dự đoán của nhiều mô hình giúp Bagging giảm sự biến động giữa các dự đoán và tạo ra một dự đoán cuối cùng ổn định hơn Việc sử dụng Bagging cần cân nhắc đến việc lựa chọn các mô hình cơ bản độc lập và phù hợp và cũng cần quan tâm đến việc kết hợp các dự đoán một cách thích hợp b) Phương pháp tăng cường Boosting
Khác với Bagging, Boosting xây dựng mô hình dự đoán theo cách tuần tự, tập trung cải thiện các dự đoán sai sót của các mô hình trước
Boosting là tạo ra chuỗi những mô hình dự đoán yếu, mỗi mô hình tập trung vào việc đặc biệt hóa dự đoán các điểm dữ liệu mà các mô hình trước đó dự đoán sai Để làm điều này, trọng số của các điểm dữ liệu được điều chỉnh liên tục Các điểm dữ liệu dự đoán sai sẽ nhận được trọng số cao hơn, trong khi các điểm dữ liệu dự đoán đúng nhận được trọng số thấp hơn Việc điều chỉnh trọng số giúp mô hình chú trong hơn vào những điểm dữ liệu khó khăn
Sau đó, chuỗi các kết quả dự đoán được kết hợp lại tạo nên dự đoán cuối cùng Thông thường, việc kết hợp này được thực hiện nhờ vào tính trọng số trung bình của các dự đoán hoặc sử dụng các thuật toán tối ưu để tìm ra trọng số tối ưu cho việc kết hợp này
Hình 3.2 Mô hình Bagging [32] Hình 3.3 Mô hình Boosting [32]
Gradient Boosting Machine (GBM) là một phương pháp học máy mạnh mẽ thuộc lớp thuật toán boosting trong Ensemble learning GBM xây dựng mô hình dự đoán theo cách tuần tự và cải thiện các dự đoán sai sót của những mô hình trước bằng cách sử dụng Gradient descent
Trong GBM, Weak learner được xây dựng dựa trên các hàm mất mát và gradient của nó Mô hình yếu ban đầu thường là những mô hình đơn giản, Sau đó, mô hình yếu được thực hiện tuần tự, mỗi lần tạo ra một mô hình mới để cải thiện dự đoán sai sót của những mô hình trước
Gradient descent được sử dụng để điều chỉnh các trọng số sao cho hàm mất mát được giảm xuống một cách tối ưu Mô hình yếu mới được thêm vào chuỗi các mô hình yếu trước đó và liên tục lặp lại đến khi hàm mất mát không còn giảm đáng kể
Cuối cùng, các mô hình yếu trong GBM kết hợp lại tạo nên mô hình cuối cùng Thông thường, việc kết hợp này được thực hiện bằng cách tính trọng số trung bình của các dự đoán Mô hình dự đoán cuối cùng có thể dự đoán mạnh mẽ hơn so với mô hình yếu ban đầu, nhờ việc tập trung vào cải thiện từng lần
Tuy GBM là một phương pháp mạnh mẽ, việc sử dụng nó cũng cần cân nhắc đến việc điều chỉnh các thông số (hyperparameters) như số lượng mô hình yếu, độ sâu của cây quyết định và tốc độ học (learning rate) a) Các bước xây dựng mô hình GBM
GBM hoạt động theo cơ chế tuần tự Mô hình GBM được xây dựng theo các bước sau:
Bước 1: Thiết lập mô hình cơ bản (Base Model)
Trong bước này, một mô hình cơ bản được xây dựng trên bộ dữ liệu huấn luyện để dự đoán biến mục tiêu Mô hình cơ bản có thể là một cây quyết định hoặc một mô hình LR đơn giản
⇨ Giá trị dự đoán lần 1: 𝑦̂ 𝑖 1 = 𝑓1(𝑥 𝑖 )
Bước 2: Tính toán sai số dự đoán
Thực hiện ước tính sai số dự đoán giữa đầu ra dự đoán và giá trị thực tế Sai số này được dùng làm cơ sở cho việc thiết lập mô hình tiếp theo
⇨ Giá trị dự đoán lần 2: 𝑦̂ 𝑖 2 = 𝑦̂ 𝑖 1 + 𝑓 2 (𝑥 𝑖 )
Bước 3: Thiết lập mô hình tiếp theo
Một mô hình mới được thiết lập để cải thiện sai số từ bước trước Mô hình mới này được thiết lập dựa trên Gradient descent hoặc các thuật toán tối ưu hóa khác
⇨ Giá trị dự đoán lần m: 𝑦̂ 𝑖 𝑚 = 𝑦̂ 𝑖 𝑚−1 + 𝑓 𝑚 (𝑥 𝑖 )
Bước 4: Cập nhật mô hình tổng hợp
Sau khi có mô hình mới, cập nhật mô hình tổng hợp bằng cách thêm mô hình mới vào mô hình cơ bản Mục tiêu là tạo nên mô hình tổng hợp mạnh mẽ hơn nhờ kết hợp nhiều mô hình dự đoán
Bước 5: Lặp lại quá trình
Phương pháp thực hiện
Hình 3.6 Xây dựng, huấn luyện mô hình XGBoost
Bộ dữ liệu được trình bày tại chương 2
3.2.2 Phương pháp lựa chọn giá trị đặc trưng
Lựa chọn đặc trưng là một giai đoạn quan trọng nhằm tìm ra một tập hợp con các đặc trưng quan trọng nhất, dựa trên những tiêu chí như độ quan trọng, tương quan và khả năng dự đoán Việc lựa chọn đặc trưng được thực hiện để tăng cường khả năng giải thích, giảm chiều bộ dữ liệu và cải thiện hiệu suất của mô hình dự đoán Ý nghĩa
Khi bộ dữ liệu có số lượng đặc trưng lớn, lựa chọn đặc trưng giúp giảm chiều dữ liệu, giảm độ phức tạp tính toán và tăng tốc độ huấn luyện
Lựa chọn đặc trưng giúp loại bỏ những đặc trưng không mang lại thông tin quan trọng cho mô hình, giảm nhiễu
Việc lựa chọn đặc trưng có thể giảm nguy cơ overfitting, chỉ giữ lại những đặc trưng quan trọng nhất và loại bỏ đặc trưng không quan trọng
Công thức tính hệ số tương quan Pearson là:
𝑟: hệ số tương quan Pearson
𝑥 𝑖 , 𝑦 𝑖 : giá trị thực của biến 𝑥, 𝑦 x̅, y̅: giá trị trung bình của biến 𝑥, 𝑦 Σ: ký hiệu tổng của tất cả các quan sát
Ma trận tương quan đo lường mức độ tương quan giữa các cặp đặc trưng Giá trị tương quan nằm trong khoảng từ -1 đến 1 Giá trị tiến gần -1 cho thấy mối tương quan âm mạnh, giá trị xấp xỉ 1 biểu thị mối tương quan dương mạnh và giá trị xấp xỉ 0 cho
45 thấy không có mối tương quan Phương pháp này giúp việc lựa chọn dễ dàng các mối tương quan mạnh với nhau và loại bỏ những đặc trưng không cần thiết Việc loại bỏ giúp giảm thiểu sự trùng lặp thông tin và tiềm năng gây nhiễu cho mô hình dự đoán a) Các bước thực hiện
Bước 1: Tính toán ma trận tương quan
Tính toán ma trận tương quan của tất cả các đặc trưng
Bước 2: Loại bỏ những đặc trưng tương quan cao Đối với các cặp đặc trưng có mức tương quan cao cần chọn một trong hai đặc trưng để giữ lại và loại bỏ đặc trưng còn lại
Bước 3: Xây dựng mô hình
Sử dụng bộ dữ liệu đã được lựa chọn đặc trưng để xây dựng mô hình dự đoán b) Ưu điểm Đây là phương pháp dễ thực hiện để lựa chọn đặc trưng
Giúp loại bỏ các đặc trưng có mức tương quan cao với nhau, giúp giảm chiều bộ dữ liệu và tránh việc mô hình bị nhiễu c) Nhược điểm
Ma trận tương quan chỉ xem xét tương quan tuyến tính giữa các đặc trưng Tuy nhiên vẫn tồn tại tương quan phi tuyến giữa chúng
Phương pháp này không xem xét tương quan giữa các đặc trưng và biến mục tiêu Do đó các đặc trưng quan trọng cho mô hình dự đoán có thể bị loại bỏ
Phương pháp SelectKBest dựa trên việc đánh giá các đặc trưng bằng một hàm điểm được chọn trước Các đặc trưng được xếp hạng dựa trên hàm điểm và sau đó, K đặc trưng có điểm số cao nhất được lựa chọn Các hàm điểm thường được sử dụng bao
46 gồm ANOVA F-value, thông tin chung (mutual information), Chi-square và các phương pháp khác, Đề tài sử dụng phương pháp Chi-square để lựa chọn các đặc trưng trong quá trình xây dựng mô hình dự đoán với mục tiêu lựa chọn đặc trưng có mức độ tương quan cao nhất với biến mục tiêu là BXMT (emrget variable)
Công thức tính toán giá trị Chi-square cho một đặc trưng:
∑(𝑂 − 𝐸) 2 : tổng bình phương của sự khác biệt giữa giá trị quan sát 𝑂 và giá trị dự đoán 𝐸
𝐸: giá trị dự đoán được tính toán dựa trên nguyên lý độc lập giữa đặc trưng và biến mục tiêu Giá trị 𝐸 được tính bằng cách nhân tổng số lượng quan sát trong phân nhóm của đặc trưng với tổng tỷ lệ phần trăm biến mục tiêu trong phân nhóm tương ứng a) Các bước thực hiện phương pháp Chi-square [35]
Xác định số lượng đặc trưng K muốn giữ lại
Bước 2: Đánh giá đặc trưng
Mỗi đặc trưng được đánh giá bằng phép đo Chi-square, đo lường mức độ tương quan giữa đặc trưng và biến mục tiêu Phép đo Chi-square tính toán sự khác biệt giữa phân phối quan sát thực tế và phân phối dự đoán và chúng em muốn tìm các đặc trưng có sự khác biệt đáng kể
Bước 3: Chọn k đặc trưng tốt nhất
Các đặc trưng được sắp xếp theo giá trị đo Chi-square giảm dần và giá trị cao nhất được giữ lại
Chi-square có cách thức hoạt động đơn giản và dễ hiểu
Chi-square đánh giá mức độ tương quan giữa đặc trưng và biến mục tiêu, từ đó chọn ra đặc trưng quan trọng có ảnh hưởng lớn đến biến mục tiêu
Chi-square thường được sử dụng trong bài toán phân loại khi biến mục tiêu là một biến hạng mục c) Nhược điểm
Chi-square chỉ xem xét tương quan giữa từng đặc trưng và biến mục tiêu, không xem xét sự tương quan giữa các đặc trưng với nhau Do đó, có thể loại bỏ các đặc trưng quan trọng nhưng có tương quan với các đặc trưng khác
Chi-square hoạt động tốt khi biến mục tiêu và đặc trưng đều có số lượng hạng mục lớn Nếu số lượng hạng mục quá nhỏ, kết quả có thể không chính xác
Extra Tree Classifier là một biến thể của thuật toán Random Forest Đề tài sử dụng Extra Tree Classifier để đánh giá mức độ quan trọng của các đặc trưng trong quá trình xây dựng mô hình dự đoán Extra Tree Classifier sử dụng một tập hợp các cây quyết định ngẫu nhiên và kỹ thuật chọn ngẫu nhiên các điểm ngưỡng để xây dựng các cây con Nhờ kết hợp kết quả từ các cây con, Extra Tree Classifier ước tính mức độ quan trọng của các đặc trưng bằng cách xem xét tần suất mỗi đặc trưng được sử dụng để chia nhánh cây
Hình 3.7 Mô hình Extra Tree Classifier [36] a) Các bước thực hiện Extra Tree Classifier [37]
Bước 1: Thiết lập cây quyết định
Xây dựng một tập hợp các cây quyết định ngẫu nhiên (random decision trees) từ bộ dữ liệu huấn luyện
⮚ Chọn số lượng cây quyết định ngẫu nhiên để xây dựng (n_estimators)
Kết quả đạt được
Việc loại bỏ các điểm dữ liệu bị lỗi trong 32686 mẫu dữ liệu là cần thiết để cải thiện tính chính xác của mô hình Đối với việc chuẩn hóa các giá trị đặc trưng Temperature, Pressure, Humidity, Wind Direction và Speed có đơn vị khác nhau, việc áp dụng phương pháp Min-max transformation là một lựa chọn thông thường Phương pháp này giúp đưa các giá trị đặc trưng về cùng khoảng giá trị [0; 1] bằng phép biến đổi tuyến tính Quá trình chuẩn hóa
52 này giúp đồng nhất các đặc trưng và giảm thiểu ảnh hưởng của đơn vị đo lường khác nhau lên mô hình
Bằng cách áp dụng Min-max transformation, các giá trị đặc trưng được đưa về khoảng giá trị tiêu chuẩn, giúp mô hình XGBoost xử lý dữ liệu hiệu quả hơn, giảm thiểu sai số và ảnh hưởng của các đơn vị đo lường khác nhau
Hình 3.8 Ma trận tương quan Pearson giữa các biến (XGBoost)
53 r = 0.73 biểu thị mối tương quan thuận giữa BXMT và nhiệt độ Vì vậy nhiệt độ môi trường là giá trị đặc trưng
Phép đo Chi-square được sử dụng để đánh giá mức độ tương quan giữa các đặc trưng và biến mục tiêu trong bài toán phân loại và chọn lựa các đặc trưng dựa trên ý tưởng rằng đặc trưng cần có mức độ tương quan cao với biến mục tiêu để được giữ lại
Hình 3.9 Biểu đồ áp dụng phương pháp Chi-square đánh giá mức độ tương quan giữa các đặc trưng và biến mục tiêu
Thông số thời gian mặt trời lặn (set-hour), hướng gió (Wind Direction), nhiệt độ (Temperature), độ ẩm (Huminity), áp suất (Pressure), tốc độ gió (Speed) được xác định là các đặc trưng quan trọng trong mô hình Thông tin về các đặc trưng này giúp dự đoán
54 mức độ tác động của các thông số môi trường lên hệ thống và đưa ra quyết định giá trị dự đoán
Mô hình Extra Tree Classifier xử lý bộ dữ liệu còn lại và lọc ra các giá trị quan trọng Extra Tree Classifier sử dụng cách tiếp cận ngẫu nhiên để xây dựng cây quyết định, giúp lọc ra các giá trị chuẩn và đồng thời giảm thiểu overfitting và over range
Hình 3.10 so sánh mức độ quan trọng của từng thông số, từ đó đánh giá tầm quan trọng của các thông số trong mô hình dự đoán
Hình 3.10 Biểu đồ áp dụng mô hình Extra Tree Classifier so sánh mức độ ảnh hưởng của các đặc trưng
55 Đặc trưng hướng gió (WindDirection) được đánh giá có giá trị quan trọng cao nhất là 0.16 Kế tiếp là độ ẩm (Humidity), nhiệt độ (Temperature) và áp suất (Pressure) cũng được đánh giá là các giá trị đặc trưng quan trọng
Tuy nhiên, giá trị cụ thể của mức độ quan trọng phụ thuộc vào bộ dữ liệu cụ thể và phương pháp tính toán được sử dụng Do đó, không có giá trị cụ thể nào để nói rằng mức độ quan trọng sẽ nằm trong khoảng nào Khoảng giá trị này có thể thay đổi phụ thuộc vào từng trường hợp và từng bài toán khi áp dụng mô hình Extra Tree Classifier
Tiếp theo, tiến hành tạo ra các đặc trưng mới hoặc biến đổi các đặc trưng hiện có trong bộ dữ liệu để cải thiện hiệu suất dự đoán dựa trên thuật toán Feature Engineering Cũng như đồng bộ các giá trị đặc trưng tránh chênh lệch đơn vị
Qua quá trình nghiên cứu, đề tài lựa chọn các phương pháp cải thiện dữ liệu khác nhau đối với mỗi thông số khác nhau Việc lựa chọn các phương pháp thích hợp sẽ giúp tăng khả năng dự đoán của mô hình
Bảng 3.1 Thông số và phương pháp lựa chọn giá trị đặc trưng
Thông số Phương pháp chuẩn hóa giá trị đặc trưng
Nhiệt độ môi trường Min-Max Transformation Áp suất khí quyển Min-Max Transformation Độ ẩm không khí Min-Max Transformation
Tốc độ gió Min-Max Transformation
Hướng gió Min-Max Transformation
Hình 3.11 Lựa chọn giá trị đặc trưng Min-max Transformation cho nhiệt độ
Hình 3.12 Lựa chọn giá trị đặc trưng Min-max Transformation cho áp suất
Hình 3.13 Lựa chọn giá trị đặc trưng Min-max Transformation cho độ ẩm
Hình 3.14 Lựa chọn giá trị đặc trưng Min-max Transformation cho tốc độ gió
Hình 3.15 Lựa chọn giá trị đặc trưng Min-Max Transformation cho hướng gió
Sau khi hoàn thành quá trình chuẩn hóa và đồng bộ hóa giá trị đặc trưng, tiến hành chia tỷ lệ 80:20 cho dữ liệu huấn luyện và kiểm tra để xây dựng mô hình XGBoost Việc chia dữ liệu thành hai phần nhằm đánh giá độ chính xác của dự đoán
Tập huấn luyện (training set) được sử dụng để huấn luyện mô hình XGBoost
Mô hình sẽ học từ các mẫu trong tập huấn luyện để tìm ra quy tắc, mối quan hệ giữa các đặc trưng Việc phân chia tập huấn luyện đủ lớn là rất cần thiết cho mô hình
Tập kiểm tra (test set) được sử dụng để đánh giá hiệu suất của mô hình XGBoost đã được huấn luyện Tập kiểm tra đóng vai trò như một bộ dữ liệu mới, giúp đánh giá khả năng dự đoán của mô hình
Quá trình chia dữ liệu được thực hiện một cách ngẫu nhiên, tránh tình trạng overfitting khi mô hình chỉ ghi nhớ dữ liệu đã huấn luyện
Hình 3.16 Biểu đồ đánh giá giá trị thực tế và dự đoán của BXMT (XGBoost)
Bảng 3.2 Kết quả mô hình XGBoost
Chỉ số đánh giá Kết quả
Hình 3.17 So sánh giá trị 25 mẫu dữ liệu bất kỳ (XGBoost)
Một số giá trị dự đoán không khớp với giá trị thực tế (Hình 3.16) Tuy nhiên dựa vào kết quả R 2 = 0.93, mô hình XGBoost đã dự đoán chính xác và đạt độ tin cậy cao hơn mô hình LR Trong 25 mẫu bất kỳ không có giá trị được dự đoán kết quả âm, trái nghịch hoàn toàn so với của giá trị thực tế là dương như dự đoán của mô hình LR ở phương pháp 1 và phương pháp 2 (Hình 3.17).