Ứng dụng mô hình đề xuất để dự báo phụ tải điện

Một phần của tài liệu Nghiên cứu mô hình online learning cho bài toán dự báo phụ tải điện (Trang 33 - 64)

3 THÍ NGHIỆM VÀ KẾT QUẢ

3.2.2 Ứng dụng mô hình đề xuất để dự báo phụ tải điện

Trong phần này, mô hình seasonal ARMA-OGD được ứng dụng để dự báo chuỗi phụ tải thực tế. Kết quả dự báo được so sánh với mô hình ARMA-OGD cho

Timestamp H0 H1 . . . H23 2021-07-01 32284.485 31151.828 . . . 34594.647 2021-07-02 33137.263 32101.460 . . . 36235.707

. . . . . . . . . . . . . . .

2021-07-29 26942.049 25997.841 . . . 26623.438

Bảng 3.1: Dữ liệu phụ tải điện (đơn vị MW) theo giờ được cho dưới dạng bảng.

thấy thuật toán đề xuất phù hợp hơn đối với những chuỗi thời gian có tính mùa. Tiền xử lý dữ liệu

Trước tiên, dữ liệu phụ tải điện được chuyển từ dạng bảng sang chuỗi thời gian. Hình 3.4 mô tả chuỗi phụ tải điện quốc gia từ 0h 1/7/2021 đến 23h 29/7/2021, thể hiện rõ yếu tố chu kì theo ngày (s= 24).

Hình 3.4: Chuỗi phụ tải điện quốc gia theo giờ từ 0h 1/7/2021 đến 23h 29/7/2021.

Chuỗi thời gian được biến đổi log và chuẩn hóa trước khi đưa vào mô hình. Tuy nhiên, khi dự báo ta chỉ có dữ liệu của quá khứ nên không thể sử dụng trung bình mẫu và độ lệch chuẩn mẫu của toàn bộ dữ liệu để chuẩn hóa. Do vậy, việc chuẩn hóa dữ liệu cũng cần phải được thực hiện một cách "online". Luận văn này sử dụng phương pháp Welford (9) để chuẩn hóa. Theo đó, ban đầu khởi tạo trung bình mẫu x0 = 0 và phương sai mẫu σ20 = 0. Tại vòng lặp t, ta cập nhật

trung bình mẫu và phương sai mẫu theo các công thức sau:

xt=xt−1+ xt−xt−1

t ,

σt2=σt2−1+ (xt−xt−1)(xt−xt)−σt2−1

t .

Kết quả dự báo online

Mô hình seasonal ARMA-OGD với bậc được chọn là p+m = 2, P +n = 2 được so sánh với mô hình ARMA-OGD với bậc p+m = 2. Tiêu chí mean absolute percentage error (MAPE) và root mean square error (RMSE) được chọn để so sánh kết quả dự báo: M AP E = 100 T T X t=1 xtx−xˆt t , RM SE = s PT t=1(ˆxt−xt)2 T .

Mỗi thuật toán được chạy 30 lần để so sánh kết quả. Bảng 3.2, hình 3.5 và hình 3.6 tổng hợp kết quả của 30 chạy. Có thể thấy thuật toán đề xuất seasonal ARMA-OGD cho kết quả dự báo tốt hơn ARMA-OGD về cả MAPE lẫn RMSE đối với bộ dữ liệu này. Thời gian chạy của hai thuật toán đều rất nhanh (thuật toán đề xuất seasonal ARMA-OGD trung bình chạy mất 0.036 giây trong khi thuật toán ARMA-OGD trung bình chạy mất 0.032 giây).

Average MAPE(%) Average RMSE Average running time (seconds)

ARMA-OGD 3.64 1824 0.032

seasonal ARMA-OGD 2.63 1691 0.036

Bảng 3.2: So sánh kết quả dự báo của hai thuật toán sau 30 lần chạy (lấy trung bình).

Hình 3.7 và 3.8 minh họa kết quả dự báo trong 7 ngày gần nhất (Từ 0h 23/7/2021 đến 23h 29/7/2021) của mô hình ARMA-OGD và seasonal ARMA-OGD. Có thể nhận thấy dự báo của mô hình ARMA-OGD lệ thuộc khá nhiều vào giá trị mới nhất nên chuỗi dự báo có dáng điệu giống như chuỗi thực tế dịch sang phải 1 giờ. Trong khi đó mô hình seasonal ARMA-OGD tận dụng được yếu tố chu kì, xét tới cả các giá trị t−24, t−48 nên khắc phục được điểm yếu trên, từ đó dẫn tới kết quả dự báo tốt hơn.

Hình 3.5: Biểu đồ hộp so sánh MAPE của hai thuật toán sau 30 lần chạy

Hình 3.7: Kết quả dự báo 7 ngày gần nhất của mô hình ARMA-OGD

Luận văn này đã đạt được một số kết quả như sau:

• Giới thiệu và trình bày một số khái niệm cơ bản trong online learning và khung tối ưu lồi online.

• Trình bày mô hình online ARMA và thuật toán ARMA-OGD - một thuật toán áp dụng mô hình ARMA để dự báo online chuỗi thời gian.

• Đề xuất mô hình online seasonal ARMA và thuật toán seasonal ARMA- OGD cho dự báo online chuỗi thời gian có yếu tố mùa. Luận văn cũng đưa ra chứng minh regret của thuật toán đạt O(GD√

T), cho thấy khi số vòng lặp lớn thì kết của dự báo của thuật toán online tệ hơn không đáng kể so với mô hình seasonal ARMA cố định tốt nhất.

• Ứng dụng mô hình đề xuất để dự báo với dữ liệu phụ tải điện quốc gia. Kết quả dự báo cho thấy mô hình đề xuất phù hợp với những chuỗi thời gian có yếu tố mùa.

Mô hình đề xuất trong luận văn có tiềm năng ứng dụng không chỉ trong dự báo phụ tải điện mà còn có thể dự báo online những chuỗi thời gian có tính mùa nói chung. Với ưu điểm tốc độ chạy nhanh và cài đặt thuật toán đơn giản, mô hình online seasonal ARMA có thể kết hợp với các phương pháp online learning khác như online recurrent neural network hay long short-term memory để cải thiện kết quả dự báo (5), (2). Mô hình đề xuất cũng có thể dễ dàng cài đặt và tích hợp vào hệ thống dự báo phụ tải điện, góp phần tăng hiệu quả và hỗ trợ cho công tác dự báo phụ tải theo giờ hoặc theo ngày. Trong tương lai, khi các mô hình online learning được nghiên cứu phát triển đạt độ chính xác cao hơn, các phương pháp online learning hoàn toàn có thể thay thế các phương pháp truyền thống trong dự báo phụ tải nói riêng và dự báo chuỗi thời gian nói chung.

Một vài hướng phát triển tiếp theo cho luận văn:

• Mở rộng từ mô hình online seasonal ARMA thành mô hình online seasonal ARIMA để xử lý những chuỗi thời gian không dừng tốt hơn.

• Áp dụng các thuật toán online learning khác (chẳng hạn thuật toán online Newton step (7)) để đạt regret tốt hơn.

• Phát triển mô hình để có thể xử lý chuỗi thời gian đa mùa (ngoài chu kì theo ngày còn có chu kì tuần, tháng, năm, v.v.).

[1] Oren Anava, Elad Hazan, Shie Mannor, and Ohad Shamir. Online learning for time series prediction. InConference on learning theory, pages 172–184. PMLR, 2013.

[2] Nguyen Nhat Anh, Nguyen Hoang Quoc Anh, Nguyen Xuan Tung, and Nguyen Thi Ngoc Anh. Feature selection using genetic algorithm and bayesian hyper-parameter optimization for lstm in short-term load forecast- ing. In Intelligent Systems and Networks, pages 69–79, Singapore, 2021. Springer Singapore.

[3] George EP Box and Gwilym M Jenkins. Time series analysis: forecasting and control. Holden-Day, 1970.

[4] Nicolo Cesa-Bianchi and Gábor Lugosi. Prediction, learning, and games. Cambridge university press, 2006.

[5] Nguyen Quang Dat, Nguyen Thi Ngoc Anh, Nguyen Nhat Anh, and Vijen- der Kumar Solanki. Hybrid online model based multi seasonal decompose for short-term electricity load forecasting using arima and online rnn. Journal of Intelligent & Fuzzy Systems, 41:5639–5652, 2021.

[6] Elad Hazan. Introduction to online convex optimization. Foundations and Trends® in Optimization, 2(3-4):157–325, 2016.

[7] Elad Hazan, Amit Agarwal, and Satyen Kale. Logarithmic regret algorithms for online convex optimization. Machine Learning, 69(2-3):169–192, 2007. [8] Chenghao Liu, Steven CH Hoi, Peilin Zhao, and Jianling Sun. Online arima

algorithms for time series prediction. In Thirtieth AAAI conference on ar- tificial intelligence, 2016.

[9] BP Welford. Note on a method for calculating corrected sums of squares and products. Technometrics, 4(3):419–420, 1962.

[10] Haimin Yang, Zhisong Pan, Qing Tao, and Junyang Qiu. Online learning for vector autoregressive moving-average time series prediction. Neurocom- puting, 315:9–17, 2018.

[11] Martin Zinkevich. Online convex programming and generalized infinitesi- mal gradient ascent. In Proceedings of the 20th international conference on machine learning (icml-03), pages 928–936, 2003.

1. Nguyen Nhat Anh, Nguyen Hoang Quoc Anh, Nguyen Xuan Tung, and Nguyen Thi Ngoc Anh. "Feature selection using genetic algorithm and Bayesian hyper-parameter optimization for LSTM in short-term load forecasting", In- telligent Systems and Networks (ICISN 2021) (SCOPUS)

2. Nguyen Quang Dat, Nguyen Thi Ngoc Anh, Nguyen Nhat Anh, and Vijen- der Kumar Solanki. "Hybrid online model based multi seasonal decompose for short-term electricity load forecasting using ARIMA and online RNN", Journal of Intelligent & Fuzzy Systems, DOI: 10.3233/JIFS-189884 (ISI)

LSTM in short-term load forecasting

Nguyen Nhat Anh1[0000−0002−4970−1890], Nguyen Hoang Quoc Anh1[0000−0002−5697−3173], Nguyen Xuan Tung2[0000−0002−4790−2242], and

Nguyen Thi Ngoc Anh1[0000−0002−6555−9740]

1 SAMI, Hanoi university of science and technology, Hanoi, Vietnam

anh.nguyenthingoc@hust.edu.vn

2 School of electrical engineering, Hanoi university of science and technology

Abstract. Electricity load forecasting at nationwide level is important in efficient energy management. Machine learning methods using big data multi-time series are widely applied to solve this problem. Data used in forecasting are collected from advanced SCADA system, smart sensors and other related sources. Therefore, feature selection should be care- fully optimized for machine learning models. In this study, we propose a forecasting model using long short-term memory (LSTM) network with input features selected by genetic algorithm (GA). Then, we employ Bayesian optimization (BO) to fine-tune the hyper-parameters of LSTM network. The proposed model is utilized to forecast Vietnam electric- ity load for two days ahead. Test results have confirmed the model has better accuracy in comparison with currently used models.

Keywords: Genetic algorithm·LSTM·time series·forecasting·Bayes optimization.

1 Introduction

Short term electricity load forecasting (STLF) is a vital task for national dis- patching operation [5]. Load forecasting under uncertain conditions of weather, economy and consumer behavior is a challenging problem for researchers and industrial staff. To address the problem, three main approaches have been pro- posed and widely applied: (i) statistical approaches such as auto-regressive mov- ing average (ARMA), auto-regressive integrated moving average (ARIMA); (ii) machine learning and deep learning approaches such as fuzzy learning, artifi- cial neural network (ANN), recurrent neural network (RNN), long short-term memory (LSTM) [14]; (iii) hybrid approach that combine statistical and ma- chine learning approaches [2]. Among the aforementioned approaches, LSTM is a popular and well-known method. It is suitable for forecasting non-linear time series.

Recently, LSTM is applied extensively in time series forecasting. LSTM is an upgraded variant of the vanilla recurrent neural network. It is capable of

LSTM and time correlation modification to forecast photovoltaic power. The predictions made by the LSTM network are adjusted by the time correlation method. Then an ensemble is constructed using individual models to obtain the final result. The ensemble model performs better than both individual models because it combines their strengths.

Electricity load forecasting has always been a challenging problem due to its dependency on various exogenous factors like temperature, humidity, holiday effects, etc. To address the problem, many researchers had applied metaheuris- tic approaches to determine important features, for instance, grasshopper opti- mization [12], ant colony optimization and genetic algorithm (GA) [13]. GA is a popular evolutionary algorithm and has been employed widely in many fields. In [7], a novel model is proposed to predict stock market measures.

The parameters of number of neurons and learning rate showed great in- fluence on the prediction model [10] proposed by Anurag Kulshrestha et al. In addition, Anurag Kulshrestha et al also pointed out that the dropout index and

L2 regularization also greatly affect the results because they are the parameters to avoid overfitting. Because parameters have a great influence on the neural network models, especially the LSTM model, to choose right the optimal pa- rameter, Bayesian Optimizing (BO) is an algorithm that can help us solve. BO is effectively algorithm that can process a large amount of input in an acceptable time [1].

This paper aims to achieve better performance of electricity load forecasting by combining the advantage of generic algorithm and Bayesian hyper-parameters optimization for LSTM. Concretely, generic algorithm is used for feature selec- tion. Then, the long short term memory (LSTM) is used for short-term electric- ity load forecasting and Bayesian optimization is used to fine-tune the hyper- parameters of the LSTM.

The remainder of the paper is structured as follows: Section 2 explains the methodology of feature selection using genetic algorithm, Bayesian hyper- parameter optimization, LSTM and the proposed model. The experiments and results are presented in Section 3. Lastly, Section 4 provides the conclusion and discussions.

2 Methodology

Genetic algorithm

Genetic algorithm (GA) is a branch of evolutionary algorithm based on Charles Darwin’s theory of natural selection process. It was first proposed and developed by J. Holland in the 1970s. GA is a metaheuristic that use stochastic search technique to solve optimization problems. In GA context, an iteration is called a generation. In each generation, a set of candidates called a population is chosen based on the fittest individuals from the previous generation. To deter- mine how “good” a candidate is, a fitness function is constructed. This function should reflect the objective of the optimization problem to some degree. The evo-

process in nature such as crossover and mutation. To apply these operators, each candidate is usually represented as a binary string, called a chromosome. First, in the selection phase, better individuals have higher chance of getting selected to produce offspring. The selected chromosomes are called parents. In crossover, two parents are chosen randomly to pair up and then they exchange segments of their chromosomes to form two new chromosomes. Mutation first selects a candi- date, then its bit string representation is altered at random loci to create a new chromosome. The genetic operators encourage exploring the search space while the selection favors fitter individuals. The whole process is applied repeatedly until the stopping criteria is reached. The general flowchart of GA is described in figure 1.

Fig. 1.General flowchart of genetic algorithm.

Long short term memory

Recurrent neural network (RNN) is a special type of neural network, de- signed specifically to solve tasks that deals with sequence data such as time series forecasting, language modelling, speech recognition, video-based object tracking, etc. Despite its capability to handle long-term dependencies on paper, in practice RNN tends to suffer from gradient explosion and gradient shrinkage problems. Therefore, vanilla RNN’s applications are limited. In 1997, a variant of RNN called long short-term memory (LSTM) was introduced by Hochreiter and Schmidhuber to address these problems [6]. In addition to the input and the hidden state of the previous time step, each LSTM cell also has a cell state to represent the long-term memory. Furthermore, the input gate and output gate are introduced to control the information flow within a cell. In 2000, Gers et al. proposed the addition of the forget gate which allowed the LSTM to filter out unwanted past information [4].

Bayesian hyper-parameter optimization

Given npairs of input-observation (xi, yi), i= 1, . . . , n, we want to pick the next valuexn+1 that maximizeyn+1. Sincef is a black box function, we can’t employ gradient based methods to find the optimal value. This is where Bayesian optimization (BO) comes into play. First, a surrogate function is constructed to approximate f. Our goal is to make this surrogate function as close as possible

The surrogate function is constructed in a way so that it is easier to optimize this function than the originalf. Concretely, the construction makes use of the Gaussian process (GP) regression and the optimal value is chosen based on an objective function called acquisition function. The pseudo-code for BO is given in algorithm 1 [3]. We discuss Gaussian process regression and acquisition function in details in the following sections.

Algorithm 1Pseudo-code for Bayesian optimization

1: Initializing mean function and kernel function for Gaussian process f

2: Creating Gaussian processfaccording to previous mean function and kernel func- tion. Setn=n0

3: whilen≤N do

4: Calculate the new posterior probability distribution on Gaussian processf

5: Update the acquisition function according to current posterior probability dis- tribution

6: Setting the global maximum of acquisition function toxn

7: Calculateyn=f(xn) 8: if f(xn)> f(xmax)then 9: xmax=xn 10: end if 11: n := n + 1 12: end while

13: Return: the point with the largest posterior meanxmax

Gaussian process regression

Consider the observation vector (f(x1), . . . , f(xn)). In traditional statistics, we often suppose the observations come from a random variable. In GP regres- sion, its distribution is assumed to be a multivariate normal distribution with fixed expectation vector and covariance matrix. This distribution is called prior probability distribution.

Using the inputsxi, i= 1, . . . , n, we construct the prior distribution function as follows. Initially, we choose a mean functionµ0 and the corresponding mean vector is (µ0(x1), . . . , µ0(xn)). The mean function is usually a constant function

µ0(x) = µ. The covariance matrix is constructed based on a kernel function

k(xi, xj) and is in the following form

K=    k(x1, x1)· · · k(x1, xn) .. . . .. ... k(xn, x1)· · · k(xn, xn)   

The kernel is chosen so that ifxi, xjare close to each other, then they are strongly correlated. Furthermore, the covariance matrix must be positive semi-definite for

k(x, x0) =α2 0exp −21l2kx−x0k2 whereα2

0 is the maximum allowed value of the covariance matrix,l is the length scale parameter which controls how quickly a function can change. The prior distribution is written as

f(x1:n)∼ N(µ0(x1:n), K)

where x1:n denotes x1, . . . , xn and f(x1:n) = (f(x1), . . . , f(xn)), µ0(x1:n) = (µ0(x1), . . . , µ0(xn))).

Now supposexn+1is given and we need to predictf(xn+1). By Gaussian pro- cess assumption,f(xn+1) also follows a normal distribution and concatenating

f(xn+1) andf(x1:n) results in a multivariate normal distribution [16]:

(f(x1), . . . , f(xn+1))∼ N µ0(x1:n+1), K KT n+1 Kn+1Kn+1,n+1 where Kn+1= (k(xn+1, x1), . . . , k(xn+1, xn+1)) Kn+1,n+1=k(xn+1, xn+1)

The conditional distribution function off(xn+1) is computed using Bayes’ The- orem and we have the following results [11]:

Một phần của tài liệu Nghiên cứu mô hình online learning cho bài toán dự báo phụ tải điện (Trang 33 - 64)

Tải bản đầy đủ (PDF)

(64 trang)