Ta biết rằng nhiều chuỗi thời gian kinh tế khơng có tính dừng, tức là chúng kết hợp. Do vậy, nếu ta phải tính sai phân một chuỗi thời gian d lần để làm cho nó có tính dừng và sau đó áp dụng mơ hình ARMA (p, q), ta nói rằng chuỗi thời gian ban đầu là ARIMA (p, d, q), tức là nó là một chuỗi thời gian trung bình trượt kết hợp tự hồi quy. Do chuỗi SAB không dừng nên phải lấy sai phân để thành dừng.
Lấy dữ liệu: spsab= sab 6/12/2016 – sab 5/12 /2016 spsab= sab 7/12/2016 – sab 6/12 /2016
...
Bước 3: Xem chuỗi DSAB có dừng hay khơng Cách 1: Dựa trên biểu đồ graph
-30 -20 -10 0 10 20
IV I II III IV I II III IV I II III IV I II III IV I II
2017 2018 2019 2020 2021
SPSAB
Nhìn vào biểu đồ ta thấy:
+ Từ năm cuối năm 2016 đến năm 2021 đường trung bình dao động quanh trục xấp xỉ bằng 0. Chuỗi dữ liệu này có các đoạn trung bình bằng nhau dẫn đến việc hình thành một đường trung bình tương đối thẳng (Chuỗi khơng bị trend) dẫn đến trung bình khơng thay đổi.
+ Mức độ biến động của chuỗi dữ liệu quanh đường trung bình tương đối ổn định với biên độ dao động từ -10 đến 10. Hầu hết các quan sát đều biến động trong biên độ. Tuy nhiên, có một vài quan sát có biến động vượt ra ngồi biên độ nhưng chỉ chiếm số lượng rất ít trên tổng số hơn 1000 quan sát, sĩ số quan sát xảy ra đột biến như vậy rất hiếm nên khơng đáng kể. Vì vậy dẫn đến phương sai khơng thay đổi.
+ Do trung bình khơng thay đổi và phương sai khơng thay đổi dẫn đến hiệp phương sai không thay đổi.
Kết luận: Chuỗi dữ liệu DSAB dừng.
Kiểm định nghiệm đơn vị là một kiểm định được sử dụng khá phổ biến để kiểm định một chuỗi thời gian dừng hay khơng dừng. Giả sử ta có phương trình tự hồi quy như sau:
Auto regressive function:
AR(1): Yt = ρYt-1 + ut với ut ~iid N(0; σ²) ut là nhiễu trắng Nếu ρ < 1: chuỗi dừng
Nếu ρ = 1: chuỗi có nghiệm đơn vị (chuỗi khơng dừng) Nếu ρ > 1: chuỗi bị bùng nổ (explosive series)
AR (1): Yt = ρYt-1 + ut với ut ~iid N(0; σ²) ut là nhiễu trắng Giả thiết:
H0 : 1 Yt (là chuỗi không dừng) H1 : 1 Yt (là chuỗi dừng)
Phương trình: Yt = Yt-1 + ut
Tương đương với: Yt - Yt-1 =Yt-1 + ut -Yt-1 = ( - 1) Yt-1 + ut
Yt = Yt-1 + ut
Như vậy, các giả thiết ở trên có thể được viết lại như sau:
H0 : = 0 Yt là chuỗi có nghiệm đơn vị, chuỗi không dừng
H0 : < 0 Yt là chuỗi dừng
Dickey and Fuller cho rằng giá trị t ước lượng của hệ số Yt-1 sẽ theo phân phối xác suất (= giá trị ước lượng / sai số của hệ số). Kiểm định thống kê còn gọi kiểm định Dickey – Fuler (DF)
Khi là một bước ngẫu nhiên không hằng số (Without Constant and trend)
Yt = Yt-1 + ut
Khi là một bước ngẫu nhiên có hằng số (Without Constant)
Khi Yt là một bước ngẫu nhiên có hằng số xoay quanh một đường xu thế ngẫu nhiên
Yt = t + 2 trend + Yt-1 + ut
Để kiểm định H0 , so sánh giá trị thống kê tính tốn với giá trị thống kê tra bảng DF Nếu số hạng sai số ut là tự tương quan, ta sẽ biến đổi phương trình trên thành: m
Yt = t + 2 trend + Yt-1 +αi Yt-i + t (*) i=1
Giả thuyết không vẫn là H0 : = 0 hoặc H0 : = 1có nghĩa là Y có nghiệm đơn vị, (Y là không dừng). Khi kiểm định DF được áp dụng cho các mơ hình như (*) nó được gọi là kiểm định Dickey - Fuller mở rộng (Augmented Dickey-Fuller (ADF) test). Trị thống kê của kiểm định ADF có cùng một phân bổ tiệm cận giống như của trị thống kê DF, do vậy có thể sử dụng cùng các giá trị tới hạn giống nhau (Cao Hào Thi,2011)
Khi đó :
Nếu |a| tính tốn ||giá trị ADF (ADF test statistic) suy ra bác bỏ giả thiết H0 (tồn tại nghiệm đơn vị) => chuỗi dữ liệu khơng dừng
Nếu |a| tính tốn < || giá trị ADF (ADF test statistic) suy ra khơng có cơ sở bác bỏ giả thiết H0 , hay không tồn tại nghiệm đơn vị => chuỗi dữ liệu là chuỗi dừng
Null Hypothesis: SPSAB has a unit root Exogenous: Constant
Lag Length: 0 (Automatic - based on SIC, maxlag=21)
t-Statistic Prob.*
Augmented Dickey-Fuller test statistic -29.69037 0.0000
Test critical values: 1% level -3.435999
5% level -2.863922
10% level -2.568089
*MacKinnon (1996) one-sided p-values.
H0: SPSABt có 1 nghiệm đơn vị (SPSABt khơng dừng) H1: SPSABt khơng có nghiệm đơn vị (SPSABt dừng)
p-value = 0 < α = 5% =0.05: Bác bỏ giả thuyết H0
Vậy SPSABt khơng có nghiệm đơn vị (SPSABt dừng) với mức ý nghĩa α = 5%
Bước 4: Thực hiện bậc mơ hình ARIMA(p,d,q) trên chuỗi dừng1. Mơ hình Arima là gì?1. Mơ hình Arima là gì? 1. Mơ hình Arima là gì?
Mơ hình Arima là một loại mơ hình được sử dụng phổ biến trong kinh tế lượng. Có thể hiểu, Arima là mơ hình được sử dụng để dự đốn và khai phá các dữ liệu trong ngành tài chính và chứng khốn. Đây là một phương pháp nghiên cứu độc lập thông qua việc dự đốn theo các chuỗi thời gian. Sau đó, các nhà nghiên cứu sẽ sử dụng các thuật tốn dự báo độ trễ để đưa ra mơ hình phù hợp.
Ví dụ về mơ hình Arima có rất nhiều, chúng được dùng thường xuyên trong kinh tế lượng để dự báo sự biến động của tài chính và chứng khốn. Chẳng hạn, người ta sẽ dùng Arima để dự liệu về một mã cổ phiếu ngắn hạn.
2. Giới thiệu mơ hình Arima
Mơ hình Arima được nghiên cứu và phát hiện bởi hai nhà nghiên cứu là George Box và Gwilym Jenkins. Vì thế, loại mơ hình này cịn được biết đến với tên gọi là phương pháp Box – Jenkins.
Phương pháp này gồm 4 bước: Xác nhận mơ hình thử nghiệm Ước lượng tham số
Kiểm định bằng chẩn đoán Dự báo
Mơ hình Arima được chia thành 2 loại, đó là mơ hình ARMA (p,q) và mơ hình Arima (p,d,q). Trong đó, mơ hình ARMA (p,q) là mơ hình được tạo thành bởi 2 hàm
hỗn hợp AR và MA. Hàm số tuyến tính của chúng sẽ bao gồm những quan sát dừng quá khứ cũng như những sai số được dự báo ở quá khứ và hiện tại.
Vậy cịn mơ hình Arima (p,d,q) là gì? Mơ hình ARIMA (p,d,q) chỉ mơ tả chuỗi dừng hoặc những chuỗi đã sai phân hóa. Do vậy, mơ hình ARIMA(p,d,q) sẽ thể hiện những chuỗi dữ liệu khơng dừng có sai phân là d
Tự tương quan là hiện tượng mà sai số tại thời điểm t có mối quan hệ với sai số tại thời điểm t-1 hoặc tại bất kỳ thời điểm nào khác trong quá khứ. Sai số dược ký hiệu là α.
Đối với dữ liệu theo thời gian, hiện tượng này thường được gọi với tên trong tiếng Anh là “autocorrelation”. Tự tương quan bậc 1 (sai số kỳ t có tương quan với sai số kỳ t – 1) dưới dạng công thức như sau:
αt = p¿αt-1 + ϵt
Hàm autocorrelation (ACF) là một trong những cơng cụ được sử dụng để tìm các mẫu trong dữ liệu. Cụ thể, hàm tự tương quan cho bạn biết mối tương quan giữa các điểm cách nhau bởi độ trễ thời gian khác nhau.Hàm tự tương quan hoặc biểu đồ tương quan là biểu đồ có được khi vẽ các hệ số tự tương quan (ts) tại các s=0,1,2 ...
Hàm tự tương quan từng phần (PACF) đo mức độ phụ thuộc tuyến tính từng phần là biểu đồ có được khi vẽ các hệ số tự tương quan riêng phần tkk, lần lượt tại kk = 1,2,3…
Do tồn tại tương quan trực tiếp giữa Yt và Yt−s (s ≤ p) và không tồn tại tương quan trực tiếp giữa Yt và Yt−s (s > p), PACF thường có hệ số tự tương quan riêng phần khác 0 đối với các bậc trễ nhỏ hơn hoặc bằng bậc trễ của mơ hình (tkk ≠0, kk ≤ p) và có hệ số tương quan riêng phần bằng 0 đối với các bậc trễ lớn hơn bậc trễ của mơ hình (tkk =0, kk>p).
MA (q) tương ứng cột ACF.
MA(q) tương ứng cột ACF
AR(p) tương ứng cột PACF (partial): (nằm ngoài đường biên gạch chấm) p = 1, 20, 21, 35, 36
d = 1
q = 1, 11, 20, 26
Bước 5: Ghép mơ hình ARIMA(p,d,q)
ARIMA (1,1,1) ARIMA (1,1,1) (20,1,11) ARIMA (1,1,1) (20,1,20) ARIMA (1,1,1) (20,1,26) ARIMA (1,1,1) (21,1,11) ARIMA (1,1,1) (21,1,20) ARIMA (1,1,1) (21,1,26) ARIMA (1,1,1) (35,1,11) ARIMA (1,1,1) (35,1,20) ARIMA (1,1,1) (35,1,26)
Bước 6: Thực hiện mơ hình ARIMA
Mơ hình chuỗi thời gian đơn biến hay còn được gọi với cái tên mơ hình ARIMA được sử dụng khi hành vi của biến số cần giải thích được quyết định bởi những thơng tin về giá trị của chính nó trong q khứ và/hoặc giá trị hiện tại và quá khứ của hạng nhiễu.
Mơ hình tự hồi qui là giá trị ước tính tương lai của mơ hình phân tích chuỗi thời gian chỉ phụ thuộc vào giá trị trong quá khứ.: Yt-1, Yt-2..., Yt-n và sai số ut. Mơ hình tự hồi quy bậc 1có dạng:
AR(1): Yt = µ + ϕ Yt-1 + ut
Trong mơ hình tự hồi qui q trình phụ thuộc vào tổng có trọng số của các giá trị quá khứ và số hạng ngẫu nhiên:
Mơ hình trung bình trượt (MA) là loại mơ hình đơn giản nhất trong nhóm các mơ hình chuỗi thời gian mà giá trị hiện tại của biến số Yt chỉ phụ thuộc vào sai số ut. Mơ
hình trung bình trượt bậc 1 có dạng:
MA(1): Yt = µ + θ1ut-1+ ut
Trong mơ hình trung bình trượt q trình phụ thuộc vào tổng có trọng số của các ngẫu nhiên hiện hành có độ trễ:
MA(q): Yt = µ + θ1ut-1 + θ2ut-2 + θ3ut-3 + …+ θqut-q+ ut Trong đó: ut là nhiễu trắng
µ (const) là hằng số t=1,2,3...n
ARIMA (1,1,1)
Dependent Variable: SPSAB Method: Least Squares Date: 06/10/21 Time: 11:12
Sample (adjusted): 12/08/2016 5/31/2021 Included observations: 1115 after adjustments Convergence achieved after 65 iterations MA Backcast: 12/07/2016
Variable Coefficient Std. Error t-Statistic Prob.
C -0.035059 0.142524 -0.245983 0.8057
AR(1) 0.804896 0.064169 12.54344 0.0000
MA(1) -0.767291 0.071414 -10.74420 0.0000
R-squared 0.029750 Mean dependent var 0.023303
Adjusted R-squared 0.028005 S.D. dependent var 4.020613
S.E. of regression 3.963914 Akaike info criterion 5.595028
Sum squared resid 17472.43 Schwarz criterion 5.608525
Log likelihood -3116.228 Hannan-Quinn criter. 5.600131
F-statistic 17.04832 Durbin-Watson stat 1.890245
Prob(F-statistic) 0.000000
Inverted AR Roots .80 Inverted MA Roots .77
SPSABt = -0.0351 + 0.8049AR(1) − 0.7673MA(1) + ȗt SPSABt = -0.0351 + 0.8049SPSABt-1 − 0.7673ȗt-1 + ȗt
SABt − SABt-1= -0.0351 + 0.8049 (SABt-1 − SABt-2) – 0.7673ȗt-1 + ȗt SABt = -0.0351 + 1.8049SABt-1 − 0.8049SABt-2 – 0.7673ȗt-1 + ȗt
ARIMA (1,1,1) (20,1,11)
Dependent Variable: SPSAB Method: Least Squares Date: 06/10/21 Time: 12:45
Sample (adjusted): 1/05/2017 5/31/2021 Included observations: 1096 after adjustments Convergence achieved after 11 iterations MA Backcast: 12/20/2016 1/04/2017
Variable Coefficient Std. Error t-Statistic Prob.
C -0.023707 0.113483 -0.208903 0.8346
AR(1) -0.216060 0.243681 -0.886650 0.3755
AR(20) -0.064365 0.029020 -2.217957 0.0268
MA(1) 0.287898 0.239214 1.203518 0.2290
MA(11) -0.054049 0.029529 -1.830394 0.0675
R-squared 0.013438 Mean dependent var -0.025500
Adjusted R-squared 0.009821 S.D. dependent var 3.916682
S.E. of regression 3.897401 Akaike info criterion 5.563049
Sum squared resid 16572.00 Schwarz criterion 5.585856
Log likelihood -3043.551 Hannan-Quinn criter. 5.571679
F-statistic 3.715207 Durbin-Watson stat 1.980966
Prob(F-statistic) 0.005194
Inverted AR Roots .85-.14i .85+.14i .77+.40i .77-.40i .61+.62i .61-.62i .39+.78i .39-.78i .13-.86i .13+.86i -.15+.86i -.15-.86i -.41-.78i -.41+.78i -.63-.62i -.63+.62i -.79-.40i -.79+.40i -.87+.14i -.87-.14i Inverted MA Roots .74 .62+.41i .62-.41i .29+.69i
.29-.69i -.14+.75i -.14-.75i -.53+.58i -.53-.58i -.77+.21i -.77-.21i
SPSABt = -0.0237 - 0.2161AR(1) – 0.0644AR(20) + 0.2879MA(1) – 0.054MA(11) + ȗt
SPSABt = -0.0237 - 0.2161SPSABt-1 – 0.0644SPSABt-20 + 0.2879ȗt-1 – 0.054ȗt-11 + ȗt SABt − SABt-1 = - 0.0237 - 0.2161(SABt-1 − SABt-2) – 0.0644(SABt-20 − SABt-21) + 0.2879ȗt-1 – 0.054 ȗt-11 + ȗt
SABt = - 0.0237 + 0.7839SABt-1 + 0.261SABt-2 – 0.0644SABt-20 + 0.0644SABt-21 + 0.2879ȗt-1 – 0.054 ȗt-11 + ȗt
ARIMA (1,1,1) (20,1,20)
Dependent Variable: SPSAB Method: Least Squares Date: 06/10/21 Time: 11:18
Included observations: 1096 after adjustments Convergence achieved after 48 iterations MA Backcast: 12/07/2016 1/04/2017
Variable Coefficient Std. Error t-Statistic Prob.
C -0.024624 0.119317 -0.206373 0.8365
AR(1) -0.077168 0.295093 -0.261503 0.7938
AR(20) -0.026943 0.112884 -0.238677 0.8114
MA(1) 0.154900 0.292505 0.529565 0.5965
MA(20) -0.039484 0.115826 -0.340894 0.7332
R-squared 0.010302 Mean dependent var -0.025500
Adjusted R-squared 0.006673 S.D. dependent var 3.916682
S.E. of regression 3.903591 Akaike info criterion 5.566223
Sum squared resid 16624.69 Schwarz criterion 5.589030
Log likelihood -3045.290 Hannan-Quinn criter. 5.574852
F-statistic 2.839120 Durbin-Watson stat 1.992527
Prob(F-statistic) 0.023311
SPSABt = -0.0246 – 0.077AR(1) – 0.0269AR(20) + 0.1549MA(1) – 0.0395MA(20) + ȗt
SPSABt = -0.0246 – 0.077SPSABt-1 – 0.0269SPSABt-20 + 0.1549ȗt-1 – 0.0395ȗt-20 + ȗt SABt − SABt-1 = -0.0246 – 0.077(SABt-1 − SABt-2) – 0.0269(SABt-20 − SABt-21) + 0.1549ȗt-1 – 0.0395ȗt-20 + ȗt
SABt = -0.0246 – 0.923SABt-1 + 0.077SABt-2 – 0.0269SABt-20 + 0.0269SABt-21 + 0.1549ȗt-1 – 0.0395ȗt-20 + ȗt
ARIMA (1,1,1) (20,1,26)
Dependent Variable: SPSAB Method: Least Squares Date: 06/10/21 Time: 11:19
Sample (adjusted): 1/05/2017 5/31/2021 Included observations: 1096 after adjustments Convergence achieved after 12 iterations MA Backcast: 11/29/2016 1/04/2017
Variable Coefficient Std. Error t-Statistic Prob.
C -0.022006 0.122969 -0.178951 0.8580
AR(1) -0.045971 0.288418 -0.159390 0.8734
AR(20) -0.061262 0.029386 -2.084726 0.0373
MA(1) 0.122349 0.286965 0.426357 0.6699
MA(26) 0.033691 0.030265 1.113198 0.2659
R-squared 0.011292 Mean dependent var -0.025500
Adjusted R-squared 0.007667 S.D. dependent var 3.916682
Sum squared resid 16608.06 Schwarz criterion 5.588029
Log likelihood -3044.742 Hannan-Quinn criter. 5.573852
F-statistic 3.115085 Durbin-Watson stat 1.990858
Prob(F-statistic) 0.014605
SPSABt = -0.22 – 0.046AR(1) – 0.0612AR(20) + 0.1223MA(1) + 0.0337MA(26) + ȗt SPSABt = -0.22 – 0.046SPSABt-1 – 0.0612SPSABt-20 + 0.1223ȗt-1 + 0.0337ȗt-26 + ȗt SABt − SABt-1 = -0.22 – 0.046(SABt-1 − SABt-2) – 0.0612(SABt-20 − SABt-21) + 0.1223ȗt-1 + 0.0337ȗt-26 + ȗt
SABt = -0.22 + 0.954SABt-1 + 0.046SABt-2 – 0.0612SABt-20 + 0.0612SABt-21 + 0.1223ȗt-1 + 0.0337ȗt-26 + ȗt
ARIMA (1,1,1) (21,1,11)
Dependent Variable: SPSAB Method: Least Squares Date: 06/10/21 Time: 11:20
Sample (adjusted): 1/06/2017 5/31/2021 Included observations: 1095 after adjustments Convergence achieved after 20 iterations MA Backcast: 12/21/2016 1/05/2017
Variable Coefficient Std. Error t-Statistic Prob.
C -0.036523 0.133184 -0.274230 0.7840
AR(1) 0.370450 0.245818 1.507014 0.1321
AR(21) 0.043991 0.027576 1.595293 0.1109
MA(1) -0.295123 0.253004 -1.166474 0.2437
MA(11) -0.044853 0.029163 -1.537994 0.1243
R-squared 0.011517 Mean dependent var -0.025608
Adjusted R-squared 0.007890 S.D. dependent var 3.918470
S.E. of regression 3.902981 Akaike info criterion 5.565914
Sum squared resid 16604.26 Schwarz criterion 5.588738
Log likelihood -3042.338 Hannan-Quinn criter. 5.574551
F-statistic 3.175074 Durbin-Watson stat 1.988176
Prob(F-statistic) 0.013184
Inverted AR Roots .88 .85+.25i .85-.25i .73+.48i .73-.48i .56-.67i .56+.67i .33-.80i .33+.80i .08-.86i .08+.86i -.18+.84i -.18-.84i -.42+.74i -.42-.74i -.62-.58i -.62+.58i -.76+.37i -.76-.37i -.84+.13i -.84-.13i
Inverted MA Roots .79 .67+.40i .67-.40i .34-.68i .34+.68i -.08-.74i -.08+.74i -.47-.57i -.47+.57i -.70+.21i -.70-.21i
SPSABt = -0.0365 + 0.3704AR(1) – 0.044AR(21) – 0.2951MA(1) – 0.0449MA(11) + ȗt
SPSABt = -0.0365 + 0.3704SPSABt-1 – 0.044SPSABt-21 – 0.2951ȗt-1 – 0.0449ȗt-11 + ȗt SABt − SABt-1 = -0.0365 + 0.3704(SABt-1 − SABt-2) – 0.044(SABt-21 − SABt-22) – 0.2951ȗt-1 – 0.0449ȗt-11 + ȗt
SABt = -0.0365 + 1.3704SABt-1 − 0.3704SABt-2 – 0.044SABt-21 + 0.044SABt-22 – 0.2951ȗt-1 – 0.0449ȗt-11 + ȗt
ARIMA (1,1,1) (21,1,20)
Dependent Variable: SPSAB Method: Least Squares Date: 06/10/21 Time: 11:20
Sample (adjusted): 1/06/2017 5/31/2021 Included observations: 1095 after adjustments Convergence achieved after 13 iterations MA Backcast: 12/08/2016 1/05/2017
Variable Coefficient Std. Error t-Statistic Prob.
C -0.053093 0.146142 -0.363296 0.7165
AR(1) 0.693157 0.147291 4.706039 0.0000
AR(21) 0.067591 0.025618 2.638368 0.0084
MA(1) -0.642041 0.157749 -4.070016 0.0001
MA(20) -0.064225 0.029639 -2.166925 0.0305
R-squared 0.014120 Mean dependent var -0.025608
Adjusted R-squared 0.010502 S.D. dependent var 3.918470
S.E. of regression 3.897841 Akaike info criterion 5.563278
Sum squared resid 16560.55 Schwarz criterion 5.586102
Log likelihood -3040.895 Hannan-Quinn criter. 5.571915
F-statistic 3.902695 Durbin-Watson stat 1.944884
Prob(F-statistic) 0.003745
Inverted AR Roots .94 .89+.25i .89-.25i .77+.48i .77-.48i .58-.67i .58+.67i .35-.81i