Tiếp theo, ta tính giá trị cận trên và dưới Lưu ý rằng, trước khi thực hiện dự báo, ta cần phải kiểm định chất lượng mô hình giống như phần lý thuyết của kinh tế lượng căn bản.. Đây là d
Trang 1HƯỚNG DẪN DỰ BÁO DỮ LIỆU THỜI GIAN BẰNG EVIEW 8.0
GV Trần Đức Luân Khoa kinh tế, ĐH Nông Lâm Tp HCM
Học kỳ 1 (2014-2015)
A Các mô hình xu thế điển hình
Xu thế là sự vận động tăng hay giảm của dữ liệu trong khoảng thời gian dài Sự vận động này có thể tuyến tính hoặc phi tuyến Nhờ vào các dạng hàm xu thế, ta có thể sử dụng phần mềm Eview để dự báo giá trị trong tương lai
Trang 2Ước lượng mô hình xu thế tuyến tính
Vào Proc/Set Sample Tại cửa sổ lệnh, gõ: LS Y C @TREND()+1
Trang 3Theo lý thuyết ước lượng khoảng tin cậy, giá trị dự báo khoảng như sau:
+Cận trên: = + / ∗ ( )
+Cận dưới: = − / ∗ ( )
Để tìm thống kê T, ta dùng câu lệnh: SCALAR TB=@QTDIST(1-α/2,n-k)
Quay lại trường hợp này, mô hình từ dữ liệu quá khứ có 36 tháng và có 2 hệ số hồi quy (β1
và β2) nên các thông số n và k lần lượt là 36 và 2 Giả sử, ta chọn độ tin cậy 95% (tức mức
ý nghĩa α=5%) lúc này trị thống kê T sẽ là:
Trang 4Tiếp theo, ta tính giá trị cận trên và dưới
Lưu ý rằng, trước khi thực hiện dự báo, ta cần phải kiểm định chất lượng mô hình (giống như phần lý thuyết của kinh tế lượng căn bản) Nếu mô hình vi phạm giả thiết thì chúng ta không nên thực hiện các dự báo khoảng mà chỉ dùng dự báo điểm Hoặc thận trọng hơn,
sự vi phạm giả thiết có thể bắt nguồn từ việc chọn sai hàm toán, lúc này ta cân nhắc các kiểu hàm khác để có được mô hình dự báo tốt hơn
Đây là dữ liệu thời gian, vì vậy cần ưu tiên kiểm định hiện tượng tự tương quan Sau đó, ta kiểm định phương sai thay đổi và phân phối chuẩn của sai số
Kiểm định tự tương quan Kiểm định phương sai thay đổi
Trang 5Kiểm định Jarque-Bera
Nếu phần dư không có phân phối chuẩn thì mô hình hồi quy chưa tốt và mắc
có thể do mắc phải các lỗi bỏ sót biết quan trọng, sai dạng hàm, phương sai sai số thay đổi, tự tượng quan,… Do vậy, kiểm định phần dư là một công việc quan trọng trong việc xây dựng phương trình ước lượng bằng phương pháp OLS Trị thống kê JB được tính và so sánh với thống kê Chi bình phương tra bảng (hoặc có thể dùng bằng phương pháp P-Value)
Giả thuyết:
Ho: U~N(0,1) H1: U ≠ N(0,1)
Kết quả kiểm định trên cho thấy, xác suất thống kê Jarque-Bera bằng 0,38 (lớn hơn mức ý nghĩa 0,05) nên sai số dự báo của mô hình xấp xỉ phân phối chuẩn Vì vậy, kết quả kiểm định và chẩn đoán cho thấy mô hình tồn tại hiện tượng tự tương quan bậc 1 Do đó, mô hình dự báo xu thế tuyến tính này chưa đảm bảo tính thuyết phục Ta cần nghiên cứu thêm các mô hình dự báo nâng cao hơn (ví dụ: mô hình tự hồi quy) ở phần sau
Trang 62.Mô hình hàm bậc hai
*Ước lượng mô hình:
*Giá trị dự báo
Trang 7B Dự báo bằng mô hình nhân (Multiplicative Component Model) và mô hình cộng
(Additive Components Model)
Xét về bản chất, một chuỗi thời gian thường bao gồm 4 thành phần:
(2) Chu kỳ (Cyclical) Ct
(3) Mùa vụ (Seasonal) St
(4) Bất thường (Irregular) It
Khi dự báo, ta cần xem xét các thành phần này liên hệ như thế nào đến chuỗi dữ liệu gốc
Mô hình nhân (gọi tắt là MCM) sẽ phù hợp nếu sự biến thiên tăng dần theo thời gian, tức
là xu thế các giá trị của chuỗi biến thiên trãi rộng Trong khi đó, mô hình cộng (gọi tắt là ACM) có chuỗi dữ liệu biến thiên xấp xỉ đều nhau suốt độ dài của thời gian
*Nếu số liệu theo tháng: CMAt=(0.5Yt+6+…+Yt+…+0.5Yt-6)/12
*Nếu số liệu theo quý: CMAt=(0.5Yt+2+Yt+1+Yt+Yt-1+0.5Yt-2)/4
(2) Tính tỷ số τi =Yt/CMAt
(3) Tính tỷ số mùa vụ
*Số liệu theo tháng: im(cho tháng m) = trung bình τi của các tháng m trong dãy số liệu
*Số liệu theo quý: iq (cho quý q) = trung bình τi của các quý q trong dãy số liệu
Trang 8phân tích phía trên Chuỗi dữ liệu chỉ còn lại yếu tố xu thế, ta dùng chuỗi
Trang 9Nhận dạng chuỗi dự liệu nghiên cứu bằng đồ thị
Trang 10Tách yếu tố mùa
Chọn phương pháp mô hình nhân
Mô hình nhân
Trang 11Kết quả Sn
Biến YSA chính là chuỗi dữ liệu đã hiệu chỉnh tính mùa vụ và chu kỳ, YSA=Y/SN Yếu tố chu kỳ xét trong ngắn hạn xem như không có (C=1), yếu tố ngẫu nhiên bị triệt tiêu sau khi lấy trung bình khi tính chỉ số mùa (do vậy I=1) Nếu có yếu tố ngẫu nhiên trong chuổi YSA thì ta loại quan sát bất thường, rồi thay bằng trung bình cộng của hai quan sát liền kề, lúc này YSA = T Đây là dữ liệu dùng để dự báo tương lai
Trang 12Tạo biến xu thế và ước lượng:
Với độ tin cậy 95%, biến T có ý nghĩa thống kê trong mô hình (P-value =0.0000), hệ số xác định R2 = 0.83, và phương trình hồi quy là:
( ) = 4.717 + 0.035T
Tiếp theo, ta tiến hành thực hiện dự báo điểm và dự báo khoảng
Trang 13Root Mean Squared Error 11.65867Mean Absolute Error 8.951958Mean Abs Percent Error 5.936129Theil Inequality Coefficient 0.037456 Bias Proportion 0.001609 Variance Proportion 0.085388 Covariance Proportion 0.913003
Chỉ tiêu đánh giá dự báo MAP=5.93, Theil’s U=0.03 (<0.55) nên độ chính xác tốt
Kiểm tra chất lượng mô hình dự báo
*Tự tương quan
Trang 14Breusch-Godfrey Serial Correlation LM Test:
*Phương sai thay đổi
Heteroskedasticity Test: White
Scaled explained SS 0.621775 Prob Chi-Square(2) 0.7328
*Phân phối chuẩn của sai số
Mean 0.467718 Median 1.015227 Maximum 30.27213 Minimum -18.13893 Std Dev 12.03133 Skewness 0.572139 Kurtosis 3.573969 Jarque-Bera 1.092541 Probability 0.579106
Các kết quả kiểm định cho thấy, với độ tin cậy 95%, mô hình có phương sai sai số đồng đều, không có tự tương quan, sai số tuân theo phân phối chuẩn Vì vậy, đây là mô hình tốt
để thực hiện dự báo
Trang 15Thông qua các câu lệnh GENR, xem công thức của hình trên, ta lần lượt tính giá trị dự báo của Y, ký hiệu là YF Tương tự, tính giá trị dự báo cận trên (YFCT) va cận dưới (YFCD)
Trang 18 Mô hình cộng
Các bước thực hiện:
(1) Làm trơn số liệu bằng trung bình trượt (Centered Moving Average) Giá trị CMA
sẽ chứa đựng thành phần xu thế và thành phần chu kỳ
*Nếu số liệu theo tháng: CMAt=(0.5Yt+6+…+Yt+…+0.5Yt-6)/12
*Nếu số liệu theo quý: CMAt=(0.5Yt+2+Yt+1+Yt+Yt-1+0.5Yt-2)/4
(2) Tính sự khác biệt: dt =Yt - CMAt
(3) Tính tỷ số mùa vụ
*Số liệu theo tháng: im(cho tháng m) = trung bình dt của các tháng m trong dãy số liệu
*Số liệu theo quý: iq (cho quý q) = trung bình dt của các quý q trong dãy số liệu
(4) Chỉnh tỷ số mùa vụ để tổng của chúng bằng 0
= ( − ̅) với ̅ là trung bình của tất cả các chỉ số mùa
Trong cửa sổ Serias của Eview, Sn là các Scaling Factors Sn cho biết tại thời điểm nghiên cứu nào đó, giá trị Y sẽ cao hơn hay thấp hơn một lượng Snt so với giá trị dữ liệu đã hiệu chỉnh yếu tố mùa
(5) Chuỗi dữ liệu đã hiệu chỉnh tính mùa vụ có được bằng cách lấy Yt trừ Snt Lúc này, yếu tố chu kỳ được xem như không có (do dự báo trong ngắn hạn) và yếu tố mùa vụ
đã được xử lý khi tính trung bình ở bước phân tích phía trên Chuỗi dữ liệu chỉ còn lại yếu tố xu thế, ta dùng chuỗi Yt-Snt để dự báo
Thực hành trên EVIEW
*Nhận dạng bằng đồ thị: xem lại phần trên, dường như mô hình cộng thích hợp hơn do biến thiên đều theo thời gian
Trang 19Lựa chọn phương pháp điều chỉnh theo mô hình cộng
Kết quả điểu chỉnh
Phần mềm Eview sẽ tính Sn, và biến YSA = Y – Sn
Trang 20Dự báo YSA (doanh số đã loại bỏ tính mùa) bằng mô hình xu thế
Dự báo điểm và khoảng
Trang 21Root Mean Squared Error 8.565713Mean Absolute Error 7.722304Mean Abs Percent Error 4.919920Theil Inequality Coefficient 0.026851 Bias Proportion 0.000000 Variance Proportion 0.028919 Covariance Proportion 0.971081
Tính giá trị doanh số dự báo YF = YSAF+SN
Tra bảng thống kê T, với mức ý nghĩa 5%, bậc tự do n-k=14, ta được TB
Tính cận trên và cận dưới của giá trị dự báo khoảng
Trang 22Đồ thị dự báo theo mô hình cộng
Trang 23*Kiểm định tính mùa vụ (Kruskal – Wallis Test)
Kruskal-Wallis là một trrong các kiểm định phi tham số Kiểm định này tương tự như kiểm định ANOVA một chiều vì nó có thể đưa ra kết luận xem trung bình giữa các nhóm có khác biệt hay không Tuy nhiên, không như ANOVA, kiểm định Kruskal-Wallis không đòi hỏi phân phối chuẩn của dữ liệu từng nhóm, không đòi hỏi số lượng quan sát của mỗi nhóm phải nhiều, mà dựa trên sự xếp hạng của St.It và xem xét hạng trung bình của St.It có khác biệt giữa các mùa hay không, hay phân phối của St.It có khác biệt giữa các mùa (các quý/tháng) hay không Nếu có khác biệt
thì chuỗi dữ liệu gốc có tồn tại yếu tố mùa
Ví dụ, ta thực hiện kiểm định cho dữ liệu doanh số Giả sử ta tính bằng thủ công trên Eview 8.0
+ Mô hình nhân: GENR SN_N=Y/CMA
+ Mô hình cộng: GENR SN_C=Y-CMA
*Tạo thêm chuỗi
+Nếu theo quý: GENR QUY=@QUARTER
+Nếu theo tháng: GENR THANG=@MONTH
Trang 24(2) Kiểm định Kruskal-Wallis
*Bắt đầu từ mô hình nhân
Mở biến SN_N, chọn View/Descriptive Stats-Test/Equality Test…
Trang 25Kết quả kiểm định
Test for Equality of Medians of SN_N
Categorized by values of QUY
Date: 09/16/14 Time: 15:06
Sample (adjusted): 2010Q2 2013Q2
Included observations: 13 after adjustments
Ho: Không có yếu tố mùa (phân phối của St.It tương tự nhau giữa các quý)
H1: Có yếu tố mùa (phân phối của St.It khác nhau giữa các quý)
Kết quả kiểm định Kruskal-Wallis cho thấy, xác suất của thống kê này bằng 0.0103 (bé hơn mức ý nghĩa 5%), nên ta bác bỏ Ho Vì vậy có tồn tại tính mùa
vụ trong chuỗi dữ liệu nếu thực hiện mô hình nhân để dự báo
*Bắt đầu từ mô hình cộng
Mở biến SN_C, chọn View/Descriptive Stats-Test/Equality Test…
Test for Equality of Medians of SN_C
Categorized by values of QUY
Date: 09/16/14 Time: 15:07
Sample (adjusted): 2010Q2 2013Q2
Included observations: 13 after adjustments
Trang 27C Dự báo theo phương pháp BOX-JENKINS
Box-Jenkins (1976) là những người đầu tiên giới thiệu mô hình ARIMA Trong đó:
AR : Autoregressive (tự hồi quy)
I : Intergrated (kết hợp)
MA : Moving Average (trung bình trượt) Trước khi áp dụng phương pháp này, ta cần số quan sát trong quá khứ đủ lớn (kinh nghiệm trên 24?), các môi trường chính sách trong tương lai được dự báo ít biến động so với quá khứ
Trang 28Null Hypothesis: DS has a unit root
Exogenous: Constant
Lag Length: 4 (Automatic - based on SIC, maxlag=9)
t-Statistic Prob.*
Augmented Dickey-Fuller test statistic 0.241501 0.9719
*MacKinnon (1996) one-sided p-values
Augmented Dickey-Fuller Test Equation
Dependent Variable: D(DS)
Method: Least Squares
Date: 09/16/14 Time: 15:56
Sample (adjusted): 1975Q2 1984Q4
Included observations: 39 after adjustments
Variable Coefficient Std Error t-Statistic Prob
Trang 29Kết quả kiểm định cho thấy, xác suất kiểm định Augmented Dickey-Fuller
bằng 0.97 (lớn hơn mức ý nghĩa 0.05) nên chấp nhận giả thuyết Null Vậy, dữ
liệu gốc có nghiệm đơn vị hay nói cách khác chuỗi chưa dừng
Ta thử lấy sai phân bậc 1 nhằm mục đích biến chuỗi chưa dừng thành chuỗi
dừng Dùng câu lệnh: GENR DDS=D(DS)
Sau đó, mở biến DDS, vẽ đồ thị và kiểm định tính dừng cho chuỗi DDS
Trang 30Augmented Dickey-Fuller test statistic -3.184334 0.0286
*MacKinnon (1996) one-sided p-values
Augmented Dickey-Fuller Test Equation
Dependent Variable: D(DDS)
Method: Least Squares
Date: 09/16/14 Time: 16:03
Sample (adjusted): 1975Q2 1984Q4
Included observations: 39 after adjustments
Variable Coefficient Std Error t-Statistic Prob
Trang 31Với độ tin cậy 95%, dựa vào xác suất thống kê Dickey-Fuller (0.028), chuỗi DDS đã dừng (không có xu thế trend) sau khi lấy sai phân bậc 1
Nếu kiểm định tính dừng (có xu thế)
Null Hypothesis: DDS has a unit root
Exogenous: Constant, Linear Trend
Lag Length: 3 (Automatic - based on SIC, maxlag=9)
t-Statistic Prob.*
Augmented Dickey-Fuller test statistic -3.321207 0.0778
*MacKinnon (1996) one-sided p-values
Augmented Dickey-Fuller Test Equation
Dependent Variable: D(DDS)
Method: Least Squares
Date: 09/16/14 Time: 16:18
Sample (adjusted): 1975Q2 1984Q4
Included observations: 39 after adjustments
Variable Coefficient Std Error t-Statistic Prob
Trang 32Adjusted R-squared 0.919091 S.D dependent var 3885.827
S.E of regression 1105.303 Akaike info criterion 16.99426
Sum squared resid 40315898 Schwarz criterion 17.25020
Log likelihood -325.3882 Hannan-Quinn criter 17.08609
Included observations: 39 after adjustments
Variable Coefficient Std Error t-Statistic Prob
Adjusted R-squared 0.886816 S.D dependent var 3328.303
S.E of regression 1119.738 Akaike info criterion 17.02022
Sum squared resid 41375825 Schwarz criterion 17.27615
Log likelihood -325.8942 Hannan-Quinn criter 17.11204
Prob(F-statistic) 0.000000
Mô hình tự hồi quy AR(p)
Trang 33R-squared 0.901425 Mean dependent var 48242.97
Adjusted R-squared 0.886489 S.D dependent var 3328.303
S.E of regression 1121.350 Akaike info criterion 17.02309
Sum squared resid 41495022 Schwarz criterion 17.27902
Log likelihood -325.9503 Hannan-Quinn criter 17.11492
Included observations: 43 after adjustments
Convergence achieved after 93 iterations
Adjusted R-squared 0.674585 S.D dependent var 3379.500
S.E of regression 1927.842 Akaike info criterion 18.03340
Sum squared resid 1.49E+08 Schwarz criterion 18.15628
Log likelihood -384.7182 Hannan-Quinn criter 18.07872
Included observations: 43 after adjustments
Convergence achieved after 13 iterations
MA Backcast: 1974Q1
Variable Coefficient Std Error t-Statistic Prob
Adjusted R-squared 0.396197 S.D dependent var 2423.750
Trang 34S.E of regression 1883.369 Akaike info criterion 17.96491
Sum squared resid 1.45E+08 Schwarz criterion 18.04682
Log likelihood -384.2455 Hannan-Quinn criter 17.99512
Included observations: 42 after adjustments
Convergence achieved after 3 iterations
Variable Coefficient Std Error t-Statistic Prob
Adjusted R-squared 0.070129 S.D dependent var 2445.189
S.E of regression 2357.891 Akaike info criterion 18.41537
Sum squared resid 2.22E+08 Schwarz criterion 18.49812
Log likelihood -384.7228 Hannan-Quinn criter 18.44570
Included observations: 41 after adjustments
Convergence achieved after 14 iterations
MA Backcast: 1974Q3
Variable Coefficient Std Error t-Statistic Prob