Mô hình Arima là gì?
Mô hình Arima là một công cụ phổ biến trong kinh tế lượng, chuyên dùng để dự đoán và phân tích dữ liệu trong lĩnh vực tài chính và chứng khoán Phương pháp này thực hiện nghiên cứu độc lập thông qua việc dự đoán các chuỗi thời gian Các nhà nghiên cứu áp dụng các thuật toán dự báo độ trễ nhằm phát triển mô hình phù hợp cho các dữ liệu phân tích.
Mô hình Arima thường được sử dụng trong kinh tế lượng để dự báo biến động tài chính và chứng khoán Ví dụ, Arima có thể được áp dụng để dự đoán xu hướng ngắn hạn của một mã cổ phiếu cụ thể.
Giới thiệu mô hình Arima
Mô hình ARIMA, được phát triển bởi hai nhà nghiên cứu George Box và Gwilym Jenkins, thường được gọi là phương pháp Box-Jenkins.
Phương pháp này gồm 4 bước:
Xác nhận mô hình thử nghiệm
Kiểm định bằng chẩn đoán
Mô hình ARIMA được phân loại thành hai loại chính: mô hình ARMA (p,q) và mô hình ARIMA (p,d,q) Mô hình ARMA (p,q) được cấu thành từ hai thành phần chính là hàm tự hồi quy (AR) và hàm trung bình động (MA) Hàm số tuyến tính trong mô hình này bao gồm các quan sát dừng từ quá khứ cùng với các sai số dự báo từ cả quá khứ và hiện tại.
Mô hình ARIMA (p,d,q) được sử dụng để mô tả các chuỗi dữ liệu dừng hoặc đã được sai phân hóa Cụ thể, mô hình này giúp phân tích các chuỗi dữ liệu không dừng bằng cách áp dụng sai phân d.
Tự tương quan là hiện tượng mà sai số tại thời điểm t có mối liên hệ với sai số tại thời điểm t-1 hoặc bất kỳ thời điểm nào trong quá khứ, được ký hiệu là α Trong phân tích dữ liệu theo thời gian, hiện tượng này được gọi là "autocorrelation" trong tiếng Anh Tự tương quan bậc 1, tức là sai số kỳ t có tương quan với sai số kỳ t-1, có thể được biểu diễn bằng công thức: α t = p * α t-1 + ϵ t.
Hàm tự tương quan (ACF) là công cụ quan trọng để phát hiện các mẫu trong dữ liệu, cho phép xác định mối tương quan giữa các điểm dữ liệu tại các độ trễ thời gian khác nhau Biểu đồ tương quan được tạo ra bằng cách vẽ các hệ số tự tương quan (t s) tại các giá trị s = 0, 1, 2, giúp trực quan hóa mối liên hệ này.
Hàm tự tương quan từng phần (PACF) là một công cụ quan trọng để đo lường mức độ phụ thuộc tuyến tính giữa các biến trong chuỗi thời gian Nó được biểu diễn dưới dạng biểu đồ, trong đó các hệ số tự tương quan riêng phần được vẽ theo từng mức độ k PACF giúp xác định mối quan hệ giữa các phần của chuỗi dữ liệu, hỗ trợ trong việc phân tích và dự đoán xu hướng tương lai.
Có mối tương quan trực tiếp giữa Y t và Y t−s khi s ≤ p, trong khi không có mối tương quan trực tiếp khi s > p Do đó, PACF sẽ có hệ số tự tương quan riêng phần khác 0 cho các bậc trễ nhỏ hơn hoặc bằng bậc trễ của mô hình (t kk ≠0, kk ≤ p) và có hệ số tương quan riêng phần bằng 0 cho các bậc trễ lớn hơn bậc trễ của mô hình (t kk =0, kk>p).
MA (q) tương ứng cột ACF.
AR (p) tương ứng cột PACF (partial).
*Vì CPI là chuỗi không dừng và DCPI là chuỗi dừng nên ta sẽ thực hiện mô hình ARIMA(p,d,q)
MA(q) tương ứng cột ACF
AR(p) tương ứng cột PACF (partial): (nằm ngoài đường biên gạch chấm) p = 1, 2, 5, 8, 24 d = 1 q = 1, 3, 5, 6, 7, 8, 9, 11, 12, 20, 24
Bước 5: Ghép mô hình ARIMA(p,d,q)
Lấy 10 mô hình ARIMA (p,d,q) bất kỳ từ Bước 4:
Bước 6: Viết mô hình ARIMA(p,d,q)
Mô hình ARIMA, hay còn gọi là mô hình chuỗi thời gian đơn biến, được áp dụng khi hành vi của biến cần phân tích phụ thuộc vào thông tin từ các giá trị quá khứ của chính nó cũng như giá trị hiện tại và quá khứ của hạng nhiễu.
Mô hình tự hồi quy (AR) là công cụ ước tính giá trị tương lai dựa vào các giá trị quá khứ, cụ thể là Y t-1, Y t-2, , Y t-n và sai số u t Mô hình tự hồi quy bậc 1 được biểu diễn dưới dạng:
Trong mô hình tự hồi qui quá trình phụ thuộc vào tổng có trọng số của các giá trị quá khứ và số hạng ngẫu nhiên:
Mô hình trung bình trượt (MA) là một trong những mô hình chuỗi thời gian đơn giản nhất, trong đó giá trị hiện tại của biến số Y t chỉ phụ thuộc vào sai số u t Mô hình trung bình trượt bậc 1 có cấu trúc cụ thể, giúp phân tích và dự đoán các biến động trong dữ liệu theo thời gian.
Trong mô hình trung bình trượt quá trình phụ thuộc vào tổng có trọng số của các ngẫu nhiên hiện hành có độ trễ:
Trong đó: u t là nhiễu trắng à (const) là hằng số t=1,2,3 n
Variable Coefficient Std Error t-Statistic Prob
S.E of regression 0.328760 Akaike info criterion 0.629734
Sum squared resid 18.91457 Schwarz criterion 0.683359
Log likelihood -53.04631 Hannan-Quinn criter 0.651480
Variable Coefficient Std Error t-Statistic Prob
S.E of regression 0.322203 Akaike info criterion 0.600575
Sum squared resid 17.85619 Schwarz criterion 0.690296
Log likelihood -48.15086 Hannan-Quinn criter 0.636962
DCPI t = 0.1635 + 0.2894 AR(1) – 0.0048 AR(2) + 0.3488 MA(1) – 0.2353 MA(3) + ȗ t
CPI t – CPI t-1 = 0.1635 + 0.2894 (CPI t-1 – CPI t-2 ) – 0.0048 (CPI t-2 – CPI t-3 ) + 0.3488 ȗ t-1
Variable Coefficient Std Error t-Statistic Prob
S.E of regression 0.321968 Akaike info criterion 0.599110
Sum squared resid 17.83005 Schwarz criterion 0.688832
Log likelihood -48.02122 Hannan-Quinn criter 0.635498
DCPI t = 0.1685 + 0.9049 AR(1) – 0.4307 AR(2) – 0.3124 MA(1) – 0.1454 MA(5) + ȗ t
CPI t – CPI t-1 = 0.1685 + 0.9049 (CPI t-1 – CPI t-2 ) – 0.4307 (CPI t-2 – CPI t-3 ) - 0.3124 ȗ t-1
Variable Coefficient Std Error t-Statistic Prob
S.E of regression 0.321639 Akaike info criterion 0.597067
Sum squared resid 17.79367 Schwarz criterion 0.686789
Log likelihood -47.84046 Hannan-Quinn criter 0.633455
DCPI t = 0.1716 + 1.2721 AR(1) – 0.5474 AR(2) – 0.7396 MA(1) – 0.0502 MA(6) + ȗ t
CPI t – CPI t-1 = 0.1716 + 1.2721 (CPI t-1 – CPI t-2 ) – 0.5474 (CPI t-2 – CPI t-3 ) – 0.7396 ȗ t-1
Variable Coefficient Std Error t-Statistic Prob
S.E of regression 0.328393 Akaike info criterion 0.639102
Sum squared resid 18.22526 Schwarz criterion 0.729879
Log likelihood -50.60183 Hannan-Quinn criter 0.675926
DCPI t = 0.1643 + 0.3050 AR(1) – 0.1422 AR(5) + 0.3101 MA(1) + 0.0254 MA(7) + ȗ t
CPI t – CPI t-1 = 0.1643 + 0.3050 (CPI t-1 – CPI t-2 ) – 0.1422 (CPI t-5 – CPI t-6 ) + 0.3101 ȗ t-1
CPI t = 0.1643 + 1.3050 CPI t-1 – 0.3050 CPI t-2 – 0.1422 CPI t-5 + 0.1422 CPI t-6 + 0.3101 ȗ t-1 + 0.0254 ȗ t-7 + ȗ t
Variable Coefficient Std Error t-Statistic Prob
S.E of regression 0.325496 Akaike info criterion 0.621380
Sum squared resid 17.90512 Schwarz criterion 0.712157
Log likelihood -49.06004 Hannan-Quinn criter 0.658205
DCPI t = 0.1662 + 0.3026 AR(1) – 0.1608 AR(5) + 0.2762 MA(1) – 0.1419 MA(8) + ȗ t
CPI t – CPI t-1 = 0.1662 + 0.3026 (CPI t-1 – CPI t-2 ) – 0.1608 (CPI t-5 – CPI t-6 ) + 0.2762 ȗ t-1
CPI t = 0.1662 + 1.3026 CPI t-1 – 0.3026 CPI t-2 - 0.1608 CPI t-5 + 0.1608 CPI t-6 + 0.2762 ȗ t-1 – 0.1419 ȗ t-8 + ȗ t
Variable Coefficient Std Error t-Statistic Prob
S.E of regression 0.326181 Akaike info criterion 0.626073
Sum squared resid 17.66138 Schwarz criterion 0.717935
Log likelihood -48.52928 Hannan-Quinn criter 0.663347
DCPI t = 0.1651 + 0.3031 AR(1) – 0.1387 AR(8) + 0.2914 MA(1) – 0.1279 MA(9) + ȗ t
CPI t – CPI t-1 = 0.1651 + 0.3031 (CPI t-1 – CPI t-2 ) – 0.1387 (CPI t-8 – CPI t-9 ) + 0.2914 ȗ t-1
CPI t = 0.1651 + 1.3031 CPI t-1 – 0.3031 CPI t-2 – 0.1387 CPI t-8 + 0.1387 CPI t-9 + 0.2914 ȗ t-1 – 0.1279 ȗ t-9 + ȗ t
Variable Coefficient Std Error t-Statistic Prob
S.E of regression 0.326873 Akaike info criterion 0.630312
Sum squared resid 17.73639 Schwarz criterion 0.722173
Log likelihood -48.89163 Hannan-Quinn criter 0.667585
DCPI t = 0.1633 + 0.3465 AR(1) – 0.1563 AR(8) + 0.2295 MA(1) + 0.0987 MA(11) + ȗ t
CPI t – CPI t-1 = 0.1633 + 0.3465 (CPI t-1 – CPI t-2 ) – 0.1563 (CPI t-8 – CPI t-9 ) + 0.2295 ȗ t-1
CPI t = 0.1633 + 1.3465 CPI t-1 – 0.3465 CPI t-2 - 0.1563 CPI t-8 + 0.1563 CPI t-9 + 0.2295 ȗ t-1 + 0.0987 ȗ t-11 + ȗ t
Variable Coefficient Std Error t-Statistic Prob
S.E of regression 0.326621 Akaike info criterion 0.631693
Sum squared resid 16.00218 Schwarz criterion 0.729868
Log likelihood -43.95619 Hannan-Quinn criter 0.671569
DCPI t = 0.1591 + 0.3291 AR(1) + 0.2363 AR(24) + 0.2745 MA(1) + 0.0966 MA(12) + ȗ t
CPI t – CPI t-1 = 0.1591 + 0.3291 (CPI t-1 – CPI t-2 ) + 0.2363 (CPI t-24 – CPI t-25 ) + 0.2745 ȗ t-1 + 0.0966 ȗ t-12 + ȗ t
CPI t = 0.1591 + 1.3291 CPI t-1 – 0.3291 CPI t-2 + 0.2363 CPI t-24 – 0.2363 CPI t-25 + 0.2745 ȗ t-1 + 0.0966 ȗ t-12 + ȗ t
Variable Coefficient Std Error t-Statistic Prob
S.E of regression 0.325484 Akaike info criterion 0.624720
Sum squared resid 15.89098 Schwarz criterion 0.722895
Log likelihood -43.41578 Hannan-Quinn criter 0.664596
DCPI t = 0.1614 + 0.3189 AR(1) + 0.2651 AR(24) + 0.2901 MA(1) – 0.1321 MA(20)
CPI t – CPI t-1 = 0.1614 + 0.3189 (CPI t-1 – CPI t-2 ) + 0.2651 (CPI t-24 – CPI t-25 ) + 0.2901 ȗ t-1 – 0.1321 ȗ t-20 + ȗ t
CPI t = 0.1614 + 1.3189 CPI t-1 – 0.3189 CPI t-2 + 0.2651 CPI t-24 – 0.2651 CPI t-25 +
Bước 7: Lựa chọn và kiểm định chẩn đoán mô hình
Sau khi thực hiện mô hình ARIMA và ước lượng các tham số, cần kiểm tra xem mô hình đã chọn có phù hợp với dữ liệu hay không, vì có thể tồn tại mô hình ARIMA khác cũng phù hợp Một phương pháp đơn giản để kiểm định mô hình là phân tích các phần dư ước lượng từ mô hình, nhằm xác định xem chúng có tính ngẫu nhiên thuần túy hay không, tức là có nhiễu trắng hay không.
Từ 10 mô hình, lựa chọn ra 3 mô hình tốt nhất.
Ba tiêu chuẩn cơ bản:
1 Mô hình ARIMA (p,d,q) phải vượt qua tất cả các kiểm định
3 Các chuẩn thông tin thấp (AIC, SBIC, HQIC nhỏ)
Hệ số xác định R2 thể hiện mức độ phù hợp của mô hình nghiên cứu với các biến, đồng thời cho biết tỷ lệ phần trăm của biến phụ thuộc được giải thích trong quá trình nghiên cứu.
Hệ số hiệu chỉnh Adjusted R2 được phát triển để khắc phục nhược điểm của hệ số r bình phương thông thường Hệ số này cho phép đánh giá độ thích hợp của mô hình khi thêm tham số mới, từ đó giúp giảm sự phức tạp của mô hình.
Chỉ số Akaike Information Criterion (AIC) là một công cụ quan trọng để ước lượng lỗi dự đoán ngoài mẫu và đánh giá chất lượng tương đối của các mô hình thống kê trong một tập dữ liệu Khi có nhiều mô hình được đưa ra cho cùng một tập dữ liệu, AIC giúp xác định chất lượng của từng mô hình so với các mô hình khác, từ đó cung cấp phương pháp hiệu quả để lựa chọn mô hình tối ưu.
Ngược lại với AIC, các tiêu chuẩn SIC (BIC) và HQ được coi là những tiêu chuẩn đáng tin cậy hơn trong việc lựa chọn mô hình, với khả năng điều chỉnh mạnh mẽ hơn McQuarrie và Tsai (1998, pp 36-43) cũng chỉ ra rằng việc sử dụng các tiêu chuẩn thông tin này có thể dẫn đến nguy cơ over-fitted.
Vậy 3 mô hình tối ưu là: