MÔ HÌNH ARIMA
Trang 1MÔ HÌNH ARIMA
I Giới Thiệu Mô Hình ARIMA:
Như chúng ta đã biết, trong nghiên cứu định lượng, tồn tại 3 loại số liệu cơ bản
là số liệu theo thời gian, số liệu chéo và số liệu hỗn hợp Đối với các vấn đề kinh tế, loại số liệu chúng ta thường xuyên tiếp cận nhất có lẽ là số liệu theo thời gian, hay còn gọi là các chuỗi thời gian như chuỗi số liệu GDP, chỉ số VN-Index hay giá vàng theo thời gian…Tuy nhiên, chuỗi thời gian cũng gây ra không ít khó khăn cho các nhà nghiên cứu, bởi nhiều nghiên cứu đã cho thấy, trong nhiều trường hợp, các mô hình hồi quy cổ điển dường như không hiệu quả với loại dữ liệu này
Vậy, vấn đề đặt ra là làm thế nào chúng ta có thể nghiên cứu một chuỗi thời gian, rút ra những kết luận và sử dụng nó để dự báo một cách có hiệu quả? Để trả lời cho câu hỏi này có nhiều phương pháp khác nhau, tuy nhiên, có hai phương pháp được hầu hết các nhà nghiên cứu thừa nhận và sử dụng thường xuyên đó là hai mô hình: ARIMA và VAR
Mô hình Trung bình trượt, đồng liên kết, tự hồi quy ARIMA dựa trên triết lý
“hãy để dữ liệu tự nói”, nó không sử dụng các biến ngoại sinh độc lập X1, X2, X3
để giải thích cho Y, mà nó sử dụng chính các giá trị trong quá khứ của Y để giải
thích cho bản thân nó ở hiện tại Nó cũng không giả định bất kỳ một mô hình cụ thể
nào, mà việc xác định mô hình là dựa trên phân tích dữ liệu cụ thể từng trường hợp
và cả một chút nghệ thuật của người sử dụng Chính vì thế, ARIMA đôi khi còn
được gọi là mô hình lý thuyết mới vì nó không dựa bất kỳ một lý thuyết kinh tế nào
Và cũng do đó, ARIMA có được tính linh hoạt và tiết kiệm hơn hẳn các phương pháp khác, đồng thời tính hiệu quả của ARIMA trong công tác dự báo cũng đã được thực tế chứng minh
Tất cả những điều ấy mang đến cho ARIMA một vị thế nhất định trong lĩnh
vực nghiên cứu định lượng và ngày càng trở nên thông dụng hơn
Trang 2II Cơ Sở Lý Thuyết
1 Tính Dừng
1.1 Khái niệm
Dữ liệu của bất kỳ chuỗi thời gian nào đều có thể được coi là được tạo ra từ
một quá trình ngẫu nhiên và một tập hợp dữ liệu cụ thể, có thể được coi là một
kết quả (cá biệt) của quá trình ngẫu nhiên đó Hay nói các khác, có thể xem quá
trình ngẫu nhiên là tổng thể và kết quả là một mẫu được của tổng thể đó Một tính chất của quá trình ngẫu nhiên được các nhà phân tích về chuỗi thời gian đặc
biệt quan tâm và xem xét kỹ lưỡng là Tính dừng
Một quá trình ngẫu nhiên Y t được coi là dừng nếu kỳ vọng, phương sai và hiệp phương sai tại cùng một độ trễ của nó không đổi theo thời gian.
Cụ thể, Yt được gọi là dừng nếu:
Phương sai: Var(Yt)= E(Yt –µ)2 = σ2 (∀t) (2)
Đồng phương sai: Cov(Yt,Yt+k) = E[(Yt – µ)(Yt+k – µ)]= γk (∀t) (3) Điều kiện thứ 3 có nghĩa là hiệp phương sai giữa Yt và Yt+k chỉ phụ thuộc vào độ trễ về thời gian (k) giữa hai thời đoạn này chứ không phụ thuộc vào thời điểm t Ví dụ Cov(Y2,Y7)=Cov(Y10,Y15)=Cov(Y30,Y35)=…=Cov(Yt,Yt+5) Nhưng Cov(Yt,Yt+5) có thể khác Cov(Yt,Yt+6)…
Quá trình ngẫu nhiên Yt được coi là không dừng nếu nó vi phạm ít nhất một trong ba điều kiện trên
1.2 Hậu quả của Chuỗi không dừng.
Trong mô hình hồi quy cổ điển, ta giả định rằng sai số ngẫu nhiên có kỳ vọng bằng không, phương sai không đổi và chúng không tương quan với nhau Với dữ liệu là các chuỗi không dừng, các giả thiết này bị vi phạm, các kiểm định
t, F mất hiệu lực, ước lượng và dự báo không hiệu quả hay nói cách khác phương pháp OLS không áp dụng cho các chuỗi không dừng.
Điển hình là hiện tượng hồi quy giả mạo: nếu mô hình tồn tại ít nhất một
Trang 3thu được các hệ số có ý nghĩa thống kê và hệ số xác định R2 rất cao Nhưng điều này có thể chỉ là giả mạo, R2 cao có thể là do hai biến này có cùng xu thế chứ không phải do chúng tương quan chặt chẽ với nhau
Trong thực tế, phần lớn các chuỗi thời gian đều là chuỗi không dừng, kết hợp với những hậu quả trình bày trên đây cho thấy tầm quan trọng của việc xác định một chuỗi thời gian có tính dừng hay không
1.3 Kiểm định tính dừng
1.3.1 Dựa trên đồ thị của chuỗi thời gian
Một cách trực quan chuỗi Yt có tính dừng nếu như đồ thị Y=f(t) cho thấy trung bình và phương sai của quá trình Yt không đổi theo thời gian
Ta xét chuỗi chỉ số VNIndex từ ngày 2/1/2009 đến ngày 31/12/2010 có đồ thị theo thời gian như sau:
Hình 1.3.1: Đồ thị VNIndex theo thời gian
200 300 400 500 600 700
50 100 150 200 250 300 350 400 450 500
VNINDEX
Nhìn vào đồ thị của VNIndex theo thời gian ta thấy trung bình của nó có xu hướng tăng hoặc giảm theo từng thời kỳ Như vậy, có thể suy đoán rằng điều kiện một bị vi phạm và VNIndex là chuỗi không dừng
Trang 4Phương pháp này cho ta cái nhìn trực quan, đánh giá ban đầu về tính dừng của chuỗi thời gian Tuy nhiên, với những chuỗi thời gian có xu hướng không rõ ràng, phương pháp này trở nên khó khăn và đôi khi không chính xác
1.3.2 Dựa trên lược đồ tương quan
1.3.2.1 Tự tương quan
Một cách kiểm định đơn giản tính dừng là dùng hàm tự tương quan (ACF) ACF với độ trễ k, ký hiệu bằng ρk, được xác định như sau:
Nếu vẽ đồ thị của ρk theo k, ta được lược đồ tương quan tổng thể Tuy nhiên, trên thực tế chúng ta chưa có tổng thể mà chỉ có mẫu Khi đó ta xây dựng hàm tự tương quan mẫu với:
Trường hợp mẫu có khích thước nhỏ thì mẫu số của là n-k-1 và của
là n-1
Đồ thị thể hiện ρk ở độ trễ k được gọi là lược đồ tương quan mẫu
Bartlett đã chỉ ra rằng nếu một chuỗi là ngẫu nhiên và dừng, thì các hệ số tự tương quan mẫu sẽ có phân phối xấp xỉ chuẩn với kỳ vọng toán bằng 0 và phương sai 1/n, với n khá lớn ~ N(0, 1/n)
Ta cần kiểm định giả thiết: H0: ρk = 0 (chuỗi dừng)
H1: ρk ≠ 0
Trang 5Khoảng tin cậy 95%
Nếu ∈(-Zα/2/ n, Zα/2/ n) thì chấp nhận giả thiết H0 với mức ý nghĩa
α Giá trị của các chỉ số Z tra trong bảng đã được tính toán sẵn
Với độ tin cậy 95%, khoảng tin cậy ρk của VNIndex là ±1,96/ 504 =
±0.087 Nếu ∈(-0,087; +0,087) ta chấp nhận giả thiết H0, ngược lại, nếu không thuộc khoảng này, ta bác bỏ H0 (với mức ý nghĩa 5%)
Sử dụng phần mềm EViews ta có bảng kết quả hàm ACF và lược đồ tương quan của VNIndex với 20 độ trễ như sau:
Bảng 1.3.2: Lược đồ tương quan và các kết quả đi kèm của chuỗi VNIndex
(Vào View/Correlogram … , xác định biểu đồ tự tương quan của chuỗi gốc hay chuỗi sai phân bậc một, bậc hai, và cuối cùng là xác định độ trễ k)
Có thể thấy toàn bộ ρk của ACF tại 30 độ trễ đều khác 0 có ý nghĩa thống
kê Như vậy, VNIndex là chuỗi không dừng Một cách trực quan ta có thể nhận
Trang 6định dựa trên lược đồ tương quan, nếu đồ thị có xu hướng giảm chậm, tương đối đều dặn theo độ trễ thì chuỗi không dừng Ngược lại nếu đồ thị giảm nhanh, ngẫu nhiên, không theo xu hướng thì chuỗi dừng
1.3.2.2 Tự tương quan riêng
Các hệ số tự tương quan ρk (k≥2) phản ánh mức độ kết hợp tuyến tính của Yt
và Yt+k Tuy nhiên, mức độ kết hợp giữa hai biến còn có thể do một số biến khác gây ra Trong trường hợp này là ảnh hưởng từ các biên Yt-1…Yt-k+1 Do đó để đo
độ kết hợp riêng rẽ giữa Yt và Yt-k ta sử dụng hàm tương quan riêng PACF với hệ
số tương quan riêng ρkk được ước lượng theo công thức đệ quy của Durbin:
Nếu chuỗi
dừng thì các
có phân
phối chuẩn
N(0,1/n) Do
đó, kiểm
định giả thiết đối với ρkk tương tự như với ρk
1.3.2.3 Kiểm định đồng thời
Box – Pierce đã đưa ra kiểm định về sự đồng thời bằng không của các hệ số tương quan: H0: ρ1=ρ2=…=ρm=0
H1: tồn tại ít nhất một ρk=0 Giả thiết H0 được kiểm định bằng thống kê
Với n: kích thức mẫu, m: độ dài của trễ Q ~
Bác bỏ H0 khi Q >
Một dạng khác của Q là thống kê Ljung-Box (LB):
Trang 7Với Bác bỏ H0 khi LB >
Thống kê LB được xem là tốt hơn với các mẫu số nhỏ so với thống kê Q Với Eviews, ta dễ dàng có được các giá trị của LB với các độ trễ khác nhau (cột Q-Stat) và xác suất nhỏ nhất để giả thiết H0 bị bác bỏ (cột Prob)
Xem xét hình 1.3.2, ta có thể kết luận tổng thể rằng VNIndex là chuỗi thời gian không có tính dừng
1.3.3 Kiểm định nghiệm đơn vị (Unit root test)
1.3.3.1 Nhiễu trắng:
Một Ut đáp ứng đầy đủ các giả thiết của mô hình hồi quy tuyến tính cổ điển, tức có kỳ vọng bằng không, phương sai không đổi và hiệp phương sai bằng không gọi là nhiễu trắng
1.3.3.2 Bước ngẫu nhiên
Nếu Yt = Yt-1+Ut với Ut là nhiễu trắng, thì Yt được gọi là bước ngẫu nhiên
Ta có: Y1=Y0+U1
Y2=Y1+U2=Y0+U1+U2
Yt=Y0+U1+U2+…+Ut
Do Y0 là hằng số, các Ui độc lập với nhau, phương sai không đổ bằng σ2
nên: Var(Yt)=tσ2 (thay đổi theo t) Điều này chứng tỏ Yt là chuỗi không dừng
1.3.3.3 Kiểm định nghiệm đơn vị Dickey – Fuller
Xét mô hình Yt = ρYt-1+Ut với Ut là nhiễu trắng
Nếu ρ=1 thì Yt là bước ngẫu nhiên và không dừng Do đó để kiểm định tính dừng của Yt ta kiểm định giả thiết: H0: ρ=1 (chuỗi không dừng)
H1: ρ≠1
Ở đây ta không thể sử dụng kiểm định t vì Yt có thể là chuỗi không dừng Trong trường hợp này ta sử dụng tiêu chuẩn kiểm định DF như sau:
Trang 8Phân phối theo quy luật DF Nếu ta bác bỏ giả thiết H0 và kết luận chuỗi dừng
Tiêu chuẩn DF cũng được áp dụng cho các mô hình sau:
Với giả thiết H0: γ=0 (chuỗi dừng) Nếu Ut tự tương quan, ta cải biên mô hình (3) thành mô hình:
Tiêu chuẩn DF áp dụng cho mô hình (4) được gọi là tiêu chuẩn mở rộng Dickey – Fuller (ADF)
Để tiến hành kiểm định nghiệm đơn vị trên Eviews ta chọn View/Unit Root
Test …, sẽ xuất hiện hộp thoại Unit Root Test Ta có các lựa chon tương ứng với
các dạng phương trình ở mục Include in test equation:
Intercept: nếu dùng phương trình (2)
Trend and intercept: nếu dùng phương trình (3)
None: nếu dùng phương trình (1),
Trend and intercept và xác định độ trễ ở lựa chọn Lag length: nếu dùng
phương trình (4)
Kết quả kiểm định chuỗi VNIndex bằng Eviews cho ta kết quả sau:
Hình 1.3.4: Kết quả kiểm định nghiệm đơn vị chuỗi VNIndex
(1) (2) (3)
(4)
Trang 9Ta có ׀1,86 = ׀ nhỏ hơn tất cả các giá trị ׀0,01 ׀, ׀0,05 ׀ và ׀0,1׀ nên ta chấp nhận giả thiết H0: ρ=1 tức VNIndex là chuỗi không dừng
1.4 Biến đổi chuỗi không dừng thành chuỗi dừng
Xét bước ngẫu nhiên: Yt=Yt-1+Ut với Ut là nhiễu trắng
Ta lấy sai phân cấp I của Yt: D(Yt)=Yt-Yt-1=Ut Trong trường hợp này D(Yt)
là chuỗi dừng vì Ut là nhiễu trắng
Trường hợp tổng quát, với mọi chuỗi thời gian nếu sai phân cấp I của Yt
chưa dừng ta tiếp tục lấy sai phân cấp II, III… Các nghiên cứu đã chứng minh
luôn tồn tại một giá trị d xác định để sai phân cấp d của Yt là chuỗi dừng Khi đó
Yt được gọi là liên kết bậc d, ký hiêu là I(d).
Sai phân cấp d được lấy như sau:
Sai phân cấp I của Yt: D(Yt)=Yt-Yt-1
Sai phân cấp II: D(D(Yt))=D2(Yt)=(Yt-Yt-1)-(Yt-1-Yt-2)
…
Sai phân cấp d: D(Dd-1(Yt))
Lấy sai phân cấp I của VNIndex ta được đồ thị theo thời gian như sau:
Hình 1.4.1: Biểu đồ chuỗi sai phân cấp I của VNIndex theo thời gian
-30 -20 -10 0 10 20 30
50 100 150 200 250 300 350 400 450 500
DVNINDEX
Trang 10Lược đồ tương quan
Hình 1.4.2: Lược đồ tương quan chuỗi sai phân cấp I của VNIndex
Hầu hết các hệ số tương quan khác 0 không có ý nghĩa thống kê, lược đồ tương quan giảm nhanh sau độ trễ thứ 2 và không có xu hướng nhất định
Và kết quả kiểm định Nghiệm đơn vị:
Hình 1.4.1: Kết quả kiểm định nghiệm đơn vị chuỗi sai phân của VNIndex
Từ kết quả trên có thể kết luận sai phân bậc nhất của VNIndex là một chuỗi dừng
Như vậy, để biến một chuỗi dừng thành chuỗi dừng ta áp dụng phương pháp
Trang 112 Quá Trình Tự Hồi Quy (AR), Trung Bình Trượt (MA) và Mô Hình ARIMA
Nếu một chuỗi thời gian có tính dừng, nó có thể tuân theo nhiều quá trình khác nhau:
2.1 Quá trình Tự Hồi Quy (AR)
Nếu một chuỗi thời gian tuân theo mô hình:
Với Y là chuỗi dừng và Ut là nhiễu trắng, ta nói Y tuân theo quá trình Tự
hồi quy bậc p Ký hiệu AR(p)
2.2 Quá trình Trung Bình Trượt (MA)
Nếu một chuỗi thời gian tuân theo mô hình:
Với Y là chuỗi dừng và Ut là nhiễu trắng, ta nói Y tuân theo quá trình Trung
bình trượt bậc q Ký hiệu MA(q)
2.3 Quá trình Trung bình trượt kết hợp Tự hồi quy (ARMA)
Tất nhiên, có nhiều khả năng Y có cả đặc điểm của AR và MA, khi đó ta nói
Y tuân theo quá trình Trung bình trượt kết hợp Tự hồi quy Ký hiệu ARMA(p,q)
Một quá trình ARMA(p,q) sẽ có p số hạng tự hồi quy và q số hạng trung bình trượt như sau:
Y t = Φ + [α 1 Y t -1 +…+ α p Y t -p ] + [β 1 U t-1 +…+ β q U t-q ]+ U t
2.4 Quá trình Trung bình trượt, Đồng liên kết, Tự hồi quy (ARIMA)
Một chuỗi thời gian có thể tuân theo nhiều mô hình khác nhau, tuy nhiên, cả
ba mô hình trên đều đòi hỏi chuỗi thời gian phải có tính dừng Nhưng trong thực
tế, tồn tại rất nhiều chuỗi thời gian không dừng Vậy làm cách nào để ứng dụng các mô hình trên trong thực tế? Câu trả lời chính là dùng phương pháp lấy sai phân để biến đổi một chuỗi thời gian không dừng thành chuỗi dừng trước khi áp dụng mô hình ARMA
Nếu một chuỗi thời gian dừng ở sai phân bậc d, ta nói chuỗi liên kết bậc d
Ký hiệu I(d) Kế hợp với quá trình ARMA ta có được mô hình Trung bình trượt,
Trang 12Đồng liên kết, Tự hồi quy ARIMA(p,d,q) với p số hạng tự hồi quy và q số hạng
trung bình trượt, và cần lấy sai phân bậc d đề chuỗi dừng Phương trình tổng quát như sau:
D d (Y t ) = Φ + [α 1 D d (Y t -1 ) +…+ α p D d (Y t -p )] + [β 1 U t-1 +…+ β q U t-q ]+ U t
Như vậy, xác định được các giá trị p, d, q ta sẽ mô hình hóa được chuỗi Đồng thời ta dễ dàng nhận ra, mô hình ARIMA chỉ sử dụng các giá trị quá khứ của bản thân nó chứ hoàn toàn không sử dụng thêm một biến độc lập nào khác Đây chính là triết lý “hãy để dữ liệu tự nói”
III Phương Pháp Luận BOX-JENKINS (BJ)
Một câu hỏi lớn đặt ra đối với mô hình ARIMA là làm thế nào xác định các giá trị p, d, q và xác định mô hình phù hợp? Box-Jenkins đã đưa ra phương pháp để xác định mô hình này qua các bước:
Bước 1: Nhận Dạng (xác định các giá tri p, d, q)
d: Đơn giản là số lần lấy sai phân để chuỗi dừng, nếu dừng ngay tại chuỗi gốc
thì d=0 Với chuỗi dữ liệu VNIndex của chúng ta, như đã thấy ở trên, chuỗi dừng ở sai phân bậc I, ta có d=1
Tuy nhiên, qua quá trình thực nghiệm, chúng tôi nhận thấy nếu lấy ln
chuỗi dữ liệu trước khi thực hiện các bước sau sẽ cho mô hình phù hợp
NHẬN DẠNG
ƯỚC LƯỢNG
KIỂM TRA
DỰ BÁO
Trang 13Để tạo ra chuỗi ln của VNIndex, ta vào Genr, trong khung Enter equation nhập logvnindex=log(vnindex) Kiểm định nghiệm đơn vị trên
chuỗi này cũng cho ta d=1
p: Công cụ chủ yếu để xác định p,q là dựa trên Lược đồ tương quan và Tương
quan riêng phần của chuỗi đã được biến đổi thành chuỗi dừng Trong trường hợp này là chuỗi sai phân bậc I của chuỗi log(vnindex)
Để xác định p, BJ đưa ra phương pháp nhận dạng như sau: một chuỗi dừng tự tương quan bậc p nếu:
Các hệ số tự tương quan giảm từ từ theo dạng mũ hoặc hình sin
Các hệ số tương quan riêng phần giảm đột ngột xuống giá tri bằng 0
có nghĩa ngay sau độ trễ p
Một số dạng hình học tiêu biểu của mô hình AR(1) như sau:
Trang 14Mô hình AR(2):
Ta quan sát đồ thị tự tương quan và tương quan riêng phần sai phân bậc I của chuỗi log(vnindex):
Dễ thấy, trên đồ thị tương quan riêng phần, tồn tại bốn hệ số khác 0
có nghĩa tại các độ trễ 1,2,4 và 10, trong đó sau độ trễ 2,4,10 các hệ số
Trang 15đồ thị tự tương quan cũng giảm theo hình sin Như vây, p có thể mang 1 trong 3 giá trị: 2, 4 hoặc 10.
q: Tương tự như cách xác định p, tuy nhiên đổi vai trò giữa các hệ số tương
quan và tương quan riêng phần Một chuỗi dừng trung bình trượt bậc q nếu:
Các hệ số tương quan riêng phần giảm từ từ theo dạng mũ hoặc hình sin
Các hệ số tự tương quan giảm đột ngột xuống giá tri bằng 0 có nghĩa
ngay sau độ trễ q
Quan sát đồ thị tự tương quan và tương quan riêng phần sai phân bậc
I chuỗi log(VNIndex) ta nhận thấy q có thể mang một trong các giá tri: 1,
5, 10 hoặc 13
Như vậy ta có mô hình ARIMA(p,1,q) với:
p ∈ {2,4,10}
q ∈ {1,5,10,13}
Bước 2: Ước lượng
Để ước lượng các hệ số của mô hình, đôi khi ta có thể thực hiện bằng phương pháp bình phương tối thiểu, nhưng cũng có trường hợp phải sử dụng các phương pháp ước lượng phi tuyến Ngày nay, với sự trợ giúp của các phần mềm thống kê, ta có thể dễ dàng thực hiện điều này
Giả sử ta ước lượng mô hình ARIMA(4,1,10) có chặn Trong Eviews
ta thực hiện như sau: