Nhu cầu dự báo ngày canggia tăng ở hầu hết các bộ phận chức năng của tổ chức để thực hiện các dự báo cho cácquyết định về tài chính, tiếp thị, nhân sự, sản xuất,… Có rất nhiều phương ph
Trang 1ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC KINH TẾ KHOA THỐNG KÊ – TIN HỌC
ĐỀ ÁN MÔN HỌC
CÁC MÔ HÌNH DỰ BÁO THEO PHƯƠNG PHÁP
BOX-JENKINS (MÔ HÌNH ARIMA)
GVHD: Hà Thị Phương Thảo -oOo -
SVTH : Phan Thị Tư ( Lớp 38k05)
TP.Đà Nẵng, 04/ 2015
Trang 2M c l c ục lục ục lục
Chương 1: Giới thiệu 3
Chương 2 : Chuỗi thời gian và các thành phần của chuỗi thời gian 4
1 Chuỗi thời gian 4
1.1 Khái niệm 4
1.2 Tự tương quan 4
2 Các thành phần của chuỗi thời gian 6
3 Chuỗi thời gian dừng và chuỗi không dừng 8
3.1 Chuỗi thời gian dừng 8
3.2 Chuỗi không dừng 9
3.3 Chuỗi dừng sai phân 11
Chương 3 : Kiểm định tính dừng 11
1 Gỉan đồ tự tương quan 12
1.1 Thống kê t 12
1.2 Thống kê Q 12
2 Kiểm định nghiệm đơn vị 14
Chương 4: các mô hình tự hồi quy 16
1 Mô hình tự hồi quy bậc p, AR(p) 16
2 Mô hình bình quân di động bậc q, MA(q) 19
3 Mô hình ARMA 21
Chương 5: Mô hình ARIMA 21
1 Quy trình lựa chọn mô hình ARIMA(p,d,q) 21
2 Phương pháp Box-Jenkins 22
3 Ước lượng mô hình ARIMA trên thực tế 25
Kết luận 26
Tài liệu tham khảo: 26
Trang 3Chương 1: Giới thiệu
Theo lời một giám đốc chiến lược chuỗi cung ứng của công ty Motts NorthAmerica như sau : “Tôi tin chắc rằng dự báo có lẽ là khả năng đống góp vào giá trịcủa một doanh nghiệp nhiều hơn bất kỳ một hoạt động nào khác trong chuỗi cung ứng
vì dự váo đúng sẽ làm cho mọi thứ khác trong chuỗi cung ứng được tiến hành mộtcách dễ dàng hơn”1
Dự báo các chỉ số kinh tế và kinh doanh đóng một vai trò rất quan trọng trong quátrình ra quyết định kinh doanh của doanh nghiệp, phân tích chính sách, và trong rấtnhiều nghiên cứu kinh tế ứng dụng Hầu như một tổ chức, lớn hay nhỏ, công hay tưđều đang thực hiện dự báo theo một cách nào đó bởi vì hoạch định luôn lôn là mộttrong những chức năng cơ bản nhất của bất kỳ tổ chức nào Nhu cầu dự báo ngày canggia tăng ở hầu hết các bộ phận chức năng của tổ chức để thực hiện các dự báo cho cácquyết định về tài chính, tiếp thị, nhân sự, sản xuất,…
Có rất nhiều phương pháp và mô hình dự báo được phát minh ra để giúp đỡ chocác nhà quyết định, trong đôcs một lớp các mô hình dựa trên sự phân tích thống kê các
dữ liệu trong quá khứ để đưa ra dự báo Sự phát triển của công nghệ thông tin giúpcho việc thu thập, lưu trũ và tính toán thống kê trên một lượng lớn dữ liệu dễ dànghơn, làm cho các mô hình thống kê trở nên phổ biến Công việc của các nhà dự báo làlựa chọn một mô hình phù hợp với bài toán của mình Bài viết này sẽ giới thiệu vềcách xây dựng và kiểm định mô hình ARIMA, một phương pháp dự báo chuỗi thờigian được sử dụng khá phổ biến trong việc dự báo các chỉ báo kinh tế có độ nhạy caonhư lãi suất, chỉ số giá chứng khoán, giá vàng, giá dầu…của thị trường trong nước vàthế giới
1 Wilson, J Holton & Barry Keating, 2007, Business Forecasting
Trang 4Chương 2 : Chuỗi thời gian và các thành phần của chuỗi thời gian
Dữ liệu chuỗi thời gian là các dữ liệu mà các biến quan sat được thu thậptheo từng khoảng thời gian thống nhất tùy theo đặc điểm của từng đối tượngnghiên cứu
Với mỗi chuỗi thời gian, ta thường biểu thị trong một mặt phẳng với trục hoảnhbiểu thị thời gian và trục tung biểu thị giá trị biến quan sát
Nghiên cứu chuỗi thời gian với mục đích nhận dạng và tập hợp lại các yếu tố,những biến đổi theo thời gian mà nó có ảnh hưởng đến giá trị của biến quan sát
Ví dụ :
Khó khăn và thử thách khi nghiên cứu về dữ liệu chuỗi thời gian là dữ liệuthường rất lớn, phụ thuộc nhiều vào yếu tố chủ quan của người dùng và tập dữliệu khi đánh giá mức độ tưng quan giữa các chuỗi, dữ liệu không đồng nhất.Trong mỗi chuỗi thời gian thường các giá trị ở những thời điểm khác nhau
có mối tương quan với nhau Sự tương quan này được đánh giá bằng hệ số tựtương quan
1.2 Tự tương quan
Trang 5Tự tương quan là sự tương quan giữa một biến với chính nó theo những độtrễ thời gian khác nhau.
Nếu k≠ 0 thì giữa Xt và Xt+k có sự tương quan với nhau
Để biểu diễn sự tương quan của một biến theo nhiều độ trễ khác nhau một cáchtrực quan, ta dùng hàm tự tương quan
Hàm tự tương quan là một đồ thị biểu diễn các hệ số tự tương quan theo các
T k
t t k t
t t
X là trung bình mẫu của X t
T là số phần tử của mẫu
Để kiểm tra xem hệ số tự tương quan ở độ trễ k của một chuỗi thời gian cókhác không, ta dùng phép thử t:
1 2 1
1 2
k k i i
r t
r n
Trang 6Nếu k = 0 thì t sẽ có phân phối student với n-1 bậc tự do Đối với mẫu có kích
thước lớn, với mức ý nghĩa 5%, nếu hệ số tương quan mẫu nằm trong khoảng 2 / n
thì ta có thể kết luận hệ số tự tương quan của đám đông bằng không với mức ý nghĩa5%
Việc đánh giá hệ số tự tương quan có ý nghĩa quan trọng trong việc phântích chuỗi thời gian Hàm tự tương quan của dữ liệu giúp ta xác định được cácthành phần của chuỗi thời gian từ đó có thể lựa chọn mô hình dự báo hợp lýcũng như việc đánh giá tính đầy đủ của mô hình
một biến số theo thời gian với khoảng thời gian đủ dài Nói cách khác, mộtchuỗi thời gian được cho là có yếu tố xu thế nếu giá trị trung bình nó thay đổitheo thời gian (có thể tăng hoặc giảm)
Ví dụ : tốc dộ tăng dân số Việt Nam có xu hướng giảm, tỷ trọng nông nghiệptrong GDP của Việt Nam có xu hướng giảm, mức giá có xu hướng tăng…
Các kỹ thuật dự báo với chuỗi xu thế phù hợp trong các trường hợp sau đây:
dụ, nhu cầu mua sắm các thiết bị điện tử gai tăng khi công nghệ máy tính pháttriển nhanh chóng, nhu cầu sử dụng phương tiện đi lại bằng đường sắt giảm khingành hàng không phát triển
các hàng hóa tiêu dùng, nhu cầu năng lượng, và các nguyên vật liệu có xu hướngtăng
phát Ví dụ, tiền lương, chi phí sản xuất, và giá hàng hóa có xu hướng tăng dolạm phát
của một sản phẩm trong chu kỳ kinh doanh của một sản phẩm mới
Các kỹ thuật dự báo phù hợp với dạng dữ liệu này đang dữ liệu này bao gồm các
mô hình di động, san bang Holt, hồi quy đơn, mô hình hàm xu thế, mô hìnhARIMA
lặp lại tại từng thời điểm cố định trong năm của chuỗi thời gian Đối với mộtchuỗi thời gian có tính thời vụ thì giá trị tại thời điểm cố định tại thời điểm cốđịnh theo từng năm sẽ có sự tương quan với nhau Các kỹ thuật dự báo sử dụngkhi:
Trang 7- Thời tiết, văn hóa và lễ hội ảnh hưởng đến biến số cần dự báo Ví dụ,lượng tiêu thụ điện, các hoạt động theo mùa đông hoặc mùa hè (thể thao, dulịch), thời trang, sản xuất nông nghiệp.
ảnh hưởng bởi các kỳ nghỉ, ngày nghỉ cuối tuần, hoặc niên học
Các kỹ thuật phù hợp với dạng dữ liệu này bao gồm các mô hình phân tích,san bằng mũ Winters, hồi quy bội, các mô hình ARIMA
Hình 01: xu hướng và thời vụ
Nguồn: Problem set 7, Analytic method for Policy Making, Chương trình Giảng dạy Kinh tế Fulbright Việt Nam 2000.
T trong chu kỳ nhiều năm Các dạng dữ liêij có tính chu kỳ thường rất khó môhình hóa bởi vì các dạng dữ liệu không có tính ổn định Các kỹ thuật dự báo nàythường được sử dụng trong các trường hợp sau đây:
kinh tế, thị trường và cạnh tranh có thể ảnh hưởng đến doanh số
dụ như thời trang, âm nhạc, ẩm thực
bệnh dịc và thiên tai
Các kỹ thuật phù hợp với dạng dữ liệu này bao gồm các mô hình phân tích,các mô hình kinh tế lượng, hồi quy bội, và các mô hình ARIMA
Việc xác định một chuỗi thời gian có xu thế hay có tính thời vụ không rấtquan trọng trong bài toán dụ báo chuỗi thời gian Nó giúp chúng ta lựa chọnđược mô hình dự báo phù hợp hay giuos cải thiện mô hình đã có chính xác hơn
Trang 8 Ngẫu nhiên I : là sự biến đổi ngẫu nhiên không thể đoán được của chuỗithời gian
Hình 02 : chu kỳ và ngẫu nhiên – Tăng trưởng kinh tế của Hoa Kỳ giai đoạn
1961 – 1999
Nguồn : World Development Indicator CD-Rom 2000, World Bank.
Một khái niệm quan trọng trong các quy trình phân tích chuỗi thời gian làtính dừng Một chuỗi dừng có đặc điểm sau:
liệu dao đọng xung quanh một giá trị trung bình cố định trong dài hạn
của hiệp phương sai giữa hai đoạn chỉ phụ thuộc vào khoảng cách giữa hai giaiđoạn
Trang 9Trong đó, γk là hiệp phương sai ở độ trễ k, là hiệp phương sai giữa các giá trị
đã biết, trong dự báo chuỗi thời gian, chúng ta luôn gải định rằng xu hướng vậnđộng của dữ liệu trong quá khứ và hiện tại được duy trì cho các giai đoạn tươnglai Và như vậy chúng ta không thể đự báo được điều gì cho tương lai nếu nhưbản thân dữ liệu luôn thay đổi Hơn nữa, đối với phân tích hồi quy , nếu chuỗithời gian không dừng thì tất cả các kết quả điển hình của một phân tích hồi quytuyến tính cổ điển sẽ không có giá trị cho việc dự báo, và thường được gọi làhiện tượng “hồi quy giả mạo” Do vậy, điều kiện có bản nhất cho việc dự báomột chuỗi thời gian đó là nó phải có tính dừng
Các kỹ thuật dự báo với dữ liệu dừng được sử dụng khi :
chuỗi dữ liệu tồn tại tương đối không đổi
nhằm dễ giả thích cho người sử dụng kết quả dự báo, hoặc dễ thực hiện việc dựbáo
các yếu tố như tốc độ tăng dân số hay lạm phát
cũng được xem như có tính ổn định
Các kỹ thuật dự báo có thể phù hợp với dạng dữ liệu này bao gồm các môhình dự báo thô, các phương pháp trung bình giản đơn, các mô hình trung bình
di động, các mô hình ARIMA
Trang 10Một chuỗi thời gian không thỏa mãn ba tính chất (1), (2) và (3) gọi là chuỗikhông dừng Việc biểu diễn một chuỗi thời gian không dừng bằng một mô hìnhđại số đơn giản là không dễ nhưng trong thực tế ta rất thường gặp các chuỗi thờigian không tĩnh do bản chất của chuỗi có yếu tố xu thế hoặc ngẫu nhiên, do đó
ta cần biến đổi một chuỗi thời gian không dừng về thành phần của chuỗi dừng
Ví dụ cổ điển về trường hợp chuỗi không dừng là mô hình bước ngẫunhiên.Kinh tế lượng chuỗi thời gian thường chia bước ngẫu nhiên thành hai loại:bước ngẫu nhiên không có hằng số và bước ngẫu nhiên có hằng số
phân tích và dự báo các chuỗi thời gian không dừng, cụ thể là nhà dự báo có thểbiến một chuỗi không dừng thành một chuỗi dừng nhằm phục vụ cho quá trình
dự báo theo một trình tự nhất định mà mô hình ARIMA là một trong nhữngcông cụ có khả năng thích nghi cho chuỗi không dừng sau khi lấy sai phân
Trang 11Nếu ta điều chỉnh phương trình (4) theo cách sau đây:
Một bước ngẫu nhiên có hằng số có đặc điểm sau đây :
E(Yt) = E( + Yẟ + Y 0 + Σµt) = Y0 + t ẟ + Y (11)
Và Var(Yt) = t.σ2
Tóm lại, một bước ngẫu nhiên có hằng số bản thân nó là một chuỗi không dừng
Như đã đề cập ở trên , một bước ngẫu nhiên là một chuỗi không dừng, nhưngsai phân bậc một của nó là một chuỗi dừng Như vậy, ta có thể nói một bướcngẫu nhiên là một chuỗi dừng sai phân bậc một, và được ký hiệu là I(1) Lậpluận tương tự, nếu một chuỗi thời gian không dừng ở sai phân bậc một nhưngdừng ở sai phân bậc hai thì ta gọi đó là chuỗi dừng sai phân bậc hai và được kýhiệu là sai phân bậc hai I(2) Một cách tổng quát, nếu một chuỗi dừng sai phânbậc d , thì ký hiệu là I(d) Và một chuỗi dừng cũng có thể gọi là chuỗi dừng ở saiphân bậc 0, ký hiệu là I(0) Tuy nhiên , theo kinh nghiệm của các nhà dự báo thì
d thông thường cao nhất thường không vượt quá 2
Đặc điểm của các chuỗi dừng sai phân:
- Nếu Xt ~ I(0) và Yt ~ I(1), thì Zt = (Xt + Yt) = I(1)
- Nếu Xt ~ I(d1) và Yt ~ I(d2) thì Zt = (aXt + bYt)~I(d2) với d1<d2
Các đặc điểm này rất quan trọng Nhớ rằng, trong mô hình hồi quy đơn ta có:
Như vậy, chúng ta sẽ rất khó suy diễn thống kê cho các ước lượng OLS
Chương 3 : Kiểm định tính dừng
Trang 121 Gỉan đồ tự tương quan
Theo định nghĩa tính dừng thì Yt là dừng nếu :
E(Yt) = µ
Var(Yt) = E(Yt-µ)2=σ2
Cov(Yt,Yt+k) = γk = E[(Yt- µ)(Yt+k- µ)]
Để kiểm định tính dừng này, một trong các kiểm định đơn giản là kiểm định
(12)
Phương trình () được gọi là hàm tự tương quan, ký hiệu là AFC
Do thực tế chúng ta chỉ có dữ liệu mẫu, nên ta chỉ có thể ước lượng được hệ sốtương quan mẫu theo công thức sau:
(13)
Trong đó , Y là giá trị trung bình mẫu của chuỗi Yt, k là độ trễ, n là số quan sátcủa mẫu Có hai phương pháp kiểm định xem hệ số tương quan có ý nghĩa thống kêhay không là : thống kê t và thống kê Q
I.1 Thống kê t
Gọi ρk là hệ số tự tương quan tổng thể (rk là ước lượng không chệch của ρk) ta cócặp giả thuyết cần kiểm định :
Gỉa thuyết H0 : ρk = 0Đối thuyết H1 : ρk ≠ 0Nếu một chuỗi thời gian ngẫu nhiên thì các hệ số tự tương quan là một biến ngẫunhiên và có phân phối chuẩn với trung bình là 0 và phương sai là 1/N Với sai sốchuẩn của hệ số tự tương quan se(rk) là √1/ N, ta có thể xây dựng khoảng tin cậy cho ρk
(Prob[rk–se(rk)*tα/2<ρk < rk+se(rk)*tα/2]) hoặc tìm được giá trị thống kê t tính toán ở mộtmức ý nghĩa xác định (t= r k
tính toán lớn hơn giá trị t quan sát ta bác bỏ giả thuyết H0
I.2 Thống kê Q
Cặp giả thuyết cần kiểm định:
Giả thuyết H0 : ρ1 = …= ρm = 0Đối thuyết H1 : ít nhất một số tương quan khác 0
(Y t−Y )2
Trang 13Sử dụng Eviews để xét tính dừng của chuỗi dữ liệu:
- Nếu hệ số tự tương quan đầu tiên khác 0 nhưng các hệ số tự tương quan tiếptheo bằng 0 có ý nghĩa thống kê thì đó là một chuỗi dừng
- Nếu một số hệ số tự tương quan khác 0 một cách ý nghĩa thống kê thì đó là mộtchuỗi không dừng
Ví dụ : cho các số liệu về Y = CPI89 là chỉ số giá tiêu dùng tính theo quý của ViệtNam từ quý I/1991 đến quý IV/1997
Date: 04/20/15 Time: 10:19 Sample: 1 28
Included observations: 28
Autocorrelation Partial Correlation AC PAC Q-Stat Prob
|******| |******| 1 0.875 0.875 23.806 0.000 |***** | *| | 2 0.746 -0.083 41.769 0.000 |***** | | | 3 0.626 -0.031 54.955 0.000 |**** | | | 4 0.525 0.003 64.616 0.000 |*** | | | 5 0.443 0.013 71.790 0.000 |*** | | | 6 0.365 -0.042 76.869 0.000 |** | *| | 7 0.281 -0.075 80.026 0.000 |* | | | 8 0.197 -0.056 81.654 0.000 |* | | | 9 0.122 -0.026 82.312 0.000 | | *| | 10 0.041 -0.095 82.392 0.000 | | *| | 11 -0.051 -0.131 82.522 0.000 *| | | | 12 -0.137 -0.061 83.508 0.000
Bảng 01 : Giản dồ tự tương quan chuỗi gốc của CPI89
Date: 04/20/15 Time: 10:38 Sample: 1 28
Included observations: 27
Autocorrelation Partial Correlation AC PAC Q-Stat Prob
|*** | |*** | 1 0.434 0.434 5.6835 0.017 | | **| | 2 -0.055 -0.301 5.7797 0.056 | | |** | 3 0.044 0.280 5.8434 0.119 |** | | | 4 0.216 0.060 7.4371 0.115 *| | ***| | 5 -0.150 -0.413 8.2328 0.144 ***| | | | 6 -0.396 -0.055 14.068 0.029 **| | *| | 7 -0.262 -0.147 16.756 0.019 | | |* | 8 0.034 0.156 16.804 0.032 | | *| | 9 -0.060 -0.115 16.961 0.049 *| | | | 10 -0.196 -0.037 18.723 0.044 | | |* | 11 0.026 0.181 18.755 0.066 |** | | | 12 0.306 0.004 23.651 0.023
Trang 14Bảng 02 : Gian đồ tự tương quan chuỗi sai phân bậc một của CPI89
Nhìn vào hình 01 và 02 ta có thể kết luận, bản thân chỗi CPI89 là một chuỗi khôngdừng nhưng sai phân bậc 1 của CPI89 là một chuỗi dừng Hay nói cách khác, CPI89 làmột chuỗi sai phân bậc 1
2 Kiểm định nghiệm đơn vị
Một tiêu chuẩn khác để kiểm định tính dừng là kiểm định nghiệm đơn vị (unit roottest)
Xét mô hình sau :
Yt = ρYt-1 + ut (-1≤ ρ ≤ 1) (15)Nếu như ρ = 1, khi đó Yt là một bước ngẫu nhiên và Yt là một chuỗi dừng Do đó
để kiểm định tính dừng của Yt ta xây dựng cặp giả thuyết cần kiểm định sau :
Giả thuyết H0 : ρ = 1 (Yt là chuỗi không dừng)Đối thuyết H1 : ρ ≠ 1 (Yt là chuỗi dừng)
Phương trình (15) tương đương với phương trình (15) sau đây:
ΔYYt=Yt –Yt-1 = (ρ-1)Yt-1 + ut
= Yẟ + Y t-1 + ut (16)Như vậy, cặp giả thuyết trên được viết lại như sau:
Giả thuyết H0 : = 0 (Yẟ + Y t là chuỗi không dừng)Đối thuyết H1 : ≠ 0 (Yẟ + Y t là chuỗi dừng)
Nếu H0 được chấp nhận thì : ΔYYt=Yt –Yt-1 = ut
Do đó chuỗi Yt là dừng vì ut là nhiễu trắng
Để tìm ra chuỗi Yt là không dừng thì hoặc là chúng ta sẽ ước lượng mô hình (15)
và kiểm định giả thuyết H0 : ρ = 1 hoặc ước lượng mô hình (16) và kiểm định giảthuyết : H0 : = 0.ẟ + Y
Trong cả hai mô hình này đều không sử dụng được tiêu chuẩn t (kiểm địnhstudent) nay cả trong trường hợp mẫu lớn
Dickey – Fuller đã đưa ra tiêu chuẩn kiểm định như sau :
Giả thuyết H0 : ρ =1 Đối thuyết H1 : ρ ≠ 1
Ta ước lượng mô hình (15) , τ = r
(DF)
Nếu |τ| >|τα| thì bác bỏ giả thuyết H0 Trong trường hợp này chuỗi là dừng
Tiêu chuẩn DF được áp dụng cho các mô hình sau:
- Khi Yt là một bước ngẫu nhiên không có hằng số: ΔYYt = Yẟ + Y t-1 + ut (17)
- Khi Yt là một bước ngẫu nhiên không có hằng số: ΔYYt = β1 + Yẟ + Y t-1 + ut (18)
- Khi Yt là một bước ngẫu nhiên có hằng số xoay quanh một đường xu thế ngẫunhiên : ΔYYt = β1 + β2TIME + Yẟ + Y t-1 + ut (19)