Biểu diễn chu kỳ chuỗi thời gian

Một phần của tài liệu Hoang-Van-Tien_Luan-van_v3.6 (Trang 35)

- Thành phần chu kì (dài hạn): biểu thị bằng sự tăng, giảm của dữ liệu chuỗi thời gian xoay quanh xu hướng. Thường trong chuỗi dữ liệu dài hạn thì khó đốn chu kì.

- Thành phần ngẫu nhiên: Đây là thành phần ngược với chu kỳ, thành phần ngẫu nhiên chỉ sự thay đổi bất thường của giá trị trong chuỗi thời gian và thường khơng dự đốn được sự thay đổi của dữ liệu. Những tác động gây ra sự thay đổi dữ liệu thường do các yếu tố bên ngoài tác động.

Hình 3.5. Sơ đồ chuỗi thời gian với định lượng ( ) theo diễn biến thời gian t

Với sơ đồ Hình 3.5 ta có Yt là giá trị định lượng trên chuỗi thời gian được tính tại thời điểm t, qua đó ta có thể xác định được các mơ hình sau:

- Mơ hình cộng: = + + + . (3.1)

- Mơ hình nhân: =. (3.2)

Trong đó: T là thành phần xu hướng (Trend); S là thành phần mùa (Seasonality); C là thành phần chu kỳ (Cyclical); I là thành phần ngẫu nhiên (Irregular).

Mơ hình nhân được sử dụng nhiều hơn. Nếu thành phần chu kỳ và mùa khơng ảnh hưởng đến mức chung của chuỗi thời gian thì nên sử dụng mơ hình cộng, ngược lại mơ hình nhân được sử dụng nếu thành phần mùa phụ thuộc xu hướng và chu kỳ.

3.2. Tính dừng của dữ liệu chuỗi thời gian

Dữ liệu chuỗi thời gian có thể được tạo ra từ một q trình và kết quả của nó là tập dữ liệu theo thời gian. Q trình đó, sinh ra một tập dữ liệu tổng thể và một tập hợp dữ liệu con được trích xuất từ tập dữ liệu tổng thể đó gọi là một tập dữ liệu mẫu. Một tính chất quan trọng của dữ liệu chuỗi thời gian là tính dừng [4]. Một chuỗi giá trị trên thời gian t là Yt được coi là dừng khi kỳ vọng, phương sai và hiệp phương sai ở các độ trễ khác nhau giữ nguyên theo diễn biến thời gian [4]. Chuỗi Yt được coi là dừng khi thỏa mãn:

- ( ) = (∀ ). (3.3)

-()= (−)2 = 2(∀ ). (3.4)

-( , + ) = [( + − )( − )] = (∀ ). (3.5)

hiệp phương sai giữa Yt và Yt + k không phụ thuộc thời gian t mà phụ thuộc độ trễ thời gian k giữa hai thời đoạn.

3.2.1. Kiểm tra tính dừng chuỗi thời gian

3.2.1.1. Kiểm tra trực quan trên trên đồ thị biểu diễn chuỗi thời gian

Chuỗi yt, nếu đồ thị = ( ) cho trung bình và phương sai của Yt khơng đổi theo thời gian thì chuỗi có tính dừng. Quan sát đồ thị chuỗi dữ liệu thời gian nếu thấy trung bình có xu hướng tăng hoặc giảm theo từng khoảng thời gian thì có thể dự đốn rằng chuỗi là khơng dừng. Phương pháp này giúp ta đánh giá trực quan, ban đầu về tính dừng của chuỗi thời gian. Tuy nhiên, với những chuỗi thời gian có xu hướng khơng rõ ràng, phương pháp này khó khả thi và kết quả kiểm tra đôi khi không đúng.

3.2.1.2. Kiểm tra dựa trên sơ đồ tự tương quan và tự tương quan riêng phần 3.2.1.2.1. Sơ đồ tự tương quan ACF (Autocorelation Function)

Sử dụng dùng hàm tự tương quan ACF, trong đó: độ trễ k ký hiệu bằng ρk, xác định bằng công thức như sau:

( ) = ( , − ) (3.6) ( )

Giá trị ρk có giá trị từ -1 đến 1, là hệ số tương quan giữa Yt và Yt-k. Hàm tự tương quan đo lường sự phụ thuộc tuyến tính giữa các cặp quan sát Yt và Yt-k . Ví dụ: ρ1 là hệ số tương quan giữa Yt và Yt-1, ρi là hệ số tương quan giữa Yt và Yt-i... Nếu vẽ đồ thị ρk

với độ trễ k, đồ thị này sẽ cho ra một lược đồ tương quan ACF.

3.2.1.2.2. Sơ đồ tự tương quan riêng phần PACF (Partial Autocorrelation Function)

Ta có hệ số tự tương quan ρk với ≥ 2, cho thấy sự kết hợp tuyến tính giữa Yt và Yt+k. Tuy vậy, mức độ kết hợp tuyến tính giữa chúng có thể do tác động của một số biến khác. Trong trường hợp này là do ảnh hưởng từ các biến Yt-1, …, Yt-k+1. Do vậy, ta sử dụng hàm tương quan PACF để đo độ kết hợp giữa Yt và Yt-k , với hệ số tương quan riêng ρkk ước lượng theo công thức Durbin:

− ∑ −1 =1 −1 ()= = − (3.7) 1−∑ −1 =1 −1

Hệ số tương quan riêng phần thể hiện mối quan hệ giữa hai biến khi tất cả những biến khác giữ nguyên giá trị. Nếu chuỗi dừng thì các kk cũng có phân phối chuẩn (0, 1⁄ ), do đó kiểm định giả thiết đối với ρkk tương tự như đối với ρk.

3.2.2. Biến đổi chuỗi không dừng thành chuỗi dừng

Với chuỗi thời gian ban đầu khơng có tính dừng, trước khi xây dựng mơ hình ARIMA ta phải biến chuỗi thành có tính dừng, phương pháp là lấy sai phân cấp d với d = 1 hoặc d = 2,...

Ta có cơng thức: = −1 + , giá trị ut là nhiễu trắng.

Ta có cơng thức sai phân cấp 1 của yt như sau: ( ) = − −1 = , trong đó với ut là nhiễu trắng nên ( ) là chuỗi dừng.

Nếu lấy sai phân cấp 1 chuỗi thời gian Yt nhưng chưa cho kết quả là chuỗi dừng thì tiếp tục lấy sai phân cấp 2, 3… Có thể nói, ln có một giá trị d để sai phân cấp d của Yt là chuỗi dừng. Khi đó, Yt là liên kết bậc d, ký hiệu là I(d). Sai phân của cấp d được tính như sau:

+ Cấp 1: ( ) = − −1 (3.8) + Cấp 2: ( ( )) = 2( )=( − )−( − ) (3.9)

−1 −1 −2

+ Tương tự như vậy với sai phân cấp d: ( −1( )) (3.10)

Nếu yt ở dạng logarit thì giá trị ( ) là phần trăm thay đổi của yt so với trước đó.

3.3. Mơ hình ARIMA

3.3.1. Mơ hình tự hồi quy AR (Autoregressive process)

Ý tưởng mơ hình AR(p) là hồi quy số liệu của nó trong q khứ ở những chu kì

trước.

= 0+ 1 −1+ 2 −2+⋯+ − + ;

(3.11) trong đó:

Yt : quan sát dừng hiện tại;

Yt-1, Yt-2,...: là quan sát dừng ở thời điểm trong quá khứ; a0, a1, a2, …: các tham số phân tích hồi quy;

ut : sai số dự báo ngẫu nhiên của giai đoạn hiện tại, với ut giá trị trung bình được mong đợi bằng 0.

Hàm tuyến tính Yt là của chuỗi quan sát dừng những thời điểm trong quá khứ: Yt-1, Yt-2…

Khi phân tích hồi quy Yt theo các giá trị trong chuỗi thời gian, chuỗi dừng có độ trễ, chúng ta sẽ được mơ hình AR. Số quan sát dừng ở các thời điểm quá khứ được sử dụng trong mơ hình tự hồi quy là bậc p của mơ hình AR. Nếu sử dụng 2 quan sát dừng ở quá khứ, ta có mơ hình tương quan bậc hai AR(2).

- Mơ hình AR(1) : = 0

+ 1 −1

+ (3.12)

- Mơ hình AR(2) : = 0 + 1 −1 + 2 −2+ (3.13)

3.3.2. Mơ hình trung bình trượt MA (Moving Average)

Hàm tuyến tính yt phụ thuộc vào các biến sai số dự báo quá khứ và hiện tại. Mơ hình trung bình trượt là một trung bình trọng số của những sai số mới nhất.

= 0+ + 1 −1+ 2 −2+⋯+ −

trong đó:

Yt : quan sát dừng hiện tại; ut : sai số dự báo;

ut-1, ut-2,... : sai số dự báo quá khứ;

b0, b1, b2,... : giá trị trung bình của yt và các hệ số bình quân di động;

q : là bậc của MA. - Mơ hình MA(1) : = 0 + + 1 −1 - Mơ hình MA(2) : = 0 + + 1 −1 + 2 −2 (3.14) (3.15) (3.16)

3.3.3. Mơ hình trung bình trượt và tự hồi quy ARMA (Autoregressive Moving Average) Average)

Để biểu diễn sơ đồ Y không chỉ riêng AR hoặc MA mà có thể kết hợp cả hai, sự kết hợp ta được mơ hình ARMA, cịn gọi là mơ hình trung bình trượt tự hồi quy.

Yt là quá trình ARMA(1, 1) nếu Y có thể biểu diễn dưới dạng:

Yt = 0 + 1 −1 ++ 0 + 1 −1 (u là nhiễu trắng) (3.17) Tóm lại, Yt là q trình ARMA (p, q) nếu Yt có thể biểu diễn dưới dạng:

Yt = 0 + 1 −1 + 2 −2 + … + − + + 0 + 1 −1 +

(3.18)

2 −2+ . . . + −

3.3.4. Mơ hình trung bình trượt tự hồi quy ARIMA (AutoregressiveIntergrated Moving Average) Intergrated Moving Average)

Một chuỗi thời gian có thể tn theo nhiều mơ hình khác nhau. Tuy nhiên, cả ba mơ hình AR, MA, ARMA đều u cầu chuỗi phải có tính dừng [4]. Nhưng thực tế có nhiều chuỗi thời gian khơng có tính dừng. Vậy làm thế nào để áp dụng được các mơ hình trong thực tế ? Câu trả lời ở đây là sử dụng phương pháp lấy sai phân biến đổi một chuỗi không dừng thành chuỗi dừng, trước khi sử dụng mơ hình ARMA.

Nếu chuỗi Yt có đồng liên kết bậc d trên mơ hình ARMA (p, q) cho chuỗi sai phân bậc d, thì chúng ta có mơ hình ARIMA (p, d, q). Với bậc tự hồi quy p, số lần lấy sai phân d để chuỗi Yt được xác định là chuỗi dừng, bậc trung bình trượt q (p và q là bậc tương ứng của chuỗi dừng).

- Trong mơ hình ARIMA (p, d, q), khi d = 0 và q = 0 thì ta có AR(p). - Trong mơ hình ARIMA (p, d, q), khi d = 0 và p = 0 thì ta có MA(q).

- Với ARIMA(1,1,1) nghĩa là Yt có sai phân bậc 1 là một chuỗi dừng. Chuỗi sai phân dừng này có thể biểu diễn dưới dạng ARMA (1,1).

∆ = 0 + 1 −1 + 0 + 1 −1 (u là nhiễu trắng) (3.19) Như vậy, xác định được các giá trị p, d, q ta sẽ mơ hình hóa được chuỗi ARIMA. Ta thấy, mơ hình ARIMA chỉ sử dụng các giá trị trong quá khứ của chuỗi chứ không dùng thêm biến độc lập khác.

3.3.5. Dự báo dữ liệu chuỗi thời gian

Dự báo chuỗi thời gian là phương pháp dự báo sử dụng các giá trị lịch sử của các nhân tố chẳng hạn như giá và sản lượng, lạm phát, lợi nhuận trong quá khứ,… để dự báo giá trị hiện tại hoặc dự báo sự thay đổi của giá trị hiện [4]. Gồm có loại dự báo chính là dự báo định tính và dự báo định lượng. Chuỗi thời gian thuộc lớp dự báo định lượng vì kết quả của mơ hình là một giá trị định lượng, nên được sử dụng khá phổ biến trong nghiên cứu kinh tế học như GDP, lạm phát, tăng trường hay nghiên cứu giá cả thị trường. Trong loại hình này một vài nguyên tắc dự báo cơ bản thường được dùng là AR, MA,…

Phương pháp Box-Jenkins được xem là một trong những kỹ thuật có hiệu quả cao trong việc đưa ra các dự báo chính xác và có độ tin cậy cao. Sức mạnh của nó là ở chỗ nó đưa ra những thơng tin giúp nhà phân tích chuỗi thời gian lựa chọn mơ hình phù hợp với dữ liệu quan sát được. Đối với các phương pháp khác, nhà phân tích giả thiết một mơ hình nào đó rồi tiến hành ước lượng các tham số của mơ hình. Trong giai đoạn đầu tiên, ta nhận dạng một mơ hình thử nghiệm bằng cách so sánh các hàm tự tương quan mẫu và tự tương quan riêng phần mẫu của chuỗi thời gian dừng với các hàm tự tương quan và tự tương quan riêng lí thuyết của các mơ hình ARMA.

ARIMA là một mơ hình dự báo phổ biến và linh hoạt sử dụng dữ liệu trong quá khứ để đưa ra các dự báo [7]. Loại mơ hình này là một kỹ thuật dự báo cơ bản có thể được sử dụng làm nền tảng cho các mơ hình phức tạp hơn. Dựa vào những đặc điểm đó, trong phần thực nghiệm học viên quyết định sử dụng mơ hình ARIMA để thực nghiệm trên tập dữ liệu chuỗi thời gian.

Các bước chính trong phương pháp Box‐Jenkins:

Bước 1: Nhận dạng mơ hình

Dữ liệu quá khứ được sử dụng để nhận dạng thử một mơ hình ARIMA thích hợp.

Bước 2: Ước lượng mơ hình

Dữ liệu quá khứ được sử dụng để ước lượng các tham số của mơ hình thử nghiệm.

Bước 3: Kiểm tra dự đốn xem mơ hình có phù hợp

Các đánh giá khác nhau được dùng để kiểm tra sự thích hợp của mơ hình thử nghiệm, và nếu cần thiết, gợi ý một mơ hình tốt hơn rồi sau đó mơ hình này lại được xem như một mơ hình thử nghiệm mới.

Bước 4: Dự báo

Khi đã chọn được mơ hình cuối cùng, nó được sử dụng để dự báo các giá trị tương lai của chuỗi thời gian.

Vẽ biểu đồ chuỗi giá trị

Là chuỗi dừng?

Khơng

Lấy sai phân của chuỗi

Nhận dang mơ hình

Ước lượng mơ hình Mơ hình Khơng có phù hợp? Dự báo Điều chỉnh mơ hình

Hình 3.6. Các bước chính trong phương pháp Box‐Jenkins

Trên thực tế, nhiều chuỗi thời gian có thể được biểu diễn bằng những mơ hình đơn giản. Mơ hình với số tham số thường được ưa chuộng hơn. Thông thường đối với các mơ hình ARMA(p, q) ta chỉ cần xét p ≤ 2 và/hoặc q ≤ 2. Có thể cải thiện việc biểu diễn mơ hình bằng cách sử dụng một phép biến đổi dữ liệu gốc phù hợp. Dữ liệu đã được biến đổi, nếu chưa có tính dừng, sẽ được sai phân hóa cho đến khi đạt được tính dừng bởi vì ta bắt buộc phải làm việc với chuỗi thời gian dừng.

Tóm tắt chương 3

Chương 3 đã đi sâu chi tiết phân tích các đặc điểm chuỗi dữ liệu chuỗi thời gian, và dựa vào đặc điểm của dữ liệu chuỗi thời gian đã đưa ra lựa chọn mơ hình phân tích phù hợp ARIMA.

Chương 4 học viên tiến hành thực nghiệm tập dữ liệu dịch bệnh cúm do Google Flu Trends công bố sử dụng R và dựa trên mơ hình ARIMA.

CHƯƠNG 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ

Hiện nay, có nhiều phương pháp ứng dụng trong việc khai phá, phân tích và dự đốn xu hướng dữ liệu. Kéo theo đó là rất nhiều phần mềm hỗ trợ cho việc phân tích và dự đốn dữ liệu. Luận văn này sử dụng phần mềm R để làm thực nghiệm trên tập dữ liệu dịch cúm Google Flu Trends cơng bố.

4.1. Mơ hình thực nghiệm

Trong phần thực nghiệm này, với bộ dữ liệu liên quan đến dịch bệnh cúm như đã đề cập ở trên, luận văn sẽ giới thiệu từng bước thực nghiệm sử dụng mơ hình ARIMA và sử dụng R.

Mơ hình ARIMA phổ biến và linh hoạt trong lĩnh vực dự đoán bằng việc sử dụng những thông tin trong quá khứ để đưa ra dự đốn. Loại mơ hình này là kỹ thuật dự đốn cơ bản mà có thể được sử dụng giống như một nền tảng cho những mơ hình hồn thiện hơn.

ARIMA cho hồi quy tự động được tích hợp trung bình trượt và được chỉ định bởi thứ tự 3 tham số (p, d, q), tiến trình phù hợp mơ hình ARIMA là thỉnh thoảng được đề cập tới giống như phương thức Box-Jenkins.

Một công cụ tự hồi quy (auto regressive - AR) hướng tới sử dụng những giá trị quá khứ trong công thức hồi quy cho chuỗi Y, tham số tự hồi quy p chỉ định số lượng của độ trễ được dùng trong mơ hình.

= 0+ 1 −1+ 2 −2+⋯+ − + (4.2)

Một công cụ trung bình trượt (moving average - MA) nêu ra lỗi của mơ hình giống như sự kết hợp thành phần lỗi trước đây et. Theo đó q xác định số lượng giới hạn gồm có trong mơ hình.

= 0+ + 1 −1+ 2 −2+⋯+ − (4.3) Mặt khác, tự hồi quy và công cụ trung bình trượt thể hiện một mơ hình ARIMA theo mùa có thể được viết bằng sơ đồ tuyến tính:

= 0+ 1 −1+ 2 −2+…+ − + + 0+ 1 −1 (4.4)

+ 2 −2 + ...+ −

Lưu ý rằng mơ hình ở trên giả định chuỗi khơng theo mùa, có nghĩa là ta có thể cần phải khơng hợp lý hóa chuỗi trước khi mơ hình hóa.

Mơ hình ARIMA có thể được chỉ định thơng qua cấu trúc mùa. Trong trường hợp này, mơ hình được chỉ định với hai tập của tham số (p, d, q) giống như mô tả ở trên và những tham số mô tả thành phần mùa m.

Phương pháp ARIMA có những hạn chế của nó. Những mơ hình này dựa trực tiếp vào các giá trị trong quá khứ và hoạt động tốt nhất trên chuỗi dữ liệu dài và

ổn định.

4.2. Mục đích thực nghiệm

Dựa trên tập dữ liệu dịch cúm của Google Flu Trends tiến hành thực nghiệm nhằm phân tích và đưa ra kết quả dự báo. Trong phân thực nghiệm này học viên sử dụng mơ hình ARIMA để phân tích hồi quy tập dữ liệu chuỗi thời gian, qua đó đưa ra mơ hìn dự báo diễn biến dịch bệnh. Hiện nay, phân tích dự báo đang trở thành cơng tác quan trọng ở các đơn vị quản lý và hoạch định chiến lược. Số liệu được phân tích, dự đốn phục vụ cho việc định hướng các hoạt động trong tương lai.

4.3. Tập dữ liệu Google Flu Trends

Google Flu Trends là một dịch vụ web do Google thực hiện. Nó cung cấp ước tính về diễn biến của dịch cúm hơn 25 quốc gia, bằng cách thu thập các truy vấn của công

Một phần của tài liệu Hoang-Van-Tien_Luan-van_v3.6 (Trang 35)

Tải bản đầy đủ (DOC)

(63 trang)
w