Biểu diễn chu kỳ chuỗi thời gian

Một phần của tài liệu (LUẬN văn THẠC sĩ) khai phá dữ liệu và ứng dụng trong y tế dự phòng luận văn ths công nghệ thông tin 84802 (Trang 35)

- Thành phần chu kì (dài hạn): biểu thị bằng sự tăng, giảm của dữ liệu chuỗi thời gian xoay quanh xu hướng. Thường trong chuỗi dữ liệu dài hạn thì khó đoán chu kì.

- Thành phần ngẫu nhiên: Đây là thành phần ngược với chu kỳ, thành phần ngẫu nhiên chỉ sự thay đổi bất thường của giá trị trong chuỗi thời gian và thường không dự đoán được sự thay đổi của dữ liệu. Những tác động gây ra sự thay đổi dữ liệu thường do các yếu tố bên ngoài tác động.

Với sơ đồ Hình 3.5 ta có Yt là giá trị định lượng trên chuỗi thời gian được tính tại thời điểm t, qua đó ta có thể xác định được các mô hình sau:

- Mô hình cộng: 𝑌𝑡 = 𝑇𝑡 + 𝑆𝑡+ 𝐶𝑡+ 𝐼𝑡. (3.1) - Mô hình nhân: 𝑌𝑡 = 𝑇𝑡𝑆𝑡𝐶𝑡𝐼𝑡. (3.2) Trong đó: T là thành phần xu hướng (Trend); S là thành phần mùa (Seasonality); C là thành phần chu kỳ (Cyclical); I là thành phần ngẫu nhiên (Irregular).

Mô hình nhân được sử dụng nhiều hơn. Nếu thành phần chu kỳ và mùa không ảnh hưởng đến mức chung của chuỗi thời gian thì nên sử dụng mô hình cộng, ngược lại mô hình nhân được sử dụng nếu thành phần mùa phụ thuộc xu hướng và chu kỳ.

3.2. Tính dừng của dữ liệu chuỗi thời gian

Dữ liệu chuỗi thời gian có thể được tạo ra từ một quá trình và kết quả của nó là tập dữ liệu theo thời gian. Quá trình đó, sinh ra một tập dữ liệu tổng thể và một tập hợp dữ liệu con được trích xuất từ tập dữ liệu tổng thể đó gọi là một tập dữ liệu mẫu. Một tính chất quan trọng của dữ liệu chuỗi thời gian là tính dừng [4]. Một chuỗi giá trị trên thời gian t là Yt được coi là dừng khi kỳ vọng, phương sai và hiệp phương sai ở các độ trễ khác nhau giữ nguyên theo diễn biến thời gian [4]. Chuỗi Yt được coi là dừng khi thỏa mãn:

- 𝐸(𝑌𝑡) = 𝜇(∀𝑡). (3.3)

- 𝑉𝑎𝑟(𝑌𝑡) = 𝐸(𝑌𝑡− 𝜇)2 = 𝜎2(∀𝑡). (3.4)

- 𝐶𝑜𝑣(𝑌𝑡, 𝑌𝑡+𝑘) = 𝐸[(𝑌𝑡+𝑘 − 𝜇)(𝑌𝑡− 𝜇)] = 𝑌𝑘(∀𝑡). (3.5)

hiệp phương sai giữa Yt và Yt+ k không phụ thuộc thời gian t mà phụ thuộc độ trễ thời gian k giữa hai thời đoạn.

3.2.1. Kiểm tra tính dừng chuỗi thời gian

3.2.1.1. Kiểm tra trực quan trên trên đồ thị biểu diễn chuỗi thời gian

Chuỗi yt, nếu đồ thị 𝑌 = 𝑓(𝑡) cho trung bình và phương sai của Yt không đổi theo thời gian thì chuỗi có tính dừng. Quan sát đồ thị chuỗi dữ liệu thời gian nếu thấy trung bình có xu hướng tăng hoặc giảm theo từng khoảng thời gian thì có thể dự đoán rằng chuỗi là không dừng. Phương pháp này giúp ta đánh giá trực quan, ban đầu về tính dừng của chuỗi thời gian. Tuy nhiên, với những chuỗi thời gian có xu hướng không rõ ràng, phương pháp này khó khả thi và kết quả kiểm tra đôi khi không đúng.

3.2.1.2. Kiểm tra dựa trên sơ đồ tự tương quan và tự tương quan riêng phần 3.2.1.2.1. Sơ đồ tự tương quan ACF (Autocorelation Function)

Sử dụng dùng hàm tự tương quan ACF, trong đó: độ trễ k ký hiệu bằng ρk, xác định bằng công thức như sau:

22

𝐴𝐶𝐹(𝑘) = 𝑝𝑘𝑐𝑜𝑣(𝑌𝑡, 𝑌𝑡−𝑘)

𝑉𝑎𝑟(𝑌𝑡) (3.6)

Giá trị ρk có giá trị từ -1 đến 1, là hệ số tương quan giữa Yt và Yt-k. Hàm tự tương quan đo lường sự phụ thuộc tuyến tính giữa các cặp quan sát Yt và Yt-k . Ví dụ: ρ1 là hệ số tương quan giữa Yt và Yt-1, ρi là hệ số tương quan giữa Yt và Yt-i... Nếu vẽ đồ thị ρk

với độ trễ k, đồ thị này sẽ cho ra một lược đồ tương quan ACF.

3.2.1.2.2. Sơ đồ tự tương quan riêng phần PACF (Partial Autocorrelation Function)

Ta có hệ số tự tương quan ρk với 𝑘 ≥ 2, cho thấy sự kết hợp tuyến tính giữa Yt và Yt+k. Tuy vậy, mức độ kết hợp tuyến tính giữa chúng có thể do tác động của một số biến khác. Trong trường hợp này là do ảnh hưởng từ các biến Yt-1, …, Yt-k+1. Do vậy, ta sử dụng hàm tương quan PACF để đo độ kết hợp giữa Yt và Yt-k , với hệ số tương quan riêng ρkk ước lượng theo công thức Durbin:

𝑃𝐴𝐶𝐹(𝑘) = 𝑝𝑘𝑘 =

𝑝𝑘− ∑𝑘−1𝑗=1 𝑝𝑘−1 𝑗 𝑝𝑘−𝑗

1 − ∑𝑘−1𝑗=1𝑝𝑘−1 𝑗 𝑝𝑗

(3.7)

Hệ số tương quan riêng phần thể hiện mối quan hệ giữa hai biến khi tất cả những biến khác giữ nguyên giá trị. Nếu chuỗi dừng thì các kk cũng có phân phối chuẩn

𝑁(0, 1 𝑛⁄ ), do đó kiểm định giả thiết đối với ρkk tương tự như đối với ρk.

3.2.2. Biến đổi chuỗi không dừng thành chuỗi dừng

Với chuỗi thời gian ban đầu không có tính dừng, trước khi xây dựng mô hình ARIMA ta phải biến chuỗi thành có tính dừng, phương pháp là lấy sai phân cấp d với

d = 1 hoặc d = 2,...

Ta có công thức: 𝑌𝑡 = 𝑌𝑡−1 + 𝑢𝑡, giá trị ut là nhiễu trắng.

Ta có công thức sai phân cấp 1 của yt như sau: 𝐷(𝑌𝑡) = 𝑌𝑡− 𝑌𝑡−1 = 𝑢𝑡, trong đó với ut là nhiễu trắng nên 𝐷(𝑌𝑡) là chuỗi dừng.

Nếu lấy sai phân cấp 1 chuỗi thời gian Yt nhưng chưa cho kết quả là chuỗi dừng thì tiếp tục lấy sai phân cấp 2, 3… Có thể nói, luôn có một giá trị d để sai phân cấp d của Yt là chuỗi dừng. Khi đó, Yt là liên kết bậc d, ký hiệu là I(d). Sai phân của cấp d được tính như sau:

+ Cấp 1: 𝐷(𝑌𝑡) = 𝑌𝑡− 𝑌𝑡−1 (3.8) + Cấp 2: 𝐷(𝐷(𝑌𝑡)) = 𝐷2(𝑌𝑡) = (𝑌𝑡− 𝑌𝑡−1) − (𝑌𝑡−1−𝑌𝑡−2) (3.9) + Tương tự như vậy với sai phân cấp d: 𝐷(𝐷𝑑−1(𝑌𝑡)) (3.10) Nếu yt ở dạng logarit thì giá trị 𝐷(𝑌𝑡) là phần trăm thay đổi của yt so với trước đó.

3.3.1. Mô hình tự hồi quy AR (Autoregressive process)

Ý tưởng mô hình AR(p) là hồi quy số liệu của nó trong quá khứ ở những chu kì trước.

𝑌𝑡 = 𝑎0+ 𝑎1𝑌𝑡−1 + 𝑎2𝑌𝑡−2 + ⋯ + 𝑎𝑝𝑌𝑡−𝑝+ 𝑢𝑡; (3.11)

trong đó:

Yt : quan sát dừng hiện tại;

Yt-1, Yt-2,...: là quan sát dừng ở thời điểm trong quá khứ; a0, a1, a2, …: các tham số phân tích hồi quy;

ut : sai số dự báo ngẫu nhiên của giai đoạn hiện tại, với ut giá trị trung bình được mong đợi bằng 0.

Hàm tuyến tính Yt là của chuỗi quan sát dừng những thời điểm trong quá khứ: Yt-1, Yt-2…

Khi phân tích hồi quy Yt theo các giá trị trong chuỗi thời gian, chuỗi dừng có độ trễ, chúng ta sẽ được mô hình AR. Số quan sát dừng ở các thời điểm quá khứ được sử dụng trong mô hình tự hồi quy là bậc p của mô hình AR. Nếu sử dụng 2 quan sát dừng ở quá khứ, ta có mô hình tương quan bậc hai AR(2).

- Mô hình AR(1) : 𝑌𝑡 = 𝑎0+ 𝑎1𝑌𝑡−1+ 𝑢𝑡 (3.12) - Mô hình AR(2) : 𝑌𝑡 = 𝑎0+ 𝑎1𝑌𝑡−1+ 𝑎2𝑌𝑡−2+ 𝑢𝑡 (3.13)

3.3.2. Mô hình trung bình trượt MA (Moving Average)

Hàm tuyến tính yt phụ thuộc vào các biến sai số dự báo quá khứ và hiện tại. Mô hình trung bình trượt là một trung bình trọng số của những sai số mới nhất.

𝑌𝑡 = 𝑏0+ 𝑢𝑡 + 𝑏1𝑢𝑡−1+ 𝑏2𝑢𝑡−2 + ⋯ + 𝑏𝑞𝑢𝑡−𝑞 (3.14)

trong đó:

Yt : quan sát dừng hiện tại; ut : sai số dự báo;

ut-1, ut-2,... : sai số dự báo quá khứ;

b0, b1, b2,... : giá trị trung bình của yt và các hệ số bình quân di động; q : là bậc của MA.

- Mô hình MA(1) : 𝑌𝑡 = 𝑏0+ 𝑢𝑡+ 𝑏1𝑢𝑡−1 (3.15) - Mô hình MA(2) : 𝑌𝑡 = 𝑏0+ 𝑢𝑡+ 𝑏1𝑢𝑡−1+ 𝑏2𝑢𝑡−2 (3.16)

3.3.3. Mô hình trung bình trượt và tự hồi quy ARMA (Autoregressive Moving Average) Average)

24

Để biểu diễn sơ đồ Y không chỉ riêng AR hoặc MA mà có thể kết hợp cả hai, sự kết hợp ta được mô hình ARMA, còn gọi là mô hình trung bình trượt tự hồi quy.

Yt là quá trình ARMA(1, 1) nếu Y có thể biểu diễn dưới dạng:

Yt = 𝑎0+ 𝑎1𝑌𝑡−1 + 𝑢𝑡+ 𝑏0+ 𝑏1𝑢𝑡−1 (u là nhiễu trắng) (3.17)

Tóm lại, Yt là quá trình ARMA (p, q) nếu Yt có thể biểu diễn dưới dạng: Yt = 𝑎0+ 𝑎1𝑌𝑡−1+ 𝑎2𝑌𝑡−2 + … + 𝑎𝑝𝑌𝑡−𝑝+ 𝑢𝑡 + 𝑏0+ 𝑏1𝑢𝑡−1+

𝑏2𝑢𝑡−2+ . . . + 𝑏𝑞𝑢𝑡−𝑞

(3.18)

3.3.4. Mô hình trung bình trượt tự hồi quy ARIMA (Autoregressive Intergrated Moving Average) Intergrated Moving Average)

Một chuỗi thời gian có thể tuân theo nhiều mô hình khác nhau. Tuy nhiên, cả ba mô hình AR, MA, ARMA đều yêu cầu chuỗi phải có tính dừng [4]. Nhưng thực tế có nhiều chuỗi thời gian không có tính dừng. Vậy làm thế nào để áp dụng được các mô hình trong thực tế ? Câu trả lời ở đây là sử dụng phương pháp lấy sai phân biến đổi một chuỗi không dừng thành chuỗi dừng, trước khi sử dụng mô hình ARMA.

Nếu chuỗi Yt có đồng liên kết bậc d trên mô hình ARMA (p, q) cho chuỗi sai phân bậc d, thì chúng ta có mô hình ARIMA (p, d, q). Với bậc tự hồi quy p, số lần lấy sai phân d để chuỗi Yt được xác định là chuỗi dừng, bậc trung bình trượt q (p và q là bậc tương ứng của chuỗi dừng).

- Trong mô hình ARIMA (p, d, q), khi d = 0 và q = 0 thì ta có AR(p). - Trong mô hình ARIMA (p, d, q), khi d = 0 và p = 0 thì ta có MA(q).

- Với ARIMA(1,1,1) nghĩa là Yt có sai phân bậc 1 là một chuỗi dừng. Chuỗi sai phân dừng này có thể biểu diễn dưới dạng ARMA (1,1).

∆𝑌𝑡 = 𝑎0+ 𝑎1𝑌𝑡−1 + 𝑎0𝑢𝑡 + 𝑎1𝑢𝑡−1 (u là nhiễu trắng) (3.19)

Như vậy, xác định được các giá trị p, d, q ta sẽ mô hình hóa được chuỗi ARIMA. Ta thấy, mô hình ARIMA chỉ sử dụng các giá trị trong quá khứ của chuỗi chứ không dùng thêm biến độc lập khác.

3.3.5. Dự báo dữ liệu chuỗi thời gian

Dự báo chuỗi thời gian là phương pháp dự báo sử dụng các giá trị lịch sử của các nhân tố chẳng hạn như giá và sản lượng, lạm phát, lợi nhuận trong quá khứ,… để dự báo giá trị hiện tại hoặc dự báo sự thay đổi của giá trị hiện [4]. Gồm có loại dự báo chính là dự báo định tính và dự báo định lượng. Chuỗi thời gian thuộc lớp dự báo định lượng vì kết quả của mô hình là một giá trị định lượng, nên được sử dụng khá phổ biến trong nghiên cứu kinh tế học như GDP, lạm phát, tăng trường hay nghiên cứu giá cả thị trường. Trong loại hình này một vài nguyên tắc dự báo cơ bản thường được dùng là AR, MA,…

Phương pháp Box-Jenkins được xem là một trong những kỹ thuật có hiệu quả cao trong việc đưa ra các dự báo chính xác và có độ tin cậy cao. Sức mạnh của nó là ở chỗ nó đưa ra những thông tin giúp nhà phân tích chuỗi thời gian lựa chọn mô hình phù hợp với dữ liệu quan sát được. Đối với các phương pháp khác, nhà phân tích giả thiết một mô hình nào đó rồi tiến hành ước lượng các tham số của mô hình. Trong giai đoạn đầu tiên, ta nhận dạng một mô hình thử nghiệm bằng cách so sánh các hàm tự tương quan mẫu và tự tương quan riêng phần mẫu của chuỗi thời gian dừng với các hàm tự tương quan và tự tương quan riêng lí thuyết của các mô hình ARMA.

ARIMA là một mô hình dự báo phổ biến và linh hoạt sử dụng dữ liệu trong quá khứ để đưa ra các dự báo [7]. Loại mô hình này là một kỹ thuật dự báo cơ bản có thể được sử dụng làm nền tảng cho các mô hình phức tạp hơn. Dựa vào những đặc điểm đó, trong phần thực nghiệm học viên quyết định sử dụng mô hình ARIMA để thực nghiệm trên tập dữ liệu chuỗi thời gian.

Các bước chính trong phương pháp Box‐Jenkins:

Bước 1: Nhận dạng mô hình

Dữ liệu quá khứ được sử dụng để nhận dạng thử một mô hình ARIMA thích hợp.

Bước 2: Ước lượng mô hình

Dữ liệu quá khứ được sử dụng để ước lượng các tham số của mô hình thử nghiệm.

Bước 3: Kiểm tra dự đoán xem mô hình có phù hợp

Các đánh giá khác nhau được dùng để kiểm tra sự thích hợp của mô hình thử nghiệm, và nếu cần thiết, gợi ý một mô hình tốt hơn rồi sau đó mô hình này lại được xem như một mô hình thử nghiệm mới.

Bước 4: Dự báo

Khi đã chọn được mô hình cuối cùng, nó được sử dụng để dự báo các giá trị tương lai của chuỗi thời gian.

26

Nhận dang mô hình

Ước lượng mô hình

Mô hình có phù hợp?

Dự báo Vẽ biểu đồ

chuỗi giá trị Là chuỗi dừng?

Lấy sai phân của chuỗi Điều chỉnh mô hình Không Không

Hình 3.6. Các bước chính trong phương pháp BoxJenkins

Trên thực tế, nhiều chuỗi thời gian có thể được biểu diễn bằng những mô hình đơn giản. Mô hình với số tham số thường được ưa chuộng hơn. Thông thường đối với các mô hình ARMA(p, q) ta chỉ cần xét p ≤ 2 và/hoặc q ≤ 2. Có thể cải thiện việc biểu diễn mô hình bằng cách sử dụng một phép biến đổi dữ liệu gốc phù hợp. Dữ liệu đã được biến đổi, nếu chưa có tính dừng, sẽ được sai phân hóa cho đến khi đạt được tính dừng bởi vì ta bắt buộc phải làm việc với chuỗi thời gian dừng.

Tóm tắt chương 3

Chương 3 đã đi sâu chi tiết phân tích các đặc điểm chuỗi dữ liệu chuỗi thời gian, và dựa vào đặc điểm của dữ liệu chuỗi thời gian đã đưa ra lựa chọn mô hình phân tích phù hợp ARIMA.

Chương 4 học viên tiến hành thực nghiệm tập dữ liệu dịch bệnh cúm do Google Flu Trends công bố sử dụng R và dựa trên mô hình ARIMA.

CHƯƠNG 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ

Hiện nay, có nhiều phương pháp ứng dụng trong việc khai phá, phân tích và dự đoán xu hướng dữ liệu. Kéo theo đó là rất nhiều phần mềm hỗ trợ cho việc phân tích và dự đoán dữ liệu. Luận văn này sử dụng phần mềm R để làm thực nghiệm trên tập dữ liệu dịch cúm Google Flu Trends công bố.

4.1. Mô hình thực nghiệm

Trong phần thực nghiệm này, với bộ dữ liệu liên quan đến dịch bệnh cúm như đã đề cập ở trên, luận văn sẽ giới thiệu từng bước thực nghiệm sử dụng mô hình ARIMA và sử dụng R.

Mô hình ARIMA phổ biến và linh hoạt trong lĩnh vực dự đoán bằng việc sử dụng những thông tin trong quá khứ để đưa ra dự đoán. Loại mô hình này là kỹ thuật dự đoán cơ bản mà có thể được sử dụng giống như một nền tảng cho những mô hình hoàn thiện hơn.

ARIMA cho hồi quy tự động được tích hợp trung bình trượt và được chỉ định bởi thứ tự 3 tham số (p, d, q), tiến trình phù hợp mô hình ARIMA là thỉnh thoảng được đề cập tới giống như phương thức Box-Jenkins.

Một công cụ tự hồi quy (auto regressive - AR) hướng tới sử dụng những giá trị quá khứ trong công thức hồi quy cho chuỗi Y, tham số tự hồi quy p chỉ định số lượng của độ trễ được dùng trong mô hình.

𝑌𝑡 = 𝑎0+ 𝑎1𝑌𝑡−1+ 𝑎2𝑌𝑡−2+ ⋯ + 𝑎𝑝𝑌𝑡−𝑝+ 𝑢𝑡 (4.2)

Một công cụ trung bình trượt (moving average - MA) nêu ra lỗi của mô hình giống như sự kết hợp thành phần lỗi trước đây et. Theo đó q xác định số lượng giới hạn gồm có trong mô hình.

𝑌𝑡 = 𝑏0+ 𝑒𝑡+ 𝑏1𝑒𝑡−1+ 𝑏2𝑒𝑡−2+ ⋯ + 𝑏𝑞𝑒𝑡−𝑞 (4.3)

Mặt khác, tự hồi quy và công cụ trung bình trượt thể hiện một mô hình ARIMA theo mùa có thể được viết bằng sơ đồ tuyến tính:

𝑌𝑡 =𝑎0+ 𝑎1𝑌𝑡−1+ 𝑎2𝑌𝑡−2 + … + 𝑎𝑝𝑌𝑡−𝑝+ 𝑢𝑡 + 𝑏0+ 𝑏1𝑢𝑡−1 + 𝑏2𝑢𝑡−2 + . . . + 𝑏𝑞𝑢𝑡−𝑞

(4.4)

Lưu ý rằng mô hình ở trên giả định chuỗi không theo mùa, có nghĩa là ta có thể cần phải không hợp lý hóa chuỗi trước khi mô hình hóa.

Mô hình ARIMA có thể được chỉ định thông qua cấu trúc mùa. Trong trường hợp này, mô hình được chỉ định với hai tập của tham số (p, d, q) giống như mô tả ở trên và những tham số mô tả thành phần mùa m.

Phương pháp ARIMA có những hạn chế của nó. Những mô hình này dựa trực tiếp vào các giá trị trong quá khứ và hoạt động tốt nhất trên chuỗi dữ liệu dài và

28

ổn định.

4.2. Mục đích thực nghiệm

Dựa trên tập dữ liệu dịch cúm của Google Flu Trends tiến hành thực nghiệm nhằm phân tích và đưa ra kết quả dự báo. Trong phân thực nghiệm này học viên sử dụng mô

Một phần của tài liệu (LUẬN văn THẠC sĩ) khai phá dữ liệu và ứng dụng trong y tế dự phòng luận văn ths công nghệ thông tin 84802 (Trang 35)

Tải bản đầy đủ (PDF)

(63 trang)