4.5.2. Phân tách dữ liệu
Bước 4: Khai phá dữ liệu
Các thành phần được xây dựng của quá trình phân tích chuỗi thời gian là tính thời vụ (seasonality), xu hướng (trend) và chu kỳ (cycle). Các thành phần trực quan này nắm bắt các mẫu dữ liệu quá khứ của chuỗi. Đầu tiên, tính toán thành phần mùa của dữ liệu bằng cách sử dụng stl(), để phân tích và dự báo chuỗi dữ liệu thời gian. Nó tính toán thành phần mùa của chuỗi bằng cách làm mịn và điều chỉnh chuỗi ban đầu bằng cách loại bỏ tính thời vụ theo hai dòng đơn giản.
Trong trường hợp cấu trúc mô hình bổ sung, cùng một nhiệm vụ phân tách chuỗi và loại bỏ tính thời vụ có thể được thực hiện bằng cách bỏ đi thành phần theo mùa từ chuỗi ban đầu với hàm seasadj(). Xác định tính chu kỳ của dữ liệu với ts(), tức là số lần quan sát trong một khoảng thời gian là 7 ngày.
Hình 4.11. Sơ đồ dữ liệu được phân tách theo thành phần tính thời vụ, xu hướng và chu kỳ
Sử dụng ADF để kiểm tra tính dừng của chuỗi thời gian trước khi sử dụng ARIMA để dự đoán, kết quả kiểm tra qua ADF như sau:
Augmented Dickey-Fuller Test data: count_sm
Dickey-Fuller = -1.2685, Lag order = 3, p-value = 0.8648 alternative hypothesis: stationary
Với kết quả trả về giá trị 𝑝 − 𝑣𝑎𝑙𝑢𝑒 = 0.8648 và lớn hơn 0.05 cho thấy chuỗi không có tính dừng. Vì vậy, tiếp tục chọn các tham số thứ tự cho mô hình ARIMA.
Có thể thể hiện trực quan tính không dừng của chuỗi qua mô hình ACF hiển thị mối tương quan giữa một chuỗi và độ trễ của nó. Các mô hình ACF có thể giúp xác định bậc của mô hình MA(q). PACF hiển thị mối tương quan giữa một biến và độ trễ của nó không được giải thích bởi các trễ trước đó.
Khi biểu diễn mô hình, trong R vẽ đường ranh giới 95% là đường chấm màu xanh. Có mối tự tương quan với các độ trễ trong chuỗi dịch bệnh cúm của chúng ta, có thể quan sát mô hình ACF bên dưới. nhìn vào mô hình PACF ta thấy sự tăng đột biến ở độ trễ thứ 1 và dần giảm về quanh giá trị 0.