CHƯƠNG 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ
4.5. Kết quả thực nghiệm
Nếu thư viện chưa được cài đặt ta tiền hành cài trước khi sử dụng:
(1)
(2)
14
Hình 4.3. Cài đặt gói thư viện 4.5.1. Lựa chọn và xử lý dữ liệu
Kết quả thu được là số liệu công bố dịch cúm của Argentina từ 2003 đến 2015 có 655 bản ghi. Nạp dữ liệu:
Hình 4.4. Nạp dữ liệu Ta có tập dữ liệu d sau khi được nạp như sau:
Hình 4.5. Tập dữ liệu cúm của Argentina Bước 1: Lựa chọn dữ liệu
Trong tập dữ liệu được nạp d là dữ liệu từ năm 2003 đến năm 2015.
15
Hình 4.6. Tập dữ liệu cúm của Argentina năm 2004
Ta trích lấy mẫu dữ liệu của Argentina được thu thập vào năm 2004 và xây dựng sơ đồ diễn biến.
Hình 4.7. Diễn biến cúm năm 2004 của Argentina theo tháng Tập dữ liệu đầu vào đã đáp ứng nên thực nghiệm của luận văn bỏ qua Bước 2: Tiền xử lý dữ liệu và chuyển qua Bước 3: Đổi dạng.
Bước 3: Đổi dạng
Sử dụng hàm tsclean(), tập dữ liệu được làm sạch, trong tập dữ liệu mới được tạo ra có thêm cột clean_scm, là số liệu đã được làm sạch.
Hình 4.8. Dữ liệu cúm của năm 2004 Argentina được làm sạch Sau khi được xử lý làm sạch dữ liệu, ta nhận được biểu đồ, như sau:
16
Hình 4.9. Diễn biến cúm Argentina năm 2014 được làm sạch Công thức trung bình trượt MA của số ca mắc cúm m có thể được tính bằng cách lấy trung bình của chuỗi Y, k khoảng thời gian xung quanh mỗi điểm:
𝑀𝐴 = 1
𝑚∑𝑘𝑗 = −𝑘𝑌𝑡+𝑗 (4.5)
Xác định nhiều mức độ thời vụ (seasonality), ta lập mô hình trung bình trượt theo 7 ngày (được thể hiện bởi dòng màu xanh).
Hình 4.10. Biểu đồ bệnh cúm của Argentina với dữ liệu được làm mịn 4.5.2. Phân tách dữ liệu
Bước 4: Khai phá dữ liệu
Phân tách chuỗi và loại bỏ tính thời vụ với hàm seasadj(). Xác định tính chu kỳ của dữ liệu với ts() trong một khoảng thời gian là 7 ngày.
Hình 4.11. Sơ đồ dữ liệu được phân tách theo thành phần tính thời vụ, xu hướng và chu kỳ
17
Sử dụng ADF để kiểm tra tính dừng của chuỗi thời gian, kết quả trả về giá trị 𝑝 − 𝑣𝑎𝑙𝑢𝑒 = 0.8648 và lớn hơn 0.05 cho thấy chuỗi không có tính dừng.
Vì vậy, tiếp tục chọn các tham số thứ tự cho mô hình ARIMA.
Hình 4.12. Mô hình ACF
Hình 4.13. Mô hình PACF
Ta thấy, mô hình ACF tại Hình 4.12 và mô hình PACF tại Hình 4.13 các hệ số tương quan giảm rất chậm về 0, ta có thể kết luận chuỗi không có tính dừng. Tiếp tục với sai phân 𝑑 = 1 và đánh giá lại. Kiểm tra lại với ACF với 𝑑 = 1. Với 𝑑 = 1 qua phép kiểm tra ADF ta thu được giá trị 𝑝 − 𝑣𝑎𝑙𝑢𝑒 = 0.0471 nhỏ hơn 0.05, vậy có thể kết luận chuỗi đã có tính dừng.
Hình 4.14. Mô hình kiểm tra với 𝐝 = 𝟏
Ta thấy, có sự tương quan tự đáng kể ở độ trễ 1. Tại các Hình 4.15 mô hình ACF với 𝑑 = 1 và Hình 4.16 mô hình PACF với 𝑑 = 1, ta thấy ACF và PACF có sự tăng đột biến đáng kể ở độ trễ 1 và giảm dần về 0, đánh giá thấy chuỗi đáp ứng tính dừng.
18
Hình 4.15. Mô hình ACF với 𝐝 = 𝟏
Hình 4.16. Mô hình PACF với 𝐝 = 𝟏 Bước 5: Trình diễn
Các tham số (1, 1, 1) ta đã có một mô hình dự báo, chúng ta có thể bắt đầu bằng cách kiểm tra các ô ACF và PACF.
Hình 4.17. Mô hình 𝐀𝐑𝐈𝐌𝐀(𝟏, 𝟏, 𝟏)
Có một mô hình ACF / PACF và các ô mẫu còn lại lặp lại ở độ trễ 7. Điều này cho thấy mô hình của chúng ta có thể tốt hơn với một đặc tả khác, như 𝑝 = 7 ℎ𝑜ặ𝑐 𝑞 = 7.
19
Hình 4.18. Mô hình ARIMA (1, 1, 7)
Thông qua mô hình R để dự báo h giai đoạn trong tương lai, với tham số h được xác định theo chu kỳ 30 ngày liên tiếp ghi nhận số liệu cúm.
Hình 4.19. Mô hình dự báo với hệ số (1, 1, 1)
Đường màu xanh nhạt ở trên cho thấy sự phù hợp do mô hình cung cấp.
Hình 4.20. Mô hình dự báo
Tuy nhiên, đường màu xanh đại diện cho dự báo có vẻ rất đơn giản, nó đi gần với một đường thẳng khá sớm, mà dường như không giống với mô hình trong quá khứ của chuỗi.
20
Hình 4.21. Mô hình dự báo ARIMA(0, 2, 0)(0, 0, 1)(7)
Cả hai ước tính dự đoán ở trên được cung cấp với độ tin cậy cao: độ tin cậy 80% được tô bằng màu xanh sẫm hơn và 95% màu xanh nhạt hơn. Dự báo dài hạn thường sẽ có sự không chắc chắn hơn, vì mô hình sẽ hồi quy Y trong tương lai dựa trên các giá trị được dự đoán trong quá khứ của chuỗi.
Hình 4.22. Diễn biến dịch bệnh thực tế tại Argentina từ năm 2003 đến 2015