Kết quả thực nghiệm

Một phần của tài liệu Tóm tắt Luận văn Thạc sĩ ngành công nghệ thông tin: Khai phá dữ liệu và ứng dụng trong y tế dự phòng (Trang 23 - 30)

CHƯƠNG 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ

4.5. Kết quả thực nghiệm

Nếu thư viện chưa được cài đặt ta tiền hành cài trước khi sử dụng:

(1)

(2)

14

Hình 4.3. Cài đặt gói thư viện 4.5.1. Lựa chọn và xử lý dữ liệu

Kết quả thu được là số liệu công bố dịch cúm của Argentina từ 2003 đến 2015 có 655 bản ghi. Nạp dữ liệu:

Hình 4.4. Nạp dữ liệu Ta có tập dữ liệu d sau khi được nạp như sau:

Hình 4.5. Tập dữ liệu cúm của Argentina Bước 1: Lựa chọn dữ liệu

Trong tập dữ liệu được nạp d là dữ liệu từ năm 2003 đến năm 2015.

15

Hình 4.6. Tập dữ liệu cúm của Argentina năm 2004

Ta trích lấy mẫu dữ liệu của Argentina được thu thập vào năm 2004 và xây dựng sơ đồ diễn biến.

Hình 4.7. Diễn biến cúm năm 2004 của Argentina theo tháng Tập dữ liệu đầu vào đã đáp ứng nên thực nghiệm của luận văn bỏ qua Bước 2: Tiền xử lý dữ liệu và chuyển qua Bước 3: Đổi dạng.

Bước 3: Đổi dạng

Sử dụng hàm tsclean(), tập dữ liệu được làm sạch, trong tập dữ liệu mới được tạo ra có thêm cột clean_scm, là số liệu đã được làm sạch.

Hình 4.8. Dữ liệu cúm của năm 2004 Argentina được làm sạch Sau khi được xử lý làm sạch dữ liệu, ta nhận được biểu đồ, như sau:

16

Hình 4.9. Diễn biến cúm Argentina năm 2014 được làm sạch Công thức trung bình trượt MA của số ca mắc cúm m có thể được tính bằng cách lấy trung bình của chuỗi Y, k khoảng thời gian xung quanh mỗi điểm:

𝑀𝐴 = 1

𝑚∑𝑘𝑗 = −𝑘𝑌𝑡+𝑗 (4.5)

Xác định nhiều mức độ thời vụ (seasonality), ta lập mô hình trung bình trượt theo 7 ngày (được thể hiện bởi dòng màu xanh).

Hình 4.10. Biểu đồ bệnh cúm của Argentina với dữ liệu được làm mịn 4.5.2. Phân tách dữ liệu

Bước 4: Khai phá dữ liệu

Phân tách chuỗi và loại bỏ tính thời vụ với hàm seasadj(). Xác định tính chu kỳ của dữ liệu với ts() trong một khoảng thời gian là 7 ngày.

Hình 4.11. Sơ đồ dữ liệu được phân tách theo thành phần tính thời vụ, xu hướng và chu kỳ

17

Sử dụng ADF để kiểm tra tính dừng của chuỗi thời gian, kết quả trả về giá trị 𝑝 − 𝑣𝑎𝑙𝑢𝑒 = 0.8648 và lớn hơn 0.05 cho thấy chuỗi không có tính dừng.

Vì vậy, tiếp tục chọn các tham số thứ tự cho mô hình ARIMA.

Hình 4.12. Mô hình ACF

Hình 4.13. Mô hình PACF

Ta thấy, mô hình ACF tại Hình 4.12 và mô hình PACF tại Hình 4.13 các hệ số tương quan giảm rất chậm về 0, ta có thể kết luận chuỗi không có tính dừng. Tiếp tục với sai phân 𝑑 = 1 và đánh giá lại. Kiểm tra lại với ACF với 𝑑 = 1. Với 𝑑 = 1 qua phép kiểm tra ADF ta thu được giá trị 𝑝 − 𝑣𝑎𝑙𝑢𝑒 = 0.0471 nhỏ hơn 0.05, vậy có thể kết luận chuỗi đã có tính dừng.

Hình 4.14. Mô hình kiểm tra với 𝐝 = 𝟏

Ta thấy, có sự tương quan tự đáng kể ở độ trễ 1. Tại các Hình 4.15 mô hình ACF với 𝑑 = 1 và Hình 4.16 mô hình PACF với 𝑑 = 1, ta thấy ACF và PACF có sự tăng đột biến đáng kể ở độ trễ 1 và giảm dần về 0, đánh giá thấy chuỗi đáp ứng tính dừng.

18

Hình 4.15. Mô hình ACF với 𝐝 = 𝟏

Hình 4.16. Mô hình PACF với 𝐝 = 𝟏 Bước 5: Trình diễn

Các tham số (1, 1, 1) ta đã có một mô hình dự báo, chúng ta có thể bắt đầu bằng cách kiểm tra các ô ACF và PACF.

Hình 4.17. Mô hình 𝐀𝐑𝐈𝐌𝐀(𝟏, 𝟏, 𝟏)

Có một mô hình ACF / PACF và các ô mẫu còn lại lặp lại ở độ trễ 7. Điều này cho thấy mô hình của chúng ta có thể tốt hơn với một đặc tả khác, như 𝑝 = 7 ℎ𝑜ặ𝑐 𝑞 = 7.

19

Hình 4.18. Mô hình ARIMA (1, 1, 7)

Thông qua mô hình R để dự báo h giai đoạn trong tương lai, với tham số h được xác định theo chu kỳ 30 ngày liên tiếp ghi nhận số liệu cúm.

Hình 4.19. Mô hình dự báo với hệ số (1, 1, 1)

Đường màu xanh nhạt ở trên cho thấy sự phù hợp do mô hình cung cấp.

Hình 4.20. Mô hình dự báo

Tuy nhiên, đường màu xanh đại diện cho dự báo có vẻ rất đơn giản, nó đi gần với một đường thẳng khá sớm, mà dường như không giống với mô hình trong quá khứ của chuỗi.

20

Hình 4.21. Mô hình dự báo ARIMA(0, 2, 0)(0, 0, 1)(7)

Cả hai ước tính dự đoán ở trên được cung cấp với độ tin cậy cao: độ tin cậy 80% được tô bằng màu xanh sẫm hơn và 95% màu xanh nhạt hơn. Dự báo dài hạn thường sẽ có sự không chắc chắn hơn, vì mô hình sẽ hồi quy Y trong tương lai dựa trên các giá trị được dự đoán trong quá khứ của chuỗi.

Hình 4.22. Diễn biến dịch bệnh thực tế tại Argentina từ năm 2003 đến 2015

Một phần của tài liệu Tóm tắt Luận văn Thạc sĩ ngành công nghệ thông tin: Khai phá dữ liệu và ứng dụng trong y tế dự phòng (Trang 23 - 30)

Tải bản đầy đủ (PDF)

(34 trang)