Ước lượng mô hình
Mô hình có phù hợp?
Dự báo Vẽ biểu đồ
chuỗi giá trị Là chuỗi dừng?
Lấy sai phân của chuỗi Điều chỉnh mô hình Có Không Có Không
Hình 3.6. Các bước chính trong phương pháp Box‐Jenkins
Trên thực tế, nhiều chuỗi thời gian có thể được biểu diễn bằng những mô hình đơn giản. Mô hình với số tham số thường được ưa chuộng hơn. Thông thường đối với các mô hình ARMA(p, q) ta chỉ cần xét p ≤ 2 và/hoặc q ≤ 2. Có thể cải thiện việc biểu diễn mô hình bằng cách sử dụng một phép biến đổi dữ liệu gốc phù hợp. Dữ liệu đã được biến đổi, nếu chưa có tính dừng, sẽ được sai phân hóa cho đến khi đạt được tính dừng bởi vì ta bắt buộc phải làm việc với chuỗi thời gian dừng.
Tóm tắt chương 3
Chương 3 đã đi sâu chi tiết phân tích các đặc điểm chuỗi dữ liệu chuỗi thời gian, và dựa vào đặc điểm của dữ liệu chuỗi thời gian đã đưa ra lựa chọn mô hình phân tích phù hợp ARIMA.
Chương 4 học viên tiến hành thực nghiệm tập dữ liệu dịch bệnh cúm do Google Flu Trends công bố sử dụng R và dựa trên mô hình ARIMA.
CHƯƠNG 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ
Hiện nay, có nhiều phương pháp ứng dụng trong việc khai phá, phân tích và dự đoán xu hướng dữ liệu. Kéo theo đó là rất nhiều phần mềm hỗ trợ cho việc phân tích và dự đoán dữ liệu. Luận văn này sử dụng phần mềm R để làm thực nghiệm trên tập dữ liệu dịch cúm Google Flu Trends công bố.
4.1. Mô hình thực nghiệm
Trong phần thực nghiệm này, với bộ dữ liệu liên quan đến dịch bệnh cúm như đã đề cập ở trên, luận văn sẽ giới thiệu từng bước thực nghiệm sử dụng mô hình ARIMA và sử dụng R.
Mô hình ARIMA phổ biến và linh hoạt trong lĩnh vực dự đoán bằng việc sử dụng những thông tin trong quá khứ để đưa ra dự đoán. Loại mô hình này là kỹ thuật dự đoán cơ bản mà có thể được sử dụng giống như một nền tảng cho những mô hình hoàn thiện hơn.
ARIMA cho hồi quy tự động được tích hợp trung bình trượt và được chỉ định bởi thứ tự 3 tham số (p, d, q), tiến trình phù hợp mô hình ARIMA là thỉnh thoảng được đề cập tới giống như phương thức Box-Jenkins.
Một công cụ tự hồi quy (auto regressive - AR) hướng tới sử dụng những giá trị quá khứ trong công thức hồi quy cho chuỗi Y, tham số tự hồi quy p chỉ định số lượng của độ trễ được dùng trong mô hình.
𝑌𝑡 = 𝑎0+ 𝑎1𝑌𝑡−1+ 𝑎2𝑌𝑡−2+ ⋯ + 𝑎𝑝𝑌𝑡−𝑝+ 𝑢𝑡 (4.2)
Một công cụ trung bình trượt (moving average - MA) nêu ra lỗi của mô hình giống như sự kết hợp thành phần lỗi trước đây et. Theo đó q xác định số lượng giới hạn gồm có trong mô hình.
𝑌𝑡 = 𝑏0+ 𝑒𝑡+ 𝑏1𝑒𝑡−1+ 𝑏2𝑒𝑡−2+ ⋯ + 𝑏𝑞𝑒𝑡−𝑞 (4.3)
Mặt khác, tự hồi quy và công cụ trung bình trượt thể hiện một mô hình ARIMA theo mùa có thể được viết bằng sơ đồ tuyến tính:
𝑌𝑡 =𝑎0+ 𝑎1𝑌𝑡−1+ 𝑎2𝑌𝑡−2 + … + 𝑎𝑝𝑌𝑡−𝑝+ 𝑢𝑡 + 𝑏0+ 𝑏1𝑢𝑡−1 + 𝑏2𝑢𝑡−2 + . . . + 𝑏𝑞𝑢𝑡−𝑞
(4.4)
Lưu ý rằng mô hình ở trên giả định chuỗi không theo mùa, có nghĩa là ta có thể cần phải không hợp lý hóa chuỗi trước khi mô hình hóa.
Mô hình ARIMA có thể được chỉ định thông qua cấu trúc mùa. Trong trường hợp này, mô hình được chỉ định với hai tập của tham số (p, d, q) giống như mô tả ở trên và những tham số mô tả thành phần mùa m.
Phương pháp ARIMA có những hạn chế của nó. Những mô hình này dựa trực tiếp vào các giá trị trong quá khứ và hoạt động tốt nhất trên chuỗi dữ liệu dài và
28
ổn định.
4.2. Mục đích thực nghiệm
Dựa trên tập dữ liệu dịch cúm của Google Flu Trends tiến hành thực nghiệm nhằm phân tích và đưa ra kết quả dự báo. Trong phân thực nghiệm này học viên sử dụng mô hình ARIMA để phân tích hồi quy tập dữ liệu chuỗi thời gian, qua đó đưa ra mô hìn dự báo diễn biến dịch bệnh. Hiện nay, phân tích dự báo đang trở thành công tác quan trọng ở các đơn vị quản lý và hoạch định chiến lược. Số liệu được phân tích, dự đoán phục vụ cho việc định hướng các hoạt động trong tương lai.
4.3. Tập dữ liệu Google Flu Trends
Google Flu Trends là một dịch vụ web do Google thực hiện. Nó cung cấp ước tính về diễn biến của dịch cúm hơn 25 quốc gia, bằng cách thu thập các truy vấn của công cụ tìm kiếm Google, nó cố gắng để đưa ra dự đoán chính xác về hoạt động của dịch cúm. Dự án này được Google.org triển khai lần đầu tiên vào năm 2008 để giúp dự đoán sự bùng phát của dịch cúm.
Google Flu Trends hiện không còn công bố số liệu dịch cúm hiện tại. Các dữ liệu lịch sử của 25 nước vẫn có sẵn và dữ liệu được cung cấp cho các mục đích nghiên cứu, chúng ta có thể tải về từ địa chỉ: https://www.google.org/flutrends/about/
Tập dữ dữ liệu Google Flu Trends được tổng hợp qua nhiều năm trên nhiều quốc gia, với tập dữ liệu được thu thập qua nhiều năm tại 25 nước trên thế giới, đó là tập dữ liệu lý tưởng để phân tích và đưa ra dự báo. Số liệu dịch cúm mà Google Flu Trends tổng hợp và công bố, được đánh giá sát với số liệu của hệ thống cảnh báo độc lập Sentinel GP và HealthStat cung cấp. Dữ liệu của Google Flu Trends được tổng hợp theo thời gian thực và sẽ được đối chiếu lại với số liệu của những trung tâm kiểm soát dịch bệnh trên thế giới.
Hình 4.1. Biểu đồ so sánh dữ liệu dự báo của Google Flu Trends và Trung tâm kiểm soát và phòng ngừa các chứng bệnh của Mỹ
Đường màu xanh là số liệu được tổng hợp thông qua www.google.com với các từ khóa tìm kiếm liên quan đến các dịch cúm, màu vàng là dữ liệu do và Trung tâm kiểm soát và phòng ngừa các chứng bệnh của Mỹ đưa ra.
Số liệu dự báo được thu thập theo thời gian của các thành phố rải rác trên 25 quốc gia, từ năm 2003 đến 2015. Số liệu dịch cúm được thu thập không theo định kỳ, mà được tổng hợp tại các thời điểm ngẫu nhiên trong tháng, bộ dữ liệu được tổng hợp đầy đủ 12 tháng trong năm, để có thể đánh giá được diễn biến dịch bệnh theo các thời điểm từng tháng của năm. Trong một tập dữ liệu được thu thập gồm 2 trường thông tin: Date (ngày), Tên địa danh (đất nước hoặc thành phố). Cột Date là các thời điểm ghi nhận số lượng ca mắc cúm được biểu diễn bằng các ngày trong tháng và đối với mẫu dữ liệu 1 năm của một đất nước/thành phố luôn được ghi nhận đủ dữ liệu 12 tháng, kiểu dữ liệu cột Date là kiểu ngày (date). Cột Tên địa danh là tên của đất nước hoặc thành phố được ghi nhận, tại cột này ghi nhận số lượng ca mắc cúm tương ứng với thời điểm ghi nhận tại cột Date, kiểu dữ liệu cột này là Integer. Có thể tải bộ dữ liệu tại địa chỉ https://www.google.org/flutrends/about để mở các tệp này trong ứng dụng bảng tính, mở tệp văn bản dưới dạng bảng tính CSV.
Hình 4.2. Mẫu dữ liệu bệnh cúm của 25 nước trên thế giới được tổng hợp từ 2003 đến 2015
Tại hình 4.2 ở trên ta thấy tại vùng (1) là dữ liệu của cột Date là các thời điểm ghi nhận số ca mắc cúm. Tại vùng số (2) là số lượng ca mắc cúm tương ứng với các mốc thời gian tại cột Date, số lượng ca mắc cúm được ghi nhận của 25 nước khác nhau trên thế giới. Tương tự, khi xét tập dữ liệu của một quốc gia ta cũng sẽ có được một tập dữ liệu với cấu trúc gồm 2 cột Date và Tên địa danh là các thành phố.
Google Flu Trends được đã sử dụng phương pháp sau đây để thu thập thông tin về diễn biến của dịch cúm.
(1)
30
Thứ nhất, chuỗi thời gian được tính cho khoảng 50 triệu truy vấn phổ biến được cập nhật hàng tuần ở Hoa Kỳ từ năm 2003 đến năm 2008. Một chuỗi thời gian của truy vấn được tính riêng cho mỗi trạng thái và được bình thường hóa thành một phần nhỏ bằng cách chia số truy vấn cho mỗi số tất cả các truy vấn trong tiểu bang đó. Bằng cách xác định địa chỉ IP của mỗi tìm kiếm, trạng thái truy vấn này đã được nhập có thể được xác định.
log(𝑃) = 𝛽0 + 𝛽1 𝑥 log(Q) + 𝜀 (4.1)
P là tỷ lệ phần trăm của truy cập bác sĩ và Q là phân số truy vấn liên quan đến triệu chứng giống bệnh cúm tính trong các bước trước. β0 là hệ số chặn và β1 là hệ số, trong khi ε là sai số.
Mỗi trong số 50 triệu truy vấn được kiểm tra là Q để xem liệu kết quả tính từ một truy vấn có thể khớp với dữ liệu liên quan đến các triệu chứng của bệnh cúm trong lịch sử, thực tế thu được từ Trung tâm Kiểm soát và Phòng ngừa dịch bệnh của Hoa Kỳ (viết tắt là CDC). Quá trình này tạo ra một danh sách các truy vấn hàng đầu cung cấp cho các dự đoán chính xác nhất của dữ liệu liên quan quan đến triệu chứng cúm của CDC khi sử dụng mô hình tuyến tính. Sau đó, 45 truy vấn hàng đầu được chọn vì khi kết hợp với nhau, những truy vấn này phù hợp với dữ liệu lịch sử một cách chính xác nhất. Sử dụng tổng số 45 truy vấn liên quan đến triệu chứng giống bệnh cúm hàng đầu, mô hình tuyến tính được lắp vào dữ liệu hàng tuần giữa năm 2003 và 2007 để có thể đạt được hệ số. Cuối cùng, mô hình đào tạo được sử dụng để dự đoán dịch cúm ở tất cả các vùng ở Mỹ.
4.4. Môi trường, cấu hình hệ thống và công cụ 4.4.1. Cấu hình phần cứng 4.4.1. Cấu hình phần cứng
Thành phần Chỉ số
CPU Intel Pentium T4400 / 2.2 GHz RAM 2 x 2 GB OS Windows 7 Bộ nhớ ngoài 250 GB Bảng 1. Cấu hình phần cứng 4.4.2. Các công cụ phần mềm sử dụng TT Tên phần mềm Nguồn 1 R i386 3.4.4 https://www.r-project.org Bảng 2. Các công cụ, phần mềm sử dụng 4.5. Kết quả thực nghiệm
Đầu tiên, để tiến hành thực nghiệm chúng ta mở những gói thư viện cần thiết trong R và đọc tập dữ liệu cần phân tích, ta dùng 4 thư viện: ggplot2, forecast, tseries, lubridate.
Ví dụ: Sử dụng thư viện lubridate
Nếu thư viện chưa được cài đặt ta tiền hành cài trước khi sử dụng: