Với số liệu được trình diễn bằng sơ đồ ta có thể thấy rằng diễn biến dịch bệnh được thay đổi theo thời gian và có chu kỳ diễn biến nhất định. Tại Hình 4.7, sơ đồ biểu diễn dịch bệnh cúm mùa của Argentina năm 2004, số ca mắc được phân bổ như sau: vào những tháng 1, 2, 3, 4 dịch cúm ở mức thấp; đến tháng 5, 6, 7, 8, 9 số ca mắc tăng vọt và giảm dần vào cuối năm từ tháng 10, 11, 12. Chu kỳ biến động dịch bệnh cũng được lặp đi lặp lại từ năm này qua năm khác. Từ phép phân tích trên có thể nhận thấy chu kỳ tăng, giảm của bệnh dịch qua đó sẽ đưa ra dự báo cho thời diểm trong tương lai.
34
Đánh giá tập dữ liệu năm 2004 của Argentina nói riêng và các tập dữ liệu khác của Google Flu Trends nói chung, nhận thấy các tập dữ liệu bao gồm những thông tin cơ bản đáp, ứng yêu cầu phân tích chuỗi dữ liệu thời gian, các thuộc tính đều phù hợp với mô hình, nên không cần phải qua bước xử lý dữ liệu. Cụ thể, trong tập dữ liệu năm 2004 của Argentina có duy nhất 2 cột: Date (ngày ghi nhận số ca mắc cúm) và
Argentina (số liệu cúm được ghi nhận). Tập dữ liệu đầu vào đã đáp ứng nên thực nghiệm của luận văn bỏ qua Bước 2: Tiền xử lý dữ liệu và chuyển qua Bước 3: Đổi dạng.
Bước 3: Đổi dạng
Ta loại bỏ các ngoại lệ của chuỗi thời gian với tsclean(), xác định và thay thế các ngoại lệ bằng cách làm mịn và phân tách chuỗi thời gian. Phương thức này có khả năng nhập các giá trị bị mất trong chuỗi nếu có, chúng ta sử dụng lệnh ts() để tạo một đối tượng chuỗi thời gian qua hàm tsclean().
Sử dụng hàm tsclean(), tập dữ liệu được làm sạch, trong tập dữ liệu mới được tạo ra có thêm cột clean_scm, là số liệu đã được làm sạch.