MỞ ĐẦU Tính cấp thiế t Dự báo là một hoạt động thường xuyên có tính tất yếu của các cá nhân và tổ chức nhằm đưa ra những thông tin chưa biết trên cơ sở các thông tin đã biết. Trong lĩnh vực y tế và chăm sóc sức khỏe, có một lớp lớn các bài toán dự báo với phạm vi ở nhiều cấp độ từ địa phương, quốc gia, thế giới cần được giải quyết. Chính vì vậy, dự báo trong y tế nói chung và dự báo dịch bệnh nói riêng luôn nhận được sự quan tâm của cộng đồng nghiên cứu. Nhằm góp phần ngăn chặn sự bùng phát và lây lan của dịch bệnh, đã có nhiều công trình nghiên cứu được công bố và ứng dụng, trong đó dự báo sớm là một biện pháp góp phần đáng kể. Các kết quả nghiên cứu dự báo dịch bệnh trong thời gian qua là bằng chứng quan trọng cho việc lập kế hoạch và quản lý các hoạt động chăm sóc sức khỏe. Dự báo được coi là công cụ hữu ích cho các nhà quản lý và hoạch định chính sách. Cùng với sự phát triển nhanh chóng của khoa học công nghệ, nhiều phương pháp và kỹ thuật mới đã được sử dụng cho dự báo. Trong đó, mô hình dự báo dựa trên các kỹ thuật khai phá dữ liệu, học máy là một nhóm trong các kỹ thuật đang có xu hướng được áp dụng rộng rãi. Trong bối cảnh việc thực hiện các nghiên cứu thường bị hạn chế về cả thời gian và nguồn lực, việc sử dụng mô hình khai phá dữ liệu, học máy trong dự báo dịch bệnh là một phương pháp thích hợp, có khả năng giải quyết được tính phức tạp của bài toán dự báo dịch bệnh với chi phí thấp. Ở Việt Nam, ứng dụng khai phá dữ liệu, học máy trong dự báo dịch bệnh vẫn là một lĩnh vực non trẻ. Số lượng các chuyên gia về lĩnh vực này cũng như các nghiên cứu ứng dụng các phương pháp dự báo dịch bệnh trong y tế còn hạn chế trong khi nhu cầu cần bằng chứng trong xây dựng các chương trình, chính sách y tế đang ngày càng gia tăng. Ngày nay, các bệnh truyền nhiễm đang có xu hướng giảm trong cộng đồng, nhưng dưới sự tác động của nhiều yếu tố như biến đổi khí hậu, môi trường và ý thức con người, nhiều bệnh dịch truyền nhiễm đã được thanh toán trước đây, nay tái xuất hiện và cùng với đó, nhiều bệnh dịch mới nổi lên, đặc biệt ở các vùng chịu ảnh hưởng của biến đổi khí hậu và đời sống kinh tế khó khăn. Chính vì vậy việc tìm hiểu nguyên nhân dịch bệnh đã không còn gói gọn trong việc phát hiện căn nguyên vi sinh vật, mà mở rộng ra cho nhiều loại yếu tố tự nhiên, xã hội và sinh học có các mức độ liên quan với số ca mắc bệnh trong cộng đồng. Ngoài việc phát hiện ra căn nguyên và các yếu tố ảnh hưởng, cần xây dựng các mô hình dự báo sử dụng các kỹ thuật khác nhau dựa vào các thông số về tự nhiên, như khí hậu, môi trường, và hành vi, thói quen trong cộng đồng..., nhằm cảnh báo sớm dịch bệnh, giúp giảm thiểu nguy cơ, tổn thất có thể xảy ra cho con người. Trong những năm gần đây, sự sẵn có và ngày càng tăng các nguồn dữ liệu, đặc biệt là dữ liệu khí hậu - thời tiết thu thập từ các cảm biến từ xa và những dữ liệu phân tích lại, cũng như sự phát triển của các kỹ thuật dự báo đã mang lại cơ hội mới cho phân tích và dự báo dịch bệnh trong ngành y tế. Bên cạnh đó, việc lan truyền của dịch bệnh có liên hệ mật thiết với sự lân cận về không gian và thời gian. Do vậy, việc nghiên cứu các kỹ thuật xây dựng mô hình dự báo dịch bệnh có xem xét đến ảnh hưởng của các yếu tố không gian, thời gian và khí hậu tới sự xuất hiện và lan truyền dịch bệnh là rất cần thiết.