CHƯƠNG 1 : TỔNG QUAN VỀ CÁC MƠ HÌNH DỰ BÁO DỊCH BỆNH
1.2 Tổng quan về dự báo dịch bệnh và các mơ hình dự báo hiện cĩ
1.2.3 Nhận xét về các mơ hình dự báo dịch bệnh hiện cĩ
= 0+∑ +ε
trong đĩ y là biến phụ thuộc, x là biến độc lập, a là hệ số hồi quy, i là chỉ số cho các vị trí (location), j là chỉ số cho biến độc lập, và ε là sai số cho mỗi hồi qui tại các điểm i, Cho mỗi hồi qui tại các điểm i, quyền số của các quan sát được lựa chọn phục thuộc vào khoảng cách tới điểm hồi qui j. Hàm phân tách khoảng cách Gauss áp dụng trong phân tích này cĩ thể viết như sau:
1 2 (1.27)
= ⌈− ( | ) ⌉
2
Trong đĩ w là quyền số,
d là khoảng cách từ các điểm hồi qui,
b là phạm vi hay bán kinh của sự ảnh hưởng xung quanh mỗi quan sát.
1.2.3 Nhận xét về các mơ hình dự báo dịch bệnh hiện cĩ
Từng mơ hình trong các mơ hình dự báo dịch bệnh đề cập trong Mục 1.2.2 đều cĩ những ưu điểm và nhược điểm riêng nhìn theo gĩc độ của kết quả nghiên cứu đạt được. Các mơ hình dự báo dịch được cơng bố cĩ thể được chia thành ba lớp chính như Bảng 1.1. Lớp đầu tiên bao gồm các mơ hình dịch tễ học tốn học mà điển hình là các mơ hình SIR và biến thể của mơ hình dự báo SIR-SIS. Lớp thứ hai bao gồm các mơ hình học máy mà điển hình là các mơ hình hồi quy, mơ hình (tự) hồi quy, mơ hình hồi qui khơng gian và các mơ hình khai phá dữ liệu truyền thơng xã hội. Lớp cuối cùng gồm các mơ hình cịn lại.
Bảng 1.1 Đánh giá ưu nhược điểm của các lớp mơ hình dự báo dịch bệnh
Nhĩm mơ hình Ưu điểm Nhược điểm
Mơ hình dịch tễ học Lược bỏ được các thành - Khĩ khăn xác định được các tốn học và các biến phần phức tạp, chỉ tập tham số chủ yếu
thể trung vào bản chất của mơ - Cần nhiều dữ liệu quan sát
hình - Khĩ khăn trong triển khai đối
với mơ hình động khi giữa các lớp của mơ hình cĩ tương tác với nhau.
Các mơ hình dựa trên - Giải quyết được các bài - Kết hợp nhiều kiến thức các học máy, khai phá dữ tốn dự báo với dữ liệu chuyên ngành khác, địi hỏi nhiều
liệu lớn. nỗ lực và nhân lực các chuyên
- Thu thập dữ liệu nhanh ngành phối hợp. - Phong phú về kỹ thuật/ - Phụ thuộc vào dữ liệu
thuật tốn và cơng cụ - Hỗ trợ mơ phỏng
Các mơ hình khác (bao Mã hĩa dễ dàng bởi các ký - Khĩ khăn để chuyển thế giới thực gồm mơ hình dựa trên hiệu biểu diễn tri thức thành những mơ tả hình tượng
tác tử) một cách chính xác và đầy đủ.
- Địi hỏi nhiều thời gian để cĩ được kết quả
Mơ hình SIR hay mơ hình lan truyền theo ngăn chuẩn trong dịch tễ học tốn học được dùng để phân chia một dân số (hay một phần/vùng dân số) thành ba thành phần dân số con (3 ngăn) cho một căn bệnh truyền nhiễm trong một tổng dân số. Nhiều chi tiết quan trọng của sự tiến triển lây nhiễm sẽ bị lược bỏ. Để xây dựng mơ hình SIR, thực hiện mơ hình hĩa sơ lược sự biến động giữa các ngăn thơng qua các phương trình vi phân và tích phân. Dù mơ hình ba ngăn này là nền tảng cơ bản cho nghiên cứu dịch tễ, nhưng việc xác định các tham số chủ yếu khơng hề dễ dàng và để trả lời các câu hỏi liên quan khác địi hỏi các mơ hình ngẫu nhiên phức tạp hơn và cĩ
hiệu quả hơn khi áp dụng tin học và phân tích để xử lý một khối lượng rất lớn dữ liệu y tế. Vì lý do trong thực tế nếu xem xét mỗi tỉnh cĩ một mơ hình SIR riêng biệt thì Việt Nam sẽ cĩ 63 mơ hình SIR. Mơ hình nào cĩ thể diễn đạt hay theo dõi được sự lây nhiễm động của quá trình khi giữa các lớp Si cĩ sự tương tác với nhau tương tự cho các lớp Ii. Như vậy, yêu cầu cần cĩ những mơ hình khác để xem xét vì ít nhất hai lý do sau:
• Các khối dân số lớn chứa một cấu trúc cĩ tính đa tầng, các tầng này tương tác với nhau;
• Sự di chuyển của các cá thể giữa các tầng (tỉnh/thành phố) là tiềm năng cho sự lan truyền dịch bệnh.
Yếu tố khơng gian là một trong những yếu tố chính của dịch tễ học. Dữ liệu khơng gian thường cĩ hai tính chất là:
• Tự tương quan về khơng gian (những đối tượng gần nhau cĩ xu hướng tương tự nhau hơn những đối tượng ở xa) và
• Khơng dừng về khơng gian (biến đổi theo vùng).
Các tính chất này cĩ thể làm cho các ước lượng mơ hình hồi qui truyền thống khơng hiệu quả. Vì vậy, cần các nghiên cứu các phương pháp đưa yếu tố khơng gian vào để phù hợp với đặc tính thực tế này hoặc kết hợp những tính chất đặc biệt này của dữ liệu khơng gian để cải thiện khả năng mơ hình hĩa các mối quan hệ dữ liệu. Một số phương pháp hồi qui khơng gian xử lý hiệu quả vấn đề tự tương quan khơng gian; một số khác lại xử lý hiệu quả tính khơng dừng về khơng gian. Hiện tại, chưa cĩ phương pháp hồi qui khơng gian nào xử lý hiệu quả cả hai vấn đề trên[40].
Bên cạnh đĩ, cùng với sự phát triển của khoa học, việc thu thập và lưu trữ dữ liệu ngày càng thuận tiện hơn. Chúng ta ngày càng hiểu biết nhiều hơn về sự thay hình, đổi dạng của virus, sự hịa trộn nhân chủng học, mơi trường, khí hậu và mạng lưới tương tác phức tạp của con người cĩ ảnh hưởng ra sao đến sự lan truyền dịch bệnh. Xu hướng nghiên cứu đã dịch chuyển từ hướng nghiên cứu trên tập mẫu dữ liệu đại diện để dự báo sang việc phân tích dữ liệu lớn để tìm ra qui luật phục vụ dự báo. Trên những tập dữ liệu thu thập được địi hỏi cĩ sự kết hợp và đa dạng hĩa các
kiểu dữ liệu, các phương pháp phân tích. Kết quả của các phân tích này sẽ làm cơ sở cho việc quyết định phương pháp mơ hình hĩa phù hợp trong các mối quan hệ giữa bệnh tật và các yếu tố rủi ro từ mơi trường cũng như gợi ý các yếu tố nên xem xét đưa vào mơ hình. Ở Việt Nam, đã cĩ một số nghiên cứu đưa ra mơ hình dự báo tỷ lệ mắc bệnh dựa trên cơ sở phân tích mối quan hệ giữa dịch bệnh và các yếu tố động lực/rủi ro từ mơi trường [1],[11]. Tuy nhiên các nghiên cứu này đều chưa phân tích mơ hình phân bố dịch bệnh theo khơng gian. Hay nĩi cách khác, các nghiên cứu mới chủ yếu tập trung vào chiều thời gian mà chưa quan tâm đến dữ liệu khơng gian. Do đĩ, nghiên cứu trong luận án này tập trung vào việc tìm kiếm giải pháp mơ hình hĩa dự báo dịch bệnh cĩ sử dụng dữ liệu khơng gian bằng các kỹ thuật khai phá và học máy.