ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 3(112).2017-Quyển 79 XÂY DỰNG MƠ HÌNH DỰ BÁO DỊCH TẢ NGẮN HẠN VÀ ĐÁNH GIÁ ẢNH HƯỞNG CỦA CÁC YẾU TỐ KHÍ HẬU VÀ ĐỊA LÝ BUILDING SHORT-TERM CHOLERA FORECAST MODELS AND EFFECT EVALUATION OF CLIMATE AND GEOGRAPHICAL FACTORS Lê Thị Ngọc Anh1, Hoàng Xuân Dậu2 Trường Đại học Y Hà Nội; lengocanh@hmu.edu.vn Học viện Cơng nghệ Bưu Viễn thơng; dauhx@ptit.edu.vn Tóm tắt - Sự bùng phát bệnh truyền nhiễm nói chung bệnh tả nói riêng có liên hệ chặt chẽ với yếu tố nguồn nước, thực phẩm khí hậu Bài báo đề xuất xây dựng mơ hình dự báo bệnh tả ngắn hạn dựa phương pháp rừng ngẫu nhiên, có xem xét tồn diện ảnh hưởng yếu tố khí hậu (nhiệt độ, độ ẩm…) địa lý (sự lân cận địa lý, hệ thống sông…) đến số ca mắc tả Hà Nội giai đoạn 2001-2012 Phân tích thực nghiệm cho thấy dạng “mơ hình đầy đủ” có xem xét yếu tố khí hậu địa lý cho kết dự báo tốt cho quận/huyện Hà Nội Các kết khẳng định lân cận địa lý số ca nhiễm bệnh quận/huyện có liên kết mật thiết Các yếu tố khí hậu có ảnh hưởng theo mức khác đến số ca nhiễm bệnh, nhiệt độ độ ẩm có mức ảnh hưởng lớn số dao động Nam có mức ảnh hưởng thấp Abstract - The outbreaks of infectious diseases in general and cholera in particular have a close relationship with factors such as water source, food and climate This paper proposes building Random Forests-based models for short-term cholera forecast, which evaluate the effect of climate factors (temperature, humidity,…) and geographical factors (locality, river system,…) on the cholera cases in Hanoi city for the period of 2001-2012 Experimental analyses show that “complete model” has the best forecast accuracy for each district in Hanoi The analysis results also confirm that the geographical locality and the number of cholera cases in Hanoi’s districts have close relationships Climate factors have different effect levels on the number of cholera cases Particularly, the daily mean temperature and humidity have strongest effect, while southern oscillation index (SOI) has least effect Từ khóa - mơ hình dự báo bệnh tả; dự báo bệnh tả ngắn hạn; nhân tố khí hậu thời thiết; trường ngẫu nhiên; chuỗi thời gian Key words - cholera forecast model; short-term cholera forecast; climate and geographical factors; random forests; time series Giới thiệu yếu tố khác biến đổi khí hậu cần thiết để xây dựng chiến lược phù hợp cho việc kiểm soát, giám sát ngăn chặn bùng phát bệnh tả Phần báo bố cục sau: Mục phân tích số nghiên cứu có liên quan, Mục trình bày q trình xây dựng mơ hình dự báo ngắn hạn, Mục trình bày thực nghiệm mơ hình đánh giá ảnh hưởng yếu tố khí hậu địa lý, Mục phần kết luận Bệnh tả vấn đề y tế cơng cộng tồn cầu tỷ lệ mắc bệnh tỷ lệ tử vong giảm mạnh năm gần [1] Bệnh tả tiêu chảy cấp tính gây vi khuẩn Vibrio Cholera Bệnh tả thường xem xét mối quan hệ với nguồn nước bị ô nhiễm sở hạ tầng vệ sinh kém, đặc biệt nước có mức thu nhập thấp trung bình [2], [3] Cùng với nguồn nước tình trạng vệ sinh, số nghiên cứu trước chứng minh biến đổi khí hậu góp phần vào phổ biến vi khuẩn tả [4] Chẳng hạn, nghiên cứu châu Phi cho thấy gia tăng nhiệt độ lượng mưa làm tăng số ca mắc tả [5], [6] Hơn nữa, nghiên cứu Bangladesh cho thấy nhiệt độ số nắng liên quan với xuất dịch tả [7] Trong báo cáo gần đây, Tổ chức Y tế Thế giới nhấn mạnh yếu tố khí hậu có vai trị quan trọng phân bố không gian thời gian bệnh truyền nhiễm [8], [9] Vì vậy, việc thiết lập mơ hình dự báo dịch tả dựa yếu tố khí hậu cần thiết để có biện pháp phòng ngừa can thiệp ngắn hạn dài hạn Việt Nam trải qua nhiều đợt dịch tả vào kỷ XX, đặc biệt năm 1960 1990, hầu hết ca mắc bệnh báo cáo khu vực phía Nam [2], [10] Tuy nhiên, năm 2007 2008, đợt dịch tả xảy tỉnh chủ yếu khu vực phía Bắc, có Hà Nội [2], [10], [11], [12] Tính đến tháng Tư năm 2008, có 3.271 ca mắc bệnh tả theo số liệu báo cáo từ 18 tỉnh [10], [11] Nhiều nguyên nhân dịch tả đưa thảo luận, ngồi nguồn nước thực phẩm bị nhiễm [2] Do đó, việc nghiên cứu mơ hình dự báo có xem xét mối quan hệ ca mắc tả Các nghiên cứu liên quan Ali cộng [1] nghiên cứu liệu dịch tả Matlab, Bangladesh từ 1988 đến 2001 rút kết luận rằng, số lượng ca bệnh tả vùng có liên hệ mật thiết với nhiệt độ đất liền nhiệt độ mặt biển (sea surface temperature - SST) khu vực nghiên cứu Reiner cộng [13] xây dựng thành cơng mơ hình cho phép dự báo số lượng ca bệnh tả Matlab, Bangladesh trước 11 tháng Các tập liệu sử dụng bao gồm thời tiết, số dao động phía Nam (southern oscillation index SOI) tình trạng ngập lụt từ năm 1995 đến 2008 Kết nghiên cứu SOI tình trạng ngập lụt yếu tố ảnh hưởng đến lượng ca bệnh tả Matlab Mở rộng theo hướng này, Xu cộng [14] phân tích ảnh hưởng khí hậu đến bệnh tả Trung Quốc từ năm 2001 đến 2008 đưa kết luận lượng mưa, nhiệt độ độ cao so với mặt biển (sea surface height - SSH) có ảnh hưởng lớn tới số ca bệnh tả Khoảng cách tới bờ biển, độ ẩm tương đối khí áp có ảnh hưởng Tuy nhiên số nắng q trình giảm mức nước sơng khơng có ảnh hưởng đến số ca bệnh Kelly-Hope cộng [2] nghiên cứu Lê Thị Ngọc Anh, Hoàng Xuân Dậu 80 dịch tả Việt Nam kết luận có liên hệ rõ rãng lượng mưa bùng phát dịch tả với độ trễ tháng giai đoạn 1991-2001 Nghiên cứu Emch cộng [4] yếu tố ảnh hưởng khả nhiễm tả, bao gồm tăng nhiệt độ mặt biển mực nước sông Việt Nam Kết nghiên cứu kể khẳng định tham số thời tiết nhiệt độ, độ ẩm, SOI, SST, SSH có liên hệ mức khác đến số lượng ca bệnh tả vùng nghiên cứu khác Tuy nhiên, đợt bùng phát dịch tả Hà Nội từ năm 2007 đến 2009 đặt cần thiết xem xét tồn diện đến tham số khí hậu địa lý Bài báo đề xuất xây dựng mơ hình dự báo dịch tả ngắn hạn có xem xét toàn diện mức độ ảnh hưởng yếu tố khí hậu địa lý đến số ca bệnh tả Hà Nội giai đoạn 2001-2012 tên FS Tập FS có 35 biến 4.383 quan sát, minh họa hình Trong số 35 biến, có biến thời tiết, gồm nhiệt độ khơng khí, độ ẩm, lượng mưa, số nắng, tốc độ gió SOI Các biến cịn lại số ca mắc tả cho 29 quận/huyện Hà Nội Các mơ hình dự báo dịch tả ngắn hạn 3.1 Các tập liệu sử dụng tiền xử lý 3.1.1 Các tập liệu sử dụng Để xây dựng mơ hình dự báo bệnh tả ngắn hạn cho Hà Nội, sử dụng tập liệu sau: tập liệu ca bệnh tả, thời tiết, địa lý, hệ thống sông, hệ thống giao thông SOI Bảng cung cấp thông tin chi tiết tập liệu Bảng Các tập liệu sử dụng nghiên cứu Các tập liệu Mô tả Tập liệu địa lý Chứa đồ quận/huyện, phường/xã, hệ thống đường giao thông, hệ thống sông mặt nước theo tỷ lệ 1:50.000 Hà Nội có 29 quận/huyện quận/huyện xem lân cận có chung đường biên giới hành Tập liệu thời tiết Chứa liệu theo ngày về: độ ẩm (thấp nhất, cao trung bình), nhiệt độ khơng khí (thấp nhất, cao trung bình), số nắng, tốc độ gió lượng mưa, cung cấp trạm khí tượng Láng, Hà Nội từ 2001-2012 Tập liệu SOI Dữ liệu SOI thu thập từ trang web bang Queensland, Australia [15] Tập liệu ca bệnh tả Chứa liệu tất ca tả Hà Nội từ 1/1/2001 đến 31/12/2012 Thông tin ca tả gồm họ tên, tuổi, giới tính, ngày nhiễm địa (tối thiểu đến cấp phường/xã) bệnh nhân Dữ liệu ca tả tổng hợp theo ngày, tháng theo quận/huyện Theo đó, đợt dịch xảy năm 2004 (25 ca), 2007 (1.179 ca), 2008 (2.057 ca), 2009 (890 ca) 2010 (350 ca) 3.1.2 Tiền xử lý liệu Do liệu ca tả phân bố không đồng phân bố tập trung năm, định sử dụng tổng hợp liệu theo ngày cho việc xây dựng mô hình dự báo, trừ liệu địa lý Điều giúp tăng số điểm liệu giai đoạn nghiên cứu thuận lợi xây dựng mơ hình dự báo ngắn hạn Các tập liệu thời tiết, SOI ca bệnh tổng hợp theo ngày trộn thành tập liệu nhất, gọi Hình Ma trận tương quan tập liệu FS 3.2 Xây dựng mơ hình dự báo dịch tả ngắn hạn Để đánh giá ảnh hưởng yếu tố địa lý khí hậu lên số ca mắc tả, coi quận/huyện Hà Nội đơn vị địa lý xây dựng mơ hình dự báo cho quận/huyện Các mơ hình dự báo bao gồm mơ hình đầy đủ (ký hiệu DD), mơ hình độc lập khí hậu (ký hiệu DLKH) mơ hình độc lập lân cận khơng gian địa lý (ký hiệu DLDL) Bảng cung cấp thơng tin chi tiết nhóm biến sử dụng dạng mơ hình kể Mục đích việc xây dựng mơ hình cho quận/huyện để lựa chọn mơ hình dự báo tốt cho cho quận/huyện đánh giá mức độ ảnh hưởng tham số lân cận không gian địa lý khí hậu đến độ xác mơ hình dự báo Tất mơ hình có đầu số ca bệnh tả Bảng Mơ tả mơ hình dự báo với nhóm biến đầy đủ, độc lập với khí hậu, độc lập lân cận địa lý Nhóm dự báo Mơ hình DD Dữ liệu khí hậu Dữ liệu lân cận khơng gian địa lý DLKH DLDL Nhiệt độ trung bình Nhiệt độ trung bình Độ ẩm trung bình Độ ẩm trung bình Lượng mưa Lượng mưa Chỉ số SOI Chỉ số SOI Số nắng Số nắng Tốc độ gió Tốc độ gió Số lượng ca bệnh tả Số lượng ca bệnh quận D tả quận D Số lượng ca bệnh tả quận lân Số lượng ca bệnh cận quận D tả quận lân cận quận D ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 3(112).2017-Quyển Mỗi mơ hình có tham số độ trễ l tính theo ngày Tham số có nghĩa sử dụng số ca bệnh tả thời điểm l ngày trước quận/huyện xem xét biến dự báo cho mơ hình Điều có nghĩa dự báo số ca bệnh tả quận/huyện l ngày Ngồi ra, mơ hình sử dụng số ca bệnh tả khứ tất quận/huyện lân cận liệu khí hậu khứ biến đầu vào bổ sung mơ hình Để xây dựng mơ hình, chúng tơi sử dụng phương pháp học máy hồi quy Random Forests (RF) để xử lý tập liệu FS chuỗi thời gian theo phương pháp cửa sổ trượt song hành tập huấn luyện tập kiểm thử Random Forests đánh giá phù hợp cho xử lý toán chuỗi thời gian [16] Trong phương pháp cửa sổ trượt, khởi tạo cửa sổ s1 tương ứng với tập liệu huấn luyện ban đầu Với tập liệu kiểm thử lựa chọn cửa sổ s2 Chú ý điểm liệu tập huấn luyện bao gồm tất biến đầu vào đầu ra, tập liệu kiểm thử bao gồm biến dự báo Cửa sổ trượt trượt dọc theo trục thời gian khơng cịn liệu Mơ hình xây dựng chuyển dịch cải thiện dọc theo trục thời gian Chọn kích thước cửa sổ trượt s1=s2=l tất mơ hình Độ trễ thời gian mơ hình lựa chọn d=3, 7, 14 30 ngày, cửa sổ trượt có cỡ cố định với cỡ ban đầu d=3, 7, 14, 30 Chuỗi thời gian sử dụng để kiểm thử tương ứng n=3, 7, 14, 30 m1 m2 m3 m4 m5 m6 m7 m8 c4 c5 c6 c7 c8 c9 c10 c11 n1 n2 n3 n4 n5 n6 n7 n8 Dữ liệu huấn luyện 81 (Adjusted determination coefficient -R ) Các giá trị RMSE R2 tính cho 29×3 mơ hình Trên sở thực nghiệm, phần việc sau thực hiện: (1) so sánh ảnh hưởng yếu tố khí hậu địa lý đến độ xác dự báo mơ hình, (2) phân tích thống kê để tìm mối quan hệ độ xác khoảng thời gian dự báo, (3) đánh giá tầm quan trọng biến khí hậu mơ hình hồi quy RF cho quận/huyện Phần trình bày chi tiết phần việc 4.1 Ảnh hưởng yếu tố khí hậu địa lý đến độ xác dự báo Để so sánh ảnh hưởng yếu tố khí hậu địa lý đến độ xác dự báo, cụ thể độ đo RMSE R2, sử dụng phương pháp Tukey [17] với khoảng dự báo trước 3, 7, 14 30 ngày Các kết biểu diễn hình 3-6 Xét khoảng cách độ tin cậy giá trị trung bình cặp mơ hình DLDL-DD DLKH-DD, thấy mơ hình đầy đủ (DD) có độ đo R2 cao tốt Các mơ hình độc lập địa lý (DLDL) có độ đo R2 thấp Như vậy, kết luận số ca mắc tả quận/huyện có liên hệ chặt chẽ với số ca mắc tả quận/huyện lân cận Tuy nhiên, kết so sánh độ đo RMSE không cho thấy khác biệt độ xác mơ hình Hơn nữa, việc so sánh độ đo RMSE khơng cho phép mơ hình tốt Do vậy, sử dụng độ đo R2 để so sánh mơ hình Dữ liệu kiểm thử Dữ liệu huấn luyện Dữ liệu kiểm thử Dữ liệu huấn luyện Dữ liệu kiểm thử Hình Minh họa việc huấn luyện mơ hình hồi quy RF theo phương pháp cửa sổ trượt có độ trễ thời gian Hình minh họa việc huấn luyện mơ hình hồi quy RF theo phương pháp cửa sổ trượt với độ trễ thời gian ngày, kích cỡ cửa sổ trượt ngày, số ngày dự báo trước ngày Giá trị tham số: n=3, d=3 Các ô m1, m2, , m8 biến khí hậu từ ngày đến ngày 8; ô c4, c5, , c11 biến ghi nhận ca mắc bệnh quận C ngày 4, 5, , 11; n1, n2, , n8 số ca mắc tả quận lân cận ngày đến Thời điểm bắt đầu huấn luyện mơ hình ngày Dữ liệu huấn luyện tập {m1, m2, m3, n1, n2, n3, c4, c5, c6} Dữ liệu kiểm thử tập {m4, m5, m6, n4, n5, n6} Kết kiểm thử (dự báo) tập {c7, c8, c9} Quá trình lặp lại cho ngày 7, 8, Với liệu 4.383 ngày giai đoạn nghiên cứu, số lần lặp trình huấn luyện kiểm thử 4.377 Thực nghiệm đánh giá Chúng tơi xây dựng 29×3 mơ hình hồi quy RF cho 29 quận/huyện sử dụng tập liệu FS mô tả mục 3.1 Để đánh giá mô hình hồi quy, độ đo thường sử dụng gồm sai số trung bình quân phương (Root mean squared error - RMSE) hệ số xác định điều chỉnh Hình So sánh kết dự báo thực tế với mơ hình đầy đủ (DD) cho quận Ba Đình Hình So sánh kết dự báo thực tế với mơ hình độc lập khí hậu (DLKH) cho quận Ba Đình Lê Thị Ngọc Anh, Hồng Xn Dậu 82 diễn hình Theo đó, thấy tham số nhiệt độ độ ẩm trung bình ngày yếu tố quan trọng nhất, với khoảng 50% độ quan trọng so sánh với biến khí hậu khác Số nắng chiếm khoảng 35% độ quan trọng Các biến có độ quan trọng thấp tốc độ gió SOI với độ quan trọng thấp 20% Hình So sánh kết dự báo thực tế với mơ hình đầy đủ (DLDL) cho quận Ba Đình (a) (b) Hình So sánh ảnh hưởng biến khí hậu lên mơ hình đầy đủ (DD) (c) (d) Hình So sánh ảnh hưởng nhóm biến khí hậu nhóm biến địa lý đến độ xác mơ hình với độ đo R 2: (a), (b), (c), (d) ứng với khoảng dự báo trước 3, 7, 14 30 ngày 4.2 Mối quan hệ độ xác khoảng thời gian dự báo Như phân tích mục 4.1, mơ hình đầy đủ tốt Do vậy, sử dụng mô hình đầy đủ để dự báo số ca mắc tả cho 29 quận/huyện Hà Nội với khoảng dự báo 3, 7, 14 30 ngày Sau trình dự báo, kết so sánh với số liệu quan sát độ đo R2 tính tốn Để quan sát thay đổi độ xác theo khoảng dự báo, mơ hình hồi quy tuyến tính với tham số vào số ngày dự báo trước quận/huyện, đầu độ đo R2 Kết cho thấy, tất tham số khác giữ nguyên tăng độ dài dự báo lên ngày độ đo R2 giảm 0,0076 với khoảng tin cậy 95% [-0,0095, 0,0057] 4.3 Tầm quan trọng biến khí hậu Ảnh hưởng biến khí hậu trích xuất từ mơ hình RF xây dựng cho quận/huyện biểu Kết luận Chúng tơi xây dựng 29×3 mơ hình hồi quy RF cho dự báo dịch tả cho quận/huyện thành phố Hà Nội giai đoạn 2001 đến 2012 Kết so sánh, phân tích cho thấy mơ hình đầy đủ cho kết dự báo xác ngắn hạn có xem xét đến tất yếu tố khí hậu địa lý Các kết so sánh, phân tích mức độ ảnh hưởng yếu tố địa lý khí hậu khẳng định lân cận địa lý số ca bệnh quận/huyện lân cận có mối liên hệ chặt chẽ Các yếu tố khí hậu có ảnh hưởng theo mức khác đến số ca bệnh, nhiệt độ độ ẩm trung bình ngày có mức ảnh hưởng lớn nhất, tốc độ gió SOI có mức ảnh hưởng thấp Nghiên cứu tìm rằng, độ xác mơ hình dự báo giảm tăng khoảng dự báo, với hệ số R2 giảm trung bình 0,0076 khoảng dự báo tăng ngày Trong tương lai, chúng tơi tiếp tục nghiên cứu, phân tích sâu chi tiết ảnh hưởng yếu tố lân cận địa lý, bao gồm hệ thống sơng ngịi, mặt nước đến số ca bệnh TÀI LIỆU THAM KHẢO [1] Ali M, Lopez AL, You YA, et al, The global burden of cholera Bulletin of the World Health Organization, Mar 2012, 90(3):209218A [2] Kelly-Hope LA, Alonso WJ, Thiem VD, et al, “Temporal trends and climatic factors associated with bacterial enteric diseases in Vietnam, 1991-2001”, Environmental health perspectives, Jan 2008, 116(1):7-12 [3] Organization WH Cholera, Geneva, Switzerland: World Health Organization, 2003 [4] Emch M, Feldacker C, Yunus M, et al, “Local Environmental Predictors of Cholera in Bangladesh and Vietnam”, The American journal of tropical medicine and hygiene, May 1, 2008, 78(5):823832 ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 3(112).2017-Quyển [5] Mendelsohn J, Dawson T, “Climate and cholera in KwaZulu-Natal, South Africa: the role of environmental factors and implications for epidemic preparedness”, International journal of hygiene and environmental health, Mar 2008, 211(1-2):156-162 [6] Reyburn R, Kim DR, Emch M, Khatib A, von Seidlein L, Ali M, “Climate variability and the outbreaks of cholera in Zanzibar, East Africa: a time series analysis”, The American journal of tropical medicine and hygiene, Jun 2011, 84(6):862-869 [7] Islam MS, Sharker MA, Rheman S, et al, “Effects of local climate variability on transmission dynamics of cholera in Matlab, Bangladesh”, Transactions of the Royal Society of Tropical Medicine and Hygiene, Nov 2009, 103(11):1165-1170 [8] Kovats RS, Bouma MJ, Hajat S, Worrall E, Haines A, El Nino and health, Lancet, Nov 2003, 362(9394):1481-1489 [9] Organization WH, Using Climate to Predict Infectious Disease Outbreaks: A Review, Geneva, Switzerland, 2004 [10] Control GTFoC, Cholera country profile: Vietnam, Geneva, Switzerland: World Health Organization, 2008 [11] Nguyen BM, Lee JH, Cuong NT, et al, “Cholera outbreaks caused by an altered Vibrio cholerae O1 El Tor biotype strain producing classical cholera toxin B in Vietnam in 2007 to 2008”, Journal of clinical microbiology, May 2009, 47(5):1568-1571 83 [12] Organization WH, Outbreak news, Severe acute watery diarrhoea with cases positive for Vibrio cholerae, Viet Nam, Releve epidemiologique hebdomadaire / Section d'hygiene du Secretariat de la Societe des Nations = Weekly epidemiological record / Health Section of the Secretariat of the League of Nations May 2008, 83(18):157-158 [13] Robert C Reiner, A A King, M Emch, M Yunus, A S G Faruque, and M Pascual, Highly localized sensitivity to climate forcing drives endemic cholera in a megacity, Proc Natl Acad Sci U S A., 109, 2033–2036 (2012) [14] Min Xu, Chunxiang Cao, Duochun Wang, and Biao Kan, Identifying Environmental Risk Factors of Cholera in a Coastal Area with Geospatial Technologies, Int J Environ Res Public Health 2015, 12, 354-370 [15] Daily SOI data set of the Queensland, Australia, available online at https://www.longpaddock.qld.gov.au/seasonalclimateoutlook/ southernoscillationindex/soidatafiles/DailySOI1887-1989Base.txt [16] R Hyndman, G Athanasopoulos, Forecasting: principles and practice, Otexts, 2013 [17] Nguyễn Văn Tuấn (2015), Phân tích phương sai, ykhoa.net/r/R/Chuong 11 Phan tich phuong sai.pdf, Truy cập 5/2016 (BBT nhận bài: 18/01/2017, hoàn tất thủ tục phản biện: 22/02/2017)