1. Trang chủ
  2. » Thể loại khác

Mô hình dự báo sớm dịch sốt xuất huyết dựa vào Google Trends tại thành phố Hồ Chí Minh

9 79 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 9
Dung lượng 471,67 KB

Nội dung

Sốt xuất huyết Dengue (SXHD) là một bệnh truyền nhiễm tác nhân do vi rút truyền qua côn trùng phổ biến nhất. Mục tiêu của nghiên cứu là sử dụng nguồn dữ liệu lưu lượng tìm kiếm Google Trends index (GTI) xây dựng thành một mô hình có khả năng dự báo sớm dịch sốt xuất huyết tại TP.HCM nhằm mục đích hỗ trợ cho công tác giám sát và phòng chống dịch ở khu vực được thêm hiệu quả.

TẠP CHÍ NGHIÊN CỨU Y HỌC MƠ HÌNH DỰ BÁO SỚM DỊCH SỐT XUẤT HUYẾT DỰA VÀO GOOGLE TRENDS TẠI THÀNH PHỐ HỒ CHÍ MINH Trần Ngọc Đăng1, Lê Vĩnh Phát2 Bộ môn SKMT, Khoa YTCC, Trường Đại học Y dược TP.HCM Trường Đại học Y Dược TP.HCM Sốt xuất huyết Dengue (SXHD) bệnh truyền nhiễm tác nhân vi rút truyền qua côn trùng phổ biến Mục tiêu nghiên cứu sử dụng nguồn liệu lưu lượng tìm kiếm Google Trends index (GTI) xây dựng thành mơ hình có khả dự báo sớm dịch sốt xuất huyết TP.HCM nhằm mục đích hỗ trợ cho cơng tác giám sát phòng chống dịch khu vực thêm hiệu Sử dụng phương pháp so sánh tương quan để ước tính mối liên hệ GTI tra cứu với cụm từ “sốt xuất huyết” liệu số mắc SXHD TP.HCM, sau xây dựng số mơ hình dự đoán hồi quy quasi-Poisson kết hợp phép điều chỉnh nhằm loại bỏ tự tương quan số liệu Nghiên cứu cho thấy GTI tương quan cao với số mắc sốt xuất huyết với r2 = 0,74 mơ hình cuối chọn có khả dự đốn dịch SXHD tốt với độ xác 87%, độ nhạy 92,3% độ đặc hiệu 87% Mơ hình dự báo chúng tơi cho thấy nguồn liệu Google Trends có tiềm việc theo dõi kiểm soát dịch SXHD TP.HCM Những nghiên cứu sâu nhằm đánh giá tính hiệu mơ hình bối cảnh thực tế cần thực tương lai Từ khóa: Google Trends, mơ hình dự báo, hồi quy Poisson, tự tương quan, sốt xuất huyết, thành phố Hồ Chí Minh I ĐẶT VẤN ĐỀ Sốt xuất huyết Dengue (SXHD) hay thường gọi sốt xuất huyết bệnh truyền nhiễm cấp tính Vi rút Dengue lây truyền chủ yếu muỗi Aedes aegypti Tỷ lệ mắc SXHD toàn cầu tăng lên đáng kể qua thập kỷ gần đây, khiến khoảng nửa dân số giới nằm tình trạng nguy hiểm nguyên nhân hàng đầu gây bệnh tật nghiêm trọng chí tử vong trẻ nhỏ SXHD tìm thấy khắp vùng khí hậu nhiệt đới cận nhiệt đới toàn giới, chủ yếu tập trung thành thị bán thành thị [1] Việt Nam nằm vành đai nhiệt đới, Tác giả liên hệ: Trần Ngọc Đăng, Khoa YTCC, Đại học Y dược TP.HCM Email: ngocdangytcc@gmail.com Ngày nhận: 05/04/2019 Ngày chấp nhận: 07/05/2019 TCNCYH 121 (5) - 2019 địa hình tự nhiên phức tạp, đồng thời chịu ảnh hưởng gió mùa Đơng Bắc nên khí hậu ln thay đổi năm vùng [2] Điều tạo điều kiện thuận lợi cho véc tơ truyền SXHD thích nghi, biến đổi phát triển khó kiểm sốt Việt Nam có tỉ lệ mắc SXHD cao khu vực, vòng tháng đầu năm 2017 nước ghi nhận 80.555 trường hợp mắc SXHD với 22 trường hợp tử vong, số trường hợp nhập viện 69.085 ca So với kỳ năm 2016 (51.742/17) số mắc tăng 33,5%, số tử vong tăng 05 ca [3] Thành phố Hồ Chí Minh (TP.HCM) với diện tích nhỏ 20 tỉnh phía nam lại có mật độ phân bố dân cư thuộc hàng cao nước với 3.927 người/km [4], đặc điểm thời tiết đặc trưng nhiệt đới nhiệt độ nóng ẩm, độ ẩm cao, lượng mưa lớn đặc biệt có mùa mưa kéo dài - tháng [5], góp phần tạo điều kiện thuận lợi cho 103 TẠP CHÍ NGHIÊN CỨU Y HỌC véc tơ truyền bệnh SXHD Thực trạng công tác giám sát bệnh truyền nhiễm Việt Nam theo Thông tư 54/2015/TT-BYT quy định việc tổng hợp báo cáo hàng tuần lên tuyến vòng 24 - 48 sau chẩn đoán [6] Tuy nhiên quy trình thường tuần để tổng hợp liệu giám sát công bố báo cáo liên quan, thêm vào trì hỗn hay gián đoạn cơng việc tuyến số nguyên nhân khách quan chủ quan thiếu nguồn lực, sách đãi ngộ, trang thiết bị sở y tế,… nên công tác giám sát dịch bệnh chưa linh hoạt Do đó, cần có mơ hình dự báo sớm dịch SXHD Việt Nam nói chung TP.HCM nói riêng để hỗ trợ cơng tác phát kiểm soát dịch bệnh Cả giới bước sang cách mạng công nghiệp 4.0 với gia tăng nhanh chóng việc tạo liệu kỹ thuật số khổng lồ tích lũy qua nhiều năm, hay gọi liệu lớn (Big Data) Trong lĩnh vực chăm sóc sức khỏe, việc khai thác nghiên cứu liệu có sẵn Big Data để tìm chiến lược tốt dần thu hút nhiều ý Cụ thể vào năm 2009, Big Data ghi điểm y học Google sử dụng liệu Google Trends để phân tích dự đốn xu hướng ảnh hưởng, hướng lan truyền dịch cúm H1N1 Xu hướng mà Google rút từ từ khóa tìm kiếm liên quan đến H1N1 chứng minh sát với kết hai hệ thống cảnh báo cúm SentinelGP HealthStat đưa [7] Với mong muốn kết hợp nguồn liệu Google Trend công tác dự báo dịch, định thực đề tài với mục đích xây dựng mơ hình có khả dự báo sớm dịch sốt xuất huyết TP.HCM dựa vào liệu lưu lượng tìm kiếm Google Trends index (GTI) để hỗ trợ cho cơng tác giám sát phòng chống dịch khu vực thêm hiệu 104 II ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP Thiết kế nghiên cứu Nghiên cứu tương quan sinh thái (Ecological study) Đối tượng: Số liệu số ca mắc SXHD hàng tuần thu thập từ hệ thống giám sát bệnh truyền nhiễm Trung tâm Y tế Dự phòng (TTYTDP) TP.HCM từ năm 2012-2016 Số liệu lấy phải số hiệu chỉnh cuối lưu giữ hệ thống, nhằm tránh sai sót ca thay đổi chẩn đốn, ca chưa xác định, ca trùng, thiếu ca Lưu lượng tìm kiếm internet với cụm từ “sốt xuất huyết” trích xuất từ ứng dụng Google Trends theo tuần từ năm 2012-2016 TP.HCM (gọi tắt Google Trends index - GTI), tải xuống từ nguồn liệu mở trang https:// trends.google.com Cú pháp nhập tìm kiếm xác chỉnh tả cụm từ “sốt xuất huyết”, khu vực địa lý “Việt Nam/ Hồ Chí Minh”, danh mục “Tất danh mục” định dạng tìm kiếm “Tìm kiếm web” Google Trends thể số thống kê theo phần trăm: giá trị lưu lượng cao khoảng thời gian chọn 100%, thấp 0%, giá trị lại tính theo mốc Bên cạnh từ khóa tìm kiếm “sốt xuất huyết” nhiều từ khóa liên quan khác cho kết thõa mãn nhu cầu mà người tìm kiếm cần: “bệnh dengue”, “dengue”, “sốt dengue” Tuy nhiên, so sánh lưu lượng tìm kiếm từ khóa với khoảng thời gian từ năm 2012 - 2016 cho kết quả: từ khóa “sốt xuất huyết” chiếm số áp đảo 82% Bên cạnh cụm từ “sốt xuất huyết” danh từ việt, đầy đủ nghĩa không hạn chế đối tượng đọc hiểu Do chúng tơi sử dụng từ khóa “sốt xuất huyết” để trích xuất liệu nghiên cứu TCNCYH 121 (5) - 2019 TẠP CHÍ NGHIÊN CỨU Y HỌC Phương pháp Bất kì dạng chuỗi liệu theo thời gian thường xảy tượng tự tương quan (Auto Correllation-AC), tượng thành phần chuỗi quan sát theo thời gian hay không gian tự ảnh hưởng lên Nguyên nhân khách quan thường tính “quán tính” số liệu, biến động quan sát thứ i tác động vào kỳ thứ i + k [8] (k gọi độ trễ lag số liệu) Ở nghiên cứu chúng tôi, biến độ trễ số mắc SXHD sử dụng để kiểm soát tự tương quan Dùng mơ hình hồi quy Poisson (có hiệu chỉnh cho phân tán số liệu over-dispersion quasi-Poisson) để xác định mối liên quan tác động trễ (lag) lưu lượng tìm kiếm GTI với số mắc SXHD sử dụng số biến đổi để loại bỏ tự tương quan biến SXHD Mơ hình chung biểu diễn sau: Yt ~ quasi-poisson (µt) log µt =α+β1 Lag GTI + βAC AC t-k = Basis TSR + 𝛽𝛽𝐴𝐴𝐴𝐴 𝐴𝐴𝐴𝐴 Trong đó: Yt: Số ca mắc SXHD dự đoán tuần t µt: Số mắc SXHD trung bình dự đốn mơ hình Poisson Lag GTI(t-k): lưu lượng tìm kiếm GTI tuần t với độ trễ k tuần (k = 0, 1, 2, 3) α, β1, βAC: hệ số hồi quy Basis TSR: Mơ hình tiên lượng tảng AC - Auto Correlation: tự tương quan biến SXHD, phần dư Yt-1 , Yt, logarit (Yt-1+1) Sau xây dựng mơ hình tiên lượng dựa phân tích đơn biến số ca mắc SXHD lưu lượng tìm kiếm GTI có sử dụng phép biến đổi để loại bỏ tự tương quan biến TCNCYH 121 (5) - 2019 SXHD Trong nghiên cứu này, tổng cộng chúng tơi phân thành mơ hình: Basis TSR: mối liên quan tuyến tính số ca mắc SXHD độ trễ tuần lưu lượng tìm kiếm GTI (mơ hình tảng) Basis TSR + AC: Lag(Residuals,1): mối liên quan tuyến tính số ca mắc SXHD độ trễ tuần lưu lượng tìm kiếm GTI, loại bỏ tự tương quan SXHD độ trễ tuần phần dư mơ hình tảng Basis TSR + AC: Lag(SXH,1): mối liên quan tuyến tính số ca mắc SXHD độ trễ tuần lưu lượng tìm kiếm GTI, loại bỏ tự tương quan SXHD độ trễ tuần số ca mắc SXHD Basis TSR + AC: Lag(log(SXH+1),1): mối liên quan tuyến tính số ca mắc SXHD độ trễ tuần lưu lượng tìm kiếm GTI, loại bỏ tự tương quan SXHD độ trễ tuần logarit số mắc SXHD cộng (cộng vào số mắc SXHD nhằm loại bỏ liệu bị giá trị 0) TSR Lag(GTI,2) + AC: Lag(log(SXH+1),2): mối liên quan tuyến tính số ca mắc SXHD độ trễ tuần lưu lượng tìm kiếm GTI, loại bỏ tự tương quan SXHD độ trễ tuần logarit số mắc SXHD cộng TSR Lag(GTI,3) + AC: Lag(log(SXH+1),3): mối liên quan tuyến tính số ca mắc SXHD độ trễ tuần lưu lượng tìm kiếm GTI, loại bỏ tự tương quan SXHD độ trễ tuần logarit số mắc SXHD cộng TSR Lag(GTI,0) + AC: Lag(log(SXH+1),1): mối liên quan tuyến tính số ca mắc SXHD lưu lượng tìm kiếm GTI, loại bỏ tự tương quan SXHD độ trễ tuần logarit số mắc SXHD cộng Mô hình chúng tơi lựa chọn để dự báo mơ hình cho số phân tán (dispersion) 105 TẠP CHÍ NGHIÊN CỨU Y HỌC thấp tất mơ hình Chỉ số phân tán thấp, mơ hình dự báo tốt [9] Sự có mặt tự tương quan hạn chế dấu hiệu cho thấy mơ hình tiên lượng xây dựng chuẩn cho ước lượng tốt nhiêu Thông thường kiểm tra tự tương quan thường xem kiểm tra sai lệch mơ hình Việc loại bỏ giảm thiểu đến mức thấp tự tương quan chứng minh mơ hình lựa chọn có tính dự báo cao Biến tiên lượng lưu lượng tìm kiếm GTI phân thành nhóm tương ứng với khoảng giá trị bách phân vị < 50, 50 - < 75, 75 - < 95 ≥ 95 Sau mơ hình dự báo chọn biểu diễn thơng qua nhóm phân loại Hệ số ước tính β sau tính tốn từ mơ hình chuẩn hóa làm tròn thành điểm dự báo Mơ hình dự báo dịch xây dựng với biến tiên lượng biến định lượng lưu lượng tìm kiếm GTI, biến kết biến nhị giá có hai giá trị là: có dịch khơng dịch Dựa theo nghiên cứu mục đích xây dựng nên mơ hình dự báo dịch SXHD Phùng Trí Dũng cộng Thành phố Cần Thơ, tuần đánh giá khả có dịch số ca mắc nằm khoảng ≥ 95% số ca mắc thực tế [10] Đánh giá khả dự báo mơ hình dựa vào diện tích đường cong ROC (Receiver Operating Characteristic), theo diện tích đường cong (Area Under the Curve – AUC) lớn mơ hình tiên lượng có khả dự báo tốt Và mơ hình có AUC > 0.8 xem xét ứng dụng vào thực tiễn[11] Sử dụng số Youden để tìm điểm cắt tối ưu Chỉ số Youden tổng giá trị độ nhạy độ đặc hiệu, điểm cắt có số Youden cao nghĩa mơ hình điểm cắt có độ nhạy độ đặc hiệu tối ưu Tiếp theo, chúng tơi tính phần trăm dự báo xác mơ hình điểm cắt tối ưu III KẾT QUẢ Từ năm 2012 - 2016, TP.HCM có tổng cộng 53.384 ca mắc SXHD báo cáo Số mắc thường tăng cao vào năm kéo dài đến cuối năm, khơng thấy tính chu kì năm xảy dịch lớn Số mắc cao khoảng nửa cuối 2015 đến đầu 2016 Biến số lưu lượng tìm kiếm GTI năm 2015 đến đầu 2016 nửa cuối năm 2016 có tăng đột biến, theo bật khỏi tính chu kỳ so với năm trước (Biểu đồ 1) Số ca SXH Số mắc SXH theo tuần theo thời gian Lưu lượng tìm kiếm Thời gian Lưu lượng tìm kiếm GTI theo tuần theo thời gian Thời gian 106 Biểu đồ 1: Phân bố SXHD GTI TP.HCM năm 2012 đến 2016 TCNCYH 121 (5) - 2019 TẠP CHÍ NGHIÊN CỨU Y HỌC Lưu lượng tìm kiếm GTI với từ khóa “sốt xuất huyết” theo tuần có tương quan dương với số ca mắc SXHD tuần với hệ số tương quan r 0,74 (KTC 95% 0,68 – 0,79), biểu diễn rõ qua đường thẳng màu đỏ - đường hồi quy tuyến tính mối tương quan biến (Biểu đồ 2) 600 400 200 Số ca SXH 800 Hệ số tương quan r = 0,74 20 40 60 80 100 Lưu lượng tìm kiếm GTI Biểu đồ Phân tán đồ mối tương quan SXHD GTI Từ cho thấy tỉ lệ biến thiên lưu lượng tìm kiếm GTI giải thích 55% số ca mắc SXHD Số ca mắc thực tế số ca mắc dự đốn mơ tả thơng qua mơ hình (Bảng 1), mơ hình thứ với hệ số tương quan 0,92 (KTC 95% 0,9 – 0,94), hệ số phân tán 18,6 cho biểu đồ thể đường dự đoán nắm bắt tốt số ca mắc SXHD thực tế (Biểu đồ 3) Bảng Thống kê số phân tích mơ hình STT Mơ hình Hệ số hồi quy SE Giá trị Giá trị Z P Độ 2,5% 97,5% phân tán Basis TSR 0,023 0,001 18,374

Ngày đăng: 15/01/2020, 11:33

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN