Đề tài nghiên cứu trước hết tìm hiểu kiến thức nền tảng về khai phá dữ liệu, sau đó tìm hiểu sâu các kỹ thuật khai phá dữ liệu tiên tiến đang nhận được nhiều sự quan tâm của cộng đồng nghiên cứu trên thế giới, qua đó đề xuất vận dụng phương pháp và công cụ khai phá dữ liệu phù hợp với tập dữ liệu dịch cúm do Google Flu Trends công bố.
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ HOÀNG VĂN TIẾN KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG TRONG Y TẾ DỰ PHỊNG Ngành: Cơng nghệ thơng tin Chuyên ngành: Quản lý Hệ thống thông tin Mã số: 8480205.01 LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS ĐẶNG THANH HẢI Hà Nội - 2018 LỜI CAM ĐOAN Luận văn “Khai phá liệu ứng dụng y tế dự phòng” đánh dấu cho thành quả, kiến thức tơi tiếp thu q trình rèn luyện, học tập nghiên cứu Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội Tôi xin cam đoan nội dung trình bày luận văn xây dựng, hồn thành q trình nghiên cứu thân hướng dẫn thầy giáo TS Đặng Thanh Hải Trong trình làm luận văn này, tơi tham khảo số tài liệu từ nhiều nguồn khác nhau, nội dung tham khảo trích dẫn rõ ràng Nếu có điều khơng trung thực, tơi xin chịu hình thức kỷ luật theo quy định Hà Nội, ngày tháng Học viên năm 2018 Hoàng Văn Tiến i LỜI CÁM ƠN Lời đầu tiên, xin gửi lời cám ơn đến Thầy Cô giáo trường Đại học Cơng nghệ - Đại học Quốc gia Hà Nội nói chung Thầy Cô giáo môn Hệ thống thông tin Khoa Công nghệ thông tin - Trường Đại học Công nghệ Đại học Quốc gia Hà Nội nhiệt tình giảng dạy, truyền đạt kiến thức, kinh nghiệm quý báu suốt thời gian học tập trường Đặc biệt, xin gửi lời cám ơn chân thành đến TS Đặng Thanh Hải, người hướng dẫn tơi suốt q trình thực luận văn Nhờ hướng dẫn bảo tận tình Thầy, tơi có kiến thức kinh nghiệm quý báu cách xác định vấn đề nghiên cứu, phương pháp nghiên cứu, trình bày kết hồn thành luận văn Cuối cùng, tơi xin gửi lời cám ơn tới tồn thể gia đình, bạn bè đồng nghiệp ln quan tâm, ủng hộ động viên, giúp tơi có nghị lực phấn đấu để hoàn thành tốt luận văn Hà Nội, ngày tháng năm 2018 Học viên Hoàng Văn Tiến ii TĨM TẮT NỘI DUNG Phân tích dự báo từ lâu ứng dụng lĩnh vực nhằm đưa định hướng, chiến lược phát triển tương lai Ngành Y tế khơng đứng ngồi xu đó, đặc biệt dự báo dịch bệnh truyền nhiễm từ lâu nhà khoa học quan tâm nghiên cứu ngày phát triển Phân tích dự báo dịch bệnh truyền nhiễm quan tâm lợi ích lớn mang lại cơng tác phòng ngừa dịch bệnh Phân tích dự báo diễn biến dịch bệnh giúp chủ động cơng tác phòng ngừa, nhằm giảm thiểu tổn hại dịch bệnh gây Việc xác định chu kỳ diễn biến dịch bệnh truyền nhiễm dựa yếu tố thời gian, khí hậu vùng địa lý quan tâm Nắm bắt chu kỳ diễn biến dịch bệnh, đưa dự báo lên phương án ứng phó, khoanh vùng, dập dịch nhanh, không để lây lan quan trọng góp phần hạn chế tối đa hậu dịch bệnh gây cho người Đề tài nghiên cứu trước hết tìm hiểu kiến thức tảng khai phá liệu, sau tìm hiểu sâu kỹ thuật khai phá liệu tiên tiến nhận nhiều quan tâm cộng đồng nghiên cứu giới, qua đề xuất vận dụng phương pháp công cụ khai phá liệu phù hợp với tập liệu dịch cúm Google Flu Trends công bố Google Flu Trends dịch vụ Tập đoàn Google, cung cấp số liệu ước tính dịch cúm 25 quốc gia, thông qua việc tổng hợp truy vấn tìm kiếm www.google.com, thơng qua cố gắng đưa dự báo xác dịch cúm Đề xuất lựa chọn phương pháp khai phá liệu phù hợp tập liệu dịch bệnh cúm Google Flu Trends cơng bố, tìm chu kỳ diễn biến dịch, đưa dự báo hỗ trợ định hướng hoạt động y tế dự phòng theo thời điểm năm, nhằm có sách biện pháp phù hợp để hạn chế thiệt hại dịch bệnh gây iii MỞ ĐẦU Ngày nay, người phải đối mặt với tình hình dịch bệnh lây nhiễm hoành hành, bùng phát cách nhanh chóng Dịch bệnh ngày diễn biến phức tạp phạm vi chủng loại Thực tế đó, đòi hỏi cơng tác y tế dự phòng cần phải đẩy mạnh, nâng cao nhằm khoanh vùng hạn chế lây lan dịch bệnh Công tác giám sát dịch bệnh lây nhiễm, phân tích dự báo phục vụ định ngày trở nên quan trọng cần đẩy mạnh Chính từ cấp thiết đó, học viên chọn đề tài “Khai phá liệu ứng dụng y tế dự phòng” làm luận văn thạc sĩ mình, nhằm góp phần cơng sức nhỏ bé cho lĩnh vực y tế dự phòng có thêm số giải pháp phân tích, dự báo hiệu dịch bệnh truyền nhiễm Nội dung luận văn tập trung vào phần sau: Chương 1: Giới thiệu lĩnh vực y tế dự phòng Trong chương giới thiệu tổng quan lĩnh vực y tế dự phòng, lịch sử hình thành phát triển y tế dự phòng Chương 2: Các phương pháp công cụ khai phá liệu Nội dung chương xoay quanh khái niệm, tính chất phương pháp khai phá liệu phổ biến Qua đó, đề xuất phương pháp công cụ phù hợp khai phá tập liệu dịch bệnh cúm Chương 3: Phương pháp phân tích dự báo với chuỗi liệu thời gian Đi sâu vào kỹ thuật phân tích chuỗi liệu chuỗi thời gian (time series data) áp dụng kỹ thuật với tập liệu dịch bệnh cúm Google Flu Trends cơng bố mơ hình ARIMA Chương 4: Thực nghiệm đánh giá Phân tích đưa kết dự báo dựa tập liệu Google Flu Trends công bố dịch bệnh cúm, sử dụng phương pháp phân tích chuỗi liệu thời gian cơng cụ khai phá liệu iv MỤC LỤC CHƯƠNG 1: GIỚI THIỆU VỀ LĨNH VỰC Y TẾ DỰ PHÒNG 1.1 Giới thiệu y tế dự phòng 1.2 Dịch bệnh 1.3 Dự báo dịch bệnh lĩnh vực y tế dự phòng 1.4 Thực trạng nghiên cứu dự báo y tế dự phòng 1.5 Mục tiêu nghiên cứu CHƯƠNG 2: CÁC PHƯƠNG PHÁP VÀ CÔNG CỤ KHAI PHÁ DỮ LIỆU 2.1 Khai phá liệu 2.2 Các kỹ thuật khai phá liệu 2.3 Dữ liệu chuỗi thời gian (time series data) 2.4 Các công cụ, phần mềm hỗ trợ khai phá liệu Tóm tắt chương CHƯƠNG PHƯƠNG PHÁP PHÂN TÍCH VÀ DỰ BÁO VỚI CHUỖI DỮ LIỆU THỜI GIAN 3.1 Dữ liệu chuỗi thời gian 3.2 Tính dừng liệu chuỗi thời gian 3.3 Mơ hình ARIMA 10 Tóm tắt chương 11 CHƯƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ 12 4.1 Mơ hình thực nghiệm 12 4.2 Mục đích thực nghiệm 12 4.3 Tập liệu Google Flu Trends 12 4.4 Mơi trường, cấu hình hệ thống cơng cụ 13 4.5 Kết thực nghiệm 13 4.6 Đánh giá kết 20 Tóm tắt chương 20 KẾT LUẬN 21 Các kết đạt 21 Hướng nghiên cứu 21 TÀI LIỆU THAM KHẢO 22 Tiếng Việt 22 Tiếng Anh 22 v DANH MỤC CÁC HÌNH VẼ Hình 2.1 Các bước khai phá liệu Hình 2.2 Tuyến tính hồi quy với dự đoán Hình 2.3 Mơ hình hồi quy phi tuyến tính Hình 2.4 Giao diện phần mềm weka Hình 2.5 Giao diện SPSS Hình 2.6 Giao diện phần mềm R Hình 3.1 Số liệu diễn biến cúm phía Nam Châu phi từ năm 2006 - 2015 Hình 3.2 Biểu diễn xu hướng giảm liệu Hình 3.3 Biểu diễn thay đổi chuỗi thời gian theo khoảng thời gian Hình 3.4 Biểu diễn chu kỳ chuỗi thời gian Hình 3.5 Sơ đồ chuỗi thời gian với định lượng Y(t) theo thời gian t Hình 3.6 Các bước phương pháp Box‐Jenkins 11 Hình 4.1 Biểu đồ so sánh liệu dự báo Google Flu Trends Trung tâm kiểm sốt phòng ngừa chứng bệnh Mỹ 12 Hình 4.2 Mẫu liệu bệnh cúm 25 nước giới tổng hợp từ 2003 đến 2015 13 Hình 4.3 Cài đặt gói thư viện 14 Hình 4.4 Nạp liệu 14 Hình 4.5 Tập liệu cúm Argentina 14 Hình 4.6 Tập liệu cúm Argentina năm 2004 15 Hình 4.7 Diễn biến cúm năm 2004 Argentina theo tháng 15 Hình 4.8 Dữ liệu cúm năm 2004 Argentina làm 15 Hình 4.9 Diễn biến cúm Argentina năm 2014 làm 16 Hình 4.10 Biểu đồ bệnh cúm Argentina với liệu làm mịn 16 Hình 4.11 Sơ đồ liệu phân tách theo thành phần tính thời vụ, xu hướng chu kỳ 16 Hình 4.12 Mơ hình ACF 17 Hình 4.13 Mơ hình PACF 17 Hình 4.14 Mơ hình kiểm tra với d = 17 Hình 4.15 Mơ hình ACF với d = 18 Hình 4.16 Mơ hình PACF với d = 18 Hình 4.17 Mơ hình ARIMA (1, 1, 1) 18 Hình 4.18 Mơ hình ARIMA (1, 1, 7) 19 Hình 4.19 Mơ hình dự báo với hệ số (1, 1, 1) 19 Hình 4.20 Mơ hình dự báo 19 Hình 4.21 Mơ hình dự báo ARIMA (0, 2, 0)(0, 0, 1)(7) 20 Hình 4.22 Diễn biến dịch bệnh thực tế Argentina từ năm 2003 đến 2015 20 vi DANH MỤC CÁC BẢNG BIỂU Bảng Cấu hình phần cứng 13 Bảng Các công cụ, phần mềm sử dụng 13 vii DANH MỤC VIẾT TẮT TT Viết tắt Tiếng Anh Tiếng Việt ARIMA ACF PACF Partial autocorrelation plots Sự tự tương quan thành phần BI Business intelligence Thông minh nghiệp vụ KDD Knowledge discovery in Khai phá tri thức database sở liệu SPSS Statistical product services solutions AR Autoregressive Tự hồi quy MA Moving average Trung bình trượt ARMA Autoregressive average 10 GDP Gross domestic product 11 CDC Centers for disease Trung tâm kiểm sốt control and prevention phòng ngừa dịch bệnh Autoregressive integrated Tự hồ i quy tić h hơ ̣p trung moving average biǹ h trươ ̣t Autocorrelation function Chức tự tương quan and Giải pháp sản phẩm dịch vụ thống kê moving viii Trung bình trượt tự hồi quy Tổng sản phẩm quốc nội DANH SÁCH CÁC THUẬT NGỮ TT Thuật ngữ tiếng Anh Nghĩa tiếng Việt Ebola Bệnh virus Ebola MERS-CoV Hội chứng hô hấp Trung Đông H5N1, H7N9, H5N6, Virus cúm gia cầm H5N1, H7N9, H5N6, H9N2, H5N8 H9N2, H5N8 Internet Mạng Internet Petabybe Đơn vị lưu trữ máy tính HD Độ phân giải cao hay độ nét cao CPU Bộ vi xử lý trung tâm RAM Bộ nhớ truy cập ngẫu nhiên OS Hệ điều hành ix phân cấp d Yt chuỗi dừng Khi đó, Yt liên kết bậc d, ký hiệu I(d) Sai phân cấp d tính sau: + Cấp 1: 𝐷(𝑌𝑡 ) = 𝑌𝑡 − 𝑌𝑡−1 (3.8) + Cấp 2: 𝐷(𝐷(𝑌𝑡 )) = 𝐷 (𝑌𝑡 ) = (𝑌𝑡 − 𝑌𝑡−1 ) − (𝑌𝑡−1 −𝑌𝑡−2 ) (3.9) + Tương tự với sai phân cấp d: 𝐷(𝐷 𝑑−1 (𝑌𝑡 )) (3.10) 3.3 Mơ hình ARIMA 3.3.1 Mơ hình tự hồi quy AR Ý tưởng mơ hình AR(p) hồi quy số liệu q khứ chu kì trước 𝑌𝑡 = 𝑎0 + 𝑎1 𝑌𝑡−1 + 𝑎2 𝑌𝑡−2 + ⋯ + 𝑎𝑝 𝑌𝑡−𝑝 + 𝑢𝑡 ; (3.11) Hàm tuyến tính Yt chuỗi quan sát dừng thời điểm q khứ: Yt-1, Yt-2… - Mơ hình AR(1) : 𝑌𝑡 = 𝑎0 + 𝑎1 𝑌𝑡−1 + 𝑢𝑡 (3.12) - Mơ hình AR(2) : 𝑌𝑡 = 𝑎0 + 𝑎1 𝑌𝑡−1 + 𝑎2 𝑌𝑡−2 + 𝑢𝑡 (3.13) 3.3.2 Mô hình trung bình trượt MA (Moving Average) Hàm tuyến tính yt phụ thuộc vào biến sai số dự báo q khứ Mơ hình trung bình trượt trung bình trọng số sai số 𝑌𝑡 = 𝑏0 + 𝑢𝑡 + 𝑏1 𝑢𝑡−1 + 𝑏2 𝑢𝑡−2 + ⋯ + 𝑏𝑞 𝑢𝑡−𝑞 (3.14) - Mơ hình MA(1) : 𝑌𝑡 = 𝑏0 + 𝑢𝑡 + 𝑏1 𝑢𝑡−1 (3.15) - Mơ hình MA(2) : 𝑌𝑡 = 𝑏0 + 𝑢𝑡 + 𝑏1 𝑢𝑡−1 + 𝑏2 𝑢𝑡−2 (3.16) 3.3.3 Mơ hình trung bình trượt tự hồi quy ARMA Yt q trình ARMA(1, 1) Y biểu diễn dạng: Yt = 𝑎0 + 𝑎1 𝑌𝑡−1 + 𝑢𝑡 + 𝑏0 + 𝑏1 𝑢𝑡−1 (u nhiễu trắng) (3.17) Tóm lại, Yt q trình ARMA (p, q) Yt biểu diễn dạng: Yt = 𝑎0 + 𝑎1 𝑌𝑡−1 + 𝑎2 𝑌𝑡−2 + … + 𝑎𝑝 𝑌𝑡−𝑝 + 𝑢𝑡 + 𝑏0 + 𝑏1 𝑢𝑡−1 + 10 (3.18) 𝑏2 𝑢𝑡−2 + + 𝑏𝑞 𝑢𝑡−𝑞 3.3.4 Mơ hình trung bình trượt tự hồi quy ARIMA Với bậc tự hồi quy p, số lần lấy sai phân d để chuỗi Yt xác định chuỗi dừng, bậc trung bình trượt q (p q bậc tương ứng chuỗi dừng) - Trong mơ hình ARIMA (p, d, q), d = q = ta có AR(p) - Trong mơ hình ARIMA (p, d, q), d = p = ta có MA(q) - Với ARIMA(1,1,1) nghĩa Yt có sai phân bậc chuỗi dừng Chuỗi sai phân dừng biểu diễn dạng ARMA (1,1) ∆𝑌𝑡 = 𝑎0 + 𝑎1 𝑌𝑡−1 + 𝑎0 𝑢𝑡 + 𝑎1 𝑢𝑡−1 (u nhiễu trắng) (3.19) 3.3.5 Dự báo liệu chuỗi thời gian Các bước phương pháp Box‐Jenkins: Vẽ biểu đồ chuỗi giá trị Có Nhận dang mơ hình Là chuỗi dừng? Không Lấy sai phân chuỗi Ước lượng mơ hình Mơ hình có phù hợp? Khơng Điều chỉnh mơ hình Có Dự báo Hình 3.6 Các bước phương pháp Box‐Jenkins Tóm tắt chương Chương chi tiết phân tích đặc điểm chuỗi liệu chuỗi thời gian, dựa vào đặc điểm liệu chuỗi thời gian để lựa chọn mơ hình phân tích phù hợp ARIMA Chương tiến hành thực nghiệm tập liệu dịch bệnh cúm Google Flu Trends công bố sử dụng R dựa mô hình ARIMA 11 CHƯƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1 Mơ hình thực nghiệm Một cơng cụ tự hồi quy (auto regressive - AR) hướng tới sử dụng giá trị khứ công thức hồi quy cho chuỗi Y, tham số tự hồi quy p 𝑌𝑡 = 𝑎0 + 𝑎1 𝑌𝑡−1 + 𝑎2 𝑌𝑡−2 + ⋯ + 𝑎𝑝 𝑌𝑡−𝑝 + 𝑢𝑡 (4.2) Một cơng cụ trung bình trượt (moving average - MA) nêu lỗi mô hình giống kết hợp thành phần lỗi trước et 𝑌𝑡 = 𝑏0 + 𝑒𝑡 + 𝑏1 𝑒𝑡−1 + 𝑏2 𝑒𝑡−2 + ⋯ + 𝑏𝑞 𝑒𝑡−𝑞 (4.3) Tự hồi quy cơng cụ trung bình trượt thể mơ hình ARIMA: 𝑌𝑡 = 𝑎0 + 𝑎1 𝑌𝑡−1 + 𝑎2 𝑌𝑡−2 + … + 𝑎𝑝 𝑌𝑡−𝑝 + 𝑢𝑡 + 𝑏0 + 𝑏1 𝑢𝑡−1 (4.4) + 𝑏2 𝑢𝑡−2 + + 𝑏𝑞 𝑢𝑡−𝑞 4.2 Mục đích thực nghiệm Dựa tập liệu dịch cúm Google Flu Trends tiến hành thực nghiệm nhằm phân tích đưa kết dự báo 4.3 Tập liệu Google Flu Trends Google Flu Trends dịch vụ web Google thực hiện, cung cấp ước tính diễn biến dịch cúm 25 quốc gia, cách thu thập truy vấn cơng cụ tìm kiếm Google Hình 4.1 Biểu đồ so sánh liệu dự báo Google Flu Trends Trung tâm kiểm sốt phòng ngừa chứng bệnh Mỹ 12 (2) (1) Hình 4.2 Mẫu liệu bệnh cúm 25 nước giới tổng hợp từ 2003 đến 2015 Google Flu Trends thu thập số liệu cúm cách xác định địa IP tìm kiếm, trạng thái truy vấn nhập xác định log(𝑃) = 𝛽0 + 𝛽1 𝑥 log(Q) + 𝜀 4.4 Mơi trường, cấu hình hệ thống cơng cụ 4.4.1 Cấu hình phần cứng Thành phần CPU RAM OS Bộ nhớ Chỉ số Intel Pentium T4400 / 2.2 GHz x GB Windows 250 GB Bảng Cấu hình phần cứng 4.4.2 Các công cụ phần mềm sử dụng TT Tên phần mềm Nguồn R i386 3.4.4 https://www.r-project.org Bảng Các công cụ, phần mềm sử dụng 4.5 Kết thực nghiệm Nếu thư viện chưa cài đặt ta tiền hành cài trước sử dụng: 13 (4.1) Hình 4.3 Cài đặt gói thư viện 4.5.1 Lựa chọn xử lý liệu Kết thu số liệu công bố dịch cúm Argentina từ 2003 đến 2015 có 655 ghi Nạp liệu: Hình 4.4 Nạp liệu Ta có tập liệu d sau nạp sau: Hình 4.5 Tập liệu cúm Argentina Bước 1: Lựa chọn liệu Trong tập liệu nạp d liệu từ năm 2003 đến năm 2015 14 Hình 4.6 Tập liệu cúm Argentina năm 2004 Ta trích lấy mẫu liệu Argentina thu thập vào năm 2004 xây dựng sơ đồ diễn biến Hình 4.7 Diễn biến cúm năm 2004 Argentina theo tháng Tập liệu đầu vào đáp ứng nên thực nghiệm luận văn bỏ qua Bước 2: Tiền xử lý liệu chuyển qua Bước 3: Đổi dạng Bước 3: Đổi dạng Sử dụng hàm tsclean(), tập liệu làm sạch, tập liệu tạo có thêm cột clean_scm, số liệu làm Hình 4.8 Dữ liệu cúm năm 2004 Argentina làm Sau xử lý làm liệu, ta nhận biểu đồ, sau: 15 Hình 4.9 Diễn biến cúm Argentina năm 2014 làm Công thức trung bình trượt MA số ca mắc cúm m tính cách lấy trung bình chuỗi Y, k khoảng thời gian xung quanh điểm: 𝑀𝐴 = 𝑚 ∑𝑘𝑗 = −𝑘 𝑌𝑡+𝑗 (4.5) Xác định nhiều mức độ thời vụ (seasonality), ta lập mơ hình trung bình trượt theo ngày (được thể dòng màu xanh) Hình 4.10 Biểu đồ bệnh cúm Argentina với liệu làm mịn 4.5.2 Phân tách liệu Bước 4: Khai phá liệu Phân tách chuỗi loại bỏ tính thời vụ với hàm seasadj() Xác định tính chu kỳ liệu với ts() khoảng thời gian ngày Hình 4.11 Sơ đồ liệu phân tách theo thành phần tính thời vụ, xu hướng chu kỳ 16 Sử dụng ADF để kiểm tra tính dừng chuỗi thời gian, kết trả giá trị 𝑝 − 𝑣𝑎𝑙𝑢𝑒 = 0.8648 lớn 0.05 cho thấy chuỗi khơng có tính dừng Vì vậy, tiếp tục chọn tham số thứ tự cho mơ hình ARIMA Hình 4.12 Mơ hình ACF Hình 4.13 Mơ hình PACF Ta thấy, mơ hình ACF Hình 4.12 mơ hình PACF Hình 4.13 hệ số tương quan giảm chậm 0, ta kết luận chuỗi khơng có tính dừng Tiếp tục với sai phân 𝑑 = đánh giá lại Kiểm tra lại với ACF với 𝑑 = Với 𝑑 = qua phép kiểm tra ADF ta thu giá trị 𝑝 − 𝑣𝑎𝑙𝑢𝑒 = 0.0471 nhỏ 0.05, kết luận chuỗi có tính dừng Hình 4.14 Mơ hình kiểm tra với 𝐝 = 𝟏 Ta thấy, có tương quan tự đáng kể độ trễ Tại Hình 4.15 mơ hình ACF với 𝑑 = Hình 4.16 mơ hình PACF với 𝑑 = 1, ta thấy ACF PACF có tăng đột biến đáng kể độ trễ giảm dần 0, đánh giá thấy chuỗi đáp ứng tính dừng 17 Hình 4.15 Mơ hình ACF với 𝐝 = 𝟏 Hình 4.16 Mơ hình PACF với 𝐝 = 𝟏 Bước 5: Trình diễn Các tham số (1, 1, 1) ta có mơ hình dự báo, bắt đầu cách kiểm tra ô ACF PACF Hình 4.17 Mơ hình 𝐀𝐑𝐈𝐌𝐀(𝟏, 𝟏, 𝟏) Có mơ hình ACF / PACF mẫu lại lặp lại độ trễ Điều cho thấy mơ hình tốt với đặc tả khác, 𝑝 = ℎ𝑜ặ𝑐 𝑞 = 18 Hình 4.18 Mơ hình ARIMA (1, 1, 7) Thơng qua mơ hình R để dự báo h giai đoạn tương lai, với tham số h xác định theo chu kỳ 30 ngày liên tiếp ghi nhận số liệu cúm Hình 4.19 Mơ hình dự báo với hệ số (1, 1, 1) Đường màu xanh nhạt cho thấy phù hợp mơ hình cung cấp Hình 4.20 Mơ hình dự báo Tuy nhiên, đường màu xanh đại diện cho dự báo đơn giản, gần với đường thẳng sớm, mà dường không giống với mơ hình q khứ chuỗi 19 100 200 300 400 Hình 4.21 Mơ hình dự báo ARIMA(0, 2, 0)(0, 0, 1)(7) Cả hai ước tính dự đốn cung cấp với độ tin cậy cao: độ tin cậy 80% tô màu xanh sẫm 95% màu xanh nhạt Dự báo dài hạn thường có khơng chắn hơn, mơ hình hồi quy Y tương lai dựa giá trị dự đoán khứ chuỗi 2003-02-02 2004-02-15 2005-02-27 2006-03-12 2007-03-25 2008-04-06 2009-04-19 2010-05-02 2011-05-15 2012-05-27 2013-06-09 2014-06-22 2015-07-05 Hình 4.22 Diễn biến dịch bệnh thực tế Argentina từ năm 2003 đến 2015 4.6 Đánh giá kết Với số liệu trình diễn sơ đồ ta thấy diễn biến dịch bệnh thay đổi theo thời gian có chu kỳ diễn biến định Tại hình 4.19 sơ đồ biểu diễn dịch bệnh cúm mùa Argentina năm 2004, số ca mắc phân bổ sau: vào mùa tháng 1, 2, 3, dịch cúm mức thấp ; đến tháng 5, 6, 7, 8, thay đổi thời tiết khiến dịch bệnh tăng vọt giảm dần vào cuối năm từ tháng 10, 11, 12 Chu kỳ biến động dịch bệnh lặp lặp lại từ năm qua năm khác Từ phép phân tích nhận thấy chu kỳ tăng, giảm bệnh dịch qua đưa dự báo cho thời diểm tương lai Tóm tắt chương Chương luận văn tiến hành thực nghiệm phân tích tập liệu dịch bệnh cúm Google Flu Trends R, thơng qua mơ hình ARIMA đưa dự báo liệu từ tập liệu cúm Argentina Với tỷ lệ dự đốn xác 95%, thấy độ tin cậy kết dự đoán phần thực nghiệm 20 KẾT LUẬN Các kết đạt Để nghiên cứu toán ứng dụng khai phá liệu y tế dự phòng, học viên tập trung nghiên cứu khái niệm y tế dự phòng, thực trạng nhu cầu việc quản lý, phân tích dự báo đươc dịch bệnh tập số liệu báo cáo Bên cạnh đó, học viên nghiên cứu, tìm hiểu số phương pháp khai phá liệu Cùng với đề xuất số phương pháp khai liệu phù hợp với tập liệu dịch bệnh cúm Google công bố Dựa nghiên cứu luận văn đề xuất mơ hình dự báo dịch bệnh truyền nhiễm dựa tập liệu thời gian Luận văn tiến hành cài đặt thực nghiệm tập liệu trích xuất tập liệu quốc gia Dựa vào kết phân tích, dự báo trình bày phần thực nghiệm, lấy làm sở cho cho xây dựng tốn dự báo tình hình dịch bệnh Hướng nghiên cứu Trong khuôn khổ luận văn này, dừng lại việc phân tích chuỗi liệu thời gian đưa dự báo dựa vào xu hướng liệu thực nghiệm mơ hình đó, đánh giá kết dự báo tập liệu so với số liệu thực tế Trong thời gian tới, tiếp tục thực nghiệm tập liệu lại tập liệu công bố, đồng thời xem xét hướng nghiên cứu bổ sung nhằm phân tích, đánh giá quy luật diễn biến dịch bệnh cúm toàn cầu dự đặc điểm thời gian, địa lý, điều kiện thời tiết để nâng cao độ xác giảm thiểu việc bỏ sót cặp quan hệ chuỗi liệu thời gian 21 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Nguyễn Minh Sơn - Dịch tễ học, Nhà xuất Giáo dục 2012 Tiếng Anh [2] Centers for Disease Control and Prevention (CDC USA) - Principles of epidemiology in public health practice, Third edition 2012 [3] Dorland - Dorland's Illustrated Medical Dictionary 32nd Edition, 2011 [4] Chi-Chen Wang “A comparision study between fuzzy time series model and ARIMA model for forecasting Taiwan export” Expert Systems with Applications, vol.38, no.8, pp.9296-9304, 2011 [5] Hippocrates - On airs, waters, and places written 400 B.C.E (Translated by Francis Adams) [6] Han, Jiawei, Jian Pei, and Micheline Kamber Data mining: concepts and techniques Elsevier, 2011 [7] K Senthamarai Kannan and E Sakthivel “Fuzzy Time Series Model and ARIMA Model – A Comparative Study” Indian Journal of Applied Research, vol.4, no.8, pp.624-636, 2014 [8] LeCun, Yann, Yoshua Bengio, and Geoffrey Hinton "Deep learning." Nature 521.7553 (2015): 436-444 [9] R Bonita, R Beaglehole, Tord Kjellström - Basic epidemiology 2nd edition, World Health Organization [10] Shasha, D., High Performance Discovery in Time Series, Berlin: Springer, ISBN 0387008578, 2004 [11] Verikas, Antanas, Adas Gelzinis, and Marija Bacauskiene "Mining data with random forests: A survey and results of new tests." Pattern Recognition 44.2 (2011): 330-349 [12] https://www.cs.waikato.ac.nz [13] https://www.spss-tutorials.com/spss-what-is-it [14] https://www.r-project.org [15] https://www.britannica.com/science/preventive-medicine 22 PHỤ LỤC Gọi thư viện: ggplot2, forecast, tseries, lubridate > library('ggplot2') > library('forecast') > library('tseries') > library(lubridate) Cài đặt thư viện: > install.packages("lubridate") Nạp tập liệu: > d Nam2004 Nam2004$Date = as.Date(Nam2004$Date) > ggplot(Nam2004, aes(Date, Argentina))+ geom_line()+ scale_x_date('month')+ ylab("Số ca mắc cúm")+xlab("thời gian") Làm mịn tập liệu: > count_sc = ts(Nam2004[, c('Argentina')]) > Nam2004$clean_scm = tsclean(count_sc) Vẽ biểu đồ với tập liệu Nam2004 sau xử lý qua hàm tsclean(): > ggplot() + geom_line(data = Nam2004, aes(x = Date, y = clean_scm)) +ylab('Số ca mắc cúm (Cleaned)') Lấy mức trung bình theo khoảng thời gian, làm mịn để chuỗi trở nên ổn định dự đốn được: > Nam2004$cnt_ma = ma(Nam2004$clean_scm, order=7) #sử dụng số cột clean_scm loại bỏ ngoại lệ > Nam2004$cnt_ma30 = ma(Nam2004$clean_scm, order=30) > ggplot() + geom_line(data = Nam2004, aes(x = Date, y = clean_scm, colour 23 ="Counts")) + geom_line(data = Nam2004, aes(x = Date, y = cnt_ma30, colour = "Di chuyển trượt hàng tháng")) + ylab('Số ca bệnh mắc') Làm mịn điều chỉnh chuỗi ban đầu cách loại bỏ tính thời vụ: > count_sm = ts(na.omit(Nam2004$cnt_ma), frequency=7) > decomp = stl(count_sm, s.window="periodic") > deseasonal_scm plot(decomp) 10 Sử dụng ADF để kiểm tra tính dừng chuỗi thời gian: > adf.test(count_sm, alternative = "stationary") 11 Biểu diễn sơ đồ liệu với ACF PACF: > Acf(count_sm, main='') > Pacf(count_sm, main='') 12 Kiểm tra sơ đồ với d = 1: > count_d1 = diff(deseasonal_scm, differences = 1) > plot(count_d1) > adf.test(count_d1, alternative = "stationary") 13 Biểu diễn sơ đồ liệu với ACF PACF với d = 1: > Acf(count_d1, main='ACF for Differenced Series') > Pacf(count_d1, main='PACF for Differenced Series') 14 Biểu diễn mơ hình ARIMA: > auto.arima(deseasonal_scm, seasonal=FALSE) > fit tsdisplay(residuals(fit), lag.max=45, main='(1,1,1) Model Residuals') > fit2 = arima(deseasonal_scm, order=c(1,1,7)) 15 Biểu diễn mơ hình dự báo: > fcast plot(fcast) 24 ... Giới thiệu y tế dự phòng Y tế dự phòng lĩnh vực y tế thực biện pháp giám sát, dự báo, phòng ngừa kiểm soát dịch bệnh [9] 1.1.1 Lịch sử phát triển y tế dự phòng Hippocrates, bác sĩ người Hy Lạp Thế... lĩnh vực y tế dự phòng 1.4 Thực trạng nghiên cứu dự báo y tế dự phòng 1.5 Mục tiêu nghiên cứu CHƯƠNG 2: CÁC PHƯƠNG PHÁP VÀ CÔNG CỤ KHAI PHÁ DỮ LIỆU 2.1 Khai phá liệu ... đ y mạnh Chính từ cấp thiết đó, học viên chọn đề tài Khai phá liệu ứng dụng y tế dự phòng làm luận văn thạc sĩ mình, nhằm góp phần cơng sức nhỏ bé cho lĩnh vực y tế dự phòng có thêm số giải pháp