Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 63 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
63
Dung lượng
1,88 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ HOÀNG VĂN TIẾN KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG TRONG Y TẾ DỰ PHÒNG LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN GIÁO VIÊN HƯỚNG DẪN Đặng Thanh Hải Hà Nội - 2018 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ HỒNG VĂN TIẾN KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG TRONG Y TẾ DỰ PHỊNG Ngành: Cơng nghệ thơng tin Chun ngành: Quản lý Hệ thống thông tin Mã số: 8480205.01 LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS ĐẶNG THANH HẢI Hà Nội - 2018 LỜI CAM ĐOAN Luận văn “Khai phá liệu ứng dụng y tế dự phòng” đánh dấu cho thành quả, kiến thức tiếp thu trình rèn luyện, học tập nghiên cứu Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội Tôi xin cam đoan nội dung trình bày luận văn xây dựng, hồn thành q trình nghiên cứu thân hướng dẫn thầy giáo TS Đặng Thanh Hải Trong trình làm luận văn này, tham khảo số tài liệu từ nhiều nguồn khác nhau, nội dung tham khảo trích dẫn rõ ràng Nếu có điều khơng trung thực, tơi xin chịu hình thức kỷ luật theo quy định Hà Nội, ngày 02 tháng 10 năm 2018 Học viên Hoàng Văn Tiến xi LỜI CÁM ƠN Lời đầu tiên, xin gửi lời cám ơn đến Thầy Cô giáo trường Đại học Công nghệ - Đại học Quốc gia Hà Nội nói chung Thầy Cô giáo môn Hệ thống thông tin Khoa Công nghệ thông tin - Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội nhiệt tình giảng dạy, truyền đạt kiến thức, kinh nghiệm quý báu suốt thời gian học tập trường Đặc biệt, xin gửi lời cám ơn chân thành đến TS Đặng Thanh Hải, người hướng dẫn tơi suốt q trình thực luận văn Nhờ hướng dẫn bảo tận tình Thầy, tơi có kiến thức kinh nghiệm quý báu cách xác định vấn đề nghiên cứu, phương pháp nghiên cứu, trình bày kết hồn thành luận văn Cuối cùng, tơi xin gửi lời cám ơn tới tồn thể gia đình, bạn bè đồng nghiệp ln quan tâm, ủng hộ động viên, giúp tơi có nghị lực phấn đấu để hoàn thành tốt luận văn Hà Nội, ngày 02 tháng 10 năm 2018 Học viên Hoàng Văn Tiến xii TĨM TẮT NỘI DUNG Phân tích dự báo từ lâu ứng dụng lĩnh vực nhằm đưa định hướng, chiến lược phát triển tương lai Ngành Y tế khơng đứng ngồi xu đó, đặc biệt dự báo dịch bệnh truyền nhiễm từ lâu nhà khoa học quan tâm nghiên cứu ngày phát triển Phân tích dự báo dịch bệnh truyền nhiễm quan tâm lợi ích lớn mang lại cơng tác phịng ngừa dịch bệnh Phân tích dự báo diễn biến dịch bệnh giúp chủ động cơng tác phịng ngừa, nhằm giảm thiểu tổn hại dịch bệnh gây Việc xác định chu kỳ diễn biến dịch bệnh truyền nhiễm dựa yếu tố thời gian, khí hậu vùng địa lý quan tâm Nắm bắt chu kỳ diễn biến dịch bệnh, đưa dự báo lên phương án ứng phó, khoanh vùng, dập dịch nhanh, không để lây lan quan trọng góp phần hạn chế tối đa hậu dịch bệnh gây cho người Đề tài nghiên cứu trước hết tìm hiểu kiến thức tảng khai phá liệu, sau tìm hiểu sâu kỹ thuật khai phá liệu tiên tiến nhận nhiều quan tâm cộng đồng nghiên cứu giới, qua đề xuất vận dụng phương pháp công cụ khai phá liệu phù hợp với tập liệu dịch cúm Google Flu Trends công bố Google Flu Trends dịch vụ Tập đồn Google, cung cấp số liệu ước tính dịch cúm 25 quốc gia, thông qua việc tổng hợp truy vấn tìm kiếm www.google.com, thơng qua cố gắng đưa dự báo xác dịch cúm Năm 2008, Google Flu Trends Google.org lần đưa để giúp dự báo bùng phát dịch cúm 25 nước giới Đề xuất lựa chọn phương pháp khai phá liệu phù hợp tập liệu dịch bệnh cúm Google Flu Trends cơng bố, tìm chu kỳ diễn biến dịch, đưa dự báo hỗ trợ định hướng hoạt động y tế dự phòng theo thời điểm năm, nhằm có sách biện pháp phù hợp để hạn chế thiệt hại dịch bệnh gây xiii MỞ ĐẦU Ngày nay, người phải đối mặt với tình hình dịch bệnh lây nhiễm hồnh hành, bùng phát cách nhanh chóng Một số bệnh dịch trước lưu hành rải rác Tây Phi Ebola, MERS-CoV từ Trung Đông, vv… lan rộng nhiều quốc gia giới, kể quốc gia phát triển có hệ thống y tế dự phịng tiên tiến có bề dày kinh nghiệm ứng phó với dịch bệnh truyền nhiễm Sự phát triển dịch bệnh gia tăng lây lan phạm vi mà phát triển đa dạng chủng loại, dịch cúm gia cầm A(H5N1), A(H7N9) có khả lây sang người chưa khống chế Trung Quốc xuất chủng cúm biến thể A(H5N6), A(H9N2), A(H5N8) Có thể thấy, dịch bệnh ngày diễn biến phức tạp phạm vi chủng loại Thực tế đó, địi hỏi cơng tác y tế dự phịng cần phải đẩy mạnh, nâng cao nhằm khoanh vùng hạn chế lây lan dịch bệnh Công tác giám sát dịch bệnh lây nhiễm, phân tích dự báo phục vụ định ngày trở nên quan trọng cần đẩy mạnh Chính từ cấp thiết đó, học viên chọn đề tài “Khai phá liệu ứng dụng y tế dự phòng” làm luận văn thạc sĩ mình, nhằm góp phần cơng sức nhỏ bé cho lĩnh vực y tế dự phòng có thêm số giải pháp phân tích, dự báo hiệu dịch bệnh truyền nhiễm nay, góp phần nâng cao ứng dụng công nghệ thông tin lĩnh vực y tế đặc biệt lĩnh vực y tế dự phòng Nội dung luận văn tập trung vào phần sau: Chương 1: Giới thiệu lĩnh vực y tế dự phòng Trong chương giới thiệu tổng quan lĩnh vực y tế dự phịng, lịch sử hình thành phát triển y tế dự phòng Nội dung Chương giới thiệu thực trạng bùng phát mơ hình dịch bệnh truyền nhiễm Chương 2: Các phương pháp công cụ khai phá liệu Nội dung trình bày chương xoay quanh khái niệm, tính chất phương pháp khai phá liệu phổ biến Đồng thời, qua đề xuất phương pháp công cụ phù hợp khai phá tập liệu dịch bệnh cúm công bố Google Flu Trends Chương 3: Phương pháp phân tích dự báo với chuỗi liệu thời gian Đi sâu vào kỹ thuật phân tích chuỗi liệu chuỗi thời gian (time series data) áp dụng kỹ thuật với tập liệu dịch bệnh cúm Google Flu Trends công bố mơ hình ARIMA Chương 4: Thực nghiệm đánh giá Phân tích đưa kết dự báo dựa tập liệu Google Flu Trends công xiv bố dịch bệnh cúm, sử dụng phương pháp phân tích chuỗi liệu thời gian công cụ khai phá liệu Phần kết luận nêu kết đạt được, đóng góp luận văn định hướng phát triển nghiên cứu tương lai để nâng cao tính ứng dụng thực tế đề tài nghiên cứu cho lĩnh vực y tế dự phòng xv MỤC LỤC LỜI CAM ĐOAN xi LỜI CÁM ƠN xii TÓM TẮT NỘI DUNG xiii MỞ ĐẦU xiv MỤC LỤC xvi DANH MỤC CÁC HÌNH VẼ xix DANH MỤC CÁC BẢNG BIỂU .xxi DANH MỤC VIẾT TẮT xxii DANH SÁCH CÁC THUẬT NGỮ xxiii CHƯƠNG 1: GIỚI THIỆU VỀ LĨNH VỰC Y TẾ DỰ PHÒNG 1.1 Giới thiệu y tế dự phòng 1.1.1 Lịch sử phát triển y tế dự phòng .1 1.1.2 Những vai trò lĩnh vực y tế dự phòng .2 1.2 Dịch bệnh 1.3 Dự báo dịch bệnh lĩnh vực y tế dự phòng 1.4 Thực trạng nghiên cứu dự báo y tế dự phòng 1.5 Mục tiêu nghiên cứu Tóm tắt Chương CHƯƠNG 2: CÁC PHƯƠNG PHÁP VÀ CÔNG CỤ KHAI PHÁ DỮ LIỆU 2.1 Khai phá liệu 2.1.1 Khái niệm 2.1.2 Ưu điểm khai phá liệu với phương pháp khác 2.1.3 Những khó khăn khai phá liệu 10 2.2 Các kỹ thuật khai phá liệu 10 2.2.1 Hồi quy (Regression) 11 2.2.2 Kết hợp (Association) 12 2.2.3 Phân lớp (Classification) .13 2.2.4 Phân cụm (Clustering) 13 2.3 Dữ liệu chuỗi thời gian (time series data) 13 xvi 2.4 Các công cụ, phần mềm hỗ trợ khai phá liệu 14 2.4.1 Phân tích số liệu phần mềm Weka 14 2.4.2 Giới thiệu SPSS (Statistical Product and Services Solutions) 16 2.4.3 Phân tích số liệu R 16 Tóm tắt chương 17 CHƯƠNG PHƯƠNG PHÁP PHÂN TÍCH VÀ DỰ BÁO 19 VỚI CHUỖI DỮ LIỆU THỜI GIAN 19 3.1 Dữ liệu chuỗi thời gian 19 3.2 Tính dừng liệu chuỗi thời gian 21 3.2.1 Kiểm tra tính dừng chuỗi thời gian .21 3.2.2 Biến đổi chuỗi không dừng thành chuỗi dừng 22 3.3 Mơ hình ARIMA 22 3.3.1 Mơ hình tự hồi quy AR (Autoregressive process) 23 3.3.2 Mô hình trung bình trượt MA (Moving Average) .23 3.3.3 Mơ hình trung bình trượt tự hồi quy ARMA (Autoregressive Moving Average) 23 3.3.4 Mơ hình trung bình trượt tự hồi quy ARIMA (Autoregressive Intergrated Moving Average) 24 3.3.5 Dự báo liệu chuỗi thời gian 24 Tóm tắt chương 26 CHƯƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ 27 4.1 Mơ hình thực nghiệm 27 4.2 Mục đích thực nghiệm 28 4.3 Tập liệu Google Flu Trends 28 4.4 Môi trường, cấu hình hệ thống cơng cụ 30 4.4.1 Cấu hình phần cứng .30 4.4.2 Các công cụ phần mềm sử dụng 30 4.5 Kết thực nghiệm 30 4.5.1 Lựa chọn xử lý liệu 31 4.5.2 Phân tách liệu 36 4.6 Đánh giá kết 43 xvii Tóm tắt chương 43 KẾT LUẬN 45 Các kết đạt 45 Hướng nghiên cứu 45 TÀI LIỆU THAM KHẢO 46 Tiếng Việt 46 Tiếng Anh 46 PHỤ LỤC 47 xviii Đánh giá tập liệu năm 2004 Argentina nói riêng tập liệu khác Google Flu Trends nói chung, nhận thấy tập liệu bao gồm thông tin đáp, ứng yêu cầu phân tích chuỗi liệu thời gian, thuộc tính phù hợp với mơ hình, nên khơng cần phải qua bước xử lý liệu Cụ thể, tập liệu năm 2004 Argentina có cột: Date (ngày ghi nhận số ca mắc cúm) Argentina (số liệu cúm ghi nhận) Tập liệu đầu vào đáp ứng nên thực nghiệm luận văn bỏ qua Bước 2: Tiền xử lý liệu chuyển qua Bước 3: Đổi dạng Bước 3: Đổi dạng Ta loại bỏ ngoại lệ chuỗi thời gian với tsclean(), xác định thay ngoại lệ cách làm mịn phân tách chuỗi thời gian Phương thức có khả nhập giá trị bị chuỗi có, sử dụng lệnh ts() để tạo đối tượng chuỗi thời gian qua hàm tsclean() Sử dụng hàm tsclean(), tập liệu làm sạch, tập liệu tạo có thêm cột clean_scm, số liệu làm Hình 4.8 Dữ liệu cúm năm 2004 Argentina làm Vẽ biểu đồ với tập liệu Nam2004 sau xử lý làm liệu, ta nhận biểu đồ với liệu sạch, sau: 34 Hình 4.9 Diễn biến cúm Argentina năm 2014 làm Ngay loại bỏ ngoại lệ, biểu đồ liệu giống với biểu đồ trước làm (gồm liệu ngoại lệ) Nhìn trực quan, ta vẽ đường thẳng qua chuỗi đỉnh làm mịn dao động Đường thẳng mơ tả khái niệm phân tích chuỗi thời gian gọi trung bình trượt MA (moving average) Cơng thức chung, trung bình trượt MA số ca mắc cúm m tính cách lấy trung bình chuỗi Y, k khoảng thời gian xung quanh điểm: 𝑀𝐴 = 𝑚 ∑𝑘𝑗 = −𝑘 𝑌𝑡+𝑗 (4.5) Trong đó: m = 2k + 1, số lượng gọi trung bình trượt đối xứng Trung bình trượt MA(q) phần mơ hình ARIMA, đề cập đến độ trễ lỗi kết hợp, thống kê trung bình trượt đề cập đến kỹ thuật làm mịn liệu Cửa sổ trung bình trượt rộng, chuỗi thời gian ban đầu mượt mà Trong phần thực nghiệm này, lấy mức trung bình theo khoảng thời gian, làm mịn để chuỗi trở nên ổn định dự đốn Ngồi sơ đồ biến động dịch cúm 2004, lập mơ hình liệu theo hàng ngày yêu cầu xác định nhiều mức độ thời vụ (seasonality) Để đơn giản, ta lập mơ hình trung bình trượt theo ngày (được thể dịng màu xanh) 35 Hình 4.10 So sánh số liệu bệnh cúm Argentina với liệu làm mịn 4.5.2 Phân tách liệu Bước 4: Khai phá liệu Các thành phần xây dựng q trình phân tích chuỗi thời gian tính thời vụ (seasonality), xu hướng (trend) chu kỳ (cycle) Các thành phần trực quan nắm bắt mẫu liệu q khứ chuỗi Đầu tiên, tính tốn thành phần mùa liệu cách sử dụng stl(), để phân tích dự báo chuỗi liệu thời gian Nó tính tốn thành phần mùa chuỗi cách làm mịn điều chỉnh chuỗi ban đầu cách loại bỏ tính thời vụ theo hai dịng đơn giản Trong trường hợp cấu trúc mơ hình bổ sung, nhiệm vụ phân tách chuỗi loại bỏ tính thời vụ thực cách bỏ thành phần theo mùa từ chuỗi ban đầu với hàm seasadj() Xác định tính chu kỳ liệu với ts(), tức số lần quan sát khoảng thời gian ngày Hình 4.11 Sơ đồ liệu phân tách theo thành phần tính thời vụ, xu hướng chu kỳ 36 Sử dụng ADF để kiểm tra tính dừng chuỗi thời gian trước sử dụng ARIMA để dự đoán, kết kiểm tra qua ADF sau: Augmented Dickey-Fuller Test data: count_sm Dickey-Fuller = -1.2685, Lag order = 3, p-value = 0.8648 alternative hypothesis: stationary Với kết trả giá trị 𝑝 − 𝑣𝑎𝑙𝑢𝑒 = 0.8648 lớn 0.05 cho thấy chuỗi khơng có tính dừng Vì vậy, tiếp tục chọn tham số thứ tự cho mô hình ARIMA Có thể thể trực quan tính khơng dừng chuỗi qua mơ hình ACF hiển thị mối tương quan chuỗi độ trễ Các mơ hình ACF giúp xác định bậc mơ hình MA(q) PACF hiển thị mối tương quan biến độ trễ khơng giải thích trễ trước Khi biểu diễn mơ hình, R vẽ đường ranh giới 95% đường chấm màu xanh Có mối tự tương quan với độ trễ chuỗi dịch bệnh cúm chúng ta, quan sát mơ hình ACF bên nhìn vào mơ hình PACF ta thấy tăng đột biến độ trễ thứ dần giảm quanh giá trị Hình 4.12 Mơ hình ACF 37 Hình 4.13 Mơ hình PACF Ta thấy, mơ hình ACF Hình 4.12 mơ hình PACF Hình 4.13 hệ số tương quan giảm chậm 0, sơ đồ ACF có đến 11 độ trễ khác nằm giới hạn tin cậy 5% Ta kết luận chuỗi khơng có tính dừng Tiếp tục với sai phân 𝑑 = đánh giá lại Vẽ sơ đồ chuỗi khác, thấy mơ hình dao động quanh khơng có xu hướng rõ ràng Kiểm tra lại với ACF với 𝑑 = 1, cho kết sau: Augmented Dickey-Fuller Test data: count_d1 Dickey-Fuller = -3.5602, Lag order = 3, p-value = 0.0471 alternative hypothesis: stationary Với 𝑑 = qua phép kiểm tra ADF ta thu giá trị 𝑝 − 𝑣𝑎𝑙𝑢𝑒 = 0.0471 nhỏ 0.05, kết luận chuỗi có tính dừng Hình 4.14 Mơ hình kiểm tra với 𝐝 = 𝟏 Tiếp theo, mức tăng đột biến độ trễ cụ thể chuỗi giúp lựa chọn p q cho mơ hình Có tương quan tự đáng kể độ trễ Tại 38 Hình 4.15 mơ hình ACF với 𝑑 = Hình 4.16 mơ hình PACF với 𝑑 = 1, ta thấy ACF PACF có tăng đột biến đáng kể độ trễ giảm dần 0, đánh giá thấy chuỗi đáp ứng tính dừng, nên thử nghiệm mơ hình với thành phần AR MA theo độ trễ Hình 4.15 Mơ hình ACF với 𝐝 = 𝟏 Hình 4.16 Mơ hình PACF với 𝐝 = 𝟏 Bây áp dụng mơ hình Gói thư viện forecast cho phép người dùng xác định rõ bậc mơ hình cách sử dụng hàm ARIMA() tự động tạo tập hợp tối ưu (p, d, q) sử dụng auto.arima() Hai số tiêu chí sử dụng rộng rãi tiêu chí thơng tin Akaike (AIC) tiêu chuẩn thơng tin Baysian (BIC) Các tiêu chí có liên quan chặt chẽ hiểu ước tính số lượng thơng tin bị mơ hình cụ thể chọn Khi so sánh mơ hình, người ta muốn giảm thiểu AIC BIC Bước 5: Trình diễn 39 Ta định cấu trúc không theo mùa ARIMA phù hợp với mơ hình để khử liệu theo mùa Các tham số (1, 1, 1) đề xuất quy trình tự động; mơ hình kết hợp khác biệt bậc sử dụng thuật ngữ tự động độ trễ mơ hình trung bình động auto.arima() Ta có mơ hình dự báo, bắt đầu cách kiểm tra ACF PACF Hình 4.17 Mơ hình 𝐀𝐑𝐈𝐌𝐀(𝟏, 𝟏, 𝟏) Có mơ hình ACF / PACF mẫu cịn lại lặp lại độ trễ Điều cho thấy mơ hình tốt với đặc tả khác, 𝑝 = ℎ𝑜ặ𝑐 𝑞 = Chúng ta lặp lại trình phù hợp cho phép thành phần 𝐴𝑅(7) kiểm tra lại mơ hình chẩn đốn Lần này, khơng có tượng tự tương quan đáng kể Nếu mơ hình khơng định xác, thường phản ánh dạng xu hướng, độ lệch, mẫu khác khơng mơ hình nắm bắt Lý tưởng nhất, dư lượng trơng giống nhiễu trắng, có nghĩa chúng thường phân phối Hàm tsdisplay() sử dụng để vẽ mơ hình chẩn đốn Các mơ hình cịn lại cho thấy phạm vi lỗi nhỏ hơn, nhiều tập trung xung quanh Chúng ta quan sát thấy AIC nhỏ cấu trúc (1, 1, 7) 40 Hình 4.18 Mơ hình ARIMA (1, 1, 7) Chúng ta thơng qua mơ hình R để dự báo h giai đoạn tương lai, với tham số h xác định theo chu kỳ 30 ngày liên tiếp có ghi nhận số liệu cúm tập liệu Hình 4.19 Mơ hình dự báo với hệ số (1, 1, 1) Đường màu xanh nhạt cho thấy phù hợp mơ hình cung cấp Một phương pháp dự trữ phần liệu dạng tập hợp "giữ" (hold-out), phù hợp với mô hình sau so sánh dự báo với giá trị quan sát thực tế 41 Hình 4.20 Mơ hình dự báo Tuy nhiên, đường màu xanh đại diện cho dự báo đơn giản, gần với đường thẳng sớm, mà dường khơng giống với mơ hình q khứ chuỗi Nhớ mơ hình này, giả sử chuỗi khơng có thời vụ phân biệt liệu khơng có tính dừng ban đầu Nói cách khác, dự đốn vẽ dựa giả định khơng có biến động theo mùa khác liệu thay đổi số lượng cúm từ ngày sang ngày khác nhiều liên tục trung bình phương sai Chúng ta thêm lại thành phần theo mùa mà trích xuất trước Một cách tiếp cận khác cho phép thành phần (p, d, q) đưa vào mơ hình, mặc định hàm auto.arima() Lắp lại mơ hình liệu, ta thấy có số mẫu theo mùa chuỗi, với thành phần theo mùa mơ tả 𝐴𝑅(1) Hình 4.21 Mơ hình dự báo ARIMA(0, 2, 0)(0, 0, 1)(7) Lưu ý rằng, thông số (p, d, q) thay đổi sau bao gồm thành phần theo mùa Chúng ta trải qua q trình đánh giá mơ hình cịn lại ACF / PACF điều chỉnh cấu trúc cần thiết Cả hai ước tính dự đốn cung cấp với độ tin cậy cao: độ tin cậy 80% 42 tô màu xanh sẫm 95% màu xanh nhạt Dự báo dài hạn thường có khơng chắn hơn, mơ hình hồi quy Y tương lai dựa giá trị dự đoán khứ chuỗi 100 200 300 400 Ta quan sát tập liệu cúm Argentina biểu diễn từ năm 2003 đến 2010, số liệu cúm diễn biến theo hình đây: 2003-02-02 2004-02-15 2005-02-27 2006-03-12 2007-03-25 2008-04-06 2009-04-19 2010-05-02 2011-05-15 2012-05-27 2013-06-09 2014-06-22 2015-07-05 Hình 4.22 Diễn biến dịch bệnh thực tế Argentina từ năm 2003 đến 2015 4.6 Đánh giá kết Với số liệu trình diễn sơ đồ ta thấy diễn biến dịch bệnh thay đổi theo thời gian có chu kỳ diễn biến định Tại hình 4.19 sơ đồ biểu diễn dịch bệnh cúm mùa Argentina năm 2004, số ca mắc phân bổ sau: vào mùa tháng 1, 2, 3, dịch cúm mức thấp ; đến tháng 5, 6, 7, 8, thay đổi thời tiết khiến dịch bệnh tăng vọt giảm dần vào cuối năm từ tháng 10, 11, 12 Chu kỳ biến động dịch bệnh lặp lặp lại từ năm qua năm khác Từ phép phân tích nhận thấy chu kỳ tăng, giảm bệnh dịch qua đưa dự báo cho thời diểm tương lai Như model ARIMA dự báo xác 80% số trường hợp tăng dịch bệnh, phần thực nghiệm ta sử dụng tập liệu mẫu số liệu bệnh cúm Arrgentina Để rõ quy luật ta nhìn vào Hình 4.20 Diễn biến dịch bệnh Argentina từ năm 2003 đến 2015, số liệu biến thiên đặn hàng năm theo biểu đồ hình sin từ năm 2003 đến 2011 Tóm tắt chương Chương luận văn tiến hành thực nghiệm phân tích tập liệu dịch bệnh cúm Google Flu Trends R, thông qua mơ hình ARIMA đưa dự báo liệu từ tập liệu cúm Argentina Qua kết phân tích đối chiếu mơ hình dự báo với 43 liệu thực tế cho thấy tỷ lệ xác lên 95%, qua thấy độ tin cậy kết dự đoán phần thực nghiệm 44 KẾT LUẬN Các kết đạt Để nghiên cứu toán ứng dụng khai phá liệu y tế dự phòng, học viên tập trung nghiên cứu khái niệm y tế dự phòng, thực trạng nhu cầu việc quản lý, phân tích dự báo đươc dịch bệnh tập số liệu báo cáo Bên cạnh đó, học viên nghiên cứu, tìm hiểu số phương pháp khai phá liệu Cùng với đề xuất số phương pháp khai liệu phù hợp với tập liệu dịch bệnh cúm Google công bố Dựa nghiên cứu luận văn đề xuất mơ hình dự báo dịch bệnh truyền nhiễm dựa tập liệu thời gian Luận văn tiến hành cài đặt thực nghiệm tập liệu trích xuất tập liệu quốc gia Dựa vào kết phân tích, dự báo trình bày phần thực nghiệm, lấy làm sở cho cho xây dựng tốn dự báo tình hình dịch bệnh Hướng nghiên cứu Trong khuôn khổ luận văn này, dừng lại việc phân tích chuỗi liệu thời gian đưa dự báo dựa vào xu hướng liệu thực nghiệm mơ hình đó, đánh giá kết dự báo tập liệu so với số liệu thực tế Trong thời gian tới, tiếp tục thực nghiệm tập liệu lại tập liệu công bố, đồng thời xem xét hướng nghiên cứu bổ sung nhằm phân tích, đánh giá quy luật diễn biến dịch bệnh cúm toàn cầu dự đặc điểm thời gian, địa lý, điều kiện thời tiết để nâng cao độ xác giảm thiểu việc bỏ sót cặp quan hệ chuỗi liệu thời gian 45 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Nguyễn Minh Sơn - Dịch tễ học, Nhà xuất Giáo dục 2012 Tiếng Anh [2] Centers for Disease Control and Prevention (CDC USA) - Principles of epidemiology in public health practice, Third edition 2012 [3] Dorland - Dorland's Illustrated Medical Dictionary 32nd Edition, 2011 [4] Chi-Chen Wang “A comparision study between fuzzy time series model and ARIMA model for forecasting Taiwan export” Expert Systems with Applications, vol.38, no.8, pp.9296-9304, 2011 [5] Hippocrates - On airs, waters, and places written 400 B.C.E (Translated by Francis Adams) [6] Han, Jiawei, Jian Pei, and Micheline Kamber Data mining: concepts and techniques Elsevier, 2011 [7] K Senthamarai Kannan and E Sakthivel “Fuzzy Time Series Model and ARIMA Model – A Comparative Study” Indian Journal of Applied Research, vol.4, no.8, pp.624-636, 2014 [8] LeCun, Yann, Yoshua Bengio, and Geoffrey Hinton "Deep learning." Nature 521.7553 (2015): 436-444 [9] R Bonita, R Beaglehole, Tord Kjellström - Basic epidemiology 2nd edition, World Health Organization [10] Shasha, D., High Performance Discovery in Time Series, Berlin: Springer, ISBN 0387008578, 2004 [11] Verikas, Antanas, Adas Gelzinis, and Marija Bacauskiene "Mining data with random forests: A survey and results of new tests." Pattern Recognition 44.2 (2011): 330-349 [12] https://www.cs.waikato.ac.nz [13] https://www.spss-tutorials.com/spss-what-is-it [14] https://www.r-project.org [15] https://www.britannica.com/science/preventive-medicine 46 PHỤ LỤC Gọi thư viện: ggplot2, forecast, tseries, lubridate > library('ggplot2') > library('forecast') > library('tseries') > library(lubridate) Cài đặt thư viện: > install.packages("lubridate") Nạp tập liệu: > dd Trích xuất liệu năm tập d với liệu năm 2004 Argentina > Nam2004 Nam2004 Xây dựng sơ đồ diễn biến số liệu năm 2004 Argentina > Nam2004$Date = as.Date(Nam2004$Date) > ggplot(Nam2004, aes(Date, Argentina))+ geom_line()+ scale_x_date('month')+ ylab("Số ca mắc cúm")+xlab("thời gian") Làm mịn tập liệu: > count_sc = ts(Nam2004[, c('Argentina')]) > Nam2004$clean_scm = tsclean(count_sc) > Nam2004 Vẽ biểu đồ với tập liệu Nam2004 sau xử lý qua hàm tsclean(): > ggplot() + geom_line(data = Nam2004, aes(x = Date, y = clean_scm)) +ylab('Số ca mắc cúm (Cleaned)') Lấy mức trung bình theo khoảng thời gian, làm mịn để chuỗi trở nên ổn định dự đốn được: > Nam2004$cnt_ma = ma(Nam2004$clean_scm, order=7) #sử dụng số cột clean_scm loại bỏ ngoại lệ > Nam2004$cnt_ma30 = ma(Nam2004$clean_scm, order=30) > ggplot() + geom_line(data = Nam2004, aes(x = Date, y = clean_scm, colour 47 ="Counts")) + geom_line(data = Nam2004, aes(x = Date, y = cnt_ma30, colour = "Di chuyển trượt hàng tháng")) + ylab('Số ca bệnh mắc') Làm mịn điều chỉnh chuỗi ban đầu cách loại bỏ tính thời vụ: > count_sm = ts(na.omit(Nam2004$cnt_ma), frequency=7) > decomp = stl(count_sm, s.window="periodic") > deseasonal_scm plot(decomp) 10 Sử dụng ADF để kiểm tra tính dừng chuỗi thời gian: > adf.test(count_sm, alternative = "stationary") 11 Biểu diễn sơ đồ liệu với ACF PACF: > Acf(count_sm, main='') > Pacf(count_sm, main='') 12 Kiểm tra sơ đồ với d = 1: > count_d1 = diff(deseasonal_scm, differences = 1) > plot(count_d1) > adf.test(count_d1, alternative = "stationary") 13 Biểu diễn sơ đồ liệu với ACF PACF với d = 1: > Acf(count_d1, main='ACF for Differenced Series') > Pacf(count_d1, main='PACF for Differenced Series') 14 Biểu diễn mơ hình ARIMA: > auto.arima(deseasonal_scm, seasonal=FALSE) > fit tsdisplay(residuals(fit), lag.max=45, main='(1,1,1) Model Residuals') > fit2 = arima(deseasonal_scm, order=c(1,1,7)) 15 Biểu diễn mơ hình dự báo: > fcast plot(fcast) 48