Diễn biến dịch bệnh thực tế tại Argentina từ năm 2003 đến 2015

Một phần của tài liệu (LUẬN văn THẠC sĩ) khai phá dữ liệu và ứng dụng trong y tế dự phòng luận văn ths công nghệ thông tin 84802 (Trang 58 - 63)

4.6. Đánh giá kết quả

Với số liệu được trình diễn bằng sơ đồ ta có thể thấy rằng diễn biến dịch bệnh được thay đổi theo thời gian và có chu kỳ diễn biến nhất định. Tại hình 4.19 sơ đồ biểu diễn dịch bệnh cúm mùa của Argentina năm 2004, số ca mắc được phân bổ như sau: vào mùa những tháng 1, 2, 3, 4 dịch cúm ở mức thấp ; đến tháng 5, 6, 7, 8, 9 do sự thay đổi thời tiết khiến dịch bệnh tăng vọt và giảm dần vào cuối năm từ tháng 10, 11, 12. Chu kỳ biến động dịch bệnh cũng được lặp đi lặp lại từ năm này qua năm khác. Từ phép phân tích trên có thể nhận thấy chu kỳ tăng, giảm của bệnh dịch qua đó sẽ đưa ra dự báo cho thời diểm trong tương lai.

Như vậy model ARIMA dự báo được chính xác 80% số trường hợp tăng của dịch bệnh, trong phần thực nghiệm ta sử dụng tập dữ liệu mẫu số liệu bệnh cúm tại Arrgentina.

Để rõ hơn về quy luật này ta nhìn vào Hình 4.20. Diễn biến dịch bệnh tại Argentina

từ năm 2003 đến 2015, số liệu được biến thiên đều đặn hàng năm theo biểu đồ hình sin

từ năm 2003 đến 2011.

Tóm tắt chương 4

Chương 4 luận văn tiến hành thực nghiệm phân tích tập dữ liệu dịch bệnh cúm của Google Flu Trends trên R, thông qua mô hình ARIMA và đưa ra dự báo dữ liệu từ tập dữ liệu cúm của Argentina. Qua kết quả phân tích và đối chiếu mô hình dự báo với dữ

2003-02-02 2004-02-15 2005-02-27 2006-03-12 2007-03-25 2008-04-06 2009-04-19 2010-05-02 2011-05-15 2012-05-27 2013-06-09 2014-06-22 2015-07-05

100

200

300

44

liệu thực tế cho thấy tỷ lệ chính xác lên 95%, qua đó có thể thấy độ tin cậy của kết quả dự đoán trong phần thực nghiệm.

KẾT LUẬN 1. Các kết quả đạt được

Để nghiên cứu bài toán ứng dụng khai phá dữ liệu trong y tế dự phòng, học viên đã tập trung nghiên cứu các khái niệm về y tế dự phòng, thực trạng về nhu cầu trong việc quản lý, phân tích và dự báo đươc dịch bệnh trên tập số liệu được báo cáo.

Bên cạnh đó, học viên cũng nghiên cứu, tìm hiểu một số phương pháp khai phá dữ liệu hiện nay. Cùng với đó là đề xuất một số phương pháp khai dữ liệu phù hợp với tập dữ liệu dịch bệnh cúm do Google công bố.

Dựa trên nghiên cứu đó luận văn đề xuất một mô hình dự báo dịch bệnh truyền nhiễm dựa trên tập dữ liệu thời gian. Luận văn cũng tiến hành cài đặt thực nghiệm một tập dữ liệu được trích xuất trong tập dữ liệu của một quốc gia. Dựa vào kết quả phân tích, dự báo như đã trình bày trong phần thực nghiệm, lấy đó làm cơ sở cho cho xây dựng các bài toán dự báo tình hình dịch bệnh.

2. Hướng nghiên cứu tiếp theo

Trong khuôn khổ luận văn này, tôi mới chỉ dừng lại ở việc phân tích chuỗi dữ liệu thời gian và đưa ra dự báo dựa vào xu hướng dữ liệu trên thực nghiệm trong mô hình đó, đánh giá kết quả dự báo trên tập dữ liệu so với số liệu thực tế.

Trong thời gian tới, tôi sẽ tiếp tục thực nghiệm các tập dữ liệu còn lại trong tập dữ liệu được công bố, đồng thời xem xét hướng nghiên cứu bổ sung nhằm phân tích, đánh giá các quy luật diễn biến dịch bệnh cúm trên toàn cầu dự trên các đặc điểm thời gian, địa lý, điều kiện thời tiết để nâng cao độ chính xác và giảm thiểu việc bỏ sót các cặp quan hệ trong chuỗi dữ liệu thời gian.

46

TÀI LIỆU THAM KHẢO Tiếng Việt

[1]Nguyễn Minh Sơn - Dịch tễ học, Nhà xuất bản Giáo dục 2012.

Tiếng Anh

[2] Centers for Disease Control and Prevention (CDC USA) - Principles of epidemiology in public health practice, Third edition 2012. 2

[3] Dorland - Dorland's Illustrated Medical Dictionary 32nd Edition, 2011.

[4] Chi-Chen Wang. “A comparision study between fuzzy time series model and ARIMA model for forecasting Taiwan export”. Expert Systems with Applications, vol.38, no.8, pp.9296-9304, 2011.

[5] Hippocrates - On airs, waters, and places written 400 B.C.E (Translated by Francis Adams).

[6] Han, Jiawei, Jian Pei, and Micheline Kamber. Data mining: concepts and techniques. Elsevier, 2011.

[7] K. Senthamarai Kannan and E. Sakthivel. “Fuzzy Time Series Model and ARIMA Model – A Comparative Study”. Indian Journal of Applied Research, vol.4, no.8, pp.624-636, 2014.

[8] LeCun, Yann, Yoshua Bengio, and Geoffrey Hinton. "Deep learning." Nature 521.7553 (2015): 436-444.

[9] R. Bonita, R. Beaglehole, Tord Kjellström - Basic epidemiology 2nd edition, World Health Organization.

[10] Shasha, D., High Performance Discovery in Time Series, Berlin: Springer, ISBN 0387008578, 2004.

[11] Verikas, Antanas, Adas Gelzinis, and Marija Bacauskiene. "Mining data with random forests: A survey and results of new tests." Pattern Recognition 44.2 (2011): 330-349.

[12] https://www.cs.waikato.ac.nz

[13] https://www.spss-tutorials.com/spss-what-is-it [14] https://www.r-project.org

PHỤ LỤC

1. Gọi thư viện: ggplot2, forecast, tseries, lubridate.

> library('ggplot2') > library('forecast') > library('tseries') > library(lubridate)

2. Cài đặt thư viện:

> install.packages("lubridate")

3. Nạp tập dữ liệu:

> d<-read.csv("dataArgentina.csv", head=T) > d

4. Trích xuất dữ liệu của một năm bất kỳ trong tập d với dữ liệu của năm 2004 của Argentina.

> Nam2004 <- d[format(as.Date(d$Date, format = '%m/%d/%Y'), '%Y')==2004,] > Nam2004

5. Xây dựng sơ đồ diễn biến số liệu năm 2004 của Argentina.

> Nam2004$Date = as.Date(Nam2004$Date)

> ggplot(Nam2004, aes(Date, Argentina))+ geom_line()+ scale_x_date('month')+ ylab("Số ca mắc cúm")+xlab("thời gian")

6. Làm mịn tập dữ liệu:

> count_sc = ts(Nam2004[, c('Argentina')]) > Nam2004$clean_scm = tsclean(count_sc) > Nam2004

7. Vẽ biểu đồ với tập dữ liệu Nam2004 sau khi được xử lý qua hàm tsclean():

> ggplot() + geom_line(data = Nam2004, aes(x = Date, y = clean_scm)) +ylab('Số ca mắc cúm (Cleaned)')

8. Lấy mức trung bình theo những khoảng thời gian, làm mịn để chuỗi trở nên ổn định hơn và có thể dự đoán được:

> Nam2004$cnt_ma = ma(Nam2004$clean_scm, order=7) #sử dụng số tại cột clean_scm đã được loại bỏ ngoại lệ

> Nam2004$cnt_ma30 = ma(Nam2004$clean_scm, order=30)

48

="Counts")) + geom_line(data = Nam2004, aes(x = Date, y = cnt_ma30, colour = "Di chuyển trượt hàng tháng")) + ylab('Số ca bệnh mắc')

9. Làm mịn và điều chỉnh chuỗi ban đầu bằng cách loại bỏ tính thời vụ:

> count_sm = ts(na.omit(Nam2004$cnt_ma), frequency=7) > decomp = stl(count_sm, s.window="periodic")

> deseasonal_scm <- seasadj(decomp) > plot(decomp)

10. Sử dụng ADF để kiểm tra tính dừng của chuỗi thời gian:

> adf.test(count_sm, alternative = "stationary")

11. Biểu diễn sơ đồ dữ liệu với ACF và PACF:

> Acf(count_sm, main='') > Pacf(count_sm, main='')

12. Kiểm tra sơ đồ với d = 1:

> count_d1 = diff(deseasonal_scm, differences = 1) > plot(count_d1)

> adf.test(count_d1, alternative = "stationary")

13. Biểu diễn sơ đồ dữ liệu với ACF và PACF với d = 1:

> Acf(count_d1, main='ACF for Differenced Series') > Pacf(count_d1, main='PACF for Differenced Series')

14. Biểu diễn mô hình ARIMA:

> auto.arima(deseasonal_scm, seasonal=FALSE) > fit<-auto.arima(deseasonal_scm, seasonal=FALSE)

> tsdisplay(residuals(fit), lag.max=45, main='(1,1,1) Model Residuals') > fit2 = arima(deseasonal_scm, order=c(1,1,7))

15. Biểu diễn mô hình dự báo:

> fcast <- forecast(fit2, h=30) > plot(fcast)

Một phần của tài liệu (LUẬN văn THẠC sĩ) khai phá dữ liệu và ứng dụng trong y tế dự phòng luận văn ths công nghệ thông tin 84802 (Trang 58 - 63)

Tải bản đầy đủ (PDF)

(63 trang)