Nội dung luận văn tập trung vào những phần sau: Chương 1: Giới thiệu về lĩnh vực y tế dự phòng, chương 2: Các phương pháp và công cụ khai phá dữ liệu, chương 3: Phương pháp phân tích và dự báo với chuỗi dữ liệu thời gian, chương 4: Thực nghiệm và đánh giá và phần kết luận. Và luận văn của tác giả với mong muốn góp phần công sức nhỏ bé cho lĩnh vực y tế dự phòng có thêm một số giải pháp phân tích, dự báo hiệu quả dịch bệnh truyền nhiễm hiện nay, góp phần nâng cao ứng dụng công nghệ thông tin trong lĩnh vực y tế đặc biệt là lĩnh vực y tế dự phòng.
Trang 1TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
HOÀNG VĂN TIẾN
KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG TRONG
Y TẾ DỰ PHÒNG
LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN
GIÁO VIÊN HƯỚNG DẪN
Đặng Thanh Hải
Hà Nội - 2018
Trang 2TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
HOÀNG VĂN TIẾN
KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG TRONG
Y TẾ DỰ PHÒNG
Ngành: Công nghệ thông tin
Chuyên ngành: Quản lý Hệ thống thông tin
Mã số: 8480205.01
LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN
Hà Nội - 2018
Trang 3LỜI CAM ĐOAN
Luận văn “Khai phá dữ liệu và ứng dụng trong y tế dự phòng” đánh dấu cho những thành quả, kiến thức của tôi đã tiếp thu được trong quá trình rèn luyện, học tập
và nghiên cứu tại Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội Tôi xin cam đoan các nội dung được trình bày trong luận văn này được xây dựng, hoàn thành bằng chính quá trình nghiên cứu của bản thân và dưới sự hướng dẫn của thầy giáo TS Đặng Thanh Hải
Trong quá trình làm luận văn này, tôi đã tham khảo một số tài liệu từ nhiều nguồn khác nhau, các nội dung tham khảo đều được trích dẫn rõ ràng Nếu có điều gì không trung thực, tôi xin chịu mọi hình thức kỷ luật theo đúng quy định
Hà Nội, ngày 02 tháng 10 năm 2018 Học viên
Hoàng Văn Tiến
Trang 4LỜI CÁM ƠN
Lời đầu tiên, tôi xin gửi lời cám ơn đến Thầy Cô giáo tại trường Đại học Công nghệ - Đại học Quốc gia Hà Nội nói chung và Thầy Cô giáo trong bộ môn Hệ thống thông tin và Khoa Công nghệ thông tin - Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội đã nhiệt tình giảng dạy, truyền đạt những kiến thức, kinh nghiệm quý báu trong suốt thời gian tôi học tập tại trường
Đặc biệt, tôi xin gửi lời cám ơn chân thành nhất đến TS Đặng Thanh Hải, người đã hướng dẫn tôi trong suốt quá trình thực hiện luận văn này Nhờ sự hướng dẫn
và chỉ bảo tận tình của Thầy, tôi đã có được những kiến thức và kinh nghiệm quý báu
về cách xác định vấn đề nghiên cứu, phương pháp nghiên cứu, trình bày kết quả và hoàn thành luận văn của mình
Cuối cùng, tôi xin gửi lời cám ơn tới toàn thể gia đình, bạn bè và đồng nghiệp
đã luôn quan tâm, ủng hộ và động viên, giúp tôi có nghị lực phấn đấu để hoàn thành tốt luận văn
Hà Nội, ngày 02 tháng 10 năm 2018
Học viên
Hoàng Văn Tiến
Trang 5TÓM TẮT NỘI DUNG
Phân tích và dự báo từ lâu đã được ứng dụng trong mọi lĩnh vực nhằm đưa ra những định hướng, chiến lược phát triển trong tương lai Ngành Y tế không đứng ngoài xu thế đó, đặc biệt là dự báo dịch bệnh truyền nhiễm từ lâu đã được các nhà khoa học quan tâm nghiên cứu và ngày càng phát triển Phân tích và dự báo dịch bệnh truyền nhiễm được quan tâm vì những lợi ích rất lớn nó mang lại trong công tác phòng ngừa dịch bệnh Phân tích và dự báo diễn biến của dịch bệnh giúp chúng ta chủ động trong công tác phòng ngừa, nhằm giảm thiểu những tổn hại do dịch bệnh gây ra Việc xác định được chu kỳ diễn biến của dịch bệnh truyền nhiễm dựa trên các yếu tố thời gian, khí hậu và vùng địa lý rất được quan tâm Nắm bắt chu kỳ diễn biến của dịch bệnh, đưa ra dự báo và lên phương án ứng phó, khoanh vùng, dập dịch nhanh, không
để lây lan là hết sức quan trọng góp phần hạn chế tối đa hậu quả của dịch bệnh gây ra cho con người
Đề tài nghiên cứu trước hết tìm hiểu kiến thức nền tảng về khai phá dữ liệu, sau
đó tìm hiểu sâu các kỹ thuật khai phá dữ liệu tiên tiến đang nhận được nhiều sự quan tâm của cộng đồng nghiên cứu trên thế giới, qua đó đề xuất vận dụng phương pháp và công cụ khai phá dữ liệu phù hợp với tập dữ liệu dịch cúm do Google Flu Trends công
bố Google Flu Trends là dịch vụ của Tập đoàn Google, cung cấp số liệu ước tính về dịch cúm tại hơn 25 quốc gia, thông qua việc tổng hợp các truy vấn tìm kiếm trên
www.google.com, thông qua đó cố gắng đưa ra dự báo chính xác về dịch cúm Năm
2008, Google Flu Trends được Google.org lần đầu tiên đưa ra để giúp dự báo sự bùng phát dịch cúm của 25 nước trên thế giới
Đề xuất lựa chọn phương pháp khai phá dữ liệu phù hợp trên tập dữ liệu dịch bệnh cúm do Google Flu Trends công bố, tìm ra chu kỳ diễn biến của dịch, đưa ra các
dự báo và hỗ trợ định hướng hoạt động y tế dự phòng theo từng thời điểm trong năm, nhằm có những chính sách và biện pháp phù hợp để hạn chế thiệt hại của dịch bệnh gây ra
Trang 6MỞ ĐẦU
Ngày nay, con người đang phải đối mặt với tình hình dịch bệnh lây nhiễm hoành hành, bùng phát một cách nhanh chóng Một số bệnh dịch trước đây chỉ lưu hành rải rác ở Tây Phi như Ebola, MERS-CoV từ Trung Đông, vv… thì hiện nay đã lan rộng nhiều quốc gia trên thế giới, kể cả các quốc gia phát triển có hệ thống y tế dự phòng tiên tiến và có bề dày kinh nghiệm ứng phó với dịch bệnh truyền nhiễm Sự phát triển của dịch bệnh không những gia tăng sự lây lan về phạm vi mà còn phát triển
đa dạng về chủng loại, dịch cúm gia cầm A(H5N1), A(H7N9) có khả năng lây sang người chưa khống chế được tại Trung Quốc thì đã xuất hiện những chủng cúm biến thể mới A(H5N6), A(H9N2), A(H5N8)
Có thể thấy, dịch bệnh ngày càng diễn biến phức tạp về phạm vi và chủng loại Thực tế đó, đòi hỏi công tác y tế dự phòng cần phải được đẩy mạnh, nâng cao nhằm khoanh vùng và hạn chế sự lây lan của dịch bệnh Công tác giám sát dịch bệnh lây nhiễm, phân tích và dự báo phục vụ ra quyết định ngày càng trở nên quan trọng và cần được đẩy mạnh
Chính từ sự cấp thiết đó, học viên đã chọn đề tài “Khai phá dữ liệu và ứng dụng trong y tế dự phòng” làm luận văn thạc sĩ của mình, nhằm góp phần công sức
nhỏ bé cho lĩnh vực y tế dự phòng có thêm một số giải pháp phân tích, dự báo hiệu quả dịch bệnh truyền nhiễm hiện nay, góp phần nâng cao ứng dụng công nghệ thông tin trong lĩnh vực y tế đặc biệt là lĩnh vực y tế dự phòng Nội dung luận văn tập trung vào những phần sau:
Chương 1: Giới thiệu về lĩnh vực y tế dự phòng
Trong chương này giới thiệu tổng quan về lĩnh vực y tế dự phòng, lịch sử hình thành và phát triển của y tế dự phòng Nội dung Chương 1 cũng sẽ giới thiệu thực
trạng bùng phát và mô hình dịch bệnh truyền nhiễm hiện nay
Chương 2: Các phương pháp và công cụ khai phá dữ liệu
Nội dung được trình bày tại chương này xoay quanh khái niệm, tính chất cơ bản của các phương pháp khai phá dữ liệu phổ biến hiện nay Đồng thời, qua đó đề xuất một phương pháp và công cụ phù hợp khai phá tập dữ liệu dịch bệnh cúm được công
bố bởi Google Flu Trends
Chương 3: Phương pháp phân tích và dự báo với chuỗi dữ liệu thời gian
Đi sâu vào kỹ thuật phân tích chuỗi dữ liệu chuỗi thời gian (time series data) và
áp dụng kỹ thuật này với tập dữ liệu dịch bệnh cúm do Google Flu Trends công bố trên
mô hình ARIMA
Chương 4: Thực nghiệm và đánh giá
Phân tích và đưa ra kết quả dự báo dựa trên tập dữ liệu Google Flu Trends công
Trang 7bố dịch bệnh cúm, sử dụng các phương pháp phân tích chuỗi dữ liệu thời gian và công
cụ khai phá dữ liệu
Phần kết luận nêu ra những kết quả đã đạt được, những đóng góp của luận văn
và định hướng phát triển nghiên cứu trong tương lai để nâng cao tính ứng dụng thực tế của đề tài nghiên cứu cho lĩnh vực y tế dự phòng
Trang 8MỤC LỤC
LỜI CAM ĐOAN xi
LỜI CÁM ƠN xii
TÓM TẮT NỘI DUNG xiii
MỞ ĐẦU xiv
MỤC LỤC xvi
DANH MỤC CÁC HÌNH VẼ xix
DANH MỤC CÁC BẢNG BIỂU xxi
DANH MỤC VIẾT TẮT xxii
DANH SÁCH CÁC THUẬT NGỮ xxiii
CHƯƠNG 1: GIỚI THIỆU VỀ LĨNH VỰC Y TẾ DỰ PHÒNG 1
1.1 Giới thiệu về y tế dự phòng 1
1.1.1 Lịch sử phát triển của y tế dự phòng 1
1.1.2 Những vai trò của lĩnh vực y tế dự phòng 2
1.2 Dịch bệnh 3
1.3 Dự báo dịch bệnh trong lĩnh vực y tế dự phòng 4
1.4 Thực trạng nghiên cứu dự báo trong y tế dự phòng 5
1.5 Mục tiêu nghiên cứu 6
Tóm tắt Chương 1 6
CHƯƠNG 2: CÁC PHƯƠNG PHÁP VÀ CÔNG CỤ KHAI PHÁ DỮ LIỆU 8
2.1 Khai phá dữ liệu 8
2.1.1 Khái niệm 8
2.1.2 Ưu điểm của khai phá dữ liệu với các phương pháp khác 9
2.1.3 Những khó khăn trong khai phá dữ liệu 10
2.2 Các kỹ thuật khai phá dữ liệu 10
2.2.1 Hồi quy (Regression) 11
2.2.2 Kết hợp (Association) 12
2.2.3 Phân lớp (Classification) 13
2.2.4 Phân cụm (Clustering) 13
2.3 Dữ liệu chuỗi thời gian (time series data) 13
Trang 92.4 Các công cụ, phần mềm hỗ trợ khai phá dữ liệu 14
2.4.1 Phân tích số liệu bằng phần mềm Weka 14
2.4.2 Giới thiệu về SPSS (Statistical Product and Services Solutions) 16
2.4.3 Phân tích số liệu bằng R 16
Tóm tắt chương 2 17
CHƯƠNG 3 PHƯƠNG PHÁP PHÂN TÍCH VÀ DỰ BÁO 19
VỚI CHUỖI DỮ LIỆU THỜI GIAN 19
3.1 Dữ liệu chuỗi thời gian 19
3.2 Tính dừng của dữ liệu chuỗi thời gian 21
3.2.1 Kiểm tra tính dừng chuỗi thời gian 21
3.2.2 Biến đổi chuỗi không dừng thành chuỗi dừng 22
3.3 Mô hình ARIMA 22
3.3.1 Mô hình tự hồi quy AR (Autoregressive process) 23
3.3.2 Mô hình trung bình trượt MA (Moving Average) 23
3.3.3 Mô hình trung bình trượt và tự hồi quy ARMA (Autoregressive Moving Average) 23
3.3.4 Mô hình trung bình trượt tự hồi quy ARIMA (Autoregressive Intergrated Moving Average) 24
3.3.5 Dự báo dữ liệu chuỗi thời gian 24
Tóm tắt chương 3 26
CHƯƠNG 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ 27
4.1 Mô hình thực nghiệm 27
4.2 Mục đích thực nghiệm 28
4.3 Tập dữ liệu Google Flu Trends 28
4.4 Môi trường, cấu hình hệ thống và công cụ 30
4.4.1 Cấu hình phần cứng 30
4.4.2 Các công cụ phần mềm sử dụng 30
4.5 Kết quả thực nghiệm 30
4.5.1 Lựa chọn và xử lý dữ liệu 31
4.5.2 Phân tách dữ liệu 36
4.6 Đánh giá kết quả 43
Trang 10Tóm tắt chương 4 43
KẾT LUẬN 45
1 Các kết quả đạt được 45
2 Hướng nghiên cứu tiếp theo 45
TÀI LIỆU THAM KHẢO 46
Tiếng Việt 46
Tiếng Anh 46
PHỤ LỤC 47
Trang 11DANH MỤC CÁC HÌNH VẼ
Hình 2.1 Các bước khai phá dữ liệu 8
Hình 2.2 Tuyến tính hồi quy với một dự đoán duy nhất 11
Hình 2.3 Mô hình hồi quy phi tuyến tính 12
Hình 2.4 Giao diện phần mềm weka 15
Hình 2.5 Giao diện SPSS 16
Hình 2.6 Giao diện phần mềm R 17
Hình 3.1 Số liệu diễn biến cúm tại phía Nam Châu phi từ năm 2006 đến 2015 19
Hình 3.2 Biểu diễn xu hướng giảm của dữ liệu 19
Hình 3.3 Biểu diễn thay đổi chuỗi thời gian theo từng khoảng thời gian 20
Hình 3.4 Biểu diễn chu kỳ chuỗi thời gian 20
Hình 3.5 Sơ đồ chuỗi thời gian với định lượng Y(t) theo diễn biến thời gian t 20
Hình 3.6 Các bước chính trong phương pháp Box‐Jenkins 26
Hình 4.1 Biểu đồ so sánh dữ liệu dự báo của Google Flu Trends và Trung tâm kiểm soát và phòng ngừa các chứng bệnh của Mỹ 28
Hình 4.2 Mẫu dữ liệu bệnh cúm của 25 nước trên thế giới được tổng hợp từ 2003 đến 2015 29
Hình 4.3 Cài đặt gói thư viện 31
Hình 4.4 Nạp dữ liệu 32
Hình 4.5 Tập dữ liệu cúm của Argentina 32
Hình 4.6 Tập dữ liệu cúm của Argentina năm 2004 33
Hình 4.7 Diễn biến cúm năm 2004 của Argentina theo tháng 33
Hình 4.8 Dữ liệu cúm của năm 2004 Argentina được làm sạch 34
Hình 4.9 Diễn biến cúm Argentina năm 2014 được làm sạch 35
Hình 4.10 So sánh số liệu bệnh cúm của Argentina với dữ liệu được làm mịn 36
Hình 4.11 Sơ đồ dữ liệu được phân tách theo thành phần tính thời vụ, xu hướng và chu kỳ 36
Hình 4.12 Mô hình ACF 37
Hình 4.13 Mô hình PACF 38
Hình 4.14 Mô hình kiểm tra với d = 1 38
Hình 4.15 Mô hình ACF với d = 1 39
Hình 4.16 Mô hình PACF với d = 1 39
Hình 4.17 Mô hình ARIMA (1, 1, 1) 40
Trang 12Hình 4.18 Mô hình ARIMA (1, 1, 7) 41
Hình 4.19 Mô hình dự báo với hệ số (1, 1, 1) 41
Hình 4.20 Mô hình dự báo 42
Hình 4.21 Mô hình dự báo ARIMA (0, 2, 0)(0, 0, 1)(7) 42
Hình 4.22 Diễn biến dịch bệnh thực tế tại Argentina từ năm 2003 đến 2015 43
Trang 13DANH MỤC CÁC BẢNG BIỂU
Bảng 1 Cấu hình phần cứng 30 Bảng 2 Các công cụ, phần mềm sử dụng 30
Trang 14DANH MỤC VIẾT TẮT
TT Viết tắt Tiếng Anh Tiếng Việt
1 ARIMA Autoregressive integrated moving
average
Tự hồi quy tích hợp trung bình trượt
2 ACF Autocorrelation function Chức năng tự tương quan
3 PACF Partial autocorrelation plots Sự tự tương quan thành phần
4 BI Business intelligence Thông minh nghiệp vụ
5 KDD Knowledge discovery in database Khai phá tri thức trong cơ sở
7 AR Autoregressive Tự hồi quy
8 MA Moving average Trung bình trượt
9 ARMA Autoregressive moving average Trung bình trượt tự hồi quy
10 GDP Gross domestic product Tổng sản phẩm quốc nội
11 CDC Centers for disease control and
prevention
Trung tâm kiểm soát và phòng ngừa dịch bệnh
Trang 15DANH SÁCH CÁC THUẬT NGỮ
TT Thuật ngữ tiếng Anh Nghĩa tiếng Việt
1 Ebola Bệnh do virus Ebola
2 MERS-CoV Hội chứng hô hấp Trung Đông
3 H5N1, H7N9, H5N6,
H9N2, H5N8 Virus cúm gia cầm H5N1, H7N9, H5N6, H9N2, H5N8
4 Internet Mạng Internet
5 Petabybe Đơn vị lưu trữ trên máy tính
6 HD Độ phân giải cao hay độ nét cao
7 CPU Bộ vi xử lý trung tâm
8 RAM Bộ nhớ truy cập ngẫu nhiên
Trang 16CHƯƠNG 1: GIỚI THIỆU VỀ LĨNH VỰC Y TẾ DỰ PHÒNG
1.1 Giới thiệu về y tế dự phòng
Y tế dự phòng là lĩnh vực y tế thực hiện các biện pháp giám sát, dự báo, phòng ngừa và kiểm soát dịch bệnh [9] Lĩnh vực y tế dự phòng có chức năng triển khai các hoạt động nghiên cứu, dự báo qua đó làm cơ sở để định hướng đưa ra những chính sách nhằm giám sát, bảo vệ và nâng cao sức khỏe cộng đồng trước những nguy cơ về dịch bệnh ngày càng tăng hiện nay [9]
Lĩnh vực y tế dự phòng gồm 5 mảng hoạt động chuyên môn cụ thể: dịch tễ, quản lý
y tế, dự phòng, quản lý môi trường y tế, sức khỏe nghề nghiệp và nâng cao sức khỏe [1] Các hoạt động chuyên môn y tế dự phòng, nỗ lực hướng tới việc ngăn ngừa bệnh tật trong cộng đồng
Đồng thời với sự phát triển của kiến thức y học, đã hình thành phong trào nghiên cứu các biện pháp phòng ngừa nguy cơ dịch bệnh Ví dụ, năm 1388 đã tiến hành hoạt động vệ sinh đầu tiên ở nước Anh, nhằm vào việc loại bỏ những nguy cơ dịch bệnh; vào năm 1443 là dịch bệnh dịch hạch đầu tiên đã được kiểm soát và thực hiện các hoạt động vệ sinh phòng ngừa; và năm 1518 đã có những nỗ lực mạnh mẽ đầu tiên trong việc báo cáo dịch bệnh và thực hiện cách ly người bệnh bị bệnh truyền nhiễm [9] Nghiên cứu thống kê tử vong được bắt đầu ở Anh vào Thế kỷ 17, cơ sở hoạt động trong lĩnh vực dịch tễ học đã được thành lập vào giữa Thế kỷ 17 [9] Năm 1700, một tác phẩm về rối loạn nghề nghiệp đã được xuất bản ở Ý [9] Một học viên người Anh trong nửa đầu thế kỷ XVIII đã viết về chất độc, bệnh dịch hạch, đậu mùa, sởi và kèm theo đó là phương pháp phòng bệnh [9] Chủng ngừa bệnh lây nhiễm đã được phát minh vào năm 1798 [9] Điểm đáng chú ý vào những năm đầu của Thế kỷ 19 là đã phát hiện được nguyên nhân lây truyền các bệnh như sốt, thương hàn, bệnh tả và uốn ván [9] Trong cùng thời kỳ, các nhà nghiên cứu dành nhiều sự quan tâm đến các vấn
đề vệ sinh dịch tễ và dinh dưỡng
Kỷ nguyên hiện đại trong y học dự phòng được mở ra vào giữa Thế kỷ 19 với sự khám phá của Louis Pasteur về vai trò của các vi khuẩn sống như là nguyên nhân gây
ra bệnh nhiễm trùng [9] Cũng cuối Thế kỷ này, vai trò truyền bệnh do côn trùng đã
Trang 17được xác định [9] Xét nghiệm huyết thanh học đã được phát hiện bởi Widal, bằng việc tìm ra phản ứng ngưng kết đối với huyết thanh người mắc bệnh thương hàn năm
1896 và thử nghiệm Wassermann cho bệnh giang mai năm 1906 [9] Với việc khám phá ra các nguyên tắc miễn dịch của cơ thể con người đã dẫn đến sự phát triển của việc tiêm chủng chủ động để phòng ngừa các bệnh cụ thể [9] Bên cạnh đó, những tiến bộ trong điều trị đã mở ra những cách khác để dự phòng bệnh bạch hầu bằng thuốc kháng sinh và bệnh giang mai bằng arsphenamine [9] Năm 1932, các thuốc sulfonamide và sau đó là kháng sinh bao gồm penicillin, streptomycin, chlortetracycline và chloramphenicol tạo ra cơ hội mới để phòng ngừa và chữa trị các bệnh do các vi khuẩn khác nhau gây ra [9]
Sau năm 1900, có thêm nhiều tiến bộ khác trong lĩnh vực y học dự phòng, việc sử dụng tia X và các chất phóng xạ trong chẩn đoán và điều trị bệnh (ví dụ như bệnh lao
và ung thư) cũng như trong nghiên cứu sinh lý cơ bản đã mở ra những khả năng mới [9] Sự hiểu biết sâu hơn về các chức năng nội tiết, với việc sản xuất các chiết xuất hoocmôn có sẵn như insulin, dẫn đến các biện pháp phòng ngừa các bệnh chuyển hóa nhất định [9] Vai trò của dinh dưỡng trong sức khoẻ và bệnh tật và của nhiều yếu tố thực phẩm thiết yếu đối với sức khoẻ của chế độ ăn uống hợp lý [9] Những tiến bộ khác của Thế kỷ 20 trong lĩnh vực y tế dự phòng bao gồm sự thừa nhận rộng hơn các yếu tố tâm lý liên quan đến tổng thể sức khoẻ con người, các kỹ thuật phẫu thuật, phương pháp gây tê mới và nghiên cứu di truyền học [9]
1.1.2 Những vai trò của lĩnh vực y tế dự phòng
Trong khi một số người nghĩ rằng bác sĩ như là một ai đó để khám, chữa cho họ khi
bị bệnh, có một sự thật là việc gặp bác sĩ về y tế dự phòng cũng quan trọng không kém quan trọng trong việc quản lý sức khoẻ của bản thân, như chúng ta vẫn thường nghe
câu phòng bệnh hơn chữa bệnh [1] Ngăn ngừa bệnh tật bằng cách kiểm tra tình trạng
sức khoẻ để phát hiện những nguy cơ tiềm ẩn, tiêm vắc xin đầy đủ và áp dụng các thói quen lành mạnh là những cách để chúng ta có thể sống một cuộc sống khỏe mạnh hơn
Từ những nhu cầu cấp thiết trong công tác phòng chống nguy cơ và bảo vệ sức khỏe người dân, lĩnh vực y tế dự phòng có những vai trò cụ thể sau:
- Giám sát, phát hiện sớm các bệnh truyền nhiễm, các nguồn bệnh chưa rõ nguyên nhân [1];
- Tổ chức thực hiện các biện pháp phòng, chống và kiểm soát dịch bệnh [1];
- Quản lý dữ liệu và cung cấp thông tin rộng rãi cho xã hội về các bệnh và dịch bệnh truyền nhiễm [1];
- Phòng, chống bệnh không lây nhiễm, bệnh xã hội [1];
- Giám sát và phòng, chống bệnh không lây nhiễm, bệnh xã hội [1];
- Thực hiện các hoạt động phòng, chống yếu tố nguy cơ bệnh không lây nhiễm;
Trang 18triển khai các hoạt động phòng, chống tác hại của lạm dụng rượu bia và đồ uống có cồn khác [1];
- Thực hiện và kiểm tra, giám sát hoạt động phòng, chống bệnh không lây nhiễm, bệnh xã hội; thống kê, báo cáo, xây dựng và quản lý cơ sở dữ liệu về bệnh không lây nhiễm, bệnh xã hội [1];
- Nghiên cứu, phát triển và sử dụng vắc xin, sinh phẩm y tế hỗ trợ phòng ngừa các bệnh truyền nhiễm một cách chủ động [1];
- Hướng dẫn, kiểm tra việc sử dụng vắc xin, sinh phẩm y tế và an toàn tiêm chủng [1]
1.2 Dịch bệnh
Bệnh là tình trạng bất thường, ảnh hưởng xấu đến cấu trúc hoặc chức năng của một phần hoặc toàn bộ cơ thể con người, nhưng không do chấn thương nào từ bên ngoài gây ra [5] Một căn bệnh có thể do các yếu tố bên ngoài như tác nhân gây bệnh hoặc rối loạn chức năng nội bộ gây ra [5] Ví dụ, rối loạn chức năng nội bộ của hệ thống miễn dịch có thể tạo ra nhiều bệnh khác nhau, bao gồm các dạng suy giảm miễn dịch, mẫn cảm, dị ứng và rối loạn tự miễn dịch
Trên cơ thể người, khái niệm bệnh được sử dụng để chỉ tình trạng gây đau đớn, rối loạn chức năng, sang chấn tâm lý hoặc tử vong của người bị bệnh, hoặc các vấn đề tương tự đối với những người tiếp xúc với người bệnh đó [5] Theo nghĩa rộng hơn, đôi khi nó bao gồm những thương tích, khuyết tật, rối loạn, hội chứng, nhiễm trùng, triệu chứng bị cô lập, hành vi sai lệch (không làm chủ được hành vi) và các biến thể không điển hình của cấu trúc và chức năng trên cơ thể Có bốn loại bệnh chính: bệnh truyền nhiễm, bệnh thiếu hụt vi chất, bệnh di truyền và bệnh sinh lý [5] Bệnh cũng có thể được phân loại theo những cách khác, chẳng hạn như các bệnh truyền nhiễm và không lây nhiễm [5]
Dịch bệnh là bệnh được lan truyền nhanh chóng và ảnh hưởng đến số lượng lớn người trong vòng một thời gian rất ngắn [5] Khi có dịch bệnh xuất hiện các cơ quan kiểm soát dịch bệnh thực hiện các biện pháp nghiệm vụ trong thẩm quyền quản lý để khoang vùng, khống chế dịch Ví dụ, với bệnh sởi khi số lượng mắc lớn hơn 15 trường hợp trên 100.000 người trong thời gian hai tuần liên tiếp có thể đưa ra cảnh báo dịch bệnh truyền nhiễm
Trong những năm gần đây, chúng ta phải đối mặt với tình hình dịch bệnh hoành hành, bùng phát nhanh chóng và diễn biến phức tạp, đặc biệt là các dịch bệnh nguy hiểm, Ebola, MERS-CoV liên tục gia tăng, dịch bệnh cúm A(H5N1), A(H7N9) chưa khống chế được triệt để; bệnh do vi rút Zika lây truyền mạnh mẽ Nhiều bệnh truyền nhiễm trước đây đã bị khống chế, nhưng gần đây bùng phát và gia tăng trở lại như: tay chân miệng, sốt xuất huyết, bại liệt, sởi Chỉ tính riêng năm 2017, trên thế giới tình hình dịch bệnh diễn biến phức tạp, xuất hiện nhiều dịch bệnh mới; số ca mắc cúm
Trang 19A(H7N9) liên tục xuất hiện tại Trung Quốc, MERS-CoV bùng phát tại Trung Đông
Có thể thấy, dịch bệnh ngày càng diễn biến phức tạp về phạm vi và chủng loại Thực
tế đó, đòi hỏi công tác y tế dự phòng cần phải được đẩy mạnh, nâng cao nhằm khoanh vùng và hạn chế sự lây lan của dịch bệnh Công tác giám sát dịch bệnh lây nhiễm, phân tích và dự báo phục vụ ra quyết định ngày càng trở nên quan trọng và cần được đẩy mạnh
1.3 Dự báo dịch bệnh trong lĩnh vực y tế dự phòng
Hoạt động dự báo hỗ trợ các cơ quan, tổ chức đưa ra những thông tin nhận định cho tương lai trên cơ sở các thông tin đã có trong quá khứ và hiện tại Lĩnh vực y tế dự phòng là một mảng lớn cho các hoạt động dự báo, với nhiều cấp độ khác nhau từ phạm
vi một địa phương, quốc gia và toàn cầu Vì vậy, hoạt động dự báo tình hình diễn biến dịch bệnh trong lĩnh vực y tế dự phòng luôn nhận được sự quan tâm từ các nhà nghiên cứu Thông qua hoạt động dự báo, nhận định trước xu hướng diễn biến của dịch bệnh, giúp các cơ quan chức năng chủ động triển khai các biện pháp ngăn chặn sự bùng phát
và lây lan của dịch bệnh Hoạt động nghiên cứu dự báo tình hình dịch bệnh truyền nhiễm thời gian qua đã góp phần quan trọng giúp các nhà quản lý và hoạch định chính sách trong công tác lập kế hoạch và định hướng chính sách y tế
Cùng với sự phát triển của khoa học, đã có nhiều phương pháp và kỹ thuật mới được ứng dụng trong hoạt động dự báo Dự báo dựa vào các kỹ thuật khai phá dữ liệu đang được ứng dụng rộng rãi Từ thực tế, các hoạt động nghiên cứu trên thực địa thường gặp những hạn chế về nguồn lực và thời gian, thì việc ứng dụng khai phá dữ liệu trong dự báo dịch bệnh, góp phần giải quyết bài toán dự báo dịch bệnh với chi phí thấp Ở Việt Nam, ứng dụng các phương pháp và kỹ thuật khai phá dữ liệu trong dự báo dịch bệnh vẫn chưa được triển khai nhiều với số ít các nhà nghiên cứu, trong khi nhu cầu dự báo phục vụ xây dựng các chương trình, hoạt động, chính sách y tế ngày càng tăng
Do điều kiện tự nhiên như biến đổi khí hậu, môi trường, nhiều bệnh dịch truyền nhiễm trước đây đã được đầy lùi, nay lại bùng phát mạnh mẽ với nhiều biến thể và chủng loại mới, đặc biệt tại các vùng có điều kiện khí hậu khắc nghiệt Bên cạnh việc nghiên cứu để tìm ra nguyên nhân và yếu tố gây nên sự bùng phát của dịch bệnh, cần phải ứng dụng các kỹ thuật dự báo khác nhau để xây dựng mô hình dự báo dịch bệnh, dựa trên tác động của các yếu tố điều kiện tự nhiên, khí hậu, môi trường , nhằm đưa
ra cảnh báo sớm diễn biến dịch bệnh trong tương lại, chủ động triển khai các công tác nghiệp vụ, qua đó giúp giảm thiểu nguy cơ và thiệt hại của dịch bệnh đến con người Trong những năm gần đây, cùng với sự phát triển bùng nổ của Internet làm gia tăng các nguồn dữ liệu, trong đó có dữ liệu dịch bệnh, khí hậu, thời tiết,… được thu thập thường xuyên từ khắp nơi trên thế giới, đó là một điều kiện lý tưởng cho công tác dự báo, bên cạnh đó sự phát triển của các phương pháp và kỹ thuật dự báo đem lại cơ hội mới cho sự bùng nổ hoạt động phân tích và dự báo dịch bệnh trong lĩnh vực y tế
Trang 201.4 Thực trạng nghiên cứu dự báo trong y tế dự phòng
Đến nay, có nhiều mô hình dự báo dịch bệnh được xây dựng và ứng dụng trong lĩnh vực y tế Ví dụ, mô hình toán học của bệnh sốt rét được bắt đầu nghiên cứu năm
1911 với mô hình của Ross và được cải tiến bởi Macdonald năm 1957 Gần đây, có rất nhiều mô hình nghiên cứu bệnh sốt rét như: mô hình dịch tễ toán học SIR (Susceptible – Infected – Recovered) và SIS (Susceptible – Infected - Susceptible) với tư tưởng chính là xây dựng mô hình dự báo sự lan truyền của bệnh thông qua số người và số muỗi bị nhiễm bệnh Qua tham khảo, nhận thấy các phương pháp dự báo dịch bệnh ban đầu đều dựa trên mô hình lan truyền dịch bệnh, điển hình cho tư tưởng này là mô hình SIR Ý tưởng của mô hình này là phân tách tổng số người trong một khu vực bị nhiễm bệnh thành 3 lớp, trong đó:
- Lớp dễ bị bệnh S: Những người trong lớp này chưa hề mắc bệnh và có nguy cơ
đủ lớn để có kết quả xấp xỉ đúng Mức độ lan truyền dịch bệnh được xác định như sau:
Trong đó:
𝑆 + 𝐼 → 2𝐼: Ở vế trái, người trong lớp S bị người trong lớp I lây bệnh với tốc 𝑇
độ r > 0, khiến người đó chuyển sang lớp I, thu được vế phải là 𝐼 + 𝐼 = 2𝐼
𝐼 → 𝑅: Người trong lớp I sau một thời gian sẽ hết bệnh (hoặc chết vì bệnh) và 𝛼chuyển sang lớp R với tốc độ 𝑎 > 0
Mỗi lớp trong mô hình SIR là một hàm số theo thời gian t gồm 𝑆(𝑡), 𝐼(𝑡) và 𝑅(𝑡) Lớp nhiễm bệnh có tốc độ tỉ lệ thuận với số lượng người nhiễm bệnh và người dễ bệnh, tức rSI, với 𝑟 > 0 là tham số hằng, đó cũng là tốc độ mất đi số người trong lớp
dễ bệnh Tốc độ hết bệnh của người nhiễm bệnh tỉ lệ thuận với số lượng người nhiễm bệnh, tức aI, với 𝑎 > 0 là hằng số, 1/𝑎 là độ đo thời gian một người ở trong trạng thái nhiễm bệnh Chu kỳ ủ bệnh ngắn, tức người dễ bệnh khi tiếp xúc với mầm bệnh sẽ nhiễm bệnh ngay Dựa trên các giá trị đầu vào, xác định được các tham số trong trong phương trình này Mô hình kết quả được dùng để dự báo 𝑆(𝑡), 𝐼(𝑡) và 𝑅(𝑡) với t là thời gian tương lai Mô hình dịch tễ học toán học có thể áp dụng thành công và cho kết
Trang 21quả lý tưởng trên những hệ thống không quá phức tạp
Trong thời gian gần đây, kỹ thuật và mô hình phân tích chuỗi thời gian series) được sử dụng rộng rãi, nghiên cứu dự báo trong các lĩnh vực khác nhau và dự báo diễn biến dịch bệnh trong tương lai Việc sử dụng mô hình phân tích chuỗi thời gian, khắc phục được các nhược điểm của mô hình hồi quy luận lý (logistic), hồi quy
(time-đa biến, do không thể xem xét tính tự tương quan của những dữ liệu mang tính chuỗi thời gian, làm hạn chế khả năng dự đoán Nhằm cải thiện độ chính xác trong thiết lập
mô hình cảnh báo dịch bệnh, một số nhà nghiên cứu đã tiến hành kết hợp kỹ thuật phân tích chuỗi thời gian và các mô hình dự báo, nhằm xác định ảnh hưởng của điều kiện địa lý, thời gian,… tới số ca mắc một bệnh nào đó Từ các phân tích nêu trên, luận văn thực hiện nghiên cứu kết hợp mô hình ARIMA và với các kỹ thuật phân tích chuỗi thời gian để thiết lập mô hình dự báo thống nhất Các kỹ thuật khai phá dữ liệu được
đề cập chi tiết tại Chương 2, nhằm đưa ra phân tích và lựa chọn kỹ thuật khai phá dữ liệu phù hợp với chuỗi dữ liệu thời gian
1.5 Mục tiêu nghiên cứu
Từ các phân tích ở trên luận văn này tập trung nghiên cứu hệ thống hóa các kỹ thuật khai phá dữ liệu, lựa chọn các phương pháp phù hợp nhằm xây dựng mô hình giải quyết bài toán phân tích và dự báo dự báo dịch bệnh truyền nhiễm Mô hình nhận đầu vào là tập dữ liệu về tình hình dịch bệnh trong quá khứ, và có đầu ra là mô hình dự báo diễn biến dịch bệnh trong tương lai, qua đó giúp nhận định chu kỳ, xu hướng diễn biến của dịch bệnh
Từ mục tiêu trên, luận văn tập trung nghiên cứu các vấn đề sau:
- Nghiên cứu tổng quan các phương pháp và kỹ thuật khai phá dữ liệu, lựa chọn phương pháp thích hợp với tập dữ liệu dịch bệnh truyền nhiễm;
- Tiến hành thực nghiệm phân tích, dự báo dịch cúm với các phương pháp khai phá
dữ liệu được lựa chọn trên tập dữ liệu dịch cúm được công bố;
- Xây dựng mô hình dự báo phù hợp và hiệu quả trong công tác dự báo dịch cúm
có khả năng ứng dụng cho tình hình thực tế ở Việt Nam
Tóm tắt Chương 1
Chương 1 đã giới thiệu tổng quan các vấn đề của dịch bệnh truyền nhiễm, lịch sử hình thành, phát triển của y tế dự phòng và thực trạng diễn biến dịch bệnh truyền nhiễm hiện nay Qua thực trạng đó, để thấy được tính cấp thiết trong việc ứng dụng công nghệ thông tin trong phân tích, dự báo qua đó hỗ trợ công tác quản lý, định hướng chính sách y tế để phòng ngừa và ngăn chặn diễn biến dịch bệnh Bên cạnh đó, cũng đề cập hiện trạng và phương pháp nghiên cứu ứng dụng phân tích, dự báo trong lĩnh vực y tế đặc biệt là mảng y tế dự phòng
Trang 22Chương 2 của luận văn sẽ trình bày các phương pháp và công cụ phổ biến hiện nay phục vụ khai thác dữ liệu, đề xuất lựa chọn một phương pháp phù hợp nhằm xử lý, phân tích và dự báo tập dữ liệu về dịch bệnh cúm do Google Flu Trends cung cấp
Trang 23CHƯƠNG 2: CÁC PHƯƠNG PHÁP VÀ CÔNG CỤ KHAI PHÁ DỮ LIỆU
Với sự phát triển mạnh mẽ của Internet, dữ liệu được tạo ra ngày càng nhiều về số lượng, khối lượng và phát triển mạnh về quy mô làm cho việc phân loại, lựa chọn, khai thác, sử dụng gặp nhiều khó khăn
Khai phá dữ liệu là một trong những thuật ngữ mới xuất hiện từ những năm 1990,
nó là hệ quả của sự bùng nổ Internet Theo một công bố của Intel vào tháng 9/2013 cứ
11 giây trôi qua chúng ta có thêm 1 Petabybe dữ liệu, nó tương đương với một video chất lượng HD dài 13 năm Và để khai phá, trích xuất nó thì khai phá dữ liệu ra đời
Về kỹ thuật của khai phá dữ liệu thì có thể có nhiều kỹ thuật được áp dụng và việc áp dụng kỹ thuật khai phá dữ liệu nào còn tùy thuộc vào bài toán và dữ liệu cần khai phá
Hình 2.1 Các bước khai phá dữ liệu
Bước 1) Lựa chọn: tại bước này, những dữ liệu trực tiếp liên quan đến yêu cầu sẽ được thu thập từ các tập dữ liệu gốc ban đầu
Bước 2) Tiền xử lý: dữ liệu tại bước này được làm sạch (xử lý tập dữ liệu không đầy đủ, dữ liệu có nhiễu, dữ liệu không nhất quán,…), kết quả của bước này ta sẽ có một tập dữ liệu nhất quán, đầy đủ, được rút gọn
Bước 3) Đổi dạng: chuyển dữ liệu về dạng phù hợp cho việc khai phá, dữ liệu sau khi làm sạch tại bước tiền xử lý thậm chí không phải là đã sẵn sàng cho khai thác, khi
Trang 24đó chúng ta cần phải biến đổi chúng thành các hình thức thích hợp
Bước 4) Khai phá dữ liệu: đây là giai đoạn chính, trong đó các phương pháp phân tích dữ liệu phù hợp sẽ được áp dụng để trích xuất ra các mẫu dữ liệu dựa vào các tập
dữ liệu ban đầu
Bước 5) Trình diễn: sử dụng các kỹ thuật, công cụ để biểu diễn trực quan hoá dữ liệu được khai phá cho người sử dụng
2.1.2 Ưu điểm của khai phá dữ liệu với các phương pháp khác
2.1.2.1 Học máy (machine learning)
Phương pháp học máy đã có nhiều cải tiến để phù hợp hơn với khai phá dữ liệu, tuy nhiên sự khác biệt giữa thiết kế, các đặc điểm của cơ sở dữ liệu làm cho học máy trở nên không phù hợp, mặc dù hiện nay đa phần các phương pháp khai phá dữ liệu vẫn dựa trên nền tảng của phương pháp học máy Các phương pháp trong máy học cần được phát triển để phù hợp với các yêu cầu và thách thức của khai phá dữ liệu Đầu tiên là tập dữ liệu có độ nhiễu cao, yêu cầu đặt ra cho một giải thuật đối với tập dữ liệu
bị nhiễu trở nên quan trọng hơn Thứ hai là kích thước lớn của các tập dữ liệu cần xử
lý, các tập dữ liệu trong khai phá dữ liệu thường có kích thước lớn Trong thực tế, kích thước của các tập dữ liệu trong khai phá dữ liệu thường ở mức Tera-byte Với kích thước như thế, thời gian xử lý thường cực kỳ dài Vì vậy, việc vận dụng các kỹ thuật nhằm cải tiến các giải thuật để tạo ra các phiên bản phù hợp với những yêu cầu mới của khai phá dữ liệu trở nên quan trọng
Trong hệ quản trị cơ sở dữ liệu, một cơ sở dữ liệu là một tập hợp dữ liệu được liên kết logic với nhau, lưu trữ dữ liệu trong một hay nhiều file và được tổ chức lưu trữ, sửa đổi và truy xuất thông tin hiệu quả và dễ dàng Trong học máy, thuật ngữ cơ sở dữ liệu là nói tới một tập các mẫu dữ liệu được lưu trong một tệp Một thuật toán sẽ sử dụng tập dữ liệu và thông tin đi kèm tập dữ liệu đó làm đầu vào và kết quả đầu ra cho việc học
Với đặc điểm của cơ sở dữ liệu trong học máy được đề cập, có thể thấy học máy có khả năng áp dụng trên tệp các bản ghi của cơ sở dữ liệu Tuy nhiên, quá trình phát hiện tri thức trong cơ sở dữ liệu (knowledge discovery in database – KDD) làm tăng thêm các khó khăn vốn đã là điển hình trong học máy và vượt quá khả năng của học máy Trong thực tế, cơ sở dữ liệu thường động, không đầy đủ, bị nhiễu và lớn hơn nhiều so với các tập dữ liệu học máy, điều này làm cho đa phần các thuật toán học máy hầu hết không hiệu quả Do vậy, trong khai phá dữ liệu cần tập trung xử lý những vấn đề này trong cơ sở dữ liệu
2.1.2.2 Phương pháp hệ chuyên gia
Các hệ chuyên gia sẽ nắm bắt các tri thức trong một bài toán cụ thể Các kỹ thuật thu thập giúp các chuyên gia trong việc khai thác tri thức, mỗi phương pháp là kỹ thuật
Trang 25xây dựng các tập luật Các ví dụ chuyên gia đưa ra có giá trị cao hơn nhiều so với dữ liệu trong cơ sở dữ liệu Hơn nữa, các chuyên gia sẽ xác nhận giá trị và sự hữu dụng của các mẫu được phát hiện Ở phương pháp này đòi hỏi có sự tham gia của con người
mà cụ thể là các chuyên gia với kinh nghiệm của mình trong việc phát hiện tri thức
2.1.3 Những khó khăn trong khai phá dữ liệu
Khi khai phá dữ liệu gặp phải những thách thức sau đây:
- Cơ sở dữ liệu lớn: Kích thước của cơ sở dữ liệu được xác định thông qua số lượng các mẫu tin, các thuộc tính (hay các biến) và các bảng, số lượng có thể là hàng trăm thuộc tính và bảng, hàng triệu các mẫu tin Như vậy, kích thước của cơ sở dữ liệu tính bằng terabyte đã bắt đầu xuất hiện Dữ liệu với số chiều cao (tương ứng với thuộc tính khi biểu diễn qua không gian các mẫu dữ liệu) làm gia tăng kích thước không gian tìm kiếm trong mô hình quy nạp Khi xây dựng mô hình chỉ một tập con trong cơ sở dữ liệu tham gia, do vậy trong các thuật toán khai phá là các mẫu dữ liệu tìm được đôi khi không có giá trị đại diện chung cho toàn bộ cơ sở dữ liệu Một giải pháp cho vấn đề này là giảm bớt số chiều của bài toán và sử dụng tri thức trước (prior knowledge) để
nhận biết các biến ít liên quan
- Vấn đề over-fitting: Khi thuật toán khai phá tìm kiếm với các tham số tốt nhất cho một mô hình đặc biệt và một giới hạn của tập dữ liệu, mô hình ấy có thể over-fitting trên tập dữ liệu ấy nhưng lại thi hành không chính xác trên tập dữ liệu được kiểm tra Một giải pháp thường được sử dụng là thẩm định chéo
- Dữ liệu và tri thức được cập nhật, thay đổi: Dữ liệu thay đổi nhanh chóng theo thời gian dẫn đến những mẫu dữ liệu đã được khai phá trước đây không còn giá trị Thêm vào đó, các biến đã được đo trong cơ sở dữ liệu bị thay đổi, bị xóa hoặc đã tăng lên với một độ đo mới Điều này có thể được thực hiện bằng cách gia tăng các phương thức cập nhật mẫu và xem xét các thay đổi cho việc khám phá bằng việc sử dụng nó để
xử lý thích hợp việc tìm kiếm các mẫu chỉ với sự thay đổi
- Dữ liệu thiếu và nhiễu: Đây là vấn đề rất được quan tâm trong khai phá dữ liệu, việc dữ liệu thiếu và nhiễu thường dẫn đến việc dự đoán thiếu chính xác
- Tích hợp với hệ thống: Hệ thống khai phá dữ liệu thực sự là hữu ích khi phải được tích hợp với cơ sở dữ liệu thông qua các giao diện như truy vấn, bảng tính và các công cụ trực quan khác Hơn nữa, phải tạo ra một môi trường thuận lợi cho việc tương tác với người dùng
2.2 Các kỹ thuật khai phá dữ liệu
Các nhiệm vụ của khai phá dữ liệu gồm hai phần: dự đoán (predictive) được sử dụng để dự đoán các giá trị tương lai của cùng hoặc một tính năng khác và mô tả (descriptive) tìm các mô hình thú vị và dễ diễn giải của con người [6] Trong nội dung luận văn, học viên sẽ đề cập đến bốn kỹ thuật khai thác dữ liệu: Hồi quy (regression);
Trang 26kết hợp (association); phân lớp (classification); phân cụm (clustering)
2.2.1 Hồi quy (Regression)
Phân tích hồi quy được sử dụng để mô hình hóa mối quan hệ giữa một biến độc lập
và biến phụ thuộc Phương pháp này cho phép chúng ta thu được những kết quả tốt nhất về mối quan hệ chân thực giữa các biến số Từ phương trình ước lượng này, có thể dự báo về giá trị của biến phụ thuộc (chưa biết trước giá trị) dựa vào giá trị cho trước của biến độc lập (đã biết trước giá trị)
Dưới đây là một số ví dụ:
- Dự đoán doanh thu của một sản phẩm mới dựa trên các sản phẩm bổ sung;
- Dự đoán ung thư dựa trên số lượng thuốc lá tiêu thụ, thực phẩm bị tiêu hao, độ tuổi;
- Dự đoán chuỗi thời gian của thị trường chứng khoán và các chỉ số
Phương trình thể hiện các mối quan hệ trong hồi quy: 𝑦 = 𝐹(𝑥, 𝜃) + 𝑒, cho thấy hồi quy là quá trình ước tính giá trị mục tiêu y trong một hàm F gồm một hoặc nhiều biến dự đoán (𝑥1, 𝑥2, … , 𝑥𝑛), một tập các tham số (𝜃1, 𝜃2, … , 𝜃𝑛), và một số đo lỗi (e)
2.2.1.1 Hồi quy tuyến tính (linear regression)
Một kỹ thuật hồi quy tuyến tính có thể được sử dụng nếu mối quan hệ giữa các yếu
tố dự đoán và kết quả có thể xấp xỉ bằng một đường thẳng
Hình 2.2 Tuyến tính hồi quy với một dự đoán duy nhất
Hồi quy tuyến tính với một dự báo đơn có thể được biểu diễn bằng phương trình:
𝑦 = 𝜃2𝑥 + 𝜃1+ 𝑒, (1.2) trong đó: θ2 là độ dốc của đường thẳng, góc giữa điểm dữ liệu và đường hồi quy, θ1
là điểm đánh dấu y, điểm mà x vượt qua trục y (x = 0)
2.2.1.2 Hồi quy tuyến tính đa biến
Hồi quy tuyến tính đa biến đề cập đến hồi quy tuyến tính với hai hoặc nhiều biến
dự đoán (𝑥1, 𝑥2, … , 𝑥𝑛) Khi sử dụng nhiều dự đoán, đường hồi quy không thể được
Trang 27hiển thị trong không gian hai chiều Tuy nhiên, dòng này có thể được tính toán bằng cách mở rộng phương trình cho hồi quy tuyến tính dự đoán đơn để bao gồm các tham
số cho từng biến dự đoán
𝑦 = 𝜃1+ 𝜃2𝑥1+ 𝜃3𝑥2+ … … … + 𝜃𝑛𝑥𝑛−1+ 𝑒 (1.3) Trong hồi quy tuyến tính đa biến, tham số hồi quy được gọi là hệ số Khi xây dựng một mô hình hồi quy tuyến tính đa biến, thuật toán tính toán một hệ số cho từng biến
dự báo được sử dụng bởi mô hình Hệ số là thước đo tác động của dự báo x trên mục tiêu y
2.2.1.3 Hồi quy phi tuyến
Bình thường mối quan hệ giữa x và y không phải luôn được xấp xỉ bằng một đường thẳng Trong trường hợp này, một kỹ thuật hồi quy phi tuyến có thể được sử dụng Ngoài ra, dữ liệu có thể được xử lý trước để tạo mối quan hệ tuyến tính Mô hình hồi quy phi tuyến xác định y là một hàm của x sử dụng một phương trình phức tạp hơn phương trình hồi quy tuyến tính
Hình 2.3 Mô hình hồi quy phi tuyến tính 2.2.1.4 Hồi quy phi tuyến đa biến
Hồi quy phi tuyến tính đa biến đề cập đến hồi quy phi tuyến với hai hoặc nhiều yếu
tố dự đoán (𝑥1, 𝑥2, … , 𝑥𝑛) Khi sử dụng nhiều dự đoán, mối quan hệ phi tuyến không thể được hình dung trong không gian hai chiều
Các kỹ thuật phân tích hồi quy rất hữu ích trong khoa học dữ liệu và thuật ngữ "hồi quy logistic" (logistic regression), xuất hiện gần như ở mọi khía cạnh trong lĩnh vực này Điều này, đặc biệt đúng với trường hợp do tính hữu ích và sức mạnh của mạng nơ-ron sử dụng kỹ thuật dựa vào hồi quy để tạo ra những chức năng phức tạp mà bắt chước chức năng của bộ não người
2.2.2 Kết hợp (Association)
Phát hiện quy tắc kết hợp là một phương pháp mô tả quan trọng trong khai thác dữ liệu [11] Đó là một phương pháp rất đơn giản, nhưng được đánh cao về mức độ thông
Trang 28minh và đưa ra kết quả dự đoán chính xác Kỹ thuật của phương pháp là phát hiện và tìm ra trong tập dữ liệu cần khai phá những mối liên hệ giữa các giá trị [11] Đầu ra của phương pháp này là tập luật kết hợp tìm được từ tập dữ liệu ban đầu [11]
Ví dụ, những khách hàng mua ngũ cốc tại cửa hàng tạp hóa thường sẽ mua kèm sữa Trong thực tế, phân tích kết hợp có thể tìm ra 85% các lần kiểm tra hành vi mua sắm của khác hàng mua ngũ cốc sẽ bao gồm sữa
2.2.3 Phân lớp (Classification)
Phân lớp là một kỹ thuật khai phá dữ liệu mà gán các mục trong một bộ dữ liệu để nhằm mục tiêu phân loại [11] Mục tiêu của phân lớp là dự đoán chính xác lớp mục tiêu cho từng trường hợp dữ liệu
Một kỹ thuật phân lớp bắt đầu với một tập dữ liệu trong đó các phép gán lớp được biết Ví dụ, một mô hình phân lớp dự đoán rủi ro tín dụng có thể được phát triển dựa trên dữ liệu quan sát của nhiều người nộp đơn vay trong một khoảng thời gian Ngoài xếp hạng tín dụng lịch sử, dữ liệu còn theo dõi lịch sử việc làm, quyền sở hữu nhà hoặc cho thuê, số năm cư trú, số lượng và loại hình đầu tư, v.v… Xếp hạng tín dụng sẽ
là mục tiêu, các thuộc tính khác sẽ là các yếu tố dự báo và dữ liệu cho từng khách hàng
sẽ tạo thành một trường hợp
2.2.4 Phân cụm (Clustering)
Phân cụm cơ sở dữ liệu là tương tự như phân lớp, nghĩa là chúng ta xác định các yếu tố trong một tập dữ liệu có đặc điểm chung và nhóm chúng lại với nhau dựa trên những đặc điểm chung này [11] Sự khác biệt với phân cụm, chúng ta để các thuật toán xác định các nhóm dựa vào lựa chọn một hoặc thậm chí tất cả các dữ liệu có sẵn, trong khi với phân lớp chúng ta đã có các nhóm được định nghĩa Sự khác biệt này cũng được xác định là có giám sát (phân lớp) so với không có giám sát (phân cụm)
Phân cụm là kỹ thuật tìm ra các cụm dữ liệu có đặc điểm tương tự nhau trong tập
dữ liệu cần khai phá Các thành viên của một cụm giống nhau hơn so với các thành viên của các cụm khác Mục đích của phân cụm là tìm các cụm chất lượng cao sao cho
độ tương đồng giữa các cụm thấp và tương đồng của dữ liệu trong cụm cao Phân cụm hữu ích cho việc khám phá dữ liệu Nếu có nhiều trường hợp dữ liệu không có nhóm
rõ ràng, thuật toán phân cụm có thể được sử dụng để tìm nhóm tự nhiên Phân cụm cũng có thể phục vụ như là một bước tiền xử lý dữ liệu hữu ích để xác định các nhóm thuần nhất và xây dựng các mô hình được giám sát
2.3 Dữ liệu chuỗi thời gian (time series data)
Dữ liệu trong khai phá dữ liệu gồm nhiều loại: dữ liệu bảng (table data), dữ liệu chéo (cross sectional data), dữ liệu chuỗi thời gian,… Định hướng phân tích của luận văn trên tập dữ liệu của Google Flu Trends là dạng dữ liệu chuỗi thời gian, tập dữ liệu này ghi nhận về diễn biến dịch cúm của các nước trên thế giới từ năm 2003 – 2015,
Trang 29nên luận văn giới thiệu kiểu dữ liệu chuỗi thời gian
Dữ liệu chuỗi thời gian là chuỗi các giá trị đo một đại lượng nào đó và giá trị đó được ghi nhận theo diễn biến thời gian Chúng ta có thể hiểu chuỗi dữ liệu thời gian là một dãy các vector hoặc một dãy các giá trị phụ thuộc vào các mốc thời gian: {𝑥(𝑡0), 𝑥(𝑡1), 𝑥(𝑡2), … , 𝑥(𝑡𝑖−1), 𝑥(𝑡𝑖), 𝑥(𝑡𝑖+1), … } Việc phân tích dữ liệu chuỗi thời gian chính là việc tìm ra mối liên hệ giữa P và tương ứng với giá trị 𝑥(𝑡), ta có công thức như sau: 𝑃 → 𝑥(𝑡)
Ta thấy nhiều ví dụ về dữ liệu chuỗi thời gian như: số lượng người mắc cúm diễn biến theo thời gian, số liệu thu nhập bình quân đầu người của Việt Nam diễn biến qua nhiều năm, … Có thể chia dữ liệu chuỗi thời gian thành hai dạng: rời rạc và liên tục Các chuỗi dữ liệu có thời gian không liền mạch kéo theo dữ liệu không liền mạch đó là chuỗi dữ liệu rời rạc Với dữ liệu đảm bảo tính liên tục, t là các mốc thời gian và 𝑥(𝑡) là các dữ liệu tương ứng với thời gian t đó là chuỗi dữ liệu liên tục
Với đặc điểm của tập dữ liệu dịch bệnh cúm do Google Flu Trends là các số liệu được ghi nhận theo diễn biến thời gian, và giá trị các số liệu chỉ có một thuộc tính duy nhất là số ca mắc cúm Sự tương quan của các dữ liệu trong tập dữ liệu ở đây là sự biến đổi dữ liệu theo thời gian Chính vì vậy, qua phân tích chi tiết các phương pháp khai phá dữ liệu ở phần trên, luận văn quyết định lựa chọn phương pháp phân tích hồi quy trên tập dữ liệu thời gian (time series regression), với hai đặc tính của hai biến: biến độc lập và biến phụ thuộc, được thể hiện tương quan giữa thời gian và số ca mắc cúm tại thời điểm tương ứng
2.4 Các công cụ, phần mềm hỗ trợ khai phá dữ liệu
Các phần mềm hỗ trợ khai phá dữ liệu rất đa dạng, trong phạm vi luận văn này chỉ
đề cập tới một số phần mềm đang thông dụng, đang sử dụng rộng rãi Trên cơ sở đó, nghiên cứu, lựa chọn một công cụ phù hợp và áp dụng trên tập dữ liệu dịch bệnh cúm
do Google Flu Trends công bố Các công cụ đã được luận văn nghiên cứu đề cập:
- Phần mềm Weka;
- Phần mềm phân tích số liệu SPSS;
- Phần mềm phân tích thống kê R
2.4.1 Phân tích số liệu bằng phần mềm Weka
Weka (viết tắt của Waikato Environment for Knowledge Analysis) là một công cụ khai thác dữ liệu ban đầu được phát triển tại Đại học Waikato tại New Zealand [12] Weka bắt đầu như là một dự án chính phủ tài trợ vào năm 1993 [12] Mặc dù Pentaho
đã thông qua các công cụ Weka làm công cụ khai thác dữ liệu của nó, nó chỉ là một phần của nền tảng BI Việc tích hợp trong nền tảng Pentaho được giới hạn một plugin đặc biệt cho Kettle để gọi một thuật toán điểm Weka Năm 1996, phiên bản đầu tiên đã được phát hành vào năm 1999 và phiên bản 3 (100% được viết bằng Java) đã được
Trang 30phát hành Phiên bản hiện tại 3.6 là một bản phát hành nâng cấp vẫn dựa trên mã 3.0, làm Weka có lẽ là phần trưởng thành hầu hết các nền tảng Pentaho BI
Hình 2.4 Giao diện phần mềm weka
Weka bao gồm ba công cụ khác nhau, mỗi công cụ trong số đó có thể được sử dụng độc lập, nhưng khi kết hợp với nhau tạo ra một nền tảng khai thác dữ liệu rất mạnh mẽ Các chức năng chính như sau:
Explorer – Điểm khởi đầu cho làm quen với Weka và khai thác dữ liệu Explorer
cho phép dễ dàng làm việc với các bộ dữ liệu Nó cũng cung cấp một loạt các chức năng
Experimenter – làm việc, thiết lập và thực hiện các thí nghiệm lớn, nơi tập hợp
nhiều dữ liệu và nhiều thuật toán có thể được thêm vào cùng một lúc Kết quả của thí nghiệm sau đó có thể được so sánh với nhau để xác định các kết quả đã được (thống kê) tốt hơn so với những người khác
KnowledgeFlow – Sự bổ sung mới nhất cho các bộ công cụ Weka có thể được sử
dụng để xây dựng hoàn chỉnh quy trình công việc khai thác dữ liệu tương tự như các quy trình bạn đã quen thuộc với trong Pentaho tích hợp dữ liệu hoặc các studio thiết
kế
Định dạng đầu vào của Weka: Trước khi bạn có thể phân tích dữ liệu, nó phải
được chuẩn bị để sử dụng trong Weka Weka có thể đọc dữ liệu từ nhiều nguồn khác nhau, bao gồm cả trực tiếp từ một cơ sở dữ liệu JDBC và các tập tin CSV Weka cũng
có riêng, định dạng file gốc của nó Việc đầu tiên được gọi ARFF (Attribute Relation File Format) là một định dạng tập tin dựa trên văn bản nhưng với siêu dữ liệu thêm vào để Weka biết loại dữ liệu trong tập tin Như bạn có thể thấy, nó có chứa các mối quan hệ (chủ đề của sự phân tích), tất cả các thuộc tính được sử dụng bao gồm cả các giá trị có thể hoặc các kiểu dữ liệu, và các dữ liệu chính nó
Định dạng thứ hai được gọi là XRFF (eXtensible attribute-Relation File Format) và
là một phần mở rộng dựa trên XML của các định dạng ARFF Cả hai tập tin ARFF và XRFF có thể được mở trong một hình thức lưu trữ là tốt XRFF có lợi thế hơn ARFF
Trang 31chuẩn ở chỗ nó cho phép các thuộc tính lớp được xác định trong tập tin Các tập tin chuẩn ARFF không chỉ định một thuộc tính lớp và để lại nó cho người dùng lựa chọn một thông qua giao diện người dùng đồ họa hoặc thông qua một lựa chọn nếu sử dụng giao diện dòng lệnh Weka của XRFF mặt khác cho phép một thuộc tính lớp mặc định được xác định trong tập tin Thuộc tính này sau đó được chọn tự động trong giao diện dòng lệnh hoặc giao diện Weka Tất nhiên, điều này không ngăn chặn người dùng tự chọn thuộc tính khác như các lớp nếu họ mong muốn Cuối cùng, XRFF cho phép thêm cả thuộc tính và khởi tạo, cho phép cân bằng tầm quan trọng của mỗi thuộc tính trong một kết quả
2.4.2 Giới thiệu về SPSS (Statistical Product and Services Solutions)
SPSS là phần mềm phục vụ thống kê, với một bộ thư viện lớn các thuật toán học máy, phân tích văn bản, nguồn mở, tích hợp dễ dàng với những dữ liệu lớn [13] SPSS
dễ sử dụng, linh hoạt và thường được dùng trong nghiên cứu xã hội, kinh tế học
Hình 2.5 Giao diện SPSS
SPSS cung cấp các chức năng quản lý dữ liệu và phân tích thống kê với giao diện
đồ họa thân thiện với người dùng SPSS phiên bản 22 đem lại cho người dùng một giao diện đơn giản giúp bạn tạo ra các đồ thị và dễ dàng hiệu chỉnh đồ thị Trong SPSS, các đồ thị có chất lượng cao và bạn có thể dễ dàng dán chúng vào các tài liệu khác cũng như từ các tài liệu khác như Word, Excel bạn có thể dễ dàng copy dữ liệu qua lại
2.4.3 Phân tích số liệu bằng R
R là một phần mềm hoàn toàn miễn phí, được sử dụng cho phân tích dữ liệu, thống
kê và vẽ biểu đồ [14] R là ngôn ngữ lập trình đa năng, có thể sử dụng cho nhiều mục đích, tính toán, giải trí, phân tích thống kê phức tạp [14] R là một ngôn ngữ lập trình, cho nên chúng ta có thể sử dụng nó để phát triển các phần mềm phục vụ tính toán [14]