Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 56 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
56
Dung lượng
1,13 MB
Nội dung
ỦY BAN NHÂN DÂN TỈNH BÌNH DƢƠNG TRƢỜNG ĐẠI HỌC THỦ DẦU MỘT NGUYỄN BÌNH MINH DỰ BÁO DỊCH SỐT XUẤT HUYẾT BẰNG PHƢƠNG PHÁP HỌC MÁY LUẬN VĂN THẠC SỸ CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ NGÀNH: 8480104 BÌNH DƢƠNG, NĂM 2019 ỦY BAN NHÂN DÂN TỈNH BÌNH DƢƠNG TRƢỜNG ĐẠI HỌC THỦ DẦU MỘT NGUYỄN BÌNH MINH DỰ BÁO DỊCH SỐT XUẤT HUYẾT BẰNG PHƢƠNG PHÁP HỌC MÁY LUẬN VĂN THẠC SỸ CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ NGÀNH: 8480104 NGƢỜI HƢỚNG DẪN KHOA HỌC: TS MAI HỒNG BẢO ÂN BÌNH DƢƠNG, NĂM 2019 LỜI CAM ĐOAN Tơi cam đoan cơng trình nghiên cứu cá nhân tôi, xuất phát từ nhu cầu thực tế trình học tập, nghiên cứu nhƣ cơng tác Sở Y tế Bình Dƣơng Dữ liệu sử dụng nghiên cứu đƣợc thu thập từ Trung tâm Y tế Dự phịng tỉnh Bình Dƣơng, Trung tâm quan trắc, môi trƣờng tỉnh đƣợc chấp thuận, cho phép sử dụng văn lãnh đạo quan Tất tham khảo từ nghiên cứu liên quan đƣợc dẫn nguồn cụ thể, rõ ràng Nội dung, kết nghiên cứu luận văn nỗ lực thân chƣa đƣợc cơng bố cơng trình nghiên cứu khoa học khác Tác giả Nguyễn Bình Minh LỜI CẢM ƠN Trong trình học tập, nghiên cứu thực luận văn “Dự báo dịch sốt xuất huyết địa bàn tỉnh Bình Dƣơng phƣơng pháp học máy”, nhận đƣợc nhiều hỗ trợ, giúp đỡ từ phía thầy cơ, cá nhân tổ chức sau: Trƣớc hết, xin chân thành cảm ơn tri ân sâu sắc đến Thầy PGS.TS Lê Tuấn Anh - Phó Hiệu trƣởng Phụ trách Đại học Thủ Dầu Một dõi theo động viên, dẫn dắt bạn đồng mơn khai phá tầm nhìn, hƣớng cho tiếp cận lĩnh vực nghiên cứu vừa khoa học, vừa gần gũi thực tiễn sống Đặc biệt, để hồn thành luận văn này, tơi xin chân thành cảm ơn sâu sắc đến Thầy TS Mai Hoàng Bảo Ân - Viện John Von Neumann tận tâm dìu dắt, hƣớng dẫn, góp ý, chỉnh sửa để tơi hồn thành luận văn Tơi xin đƣợc gửi lời cảm ơn đến Ban Giám hiệu nhà trƣờng, Phịng đào tạo Sau Đại học, Thầy, Cơ Khoa K thuật - Công nghệ, Trƣờng Đại học Thủ Dầu Một tạo điều kiện môi trƣờng học tập, nghiên cứu thuận lợi Xin cảm ơn tất Thầy, Cô giảng viên thỉnh giảng tâm huyết không ngại đƣờng xa để truyền đạt cho kiến thức kinh nghiệm vô c ng quý giá học tập nghiên cứu khoa học Tôi trân trọng cảm ơn chuyên gia y tế Trung tâm Y tế Dự phòng tỉnh Bình Dƣơng, cảm ơn lãnh đạo Trung tâm quan trắc môi trƣờng tỉnh hỗ trợ, giúp đỡ nhiệt tình việc thu thập liệu chia sẻ kiến thức chuyên môn công tác dự báo phòng chống dịch bệnh Sốt xuất huyết Xin cảm ơn ngƣời thân, gia đình ln ủng hộ, động viên, tạo điều kiện thuận lợi cho tơi hồn thành văn Một lần xin tri ân trân trọng cảm ơn tất ngƣời h u t ng 20/3/2019 Tác giả Nguyễn Bình Minh DANH MỤC CÁC TỪ VIẾT TẮT, CÁC KÝ HIỆU TỪ VIẾT TẮT TIẾNG ANH TIẾNG VIỆT WHO World Health Organization Tổ chức Y tế giới TTYTDP Centers for Disease Control and Prevention Trung tâm Y tế dự phòng (Trung tâm kiểm sốt, phịng ngừa dịch bệnh) SXH Fever Sốt xuất huyết SXHD Dengue Fever Sốt xuất huyết Dengue KPDL Data Mining Khai phá liệu CSDL Database Cơ sở liệu KDD Phát tri thức sở liệu Hệ thống thông tin địa lý SVM Knowledge Discovery in Database Geographic Information System Support vector machine RF Random Forests Rừng ngẫu nhiên DT Decission Trees Cây định LR Linear Regression Hồi quy tuyến tính BI Breteau index số vật chứa nƣớc có lăng quăng muỗi Aedes GIS DI Máy véc tơ hỗ trợ số mật độ muỗi vằn DANH SÁCH CÁC BẢNG BIỂU T n ản Trang Bản : Bảng kết mơ hình phân lớp nhóm tác giả Ngọc Anh 14 Bản : Bảng kết mơ hình học máy nhóm tác giả Đại học 15 Cơng nghệ Kumaraguru Bản 3: Bảng nhận xét nhóm mơ hình dự báo dịch bệnh 24 Bản : Kết thực nghiệm với thuật toán hồi quy 37 Bản : Kết thực nghiệm với thuật toán phân lớp 38 Bản : Độ tƣơng quan thuộc tính 39 Bản : Bảng so sánh kết hồi quy với NC khác 40 Bản : Bảng so sánh kết phân lớp với NC khác 40 DANH SÁCH CÁC HÌNH Tên n Trang Hình 1: Q trình KPDL, phát tri thức H n : Biểu đồ kết mơ hình hồi quy nhóm tác giả Ngọc Anh 14 H n 3: Sơ đồ Quy trình học máy 18 Hình 4: Mơ hình Random Forests 20 H n 5: Mơ hình dự đốn sử dụng Random Forest 22 Hình 6: Lƣu đồ xây dựng mơ hình dự báo dịch dựa hồi quy, phân lớp 26 Hình 7: Mơ hình thực nghiệm dựa hồi quy 27 Hình 8: Mơ hình thực nghiệm dựa phân lớp 27 Hình 9: Sơ đồ trình thu thập, tiền xử lý liệu thực nghiệm 32 H n 10 : Sơ đồ tổng qt q trình mơ tả liệu, trình thu thập, tìm 35 hiểu, xử lý liệu H n 11 : Biểu đồ so sánh độ xác mơ hình hồi quy 37 H n 12 : Biểu đồ so sánh độ xác mơ hình phân lớp 38 H n 13 : Biểu đồ tƣơng quan thuộc tính tác động lên ca bệnh SXH 39 MỤC LỤC LỜI CẢM ƠN .iv DANH MỤC CÁC TỪ VIẾT TẮT, CÁC KÝ HIỆU v DANH SÁCH CÁC BẢNG BIỂU .vi DANH SÁCH CÁC HÌNH vii MỞ ĐẦU Tính cấp thiết đề tài Mục tiêu nghiên cứu Đối tƣợng phạm vi nghiên cứu, phƣơng pháp nghiên cứu: CHƢƠNG 1: GIỚI THIỆU TỔNG QUAN 1.1 Tổng quan tỉnh Bình Dƣơng 1.2 Tổng quan dịch bệnh SXH Việt Nam tỉnh Bình Dƣơng 1.3 Tổng quan phát tri thức khai phá liệu 1.3.1 Các phƣơng pháp khai phá liệu 1.3.2 Mốt số ứng dụng phát tri thức, khai phá liệu 11 CHƢƠNG 2: CÁC NGHIÊN CỨU LIÊN QUAN 13 2.1 Các nghiên cứu liên quan đến dự báo dịch bệnh dựa khai phá liệu 13 2.2 Một số k thuật xây dựng mơ hình dự báo 15 2.2.1 Dự báo dựa khai phá Luật kết hợp: 15 2.2.2 Dự báo k thuật học máy hồi qui phân lớp 17 2.2.2.1 Hồi qui tuyến tính (Linear Regression – LR): 19 2.2.2.3 Rừng ngẫu nhiên (Random Forests - RF): 20 2.2.2.4 Máy vector hỗ trợ (Support Vector Machines - SVM): 23 2.2.2.5 Naïve Bayes: 23 2.3 Một số nhóm mơ hình dự báo dịch bệnh thƣờng gặp: 24 CHƢƠNG 3: XÂY DỰNG MƠ HÌNH DỰ BÁO, THỰC NGHIỆM 26 3.1 Đề xuất phƣơng pháp xây dựng mơ hình dự báo dịch sốt xuất huyết 26 3.2 Đánh giá độ xác thuật tốn mơ hình dự báo 28 3.3 Thực nghiệm mơ hình 31 3.3.1 Nguồn liệu: 31 3.3.2 Tìm hiểu, mơ tả tiền xử lý liệu: 32 3.3.3 Thực nghiệm 36 KẾT LUẬN 42 Nội dung nghiên cứu kết đạt đƣợc 42 Định hƣớng phát triển : 44 TÀI LIỆU THAM KHẢO 45 MỞ ĐẦU Tín cấp t iết đề tài Bình Dƣơng tỉnh cơng nghiệp với tốc độ phát triển thị hóa nhanh, kèm với tình hình bệnh sốt xuất huyết tăng nhanh theo Số ca mắc bệnh ngày cao hàng năm không theo chu kỳ định mà diễn biến ngày phức tạp Trong vòng 10 năm từ 2007-2017 có nhiều đợt dịch lớn xảy vào năm 2008, 2012 2015, 2017; số ca mắc tử vong cao nhì khu vực phía Nam Trong bối cảnh tình hình dịch bệnh ngày diễn biến phức tạp, vấn đề quan tâm hàng đầu ngành y tế, việc thực triển khai nghiên cứu, giải pháp phòng chống dịch thƣờng bị hạn chế thời gian lẫn nguồn lực Việc nghiên cứu mô hình khai phá liệu, học máy dự báo dịch bệnh giải pháp có khả giải đƣợc tính phức tạp tốn dự báo dịch bệnh với chi phí thấp Ở Việt Nam, ứng dụng khai phá liệu, học máy dự báo dịch bệnh lĩnh vực mẻ Số lƣợng, chất lƣợng nghiên cứu, ứng dụng lĩnh vực cho dự báo dịch bệnh y tế hạn chế nhu cầu thiết lập chƣơng trình, sách y tế gắn với phát triển khoa học máy tính ngày gia tăng Trong năm qua, nguồn liệu đƣợc thu thập, lƣu trữ lĩnh vực y tế gia tăng ngày lớn, bên cạnh liệu khác nhƣ khí hậu, thời tiết, dân cƣ v.v Điều mang đến hội cho phân tích, dự báo nói chung dự báo dịch bệnh ngành y tế nói riêng Do đó, việc nghiên cứu áp dụng k thuật học máy, đề xuất mơ hình dự báo dịch bệnh dựa vào nguồn liệu chuyên ngành có, kết hợp xem xét yếu tố liên quan tới xuất lan truyền dịch bệnh cần thiết nhằm góp phần cảnh báo sớm, ngăn chặn b ng phát, lây lan dịch bệnh; giúp quan có chức quản lý hoạch định sách, kiểm sốt dịch bệnh Bƣớc 1: Từ liệu Access ban đầu (31 thuộc tính/features 63544 dịng) convert, xuất qua định dạng file Excel (31 thuộc tính/features 63544 điểm liệu) Bƣớc 2: - Lọc bỏ thuộc tính dƣ thừa, khơng cần thiết (mã số bệnh nhân, giới tính, ngày báo cáo, ngƣời nhập liệu, tên bệnh viện …) - Sau bỏ thuộc tính khơng cần thiết, bảng liệu lại 63.544 dòng liệu thuộc tính khai thác thơng tin gồm: Họ tên bệnh nhân Tuổi Huyện Ngày nhập viện KQXN DI_index BI_Index Bƣớc 3: Từ thuộc tính “ngày vào viện”, chúng tơi sử dụng hàm ngày tháng Excel để tách thành thuộc tính ngày, tuần, tháng, năm lấy giá trị thuộc tính điểm liệu Tiếp theo, chuyển đổi, xếp, phân bố liệu bảng tính từ 63.544 dịng (phân bố ca bệnh theo ngày tính từ năm 2006 đến 2018) thành bảng tính 1.405 dịng (phân bố dạng tổng số ca bệnh tháng địa bàn huyện/thị năm (sử dụng hàm Countifs excel) Kế đến tính số ca bệnh bình quân tháng cách cộng tổng số ca bệnh năm địa bàn huyện/thị chia 12 tháng (sử dụng hàm Countifs excel) 33 Thuộc tính: “Ca bệnh tháng trƣớc” chúng tơi nhập vào bảng tính dựa số liệu báo cáo Sở Y tế hàng tháng TTYT Dự phòng Cịn thuộc tính “State” chúng tơi tham khảo ý kiến, kinh nghiệm chuyên gia y tế để lập công thức (sử dụng hàm if) tự động điền thông tin Bƣớc 4: Tiếp theo cắt dán liệu từ file liệu khí hậu, lƣợng mƣa số liệu dân cƣ (sau xử lý, xếp, chuyển đổi) theo tháng vào bảng tính Lúc bảng liệu cịn 02 thuộc tính “Địa bàn” “Tình trạng” cịn dạng text, phải số hố Dữ liệu thuộc tính “Địa bàn” đƣợc số hố thành số đến số tƣơng ứng với địa phƣơng: Thủ Đầu Một đến Dầu Tiếng; “Tình trang” số thay cho “Nguy dịch”, số thay cho “an tồn” (Số hố cách sử dụng hàm if chức tìm thay Excel) Sau q trình tiền xử lý, chúng tơi đƣợc bảng liệu phục vụ cho chạy thử nghiệm mơ hình, bảng liệu sau c ng (đã qua tiền xử lý) gồm 1.405 dòng 14 thuộc tính có 02 thuộc tính mục tiêu để dự đoán, bao gồm: 1-ThangCB: Tháng ca bệnh thuộc vào (từ tháng đến tháng 12) 2- NamCB: Năm ca bệnh thuộc vào (từ năm 2012 đến 2018) 3- Diaban: Tên 09 huyện thị địa bàn tỉnh (tên huyện/thị đƣợc số hoá từ đến 9; TDM - 1, Thuận An- 2, …., Dầu Tiếng – 9) 4- Ca_mac: Tổng số ca bệnh mắc 01 huyện/thị 01 tháng 5- Cathangtruoc: Tổng số ca bệnh 01 huyện/thị tháng trƣớc 6- CaTB: Tổng số ca bệnh bình quân tháng 01 huyện/thị 7- KQXN: Tổng số ca có kết xét nghiệm dƣơng tính SXH/Tổng số ca nhập viện 8- DI_Index: Chỉ số mật độ muỗi trƣởng thành, có khả lây bệnh 34 9- BI_Index: Chỉ số trung bình vật chứa nƣớc có lăng quăng tháng 01 địa phƣơng huyện/thị 10- MD_DS: Mật độ dân số trung bình huyện/thị/tháng 11,12,13- NDTB, DATB, LMTB: Nhiệt độ, độ ẩm, lƣợng mƣa trung bình 01 huyện/thị tháng 14- State: Tình trạng dịch bệnh (0: khơng có dịch, 1: nguy dịch) H n : Sơ đồ tổng quát trình mơ tả liệu, q trình thu thập, tìm hiểu, xử lý liệu: Dữ liệu Khí hậu Tập liệu SXH ban đầu file Access có 31 cột/thuộc tính 63.544 dịng liệu (kích thƣớc file 56 MB) Dữ liệu bệnh SXH Xử lý (4b) Dữ liệu Dân số Bảng dữ liệu thực nghiệm sau cùng gồm 1.405 dịng 14 thuộc tính có 02 thuộc tính mục tiêu để dự đốn (Ca_mac State) 35 Bộ liệu kết hợp có cấu trúc nhƣ sau: Mỗi dòng bảng ứng với tổng số ca bệnh tháng năm địa bàn huyện/thị Việc phân tích liệu, dự báo đƣợc thực bảng liệu kết hợp 3.3.3 Thực nghiệm Để tiến hành thực nghiệm mơ hình dự báo, chúng tơi sử dụng ngôn ngữ Python (Python version: 3.6.5), thƣ viện Scikit-learn cung cấp giải thuật, thƣ viện để xây dựng mơ hình học máy Thuật tốn trọng tâm nghiên cứu hƣớng tới Random forests… Cấu hình máy tính chạy thực nghiệm máy Desktop với cấu hình CPU Intel Core Intel(R) Core(TM) i5 2.2GHz, GB RAM, hệ điều hành MS WINDOWS 10 Chúng tiến hành thử nghiệm mơ hình với liệu đƣợc đề cập phần mô tả liệu Trong đề tài nghiên cứu này, tiến hành thực nghiệm hai k thuật học máy hồi quy phân lớp Đối với mơ hình hồi quy, chúng tơi thực nghiệm 04 thuật tốn bao gồm: Linear Regression (LR), Decision Tree Regressor (DT), Random Forest Regressor (RF) Kneighbors Regressor (KNN); sau ghi nhận kết vào bảng bên dƣới để tiến hành đánh giá, so sánh mơ hình Đối với mơ hình phân lớp, chúng tơi thực nghiệm 04 thuật tốn bao gồm: RF, KNN, SVM, NB; sau ghi nhận kết vào bảng bên dƣới để tiến hành đánh giá, so sánh mơ hình Lộ trình công việc tiến hành thực nghiệm bao gồm : Chuẩn bị liệu sau tiền xử lý Kiểm tra lại, xác định điểm dị thƣờng liệu Thiết lập mơ hình, đào tạo mơ hình Đƣa dự đốn liệu thử nghiệm So sánh kết dự đoán với mục tiêu tập liệu kiểm tra đánh giá hiệu suất mơ hình Hiển thị kết mơ hình 36 * Kết k i c ạy t ực n iệm với t uật toán ồi quy : Bản : Kết thực nghiệm với thuật toán hồi quy H n 10 : Biểu đồ so sánh độ xác mơ hình hồi quy 37 Qua kết thực nghiệm trên, nhận thấy độ đo sai khác kết dự đốn mơ hình với tập liệu test (độ lỗi) mơ hình RF DT thấp Bên cạnh đó, độ tƣơng quan độ xác mơ hình RF & DT cao Điều ph hợp độ lỗi, sai lệnh thấp độ xác cao * Kết k i c ạy t ực n iệm với t uật toán p ân lớp : Bản : Kết thực nghiệm với thuật toán phân lớp Model RF_Cls SVM_Cls KNN_Cls NB_Cls Độ đo Precision Recal F1-Score Precision Recal F1-Score Precision Recal F1-Score Precision Recal F1-Score State 0.996 1.000 1.000 0.907 0.920 0.920 0.939 0.942 0.940 0.995 1.000 1.000 H n 11 : Biểu đồ so sánh độ xác mơ hình phân lớp 38 Kết cho thấy thuộc tính state đƣợc phân lớp tốt phân lớp RF, với độ xác lên đến 99% Tuy nhiên, liệu phân bố thuộc tính khơng cân bằng, liệu train tƣơng đối nên cần phải thực nghiệm tập liệu lớn để kiểm chứng thêm độ tin cậy ĐÁNH GIÁ TÁC ĐỘNG CỦA CÁC YẾU TỐ CÔN TRÙNG, THỜI TIẾT, DÂN SỐ LÊN SỐ CA BỆNH SXH: H n 12 : Biểu đồ tƣơng quan thuộc tính tác động lên ca bệnh SXH Bản : Độ tƣơng quan thuộc tính Để đánh giá tác động yếu tố số côn tr ng, thời tiết (nhiệt độ, độ ẩm, lƣợng mƣa), dân số lên số ca bệnh nhƣ nào, tiến hành thực nghiệm xem xét, đánh giá lần lƣợt độ tƣơng quan số ca mắc với yếu tố Kết độ tƣơng quan yếu tố lên ca mắc mơ hình 39 RF tƣơng đối cao ổn định Trong đó, độ tƣơng quan ca mắc với nhiệt độ, độ ẩm lƣợng mƣa cao Điều ph hợp với kết nghiên cứu thống kê năm 2017 Bs Trần Văn Hạnh – Trung tâm Y tế Bến Cát mơ hình dự báo SXH dựa vào yếu tố thời tiết * SO SÁNH, NHẬN XÉT BAN ĐẦU SO VỚI CÁC KẾT QUẢ NC KHÁC : - Mô n ồi quy: Bản : Bảng so sánh kết hồi quy với NC khác Tác iả Tập liệu T uật toán MAE RMSE Ngọc Anh -HN 4.654 mẫu DL LN_Reg 2.8307 5.1425 Ấn độ 100 mẫu DL RF_Reg 0.2233 0.3821 NC 1.405 mẫu DL RF_Reg 0.7632 4.9192 - Mô n p ân lớp: Bản : Bảng so sánh kết phân lớp với NC khác Tác iả Tập liệu T uật toán Precision Recall F1-Score Ngọc Anh -HN 4.654 mẫu DL RF_Cls 0.876 0.879 0.875 Ấn độ 100 mẫu DL RF_Cls 0.833 0.857 0.854 NC 1.405 mẫu DL RF_Cls 0.996 1.000 0.998 Qua bảng so sánh kết tác giả trên, nhận thấy phƣơng pháp áp dụng mơ hình, tỉ lệ chia tập train test, việc sử dụng độ đo nghiên cứu chúng tơi có tƣơng đồng định với nghiên cứu tác giả Tuy nhiên, đặc điểm, cách phân bố liệu khác nhau, số mẫu liệu khác nên kết thu nhận việc so sánh, nhận xét mang tính tƣơng đối 40 3.4 Đán iá, n ận xét Kết thực nghiệm bƣớc đầu cho thấy thuật toán tối ƣu đƣợc đề xuất để sử dụng cho mơ hình dự báo thực tế Random Forests, với độ xác dự báo trƣớc mắt đạt khoảng 99% minh chứng cho triển vọng hƣớng tiếp cận phân tích liệu phƣơng pháp học máy Kết độ tƣơng quan yếu tố thời tiết, dân số, thấy yếu tố có tác động, ảnh hƣởng đến biến động số ca bệnh sốt xuất huyết địa phƣơng Tập liệu thực nghiệm đƣợc tiền xử lý dạng khai thác k thuật học máy nhƣng cần thu thập, chuẩn hóa thêm để tăng hiệu mơ hình độ tin cậy sử dụng độ đo Tổng kết chƣơng : Trong chƣơng này, tiến hành xây dựng mơ hình dự báo thực nghiệm dựa liệu thật Mô tả liệu sử dụng cho thực nghiệm; Trình bày kết thực nghiệm, đánh giá nhận xét, so sánh kết mơ hình cuối c ng đề xuất chọn mơ hình sử dụng thuật tốn tốt để dự báo dịch bệnh sốt xuất huyết tỉnh Bình Dƣơng 41 KẾT LUẬN Nội dun n i n cứu kết đạt đƣợc Nhu cầu dự báo dịch bệnh nói chung dự báo dịch bệnh sốt xuất huyết nói riêng có ý nghĩa quan trọng ngành y tế, đặc biệt công tác y tế dự phòng, hƣớng đến cộng đồng Các kết đầu dự báo dịch chất liệu tham khảo, quan trọng cho việc lập kế hoạch, chuẩn bị nguồn lực phục vụ cơng tác phịng chống dịch cách hiệu Xuất phát từ nguồn liệu thực tế địa phƣơng (có văn xác nhận quan cung cấp liệu) đƣợc thu thập từ Trung tâm Y tế dự phịng tỉnh Bình Dƣơng (dữ liệu ca bệnh sốt xuất huyết), Trung tâm Quan trắc & Mơi trƣờng Bình Dƣơng (dữ liệu khí hậu, thời tiết, lƣợng mƣa) số liệu dân cƣ từ Cục Thống kê Bình Dƣơng, tác giả dành nhiều thời gian cho việc tìm hiểu, phân tích, tiền xử lý nguồn liệu thu thập đƣợc nhiều năm liên tiếp để tiếp cận phƣơng pháp xây dựng, áp dụng mơ hình thực nghiệm dự báo ph hợp Các k thuật học máy đƣợc khảo sát, nghiên cứu thực nghiệm luận văn gồm k thuật phân lớp nhƣ Random Forest (RF), Kneighbors (KNN), Naïve Bayes (NB), Support Vector Machine (SVM) k thuật hồi quy gồm Linear Regression (LR), Decision Tree Regressor (DT), Random Forest Regressor (RF) KneighborsRegressor (KNN) Bên cạnh có kết hợp xem xét mối liên hệ với yếu tố thời tiết, khí hậu, dân cƣ Kết thực nghiệm bƣớc đầu cho thấy thuật toán tối ƣu đƣợc đề xuất để sử dụng cho mơ hình dự báo thực tế Random Forests Regresion, với độ xác dự báo trƣớc mắt đạt khoảng 99% minh chứng cho triển vọng hƣớng tiếp cận phân tích liệu Bên cạnh luận văn có xem xét, phân tích yếu tố khí hậu, thời tiết, dân số có tác động, ảnh hƣởng đến biến động số ca bệnh sốt xuất huyết địa phƣơng 42 Thơng qua q trình nghiên cứu bƣớc hoàn thiện, luận văn có số đóng góp định nêu nhƣ sau: Tác giả tiếp cận, thu thập đƣợc nguồn liệu thật, tiến hành tìm hiểu CSDL bệnh sốt xuất huyết thực tế từ quan quản lý y tế dự phòng địa phƣơng; tiền xử lý, chuyển đổi tập liệu thơ (mục đích quan quản lý để báo cáo, thống kê) thành tập liệu phân tích, khai thác giá trị tiềm ẩn thuật toán học máy Quan trọng hơn, tập liệu đƣợc thu thập thêm, chuẩn hố đƣợc chia sẻ, đóng góp cho cộng đồng nghiên cứu lĩnh vực khoa học liệu nói chung học máy nói riêng tƣơng lai Bình Dƣơng Quá trình thực luận văn, tác giả trình bày cách tiếp cận, xác định mục tiêu toán, tìm hiểu cơng cụ, phƣơng pháp học máy ứng dụng k thuật học máy vào toán dựa vào liệu thực tế, cụ thể nhƣ Tác giả đƣợc kết thực nghiệm ban đầu, so sánh để đo lƣờng hiệu với phƣơng pháp khác Mặc d kết bƣớc đầu, nhiên điều mở triển vọng hƣớng tiếp cận, nghiên cứu tác giả khác ngành y tế Bình Dƣơng nói chung dự báo dịch bệnh, dự báo dịch bệnh sốt xuất huyết Bình Dƣơng nói riêng Hạn c ế luận v n : Mơ hình dự báo tiếp cận, phân tích, hiển thị kết dịch bệnh không gian huyện/thị, chƣa chi tiết đến cấp độ xã/phƣờng chƣa có đủ thời gian nghiên cứu, xử lý, phân tích, chuyển đổi số liệu từ cấp độ huyện/thị xuống xã/phƣờng Mơ hình dự báo chƣa giải thích đƣợc yếu tố liên quan đến b ng phát sốt xuất huyết chƣa đề cập đến việc hạn chế số ca mắc sốt xuất 43 huyết can thiệp hoạt động kiểm soát, giám sát ngành y tế (xịt muỗi, lăng quăng, yếu tố tuyên truyền, thông tin …) Dữ liệu thu thập phục vụ cho thực nghiệm ỏi nên tính tổng qt hố độ xác dự báo cần phải xem xét thêm Đồng thời tính thiên lệch nhãn liệu, việc phân bố liệu khơng cân ảnh hƣớng đến hiệu độ tin cậy mơ hình, cần có thêm nhiều thực nghiệm với nhiều mơ hình độ đo khác để kiểm chứng thêm Địn ƣớn p át triển : Để tăng độ tin cậy kết thực nghiệm trƣớc triển khai ứng dụng cơng tác dự báo dịch bệnh sốt xuất huyết, dự kiến tiếp tục thu thập thêm liệu, thử nghiệm thêm nhiều mơ hình kết hợp với hiệu chỉnh mơ hình, với việc xem xét liệu ca bệnh thời gian dài bổ sung thêm yếu tố chuyên môn khác nhƣ số liệu côn tr ng, số xét nghiệm, điều kiện sống huyện thị, địa bàn nghiên cứu 44 TÀI LIỆU THAM KHẢO [1] World Health Organization Dengue and severe dengue, http://www.who.int/mediacentre/factsheets/fs117/en [2] World Health Organization (2012) Global stratery for dengue prevention and control, 2012-2020 [3] Lê Thị Ngọc Anh, Hoàng Xuân Dậu, “Dự báo dịch tả dựa mơ hình học máy phân lớp”, Học viện Bƣu viễn thơng, 2016 [4] N.Rajathi, S.Kanagaraj, R.Brahmanambika and K.Manjubarkavi, “Early Detection of Dengue Using Machine Learning Algorithms” Kumaraguru College of Technology, Coimbatore-49, 2018 [5] Martin Gordon Mubangizi, Ernest MwebazeErnest Mwebaze, John A Quinn (2009) Computational Prediction of Cholera Outbreaks 5th International Conference on Computing and ICT Research (ICCIR'09), Uganda [6] Padet Siriyasatien,Atchara Phumee,Phatsavee Ongruk,Katechan Jampac haisri,Kraisak Kesorn, “Analysis of significant factors for dengue fever incidence prediction”, BMC Bioinformatics ,2016 [7] N K Kameswara Rao, Dr G P Saradhi Varma, Dr.M.Nagabhushana Rao, “Classification Rules Using Decision Tree for Dengue Disease”, International Journal of Research in Computer and Communication Technology, Vol 3, Issue 3, 2014 [8] L Breiman, “Random forests,” Mach Learn., vol 45, no , pp 5–32, 2001 [9] C M Bishop, Pattern recognition and machine learning Springer, 2006 [10] J Wang and S Liao, A generalized cholera model and epidemic- endemic analysis, Hournal of Biological Dynamics, p.568-589, 2012 [11] Nguyễn Hà Nam, Nguyễn Trí Thành, Hà Quang Thụy, Giáo Trình Khai Phá Dữ Liệu, Nhà xuất đại học quốc gia Hà Nội, 2013 [12] J Han, M Kamber, and Jian Pei Data Mining: Concepts and Techniques (3rd edition) Morgan Kaufmann, 2011 [13] Niên Giám thống kê tỉnh Bình Dƣơng “diện tích, dân số mật độ dân số” theo địa phƣơng năm 2011, 2012, 2013, 2014, 2015 [14] Trung tâm Y tế Dự phịng tỉnh Bình Dƣơng, báo cáo “Tình hình dịch bệnh Bình Dƣơng giai đoạn 2013 - 2017” [15] Cổng Thông tin điện tử tỉnh Bình Dƣơng, www.binhduong.gov.vn [16] Trần Văn Hạnh, “Mơ hình dự báo sớm dịch Sốt xuất huyết dựa vào yếu tố thời tiết Bình Dƣơng”, Trung tâm Y tế Bến Cát, 2017 45 [17] Nguyễn Văn Tuấn, Phân tích liệu với R – Hỏi đáp, nhà xuất Tổng hợp TPHCM, 2018 [18] Techtalk via Viblo (2018) 10 thuật tốn machine learning mà lập trình viên cần biết, https://techtalk.vn/10-thuat-toan-machine-learning-ma-lap-trinh-vien-canbiet.html, xem 08/10/2018 [19] Machine Learning (Dec 28, 2016) Bài 3: Linear Regression https://machinelearningcoban.com/2016/12/28/linearregression/, xem 08/10/2018 [20] Machine Learning (Jan 8, 2017) Bài 6: K-nearest neighbors, https://machinelearningcoban.com/2017/01/08/knn/, xem 08/10/2018 [21] Machine Learning (Jan 14, 2018) Bài 34: Decision Trees, https://machinelearningcoban.com/2018/01/14/id3/, xem 08/10/2018 [22] Leo Breiman, Jerome Friedman, Charles J Stone & R.A Olshen, Classification and Regression Trees – Taylor & Francis, 1984 [23] Breiman, L.: “Bagging predictors”, Machine Learning vol.24, 123–140, 1996 [24] Breiman, L.: “Arcing classifiers”, The Annals of Statistics vol.26(3):801-849, 1998 [25] Breiman, L.: “Random forests”, Machine Learning vol.45, 2001 46 PHỤ LỤC 47 ... dự báo dịch bệnh nói chung dự báo dịch bệnh sốt xuất huyết nói riêng Trình bày mơ hình dự báo dịch sốt xuất huyết Bình Dƣơng dựa k thuật học máy hồi quy, phân lớp Chƣơng 3: Xây dựng mơ hình dự. .. giới thiệu lớp mơ hình dự báo dịch bệnh có đề xuất xây dựng mơ hình dự báo dịch bệnh sốt xuất huyết Bình Dƣơng dựa vào học máy 2.1 Các n i n cứu li n quan đến dự áo dịc ện dựa tr n k p liệu Thời... báo dịch bệnh có đề xuất xây dựng mơ hình dự báo dịch bệnh sốt xuất huyết Bình Dƣơng dựa vào học máy 25 CHƢƠNG 3: XÂY DỰNG MƠ HÌNH DỰ BÁO, THỰC NGHIỆM Trong chƣơng này: Chúng tiến hành xây dựng