Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 75 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
75
Dung lượng
1,46 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC MỞ HÀ NỘI LUẬN VĂN THẠC SỸ CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN NGHIÊN CỨU MỘT SỐ PHƢƠNG PHÁP DỰ BÁO TRONG KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG DỰ BÁO DỊCH TẢ TẠI HÀ NỘI DƢƠNG QUỐC HUY HÀ NỘI - 2018 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC MỞ HÀ NỘI LUẬN VĂN THẠC SỸ NGHIÊN CỨU MỘT SỐ PHƢƠNG PHÁP DỰ BÁO TRONG KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG DỰ BÁO DỊCH TẢ TẠI HÀ NỘI DƢƠNG QUỐC HUY CHUYÊN NGÀNH : CÔNG NGHỆ THÔNG TIN MÃ SỐ: 60.48.02.018 TS LÊ VĂN PHÙNG HÀ NỘI – 2018 LỜI CAM ĐOAN Tôi cam đoan nội dung luận văn kết nghiên cứu thân Tất tham khảo từ nghiên cứu liên quan nêu rõ nguồn gốc cách rõ ràng danh mục tài liệu tham khảo đề cập phần sau luận văn Những đóng góp luận văn kết nghiên cứu tác giả công bố báo tác giả phần sau luận văn chưa công bố công trình khoa học khác Hà Nội, tháng 11 năm 2018 Tác giả luận văn Dƣơng Quốc Huy LỜI CẢM ƠN Tơi xin bày tỏ lòng biết ơn sâu sắc tới tập thể Giáo sư, Tiến sĩ, giảng viên khoa Công nghệ Thông tin Trường Đại học mở Hà Nội tận tình giảng dạy, truyền đạt kiến thức cho suốt thời gian học tập vừa qua Tơi xin bày tỏ lòng biết ơn đến TS Lê Văn Phùng người tận tình hướng dẫn, bảo chia sẻ tài liệu hữu ích để tơi hồn thành luận văn Xin chân thành cảm ơn lãnh đạo Trường Đại học mở Hà Nội tạo điều kiện giúp đỡ mặt suốt thời gian học tập trường thời gian thực luận văn Tơi xin bày tỏ lòng biết ơn sâu sắc đến gia đình, người thân, bạn bè, đồng nghiệp người ln động viên, khuyến khích giúp đỡ để tơi hồn thành tốt nội dung nghiên cứu Tôi xin chân thành cảm ơn ! Hà Nội, tháng 11 năm 2018 Tác giả luận văn Dƣơng Quốc Huy MỤC LỤC PHẦN MỞ ĐẦU 1 Tính cấp thiết đề tài Mục tiêu nghiên cứu Đối tượng phạm vi nghiên cứu Phương pháp nghiên cứu Kết cấu luận văn .3 CHƢƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ BÀI TOÁN DỰ BÁO 1.1 Tổng quan khai phá liệu .4 1.1.1 Các vấn đề chung khai phá liệu 1.1.2 Tổng quan phân loại dự đoán khai phá liệu 1.1.3 Tổng quan mơ hình dự báo dịch bệnh 1.1.4 Dự báo dịch bệnh với mô hình tốn học dịch tễ học Error! Bookmark not defined 1.1.5 Dự báo dịch bệnh dựa khai phá liệu 1.1.6 Tổng quan tả dịch tả 12 CHƢƠNG 2: CÁC PHƢƠNG PHÁP DỰ BÁO TRONG 17 KHAI PHÁ DỮ LIỆU .17 2.1 Các phương pháp dự đoán 17 2.1.1 Các mơ hình điển hình hồi quy 17 2.1.2 Kiểm thử hồi quy .17 2.2 Phương pháp phân lớp 18 2.2.1 Phân lớp kiểu Bayes 18 2.2.2 Phân lớp dựa quy tắc IF-THEN .20 2.2.3 Phân lớp luật kết hợp 20 2.2.4 Phân lớp theo thuật toán di truyền 22 2.2.5 Phân lớp theo cách tiếp cận tập thô .23 2.2.6 Phân lớp theo cách tiếp cận tập mờ 24 2.3 Một số mơ hình học máy điển hình dự báo .25 2.3.1 Hồi quy tuyến tính 26 2.3.2 K láng giềng .26 2.3.3 Cây định 27 2.3.4 Bagging .31 2.3.5 Rừng ngẫu nhiên 32 2.3.6 Máy học vector hỗ trợ 40 2.3.7 Naïve Bayes Error! Bookmark not defined CHƢƠNG 3: ỨNG DỤNG DỰ BÁO DỊCH TẢ TẠI HÀ NỘI .44 3.1 Bài toán dịch tả Hà Nội 44 3.2 Dữ liệu 45 3.3 Phương pháp thực 46 3.4 Cách đánh giá 47 3.5 Thực nghiệm kết 47 3.5.1 Kết thực nghiệm phân loại theo cách thứ 48 3.5.2 Kết thực nghiệm phân loại theo cách thứ hai .54 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 61 TÀI LIỆU THAM KHẢO 62 DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT Viết tắt Tiếng Anh Cơ sở liệu CSDL CART DM Tiếng Việt Classification and Regression Thuật toán phân loại hồi Trees quy Data Mining Khai phá liệu ENSO El Nino Southern Oscillation KDD Knowledge Discovery from Data Phát tri thức từ liệu kNN k Nearest Neighbors K láng giềng OOB Out-of-bag Dữ liệu túi ước tính SVM Support Vector Machines Máy học vector hỗ trợ Ramdom Forests Rừng ngẫu nhiên RF DANH SÁCH BẢNG Bảng 3.1 Mô tả đặc trưng thống kê 47 Bảng 3.2 Ảnh hưởng kích cỡ cửa sổ trượt tới hiệu hệ thống 48 Bảng 3.3 Độ ảnh hưởng biến số tới hiệu hệ thống 51 Bảng 3.4 Độ ảnh hưởng biến số ENSO tới hiệu hệ thống 52 Bảng 3.5 Ảnh hưởng yếu tố khí hậu tuần trước tới hiệu hệ thống 52 Bảng 3.6 Bảng ma trận lỗi phân lớp 53 Bảng 3.7 Bảng so sánh khả phân lớp phân lớp phổ biến 54 Bảng 3.8 Ảnh hưởng kích cỡ cửa sổ trượt tới hiệu hệ thống 55 Bảng 3.9 Độ ảnh hưởng biến số tới hiệu hệ thống 57 Bảng 3.10 Độ ảnh hưởng biến số ENSO tới hiệu hệ thống 57 Bảng 3.11 Ảnh hưởng yếu tố khí hậu tuần trước tới hiệu hệ thống58 Bảng 3.12 Bảng ma trận lỗi phân lớp 59 Bảng 3.13 Bảng so sánh khả phân lớp phân lớp phổ biến 60 DANH SÁCH HÌNH Hình 1.1: Các lĩnh vực liên quan đến DM KDD Hình 1.2: Q trình chuyển đổi tỷ lệ dương tính .8 Hình 1.3: Kiến trúc hệ thống BioCaster 10 Hình 1.4: Mơ hình phân cấp lan truyền dịch tả mơi trường 13 Hình 2.1: Hồi quy tuyến tính 26 Hình 2.2: Giải thuật kNN .27 Hình 2.3: Cây định học từ liệu cho phép dự báo cho Golf .28 Hình 2.4: Giải thuật Bagging định 31 Hình 2.5: Phương pháp phân lớp random forest 35 Hình 2.6: Giải thuật rừng ngẫu nhiên .39 Hình 2.7: Rừng ngẫu nhiên 40 Hình 2.8: Phân lớp tuyến tính với học máy vector hỗ trợ .41 Hình 2.9: Hồi quy với máy học vector hỗ trợ 42 Hình 3.1 Sơ đồ thực hệ thống dự báo dịch tả dựa phân loại tình trạng bệnh theo tháng 46 Hình 3.2 Ảnh hưởng kích cỡ khung cửa sổ trượt tới hiệu hệ thống 49 PHẦN MỞ ĐẦU Tính cấp thiết đề tài Dự báo y tế ứng dụng rộng rãi nhiều nước giới, thu hút ý nhà nghiên cứu, nhà quản lý, hoạch định sách, người cung cấp sử dụng dịch vụ y tế Dự báo hoạt động thường xun có tính tất yếu cá nhân tổ chức nhằm dự báo (dự đoán) thông tin chưa biết sở thông tin biết Trong lĩnh vực y tế chăm sóc sức khỏe chứa đựng lớp rộng lớn toán dự báo với phạm vi dự báo nhiều cấp độ từ tỉnh, quốc gia, giới Chính dự báo dịch bệnh ln nhận quan tâm cộng đồng nghiên cứu Nhằm góp phần ngăn chặn dịch bệnh phát triển, có nhiều nghiên cứu liên quan, dự báo sớm biện pháp góp phần đáng kể Kết từ nghiên cứu dự báo dịch bệch chứng cho việc lập kế hoạch quản lý hoạt động chăm sóc sức khỏe Chính dự báo coi công cụ cho nhà quản lý Cùng với phát triển nhanh chóng khoa học công nghệ, nhiều phương pháp kỹ thuật sử dụng cho dự báo Trong đó, mơ hình dự báo phương pháp học máy kỹ thuật tiên tiến có xu hướng áp dụng rộng rãi Trong bối cảnh thực nghiên cứu với hạn chế thời gian nguồn lực, sử dụng mơ hình học máy dự báo dịch bệnh phương pháp thích hợp, giải tính phức tạp khơng chắn kết phân tích tạo sở cho định Ở Việt Nam, ứng dụng học máy dự báo lĩnh vực non trẻ Số lượng chuyên gia lĩnh vực nghiên cứu ứng dụng phương pháp dự báo dịch bệnh y tế hạn chế nhu cầu cần chứng xây dựng chương trình, sách y tế ngày gia tăng Ngày nay, bệnh truyền nhiễm khơng giữ vai trò "độc tơn" có xu hướng giảm cộng đồng, tác động nhiều yếu tố khí hậu, mơi trường ý thức người, nhiều bệch dịch truyền nhiễm toán trước đây, tái xuất với đó, nhiều bệch dịch lên, 50 3.5.1.2 Đánh giá ảnh hưởng tập đặc trưng tới hiệu hệ thống Để xem xét ảnh hưởng tập đặc trưng thống kê đến hiệu hệ thống, nghiên cứu tiến hành thực nghiệm với trường hợp: có sử dụng tập đặc trưng thống kê mean, variance, standard deviation, min, max; sử dụng giá trị thô ban đầu biến số khí hậu Đối với trường hợp không sử dụng đặc trưng thống kê mà sử dụng giá trị thô, thu giá trị F1 0.903, sử dụng đặc trưng thống kê nêu trên, giá trị F1 thu cao đến 0.979 Thêm vào nữa, sử dụng đặc trưng thống kê khiến độ dài vector đặc trưng ngắn (do tập có đặc trưng) giúp cho thời gian huấn luyện thời gian dự đoán phân loại nhanh Điều chứng minh tính hiệu tập đặc trưng thống kê sử dụng phương pháp đề xuất 3.5.1.3 Đánh giá độ ảnh hưởng biến số (loại trừ biến số ENSO) lên độ xác hệ thống Thực nghiệm đánh giá độ ảnh hưởng biến số (không kể biến số ENSO) thực cách loại biến số khỏi tập liệu ban đầu đánh giá thay đổi giá trị F1 so với tập đầy đủ biến số (là 0.979, xem bảng 3.2) Nghiên cứu thử loại bỏ biến số, bao gồm nhiệt độ trung bình, nhiệt độ cao nhất, nhiệt độ thấp nhất, tổng lượng mưa, độ ẩm trung bình, độ ẩm cao nhất, độ ẩm thấp ngày, trung bình số nắng ngày tốc độ gió có kết bảng 3.3: 50 51 Bảng 3.3: Độ ảnh hƣởng biến số tới hiệu hệ thống Biến số bị loại trừ F1 Không loại biến số 0.979 Nhiệt độ trung bình 0.976 Nhiệt độ cao 0.979 Nhiệt độ thấp 0.978 Tổng lượng mưa 0.977 Độ ẩm trung bình 0.977 Độ ẩm cao 0.978 Độ ẩm thấp 0.980 Trung bình số nắng 0.976 Tốc độ gió 0.976 Nhiệt độ trung bình, nhiệt độ cao nhất, nhiệt độ thấp 0.976 Độ ẩm trung bình, độ ẩm cao nhất, độ ẩm thấp 0.978 Nhìn bảng 3.3 ta thấy giá trị F1 thấp 0.976 loại bỏ biến số đơn lẻ nhiệt độ trung bình, trung bình số nắng, tốc độ gió, lúc loại bỏ biến số nhiệt độ Giá trị F1 cao 0.980 loại biến số độ ẩm thấp Giá trị F1 cao giữ nguyên tất biến số Nguyên nhân biến số độ ẩm khơng quan hệ tới số ca bệnh mà gây nhiễu sử dụng Do đó, thử nghiệm ta loại bỏ biến số khỏi liệu Nói chung, biến số độ ẩm tác động tới hiệu hệ thống Các biến số quan trọng nhiệt độ trung bình, trung bình số nắng, tốc độ gió tổng lượng mưa, có tác động nhiều tới hiệu hệ thống 3.5.1.4 Kết thực nghiệm để xem xét mức độ ảnh hưởng biến số ENSO lên độ xác hệ thống Thực nghiệm đánh giá độ ảnh hưởng biến số ENSO thực cách loại biến số khỏi tập liệu ban đầu đánh giá thay đổi giá trị F1 so với tập đầy đủ biến số (không loại bỏ biến số nào, bao gồm: nhiệt độ 51 52 trung bình, nhiệt độ cao nhất, nhiệt độ thấp nhất, tổng lượng mưa, độ ẩm trung bình, độ ẩm cao nhất, độ ẩm thấp nhất, trung bình số nắng, tốc độ gió, ENSO) Kết sau: Bảng 3.4: Độ ảnh hƣởng biến số ENSO tới hiệu hệ thống Biến số bị loại trừ F1 Không loại biến số (giữ lại toàn 0.979 biến số, bao gồm ENSO) ENSO 0.974 Từ bảng 3.4 cho thấy, với việc giữ lại toàn biến số việc loại bỏ biến số ENSO, hiệu hệ thống thể theo F1 thay đổi không nhiều, với giá trị tương ứng 0.979 0.974 Tuy nhiên, so với biến số khác bảng 3.3 ENSO có tác động nhiều tới hiệu hệ thống Như thấy rằng, khu vực Hà Nội, với liệu thu thập được, biến số biến đổi khí hậu ENSO có ảnh hưởng tương đối đến hiệu mơ hình dự báo dịch bệnh tả 3.5.1.5 Thử nghiệm với mơ hình biến số khí hậu mơ hình sử dụng biến số khí hậu có độ trễ Các nghiên cứu trước cho thấy có tương quan yếu tố khí hậu tuần, tháng trước với tỷ lệ mắc tả Để khảo sát ảnh hưởng yếu tố thời tiết khứ tới khả mắc bệnh tả, tiến hành thử nghiệm với mơ hình biến số khí hậu khác Từ đánh giá ảnh hưởng yếu tố thời tiết tới khả gây dịch tả sau nhiều tuần khác Các tham số sử dụng thực nghiệm giữ giống thử nghiệm trước, nhiên biến số độ ẩm trung bình bị loại bỏ gây nhiễu cho hệ thống Kết thể thông qua giá trị F1 bảng 3.5 Bảng 3.5: Ảnh hƣởng yếu tố khí hậu tuần trƣớc tới hiệu hệ thống Trễ (tuần) F1 10 12 0.979 0.980 0.978 0.981 0.979 0.980 0.976 52 53 Bảng 3.5 sử dụng độ trễ thời gian tuần F1 có giá trị lớn 0.981 Khi sử dụng độ trễ 12 tuần F1 có giá trị nhỏ 0.976 Điều thể yếu tố thời tiết khứ có ảnh hưởng nhiều đến tỷ lệ mắc bệnh tả thành phố Hà Nội Trong đó, yếu thời tiết từ tuần trước ảnh hưởng nhiều nhất, sau yếu tố thời tiết từ tuần trước Phân tích với ma trận lỗi phân lớp (Confusion Matrix): Như vậy, lúc này, mơ hình tốt (với giá trị phân lớp a = 0; < a 1.85) xây dựng với tham số: độ dài cửa sổ trượt 14 ngày, với độ chồng lấn 13; đặc trưng thống kê sử dụng để tách thơng tin hữu ích yếu tố thời tiết, khí hậu (loại trừ biến số độ ẩm trung bình); sử dụng yếu tố thời tiết tuần trước đó; phân loại Random Forest [36] Mơ hình đánh giá sử dụng lần kiểm tra chéo có giá trị F1 0.981 Ma trận lỗi phân lớp kết sau: Bảng 3.6: Bảng ma trận lỗi phân lớp A B C Được phân lớp thành 1021 A = Khơng có dịch tả 11 336 B = Có dịch tả thấp 51 C = Có dịch tả cao Bảng 3.6 cho thấy có trường hợp A bị nhận nhầm thành B (0,88%), 14 trường hợp B nhận nhầm thành A, C (4,17%), trường hợp C bị nhận nhầm thành B (7,84%) Tỷ lệ nhầm lẫn A tương đối thấp, B chấp nhận Ngược lại tỷ lệ nhầm lẫn C tương đối cao Nguyên nhân số liệu tương đối (như đề cập phần tập liệu thực nghiệm) dẫn tới chênh lệch lớn số mẫu lớp 3.5.1.6 Thử nghiệm với vài phân loại khác cho với mơ hình biến số khí hậu mơ hình sử dụng biến số khí hậu có độ trễ Trong thực nghiệm thực hiện, nghiên cứu sử dụng phân loại Random Forest [36] đạt kết giá trị hiệu tốt (F1 = 0.981 giá trị cao nhất) Để đưa mơ hình dự báo tối ưu cho bệnh tả Hà Nội, nghiên cứu tiến hành thêm số thực nghiệm với phân loại học máy 53 54 phổ biến khác, nhằm so sánh khả phân lớp chúng Kết thực nghiệm so sánh phân lớp trình bày bảng 3.7 Bảng 3.7: Bảng so sánh khả phân lớp phân lớp phổ biến Trễ (tuần) F1 10 12 Random Forest 0.979 0.980 0.978 0.981 0.979 0.980 0.976 J48 0.947 0.957 0.949 0.943 0.947 0.950 0.955 NaiveBayes 0.545 0.631 0.641 0.640 0.636 0.655 0.633 Random Tree 0.943 0.930 0.938 0.962 0.936 0.958 0.951 1-NN 0.979 0.978 0.978 0.976 0.976 0.981 0.974 Logistic 0.826 0.895 0.902 0.907 0.902 0.908 0.901 MultilayerPerceptron 0.961 0.968 0.964 0.960 0.975 0.975 0.975 (SVM)SMO 0.773 0.851 0.870 0.859 0.864 0.870 0.853 Bảng 3.7 cho thấy khả phân lớp tốt tất trường hợp Random Forest trường hợp trễ tuần, - NN trường hợp trễ 10 tuần, với giá trị F1=0.981 - NN phân lớp đơn giản, tốc độ nhanh không phụ thuộc vào tham số Rừng ngẫu nhiên hoạt động nhanh, xác, chống nhiễu tốt đặc biệt khó bị tình trạng “q vừa” (overfit) Như vậy, phương pháp chấp nhận xây dựng mơ hình dự báo 3.5.2 Kết thực nghiệm phân loại theo cách thứ hai (a = 0; < a 1) 3.5.2.1 Thử nghiệm để đánh giá ảnh hưởng kích cỡ cửa sổ trượt độ chồng lấn độ xác hệ thống Trong thử nghiệm này, kích cỡ cửa sổ trượt thử nghiệm với giá trị: 7, 14, 22, 30 (ngày); độ chồng lấn 50% Sử dụng kiểm tra chéo lần, liệu huấn luyện đầu vào dùng để tách đặc trưng, sau vector đặc trưng sử dụng để huấn luyện phân loại Random Forest Kết thu bảng 3.8 54 55 Bảng 3.8: Ảnh hƣởng kích cỡ cửa sổ trƣợt tới hiệu hệ thống Kích cỡ cửa sổ trƣợt Độ xác Độ bao phủ F1 ngày 0.730 0.785 0.736 14 ngày 0.747 0.796 0.751 22 ngày 0.709 0.754 0.714 30 ngày 0.626 0.684 0.628 Trong bảng 3.8, giá trị F1 = 0.751 cao nhất, với giá trị cửa sổ trượt tương ứng 14 ngày Luận văn sử dụng giá trị cửa sổ trượt để khảo sát các tham số khác thực nghiệm Để đánh giá ảnh hưởng độ chồng lấn frame liên tiếp với hiệu hệ thống, thực nghiệm với độ chồng lấn khác nhau, với độ dài khung cửa sổ trượt 14 ngày Các tham số cấu hình lại giữ ngun thực nghiệm trước Kết thể hình 3.3 0.95 0.9 F1 0.85 0.8 0.75 0.7 0.65 0.6 Overlap (Ngày) 10 11 12 13 Hình 3.3: Ảnh hƣởng kích cỡ khung cửa sổ trƣợt tới hiệu hệ thống Hình 3.3 thể mức ảnh hưởng độ chồng lấn tới hiệu hệ thống theo độ đo F1 Khi độ chồng lấn nhỏ 50% giá trị F1 có xu hướng tăng dần có số thời điểm giảm, độ chồng lấn tăng giá trị F1 tăng ổn định, đạt giá trị lớn gần ~93% với độ chồng lấn 13 ngày Các giá trị 55 56 kích cỡ khung cửa sổ trượt 14 độ chồng lấn 93% sử dụng làm tham số cho thực nghiệm sau 3.5.2.2 Đánh giá ảnh hưởng tập đặc trưng tới hiệu hệ thống Để xem xét ảnh hưởng tập đặc trưng thống kê đến hiệu hệ thống, tiến hành thực nghiệm với hai trường hợp: có sử dụng tập đặc trưng thống kê mean, variance, standard deviation, min, max; sử dụng giá trị thô ban đầu biến số khí hậu Đối với trường hợp không sử dụng đặc trưng thống kê mà sử dụng giá trị thô, thu giá trị F1 0.902, sử dụng đặc trưng thống kê nêu trên, giá trị F1 thu cao 0.973 Đồng thời, sử dụng đặc trưng thống kê độ dài vector đặc trưng ngắn (5 đặc trưng) giúp cho thời gian huấn luyện thời gian dự đoán phân loại nhanh hơn, làm tăng tính hiệu tập đặc trưng thống kê sử dụng phương pháp đề xuất 3.5.2.3 Đánh giá độ ảnh hưởng biến số (loại trừ biến số ENSO) lên độ xác hệ thống Thực nghiệm đánh giá độ ảnh hưởng biến số (không kể biến số ENSO), cách loại biến số khỏi tập liệu ban đầu đánh giá thay đổi giá trị F1 so với tập đầy đủ biến số Kết bảng 3.9 cho thấy, giá trị F1 thấp 0.966 loại bỏ lúc biến số nhiệt độ F1 thấp loại bỏ biến số đơn lẻ (trung bình số nắng) 0.969 Giá trị F1 cao 0.973 không loại bỏ biến số loại bỏ biến số nhiệt độ cao nhất, độ ẩm trung bình, độ ẩm thấp Như vậy, ta thấy nguyên nhân biến số khơng quan hệ tới dịch bệnh 56 57 Bảng 3.9: Độ ảnh hƣởng biến số tới hiệu hệ thống Biến số bị loại trừ F1 Không loại biến số 0.973 Nhiệt độ trung bình 0.970 Nhiệt độ cao 0.973 Nhiệt độ thấp 0.971 Tổng lượng mưa 0.972 Độ ẩm trung bình 0.973 Độ ẩm cao 0.971 Độ ẩm thấp 0.973 Trung bình số nắng 0.969 Tốc độ gió 0.972 Nhiệt độ trung bình, nhiệt độ cao nhất, nhiệt độ thấp 0.966 Độ ẩm trung bình, độ ẩm cao nhất, độ ẩm thấp 0.972 3.5.2.4 Kết thực nghiệm để xem xét mức độ ảnh hưởng biến số ENSO lên độ xác hệ thống Để đánh giá mức độ ảnh hướng biến số ENSO lên hệ thống, nghiên cứu thực cách loại biến số khỏi tập liệu ban đầu đánh giá thay đổi giá trị F1 so với tập đầy đủ biến số (không loại bỏ biến số nào, bao gồm: nhiệt độ trung bình, nhiệt độ cao nhất, nhiệt độ thấp nhất, tổng lượng mưa, độ ẩm trung bình, độ ẩm cao nhất, độ ẩm thấp nhất, trung bình số nắng, tốc độ gió) Kết bảng 3.10 Bảng 3.10: Độ ảnh hƣởng biến số ENSO tới hiệu hệ thống Biến số bị loại trừ Không loại biến số (giữ lại toàn biến số, bao gồm ENSO ENSO F1 0.973 0.972 57 58 Với giá trị F1 không chênh lệch lắm, 0.973 0.972, hai trường hợp không loại bỏ biến số loại bỏ biến số ENSO khu vực Hà Nội, thấy biến số biến đổi khí hậu ENSO ảnh hưởng không nhiều đến hiệu mơ hình dự báo dịch bệnh tả trường hợp 3.5.2.5 Thử nghiệm với mơ hình biến số khí hậu mơ hình sử dụng biến số khí hậu có độ trễ Từ nghiên cứu trước cho thấy có tương quan yếu tố khí hậu tuần, tháng trước với tỷ lệ mắc tả Để khảo sát ảnh hưởng yếu tố thời tiết, khí hậu khứ tới khả mắc bệnh tả, thực nghiệm với mô hình biến số khí hậu khác nhau, từ đánh giá ảnh hưởng yếu tố khí hậu, thời tiết tới khả gây dịch tả sau nhiều tuần khác Các tham số sử dụng thực nghiệm giữ giống thử nghiệm trước Kết thể thông qua giá trị F1 bảng 3.11 Bảng 3.11: Ảnh hƣởng yếu tố khí hậu tuần trƣớc tới hiệu hệ thống Trễ (tuần) 10 12 F1 0.973 0.973 0.974 0.978 0.979 0.979 0.976 Từ bảng 3.11 cho thấy sử dụng độ trễ thời gian tuần 10 tuần F1 có giá trị lớn 0.979 Khi không sử dụng độ trễ sử dụng độ trễ tuần F1 có giá trị nhỏ 0.973 Như vậy, yếu tố khí hậu, thời tiết q khứ có ảnh hưởng đến tỷ lệ mắc bệnh tả thành phố Hà Nội, yếu thời tiết từ tuần 10 tuần trước ảnh hưởng nhiều Phân tích với ma trận lỗi phân lớp (Confusion Matrix): Cho tới thời điểm này, mơ hình tốt (với giá trị phân lớp a = 0; < a 1) xây dựng với tham số: độ dài cửa sổ trượt 14 ngày, với độ chồng lấn 13; đặc trưng thống kê sử dụng để tách thơng tin hữu ích yếu tố thời tiết, khí hậu; sử dụng yếu tố thời tiết tuần trước đó; phân loại Random Forest [36] Mơ hình đánh giá sử dụng lần kiểm tra chéo có giá trị F1 0.979 Ma trận lỗi phân lớp kết sau: 58 59 Bảng 3.12: Bảng ma trận lỗi phân lớp A B C Được phân lớp thành 1020 10 A = Khơng có dịch tả 11 317 B = Có dịch tả thấp 69 C = Có dịch tả cao Theo thống kê từ bảng 3.12: có 10 trường hợp A bị nhận nhầm thành B (0,97%), 13 trường hợp B nhận nhầm thành A, C (3,94%), trường hợp C bị nhận nhầm thành B (8%) Tỷ lệ nhầm lẫn A tương đối thấp, B chấp nhận được, C tương đối cao Nguyên nhân liệu tương đối dẫn tới chênh lệch lớn số mẫu lớp 3.5.2.6 Thử nghiệm với vài phân loại khác cho với mơ hình biến số khí hậu mơ hình sử dụng biến số khí hậu có độ trễ Trong thực nghiệm thực hiện,nghiên cứu sử dụng phân loại Random Forest [36] đạt kết giá trị hiệu tốt (F1 = 0,979 giá trị cao nhất) Để đưa mơ hình dự báo tối ưu cho bệnh tả Hà Nội, tiến hành thêm số thực nghiệm với phân loại học máy phổ biến khác, nhằm so sánh khả phân lớp chúng Kết thực nghiệm so sánh phân lớp trình bày bảng 3.13 59 60 Bảng 3.13: Bảng so sánh khả phân lớp phân lớp phổ biến Trễ (tuần) 10 12 Random Forest 0.973 0.973 0.974 0.978 0.979 0.979 0.976 J48 0.941 0.946 0.944 0.938 0.941 0.957 0.956 NaiveBayes 0.531 0.605 0.636 0.620 0.635 0.657 0.633 F1 Random Tree 0.937 0.945 0.935 0.939 0.942 0.947 0.946 1-NN 0.975 0.971 0.979 0.976 0.978 0.979 0.976 Logistic 0.819 0.899 0.901 0.901 0.903 0.899 0.899 MultilayerPerceptron 0.957 0.959 0.960 0.966 0.979 0.979 0.968 (SVM)SMO 0.771 0.835 0.868 0.851 0.856 0.868 0.850 Bảng 3.13 cho thấy khả phân lớp tốt tất trường hợp Random Forest trường hợp trễ tuần, 1-NN trường hợp trễ tuần, với giá trị F1=0.979 1-NN phân lớp đơn giản, tốc độ nhanh không phụ thuộc vào tham số Rừng ngẫu nhiên hoạt động nhanh, xác, chống nhiễu tốt đặc biệt khó bị tình trạng q vừa liệu (overfit) [36] Như vậy, phương pháp đánh giá tốt xây dựng mơ hình dự báo 60 61 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Nghiên cứu trình bày phương pháp sử dụng học máy thống kê để dự báo dịch tả Hà Nội dựa việc phân tích liệu ca bệnh nhiều năm liên tiếp mối liên hệ với yếu tố thời tiết, khí hậu Tác giả tiến hành thực nghiệm để xem xét ảnh hưởng tham số kích cỡ cửa sổ trượt, mức độ chồng lấn khung liệu liên tiếp nhau, loại đặc trưng thống kê, yếu tố thời tiết, khí hậu (kể ENSO) kết (được thực theo hai cách với khuyến nghị giá trị phân lớp a khác nhau, a = 0; < a 1.85 a = 0; < a 1) cho thấy tham số có ảnh hưởng hiệu hệ thống Các yếu tố thời tiết có ảnh hưởng quan trọng tới việc dự báo biến số nhiệt độ trung bình, trung bình số nắng; yếu tố khơng ảnh hưởng tới việc dự báo độ ẩm ENSO có ảnh hưởng quan trọng mơ hình dự báo Các kết yếu tố khí hậu q khứ có ảnh hưởng quan trọng tới mơ hình, 10 tuần (đối với trường hợp a = 0; < a 1.85), và 10 tuần (đối với trường hợp a = 0; < a 1) Với kết thực nghiệm thu được, hai phương pháp tối ưu đề xuất dự báo tỷ lệ mắc bệnh tả với độ xác lên tới khoảng 98% 1-NN Random Forest Tuy nhiên, để có mơ hình dự báo xác tỷ lệ mắc bệnh tả theo tiêu chuẩn quốc tế, cần huấn luyện mơ hình với liệu bệnh tả thời gian dài Về phương hướng phát triển tiếp theo, thử nghiệm thêm yếu tố khí hậu khác lượng bốc trung bình, tình trạng ngập lụt, độ nhiễm mơi trường, yếu tố dân số, dân trí mật độ dân số, điều kiện sống, yếu tố địa lý, sơng ngòi 61 62 TÀI LIỆU THAM KHẢO A Tài liệu tiếng Việt Lê Văn Phùng, Quách Xuân Trưởng (2017) Khai phá liệu, tái lần 1, Nhà Xuất thông tin truyền thông Trần Quang Đức, “Xu biến động số đặc trưng ENSO”, Tạp chí Khoa học ĐH Quốc gia Hà Nội, Khoa học tự nhiên Công nghệ 27, số 1S (2011), p.29-36, 2011 Thược, N.P., “Đặc điểm dịch tễ học số yếu tố nguy gây mắc bệnh tả Bắc Ninh Ứng dụng hệ thống thơng tin địa lý (GIS) kiểm sốt dự báo dịch tả địa bàn tỉnh” Báo cáo Đề tài KCBN-(17)11, 2012 Hoàng Xuân Huấn, Giáo trình Học Máy, NXB ĐHQG HN, 2015 B Tài liệu tiếng Anh A Gray, D.G., L Hu, X Mao, J Pan A Stochastic Differential Equation SIS Epidemic Model SIAM Journal of Applied Mathematics 2011 71(3): p 876902 Tiberiu Harko, F.S.N.L., M K Mak Exact analytical solutions of the Susceptible-Infected-Recovered (SIR) epidemic model and of the SIR model with equal death and birth rates Applied Mathematics and Computation, 2014 236: p 184-194 McCluskey, C.C., Global stability for an SIR epidemic model with delay and nonlinear incidence Nonlinear Analysis Real World Applications 2010 11 (2010): p 3106-3109 Tassier, T., The Economics of Epidemiology Springer Berlin Heidelberg., 2013 62 63 Righetto, L., Hydrological, Anthropogenic and Ecological Processes in Cholera Dynamic., in PhD Thesis,2013, École Polytechnique Fédérale De Lausanne 10 Nigel Collier, S.D., Ai Kawazoe, Reiko Matsuda Goodwin, Mike Conway, Yoshio Tateno, Quoc-Hung Ngo, Dinh Dien, Asanee Kawtrakul, Koichi Takeuchi, Mika Shigematsu, Kiyosu Taniguchi., BioCaster: detecting public health rumors with a Web-based text mining system Bioinformatics 2008 24(24): p 2940-2941 11 Chunara, R., Andrews, J.R., and Brownstein, J.S , Social and news media enable estimation of epidemiological patterns early in the 2010 Haitian cholera outbreak The American Journal of Tropical Medicine and Hygiene 2012 86(1): p 39–45 12 Prieto V.M., Matos S., Alvarez M cộng (2014) Twitter: a good place to detect health conditions PloS One, 9(1), e86191 13 José Carlos Santos, S.M., Analysing Twitter and web queries for flu trend prediction Theoretical Biology and Medical Modelling 2014, 2014 11(Suppl 1):S6 14 Xie Y., Chen Z., Cheng Y cộng (2013) Detecting and tracking disease outbreaks by mining social media data Dimensions (Wash), 17(16), 16–70 15 Ali M, L.A., You YA, et al., The global burden of cholera Bulletin of the World Health Organization., 2012 90(3): p 209-218A 16 Robert C Reiner, A.A.K., M Emch, M Yunus, A S G Faruque, and M Pascual Highly localized sensitivity to climate forcing drives endemic cholera in a megacity Proc Natl Acad Sci U S A, 2012 109: p 2033– 2036 17 XU Min , C.C., WANG DuoChun, KAN Biao, JIA HuiCong, XU YunFei & LI XiaoWen, District prediction of cholera risk in China based on environmental factors, Chinese Science Bulletin, August 2013, 2013 Vol.58 (23): p 2798 - 2804 63 64 18 Colwell, R.R., Global climate and infectious disease: the cholera paradigm Science, 1996 274(5295),pp 2025–31 19 Keya Chaudhuri, S.N.C., Cholera Toxins Springer., 2009 20 Lipp, E., Huq, A., Colwell, R, Effects of global climate on infectious disease: The cholera model ClinicalMicrobiology Reviews,, 2002 15 (4): p 757-770 21 Butler, C.D., Climate Change and Global Health CABI, 2014 22 Yujuan Yue, J.G., Duochun Wang, Biao Kan, Baisheng Li, Changwen Ke Influence of climate factors on Vibrio cholerae dynamics in the Pearl River estuary, South China World J Microbiol Biotechnol, , 2014: p DOI 10.1007/s11274-014-1604-5 23 Binh Minh Nguyen, J.H.L., Ngo Tuan Cuong, Seon Young Choi, Nguyen Tran Hien, Dang Duc Anh, Hye Ri Lee, M Ansaruzzaman, Hubert P Endtz, Jongsik Chun, Anna Lena Lopez, Cecil Czerkinsky, John D Clemens, and Dong Wook Kim Cholera outbreaks caused by an altered Vibrio cholerae O1 El Tor biotype strain producing classical cholera toxin B in Vietnam in 2007 to 2008 J Clin Microbiol 2009 47(5): p 1568–1571 24 Organization, W.H., Severe acute watery diarrhoea with cases positive for Vibrio cholerae, Viet Nam Weekly epidemiological record, 2008 No 18,(83): p 157–168 25 Organization., W.H., Severe acute watery diarrhoea with cases positive for Vibrio cholerae, Viet Nam Weekly epidemiological record, 2008 18(83) 26 Dang Duc Anh, A.L.L., Vu Dinh Thiem, Shannon L Grahek, Tran Nhu Duong, Jin Kyung Park, Hye Jung Kwon, Michael Favorov, Nguyen Tran Hien, John D Clemens Use of oral cholera vaccines in an outbreak in Vietnam: a case control study PLoS Negl Trop Dis 2011 5(1)(e1006.) 27 Michael Emch, C.F., Mohammad Yunus, Peter Kim Streatfield, Vu DinhThiem, Do Gia Canh, and Mohammad Ali Local Environmental 64 ...BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC MỞ HÀ NỘI LUẬN VĂN THẠC SỸ NGHIÊN CỨU MỘT SỐ PHƢƠNG PHÁP DỰ BÁO TRONG KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG DỰ BÁO DỊCH TẢ TẠI HÀ NỘI DƢƠNG QUỐC HUY CHUYÊN... phương pháp nghiên cứu thực tiễn: Phương pháp phân tích Phương pháp tổng hợp Phương pháp thống kê Phương pháp xử lý liệu Kết cấu luận văn Với đề tài Nghiên cứu số phƣơng pháp dự báo khai phá. .. liệu ứng dụng dự báo dịch tả Hà Nội Học viên dự kiến thực nội dung nghiên cứu theo kế hoạch sau: Chương 1: Tổng quan khai phá liệu toán dự báo Chương 2: Các phương pháp dự báo khai phá liệu