Việc nghiên cứu các phương pháp xây dựng mô hình dự báo mới có khả năng khắc phục các điểm yếu của các phương pháp dựa trên thống kê xác suất là cần thiết. Trong nghiên cứu này, chúng tôi xây dựng mô hình dự báo dịch tả dựa trên học máy, từ đó tiến hành thực nghiệm để đánh giá ảnh hưởng của các tham số, đồng thời lựa chọn thuật toán phân lớp tối ưu cho mô hình dự báo dịch tả ở thành phố Hà Nội. Mời các bạn cùng tham khảo!
HộiHội Thảo Quốc Gia 2015 Công CôngNghệ NghệThông Thông (ECIT 2015) Thảo Quốc Gia 2015vềvềĐiện ĐiệnTử, Tử,Truyền TruyềnThông Thông TinTin (ECIT 2015) Dự Báo Dịch Tả Dựa Trên Mơ Hình Học Máy Phân Lớp Lê Thị Ngọc Anh Hồng Xn Dậu Học Viện Cơng Nghệ Bưu Chính Viễn Thơng Email: lengocanh@hmu.edu.vn, dauhx@ptit.edu.vn dụng để phân tích giải nghĩa liệu Tuy nhiên, khác thống kê chỗ phương pháp học máy triển khai với toán tử logic (AND, OR, NOT), toán tử điều kiện (IF, THEN, ELSE), toán tử xác xuất, tối ưu hóa mơ hình liệu hay phân lớp Học máy dựa chủ yếu vào thống kê xác suất, hiệu cho phép suy luận định mà phương pháp thống kê khác không thực [11,12] Abstract—Dự báo bệnh dịch nói chung dự báo dịch tả nói riêng nội dung quan trọng cơng tác y tế dự phịng Trong việc xây dựng mơ hình dự báo bệnh dịch, phương pháp áp dụng nhiều dịch tễ học toán học dựa thống kê hồi quy đa biến phân tích mối tương quan Các phương pháp dựa thống kê xác suất cho kết tốt với giả định biến độc lập liệu mơ hình hóa cách tổ hợp tuyến tính biến Tuy nhiên, mối quan hệ biến phi tuyến tính biến có điều kiện phụ thuộc phương pháp dựa thống kê túy không phù hợp Do vậy, việc nghiên cứu phương pháp xây dựng mơ hình dự báo có khả khắc phục điểm yếu phương pháp dựa thống kê xác suất cần thiết Trong nghiên cứu này, chúng tơi xây dựng mơ hình dự báo dịch tả dựa học máy, từ tiến hành thực nghiệm để đánh giá ảnh hưởng tham số, đồng thời lựa chọn thuật toán phân lớp tối ưu cho mơ hình dự báo dịch tả thành phố Hà Nội tả Trong học máy, phân lớp liệu (classification) hướng nghiên cứu ứng dụng rộng rãi Phân lớp dự đoán giá trị nhãn xác định (categorical label) hay giá trị rời rạc (discrete value), có nghĩa phân lớp thao tác với đối tượng liệu mà có giá trị biết trước Trong đó, dự đốn lại xây dựng mơ hình với hàm nhận giá trị liên tục Không phải lúc phương pháp học máy đảm bảo thành công Cũng giống phương pháp khác, việc thấu hiểu vấn đề đánh giá giới hạn liệu quan trọng Trong nghiên cứu này, chúng tơi xây dựng mơ hình dự báo dịch tả dựa học máy, từ tiến hành thực nghiệm để đánh giá ảnh hưởng tham số mơ biến số khí hậu, đồng thời lựa chọn thuật toán phân lớp tối ưu cho mơ hình dự báo dịch tả thành phố Hà Nội Keywords- Học máy, phân lớp, dự báo dịch bệnh, dự báo dịch I GIỚI THIỆU Trong loại dịch bệnh, dịch tả bệnh dịch nguy hiểm có khả lây lan nhanh, ảnh hưởng lớn đến sức khỏe cộng đồng, chí cịn gây thiệt hại không nhỏ người Việc nghiên cứu dự báo sớm nguy xảy dịch tả, giúp cho công tác chuẩn bị phòng chống dịch hiệu quả, giảm thiểu thiệt hại dịch bùng phát cần thiết Đã có nhiều mơ hình dự báo tả công bố [14-20] Các phương pháp áp dụng nhiều dịch tễ học toán học dựa thống kê hồi quy đa biến phân tích mối tương quan Các phương pháp dựa thống kê xác suất cho kết tốt với giả định biến độc lập liệu mơ hình hóa cách tổ hợp tuyến tính biến Tuy nhiên, mối quan hệ biến phi tuyến tính biến có điều kiện phụ thuộc phương pháp dựa thống kê túy khơng cịn phù hợp Do vậy, việc nghiên cứu phương pháp xây dựng mơ hình dự báo có khả khắc phục điểm yếu phương pháp dựa thống kê xác suất cần thiết Trong năm gần đây, học máy lên phương pháp hiệu xây dựng mơ hình dự báo nhiều lĩnh vực, nhận dạng mẫu, xử lý ngơn ngữ, tiếng nói, tin sinh,… Trong học máy, loạt kỹ thuật thống kê, xác xuất, tối ưu hóa,… sử dụng cho phép máy tính “học” từ ví dụ khứ phát mơ hình từ tập liệu lớn phức tạp Học máy giống thống kê sử ISBN: 978-604-67-0635-9 Phần cịn lại báo bố cục sau: Phần trình bày việc lựa chọn thuật toán phân lớp cho thử nghiệm phương pháp đánh giá; Phần giới thiệu chi tiết mơ hình dự báo dịch tả đề xuất; Phần giới thiệu tập liệu sử dụng cho thử nghiệm, nội dung kết thử nghiệm; Phần phân tích kết thử nghiệm thu Phần Kết luận hướng phát triển II LỰA CHỌN THUẬT TOÁN VÀ ĐÁNH GIÁ ĐỘ CHÍNH XÁC PHÂN LỚP Lựa chọn thuật tốn phân lớp Trong thập niên gần đây, ứng dụng học máy nói chung phân lớp nói riêng có xu hướng lan rộng nhiều ngành khoa học để dự đốn số thơng tin liệu dựa đặc tính biết Có nhiều thuật toán phân lớp sử dụng rộng rãi cho ứng dụng nhận dạng mẫu với liệu đầu vào chuỗi thời gian, Cây định (Decision Tree), Rừng ngẫu nhiên (Random Forests, RF) [3], Mạng nơron, phương pháp Bayes [4], mơ hình Markov [4], k hàng xóm gần (k-nearest neighbor, k-NN) [11], hay Máy vector hỗ trợ (Support Vector Machines, SVM) [2, 6] Các 348 348 Hội Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) Hội Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) phố Hà Nội Chuỗi liệu đầu vào biến đổi thành đặc trưng trước áp dụng kỹ thuật học máy thống kê thuật toán phân lớp/phân cụm kể chứng minh hiệu việc phân lớp liệu nhiều ứng dụng lĩnh vực khác [4] Trong nghiên cứu này, trước hết áp dụng thuật toán Random Forests để huấn luyện xây dựng mơ hình dự báo dịch tả Hà Nội, sau sử dụng kết làm sở để so sánh với số thuật toán phân lớp học máy phổ biến khác nhằm tìm kiếm thuật tốn tối ưu cho tốn dự báo Mơ hình sử dụng thuật tốn lựa chọn sau dùng để dự báo tình trạng dịch tả với vector đặc trưng đầu vào Lựa chọn phương pháp đánh giá độ xác thuật tốn phân lớp Hình Các nước xử lý mơ hình dự báo Do liệu đầu vào chuỗi biến thiên liên tục theo thời gian, nên để xác định khoảng thời gian có khả xảy dịch hay bùng phát dịch, cần thực phân chia liệu thành đoạn liệu gọi frame, sử dụng khung cửa sổ trượt (sliding window) với kích cỡ w ngày Các frame tách rời, chồng lấn lên với khoảng cố định Trong thực nghiệm xây dựng mơ hình, chúng tơi sử dụng khung cửa sổ trượt với kích cỡ ngày, 14 ngày, 22 ngày 30 ngày Kích cỡ cửa sổ trượt lựa chọn dựa đặc điểm dịch tễ học bệnh tả phân bố liệu tả Trong dịch tễ học, để xác định mức độ bùng phát dịch, giá trị số ca bệnh trung bình tháng khu vực, tính 0.000 dân sử dụng Gọi giá trị a, trạng thái dịch tả chia thành nhóm: •Nhóm khơng có dịch tả, nhóm “0” a = 0; •Nhóm dịch tả thấp, nhóm “ ” < a ≤ 1; •Nhóm dịch tả cao, nhóm “2” a > Mơ hình sử dụng đặc trưng thống kê bao gồm mean, min, max, variance, standard deviation để tách đặc trưng chuỗi liệu đầu vào sau: Ước lượng độ xác phân lớp quan trọng cho phép dự đốn độ xác kết phân lớp liệu tương lai Độ xác cịn sở để so sánh mơ hình phân lớp khác Có hai phương pháp đánh giá độ xác phổ biến holdout k-fold crossvalidation [10, 14] Cả hai phương pháp dựa phân hoạch ngẫu nhiên tập liệu ban đầu Trong phương pháp holdout, liệu dưa phân chia ngẫu nhiên thành phần là: tập liệu huấn luyện tập liệu kiểm tra Thông thường, 2/3 liệu cấp cho tập liệu huấn luyện, phần lại cho tập liệu kiểm tra [14] Trong phương pháp k-fold cross validation, tập liệu ban đầu chia ngẫu nhiên thành k tập (fold) có kích thước xấp xỉ S1, S2, …, Sk Quá trình học kiểm tra thực k lần Tại lần lặp thứ i, Si tập liệu kiểm tra, tập cịn lại hợp thành tập liệu huấn luyện Có nghĩa là, việc huấn luyện thực tập S2, S3,…, Sk, sau kiểm tra tập S1; tiếp tục trình huấn luyện thực tập S1, S3, S4,…, Sk, sau kiểm tra tập S2; tiếp tục tập Sk sử dụng làm tập kiểm tra Độ xác tồn số phân lớp từ k lần lặp chia cho tổng số mẫu tập liệu ban đầu [10] Nghiên cứu lựa chọn sử dụng phương pháp k-fold cross validation để đánh giá độ xác thuật tốn phân lớp, với k = III ĐỀ XUẤT MÔ HÌNH DỰ BÁO DỊCH TẢ Mean: S N si , Si giá trị số i 1 N frame S.N độ dài S Standard deviation: S Var ( S ) N N s N i 1 s Variance: Min: giá trị nhỏ Si Max: giá trị lớn Si N i 1 i i S s 2 Mơ hình đề xuất sử dụng phân loại Rừng ngẫu nhiên đề xuất L Breiman A Cutler [5] với công cụ Weka phiên 3.7 [21] để phân loại đánh giá mức độ ảnh hưởng tham số mô hình, biến số khí hậu, thời tiết đến hiệu mơ hình Các độ đo: độ xác (Precision), độ bao phủ (Recall) độ đo F lấy trung bình lớp, áp dụng theo phương pháp kiểm tra chéo lần (4-folds crossvalidation) Nghiên cứu đề xuất mơ hình phân lớp để dự đốn tỷ lệ bệnh tả khoảng thời gian định sẵn, sử dụng số liệu khí hậu, mơi trường dựa học máy thống kê rời rạc Mô hình đề xuất gồm bước xử lý mơ tả Hình Dữ liệu đầu vào sử dụng cho mơ hình dự báo chuỗi liệu theo thời gian, gồm chuỗi giá trị liên tục biến số (khí hậu, thời tiết, độ ẩm, số nắng …) khu vực thành 349 349 Thảo Quốc Gia 2015vềvềĐiện ĐiệnTử, Tử,Truyền TruyềnThông Thông TinTin (ECIT 2015) HộiHội Thảo Quốc Gia 2015 Công CôngNghệ NghệThông Thơng (ECIT 2015) IV Bảng 1: Ảnh hưởng kích cỡ cửa sổ trượt tới độ đo mô hình THỰC NGHIỆM VÀ KẾT QUẢ Trong phần này, chúng tơi thực thử nghiệm mơ hình với liệu liệu thời tiết, dân số cung cấp quan, gồm Viện nghiên cứu khí tượng thủy văn, Tổng cục dân số Viện khoa học môi trường Dữ liệu cụ thể bao gồm: số dân 29 quận huyện thành phố Hà Nội, từ năm 2007 đến năm 20 0; diện tích, mật độ dân số quận huyện Các thơng số thời tiết bao gồm: nhiệt độ trung bình, nhiệt độ cao nhất, nhiệt độ thấp nhất, tổng lượng mưa, độ ẩm trung bình, độ ẩm cao nhất, độ ẩm thấp ngày, trung bình số nắng ngày, tốc độ gió số biến đổi khí hậu SOI (ENSO) Về số liệu thống kê bệnh nhân tả cung cấp Trung tâm y tế dự phịng Hà Nội: năm 2007 có 79 ca, năm 2008 có 2057 ca, năm 2009 có 89 ca năm 2010 có 251 ca Với mục đích đánh giá ảnh hưởng tham số (kích cỡ cửa số trượt, độ chồng lấn cửa sổ, tham số khí hậu, trễ thời gian) lên mơ hình dự báo đề xuất tìm thuật tốn cho kết phân lớp xác cao nhất, chúng tơi tiến hành thực nghiệm sau: ( ) Đánh giá ảnh hưởng kích cỡ cửa sổ trượt, (2) Đánh giá ảnh hưởng độ chồng lấn frame, (3) Đánh giá ảnh hưởng tập đặc trưng, (4) Đánh giá ảnh hưởng biến số, (5) Đánh giá ảnh hưởng độ trễ thời gian (6) Thử nghiệm mơ hình dự báo với số thuật toán phân lớp Với thử nghiệm độ đo F tính tốn làm sở cho phân tích, so sánh Ảnh hưởng kích cỡ cửa sổ trượt Thực nghiệm thực với kích cỡ cửa sổ trượt khác (7, 14, 22 30 ngày) tham số độ chồng lấn 50% Ngoài ra, biến số khí hậu xem xét bao gồm: nhiệt độ trung bình, nhiệt độ cao nhất, nhiệt độ thấp nhất, tổng lượng mưa, độ ẩm trung bình, độ ẩm cao nhất, độ ẩm thấp nhất, trung bình số nắng ngày, tốc độ gió ENSO Dữ liệu tả đầu vào gán nhãn gồm loại: khơng có dịch, mức dịch tả thấp mức dịch tả cao, tương ứng với giá trị a = 0; < a ≤ 1; a > Sử dụng phương pháp kiểm tra chéo lần, liệu huấn luyện đầu vào dùng để tách đặc trưng, sau vector đặc trưng sử dụng để huấn luyện sử dụng phân loại Random Forests Kết thu cho Bảng Từ kết thử nghiệm cho Bảng ta thấy, với kích cỡ cửa sổ trượt 14 ngày, mơ hình cho kết độ đo tốt Trên sở này, lựa chọn cửa sổ trượt 14 ngày cho thử nghiệm Kích cỡ cửa sổ trượt Độ xác Độ bao phủ F1 ngày 0.730 0.785 0.736 14 ngày 0.747 0.796 0.751 22 ngày 0.709 0.754 0.714 30 ngày 0.626 0.684 0.628 Ảnh hưởng độ chồng lấn frame Để đánh giá ảnh hưởng độ chồng lấn frame với hiệu hệ thống, nghiên cứu thực thực nghiệm với độ chồng lấn khác nhau, với kích cỡ cửa sổ trượt ngày Độ chồng lấn hai frame liền từ đến 13 ngày/14 ngày Hình thể mức độ ảnh hưởng độ chồng lấn tới hiệu mơ hình theo độ đo F1 0.95 0.9 F1 0.85 0.8 0.75 0.7 0.65 0.6 Overlap (Ngày) 10 11 12 13 Hình Ảnh hưởng độ chồng lấn frame độ đo F1 Ảnh hưởng tập đặc trưng Tiến hành thực nghiệm với trường hợp: có sử dụng tập đặc trưng thống kê (mean, variance, standard deviation, min, max) sử dụng giá trị thơ ban đầu biến số khí hậu Đối với trường hợp không sử dụng đặc trưng thống kê mà sử dụng giá trị thô (số giá trị frame), thu giá trị độ đo F 0.902, sử dụng đặc trưng thống kê nêu trên, giá trị F thu cao 0.973 Ảnh hưởng biến số Để xác định mức độ ảnh hưởng biến số, loại dần biến số khỏi tập liệu ban đầu đánh giá thay đổi giá trị độ đo F so với tập đầy đủ biến số Kết thu cho Bảng Biến số bị loại trừ F1 Không loại biến số 0.973 Nhiệt độ trung bình 0.970 Nhiệt độ cao 0.973 Nhiệt độ thấp 0.971 Tổng lượng mưa 0.972 Độ ẩm trung bình 0.973 Độ ẩm cao 0.971 Độ ẩm thấp 0.973 Trung bình số nắng 0.969 Tốc độ gió 0.972 Nhiệt độ trung bình, nhiệt độ cao nhất, nhiệt độ thấp 0.966 Độ ẩm trung bình, độ ẩm cao nhất, độ ẩm thấp 0.972 ENSO 0.972 Bảng 2: Ảnh hưởng biến số đến độ đo F1 350 350 HộiHội Thảo Quốc Gia 2015 Công CôngNghệ NghệThông Thông (ECIT 2015) Thảo Quốc Gia 2015vềvềĐiện ĐiệnTử, Tử,Truyền TruyềnThông Thông TinTin (ECIT 2015) Khi sử dụng tập đặc trưng thống kê độ dài vector đặc trưng ngắn (gồm đặc trưng tương đương vector có độ dài 5) giúp cho thời gian huấn luyện thời gian dự đoán phân loại nhanh hơn, làm tăng tính hiệu tập đặc trưng thống kê thử nghiệm với mô hình đề xuất Giá trị độ đo F sử dụng tập đặc trưng thống kê cao đáng kể so với không sử dụng tập đặc trưng (0.973 so với 0.902) Các kết Bảng cho thấy biến số khí hậu có ảnh hưởng đáng kể đến độ đo F Giá trị F1 thấp 0,966 0,969 loại bỏ lúc biến số nhiệt độ biến trung bình số nắng Giá trị F1 cao 0,973 không loại bỏ biến Kết Bảng cho thấy sử dụng độ trễ thời gian tuần 10 tuần F1 có giá trị lớn 0.979 Khi khơng sử dụng độ trễ sử dụng độ trễ tuần F1 có giá trị nhỏ 0.973 Như vậy, yếu tố khí hậu, thời tiết khứ có ảnh hưởng đến tỷ lệ mắc bệnh tả thành phố Hà Nội, yếu thời tiết từ tuần 10 tuần trước ảnh hưởng nhiều Kết tương đồng với nghiên cứu thực Đông Phi, Tazania nghiên cứu thời gian bùng phát yếu tố khí hậu ảnh hưởng đến xuất bệnh tả [14-20] Kết Bảng cho thấy khả phân lớp tốt tất trường hợp thuật toán Random Forests trường hợp trễ tuần, 1-NN trường hợp trễ 10 tuần, với giá trị F1=0.981 1-NN phân lớp đơn giản, tốc độ nhanh không phụ thuộc vào tham số Ưu điểm thuật toán Random Forests so với thuật toán phân lớp khác tốc độ cao, độ xác cao, chống nhiễu tốt đặc biệt rơi vào tình trạng “quá vừa” (overfit) [7, 8, 9] Như vậy, thuật toán Random Forests 1-NN chấp nhận cho xây dựng mơ hình dự báo tả Hà Nội Thử nghiệm mơ hình với biến số khí hậu mơ hình với biến số khí hậu có độ trễ Để đánh giá khả xuất ca bệnh tả sau khoảng thời gian có tác động yếu tố thời tiết, khí hậu khứ, tiến hành thử nghiệm mơ hình với biến số khí hậu khác nhau, từ đánh giá ảnh hưởng yếu tố khí hậu, thời tiết tới khả gây dịch tả sau khoảng thời gian tính theo tuần Kết thử nghiệm cho Bảng Trễ (tuần) 10 F1 0.973 0.973 0.974 0.978 0.979 0.979 12 0.976 Bảng 3: Ảnh hưởng yếu tố khí hậu tuần trước tới độ đo F1 Thử nghiệm với số phân loại khác với mơ hình biến số khí hậu có độ trễ Trong thực nghiệm thực hiện, sử dụng phân loại Random Forest [3] đạt độ xác cao (giá trị cao F1 = 0.979 cho Bảng 3) Để có thêm lựa chọn mơ hình dự báo tối ưu cho bệnh tả Hà Nội, tiến hành bổ sung số thực nghiệm với phân loại học máy phổ biến khác, nhằm so sánh khả phân lớp chúng Kết thực nghiệm so sánh phân lớp trình bày Bảng Trễ (tuần) 10 12 0.979 0.980 0.978 0.981 0.979 0.980 0.976 J48 0.947 0.957 0.949 0.943 0.947 0.950 0.955 NaiveBayes 0.545 0.631 0.641 0.640 0.636 0.655 0.633 0.943 0.930 0.938 0.962 0.936 0.958 0.951 1-NN 0.979 0.978 0.978 0.976 0.976 0.981 0.974 Logistic 0.826 0.895 0.902 0.907 0.902 0.908 0.901 0.961 0.968 0.964 0.960 0.975 0.975 0.975 0.773 0.851 0.870 0.859 0.864 0.870 0.853 Random Forest F Random Tree Multilayer Perceptron (SVM) SMO VI KẾT LUẬN Nghiên cứu đề xuất mơ hình sử dụng học máy phân lớp thống kê để dự báo dịch tả Hà Nội dựa việc phân tích liệu ca bệnh nhiều năm liên tiếp mối liên hệ với yếu tố thời tiết, khí hậu Các thực nghiệm thực để xem xét ảnh hưởng tham số kích cỡ cửa sổ trượt, mức độ chồng lấn khung liệu liên tiếp nhau, loại đặc trưng thống kê, yếu tố thời tiết, khí hậu ENSO với kết giá trị phân lớp a = 0; < a Kết thu nhận cho thấy tham số có ảnh hưởng hiệu mơ hình Các yếu tố thời tiết có ảnh hưởng quan trọng tới việc dự báo biến số nhiệt độ trung bình, trung bình số nắng ENSO Ngược lại, yếu tố không ảnh hưởng tới kết dự báo độ ẩm Các kết thực nghiệm yếu tố khí hậu q khứ có ảnh hưởng quan trọng tới mơ hình thời điểm 4, 10 tuần Dựa kết thực nghiệm thu được, khẳng định hai thuật tốn tối ưu đề xuất để sử dụng cho mơ hình dự báo thực tế 1NN Random Forests, với độ xác dự báo tỷ lệ mắc bệnh tả đạt khoảng 98% Để tăng độ tin cậy kết thực nghiệm trước triển khai ứng dụng công tác dự báo bệnh dịch tả, nhóm Bảng Bảng so sánh khả phân lớp phân lớp phổ biến V BÀN LUẬN Phân lớp dự đoán hai dạng phân tích liệu nhằm trích rút mơ hình mô tả lớp liệu quan trọng hay dự đoán xu hướng liệu tương lai Các kết thử nghiệm nghiên cứu minh chứng cho phù hợp phương pháp phân lớp ứng dụng dự báo bệnh dịch lĩnh vực y tế Trong mơ hình dự đốn bệnh dịch tả dựa phương pháp phân lớp, thử nghiệm thực nhằm đánh giá độ xác mơ hình ảnh hưởng tham số Các kết Bảng Hình cho thấy kích cỡ cửa số trượt độ chồng lấn có ảnh hưởng đáng kể đến độ xác phân lớp Cửa sổ trượt dài ngày cho độ xác cao Khi độ chồng lấn nhỏ 50% giá trị F có xu hướng tăng dần, có số thời điểm giảm, độ chồng lấn tăng giá trị F tăng ổn định, đạt giá trị lớn gần 0.973 với độ chồng lấn 13 ngày 351 351 HộiHội Thảo Quốc Gia 2015 Công CôngNghệ NghệThông Thông (ECIT 2015) Thảo Quốc Gia 2015vềvềĐiện ĐiệnTử, Tử,Truyền TruyềnThông Thông TinTin (ECIT 2015) nghiên cứu dự kiến tiếp tục thử nghiệm mơ hình với liệu ca bệnh thời gian dài bổ sung thêm yếu tố khác, mơi trường, điều kiện sống dân trí khu vực nghiên cứu 13 Fred Brauer, Pouline Van de Driessche and Jianhoo Wu, Mathematical Epidemiology, Springer, 2008 14 J Wang and S Liao, A generalized cholera model and epidemic- endemic analysis, Hournal of Biological Dynamics, p.568-589, 2012 TÀI LIỆU THAM KHẢO 15 Y Yue, J Gong, D Way, B Kan, B Li and C Ke, Influence of Climate factors on Vibro cholera dynamics in the Pearl River estuary, South China, World J Microliol Biotechnol, 2014 X Wu (2008) “Top 10 algorithms in data mining,” Knowl Inf Syst., vol 14, no 1, pp 1–37, 2008 C J C Burges, “A tutorial on support vector machines for pattern recognition,” Data Min Knowl Discov., vol 2, no 2, pp 121–167, 1998 L Breiman, “Random forests,” Mach Learn., vol 45, no , pp 5–32, 2001 C M Bishop, Pattern recognition and machine learning Springer, 2006 N S Altman, “An introduction to kernel and nearest-neighbor nonparametric regression,” Am Stat., vol 46, no 3, pp 175– 185, 1992 C.-W Hsu, C.-C Chang, C.-J Lin, and others, “A practical guide to support vector classification.” 2003 L Breiman, J Friedman, C J Stone, and R A Olshen, Classification and regression trees CRC press, 1984 Caruana, R.; Niculescu-Mizil, A (2006) An empirical comparison of supervised learning algorithms Proc 23rd International Conference on Machine Learning Cite SeerX: 10.1.1.122.5901 Russell, Stuart; Norvig, Peter (2003) Artificial Intelligence: A Modern Approach (2nd ed.) Prentice Hall ISBN 9780137903955 10 J Gray, Data mining – Concepts and Techniques, Chapter – Classification and Prediction series, Morgan Kaufmann Publishers, August 2000 11 T Michell, Machine Learning, McGraw Hill, 1997 12 Duda RO, Hart PE, Stork DG (2001) Pattern classification (2nd edition) New York: Wiley 16 R.C Rainer, A King, M Emch, M Yunus, S.G Faruque and M Paucula, Highly localized sensitivity to climate forcing drives endemic cholera in a megacity, Proc.Nalt Âcd Sci U.S.S, 109,2033-2036, 2012 17 Z Mukandavire, S Liao, J Wang, H Gaff, D.L Smith, and J.G Morris, Estimating the reproductive numbers for the 2008– 2009 cholera outbreaks in Zimbabwe, Proc Natl Acad Sci 108 (2011), pp 8767–8772 18 R Reyburn, D R Kim, M Emch cộng (2011), "Climate variability and the outbreaks of cholera in Zanzibar, East Africa: a time series analysis", Am J Trop Med Hyg, 84(6), tr 862-9 19 Sara L M Trærup;Ramon A Ortiza;Anil Markandya (2011), "The Costs of Climate Change: A Study of Cholera in Tanzania", International Journal of Environmental Research and Public Health, 8, tr 4386-4405 20 Michael Emch et al (2008), "Seasonality of cholera from 1974 to 2005: a review of global patterns", International Journal of Health Geographics, 7(31) 21 Bộ công cụ học máy Weka, www.cs.waikato.ac.nz/ml/weka/, University of Waikato, truy nhập tháng 8.2015 352 352 ... pháp phân lớp ứng dụng dự báo bệnh dịch lĩnh vực y tế Trong mơ hình dự đốn bệnh dịch tả dựa phương pháp phân lớp, thử nghiệm thực nhằm đánh giá độ xác mơ hình ảnh hưởng tham số Các kết Bảng Hình. .. huấn luyện xây dựng mơ hình dự báo dịch tả Hà Nội, sau sử dụng kết làm sở để so sánh với số thuật toán phân lớp học máy phổ biến khác nhằm tìm kiếm thuật tốn tối ưu cho tốn dự báo Mơ hình sử dụng... tả, nhóm Bảng Bảng so sánh khả phân lớp phân lớp phổ biến V BÀN LUẬN Phân lớp dự đốn hai dạng phân tích liệu nhằm trích rút mơ hình mơ tả lớp liệu quan trọng hay dự đoán xu hướng liệu tương lai