Ứng dụng khai phá dữ liệu trong hỗ trợ chuẩn đoán bệnh đái tháo đường tuyp 2 (Luận văn thạc sĩ)Ứng dụng khai phá dữ liệu trong hỗ trợ chuẩn đoán bệnh đái tháo đường tuyp 2 (Luận văn thạc sĩ)Ứng dụng khai phá dữ liệu trong hỗ trợ chuẩn đoán bệnh đái tháo đường tuyp 2 (Luận văn thạc sĩ)Ứng dụng khai phá dữ liệu trong hỗ trợ chuẩn đoán bệnh đái tháo đường tuyp 2 (Luận văn thạc sĩ)Ứng dụng khai phá dữ liệu trong hỗ trợ chuẩn đoán bệnh đái tháo đường tuyp 2 (Luận văn thạc sĩ)Ứng dụng khai phá dữ liệu trong hỗ trợ chuẩn đoán bệnh đái tháo đường tuyp 2 (Luận văn thạc sĩ)Ứng dụng khai phá dữ liệu trong hỗ trợ chuẩn đoán bệnh đái tháo đường tuyp 2 (Luận văn thạc sĩ)Ứng dụng khai phá dữ liệu trong hỗ trợ chuẩn đoán bệnh đái tháo đường tuyp 2 (Luận văn thạc sĩ)Ứng dụng khai phá dữ liệu trong hỗ trợ chuẩn đoán bệnh đái tháo đường tuyp 2 (Luận văn thạc sĩ)Ứng dụng khai phá dữ liệu trong hỗ trợ chuẩn đoán bệnh đái tháo đường tuyp 2 (Luận văn thạc sĩ)Ứng dụng khai phá dữ liệu trong hỗ trợ chuẩn đoán bệnh đái tháo đường tuyp 2 (Luận văn thạc sĩ)Ứng dụng khai phá dữ liệu trong hỗ trợ chuẩn đoán bệnh đái tháo đường tuyp 2 (Luận văn thạc sĩ)Ứng dụng khai phá dữ liệu trong hỗ trợ chuẩn đoán bệnh đái tháo đường tuyp 2 (Luận văn thạc sĩ)Ứng dụng khai phá dữ liệu trong hỗ trợ chuẩn đoán bệnh đái tháo đường tuyp 2 (Luận văn thạc sĩ)
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - Hoàng Văn Thắng ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRONG HỖ TRỢ CHẨN ĐOÁN BỆNH ĐÁI THÁO ĐƯỜNG TUÝP LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) HÀ NỘI – 2020 HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THÔNG - Hoàng Văn Thắng ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRONG HỖ TRỢ CHẨN ĐOÁN BỆNH ĐÁI THÁO ĐƯỜNG TUÝP CHUYÊN NGÀNH : HỆ THỐNG THÔNG TIN MÃ SỐ: 8.48.01.04 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC TS ĐỖ THỊ BÍCH NGỌC HÀ NỘI - 2020 i LỜI CAM ĐOAN Tôi cam đoan rằng luận văn này: “Ứng dụng khai phá liệu hỗ trợ chẩn đoán bệnh đái tháo đường tuýp 2” là bài nghiên cứu của chính Ngoại trừ những tài liệu tham khảo được trích dẫn luận văn này, cam đoan rằng toàn phần hay những phần nhỏ của luận văn này chưa từng được công bố hay được sử dụng để nhận bằng cấp ở những nơi khác Không có sản phẩm/nghiên cứu nào của người khác được sử dụng luận văn này mà không được trích dẫn theo đúng quy định Luận văn này chưa bao giờ được nộp để nhận bất kỳ bằng cấp nào tại các trường Đại học hoặc sở đào tạo khác Hà Nội, ngày tháng 12 năm 2019 Tác giả luận văn Hoàng Văn Thắng ii LỜI CẢM ƠN Trước hết, xin được tỏ lòng biết ơn và gửi lời cám ơn chân thành đến TS Đỗ Thị Bích Ngọc người trực tiếp hướng dẫn luận văn, tận tình bảo và hướng dẫn tơi tìm hướng nghiên cứu, tiếp cận thực tế, tìm kiếm tài liệu, xử lý và phân tích số liệu, giải vấn đề nhờ đó có thể hoàn thành luận văn cao học của Ngoài ra, quá trình học tập, nghiên cứu và thực hiện đề tài tơi nhận được nhiều quan tâm, góp ý, hỡ trợ q báu của quý thầy cô, đồng nghiệp, bạn bè và người thân Tơi xin bày tỏ lòng biết ơn sâu sắc đến: Ban giám hiệu, Ban lãnh đạo Khoa Sau đại học, Ban lãnh đạo Khoa Công nghệ thông tin cùng các quý thầy cô – Học viện Công nghệ Bưu chính Viễn thông tạo điều kiện giúp hoàn thành Luận văn này Ban giám đốc Học viện Y Dược học cổ truyền Việt Nam, Ban giám đốc Bệnh viện Tuệ Tĩnh đội ngũ cán bộ, y bác sĩ, sinh viên và các bệnh nhân tại Bệnh viện Tuệ Tĩnh rất nhiệt tình tham gia trả lời phỏng vấn nghiên cứu cho đề tài Cuối cùng, chân thành cảm ơn Cha mẹ và những người thân gia đình hỡ trợ, tạo điều kiện tḥn lợi cho suốt thời gian qua và đặc biệt thời gian theo học khóa thạc sỹ tại Học viện Công nghệ Bưu chính Viễn thông iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT v DANH SÁCH BẢNG vi DANH SÁCH HÌNH VẼ viii MỞ ĐẦU 1 Lý chọn đề tài Tổng quan vấn đề nghiên cứu Mục đích nghiên cứu Đối tượng phạm vi nghiên cứu Phương pháp nghiên cứu CHƯƠNG 1: BÀI TOÁN HỖ TRỢ CHẨN ĐOÁN BỆNH ĐÁI THÁO ĐƯỜNG 1.1 1.2 1.3 Bệnh đái tháo đường ? 1.1.1 Các loại bệnh đái tháo đường 1.1.2 Tiêu chuẩn chẩn đoán bệnh Đái tháo đường .5 Khai phá dữ liệu hỗ trợ chẩn đoán bệnh đái tháo đường 1.2.1 Học máy và khám phá tri thức 1.2.2 Học có giám sát 1.2.3 Học không có giám sát 1.2.4 Học giám sát một phần 10 1.2.5 Học tăng cường 11 Bài tốn hỡ trợ chẩn đoán bệnh đái tháo đường 11 Kết luận chương 12 iv CHƯƠNG 2: KHẢO SÁT MỘT SỐ THUẬT TOÁN CHO HỖ TRỢ CHẨN ĐOÁN BỆNH ĐÁI THÁO ĐƯỜNG TUÝP 13 2.1 Giới thiệu chung 13 2.2 Khảo sát mô hình Decision tree 14 2.3 Khảo sát thuật toán C4.5 16 2.4 Khảo sát thuật toán SVM 19 2.5 Khảo sát tḥt tốn Nạve Bayes 22 Kết luận chương 25 CHƯƠNG 3: CÀI ĐẶT VÀ THỬ NGHIỆM 26 3.1 Khảo sát lựa chọn bộ dữ liệu để thử nghiệm 26 3.2 Tiền xử lý dữ liệu 26 3.3 Thử nghiệm và đánh giá kết quả 29 3.4 3.3.1 Đánh giá thuật toán C4.5 30 3.3.2 Đánh giá thuật toán SVM 35 3.3.3 Đánh giá thuật toán Naïve Bayes 39 Đánh giá hiệu suất thuật toán được áp dụng 43 Kết luận chương 47 Kết luận 48 Tài liệu tham khảo 49 v DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT Viết tắt Tiếng Anh Đái tháo đường tự miễn tiềm tàng ở người trưởng thành LADA FPG OGTT Tiếng Việt Fasting Plasma Glucose Lượng đường Glucose lúc đói Oral Glucose Tolerance Test Lượng đường Glucose sau nạp đường HbA1c Glycated Hemoglobin DNA Axit đêôxyribônuclêic Chuỗi ADN Robot Locomotion Cử động robot Supervised Learning Học có giám sát Agent Hành động Classification Phân chia dữ liệu Input Đầu vào Output Đầu Maximum Margin Classifiers Phân loại tối đa khoảng cách NBC Naive Bayes Classification Training data SMO Sequential Minimal Optimization SVM Support Vector Machines Class CSDL Dữ liệu huấn luyện Lớp Cơ sở dữ liệu vi DANH SÁCH BẢNG Bảng 1: Bảng thuộc tính và gán nhãn giá trị .26 Bảng 2: Tập dữ liệu khách hàng mua máy tính 18 Bảng 3: Dữ liệu có dạng văn bản tập huấn luyện 23 Bảng 4: Bộ dữ liệu được sử dụng để thử nghiệm .26 Bảng 5: Bảng thống kê số lượng mẫu bị khuyết của các đặc trưng 27 Bảng 6: Kết quả thuật toán phân lớp J48 31 Bảng 7: Kết quả khác của thuật toán phân lớp J48 32 Bảng 8: Ma trận hỗn loại thuật toán phân lớp J48 32 Bảng 9: Kết quả sau chạy kiểm thử phân lớp n lần với thuật toán J48 .30 Bảng 10: Kết quả thuật toán phân lớp J48 (90:10) 33 Bảng 11: Kết quả khác của thuật toán phân lớp J48 (90:10) 34 Bảng 12: Ma trận hỗn loại thuật toán phân lớp J48 (90:10) .34 Bảng 13: Kết quả sau chạy kiểm thử phân lớp n lần với thuật toán J48 (90:10) 33 Bảng 14: Kết quả thuật toán phân lớp SMO .36 Bảng 15: Kết quả khác của thuật toán phân lớp SMO 36 Bảng 16: Ma trận hỗn loại thuật toán phân lớp SMO .37 Bảng 17: Kết quả sau chạy kiểm thử phân lớp n lần với thuật toán SMO 35 Bảng 18: Kết quả thuật toán phân lớp SMO (90:10) 38 Bảng 19: Kết quả khác của thuật toán phân lớp SMO (90:10) 38 Bảng 20: Ma trận hỗn loại thuật toán phân lớp SMO (90:10) 39 Bảng 21: Kết quả sau chạy kiểm thử phân lớp n lần với thuật toán SMO (90:10) 37 Bảng 22: Kết quả thuật toán phân lớp Naïve Bayes 40 Bảng 23: Kết quả khác của thuật toán phân lớp Naïve Bayes 41 Bảng 24: Ma trận hỡn loại tḥt toán phân lớp Nạve Bayes 41 vii Bảng 25: Kết quả sau chạy kiểm thử phân lớp n lần với thuật toán Naïve Bayes 39 Bảng 26: Kết quả thuật toán phân lớp Naïve Bayes (90:10) 41 Bảng 27: Kết quả khác của thuật toán phân lớp Naïve Bayes (90:10) .43 Bảng 28: Ma trận hỗn loại thuật toán phân lớp Naïve Bayes (90:10) 43 Bảng 29: Kết quả sau chạy kiểm thử phân lớp n lần với thuật toán Naïve Bayes (90:10) .42 viii DANH SÁCH HÌNH VẼ Hình 1: Biểu đồ Entropy 14 Hình 2: Ví dụ việc định dựa các câu hỏi 16 Hình 3: Biểu đồ phân lớp dữ liệu .21 Hình 4: Siêu phẳng tối đa cho SVM được huấn luyện với các mẫu từ hai lớp 22 Hình 5: Các bước trainning và test sử dụng dụng Multinomial Naive Bayes 24 Hình 6: Giao diện công cụ Weka .28 Hình 7: Dữ liệu sau tinh chỉnh 29 Hình 8: Lớp thuộc tính phân lớp (class) 29 Hình 9: Cây định được sinh bằng thuật toán J48 45 38 Với lần chạy thứ 2: Trong đó tỷ lệ dự đốn xác Dương tính với bệnh 13 mẫu, âm tính 52 mẫu Có tỷ lệ xác đạt 83,33% đới với bợ dữ liệu Tỷ lệ dự đốn khơng xác 13 mẫu với tỷ lệ 16,67% Với lần chạy thứ 7: Trong đó tỷ lệ dự đoán xác Dương tính với bệnh mẫu, âm tính 57 mẫu Có tỷ lệ xác đạt 83,33% đới với bợ dữ liệu Tỷ lệ dự đốn khơng xác 13 mẫu với tỷ lệ 16,67% Kết quả có hiệu suất tốt nhất các lần chạy tập dữ liệu: Bảng 18: Kết quả thuật toán phân lớp SMO (90:10) Số trường hợp tỷ lệ Trường hợp phân lớp chính xác 65 83.33 % Trường hợp phân lớp không chính xác 13 16.67 % Các kết quả khác của thuật toán phân lớp SMO: Bảng 19: Kết quả khác của thuật toán phân lớp SMO (90:10) Kappa statistic 0.5603 Mean absolute error 0.1667 Root mean squared error 0.4082 Total Number of Instances Ma trận hỗn loạn: 78 39 Bảng 20: Ma trận hỗn loại thuật toán phân lớp SMO (90:10) A – Dương tính B - Âm tính A - Dương tính 13(1) (2) B – Âm tính 10(3) 52(4) 3.3.3 Đánh giá thuật tốn Nạve Bayes 3.3.3.1 Phân loại đầu dựa tập h́n lụn toàn bợ Tḥt toán Nạve Bayes cho kết quả sau từ tập dữ liệu cho: Ở Bảng 21 là kết quả chạy với chế độ huấn luyện toàn bộ bộ dữ liệu training chia sau tiền xử lý dữ liệu Bảng 21: Kết quả sau chạy kiểm thử phân lớp n lần với thuật toán Naïve Bayes K = 10 Trường hợp phân lớp Trường hợp phân lớp khơng chính (n lần) xác (Số trường hợp) xác (Số trường hợp) 77.54 %(535) 22.46 %(155) 75.94 %(524) 24.06 %(166) 76.52 %(528) 23.48 %(162) 76.96 %(531) 23.04 %(159) 76.66 %(529) 23.34 %(161) 75.07 %(518) 24.93 %(172) 40 76.48 %(515) 23.32 %(162) 76.08 %(525) 23.92 %(165) 76.38 %(527) 23.62 %(163) 10 76.24 %(526) 23.76 %(164) Từ Bảng 21 ta có thể thấy được với lần chạy thứ cho tỷ lệ khơng xác thấp nhất lần chạy thứ tỷ lệ dự đốn xác tớt nhất với 690 trường hợp Với lần chạy đầu tiên: Trong đó tỷ lệ dự đốn xác Dương tính với bệnh 147 mẫu, âm tính 388 mẫu Có tỷ lệ xác đạt 77,54% đới với bợ dữ liệu Tỷ lệ dự đốn khơng xác 155 mẫu với tỷ lệ 22,46% Với lần chạy thứ 4: Trong đó tỷ lệ dự đốn xác Dương tính với bệnh 144 mẫu, âm tính 387 mẫu Có tỷ lệ xác đạt 76,96% đới với bợ dữ liệu Tỷ lệ dự đốn khơng xác 159 mẫu với tỷ lệ 23,04% Bảng 22: Kết quả thuật toán phân lớp Naïve Bayes Số trường hợp tỷ lệ % Trường hợp phân lớp chính xác 531 76.96 % Trường hợp phân lớp không chính xác 159 23.04 % Các kết quả khác của thuật toán phân lớp Naïve Bayes: 41 Bảng 23: Kết quả khác của thuật toán phân lớp Naïve Bayes Kappa statistic 0.4749 Mean absolute error 0.276 Root mean squared error 0.4144 Relative absolute error 61.04 % Root relative squared error 87.17 % Total Number of Instances 690 Ma trận hỗn loạn: Bảng 24: Ma trận hỗn loại thuật toán phân lớp Naïve Bayes A – Dương tính B - Âm tính A - Dương tính 144 94 B – Âm tính 65 387 3.3.3.2 Phân loại đầu dựa tập huấn luyện (90:10) Ở Bảng 25 kết quả chạy huấn luyện tập test 10% bộ dữ liệu training chia sau tiền xử lý dữ liệu 42 Bảng 25: Kết quả sau chạy kiểm thử phân lớp n lần với thuật toán Naïve Bayes (90:10) K = 10 Trường hợp phân lớp chính Trường hợp phân lớp không chính (n lần) xác (Số trường hợp) xác (Số trường hợp) 67.53 %(52) 32.47 %(25) 80.77 %(63) 19.23 %(15) 75.64 %(59) 24.36 %(19) 71.79 %(56) 28.21 %(22) 73.08 %(57) 26.92 %(21) 76.92 %(60) 23.08 %(18) 80.77 %(63) 19.23 %(15) 82.05 %(64) 17.95 %(14) 74.36 %(58) 25.64 %(20) 10 75.64 %(59) 24.36 %(19) Từ Bảng 25 ta có thể thấy được với lần chạy thứ tỷ lệ dự đốn xác tốt nhất với 78 trường hợp Với lần chạy thứ 8: Trong đó tỷ lệ dự đốn xác Dương tính với bệnh 45 mẫu, âm tính 19 mẫu Có tỷ lệ xác đạt 82,05% đới với bợ dữ liệu Tỷ lệ dự đốn khơng xác 14 mẫu với tỷ lệ 17,95% Kết quả có hiệu suất tốt nhất các lần chạy tập dữ liệu: 43 Bảng 26: Kết quả thuật toán phân lớp Naïve Bayes (90:10) Số trường hợp tỷ lệ Trường hợp phân lớp chính xác 64 82.05 % Trường hợp phân lớp không chính xác 14 17.95 % Các kết quả khác của thuật toán phân lớp Naïve Bayes : Bảng 27: Kết quả khác của thuật toán phân lớp Naïve Bayes (90:10) Kappa statistic 0.5965 Mean absolute error 0.229 Root mean squared error 0.3423 Total Number of Instances 78 Ma trận hỗn loạn: Bảng 28: Ma trận hỡn loại tḥt toán phân lớp Nạve Bayes (90:10) A – Dương tính B - Âm tính A - Dương tính 19(1) (2) B – Âm tính 6(3) 45(4) 3.4 Đánh giá hiệu suất thuật toán áp dụng Từ kết quả ở mục 3.3 ta thấy được tỷ lệ dự đốn tớt nhất để áp dụng vào cho tốn hệ hỡ trợ chẩn đốn bệnh Đái tháo đường tḥt tốn J48 cho kết quả với hiệu śt tớt nhất với đợ xác cao nhất tỷ lệ lỗi thấp nhất 44 Biểu đồ so sánh hiệu suất các thuật toán 100 90 80 70 60 50 40 30 20 10 J48 SVM Nạve Bayes Đợ chính xác (%) J48(90:10) SVM (90:10) Tỷ lệ lỗi (%) Xây dựng định dựa tḥt tốn J48 từ bợ dữ liệu: Nạve Bayes (90:10) Hình 9: Cây định được sinh bằng thuật toán J48 45 46 Các luật sinh ra: plas 123 47 | plas 165: tested_positive (77.0/9.0) Số lượng lá: 22 Kích thước của cây: 43 Kết luận chương Sau áp dụng tḥt tốn khai phá dữ liệu kết quả cho thấy thuật toán J48 cho kết quả khả quan nhất, có tỷ lệ xác cao nhất tḥt tốn, tỷ lệ lỡi cũng nhất Trong đó tḥt tốn Nạve Bayes cho kết quả có tỷ lệ dự đốn xác thấp nhất so với tḥt tốn lại 48 Kết luận Ḷn văn thực hiện được cơng việc tìm hiểu bệnh Đái tháo đường, hướng điều trị bệnh Đái tháo đường theo tiêu chuẩn của Bộ Y tế Học viên tìm hiểu học máy, đặc biệt tḥt tốn học có giám sát, áp dụng mợt sớ tḥt tốn học máy (Decision tree, C4.5, SVM, Nạve Bayes) vào tốn hỡ trợ chẩn đốn bệnh Đái tháo đường Thực nghiệm mợt sớ tḥt tốn đánh giá dựa kết quả của thuật toán Trong tương lai, hệ hỡ trợ chẩn đốn đái tháo đường có thêm giao diện để giao tiếp với người sử dụng và đưa mợt mơ hình có đợ xác tớt để chẩn đốn bệnh đái tháo đường Có thể tập trung vào việc thu thập thơng tin từ bệnh án của bệnh nhân được theo dõi qua q trình điều trị để đưa chẩn đốn bệnh mợt cách xác nhất Đề tài có thể được mở rộng và cải thiện để tự động hóa phân tích bệnh đái tháo đường một cách xác nhất 49 DANH MỤC TÀI LIỆU THAM KHẢO [1] Hướng dẫn chẩn đoán và điều trị đái tháo đường típ Quyết định số 3319/QĐBYT ngày 19 tháng năm 2017 của Bộ trưởng Bộ Y tế [2] Điều tra quốc gia yếu tố nguy bệnh không lây nhiễm Việt Nam, năm 2015 [3] Hồ Tú Bảo (2017), Khoa học Dữ liệu và Cách mạng Công nghiệp lần thứ Tư [4] Lê Hữu Lập (2014), Bài giảng Phương pháp nghiên cứu khoa học, Học viện Công nghệ BCVT [6] Nguyễn Đức Cường, “Slide bài giảng môn học BI & DM: Bussiness Intellegent and Data Mining”, 2011-2012 [5] Từ Minh Phương (2011), Giáo trình trí tuệ nhân tạo, Học viện Cơng nghệ BCVT [7] Trần Đình Quế (2019), Bài giảng Khai phá dữ liệu (Data Mining) , Học viện Công nghệ BCVT [8] Arnold Berk, Harvey Lodish, Chris A Kaiser, Monty Krieger, Anthony Bretscher (Bản dịch: Nhiều tác giả) (2012) “4” Molecular Cell Biology (Sinh học phân tử của tế bào) Tập Di truyền học và sinh học phân tử (ấn bản 7) Hoa Kỳ (Bản dịch: Việt Nam): W H Freeman (Bản dịch: Nhà xuất bản Trẻ) tr ISBN 9781429234139 Truy cập ngày tháng năm 2017 [19] Bonora E, Calcaterra F, Lombardi S, Bonfante N, Formentini G, Bonadonna RC, Muggeo M: “Plasma glucose levels throughout the day and HbA1c interrelationships in type diabetes: implications for treatment and monitoring of metabolic control” Diabetes Care 24:2023– 2029, 2001 [17] Class for generating a pruned or unpruned C4.5 decision tree For more information, see Ross Quinlan (1993) C4.5: Programs for Machine Learning Morgan Kaufmann Publishers, San Mateo, CA 50 [9] John C Platt, Sequential Minimal Optimization: A Fast Algorithm for Training Support Vector Machines, Technical Report MSR-TR-98-14 April 21, 1998 [12] Karegowda, Asha Gowda, A S Manjunath, and M A Jayaram "Application of genetic algorithm optimized neural network connection weights for medical diagnosis of pima Indians diabetes." International Journal on Soft Computing 2.2 (2011): 15-23 [15] K Rajalakshmi, Dr S S Dhenakaran, “Analysis of Datamining Prediction Techniques in Healthcare Management System”, International Journal of Advanced Research in Computer Science and Software Engineering, Volume 5, Issue 4, ISSN: 2277 128X, April 2015 [11] Lekkas, Stavros and Ludmil Mikhailov "Evolving fuzzy medical diagnosis of Pima Indians diabetes and of dermatological diseases." Artificial Intelligence in Medicine 50.2 (2010): 117-126 [13] Ms Nilam chandgude, Prof Suvarna pawar, “A survey on diagnosis of diabetes using various classification algorithm”, International Journal on Recent and Innovation Trends in Computing and Communication, Volume: Issue: 12, ISSN: 2321-8169, 6706 – 6710, December 2015 [16] Pragati Agrawal, Amit kumar Dewangan, “A Brief Survey on the Techniques used for the Diagnosis of Diabetes-Mellitus” International Research Journal of Engineering and Technology (IRJET), Volume: 02 Issue: 03, e-ISSN: 2395 0056, p-ISSN: 2395-0072, June 2015 [10] T Mitchell, Machine Learning and Data Mining, Communications of the ACM, Vol 42 (1999), No 11, pp 30 36.s [14] Thirumal P C, Nagarajan N, ―Utilization of Data Mining Techniques for Diagnosis of Diabetes Mellitus- A Case Study”, ARPN Journal of Engineering and Applied Sciences, VOL 10, NO 1, ISSN 1819-6608, January 2015 [18] V Anuja Kumari, R.Chitra “Classification Of Diabetes Disease Using Support Vector Machine”, Vol 3, Issue 2, March -April 2013, pp.1797-1801 Website: [21] Class J48 http://weka.sourceforge.net/doc.dev/weka/classifiers/trees/J48.html 51 [20] IDF Diabetes Atlas, Seventh Edition, 2015 Available at:http://www.diabetesatlas.org/component/attachments/?task=download&id=11 [22] Pima-indians-diabetes https://data.world/data-society/pima-indians-diabetesdatabase 52 DỰ KIẾN KẾ HOẠCH THỰC HIỆN Kế hoạch thực hiện luận văn thể hiện bản sau: Nội dung Dự kiến thời gian thực TT Nghiên cứu, chọn đề tài, xây dựng đề cương luận văn Từ 07/05/2019 – 06/06/2019 Nộp đề cương luận văn 07/06/2019 Bảo vệ đề cương, sửa chữa hoàn thiện, nộp Từ 11/06/2019 – đề cương sau bảo vệ 28/06/2019 Nghiên cứu, viết, hoàn thiện luận văn Từ 28/06/2019 – 18/11/2019 Nộp quyển luận văn và hồ sơ bảo vệ luận văn Từ 19/11/2019 – 30/11/2019 Ý KIẾN CỦA NGƯỜI LẬP ĐỀ CƯƠNG NGƯỜI HƯỚNG DẪN KHOA HỌC (Ký ghi rõ họ tên) (Ký ghi rõ họ tên) TS Đỗ Thị Bích Ngọc Hồng Văn Thắng DUYỆT CỦA TRƯỞNG TIỂU BAN ĐÁNH GIÁ ĐỀ CUƠNG (Ký ghi rõ họ tên) ... Hoàng Văn Thắng ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRONG HỖ TRỢ CHẨN ĐOÁN BỆNH ĐÁI THÁO ĐƯỜNG TUÝP CHUYÊN NGÀNH : HỆ THỐNG THÔNG TIN MÃ SỐ: 8.48.01.04 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) ... KHOA HỌC TS ĐỖ THỊ BÍCH NGỌC HÀ NỘI - 20 20 i LỜI CAM ĐOAN Tôi cam đoan rằng luận văn này: Ứng dụng khai phá liệu hỗ trợ chẩn đoán bệnh đái tháo đường tuýp 2 là bài nghiên cứu của chính... tế, có thể đo HbA1c[19] lần để chẩn đoán Đái tháo đường 1 .2 Khai phá liệu hỗ trợ chẩn đoán bệnh đái tháo đường 1 .2. 1 Học máy khám phá tri thức Sử dụng thông tin một cách có hiệu