Nghiên cứu các mô hình học máy với dữ liệu y tế và ứng dụng trong sàng lọc bệnh tiểu đường Nghiên cứu các mô hình học máy với dữ liệu y tế và ứng dụng trong sàng lọc bệnh tiểu đường Nghiên cứu các mô hình học máy với dữ liệu y tế và ứng dụng trong sàng lọc bệnh tiểu đường luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Nghiên cứu mơ hình học máy với liệu y tế ứng dụng sàng lọc bệnh tiểu đường Trần Khoa Bách trankhoabach@gmail.com Ngành Kỹ thuật phần mềm Giảng viên hướng dẫn: TS Phạm Ngọc Hưng Viện: Công nghệ Thông tin Truyền thông HÀ NỘI, 10/2020 LỜI CAM ĐOAN Những kiến thức trình bày luận văn tơi tìm hiểu, nghiên cứu trình bày theo kiến thức tổng hợp cá nhân Kết nghiên cứu luận văn chưa cơng bố cơng trình khác Trong q trình làm luận văn, tơi có tham khảo tài liệu có liên quan ghi rõ nguồn tài liệu tham khảo Tôi xin cam đoan cơng trình nghiên cứu tơi khơng chép Tơi xin chịu hồn tồn trách nhiệm, sai, tơi xin chịu hình thức kỷ luật theo quy định Hà Nội, ngày tháng 10 năm 2020 Học viên Trần Khoa Bách LỜI CẢM ƠN Để hồn thành luận văn này, tơi nhận nhiều động viên, giúp đỡ nhiều cá nhân tập thể Trước tiên, xin bày tỏ lòng biết ơn sâu sắc tới thầy giáo, giáo viên hướng dẫn TS Phạm Ngọc Hưng, Viện Công nghệ Thông tin Truyền thông, Trường Đại học Bách Khoa Hà Nội nhiệt tình hướng dẫn, tạo điều kiện thuận lợi cho nghiên cứu khoa học, giúp tơi hồn thành luận văn cách tốt Cuối xin gửi lời cám ơn đến gia đình, bạn bè người ln bên tơi, động viên khuyến khích tơi trình thực đề tài nghiên cứu Học viên Trần Khoa Bách MỤC LỤC MỤC LỤC DANH MỤC CÁC CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC HÌNH VẼ CHƯƠNG GIỚI THIỆU ĐỀ TÀI 1.1 Tổng quan đề tài 1.1.1 Lý chọn đề tài 1.1.2 Mục tiêu nhiệm vụ nghiên cứu 1.1.3 Đối tượng phạm vi nghiên cứu 1.1.4 Phương pháp nghiên cứu 1.1.5 Ý nghĩa khoa học thực tiễn 10 1.1.6 Bố cục luận văn 10 1.2 Tổng quan học máy 11 1.3 Ứng dụng học máy y học 13 1.3.1 Ứng dụng học máy tiên lượng, chẩn đoán bệnh 14 1.3.2 Ứng dụng học máy nghiên cứu phát triển thuốc 15 1.3.3 Ứng dụng học máy điều trị bệnh 15 1.3.4 Ứng dụng học máy dự đoán dịch bệnh 16 1.3.5 Một số khó khăn việc áp dụng học máy y học 15 CHƯƠNG NGHIÊN CỨU CÁC MƠ HÌNH HỌC MÁY 16 VỚI DỮ LIỆU Y TẾ 18 2.1 Phân loại mơ hình học máy 18 2.2 Ứng dụng học máy y tế 19 2.2.1 Học máy với liệu bệnh án điện tử 19 2.2.2 Học máy với liệu ảnh y tế 20 2.3 Một số mơ hình học máy điển hình 21 2.3.1 Hồi quy Logistic - Logistic regression 21 2.3.2 Máy vector hỗ trợ - Support Vector Machine (SVM) 25 2.3.3 Cây định – Decision Tree 31 2.3.4 Rừng ngẫu nhiên - Random Forest 33 2.4 Một số mơ hình học máy nâng cao 35 2.4.1 Học sâu rộng - Wide Deep Learning 35 2.4.2 XGBoost 38 2.5 Đánh giá hiệu mơ hình học máy 40 2.5.1 Ma trận nhầm lẫn 40 2.5.2 Các thang đo hiệu học máy 41 2.5.3 Đường cong ROC 42 2.5.4 Ví dụ 43 CHƯƠNG ĐÁNH GIÁ CÁC MƠ HÌNH HỌC MÁY 39 TRONG SÀNG LỌC BỆNH TIỂU ĐƯỜNG 44 3.1 Giới thiệu chung bệnh tiểu đường 45 3.2 Bài toán chẩn đoán bệnh tiểu đường 46 3.2.1 Giới thiệu toán 46 3.2.2 Mục tiêu toán 46 3.2.3 Dữ liệu đầu vào 46 3.2.4 Chọn lọc liệu 48 3.2.5 Trực quan hóa liệu 50 3.2.6 Tiền xử lý liệu 52 3.2.7 Phương pháp phân lớp 53 3.2.8 Một số ảnh lập trình minh họa 55 3.2.9 Thí nghiệm đánh giá kết 56 CHƯƠNG KẾT LUẬN 58 4.1 Kết luận chung 58 4.2 Kết đạt 58 4.3 Định hướng 58 TÀI LIỆU THAM KHẢO 59 DANH MỤC CÁC CHỮ VIẾT TẮT STT Tên viết tắt Tên đầy đủ Tiếng Việt AI AUC BMI DT FN FP GPU ID3 ILSVRC 10 LR 11 NHANES 12 NPV Artificial Intelligence Area Under Curve Body Mass Index Decision Tree False Negative False Positive Graphics Processing Unit Iterative Dichotomiser ImageNet Large-Scale Visual Recognition Challenge Logistic Regression National Health and Nutrition Examination Survey Negative Predictive Value 13 PPV Positive Predictive Value 14 RF 15 ROC 16 17 18 SVM TN TP XGBoost, XGB Random Forest Receiver Operating Characteristic Support Vector Machine True Negative True Positive Trí tuệ nhân tạo Khu vực đường cong Chỉ số khối thể Cây định Âm tính giả Âm tính thật Bộ xử lý đồ họa Thuật toán ID3 Thử thách nhận dạng hình ảnh quy mơ lớn ImageNet Hồi quy Logistic Khảo sát Kiểm tra Sức khỏe Dinh dưỡng Quốc gia Giá trị chẩn đốn âm tính Giá trị chẩn đốn dương tính Rừng ngẫu nhiên Đặc trưng hoạt động thu nhận Máy vectơ hỗ trợ Dương tính giả Dương tính thật Extreme Gradient Boosting Siêu tăng cường độ dốc 19 DANH MỤC CÁC BẢNG Bảng 2.1 Ma trận nhầm lẫn mơ tả kết dự đốn người mắc bệnh 43 Bảng 3.1 Mô tả thông tin trường liệu chọn 50 Bảng 3.2 Bảng thông số hiệu mơ hình 56 DANH MỤC HÌNH VẼ Hình 1.1 Sự khác biệt học sâu, học máy trí tuệ nhân tạo [1] 13 Hình 1.2 Ảnh scan võng mạc mắt thông qua Google Deep Mind [2] 14 Hình 1.3 Ảnh scan thể bệnh nhân thông qua phần mềm Aidoc [9] 16 Hình 1.4 Ứng dụng Promed-mail giúp chẩn đốn dịch bệnh [10] 17 Hình 2.1 Dữ liệu phân loại mơ hình hồi quy logistic [1] 22 Hình 2.2 Hai lớp phân chia cho khoảng cách đạt giá trị lớn [1] 26 Hình 2.3 Tập liệu ánh xạ thơng qua phương pháp Kernel [1] 28 Hình 2.4 Mơ hình định [1] 31 Hình 2.5 Đồ thị Entropy [1] 32 Hình 2.6 Mơ hình định [1] 34 Hình 2.7 Mơ hình sâu rộng [14] 35 Hình 2.8 Hiệu suất thư viện XGB so với thư viện khác 39 Hình 2.9 Đồ thị đường cong ROC mơ hình học máy [1] 42 Hình 3.1 Bộ liệu NHANES dạng file Excel 47 Hình 3.2 Thông tin trường liệu trang chủ NHANES 47 Hình 3.3 Quy trình sàng lọc đánh dấu người bị tiểu đường 48 Hình 3.4 Phân bố tập liệu theo thuộc tính quan sát 52 Hình 3.5 Biểu đồ thể liệu toán cân 53 Hình 3.6 Mơ hình kỹ thuật Easy Ensemble chia liệu 54 Hình 3.7 Mơ hình mơ tả trình tự thực việc chẩn đốn bệnh tiểu đường 54 Hình 3.8 Import thư viện sử dụng 55 Hình 3.9 Chẩn đốn người bị tiểu đường qua mơ hình SVM 56 Hình 3.10 Đồ thị đường cong ROC mơ hình sử dụng 57 Hình 3.11 Biểu đồ điểm quan trọng thơng qua mơ hình định 57 CHƯƠNG GIỚI THIỆU ĐỀ TÀI 1.1 Tổng quan đề tài 1.1.1 Lý chọn đề tài Học máy (machine learning) đóng vai trị quan trọng cách mạng cơng nghiệp 4.0, thúc đẩy phát triển nhiều ngành, có ngành y tế thúc đẩy mạnh mẽ Phân tích liệu lớn học máy mang lại lợi đáng kể cho việc đồng hóa đánh giá lượng lớn liệu chăm sóc sức khỏe phức tạp Ưu điểm học máy bao gồm tính linh hoạt khả mở rộng so với phương pháp thống kê sinh học truyền thống, việc giúp học máy triển khai cho nhiều nhiệm vụ khác nhau, ví dụ phân tầng rủi ro, chẩn đốn, phân loại dự đoán tỷ lệ sống Một ưu điểm khác mơ hình học máy khả phân tích loại liệu khác hồ sơ y tế, liệu nhân học, liệu xét nghiệm y tế, liệu hình ảnh áp dụng chúng vào tiên lượng, chẩn đoán nguy mắc bệnh, phương pháp điều trị thích hợp Mặc dù có ưu điểm này, việc áp dụng học máy y tế gặp nhiều khó khăn công việc thu thập liệu bệnh nhân không dễ dàng, khơng có cho phép bệnh nhân việc sử dụng liệu bệnh nhân cho mục đích vi phạm pháp luật Tại Việt Nam, việc áp dụng học máy việc chẩn đoán bệnh áp dụng thành cơng y tế, điển hình phương pháp chẩn đốn bệnh qua hình ảnh với tỉ lệ xác cao bệnh viện lớn bệnh viện Việt Nam Cuba, bệnh viện Quân Y 103, bệnh viện Vinmec, Tuy nhiên, việc thu thập liệu cịn khó khăn bao gồm cần cho phép bệnh nhân đồng ý chia sẻ bệnh viện nên việc áp dụng học máy chưa rộng rãi bệnh viện khác Việc áp dụng học máy, trí tuệ nhân tạo đóng góp to lớn vào việc hỗ trợ bác sỹ, chuyên gia chẩn đoán, điều trị bệnh Luận văn thực đề tài nghiên cứu mơ hình học máy ứng dụng y học với dạng liệu y tế khác thử nghiệm với toán cụ thể sàng lọc bệnh tiểu đường 1.1.2 Mục tiêu nhiệm vụ nghiên cứu Qua nghiên cứu mơ hình học máy ứng dụng chẩn đốn bệnh với liệu y tế, lập trình chương trình thực nghiệm với liệu thực, số kết đạt sau: o Nắm chất học máy mơ hình học máy o Hiểu tính thực tế học máy tới y tế thông qua ứng dụng học máy o Áp dụng mơ hình học máy để xây dựng phần mềm chẩn đốn bệnh nhân có bị tiểu đường hay không liệu thực o Rút độ thực tiễn ý nghĩa khoa học việc áp dụng học máy vào ứng dụng chẩn đoán bệnh với liệu y tế 1.1.3 Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu: o Kiến thức học máy bao gồm phương pháp ứng dụng thực tế o Kiến thức chung bệnh tiểu đường Phạm vi nghiên cứu: Áp dụng mô hình học máy để xây dựng chương trình chẩn đốn bệnh tiểu đường 1.1.4 Phương pháp nghiên cứu Nghiên cứu lý thuyết: Nghiên cứu khảo sát học máy ứng dụng học máy chẩn đoán bệnh dựa liệu y tế từ nguồn tài liệu giáo trình, giảng, báo cáo khoa học, … để chọn mơ hình học máy phù hợp với việc sàng lọc bệnh nhân bị tiểu đường Tìm hiểu ứng dụng dùng mô 3.2.4 Chọn lọc liệu Dựa vào nghiên cứu bệnh tiểu đường [16] [21] [22], ta sàng lọc liệu NHANES tiêu chí sau: + Những người tham gia khảo sát 20 tuổi + Những người khơng có câu trả lời cho câu hỏi “Đã bác sỹ chuẩn đoán bạn mắc bệnh tiểu đường chưa?”, bị loại bỏ khỏi liệu + Những người coi bị bệnh tiểu đường gán nhãn Những người trả lời “Có” cho câu hỏi “Đã bác sỹ chuẩn đoán bạn mắc bệnh tiểu đường chưa?” coi mắc bệnh tiểu đường Ngồi ra, người có câu trả lời “Khơng” có số Glucose đói lớn 126 mg/dL bị coi mắc bệnh tiểu đường + Những người coi không mắc bệnh tiểu đường gán nhãn Những người trả lời “câu hỏi “Đã bác sỹ chuẩn đoán bạn mắc bệnh tiểu đường chưa?” có câu trả lời “Khơng” số Glucose đói thấp 126 mg/dL coi không mắc bệnh tiểu đường Bác sĩ chẩn đốn bạn bị tiểu đường Khơng có câu trả lời Đúng Sai Loại Glucose lớn Đúng 126 mg/DL Sai Hình 3.3 Quy trình sàng lọc đánh dấu người bị tiểu đường 48 Qua sàng lọc sơ qua, ta thu liệu có 6500 mẫu dương tính với bệnh tiểu đường số mẫu âm tính gần 42000 mẫu Dựa vào thông tin, nghiên cứu khoa học, ta chọn trường yếu tố tác nhân quan trọng gây ảnh hưởng tới nguy bị bệnh tiểu đường, ta chọn trường liệu sau: Tên thuộc tính Mơ tả Tuổi: Sự lão hóa làm giảm độ nhạy insulin, ngồi Age (AGE) vấn đề vận động tăng cân phổ biến già Tuổi cao có nguy mắc bệnh tiểu đường [21] [22] Giới tính: Mỗi giới tính có Testosterone Gender mức độ khác Testosterone tham gia vào trình (GENDER) lắng đọng chất béo ảnh hưởng tới nguy mắc bệnh tiểu đường [23] [24] Chỉ số khối thể: Thừa cân béo phì gia tăng Body Mass Index chất béo thể tăng nguy mắc bệnh (BMI) chuyển hóa, đặc biệt nguy mắc bệnh tiểu đường nam nữ [25] [26] Trình độ học vấn: Một số nghiên cứu quan sát mối Education Level (EDU) quan hệ trình độ học vấn tỷ lệ mắc bệnh tiểu đường, người có trình độ học vấn cao thường có nhận thức đắn việc chăm sóc sức khỏe tốt [29] [30] Household Income (INCOME) Thu nhập hộ gia đình: Chênh lệch thu nhập, tình trạng kinh tế xã hội có liên quan đến thói quen ăn uống bất bình đẳng chăm sóc sức khỏe Chúng gây ảnh hưởng đến tỷ lệ mắc bệnh tiểu đường [31] [32] Relative/Genetics Có người thân mắc bệnh tiểu đường: Các nghiên cứu (REL) khoa học gen yếu tố quan trọng 49 liên quan đến nguy phát triển bệnh tiểu đường [33] [34] [35] Chủng tộc: Sự khác biệt chủng tộc sắc tộc có Race/Ethnic nhân tố gen khác nhau, chúng yếu tố gây ảnh (RACE) hưởng lớn nguy mắc bệnh tiểu đường [27] [28] Huyết áp: Huyết áp cao gây khó khăn việc đẩy High Blood máu tới khu vực quan trọng thể, tình trạng Pressure (HBP) huyết áp cao kéo dài tạo ảnh hưởng xấu lên thể kéo theo nguy lớn mắc bệnh tiểu đường [36] Mức cholesterol: Cholesterol tìm thấy tế bào thể, chúng cần thiết để sản xuất Cholesterol Level màng tế bào, hc mơn, vitamin D axit mật giúp tiêu (CHOL) hóa chất béo Cholesterol cao gây hại cho sức khỏe dẫn đến nguy mắc bệnh tiểu đường [37] [38] Age started Tuôi bắt đầu hút thuốc: Hút thuốc có liên quan đến Smoking gia tăng đáng kể nguy mắc bệnh tiểu đường Những Regularly người hút thuốc nhiều thường có sức khỏe nguy (SMOKE) cao mắc bệnh tiểu đường [39] Bảng 3.1 Mô tả thông tin trường liệu chọn 3.2.5 Trực quan hóa liệu Việc hiển thị thơng tin liệu lên biểu đồ giúp ta dễ dàng nắm bắt thơng tin có nhìn khái qt so với việc khơng dùng biểu đồ 50 Dương tính Âm tính a Phân phối theo độ tuổi b Phân phối theo giới tính c Phân phối số khối thể BMI d Phân phối theo thu nhập hộ gia đình e Phân phối theo huyết áp cao f Phân phối theo mức độ Cholesterol g Phân phối theo chủng tộc h Phân phối theo trình độ học vấn 51 Người Mỹ gốc Mexico Người Tây Ban Nha khác Người da trắng người Tây Ban Nha Người da đen gốc Tây Ban Nha Chủng tộc khác i Phân phối theo có người thân bị tiểu đường Khơng có liệu Dưới lớp Lớp 9-11 Tốt nghiệp THPT tương đương Tốt nghiệp đại học cao đẳng Tốt nghiệp đại học trở lên j Phân phối theo độ tuổi bắt đầu hút thuốc Hình 3.4 Phân bố tập liệu theo thuộc tính quan sát Trực quan hóa liệu giúp đánh giá yếu tố quan trọng đối tượng thực thể chọn bệnh tiểu đường Sự phân bố tập liệu theo đặc điểm chọn thể biểu đồ Dễ dàng nhận thấy tuổi yếu tố quan trọng, với người cao tuổi có tỷ lệ mắc bệnh tiểu đường cao Chỉ số REL yếu tố quan trọng khác, số cho thấy người có người thân bị bệnh tiểu đường dễ bị mắc bệnh Sự phân bố số khối thể BMI qua quan sát cho thấy BMI cao tỉ lệ mắc bệnh tiểu đường lớn 3.2.6 Tiền xử lý liệu Dữ liệu NHANES có yếu điểm nhiều trường thông tin người tham gia khảo sát không điền đầy đủ, ví dụ như: số khối thể BMI (Body mass index), cân nặng, chiều cao,… cách xử lý thường gặp thay giá trị bị thiếu giá trị trung bình cột thơng tin 52 Cịn thơng tin đại lượng dạng phân mục thu nhập gia đình, trình độ học vấn thay giá trị bị thiếu giá trị 3.2.7 Phương pháp phân lớp Sau gán nhãn để phân biệt người bị tiểu đường, ta nhận thấy số lượng mẫu thuộc lớp (người bị bệnh tiểu đường) 6560 mẫu, số lượng mẫu thuộc lớp (người không bị bệnh tiểu đường) lên tới 41986 mẫu Sử dụng mơ hình học máy với liệu khơng cân khó đem lại hiệu kết chẩn đốn khơng độ xác cao Hình 3.5 Biểu đồ thể liệu tốn cân Để đạt kết xác tồn liệu không cân bằng, ta cần sử dụng kĩ thuật Easy Ensemble để dùng học máy huấn luyện phân loại nhãn hiệu Trình tự kỹ thuật Easy Ensemble sau: + Đầu tiên, ta cần tìm nhãn chiếm thiểu số liệu, cụ thể tốn lớp sau ta tách riêng liệu thành hai lớp thành hai nhóm riêng rẽ khác 53 + Tiếp theo, ta chia lớp thành nhiều nhóm nhỏ cho số lượng lớp nhóm nhỏ số lượng lớp Trong trường hợp này, ta chia lớp thành 10 nhóm nhỏ để đạt kết tốt + Cuối cùng, ta ghép nhóm vào nhóm thu liệu nhóm cân Hình 3.6 Mơ hình kỹ thuật Easy Ensemble chia liệu Sau sử dụng kỹ thuật Easy Ensemble để cân liệu, liệu chia thành 10 liệu nhỏ, liệu nhỏ có số lượng mẫu thuộc lớp lớp có lượng liệu 5260 mẫu Hình 3.7 Mơ hình mơ tả trình tự thực việc chẩn đoán bệnh tiểu đường 54 Với liệu nhỏ ta lựa chọn sử dụng mơ hình để huấn luyện Các mơ hình sử dụng gồm mơ hình hồi quy logistic, máy véc tơ hỗ trợ, định, rừng ngẫu nhiên, XGBoost Sau huấn luyện, ta thu 10 mơ hình dùng để phân loại bệnh nhân bị tiểu đường Mỗi liệu dùng để kiểm tra 10 mơ hình chẩn đốn có bị tiểu đường hay khơng Đầu mơ hình kết chẩn đốn, bao gồm (không bị bệnh tiểu đường), ngược lại 1(bị tiểu đường) Sau có kết 10 đầu ra, ta tính trung bình cộng xác suất Nếu giá trị trung bình cộng p>0.5, tương đương với khả nhiễm bệnh tiểu đường lớn 50%, người chẩn đốn bị mắc bệnh tiểu đường Để tăng độ xác, ta tăng giá trị ngưỡng giá trị p cao Ưu điểm thuật tốn 10 nhóm xác thực chéo (10-fold-cross-validation) tất liệu dùng để huấn luyện để kiểm tra Tuy có tốn thời gian lại cho kết xác cao 3.2.8 Một số ảnh lập trình minh họa Hình 3.8 Import thư viện sử dụng 55 Hình 3.9 Chẩn đốn người bị tiểu đường qua mơ hình SVM 3.2.9 Thí nghiệm đánh giá kết Sau thực sàng lọc người bị bệnh tiểu đường thực nghiệm, ta thu kết sau: AUC (%) Sensitivity (%) Specificity (%) PPV (%) NPV (%) XGBoost 84.23 78.77 74.38 32.21 95.77 Rừng ngẫu nhiên 83.76 78.54 72.71 30.79 95.64 Hồi quy Logicstic 82.91 78.54 71.38 29.78 95.56 Cây định 81.85 75.77 72.62 29.96 95.09 SVM 82.41 77.62 72.18 30.13 95.43 Bảng 3.2 Bảng thông số hiệu thuật toán Kết phân loại thử nghiệm cách áp dụng phương pháp ta thể bảng Qua ta thấy thuật XGBoost cho kết tốt số mơ hình phân loại Mơ hình XGBoost đạt phân tích với AUC 84.23%, độ nhạy độ đặc hiệu 78,77% 74.38% XGBoost cho PPV tốt số phân loại, nhiên PPV thấp mức 32.21%, NPV cao mức 95,77% hợp lý số lượng lớn mẫu âm tập liệu 56 Hình 3.10 Đồ thị đường cong ROC mơ hình sử dụng Để sàng lọc người dương tính với bệnh tiểu đường, ta muốn có điểm Precision cao với mơ hình phân loại Có thể đạt điểm Precision cao thay đổi giá trị ngưỡng cho mô hình phân loại tổng thể cuối Tuy nhiên, điều làm giảm điểm Recall Do đó, mơ hình tốt cần phải đánh đổi Precision Recall Với giá trị ngưỡng đặt 0,5, ta thu điểm số Recall 78,77% điểm Precision 32.21% Hình 3.11 Biểu đồ điểm quan trọng thơng qua mơ hình định Thơng qua mơ hình định biểu đồ mục “Trực quan hóa liệu” ta dễ dàng nhận thấy bệnh tiểu đường biểu rõ ràng độ tuổi có người thân bị bệnh tiểu đường Và khơng có nhiều khác biệt xác suất nhiễm bệnh tiểu đường giới tính nam nữ 57 CHƯƠNG KẾT LUẬN 4.1 Kết luận chung Qua luận văn, em tìm hiểu thơng tin khái qt học máy mơ hình học máy ứng dụng dự đoán bệnh với liệu y tế Đặc biệt, em hiểu cách xây dựng thực hành áp dụng mơ hình hồi quy logistic, máy véc tơ hỗ trợ, định, rừng ngẫu nhiên toán chẩn đoán bệnh tiểu đường với liệu NHANES Kết luận văn thu tỉ lệ dự đốn mơ hình học máy tốn chẩn đốn người bị bệnh tiểu đường liệu NHANES, để từ so sánh hiệu mơ hình cách khách quan 4.2 Kết đạt Tìm hiểu kiến thức tổng quan học máy ứng dụng thực tế học máy y tế Nghiên cứu mơ hình học máy phương pháp đánh giá hiệu học máy Xây dựng thực nghiệm chẩn đoán bệnh tiểu đường liệu NHANES mơ hình học máy nghiên cứu Đánh giá mơ hình học máy thơng qua thực nghiệm 4.3 Định hướng Tuy thực nghiệm thành công sàng lọc bệnh nhân mắc bệnh tiểu đường liệu NHANES với độ xác cao, sàng lọc có không mắc bệnh tiểu đường mà chưa đưa xác suất khả bệnh nhân bị tiểu đường Thực nghiệm học máy áp dụng mơ hình học máy bản, chưa sử dụng mơ hình phức tạp để cải tiến tốc độ độ xác cao Vì vậy, định hướng em nghiên cứu chuyên sâu học máy để áp dụng phương pháp học máy phức tạp hơn, rút ngắn thời gian chạy, cho kết xác có đánh giá hiệu mơ hình học máy tốt 58 TÀI LIỆU THAM KHẢO [1] Ethem Alpaydin, Introduction to Machine Learning, MIT Press, 2020 [2] IBM, IBM and Quest Diagnostics Launch Watson-Powered Genomic Sequencing Service to Help Physicians Bring Precision Cancer Treatments to Patients Nationwide, 2016 [3] Julia Powles, Hal Hodson, Google DeepMind and healthcare in an age of algorithms, 2017 [4] Taylor Kubota, Deep learning algorithm does as well as dermatologists in identifying skin cancer, 2017 [5] Microsoft, How Microsoft computer scientists and researchers are working to ‘solve‘ cancer, 2018 [6] Royal Society, Machine learning: the power and promise of computers that learn by example, 2017 [7] Aidoc, Algorithms and AI: deep learning medical imaging, 2019 [8] European Society of Radiology, Driving AI adoption in clinical practice: a team play, 2018 [9] Tony Kontzer, Startup Brings AI-Powered Image Analysis to Heart, Liver and Lungs , 2018 [10] Victor L Yu, Lawrence C Madoff, Clinical Infectious Diseases Volume 39, 2004 [11] G.S Birkhead, M Klompas, N.R Shah, Uses of electronic health records for public health surveillance to advance public health, 2015 [12] F.E Harrell Jr., K.L Lee, R.M Califf, D.B Pryor, R.A Rosati, Regression modelling strategies for improved prognostic prediction, 1984 [13] A Krizhevsky, I Sutskever, G.E Hinton, ImageNet classification with deep convolutional neural networks, 2012 [14] Heng-Tze Cheng, Levent Koc, Jeremiah Harmsen, Tal Shaked , Wide & Deep Learning for Recommender Systems, 2016 [15] The XGBoost Contributors, XGBoost Documentation, 2019 [16] World Health Organization, Definition and diagnosis of diabetes mellitus and intermediate hyperglycaemia, 2014 59 [17] Ogurtsova K, da Rocha Fernandes JD, Huang Y, Linnenkamp U, Guariguata L, Cho NH, et al, IDF Diabetes Atlas: Globalestimates for the prevalence of diabetes for 2015 and 2040 Diabetes Res Clin Pract, 2017 [18] Bommer C, Heesemann E, Sagalova V, Manne-Goehler J, Atun R, Bärnighausen T, et al , The global economic burden of diabetes in adults aged 20-79 years: a cost-of-illness study, Lancet Diabetes Endocrinol, 2017 [19] Casqueiro J, Casqueiro J, Alves C Infections in patients with diabetes mellitus: a review of pathogenesis, Indian J Endocrinol Metab, 2012 [20] Centers for Disease Control and Prevention, About the National Health and Nutrition Examination Survey, 1999 [21] Klein, R., Klein, B.E., Moss, S.E., Davis, M.D and DeMets, D.L., The Wisconsin Epidemiologic Study of Diabetic Retinopathy: III Prevalence and risk of diabetic retinopathy when age at diagnosis is 30 or more years, Archives of ophthalmology, 102(4), pp.527-532, 1984 [22] Maria L Alva1, Thomas J Hoerger, Ping Zhang, Edward W Gregg, Identifying risk for type diabetes in different age cohorts: does one size fit all?, BMJ Open Diabetes Research & Care, 2017 [23] Kautzky-Willer, A., Harreiter, J and Pacini, G., Sex and gender differences in risk, pathophysiology and complications of type diabetes mellitus, Endocrine reviews, 37(3), pp.278-316, 2016 [24] Gale, E.A and Gillespie, K.M (2001), Diabetes and gender, Diabetologia, 44(1), pp.3-15 [25] Gray N, Picone G, Sloan F, Yashkin A, The relationship between BMI and onset of diabetes mellitus and its complications, Southern medical journal, 108(1):29, 2015 [26] Chan, J.M., Rimm, E.B., Colditz, G.A., Stampfer, M.J and Willett, W.C , Obesity, fat distribution, and weight gain as risk factors for clinical diabetes in men, Diabetes care, 17(9), pp.961-969, 1994 [27] Spanakis EK, Golden SH, Race/ethnic difference in diabetes and diabetic complications, Current diabetes reports, 13(6):814-23, 2013 60 [28] Golden SH, Yajnik C, Phatak S, Hanson RL, Knowler WC, Racial/ethnic differences in the burden of type diabetes over the life course: a focus on the USA and India, Diabetologia, 2019 [29] Steele CJ, Schöttker B, Marshall AH, Kouvonen A, O'Doherty MG, Mons U, Saum KU, Boffetta P, Trichopoulou A, Brenner H, Kee F, Education achievement and type diabetes—what mediates the relationship in older adults? Data from the ESTHER study: a population-based cohort study, BMJ open, 2017 [30] Shang X, Li J, Tao Q, Li J, Li X, Zhang L, Liu X, Wang Q, Shi X, Zhao Y, Hu S., Educational level, obesity and incidence of diabetes among Chinese adult men and women aged 18–59 years old: an 11year follow-up study, PLoS One, 8(6):e66479, 2013 [31] Hsu CC, Lee CH, Wahlqvist ML, Huang HL, Chang HY, Chen L, Shih SF, Shin SJ, Tsai WC, Chen T, Huang CT, Poverty increases type diabetes incidence and inequality of care despite universal health coverage, Diabetes care, 35(11):2286-92, 2012 [32] Sacerdote, C., Ricceri, F., Rolandsson, O., Baldi, I., Chirlaque, M.D., Feskens, E., Bendinelli, B., Ardanaz, E., Arriola, L., Balkau, B and Bergmann, M., Lower educational level is a predictor of incident type diabetes in European countries: the EPIC-InterAct study, International journal of epidemiology, 41(4), pp.1162-1173, 2012 [33] InterAct Consortium (2013), The link between family history and risk of type diabetes is not explained by anthropometric, lifestyle or genetic risk factors: the EPIC-InterAct study, Diabetologia, 56(1):609 [34] Hariri S, Yoon PW, Qureshi N, Valdez R, Scheuner MT, Khoury MJ (2006) Family history of type diabetes: a population-based screening tool for prevention?, Genetics in Medicine, 8(2):102-8, [35] Whitford DL, McGee H, O'Sullivan B (2009), Reducing health risk in family members of patients with type diabetes: views of first degree relatives, BMC Public Health, 9(1):455 [36] De Boer IH, Bangalore S, Benetos A, Davis AM, Michos ED, Muntner P, Rossing P, Zoungas S, Bakris G (2017), Diabetes and 61 hypertension: a position statement by the American Diabetes Association, Diabetes Care, 40(9):1273-84 [37] Femlak M, Gluba-Brzózka A, Ciałkowska-Rysz A, Rysz J (2017), The role and function of HDL in patients with diabetes mellitus and the related cardiovascular risk, Lipids in health and disease, 16(1):1-9 [38] Haase CL, Tybjærg-Hansen A, Nordestgaard BG, Frikke-Schmidt R(2015), HDL cholesterol and risk of type diabetes: a Mendelian randomization study, Diabetes, 64(9):3328-33 [39] Wannamethee SG, Shaper AG, Perry IJ, Smoking as a modifiable risk factor for type diabetes in middle-aged men, Diabetes care, 24(9):1590-5, 2001 62 ... mơ hình học m? ?y 18 2.2 Ứng dụng học m? ?y y tế 19 2.2.1 Học m? ?y với liệu bệnh án điện tử 19 2.2.2 Học m? ?y với liệu ảnh y tế 20 2.3 Một số mơ hình học m? ?y điển hình ... chất học m? ?y mơ hình học m? ?y o Hiểu tính thực tế học m? ?y tới y tế thông qua ứng dụng học m? ?y o Áp dụng mơ hình học m? ?y để x? ?y dựng phần mềm chẩn đốn bệnh nhân có bị tiểu đường hay không liệu thực... áp dụng học m? ?y ngành y tế 10 Chương 2: Nghiên cứu mơ hình học m? ?y với liệu y tế Giới thiệu chung loại mơ hình học m? ?y nói chung Tiếp theo giới thiệu chi tiết ứng dụng mơ hình học m? ?y dùng y tế