Ứng dụng các kỹ thuật học máy trong chẩn đoán bệnh Ứng dụng các kỹ thuật học máy trong chẩn đoán bệnh Ứng dụng các kỹ thuật học máy trong chẩn đoán bệnh luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - CAO VĂN THẮNG ỨNG DỤNG CÁC KỸ THUẬT HỌC MÁY TRONG CHẨN ĐOÁN BỆNH LUẬN VĂN THẠC SĨ KỸ THUẬT CÔNG NGHỆ THÔNG TIN Hà Nội – 2018 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - CAO VĂN THẮNG ỨNG DỤNG CÁC KỸ THUẬT HỌC MÁY TRONG CHẨN ĐỐN BỆNH LUẬN VĂN THẠC SĨ KỸ THUẬT CƠNG NGHỆ THÔNG TIN GIÁO VIÊN HƯỚNG DẪN: PGS.TS LÊ THANH HƯƠNG Hà Nội - 2018 Ứng dụng kỹ thuật học máy chẩn đoán bệnh LỜI CAM ĐOAN Trước tiên, em xin chân thành gửi lời cảm ơn sâu sắc tới thầy cô giáo Viện Công nghệ Thông tin Truyền thông, Bộ môn Hệ thống thông tin, Bộ môn Công nghệ phần mềm, Bộ môn Khoa học máy tính tận tình giảng dạy, truyền đạt cho em kiến thức kinh nghiệm quý báu suốt năm học trường Đại học Bách Khoa Hà Nội Em xin gửi lời cảm ơn chân thành đến PGS TS Lê Thanh Hương – giảng viên Bộ môn Hệ thống thông tin hết lòng giúp đỡ, tạo điều kiện hướng dẫn tận tình trình em làm luận văn cao học Cuối cùng, em xin gửi lời cảm ơn tới gia đình, bạn bè, đồng nghiệp quan tâm, động viên, đóng góp ý kiến giúp đỡ em trình học tập, nghiên cứu hồn thành luận văn tốt nghiệp Em xin cam đoan luận văn tốt nghiệp với đề tài “ứng dụng kỹ thuật học máy chẩn đốn bệnh” cơng trình nghiên cứu em, không chép Các luận cứ, số liệu luận văn có nguồn gốc rõ ràng công bố theo quy định Các kết nghiên cứu luận văn em tự tìm hiểu, phân tích cách trung thực, khách quan phù hợp với thực tiễn Việt Nam Các kết chưa công bố nghiên cứu khác Em xin chịu trách nhiệm liên quan đến luận văn tốt nghiệp i Ứng dụng kỹ thuật học máy chẩn đoán bệnh MỤC LỤC DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT PHẦN MỞ ĐẦU 1/ Lý chọn đề tài 2/ Tìm hiểu số hệ thống ứng dụng học máy chẩn đốn bệnh 3/ Mục đích, đối tượng, phạm vi nghiên cứu 4/ Phương pháp nghiên cứu 5/ Bố cục luận văn CHƯƠNG I: TỔNG QUAN 1/ Tổng quan machine learning 1.1/ Định nghĩa 1.2/ Các phương pháp học machine learning 10 1.2.1/ Học có giám sát – Supervised learning 10 1.2.2/ Học không giám sát – Unsupervised learning 11 1.2.3/ Học bán giám sát – Semi-Supervised learning 12 1.2.4/ Học củng cố – Reinforcement learning 13 2/ Ứng dụng machine learning lĩnh vực y tế 14 2.1/ Các nghiên cứu liên quan 14 ii Ứng dụng kỹ thuật học máy chẩn đoán bệnh 2.2/ Những thách thức 16 CHƯƠNG II: CHẨN ĐOÁN BỆNH DỰA TRÊN HỌC MÁY 18 1/ Giới thiệu toán 18 2/ Phương pháp học máy áp dụng toán 20 2.1/ Cây định – Decision tree 20 2.1.1/ Khái niệm 20 2.1.2/ Xây dựng định 21 2.1.3/ Cách phân chia mẫu 22 2.1.4/ Vấn đề phù hợp với liệu (overfitting) 27 2.1.5/ Ưu điểm định 29 2.2/ Giải thuật rừng ngẫu nhiên 29 2.2.1/ Lịch sử nghiên cứu 29 2.2.2/ Bootstrap Bagging 30 2.2.3/ Out of bag 32 2.2.4/ Rừng ngẫu nhiên hoạt động nào? 32 2.3/ Phương pháp máy vector hỗ trợ - Support Vector Machine 35 3/ Một số thông tin ba loại bệnh sử dụng toán 36 3.1/ Bệnh đái tháo đường 36 3.2/ Bệnh tăng huyết áp 37 3.3/ Bệnh hen phế quản 41 CHƯƠNG III: CÀI ĐẶT THỬ NGHIỆM VÀ ĐÁNH GIÁ 43 iii Ứng dụng kỹ thuật học máy chẩn đoán bệnh 1/ Cài đặt thử nghiệm 43 1.1/ Tiền xử lý liệu 43 1.2/ Trích chọn đặc trưng 43 1.3/ Huấn luyện 46 1.3.1/ Phân chia liệu 46 1.3.2/ Huấn luyện mơ hình 47 1.4/ Kiểm thử kết 49 1.5/ Kiểm thử với mơ hình phân lớp SVM 55 2/ Nhận xét 56 CHƯƠNG IV: KẾT LUẬN 58 1/ Đánh giá 58 2/ Hướng phát triển 59 TÀI LIỆU THAM KHẢO 60 iv Ứng dụng kỹ thuật học máy chẩn đoán bệnh DANH MỤC CÁC BẢNG Bảng 1: Độ xác thuật tốn Boosting tập liệu 16 Bảng 2: Ví dụ liệu phân lớp 24 Bảng 3: Bảng tổng hợp thuộc tính Age 25 Bảng 4: Ngưỡng chẩn đoán tăng huyết áp 38 Bảng 5: Phân độ tăng huyết áp 38 Bảng 6: Phương pháp điều trị dựa nguy phân tầng 41 Bảng 7: Kết chạy giải thuật phân lớp rừng ngẫu nhiên 48 Bảng 8: Kết chạy giải thuật phân lớp SVM 56 Ứng dụng kỹ thuật học máy chẩn đoán bệnh DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1: Hệ hỗ trợ chẩn đoán Hình 2: Ví dụ phân cụm 12 Hình 3: Học bán giám sát (Semi - Suppervised learning) 13 Hình 4: AlphaGo chiến thắng cờ thủ số giới 14 Hình 5: Ví dụ định 21 Hình 6: Chia liệu theo thuộc tính Age 26 Hình 7: Cây định theo thuộc tính Age 27 Hình 8: Mơ hình Bagging 31 Hình 9: Bảng liệu ban đầu 46 Hình 10: Confusion matrix without normalization 50 Hình 11: Normalized confusion matrix 50 Hình 12: Mơ hình SVM (tiền xử lý liệu) 55 Ứng dụng kỹ thuật học máy chẩn đoán bệnh DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT Tên tắt STT Tên đầy đủ ĐTĐ Đái tháo đường THA Tăng huyết áp HPQ Hen phế quản RF Random Forest ML Machine learning OOB Out of bag AI Artificial Intelligence SVM Support Vector Machine Ứng dụng kỹ thuật học máy chẩn đoán bệnh PHẦN MỞ ĐẦU 1/ Lý chọn đề tài - Theo thống kê Bộ Y tế, nhân lực ngành y tính đến năm 2020 cần phải bổ sung nhiều, cụ thể vùng Đồng Sông Hồng cần bổ sung 12.251 bác sĩ, số vùng Trung du Miền núi phía Bắc 6.575; tỷ lệ bác sĩ 10.000 dân 7,8 (theo thống kê Bộ Y tế) Đặc biệt vùng núi, vùng sâu vùng xa, tỷ lệ thấp nhiều trình độ chun mơn bác sĩ cịn nhiều hạn chế - Trong năm gần đây, việc ứng dụng công nghệ thông tin hầu hết lĩnh vực được quan tâm đầu tư mang lại hiệu rõ rệt, lĩnh vực y tế nhờ có nhiều chuyển biến tích cực cơng tác điều hành, quản lý, chẩn đoán Nhờ vào ứng dụng cơng nghệ thơng tin mà trình độ chun mơn bác sĩ, y tá nâng cao; phương tiện chẩn đốn điều trị tự động hóa; công tác đào tạo, thực hành y khoa cải tiến; đặc biệt cơng tác hành chính, quản lý bệnh viên có thay đổi tích cực đem lại thoải mái cho bệnh nhân Đây tiền đề để ứng dụng thành tựu công nghệ thông tin mạnh mẽ hiệu - Trên giới, lĩnh vực y tế đạt thành tựu đột phá nhờ ứng dụng công nghệ thơng tin, đặc biệt ứng dụng trí tuệ nhân tạo, học máy chẩn đốn điều trị Có thể kể số ví dụ điển hình như: Các nhà khoa học máy tính Stanford tạo thuật tốn dựa trí thơng minh nhân tạo để chẩn đoán bệnh ung thư da qua máy soi da; Trong nghiên Ứng dụng kỹ thuật học máy chẩn đoán bệnh n_estimators 16 Train accuracy 93.92% 94.51% 93.53% 93.92% 96.47% 96.27% 93.53% Test accuracy 74.89% random_state 10 11 12 13 14 15 78.08% 83.11% 80.82% 78.08% 79.00% 80.37% 15 20 25 30 35 40 Train accuracy 93.53% 95.29% 95.10% 94.12% 92.75% 94.51% Test accuracy 81.28% 84.02% 77.63% 81.74% 79.91% 77.17% default Train Accuracy :: 99.2156862745 % Test Accuracy :: 78.5388127854 % Bảng 7: Kết chạy giải thuật phân lớp rừng ngẫu nhiên Cuối mơ hình huấn luyện: Trained model :: RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini', max_depth=9, max_features='auto', max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, min_samples_leaf=1, min_samples_split=2, min_weight_fraction_leaf=0.0, n_estimators=11, n_jobs=1, oob_score=False, random_state=20, verbose=0, warm_start=False) 48 Ứng dụng kỹ thuật học máy chẩn đoán bệnh 1.4/ Kiểm thử kết Việc kiểm thử thực qua hai bước để kiểm tra tính xác mơ hình - Bước 1: sử dụng liệu test lấy từ dataset ban đầu với tỷ lệ 70/30 để train test mơ hình => Kết dự đốn mơ hình: Actual outcome :: and Predicted outcome :: Actual outcome :: and Predicted outcome :: Actual outcome :: and Predicted outcome :: Actual outcome :: 21 and Predicted outcome :: 21 Actual outcome :: 24 and Predicted outcome :: 21 Train Accuracy :: 94.7058823529 % Test Accuracy :: 82.1917808219 % 49 Ứng dụng kỹ thuật học máy chẩn đốn bệnh Confusion matrix, without normalization Hình 10: Confusion matrix without normalization Normalized confusion matrix Hình 11: Normalized confusion matrix 50 Ứng dụng kỹ thuật học máy chẩn đoán bệnh - Bước 2: Sử dụng liệu test độc lập (21 bệnh án) lấy trước huấn luyện mơ hình, lần test bệnh án theo dõi kết quả: Kết lần 1: Actual datatest: [['0', '1', '0', '0', '0', '0', '0', '1', '0', '0', '999', '1', '59', '60', '90', '140', '18', '52', '1.6']] Train_x Shape :: (728, 19) Train_y Shape :: (728,) Test_x Shape :: (1, 19) Test_y Shape :: (1,) Actual outcome :: ['21'] and Predicted outcome :: 21 Result prediction is: Hypertention I Kết chạy lần lại lần với liệu input đó: Actual datatest: [['0', '1', '0', '0', '0', '0', '0', '1', '0', '0', '999', '1', '59', '60', '90', '140', '18', '52', '1.6']] Train_x Shape :: (728, 19) Train_y Shape :: (728,) Test_x Shape :: (1, 19) Test_y Shape :: (1,) Actual outcome :: ['21'] and Predicted outcome :: 21 Result prediction is: Hypertention I Bảng tổng hợp lần chạy: 51 Ứng dụng kỹ thuật học máy chẩn đoán bệnh Lần chạy Dữ liệu/ Kết Actual datatest: [['1', '0', '0', '0', '0', '0', '0', '1', '0', '1', '999', '999', '76', '37', '90', '140', '20', '52', '1.65']] Actual outcome :: ['1'] and Predicted outcome :: Actual datatest: [['1', '1', '0', '1', '0', '0', '0', '999', '999', '0', '999', '1', '85', '37', '90', '140', '19', '43', '1.52']] Actual outcome :: ['1'] and Predicted outcome :: Actual datatest: [['1', '0', '0', '0', '0', '0', '0', '1', '1', '0', '999', '999', '80', '36.8', '100', '140', '20', '55', '1.58']] Actual outcome :: ['1'] and Predicted outcome :: Actual datatest: [['1', '0', '0', '0', '0', '0', '0', '1', '1', '0', '999', '999', '81', '37', '60', '100', '23', '53', '1.5']] Actual outcome :: ['1'] and Predicted outcome :: Actual datatest: [['0', '0', '0', '0', '0', '0', '0', '999', '1', '1', '999', '1', '92', '36', '90', '150', '21', '60', '1.67']] Actual outcome :: ['1'] and Predicted outcome :: Actual datatest: [['0', '1', '0', '0', '0', '1', '999', '999', '999', '0', '0', '3', '80', '37', '90', '160', '26', '60', '150']] Actual outcome :: ['3'] and Predicted outcome :: Actual datatest: [['0', '0', '0', '1', '0', '1', '999', '999', '999', '0', '1', '999', '53', '36.8', '70', '120', '24', '50', '162']] Actual outcome :: ['3'] and Predicted outcome :: Actual datatest: [['0', '0', '0', '0', '0', '1', '999', '999', '999', '0', '1', '3', '80', '37', '70', '120', '20', '60', '999']] 52 Ứng dụng kỹ thuật học máy chẩn đoán bệnh Lần chạy Dữ liệu/ Kết Actual outcome :: ['3'] and Predicted outcome :: Actual datatest: [['0', '0', '0', '1', '0', '1', '999', '999', '999', '0', '0', '3', '84', '37', '90', '130', '27', '45', '154']] Actual outcome :: ['3'] and Predicted outcome :: 10 Actual datatest: [['0', '0', '0', '1', '0', '1', '999', '999', '999', '0', '1', '3', '90', '36.8', '90', '160', '26', '50', '156']] Actual outcome :: ['3'] and Predicted outcome :: 11 Actual datatest: [['0', '1', '1', '0', '0', '0', '1', '1', '0', '0', '999', '0', '90', '36.7', '90', '200', '20', '50', '1.55']] Actual outcome :: ['23'] and Predicted outcome :: 23 12 Actual datatest: [['1', '1', '0', '0', '0', '0', '0', '1', '0', '0', '999', '1', '74', '36.6', '80', '180', '22', '46', '1.45']] Actual outcome :: ['23'] and Predicted outcome :: 21 13 Actual datatest: [['0', '0', '0', '0', '0', '0', '1', '1', '0', '0', '999', '1', '85', '37', '120', '220', '21', '55', '1.57']] Actual outcome :: ['23'] and Predicted outcome :: 14 Actual datatest: [['0', '1', '0', '0', '0', '0', '0', '1', '0', '0', '999', '1', '59', '60', '90', '140', '18', '52', '1.6']] Actual outcome :: ['21'] and Predicted outcome :: 21 15 Actual datatest: [['0', '1', '1', '0', '0', '0', '0', '1', '0', '0', '999', '0', '80', '37', '110', '185', '20', '40', '1.56']] Actual outcome :: ['22'] and Predicted outcome :: 23 53 Ứng dụng kỹ thuật học máy chẩn đoán bệnh Lần chạy 16 Dữ liệu/ Kết Actual datatest: [['0', '1', '0', '0', '0', '0', '0', '0', '0', '0', '999', '1', '75', '37', '100', '160', '20', '61', '1.5']] Actual outcome :: ['21'] and Predicted outcome :: 22 17 Actual datatest: [['1', '1', '0', '0', '0', '0', '1', '1', '0', '1', '999', '1', '100', '36.8', '100', '160', '20', '86', '1.7']] Actual outcome :: ['22'] and Predicted outcome :: 22 18 Actual datatest: [['1', '1', '1', '0', '0', '0', '0', '0', '0', '0', '999', '0', '87', '37', '90', '140', '20', '62', '1.6']] Actual outcome :: ['21'] and Predicted outcome :: 21 19 Actual datatest: [['1', '1', '0', '0', '0', '0', '0', '1', '0', '0', '999', '0', '78', '37', '80', '160', '20', '53', '1.62']] Actual outcome :: ['21'] and Predicted outcome :: 21 20 Actual datatest: [['0', '0', '1', '0', '0', '0', '0', '1', '0', '0', '999', '0', '80', '37', '100', '170', '20', '55', '1.61']] Actual outcome :: ['22'] and Predicted outcome :: 21 Actual datatest: [['1', '1', '0', '0', '0', '0', '999', '1', '999', '0', '999', '999', '80', '37', '80', '170', '20', '56', '1.6']] Actual outcome :: ['22'] and Predicted outcome :: 21 Trong 21 lần chạy với liệu kiểm thử độc lập, mơ hình cho kết 15 lần dự đốn xác (đạt 71,4%) 06 lần dự đốn khơng xác (chiếm 28,6%) 54 Ứng dụng kỹ thuật học máy chẩn đốn bệnh Có thể thấy, kết lần chạy với liệu độc lập cho độ xác khơng cao so với train test mơ hình Kết phản ánh thực tế mà liệu cho trình train test có 700 ghi, q cho mơ hình học máy để đạt độ xác cao ổn định 1.5/ Kiểm thử với mô hình phân lớp SVM - Tiền xử lý liệu: liệu xử lý trước chạy mơ hình phân lớp rừng ngẫu nhiên Tuy nhiên, đặc trưng mơ hình máy vecto hỗ trợ SVM nên liệu chuyển dạng số thực giá trị quy đổi số thực nhỏ (nằm khoảng từ 0-1) Hình 12: Mơ hình SVM (tiền xử lý liệu) 55 Ứng dụng kỹ thuật học máy chẩn đốn bệnh - Trích chọn đặc trưng: đặc trưng giữ ngun sử dụng mơ hình rừng ngẫu nhiên, bao gồm 19 đặc trưng triệu trứng số bệnh (như mô tả phần 1.2 chương III) - Huấn luyện mơ hình: + Phân chia liệu: liệu chia theo tỷ lệ 70/30 (70% liệu cho training 30% liệu cho testing) + kernels: linear, Radial Basic Function (RBF) Polynomial (Poly) - Kết thử nghiệm: linear rbf Poly Train accuracy 64,58 65,16 73,18 Test accuracy 56,16 56,16 60,27 Kernels Bảng 8: Kết chạy giải thuật phân lớp SVM 2/ Nhận xét - Kết thử nghiệm cho thấy: giải thuật rừng ngẫu nhiên cho kết tương đối ổn định (trong 40 lần chạy với tham số thay đổi) với độ xác cao (như Bảng 7); giải thuật máy vector hỗ trợ cho kết độ xác ổn định thấp so với mơ hình rừng ngẫu nhiên (như kết bảng 8) 56 Ứng dụng kỹ thuật học máy chẩn đốn bệnh - Có thể kết chưa kỳ vọng tác giả dễ hiểu vì: (1) Tập liệu khơng đầy đủ, cịn q nhiều giá trị trống; (2) Số lượng ghi (hơn 700) cho hệ thống học máy; (3) Kết phân loại lớp (thay lớp thơng thường) Nếu khắc phục vấn đề liệu nêu kết hợp với tri thức y bác sĩ mơ hình hỗ trợ tốt mở hướng việc chẩn đoán bệnh cho bệnh nhân 57 Ứng dụng kỹ thuật học máy chẩn đoán bệnh CHƯƠNG IV: KẾT LUẬN 1/ Đánh giá - Các kết đạt Về mặt lý thuyết, luận văn nghiên cứu trình bày nội dung sau: (1) Các kiến thức học máy, định, giải thuật rừng ngẫu nhiên, phát biểu toán chẩn đoán bệnh y tế; (2) Đề xuất thay đổi tham số phân lớp rừng ngẫu nhiên nhằm tăng hiệu độ xác toán Về mặt thực nghiệm, luận văn thu số kết quả: Đã cài đặt thành công giải thuật rừng ngẫu nhiên (có thay đổi tham số phân lớp) giải thuật máy vector hỗ trợ - Hạn chế Như vậy, kết thực nghiệm phù hợp với trình bày lý thuyết Tuy nhiên, nhiều hạn chế mặt kiến thức, kinh nghiệm thân thời gian thực hiện, luận văn hạn chế: (1) chưa cải tiến thuật toán rừng ngẫu nhiên nhằm tăng độ xác phù hợp với tốn chẩn đốn bệnh có nhiều đặc trưng (số chiều lớn) nhiều kết phân lớp (phân lớp đa lớp); (2) liệu thử nghiệm mơ hình cịn q có nhiều giá trị trống, điều làm giảm tính xác q trình huấn luyện kiểm thử mơ hình 58 Ứng dụng kỹ thuật học máy chẩn đoán bệnh 2/ Hướng phát triển Trong trình thực đề tài, chúng tơi nhận thấy cịn nhiều vấn đề khác liên quan đến toán chẩn đoán bệnh y tế Từ điểm hạn chế nêu trên, đề xuất hướng phát triển đề tài sau: • Nghiên cứu sâu toán chẩn đoán bệnh, phối hợp với chuyên gia y tế nhằm đưa chẩn đốn xác phương pháp điều trị cho bệnh nhân • Cải tiến giải thuật rừng ngẫu nhiên máy vector hỗ trợ đồng thời kết hợp với một/ số thuật toán phân lớp khác nhằm đề xuất mơ hình phù hợp cho tốn chẩn đoán bệnh 59 Ứng dụng kỹ thuật học máy chẩn đoán bệnh TÀI LIỆU THAM KHẢO [1] Amit, Y., and Geman, D., Shape quantization and recognition with randomized trees Neural Computation (9):1545-1588, 1996 [2] Breiman, L (2001) Random forests Machine Learning, 45(1): 5-32 [3] Breiman, L., Bagging predictors Machine Learning, vol 24, no 2, pp 123 - 140, 1996 [4] Breiman, L., Friedman, L., Olshen, R and Stone, C., Classification and Regression Trees.Wadsworth International, 1984 [5] Breiman, L., Random forests Machine Learning, vol 45, no 1, pp 532, 2001 [6] Bureau, A., Dupuis, J., Falls, K., Lunetta, K.L., Hayward, B., Keith, T.P., Van Eerdewegh, P (2005) Identifying snps predictive of phenotype using random forests Genetic epidemiology, 28(2): 171182 [7] Chang, C.C and Lin, C.J., LIBSVM: a library for support vector machines ACM Transactions on Intelligent Systems and Technology, vol.2, no 27, pp 1-27, 2011 http://www.csie.ntu.edu.tw/~cjlin/libsvm [8] Dewangan, A., Agrawal, D., Classification of Diabetes Mellitus Using Machine Learning Techniques, International Journal of Engineering and Applied Sciences (IJEAS) ISSN: 2394-3661, Volume-2, Issue-5, May 2015 60 Ứng dụng kỹ thuật học máy chẩn đoán bệnh [9] Fulkerson, B., Vedaldi, A., Soatto, S.S., Class segmentation and object localization with superpixel neighborhoods In IEEE 12th International Conference on Computer Vision, pp 670-677, 2009 [10] George D Magoulas and Andriana Prentza, Machine learning in medical applications, Department of Informatics, University of Athens, GR-15784 Athens, Greece; Department of Electrical and Computer Engineering National Technical University of Athens, GR-15773 Athens, Greece [11] Nguyen Van Hoang , Phan Thi Thu Hong, Nguyen Thanh Tung, Nguyen Thi Thuy, “Phuong pháp lấy mẫu thuộc tính rừng ngẫu nhiên cho phân tích liệu SNP”, J Sci & Devel 2015 [12] Kathleen H Miao1, Julia H Miao1, and George J., Diagnosing Coronary Heart International Disease Journal of Using Ensemble Advanced Machine Learning, Computer Science and Applications, Vol 7, No 10, 2016 [13] Kohavi, R and Kunz, C., Option decision trees with majority votes In: Proceedings of the Fourteenth International Conference on Machine Learning (ICML 1997), Nashville, Tennessee, USA, July 8-12, 1997, pp 161-169 [14] M Rangini and Dr.G Wiselin Jiji, Identification of Alzheimer’s Disease Using Adaboost Classifier, Proceedings of the International Conference on Applied Mathematics and Theoretical Computer Science – 2013 [15] Do Thanh Nghi, Phan Nguyen Khang, Nguyen Huu Hoa, and Nguyen Minh Trung, “Giải thuật rừng ngẩu nhiên với luật gán nhãn cục cho 61 Ứng dụng kỹ thuật học máy chẩn đoán bệnh phân lớp” Fair '9 , 2016 [16] Olivier Pauly, Random Forests for Medical Applications, 2012, pp 0544 [17] Schwarz, D.F., K”onig, I.R., Ziegler, A (2010) On safari to Random Jungle: a fast implementation of Random Forests for high-dimensional data Bioinformatics, 26(14): 1752 [18] Sladek, R et al (2007) A genome-wide association study identifies novel risk loci for type diabetes Nature, 445(7130): 881-885 [19] Nguyễn Xuân Khánh, Machine Learning: mì, súp cơng thức nấu, https://ml-book-vn.khanhxnguyen.com/ [20] Vũ Hữu Tiệp, Machine learning bản, https://machinelearningcoban.com [21] https://en.wikipedia.org/wiki/Random_forest; https://vi.wikipedia.org/wiki/M%C3%A1y_vect%C6%A1_h%E1%BB%9 7_tr%E1%BB%A3 [22] Nguyễn Thị Thảo, Nguyễn Thị Huyền, Đoàn Thị Thu Hà Trần Thị Thu Huyền, Nguyễn Thị Thủy, Phương pháp phân lớp sử dụng máy vec-tơ hỗ trợ ứng dụng tin sinh học, Tạp chí Khoa học Phát triển 2011 62 ... tài: ? ?ứng dụng kỹ thuật học máy chẩn đoán bệnh? ?? với mong muốn hỗ trợ bác sĩ việc Ứng dụng kỹ thuật học máy chẩn đoán bệnh chẩn đoán bệnh Đái tháo đường, Tăng huyết áp Hen phế quản dựa tiền sử bệnh. .. trường thông tin) 18 Ứng dụng kỹ thuật học máy chẩn đoán bệnh Ứng dụng học máy để giải toán trên: Cho tập gồm n bệnh án đầu vào (input) kí hiệu: D={d1,d2, ,dn}, q trình học, kỹ thuật phân lớp rừng... qua máy soi da; Trong nghiên Ứng dụng kỹ thuật học máy chẩn đoán bệnh cứu đăng tạp chí Scientific Reports, Madabhushi, Asha Singanamalli thử nghiệm thuật toán học máy sử dụng liệu từ 149 bệnh