Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 87 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
87
Dung lượng
2,66 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC DUY TÂN - - TRẦN MINH THƯ ỨNG DỤNG MACHINE LEARNING VÀO PHÂN TÍCH VÀ DỰ ĐOÁN TRONG LĨNH VỰC CHĂM SÓC SỨC KHỎE LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH ĐÀ NẴNG – 2023 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC DUY TÂN - - TRẦN MINH THƯ ỨNG DỤNG MACHINE LEARNING VÀO PHÂN TÍCH VÀ DỰ ĐOÁN TRONG LĨNH VỰC CHĂM SÓC SỨC KHỎE Chuyên ngành: Khoa học máy tính Mã số: 8480101 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Người hướng dẫn khoa học: PGS TS Nguyễn Gia Như ĐÀ NẴNG – 2023 i LỜI CẢM ƠN Tôi xin được bày tỏ lòng biết ơn chân thành và sâu sắc nhất tới PGS.TS Nguyễn Gia Như đã tận tâm hướng dẫn và giúp đỡ trong suốt quá trình thực hiện luận văn này Tôi cũng xin cảm ơn đến các thầy cô ở khoa sau đại học Trường Đại học Duy Tân và các Thầy cô ở các Trường, Viện khác đã tham gia giảng dạy tôi trong quá trình học Cao học tại trường Đại học Duy Tân Cuối cùng , tôi xin gởi lời cảm ơn sâu sắc đến những người thân trong gia đình, lãnh đạo cơ quan nơi tôi công tác, bạn bè và đồng nghiệp đã tạo điều kiện và hỗ trợ tôi trong quá trình học tập Đà Nẵng, ngày tháng năm 2023 Người thực hiện ii LỜI CAM ĐOAN Tôi xin cam đoan những nội dung trong luận văn này là do tôi thực hiện dưới sự hướng dẫn trực tiếp của PGS, TS Nguyễn Gia Như Các tài liệu tham khảo dùng trong luận văn điều được trích dẫn rõ ràng và trung thực Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo tôi xin chịu hoàn toàn trách nhiệm Học viên thực hiện Trần Minh Thư iii MỤC LỤC LỜI CẢM ƠN i LỜI CAM ĐOAN ii DANH MỤC VIẾT TẮT ix DANH MỤC CÁC BẢNG .x DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ xi MỞ ĐẦU 1 1 Lý do chọn đề tài 1 2 Tìm hiểu một số hệ thống ứng dụng học máy trong chẩn đoán bệnh 3 3 Mục đích, đối tượng, phạm vi nghiên cứu 4 4 Phương pháp nghiên cứu 5 5 Bố cục của luận văn 5 Chương 1 TỔNG QUAN 7 1.1 Tổng quan về machine learning 7 1.1.1 Định nghĩa .7 1.1.2 Phân loại các phương pháp học trong Machine Learning 8 1.1.3 Học có giám sát – Supervised learning 9 1.1.4 Học không giám sát – Unsupervised learning 9 1.1.5 Học bán giám sát – Semi-Supervised learning 10 1.1.6 Học củng cố – Reinforcement learning 11 1.2 Ứng dụng machine learning trong lĩnh vực y tế 14 1.2.1 Các nghiên cứu liên quan 14 1.2.2 Những thách thức 16 1.3 Phương pháp học máy áp dụng trong bài toán 19 1.3.1 Cây quyết định – Decision tree 19 1.3.2 Khái niệm 19 iv 1.3.3 Phân lớp bằng thuật toán ID3 .22 1.3.4 Các bước: 23 1.3.5 Ví dụ tập dữ liệu: .24 1.3.6 Kết luận: 26 1.3.7 Xây dựng cây quyết định 28 1.3.8 Cách phân chia mẫu 28 1.3.9 Vấn đề quá phù hợp với dữ liệu (overfitting) 33 1.3.10 Ưu điểm của cây quyết định 33 Chương 2 CHẨN ĐOÁN MỘT SỐ BỆNH DỰA TRÊN HỌC MÁY 34 2.1 Giới thiệu bài toán 34 2.2 Giải thuật rừng ngẫu nhiên 38 2.2.1 Lịch sử nghiên cứu .38 2.2.2 Bootstrap và Bagging 39 2.2.3 Out of bag 41 2.2.4 Rừng ngẫu nhiên hoạt động như thế nào? 41 2.3 Phương pháp máy vector hỗ trợ - Support Vector Machine 43 2.4 Một số thông tin về ba loại bệnh được sử dụng trong bài toán 44 2.4.1 Bệnh đái tháo đường 44 2.4.2 Mô tả quy trình tổng thể ứng dụng học máy dự đoán bệnh ĐTĐ thai nghén 47 2.4.3 Bệnh tăng huyết áp 50 2.4.4 Bệnh hen phế quản 54 Chương 3 CÀI ĐẶT THỬ NGHIỆM VÀ ĐÁNH GIÁ 55 3.1 Cài đặt thử nghiệm .55 3.1.1 Tiền xử lý dữ liệu 55 3.1.2 Trích chọn đặc trưng 57 3.1.3 Huấn luyện 59 v 3.1.4 Phân chia dữ liệu 59 3.1.5 Huấn luyện mô hình .60 3.1.6 Kiểm thử và kết quả 61 3.1.7 Kiểm thử với mô hình phân lớp SVM 67 3.2 Nhận xét 68 KẾT LUẬN 69 4.1 Đánh giá .69 4.2 Hướng phát triển 69 TÀI LIỆU THAM KHẢO QUYẾT ĐỊNH GIAO ĐỀ TÀI (Bản sao) vi DANH MỤC VIẾT TẮT Từ viết tắt Tên đầy đủ ĐTĐ Đái tháo đường THA Tăng huyết áp HPQ Hen phế quản RF Random Forest ML Machine learning OOB Out of bag AI Artificial Intelligence SVM Support Vector Machine DANH MỤC CÁC BẢN vii Số hiệu Tên bảng Tran bảng Độ chính xác của thuật toán Boosting trên các tập dữ liệu g 1.1 Information Gain theo từng thuộc tính 15 1.2 Phân phối theo giá trị 24 1.3 Ví dụ về dữ liệu phân lớp 25 1.4 Bảng tổng hợp thuộc tính 30 1.5 Ngưỡng chẩn đoán tăng huyết áp 31 2.1 Phân độ tăng huyết áp 50 2.2 Phương pháp điều trị dựa trên nguy cơ phân tầng 51 2.3 Kết quả chạy giải thuật phân lớp rừng ngẫu nhiên 52 3.1 Kết quả chạy giải thuật phân lớp SVM 60 3.2 68 DANH MỤC CÁC HÌNH V viii Số hiệu Tên hình Tran hình Quá trình này là chuỗi khép kín, vận hành và chuyển hóa g liên tục 9 1.1 Ví dụ về phân cụm Học bán giám sát (Semi - Suppervised learning) 11 1.2 Các chương trình “Alpha” của Google DeepMind là 1.3 những ví dụ tiêu biểu của Reinforcement Learning 12 Một ví dụ về mô hình hoạt động Decision tree 13 1.4 Học bằng cây quyết định Dựng cây với nốt là thuộc tính Age 22 1.5 Tiếp tục tính Information Gain cho những thuộc tính còn 23 1.6 lại 27 1.7 Ví dụ về cây quyết định khác 28 Chia dữ liệu theo thuộc tính Age 1.8 Mô hình Bagging 30 Laptop cấu hình mạnh 34 1.9 Các phần trong tiền xử lý dữ liệu 42 1.10 Bảng dữ liệu được mã hóa trong mô hình RF 58 2.1 Confusion matrix without normalization 59 3.1 Normalized confusion matrix 62 3.2 Mô hình SVM (tiền xử lý dữ liệu) 64 3.3 65 3.4 71 3.5 3.6