Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 36 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
36
Dung lượng
1,56 MB
Nội dung
TRƯỜNG ĐẠI HỌC SÀI GỊN KHOA CƠNG NGHỆ THƠNG TIN Báo Cáo Đồ Án NHẬP MÔN MÁY HỌC HEART DISEASE CLASSIFICATION Giảng viên hướng dẫn: TS Vũ Ngọc Thanh Sang Sinh viên thực hiện: Mã số sinh viên: Thành phố Hồ Chí Minh - Tháng 11/2022 MỤC LỤC Định nghĩa toán ……………………………………………………… 1.1 Vấn đề cần giải ……………………………………………5 1.2 Định nghĩa tốn cho người không chuyên môn …………5 1.3 Định nghĩa tốn cho người có chun mơn …… …………5 1.4 Giải thiết tốn …………………………… ……………6 1.5 Các toán tương tự thực tế ….……………… ……………6 Sự cần thiết project ….…………………… ………… ……………6 2.1 Động lực để giải toán ….…………………… ……………6 2.2 Giải pháp mang lại lợi ích ….…….………… ……………6 2.3 Giải pháp sử dụng ….…….………… ………….7 Giải pháp thủ cơng cho tốn ….…….…………… …… ………….7 3.1 Giải pháp toán ….……………………… ………….7 3.2 Giải pháp CNTT cho toán ….……………………… ………… Chuẩn bị liệu ….……………………… ……………………… ……8 4.1 Mô tả liệu ….……………………… ………………………….….8 4.2 Trong hồn cảnh thu thập liệu … 4.3 Trong hoàn cảnh khơng thể thu thập liệu Xử lý liệu ………………… ……………… …………………….… 5.1 Xác định xử lý liệu bị bỏ ………………… …………… … 5.2 Mã hóa liệu ……………….… ………………………………… 5.3 Thống kê liệu ………………… …………… ……………… 10 5.4 Gom nhóm đặc trưng ( theo kiểu liệu ) …….………… ….11 5.5 Phân bố đặc trưng nào? …………………… ….12 5.6 Mối tương quan cặp đặc trưng nào? ………… 16 5.7 Tính tác động nhiều đến dự đốn mơ hình … ……18 Đặc trưng …………………….……… …………… ………………….20 6.1 Trích xuất đặc trưng ………….………… …………… ………….20 6.2 Chọn lọc đặc trưng ………….………… …………… ……… ….21 Huấn luyện mơ hình ………….………… …………… ………… ….21 7.1 Chia liệu thành tập train, validation, test ……………….….21 7.2 Xác định độ đo cho toán (phân loại, hồi quy, phân cụm) …… 21 7.3 Huấn luyện mô hình ……………….……………………………… 25 Cải thiện mơ hình ……………….……………………………………… 31 8.1 Tinh chỉnh tham số không gian tham số ……………….……31 Lựa chọn mơ hình ……………….……………………………………… 34 9.1 So sánh hiệu suất ……………….……………………………… 34 10 Báo cáo ……………….……………………………… 35 10.1 Tóm tắt tốn ……………………………… 35 10.2 Các cơng trình liên quan ……………………………… .35 10.3 Đề xuất giải pháp ……………………………… 36 10.4 Kết giải pháp ……………………… 36 10.5 Kết luận ……………………… 37 11 Người giới thiệu ……………………… .37 Định nghĩa tốn 1.1 Vấn đề cần giải Theo Tổ chức Y tế Thế giới, năm 12 triệu ca tử vong xảy toàn giới bệnh tim Tải trọng bệnh tim tăng nhanh toàn giới từ vài năm qua Nhiều nghiên cứu thực nỗ lực xác định yếu tố bệnh tim dự đốn xác nguy chung Bệnh tim nhấn mạnh kẻ giết người thầm lặng dẫn đến chết người mà khơng có triệu chứng rõ ràng Chẩn đốn sớm bệnh tim đóng vai trị quan trọng việc đưa định thay đổi lối sống bệnh nhân làm giảm biến chứng Dự án nhằm dự đoán bệnh tim cách phân tích liệu bệnh nhân phân loại liệu họ có bệnh tim hay khơng sử dụng thuật toán học máy 1.2 Định nghĩa tốn cho người khơng chun mơn Thách thức lớn bệnh tim phát Có cơng cụ có sẵn dự đốn bệnh chúng tốn khơng hiệu để tính toán khả mắc bệnh tim người Phát sớm bệnh tim làm giảm tỷ lệ tử vong biến chứng tổng thể Tuy nhiên, theo dõi bệnh nhân ngày trường hợp cách xác tham khảo ý kiến bệnh nhân 24 bác sĩ khơng có sẵn địi hỏi thời gian chun mơn cao Vì vậy, dự án chúng em phát triển nghiên cứu mơ hình để dự đốn sức khỏe bệnh nhân có bị mắc bệnh tim hay không cách sử dụng thuật toán học máy 1.3 Định nghĩa toán cho người có chun mơn Học máy sử dụng nhiều phạm vi khắp giới Ngành công nghiệp chăm sóc sức khỏe khơng loại trừ Học máy đóng vai trị thiết yếu việc dự đốn xuất bệnh tim Thơng tin vậy, dự đốn trước cung cấp trực giác quan trọng cho bác sĩ sau điều chỉnh chẩn đốn xử lý xác cho trường hợp bệnh nhân Trong dự án này, chúng em sử dụng thuật toán học máy thực phân tích so sánh phân loại Logistic Regression, Nearest Neighbors, Support Vectors, Nu SVC, Decision Tree, Random Forest, AdaBoost, Gradient Boosting, Naive Bayes, Linear DA, Quadratic DA, Neural Net, Catboost, LightGBM, Xgboost để cung cấp độ xác phân tích dự đốn tốt 1.4 Giải thiết tốn Trong dự án này, chúng em lấy liệu bệnh tim phân tích, dự đốn kết bệnh nhân liệu họ có bệnh tim hay khơng, tức dự đốn bệnh bệnh tim cách sử dụng học máy Dự đoán làm cho nhanh hiệu lĩnh vực chăm sóc sức khỏe cần tốn nhiều thời gian 1.5 Các toán tương tự thực tế Bài toán dự đoán bệnh tiểu đường Bài toán dự đoán bệnh parkinson Sự cần thiết project 2.1 Động lực để giải tốn Động lực việc thực nghiên cứu trình bày mơ hình dự đốn xuất bệnh bệnh tim Hơn nữa, cơng việc nghiên cứu nhằm mục đích xác định thuật toán phân loại tốt để xác định khả mắc bệnh bệnh tim bệnh nhân Cơng trình chứng minh cách thực nghiên cứu phân tích so sánh cách sử dụng thuật toán phân loại Logistic Regression, Nearest Neighbors, Support Vectors, Nu SVC, Decision Tree, Random Forest, AdaBoost, Gradient Boosting, Naive Bayes, Linear DA, Quadratic DA, Neural Net, Catboost, LightGBM , Xgboost sử dụng cấp độ đánh giá khác nhau.Dự đoán bệnh tim nhiệm vụ quan trọng liên quan đến độ xác cao Do đó, thuật tốn đánh giá nhiều cấp độ loại chiến lược đánh giá Điều cung cấp cho nhà nghiên cứu học viên y tế tiên lượng sớm bệnh tim hỗ trợ đưa định thay đổi lối sống bệnh nhân có nguy cao giảm biến chứng 2.2 Giải pháp mang lại lợi ích - Giảm chi phí, tiết kiệm thời gian - Hiệu suất cao - Giúp đưa gợi ý cho bác sĩ - Đưa chẩn đốn mà khơng cần bác sĩ 2.3 Giải pháp sử dụng Trong phần này, chúng em thử nghiệm thuật toán phân loại khác để dự đốn bệnh nhân có mắc bệnh tim hay không dựa số thông số sức khỏe Quy trình giải pháp: Bước 1: Nhập thư viện cần thiết, Nhập liệu bệnh tim Bước 2: Xử lý trước liệu để loại bỏ liệu bị thiếu Bước 3: Thực phân chia tỷ lệ phần trăm 75% để chia tập liệu thành tập huấn luyện 25% cho tập kiểm tra Bước 4: Chọn thuật toán học máy, tức Logistic Regression, Nearest Neighbors, Support Vectors, Nu SVC, Decision Tree, Random Forest, AdaBoost, Gradient Boosting, Naive Bayes, Linear DA, Quadratic DA, Neural Net, Catboost, LightGBM , Xgboost Bước 5: Xây dựng mô hình phân loại cho thuật tốn học máy đề cập dựa tập huấn luyện Bước 6: Kiểm tra mơ hình trình phân loại cho thuật tốn học máy đề cập dựa tập kiểm tra Bước 7: Thực so sánh đánh giá kết hoạt động thử nghiệm thu phân loại Bước 8: Thực điều chỉnh tham số từ tham số mặc định mơ hình phân loại dựa biện pháp khác Bước 9: Thực so sánh đánh giá kết với mơ hình phân loại từ tham số mặc định, kết luận thuật toán hoạt động tốt Giải pháp thủ cơng cho tốn 3.1 Giải pháp toán Chẩn đoán y khoa cụ thể bệnh tim coi nhiệm vụ quan trọng, phức tạp cần nhiều thời gian chẩn đoán đưa dựa trực giác, kinh nghiệm chuyên môn bác sĩ chuyên ngành 3.2 Giải pháp CNTT cho toán Điện tâm đồ (ECG – Electrocardiogram) đồ thị ghi lại thay đổi dòng điện tim người đơn vị thời gian Tim co bóp theo nhịp nhờ vào điều khiển hệ thống dẫn truyền điện học tim Dòng điện tim nhỏ, phần nghìn volt hồn tồn dị thơng qua điện cực đặt tay, chân, ngực bệnh nhân chuyển đến máy ghi điện Tại đây, dòng điện khuếch đại lên ghi lại giấy đồ thị Đo điện tâm đồ không gây tổn hại đến sức khỏe người đo, giá thành đo điện tim tương đối thấp xem xét nghiệm bản, xét nghiệm thường quy công tác khám chữa bệnh tim Dựa vào liệu từ điện tâm đồ bác sĩ nắm khả bơm máu tim thời điểm cho phép bác sĩ áp dụng nhiều tình y khoa khác để theo dõi tình trạng sức khỏe tim bệnh nhân Chuẩn bị liệu 4.1 Mô tả liệu Bộ liệu cung cấp công khai trang web UCI Machine Learning Repository - Heart Disease Dataset Cơ sở liệu chứa 76 thuộc tính, tất thử nghiệm cơng bố đề cập đến việc sử dụng tập hợp gồm 14 thuộc tính Đặc biệt, sở liệu Cleveland sở liệu nhà nghiên cứu Machine Learning sử dụng đến 4.2 Trong hồn cảnh thu thập liệu Bệnh nhân sống lúc làm nghiên cứu, đầy đủ số lấy mẫu thử, test phải bảo quản nơi quy định, 4.3 Trong hoàn cảnh khơng thể thu thập liệu Bệnh nhân khơng cịn sống lúc làm nghiên cứu, thiếu số lấy mẫu thử, test không bảo quản nơi quy định, Xử lý liệu 5.1 Xác định xử lý liệu bị bỏ Dữ liệu hàng thứ 93, 159, 164, 165 252 có ‘ca=4’ hàng thứ 49 282 có ‘thal = 0’ khơng xác Theo liệu gốc chúng có giá trị NaNs Vì vậy, chúng em bỏ liệu sai 5.2 Mã hóa liệu Các tên đặc trưng tập liệu viết tắt khó hiểu ý nghĩa chúng Tên đầy đủ y tế / kỹ thuật đủ khó hiểu hầu hết đừng nói đến dạng viết tắt chúng Vì vậy, để làm cho chúng dễ đọc chút, đây, chúng em thay đổi tên cột khung liệu cách sử dụng thông tin từ kho lưu trữ liệu UCI Chúng em thay danh mục mã hóa (0, 1, 2, ) theo ý nghĩa y tế chúng (ví dụ: 'đau thắt ngực khơng điển hình', 'đau thắt ngực điển hình', v.v.) 5.3 Thống kê liệu 5.4 Gom nhóm đặc trưng ( theo kiểu liệu ) Như thấy có loại kiểu liệu object, int float Hãy gom chúng dựa theo kiểu liệu # đặc trưng số học num_feats = ['age', 'cholesterol', 'resting_blood_pressure', 'max_heart_rate_achieved', 'st_depression', 'num_major_vessels'] # đặc trưng nhị phân 10