Xây dựng mô hình dự đoán nguy cơ đau tim

92 0 0
Xây dựng mô hình dự đoán nguy cơ đau tim

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Khai thác dữ liệu để xây dựng mô hình dự đoán nguy cơ đau tim sử dụng các thuật toán phân lớp, phân cụm và luật kết hợp, kết hợp với công nghệ nhận diện hình ảnh. Mô hình này giúp đánh giá và dự đoán nguy cơ đau tim của cá nhân, cung cấp thông tin quan trọng để đưa ra các biện pháp phòng tránh và chăm sóc sức khỏe phù hợp.

HỌC VIỆN NGÂN HÀNG KHOA HỆ THỐNG THÔNG TIN QUẢN LÝ -🙞🙞🙞🙞🙞 - BÀI THI KẾT THÚC HỌC PHẦN KHAI PHÁ DỮ LIỆU Đề tài: ỨNG DỤNG AI VÀ CÁC THUẬT TOÁN XÂY DỰNG MÔ HÌNH DỰ ĐOÁN NGUY CƠ ĐAU TIM Giảng viên hướng dẫn: Bùi Thị Hồng Nhung Nhóm thực hiện: Nhóm 09 Thành viên nhóm: Nguyễn Thị Nguyệt Hà 23A4040031 Đào Thị Thanh Mai 23A4040084 Đào Phương Chi 23A4040017 Hoàng Thu Trang 23A4040145 Nguyễn Thu Trang 23A4040148 Hà Nội, Tháng 12 Năm 2023 1 BẢNG MỨC ĐỘ ĐÓNG GÓP CỦA CÁC THÀNH VIÊN Họ và tên Mã sinh viên Phân chia công việc % đóng góp Nguyễn Thị Nguyệt Hà 23A4040031 - Thuật toán phân cụm 20% - Trực quan hóa dữ liệu Đào Thị Thanh Mai 23A4040084 - Tiền xử lý dữ liệu 20% - Làm video - Đặt vấn đề Đào Phương Chi 23A4040017 - Thuật toán phân lớp 20% Hoàng Thu Trang 23A4040145 - Nhận diện hình ảnh 20% - Tổng hợp word Nguyễn Thu Trang 23A4040148 - Luật kết hợp 20% i NHẬN XÉT CỦA GIẢNG VIÊN ii LỜI CAM ĐOAN Nhóm em xin cam đoan bài nghiên cứu được thực hiện là do chính nhóm tự nghiên cứu, tìm hiểu và xây dựng dưới sự dẫn dắt trực tiếp từ cô Bùi Thị Hồng Nhung Trong quá trình nghiên cứu nhóm có tham khảo một số tài liệu, đã được liệt kê rõ ràng nguồn và trích dẫn trong phần tài liệu tham khảo Nhóm em xin chịu trách nhiệm và mọi hình thức kỷ luật nếu có điều gì không đúng sự thật Nhóm 9 iii LỜI CẢM ƠN Trong quá trình học tập và tìm hiểu môn Khai phá dữ liệu, nhóm chúng em đã được tiếp nhận với nhiều kiến thức mới, học được nhiều điều và có thể áp dụng và hoàn thiện bài nghiên cứu của mình Chúng em xin gửi lời cảm ơn tới cô Bùi Thị Hồng Nhung – Giảng viên khoa Hệ thống thông tin Quản lý – Học viện ngân hàng đã trực tiếp giảng dạy, hướng dẫn tận tình chúng em bộ môn này Cô luôn sẵn sàng giải đáp những thắc mắc của nhóm trong suốt quá trình nghiên cứu bài tập lớn, một lời nữa chúng em xin cảm ơn cô Do kinh nghiệm thực tế còn hạn chế nên một số nội dung trong bài báo cáo sẽ không tránh khỏi những thiếu sót Vì vậy, chúng em rất mong được có thể nhận được những nhận xét và ý kiến đóng góp của thầy cô, để bài báo cáo cuối kì của nhóm có thể hoàn thiện hơn Chúng em xin chân thành cảm ơn iv MỤC LỤC LỜI CAM ĐOAN iii LỜI CẢM ƠN iv DANH MỤC HÌNH ẢNH vii DANH MỤC BẢNG BIỂU x MỞ ĐẦU 1 CHƯƠNG 1: PHÁT BIỂU BÀI TOÁN 2 1.1 Đặt vấn đề 2 1.2 Tính cấp thiết của đề tài 3 1.3 Một số kết quả nghiên cứu .3 1.4 Đối tượng và phương pháp nghiên cứu 4 1.5 Ý nghĩa đề tài 4 CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 6 2.1 Tổng quan về kỹ thuật khai phá dữ liệu 6 2.1.1 Khái niệm khai phá dữ liệu .6 2.1.2 Các giai đoạn khai phá dữ liệu 6 2.2 Bài toán phân lớp trong khai phá dữ liệu 7 2.2.1 Khái niệm phân lớp 7 2.2.2 Quá trình phân lớp dữ liệu 8 2.2.3 Một số thuật toán phân lớp .8 2.3 Bài toán phân cụm trong khai phá dữ liệu 12 2.3.1 Khái niệm về phân cụm 12 2.3 Một số thuật toán phân cụm 13 2.4 Bài toán luật kết hợp trong khai phá dữ liệu 16 2.4.1 Khái niệm về luật kết hợp 16 2.4.2 Quá trình luật kết hợp dữ liệu 18 2.4.3 Một số thuật toán luật kết hợp 18 2.5 Bài toán nhận diện hình ảnh 21 2.5.1 Khái niệm về nhận diện hình ảnh 21 2.5.2 Giới thiệu tổng quan thuật toán sử dụng 21 v CHƯƠNG 3: XÂY DỰNG MÔ HÌNH DỰ BÁO 24 3.1 Cơ sở dữ liệu xây dựng mô hình 24 3.1.1 Giới thiệu về dữ liệu 24 3.1.2 Tiền xử lý dữ liệu 27 3.1.3 Trực quan hoá dữ liệu 34 3.2 Xây dựng mô hình 42 3.2.1 Xây dựng mô hình theo thuật toán phân lớp 42 3.2.1.1 Cây quyết định 42 3.2.1.2 Hồi quy Logistic 45 3.2.1.3 Rừng ngẫu nhiên (Random Forest) 49 3.2.2 Xây dựng mô hình theo thuật toán phân cụm 54 3.2.3 Xây dựng mô hình theo thuật toán luật kết hợp .61 3.2.4 Xây dựng mô hình nhận diện hình ảnh 69 CHƯƠNG 4: ĐÁNH GIÁ KẾT QUẢ VÀ ĐỀ XUẤT 80 4.1 Kết quả đạt được 80 4.2 Hạn chế của đề tài 80 4.3 Hướng phát triển của đề tài 80 TÀI LIỆU THAM KHẢO 81 vi DANH MỤC HÌNH ẢNH Hình 1 Những nguyên nhân hàng đầu gây tử vong theo WHO (2000-2019) 2 Hình 2 Hình ảnh mô tả hàm hồi quy tuyến tính và hồi quy Logistic 10 Hình 3 Hình ảnh mô tả mô hình Rừng ngẫu nhiên 11 Hình 4 Sơ đồ thuật toán 23 Hình 5 Mô tả bộ dữ liệu 24 Hình 6 Khai báo thư viện 27 Hình 7 Tải lên dữ liệu 27 Hình 8 Đọc dữ liệu 28 Hình 9 In ra 10 dòng dữ liệu đầu tiên 28 Hình 10 Tách cột Blood Pressure thành 2 cột Systolic và Diastolic 29 Hình 11 Loại bỏ cột Patient ID 29 Hình 12 thông tin kiểu dữ liệu 30 Hình 13 In ra thông tin thống kê đối với các dữ liệu định lượng 31 Hình 14 Kiểm tra giá trị khuyết thiếu 31 Hình 15 Tạo Dataframe mới 32 Hình 16 Tạo ma trận tương quan 32 Hình 17 Biểu đồ Heatmap .33 Hình 18 Xử lý giá trị ngoại lai 34 Hình 19 Xử lý giá trị ngoại lai 34 Hình 20 Phân tích dữ liệu với các biến số 37 Hình 21 Nguy cơ đau tim theo nhóm hoạt động thể chất 40 Hình 22 Nguy cơ đau tim theo nhóm tuổi 41 Hình 23 Số lượng người tham gia khảo sát theo Châu lục và các quốc gia trên thế giới 41 Hình 24 Khai báo thư viện 42 Hình 25 Tạo Dataframe mới 43 Hình 26 Xác định thuộc tính mô tả và dự đoán 43 Hình 27 Chia bộ dữ liệu thành 2 tập dữ liệu train test 44 Hình 28 Khai báo mô hình cây quyết định 44 vii Hình 29 Thực thi và kiểm thử mô hình .45 Hình 30 Ma trận nhầm lẫn 45 Hình 31 Độ chính xác của mô hình 45 Hình 32 Khai báo thư viện 46 Hình 33 Tạo Dataframe mới 46 Hình 34 Xác định thuộc tính mô tả và dự đoán 47 Hình 35 Chia bộ dữ liệu train test 48 Hình 36 Khai báo và thực thi mô hình 48 Hình 37 Kiểm thử và đánh giá mô hình 49 Hình 38 Khai báo thư viện 50 Hình 39 Tạo Dataframe mới 50 Hình 40 Xác định thuộc tính mô tả và dự đoán 51 Hình 41 Chia bộ dữ liệu thành 2 tập train test 51 Hình 42 Tạo cây quyết định, chọn mô hình tốt nhất và đánh giá 52 Hình 43 Kết quả đánh giá 52 Hình 44 Một số kết quả khác 53 Hình 45 Biến đổi dữ liệu để phân cụm 54 Hình 46 Chia thuộc tính ‘Exercise Hours Per Week’ thành 3 nhóm 55 Hình 47 Chia thuộc tính ‘Income’ thành 3 nhóm .55 Hình 48 Thay đổi thuộc tính ‘Blood Pressure’ 55 Hình 49 Chia bộ dữ liệu train test để huấn luyện .56 Hình 50 Chọn ra 25 thuộc tính quan trọng nhất bằng 2 phương pháp Prison và Anova 57 Hình 51 Kết quả phân cụm 58 Hình 52 Biểu đồ thể hiện mối quan hệ giữa các cụm .59 Hình 53 Phân cụm theo DBSCAN 60 Hình 54 Cài đặt thư viện Apriori .61 Hình 55 Tạo ra một dataframe mới 61 Hình 56 Bộ dữ liệu mới 65 Hình 57 Nhóm dữ liệu liên quan thành một cột mới 65 viii Hình 58 Xây dựng thuộc tính kết hợp 66 Hình 59 Drive lưu trữ dữ liệu hình ảnh 70 Hình 60 Tập ảnh Người bình thường (Normal) 71 Hình 61 Tập ảnh người có nguy cơ bị đau tim (Attack) 71 Hình 62 Sao chép đường dẫn đến tập dữ liệu 74 Hình 63 Tiền xử lý dữ liệu với ImageDataGenerator .75 Hình 64 Đọc dữ liệu Train và Validation 75 Hình 65 Xây dựng mô hình .76 Hình 66 Thiết lập tham số huấn luyện mô hình 76 Hình 67 Huấn luyện mô hình (1) 77 Hình 68 Huấn luyện mô hình (2) 77 Hình 69 Sử dụng mô hình 78 Hình 70 Kết quả sau khi sử dụng mô hình .79 ix

Ngày đăng: 19/03/2024, 23:34

Tài liệu cùng người dùng

Tài liệu liên quan