1. Trang chủ
  2. » Tất cả

Đề tài dự báo nguy cơ mắc bệnh tim dựa trên những yếu tố liên quan

27 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Untitled ĐẠI HỌC UEH KHOA KẾ TOÁN ĐỒ ÁN CUỐI KỲ ĐỀ TÀI DỰ BÁO NGUY CƠ MẮC BỆNH TIM DỰA TRÊN NHỮNG YẾU TỐ LIÊN QUAN Giảng viên Nguyễn Văn Hồ Mã lớp HP 22C1HIS51002626 Nhóm Gia đình kiểu mẫu Khóa 47 TP[.]

lOMoARcPSD|17838488 ĐẠI HỌC UEH KHOA KẾ TOÁN ĐỒ ÁN CUỐI KỲ ĐỀ TÀI: DỰ BÁO NGUY CƠ MẮC BỆNH TIM DỰA TRÊN NHỮNG YẾU TỐ LIÊN QUAN Giảng viên : Nguyễn Văn Hồ Mã lớp HP : 22C1HIS51002626 Nhóm : Gia đình kiểu mẫu Khóa : 47 TP Hồ Chí Minh, ngày 18 tháng 12 năm 2022 lOMoARcPSD|17838488 MỤC LỤC DANH MỤC TỪ VIẾT TẮT DANH MỤC HÌNH ẢNH DANH MỤC BẢNG .5 CHƯƠNG TỔNG QUAN ĐỀ TÀI 1.1 Lý chọn đề tài 1.2 Mục tiêu đề tài .6 1.3 Đối tượng phạm vi nghiên cứu đề tài 1.4 Công cụ sử dụng 1.5 Ý nghĩa nghiên cứu .7 1.6 Cấu trúc đề tài .7 CHƯƠNG CƠ SỞ LÝ THUYẾT .7 2.1 Tổng quan Khoa học liệu 2.2 Lợi ích Khoa học liệu 2.3 Quy trình thực dự án 2.4 Lý thuyết phương pháp phân tích liệu .10 2.4.1 Phương pháp phân lớp 10 2.4.2 Các phương pháp phân lớp sử dụng .12 CHƯƠNG PHÂN TÍCH YÊU CẦU NGƯỜI DÙNG VÀ MÔ TẢ DỮ LIỆU .13 3.1 Xác định phân tích yêu cầu người dùng 13 3.2 Tổng quan sở liệu nguồn 13 3.2.1 Mô tả liệu nguồn 13 3.2.2 Lựa chọn trình bày liệu cần phân tích yêu cầu người dùng .15 CHƯƠNG PHÂN TÍCH DỮ LIỆU VÀ KẾT QUẢ .15 4.1 Giới thiệu giải pháp quy trình thực 15 4.2 định Thảo luận đánh giá kết phân tích đề xuất hỗ trợ .21 CHƯƠNG KẾT LUẬN 24 5.1 Kết đạt 24 5.2 Hạn chế 24 lOMoARcPSD|17838488 5.3 Hướng phát triển đề tài 24 TÀI LIỆU THAM KHẢO 26 BẢNG ĐÁNH GIÁ MỨC ĐỘ HOÀN THÀNH 27 lOMoARcPSD|17838488 DANH MỤC TỪ VIẾT TẮT lOMoARcPSD|17838488 DANH MỤC HÌNH ẢNH Hình 1: Tổng quan khoa học liệu Hình 2: Quy trình sử dụng liệu 10 Hình 3: Mơ hình phân lớp liệu .11 Hình 4: Mơ hình thuật tốn Cây định .12 Hình 5: Mơ hình SVM 13 Hình 6: Quy trình phân tách liệu nguồn 16 Hình 7: Mơ hình tốn 16 Hình 8: Đánh giá mơ hình Test and Score 17 Hình 9: Đánh giá phương pháp SVM ma trận nhầm lẫn 18 Hình 10: Đánh giá phương pháp Logistic Regression ma trận nhầm lẫn 19 Hình 11: Đánh giá phương pháp Tree ma trận nhầm lẫn 20 Hình 12: Kết dự đốn 21 Hình 13: Biểu đồ thể phần trăm nguy mắc bệnh tim giới tín .21 Hình 14: Biểu đồ thể phần trăm nguy mắc bệnh theo độ tuổi 22 Hình 15: Biểu đồ mối tương quan kết ECG nguy mắc bệnh tim .23 DANH MỤC BẢNG Bảng 1: Mô tả thông tin liệu gốc 16 lOMoARcPSD|17838488 CHƯƠNG TỔNG QUAN ĐỀ TÀI 1.1 Lý chọn đề tài Bệnh tim mạch rối loạn liên quan đến tim mạch máu Theo chuyên gia y khoa, hầu hết bệnh tim mạch phịng ngừa cách kiểm soát tốt yếu tố nguy dẫn đến bệnh Theo báo cáo Tổ chức Y tế Thế giới (WHO), bệnh tim mạch nguyên nhân hàng đầu gây tử vong toàn cầu, chiếm tới 31% tổng số ca tử vong Đặc biệt tình hình dịch bệnh COVID-19 nay, nguy tử vong thường tập trung chủ yếu vào nhóm đối tượng người cao tuổi, có bệnh lý tăng huyết áp, bệnh tim mạch bệnh lý mãn tính khác Trong phát triển mạnh mẽ khoa học công nghệ, người sử dụng thiết bị khơng dây, thiết bị cảm ứng tích hợp thể người để thu thập liệu tình trạng sức khỏe bệnh nhân Từ đó, việc tiếp cận khai phá liệu để dự báo xác suất bị bệnh tim khơng điều khó khăn Kết hợp với phần mềm Orange áp dụng để khai phá liệu qua tiền xử lý Từ kết thu được, ta thấy rằng, phương pháp áp dụng hệ thống y khoa để hỗ trợ việc chẩn đoán sớm trường hợp tim mạch bất bình thường, phịng tránh hậu nghiêm trọng, đặc biệt theo dõi bệnh nhân ngoại trú ứng cứu kịp thời trường hợp cần thiết 1.2 Mục tiêu đề tài  Có thể nói “sự phức tạp y học vượt q khả trí óc người” Ứng dụng khoa học kĩ thuật giúp tận dụng hết giá trị từ liệu y khoa  Giảm áp lực cắt giảm chi phí, với cấu trúc ngày nhấn mạnh vào chất lượng giá trị mang lại, thay tập trung vào số lượng dịch vụ trước  Thúc đẩy tương tác hiệp đồng người máy móc  Ứng dụng công nghệ giai đoạn việc chăm sóc sức khỏe, từ nghiên cứu, chẩn đốn đến điều trị… Giúp bác sĩ tìm phương pháp nhanh  Giúp phân loại người bị bệnh tim người không bị bệnh tim 1.3 Đối tượng phạm vi nghiên cứu đề tài Sử dụng nguồn liệu công khai gồm thông tin bệnh nhân theo dõi mà liệu cung cấp 1.4 Công cụ sử dụng  Sử dụng phần mềm Orange để xử lý liệu giải tốn: Dự đốn phân nhóm đối tượng bị bệnh tim khơng bị bệnh tim (bài tốn phân lớp)  Sử dụng phần mềm Excel để phân tích mối tương quan lOMoARcPSD|17838488 1.5 Ý nghĩa nghiên cứu Y tế số sẵn sàng tạo thay đổi ngành tim mạch, giống cách ống nghe tim phổi đời, giúp cải thiện chất lượng chăm sóc bệnh nhân tận dụng nguồn liệu khổng lồ tương lai để tạo điều kiện cho phát triển y học xác cá thể hóa Tuy nhiên, phải nói AI công nghệ y tế số khác thay vai trò bác sĩ 1.6 Cấu trúc đề tài CHƯƠNG CƠ SỞ LÝ THUYẾT 2.1 Tổng quan Khoa học liệu “Khoa học liệu - mảng việc áp dụng công cụ máy tính đại phối hợp với kiến thức thống kê, toán học nhằm chuyển từ liệu thành thơng tin hữu ích có lợi ích cho doanh nghiệp Tiềm khoa học liệu phân tích để kích hoạt lý thuyết dựa liệu, kinh tế phát triển chuyên nghiệp ngày công nhận Không liên quan đến ngành cốt lõi máy tính, tin học thống kê, mà liên quan đến lĩnh vực kinh doanh, khoa học xã hội sức khỏe diện rộng.” Ngồi ra, cịn hiểu là: Mọi thứ khai thác, thu thập hay phân tích liệu để tìm giá trị Insight Sau trực quan hóa Insight cho bên liên quan, nhằm chuyển từ Insight hành động Đây xem lĩnh vực đa ngành dùng quy trình cách khoa học để có insight từ liệu “Những điển dự báo người hay tình hình xã hội giới sau đại dịch Covid 19 khám phá hành vi hay xu hướng khách hàng siêu thị, xem phim, du lịch…”thông qua nguồn liệu mà người dùng thu thập lOMoARcPSD|17838488 Hình 1: Tổng quan khoa học liệu 2.2 Lợi ích Khoa học liệu “Chuyển đổi từ liệu thô trở thành sản phẩm hữu dụng ngành công nghiệp nhằm mang đến giá trị dịch vụ tiếp bước, nhận theo xu hướng thị trường Hỗ trợ phân tích data mang đến thông tin cách chi tiết nhanh chóng; cho văn hóa dựa liệu; cải thiện chất lượng liệu Tạo điều kiện hiểu biết môi trường kinh doanh, nắm bắt hội; quản lý hiệu suất tổ chức Những thách thức quan sát nhiều như: văn hóa dựa liệu; đào tạo; phân bổ đầu tư vào cơng nghệ phân tích quản trị liệu,”chiến lược Cho phép nhóm nghiên cứu“tìm mẫu sở hữu khả hay tiềm biến đổi tồn tổng thể Nó tiết lộ thay đổi tối thiểu hóa chi phí việc quản lý nguồn lực nhằm mang đến tác động tích cực đến việc tối đa lợi nhuận.” Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 Nó cho biết vấn đề bị bỏ sót lỗ hổng để lại Những“thông tin chuyên sâu định mua hàng, phản hồi khách hàng quy trình kinh doanh để thúc đẩy đổi sáng tạo hoạt động nội giải pháp bên ngoài.” “Đặc biệt với doanh nghiệp quy mô lớn phải đối mặt với muôn vàn thử thách phản ứng với điều kiện thay đổi theo thời gian thực, điều mà mang lại gián đoạn hay tổn thất nặng nề việc kinh doanh Khoa học liệu hỗ trợ doanh nghiệp dự đốn thay đổi hay tối ưu phản ứng tình riêng biệt khác nhau.” “Khám phá liệu thao tác phân tích sơ liệu sử dụng để lập kế hoạch kỹ chiến lược mơ hình hóa liệu Các nhóm nghiên cứu liệu nắm hiểu biết ban đầu liệu cách sử dụng thống kê mô tả cơng cụ trực quan hóa liệu Sau họ khám phá liệu để xác định mẫu thú vị nghiên cứu tận dụng nó.” 2.3 Quy trình thực dự án Bước 1: Thu thập liệu “Các data hay liệu thu thập từ kho liệu tải xuống từ internet Có thể chọn lọc trích liệu từ database hay sở liệu ngoài, tảng mạng xã hội hay mua từ nguồn khác đáng tin cậy.” Bước 2: Làm liệu Làm liệu - q trình chuẩn hóa liệu dựa theo định dạng định trước, bao gồm hoạt động xử lý liệu cịn thiếu sót, khắc phục lỗi liệu hay xóa tất liệu ngoại lai Điển hình như:  Biến đổi tất giá trị ngày định dạng tiêu chuẩn phổ biến  Sửa sai sót tả hay lỗi khoảng trống  Sửa sai sót tính tốn hay xóa dấu phẩy khỏi số lớn Bước 3: Khám phá liệu Đây thao tác phân tích sơ liệu sử dụng nhằm đưa kế hoạch cụ thể kỹ lưỡng cho chiến lược mơ hình hóa liệu Những nhóm nghiên cứu liệu có hiểu biết ban đầu liệu sử dụng thống kê mô tả trực quan hóa liệu thơng qua cơng cụ Sau họ khám phá liệu để xác định mẫu thú vị nghiên cứu tận dụng nó.” Bước 4: Mơ hình hóa liệu Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 “Những thuật toán hay phần mềm máy học sử dụng thu thập thông tin, đề xuất hướng hành động hay dự đoán kết cách chuyên sâu Các kỹ thuật máy học phân loại, liên kết hay phân nhóm áp dụng sử dụng cho tập data hay liệu đào tạo Mô hình thử nghiệm so với liệu thử nghiệm định trước nhằm đánh giá xác kết đầu Mơ hình liệu điều chỉnh nhiều lần nhằm tối đa kết thu được.” Bước 5: Diễn giải kết “Những nhà nghiên cứu liệu hợp tác với chuyên gia phân tích với doanh nghiệp nhằm biến đổi liệu, thông tin chi tiết thành hành động Tạo đồ thị, sơ đồ hay biểu đồ để thể xu hướng dự đốn Tóm tắt liệu hỗ trợ bên liên quan hiểu rõ triển khai kết cách hiệu ” Hình 2: Quy trình sử dụng liệu 2.4 Lý thuyết phương pháp phân tích liệu 2.4.1 Phương pháp phân lớp “Phân lớp liệu phân lớp dự đoán giá trị nhãn xác định hay giá trị rời rạc, có nghĩa phân đối tượng liệu vào hay nhiều lớp (loại) cho trước nhờ mơ hình phân lớp Mơ hình xây dựng dựa tập liệu gán nhãn trước Quá trình gán nhãn cho đối tượng liệu trình phân lớp liệu.” 10 Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 Hình 5: Mơ hình SVM Margin: khoảng cách siêu phẳng (trong trường hợp không gian hai chiều đường thẳng) đến hai điểm liệu gần tương ứng với hai phân lớp “SVM cố gắng tối ưu cách tối đa hóa giá trị margin này, từ suy siêu phẳng đẹp để phân hai lớp liệu Nhờ vậy, SVM giảm tối thiểu việc phân lớp sai điểm liệu đưa vào.” Các phương pháp không cần biết trước số cụm cần phải xác định điều kiện dừng Những phương pháp điển là: Diana, Agnes…” CHƯƠNG PHÂN TÍCH YÊU CẦU NGƯỜI DÙNG VÀ MƠ TẢ DỮ LIỆU 3.1 Xác định phân tích yêu cầu người dùng 3.2 Tổng quan sở liệu nguồn 3.2.1 Mô tả liệu nguồn Tập liệu lấy liệu Orange từ liệu gốc “Heart Disease Data Set” (Bộ liệu bệnh tim) trang UCI Machine Learning Repository, công bố vào ngày 01/07/1988 Bộ liệu gồm thông tin: 13 Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 Thuộc tính Diameter narrowing Age Gender Chest pain Rest SBP (Resting Systolic Blood Pressure) Cholesterol Fasting blood sugar > 120 Rest ECG (Resting Electrocardiogram ) Max HR Exerc ind ang (exercise-induced angina) ST by exercise Slope peak exc ST (slope of peak exercise ST segment) Ý nghĩa Mô tả Độ hẹp đường kính = độ hẹp đường kính < 50% động mạch = độ hẹp đường kính > 50% Số tuổi Số tự nhiên tính theo năm Male = nam giới Giới tính Female = nữ giới Asymptomatic = khơng có triệu chứng Non-anginal = khơng bị đau thắt ngực Loại đau thắt ngực Typical angina = đau thắt ngực điển hình Atypical angina = đau thắt ngực khơng điển hình Chỉ số huyết áp tâm thu đo Số tự nhiên lúc nghỉ (tính mmHg) Chỉ số cholesterol máu Số tự nhiên (tính mg/dl) Chỉ số đường huyết = khơng lúc đói > 120 mg/dl = có Normal = bình thường ST-T abnormality = sóng ST-đoạn T bất Kết điện tim thường (sóng T bị đảo ngược và, ST đo lúc nghỉ chênh lên đoạn lõm> 0,05 mV) Left ventricular hypertrophy = phì đại thất trái Nhịp tim tối đa Số tự nhiên đạt Đau thắt ngực tập thể dục ST giảm xuống tập thể dục so với nghỉ ngơi Độ dốc thể mối tương quan đoạn ST nhịp tim vận = khơng = có Số thập phân Upsloping = dốc lên Flat = phẳng Downsloping = dốc xuống 14 Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 Major vessels colored Thal (thalassemia) động Số lượng mạch (0-3) tơ màu phương pháp soi huỳnh quang Số tự nhiên Normal = bình thường Bệnh thiếu máu tán Fixed defect = khiếm khuyết cố định huyết di truyền Reversable defect = khiếm khuyết đảo ngược Bảng 1: Mô tả thông tin liệu gốc 3.2.2 Lựa chọn trình bày liệu cần phân tích yêu cầu người dùng Phân tích liệu đặc trưng có tính phân loại: Mỗi hàng đại diện cho đối tượng, cột chứa thuộc tính đối tượng  Dữ liệu thơ gồm có 303 hàng (đối tượng) 14 cột (thuộc tính)  Độ tuổi: Độ tuổi bệnh nhân bệnh tim phân bố rộng, trung bình vào khoảng 55 tuổi Độ tuổi thấp 29 tuổi độ tuổi cao 77 tuổi  Giới tính: Nam giới có nguy mắc bệnh tim cao nữ giới  Mức cholesterol huyết thanh: Sự phân bố cholesterol trung bình khoảng 250 mg/dl  Huyết áp lúc nghỉ ngơi: Huyết áp nghỉ ngơi trung bình khoảng vào 130mmHg  Trong cột liệu loại đau ngực có thuộc tính là: đau thắt ngực điển hình, đau thắt ngực khơng điển hình, đau khơng đau thắt ngực khơng có triệu chứng Và thuộc tính Khơng triệu chứng lại chẩn đốn bệnh tim cao CHƯƠNG PHÂN TÍCH DỮ LIỆU VÀ KẾT QUẢ 4.1 Giới thiệu giải pháp quy trình thực 15 Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 Hình 6: Quy trình phân tách liệu nguồn Để thực cho tốn dự báo, nhóm thực việc phân tách liệu nguồn cách sử dụng Data Sample chia liệu thành phần (70-30): 70% liệu dùng làm liệu huấn luyện mơ hình phân lớp liệu, 30% liệu cịn lại dùng để làm liệu dự báo cho toán Bước 1: Chọn file liệu “Heart Disease” “Datasets” cột diameter narrowing chọn làm Target Bước 2: Sử dụng “Data Sample” để phân tách liệu nguồn thành phần (7030) Nhóm đặt tên file liệu lớn “Data training” file liệu nhỏ “Data forecast” Hình 7: Mơ hình tốn 16 Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 Bước 1: Dùng liệu “Data training” áp dụng ba phương pháp phân lớp liệu bao gồm: SVM, Tree, Logistic Regression Bước 2: Dùng mơ hình “Test and Score” “Confusion Matrix” để đánh giá phương pháp Bước 3: Sử dụng phương pháp đánh giá tốt để dự báo cho liệu “Data forecast” Hình 8: Đánh giá mơ hình Test and Score 17 Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 Hình 9: Đánh giá phương pháp SVM ma trận nhầm lẫn 18 Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 Hình 10: Đánh giá phương pháp Logistic Regression ma trận nhầm lẫn 19 Downloaded by hây hay (vuchinhhp3@gmail.com) lOMoARcPSD|17838488 Hình 11: Đánh giá phương pháp Tree ma trận nhầm lẫn Theo bảng đánh giá kết quả, phương pháp Logistic Regression cho kết Accuracy, F1-score, Precision Recall 80.2%, 80.2%, 80.3%, 80.3% Chỉ số cao hai mô hình cịn lại Tree SVM Thêm vào đó, sai lầm loại phương pháp cho tỉ lệ thấp tỉ lệ tập trung nhiều dự đốn Vì thế, nhóm chọn phương pháp Logistic Regression để dự đốn liệu “Data forecast” 20 Downloaded by hây hay (vuchinhhp3@gmail.com) ... ECG nguy mắc bệnh tim .23 DANH MỤC BẢNG Bảng 1: Mô tả thông tin liệu gốc 16 lOMoARcPSD|17838488 CHƯƠNG TỔNG QUAN ĐỀ TÀI 1.1 Lý chọn đề tài Bệnh tim mạch rối loạn liên quan đến tim mạch... máu Theo chuyên gia y khoa, hầu hết bệnh tim mạch phịng ngừa cách kiểm soát tốt yếu tố nguy dẫn đến bệnh Theo báo cáo Tổ chức Y tế Thế giới (WHO), bệnh tim mạch nguy? ?n nhân hàng đầu gây tử vong... Kết dự đốn 21 Hình 13: Biểu đồ thể phần trăm nguy mắc bệnh tim giới tín .21 Hình 14: Biểu đồ thể phần trăm nguy mắc bệnh theo độ tuổi 22 Hình 15: Biểu đồ mối tương quan kết ECG nguy

Ngày đăng: 23/02/2023, 21:56

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w