1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Đề tài môn khoa học dữ liệuxây dựng mô hình dự báo khả năng bị tử vong do suy tim

21 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Xây dựng mô hình dự báo khả năng bị tử vong do suy tim
Tác giả Nhóm 8
Người hướng dẫn TS. Huỳnh Văn Đức
Trường học Đại học UEH, Khoa Kế Toán
Chuyên ngành Khoa học dữ liệu
Thể loại Đề tài môn học
Năm xuất bản 2023
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 21
Dung lượng 4,18 MB

Nội dung

TÓM TẮTBài khoa học dữ liệu đề tàidự đoán khả năng tử vong do bệnh suy timlà một bài nghiên cứu sử dụng các phương pháp học máy để xây dựng các mô hình dự đoán tỷ lệ tử vong của bệnh nhâ

Trang 1

ĐẠI HỌC UEH

KHOA KẾ TOÁN

GVHD: T.S Huỳnh Văn ĐứcNhóm sinh viên thực hiện: Nhóm 8

TP.HCM, ngày 03 tháng 10 năm 2023

MỤC LỤC

ĐỀ TÀI MÔN KHOA HỌC DỮ LIỆUXÂY DỰNG MÔ HÌNH DỰ BÁO KHẢ NĂNG BỊ TỬ VONG DO SUY TIM

Trang 2

LỜI CẢM ƠN 2

MỤC LỤC HÌNH 3

1 GIỚI THIỆU 5

1.1 Tổng quan đề tài 5

1.2 Mục tiêu đề tài 6

1.3 Phương thức thực hiện 6

2 THU THẬP VÀ LÀM SẠCH DỮ LIỆU 6

2.1 Mô tả tổng quát dữ liệu 6

2.2 Sơ lược các thuộc tính lựa chọn đưa vào mô hình: 7

3 KIỂM ĐỊNH MÔ HÌNH 9

Hình 3 4 Kết quả kiểm định mô hình (k =5) Error! Bookmark not defined 4 ĐÁNH GIÁ VÀ LỰA CHỌN MÔ HÌNH 10

5 TRIỂN KHAI MÔ HÌNH 15

5.1 Ý nghĩa mô hình 15

5.2 Đánh giá hiệu quả kinh tế 17

5.3 Hạn chế, kết luận của nhóm làm đề tài 18

DANH MỤC TÀI LIỆU THAM KHẢO 19

ĐÁNH GIÁ ĐÓNG GÓP 20

LỜI CẢM ƠN

Lời đầu tiên, nhóm chúng em xin gửi lời cảm ơn chân thành nhất đến thầy Huỳnh Văn Đức Chúng em vẫn nhớ việc ghé sát tai để chúng em hỏi khi thầy không nghe rõ,

Trang 3

giảng giải một cách nhiệt tình khi chúng em không hiểu và hỏi lại Những lúc như vậy

em lại càng cảm thầy quý mến thầy hơn rất nhiều Chúng em vô cùng biết ơn và trân trọng khoảng thời gian 5 buổi học được đồng hành cùng thầy

Trong quá trình hoàn thành dự án này, chắc chắn không thể tránh khỏi những hạn chế

và sai sót Chúng em mong sẽ nhận được những góp ý chân thành từ thầy để các đề tài nghiên cứu sau này sẽ được hoàn thiện hơn

Thương chúc thầy nhiều sức khỏe, hạnh phúc và thành công trên con đường sự nghiệp giảng dạy

MỤC LỤC HÌNH

Hình 2.1 Bảng dữ liệu 7

Hình 3.1 Dữ liệu đầu vào 9

Bảng 3.2 Bảng dữ liệu 9

Hình 3.3 Kiểm định cách mô hình phân lớp 13

Hình 3 4 Kết quả kiểm định mô hình (k=5) Error! Bookmark not defined Hình 3.5 Kết quả thu được từ ma trận nhầm lẫn với mô hình cây quyết định(k =5)

Trang 4

Hình 3.6 Kết quả thu được từ ma trận nhầm lẫn với mô hình SVM (k=5)Error! Bookmark not defined

Hình 3.7 Kết quả thu được từ ma trận nhầm lẫn với mô hình Neural Network (k

=5) Error! Bookmark not defined Hình 3.8 Kết quả thu được từ ma trận nhầm lẫn với mô hình Logistic Regression (k =5) Error! Bookmark not defined

Hình 4.1 Áp dụng mô hình Logistic Regression cho tập dữ liệu dự báo 14

Hình 4.2 Kết quả dự báo bằng mô hình Logistic Regression phần 1 15

Hình 4.3 Kết quả dự báo bằng mô hình Logistic Regression phần 2 15

Hình 5.1.1 Thống kê tuổi và giới tính có nguy cơ tử vong do bệnh suy tim 16

Hình 5.1.2 Thống kê phân suất tống máu và tiền huyết áp cao 16

Trang 5

xã hội.

Phương pháp: Bài nghiên cứu sử dụng bộ dữ liệu Heart Failure Prediction gồm 299quan sát và 13 biến, trong đó biến mục tiêu là DEATH_EVENT Bài nghiên cứu tiếnhành các bước tiền xử lý dữ liệu, phân tích thống kê mô tả, phân tích tương quan, vàchọn lọc biến Sau đó, bài nghiên cứu áp dụng thuật toán học máy là LogisticRegression để huấn luyện và đánh giá các mô hình dự đoán

Kết quả: Bài nghiên cứu so sánh hiệu suất của các mô hình dựa trên các chỉ số nhưAccuracy, Precision, Recall, F1-score, và AUC Mô hình này cũng cho thấy đượcnhững biến quan trọng nhất trong việc dự đoán khả năng tử vong là serum_creatinine,ejection_fraction, và age

Kết luận: Bài nghiên cứu kết luận rằng việc sử dụng các phương pháp học máy có thểgiúp cải thiện khả năng dự đoán tỷ lệ tử vong của bệnh nhân suy tim, và đóng góp vàoviệc hỗ trợ quyết định lâm sàng cho các bác sĩ

2 GIỚI THIỆU

1.2 Tổng quan đề tài

Bệnh suy tim là một căn bệnh vô cùng nguy hiểm, không chỉ khiến hoạt độngbơm máu của tim khó khăn hơn mà còn khiến người bệnh cảm thầy khó thở, mệtmỏi

Theo thống kê hiện nay trên thế giới đang có khoảng 26 triệu người mắc bệnh suytim và tỷ lệ này đang ngày càng tăng lên do sự già hóa dân số, cũng như các ảnhhưởng từ các bệnh tim mạch Tại Việt Nam hiện nay tuy chưa có số liệu chính thứcnhưng ước tính có khoảng 320.000 đến 1,6 triệu người (khoảng 1-1.5% dân số)mắc suy tim và tỷ lệ tử vong sau 5 năm lên tới 50%, cao hơn cả bệnh ung thư.Trong những thập kỷ gần đây, các phương pháp điều trị và thiết bị hỗ trợ suy tim đãcải thiện một cách đáng kể giúp giảm tỷ lệ tử vong và nâng cao chất lượng cuộc sốngcho bệnh nhân suy tim Tuy nhiên, suy tim trong giai đoạn khởi phát thường khônggây nhiều dấu hiệu bất thường, với những người không hay để ý đến sức khỏe củamình hoặc chủ quan không đi khám sức khỏe định kỳ thì rất khó phát hiện bệnh từsớm dẫn đến bệnh trở nặng, phải đối mặt với các biến chứng không mong muốn

Trang 6

Suy tim có 4 giai đoạn, nếu để đến giai đoạn cuối phải ghép tim, thay tim thì chi phí

vô cùng tốn kém Nếu phải vào phòng hồi sức cấp cứu, mỗi ngày có thể tiêu tốn 10 –

20 triệu

Vì vậy, chúng em quyết định thực hiện dự án nghiên cứu “Xây dựng mô hình dự báokhả năng bị suy tim” để dự đoán khả năng bị tử vong do mắc bệnh suy tim ở cácbệnh nhân có các điều kiện nhân khẩu học và bệnh lý khác nhau Dựa trên các kiếnthức chuyên ngành đã học về phân lớp dữ liệu, cùng với sự hỗ trợ của phần mềmOrange, nhóm chúng em sẽ nỗ lực kiểm định và xây dựng được một mô hình dự báotối ưu nhất với độ chính xác cao nhất Từ đó, giảm thiểu trương hợp bị suy tim đến

tỉ lệ thấp nhất, giảm thiểu chi phí kinh tế xã hội

1.2 Mục tiêu đề tài

Mục tiêu của bài khoa học dữ liệu đề tài dự đoán khả năng tử vong do bệnh suy tim là

để xây dựng các mô hình học máy có thể dự đoán chính xác tỷ lệ tử vong của bệnhnhân suy tim, và đóng góp vào việc hỗ trợ quyết định lâm sàng cho các bác sĩ Bàinghiên cứu cũng nhằm tìm ra những yếu tố ảnh hưởng đến khả năng tử vong của bệnhnhân, và so sánh hiệu suất của các thuật toán học máy khác nhau trong bài toán này.Bài nghiên cứu sử dụng bộ dữ liệu Heart Failure Prediction để thực hiện các bướcnghiên cứu

1.3 Phương thức thực hiện

Để đạt được mục tiêu trên, dự án tập trung thực hiện các nhiệm vụ sau:

- Sử dụng bộ dữ liệu thu thập được từ Kaggle và mô tả tổng quát về bộ dữ liệu này

- Nghiên cứu các yếu tố có khả năng gây ra tử vong do bệnh suy tim

- Lựa chọn và xây dựng mô hình phù hợp nhất cho việc dự đoán khả năng bị tửvong do suy tim

- Kiểm định độ chính xác của mô hình dự báo đã lựa chọn

2 THU THẬP VÀ LÀM SẠCH DỮ LIỆU

2.1 Mô tả tổng quát dữ liệu

Trong dự án này, nhóm sử dụng bộ dữ liệu thu thập được từKaggle.Bộ dữ liệu nàyđược sử dụng để dự đoán liệu một bệnh nhân có khả năng bị suy tim hay không dựatrên các yếu tố đo lường đặc trưng có tác động đến khả năng bị suy tim ở một người

Bộ dữ liệu được thu thập từ thông tin của các bệnh nhân, gồm 299 quan sát với 13thuộc tính cơ bản Mỗi hàng trong dữ liệu cung cấp thông tin trực quan liên quan vềbệnh nhân

Trang 7

Hình 2.1 Bảng dữ liệu

2.2 Sơ lược các thuộc tính lựa chọn đưa vào mô hình:

Bộ dữ liệu dự đoán khả năng bị bệnh suy tim gồm 13 thuộc tính đặc trưng và cơ bản

1 Thuộc tính đầu tiên là “urmur”, đây là biến thể hiện độ tuổi của bệnh nhân

2 Thuộc tính thứ hai là “anemia”, đây là biến thể hiện tiền sử bệnh thiếu máucủa bệnh nhân Trong bộ dữ liệu, biến “anemia” gồm 2 biến là 0 và 1 tươngứng với “Yes” với bệnh nhân bị thiếu máu và “No” với bệnh nhân không bịthiếu máu Thiếu máu không phải là nguyên nhân chủ yếu dẫn đến bệnh suytim, nhưng thiếu máu lại là yếu tố khiến bệnh suy tim trở nên nặng hơn Khithiếu máu cơ tim có thể ảnh hưởng đến cơ tim, giảm khả năng bơm máu đếncác cơ quan trong cơ thể Tổn thương này khiến tim ngày càng suy yếu, khôngcòn bơm máu hiệu quả

3 Thuộc tính thứ ba là “creatinine_phosphokinase”, là biến thể hiện nồng độcreatin kinase trong máu Creatin kinase gọi tắt là CK, là một loại enzym.Enzym CK được xét nghiệm trong các thử nghiệm máu như là một dấu hiệucủa bệnh suy tim Nồng độ CK càng cao thì có nghĩa là có thể mô cơ vân, cơtim hoặc mô não đang bị tổn thương hoặc stress

4 Thuộc tính thứ tư là “diabetes”, là biến thể hiện tiền sử bệnh tiểu đường củabệnh nhân hay không, gồm có 2 biến là 0 và 1 lần lượt là “Yes” với bệnh nhân

có tiền sử về bệnh tiểu đường và “No” với bệnh nhân không có tiền sử về bệnhtiểu đường Theo định nghĩa, bệnh tiểu đường là bệnh gây suy giảm bài tiếtinsulin và nồng độ kháng insulin ngoại vi thầy đổi dẫn đến tăng đường huyết.Đặc biệt, bệnh tiểu đường kết hợp với bệnh mạch vành hoặc hội chứng chuyểnhoá là nguyên nhân hàng đầu dẫn đến bệnh suy tim ở các nước phát triển

5 Thuộc tính thứ năm là “ejection_fraction”, là biến chỉ khả năng bơm máu củatim Ejection fraction, còn được gọi là EF, là phân suất tống máu hay khả năngbơm máu của tim Ở một người mạnh khỏe, chỉ số EF thường dao động từ 50 -70%, đây được coi là giá trị lý tưởng của sức bơm máu của tim vì nó cung cấpmột lượng máu vừa đủ với nhu cầu của cơ thể Nếu phân suất tống máu thấpdưới 50%, điều này báo hiệu chức năng bơm máu của tim suy giảm, tim khôngcòn khả năng bơm máu đủ với nhu cầu của cơ thể Đây có thể là một dấu hiệucủa bệnh nhân mắc suy tim

6 Thuộc tính thứ sáu là "tekanan_darah_tinggi”, là biến thể hiện tiền sử bệnhtăng huyết áp của bệnh nhân, với 2 biến lần lượt là 0 với bệnh nhân bị huyết ápcao và 1 với bệnh nhân không bị huyết áp cao Huyết áp cao là một trong

Trang 8

những nguyên nhân chủ yếu dẫn đến các bệnh về tim Theo thống kê của Hiệphội Tim mạch Hoa Kỳ: 90% trường hợp suy tim có tiền căn tăng huyết áp.

7 Thuộc tính thứ bảy là “platelets”, là biến thể hiện số lượng tiểu cầu trong mộtthể tích máu Bình thường số lượng tiểu cầu trong máu thường vào khoảng150.000 đến 400.000 tiểu cầu/μl máu (1 μl = 1 mm3), trung bình là 200.000tiểu cầu/μl máu Mỗi 1 lít máu sẽ có khoảng 150 – 400 tỷ tế bào tiểu cầu Sốlượng tiểu cầu quá thấp có thể gây ra chảy máu Còn số lượng tiểu cầu quá cao

sẽ hình thành cục máu đông, làm cản trở mạch máu có thể gây nên đột quỵ,nhồi máu cơ tim, nghẽn mạch phổi, tắc nghẽn mạch máu, Bộ dữ liệu gồm đadạng số lượng tiểu cầu Vì vậy, có thể thầy, số lượng tiểu cầu là một yếu tốquan trọng tác động đến khả năng mắc bệnh suy tim

8 Thuộc tính thứ tám là “serum_creatinine”, là biến thể hiện định lượngCreatinin máu của bệnh nhân Dữ liệu gồm nhiều biến từ 0.5 đến 9.4 Vì vậy,biểu hiện định lượng creatinin cũng là một phát hiện sớm dự báo bệnh nhânđang bị suy tim Nồng độ creatinin máu tăng cao thể hiện tình trạng chứcnăng thận suy giảm, các bệnh lý gây suy thận trước thận (suy tim) hoặc mắccác bệnh lý về thận

9 Thuộc tính thứ chín là “serum_sodium”, là biến thể hiện nồng độ các ionNa+, K+, Cl-, HCO3- và tổng lượng CO2 trong máu của bệnh nhân Dữ liệugồm nhiều biến Xét nghiệm điện giải đồ hay xét nghiệm chất điện giải sẽ là

cơ sở giúp cho các bác sĩ có thể dễ dàng theo dõi điều trị cũng như chẩn đoánnhững bệnh lý nhất định như tăng huyết áp hay những người bệnh bị suy tim,gan, thận Vì vậy, đây cũng là một yếu tố điển hình tác động đến khả năng bịbệnh suy tim của bệnh nhân

10 Thuộc tính thứ mười là “Jenis_kelamin”, là biến thể hiện giới tính của bệnhnhân Dữ liệu gồm 2 biến là “1” với những bệnh nhân có giới tính nam và

“0” với những bệnh nhân có giới tính nữ Theo nghiên cứu, suy tim gặp ởnam giới nhiều hơn nữ giới Tuy nhiên, phụ nữ có khả năng tử vong do suytim cao hơn

11 Thuộc tính thứ mười một là “smoking”, là biến thể hiện tình trạng hút thuốc

ở các bệnh nhân Dữ liệu gồm 2 biến là “0” với những bệnh nhân có biểuhiện không hút thuốc và “1” với những bệnh nhân có hút thuốc Theo cácchuyên gia, triệu chứng hay hút thuốc kéo dài là sự cảnh báo về một vấn đềsức khỏe tiềm ẩn, điển hình nhất chính là suy tim

12 Thuộc tính thứ mười hai là “time”, đây là biến thể hiện thời gian của bệnhnhân Dữ liệu gồm nhiều biến từ 4 đến 285

13 Thuộc tính cuối cùng là “Peristiwa Kematian”, đây là biến thể hiện sự kiện

tử vong của bệnh nhân Đây cũng là biến kết quả trong mô hình dự đoán khảnăng mắc bệnh suy tim Dữ liệu gồm 2 biến là “Meninggal” và “Hidup”.Trong đó, “Meninggal” là kết quả bệnh nhân tử vong với bệnh suy tim và

“Hidup” là kết quả bệnh nhân còn sống với bệnh suy tim

Kết luận, nhóm chúng em nhận thấy bộ dữ liệu khá đầy đủ để có thể đưavào nghiên cứu

Trang 9

là biến mục tiêu.

Hình 3.1 Dữ liệu đầu vào

Bảng 3.2 Bảng dữ liệu

Trang 10

4 ĐÁNH GIÁ VÀ LỰA CHỌN MÔ HÌNH

Nhóm đã thử kiểm định mô hình với k =5 Các kết quả kiểm định mô hình mànhóm thu được:

Hình 4.1 Kết quả kiểm định mô hình (k=5)

Kết quả của 2 phương pháp cũng khá giống nhau và đều khá cao, chênh lệch chỉ sốtầm 0.01 – 0.15 Tuy nhiên, nhóm sẽ chọn mô hình Logistic Regression để dự báocho danh sách bệnh án mới

bệnh là bị bệnh còn hơn chuẩn đoán một người bị bệnh là không bị bệnh

=> Nhóm 8 sẽ chọn mô hình để phân cụm là mô hình có chỉ số RECALL caonhất

2 Tất cả các chỉ số dưới đây đều hướng theo quy tắc càng tiến về 1 càng tốt

- Chỉ số AUC – độ chính xác tổng quát “(TP+TN)/All”: Chỉ số AUC của môhình SVM, mô hình Logistic Regression lần lượt là 0.851, 0.850

Trang 11

- Chỉ số CA: Mô hình SVM và Logistic Regression có chỉ số CA cao lần lượt là0.783 và 0.813.- Vì mô hình dự báo khả năng bị suy tim là mô hình phân lớp nhị phân,nên

nhóm sẽ không xét chỉ số F1 của các mô hình

- Chỉ số Precision – độ chính xác của mô hình “TP/(TP+FP)” : Mô hình

SVM và Logistic Regression có chỉ số Precision cao là 0.776 và 0.808

- Chỉ số Recall – Độ bao phủ đối với các dự đoán mô hình “TP/(TP+FN)”:

Mô hình SVM và Logistic Regression đều có chỉ số Recall cao là 0.783 và

0.813

Tóm lại, nhóm nhận thấy kết quả của Logistic Regression có cao hơn SVM về tất cảcác chỉ số, kể cả RECALL Vì vậy, nhóm chọn mô hình Logistic Regression tạmthời được xem là mô hình tốt nhất để ứng dụng cho việc xây dựng mô hình dự báo.Tuy nhiên, vì bài toán dự báo mà nhóm em lựa chọn có ý nghĩa thực tiễn về rủi rorất cao, nếu kết quả dự đoán suy tim cho bệnh nhân bị sai lệch sẽ dẫn đến những hệlụy vô cùng đau lòng Vì vậy, nhóm em cần sử dụng thêm phương pháp ma trận nhầmlẫn để có căn cứ chắc chắn hơn về mô hình tốt nhất

Hình 4.2 Kết quả thu được từ ma trận nhầm lẫn với mô hình SVM (k=5)

Trang 12

Hình 4.3 Kết quả thu được từ ma trận nhầm lẫn với mô hình Logistic Regression

Cụ thể, theo nhóm tìm hiểu: Trong y tế, chỉ số FN đóng vai trò cực kỳ quan trọng,bởi vì chỉ số FN thể hiện số lượng các dự đoán sai lệch một cách gián tiếp, có nghĩa là

“khi mô hình dự đoán một người không bị tử vong do bệnh suy tim nhưng thực

tế người đó bị tử vong do suy tim, tức là việc không chọn trường hợp bị suy tim

là sai”

Điều này cực kỳ nguy hiểm, bởi vì kết quả sai lệch đó sẽ làm sai lệch chuẩn đoán Vìvậy, mô hình có chỉ số FN thấp nhất sẽ là một mô hình dự báo tốt nhất cho trườnghợp này

Dựa trên những so sánh và lập luận này và căn cứ vào các chỉ số đánh giá phía trên, cóthể thầy mô hình Logistic regression là mô hình có các chỉ số đánh giá tốt nhất vàcũng cho kết quả là mô hình có tỷ lệ dự báo sai sót thấp nhất Vì vậy, mô hìnhlogistic regression sẽ được chọn làm mô hình dự báo khả năng bị tử vong dobệnh suy tim của bệnh nhân Đây là các bước xây dựng mô hình dự báo logisticregression cho tập dữ liệu bệnh nhân cần dự báo

Tập dữ liệu dự báo gồm thông tin của 51 bệnh nhân, đa dạng các độ tuổi và cũnggồm các biến chứa các thông tin liên quan đến các yếu tố tác động đến tử vong dosuy tim Sau khi thông tin tập dữ liệu dự báo được truyền vào mô hình LogisticRegression, trong 51 bệnh nhân cần dự báo về khả năng bị tử vong do suy tim, có 23bệnh nhân cho kết quả dự báo có thể tử vong do suy tim và 28 bệnh nhân không

tử vong do suy tim Dựa trên những phân tích và lập luận trước đó, có thể tin tưởngrằng mô hình Logistic Regression là một mô hình rất tối ưu, cho kết quả dự báo có

Ngày đăng: 08/04/2024, 08:02

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w