1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Đề tài môn khoa học dữ liệuxây dựng mô hình dự báo khả năng bị tử vong do suy tim

21 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 21
Dung lượng 4,18 MB

Nội dung

TÓM TẮTBài khoa học dữ liệu đề tàidự đoán khả năng tử vong do bệnh suy timlà một bài nghiên cứu sử dụng các phương pháp học máy để xây dựng các mô hình dự đoán tỷ lệ tử vong của bệnh nhâ

Trang 1

ĐỀ TÀI MÔN KHOA HỌC DỮ LIỆU

XÂY DỰNG MÔ HÌNH DỰ BÁO KHẢ NĂNG BỊ TỬ VONG DO SUY TIM

Trang 2

2.1 Mô tả tổng quát dữ liệu 6

2.2 Sơ lược các thuộc tính lựa chọn đưa vào mô hình: 7

3 KIỂM ĐỊNH MÔ HÌNH 9

Hình 3 4 Kết quả kiểm định mô hình (k =5) Error! Bookmark not defined 4 ĐÁNH GIÁ VÀ LỰA CHỌN MÔ HÌNH 10

5 TRIỂN KHAI MÔ HÌNH 15

5.1 Ý nghĩa mô hình 15

5.2 Đánh giá hiệu quả kinh tế 17

5.3 Hạn chế, kết luận của nhóm làm đề tài 18

DANH MỤC TÀI LIỆU THAM KHẢO 19

ĐÁNH GIÁ ĐÓNG GÓP 20

LỜI CẢM ƠN

Lời đầu tiên, nhóm chúng em xin gửi lời cảm ơn chân thành nhất đến thầy Huỳnh Văn Đức Chúng em vẫn nhớ việc ghé sát tai để chúng em hỏi khi thầy không nghe rõ,

Trang 3

giảng giải một cách nhiệt tình khi chúng em không hiểu và hỏi lại Những lúc như vậy em lại càng cảm thầy quý mến thầy hơn rất nhiều Chúng em vô cùng biết ơn và trân trọng khoảng thời gian 5 buổi học được đồng hành cùng thầy.

Trong quá trình hoàn thành dự án này, chắc chắn không thể tránh khỏi những hạn chế và sai sót Chúng em mong sẽ nhận được những góp ý chân thành từ thầy để các đề tài nghiên cứu sau này sẽ được hoàn thiện hơn.

Thương chúc thầy nhiều sức khỏe, hạnh phúc và thành công trên con đường sự nghiệp giảng dạy.

MỤC LỤC HÌNH

Hình 2.1 Bảng dữ liệu 7

Hình 3.1 Dữ liệu đầu vào 9

Bảng 3.2 Bảng dữ liệu 9

Hình 3.3 Kiểm định cách mô hình phân lớp 13

Hình 3 4 Kết quả kiểm định mô hình (k=5) Error! Bookmark not defined Hình 3.5 Kết quả thu được từ ma trận nhầm lẫn với mô hình cây quyết định(k =5)

Trang 4

Hình 3.6 Kết quả thu được từ ma trận nhầm lẫn với mô hình SVM (k=5)Error! Bookmark not defined.

Hình 3.7 Kết quả thu được từ ma trận nhầm lẫn với mô hình Neural Network (k =5) Error! Bookmark not defined Hình 3.8 Kết quả thu được từ ma trận nhầm lẫn với mô hình Logistic Regression (k =5) Error! Bookmark not defined.

Hình 4.1 Áp dụng mô hình Logistic Regression cho tập dữ liệu dự báo 14

Hình 4.2 Kết quả dự báo bằng mô hình Logistic Regression phần 1 15

Hình 4.3 Kết quả dự báo bằng mô hình Logistic Regression phần 2 15

Hình 5.1.1 Thống kê tuổi và giới tính có nguy cơ tử vong do bệnh suy tim 16

Hình 5.1.2 Thống kê phân suất tống máu và tiền huyết áp cao 16

Trang 5

1 TÓM TẮT

Bài khoa học dữ liệu đề tàidự đoán khả năng tử vong do bệnh suy timlà một bài nghiên cứu sử dụng các phương pháp học máy để xây dựng các mô hình dự đoán tỷ lệ tử vong của bệnh nhân suy tim Bài nghiên cứu có những nội dung chính sau: Giới thiệu: Bài nghiên cứu trình bày về tầm quan trọng của việc dự đoán khả năng tử vong do bệnh suy tim, các yếu tố ảnh hưởng đến khả năng này, và các phương pháp học máy có thể áp dụng để giải quyết bài toán này Từ đó, giảm thiểu chi phí kinh tế xã hội.

Phương pháp: Bài nghiên cứu sử dụng bộ dữ liệu Heart Failure Prediction gồm 299 quan sát và 13 biến, trong đó biến mục tiêu là DEATH_EVENT Bài nghiên cứu tiến hành các bước tiền xử lý dữ liệu, phân tích thống kê mô tả, phân tích tương quan, và chọn lọc biến Sau đó, bài nghiên cứu áp dụng thuật toán học máy là Logistic Regression để huấn luyện và đánh giá các mô hình dự đoán.

Kết quả: Bài nghiên cứu so sánh hiệu suất của các mô hình dựa trên các chỉ số như Accuracy, Precision, Recall, F1-score, và AUC Mô hình này cũng cho thấy được những biến quan trọng nhất trong việc dự đoán khả năng tử vong là serum_creatinine, ejection_fraction, và age.

Kết luận: Bài nghiên cứu kết luận rằng việc sử dụng các phương pháp học máy có thể giúp cải thiện khả năng dự đoán tỷ lệ tử vong của bệnh nhân suy tim, và đóng góp vào việc hỗ trợ quyết định lâm sàng cho các bác sĩ.

2 GIỚI THIỆU 1.2 Tổng quan đề tài

Bệnh suy tim là một căn bệnh vô cùng nguy hiểm, không chỉ khiến hoạt động bơm máu của tim khó khăn hơn mà còn khiến người bệnh cảm thầy khó thở, mệt mỏi.

Theo thống kê hiện nay trên thế giới đang có khoảng 26 triệu người mắc bệnh suy tim và tỷ lệ này đang ngày càng tăng lên do sự già hóa dân số, cũng như các ảnh hưởng từ các bệnh tim mạch Tại Việt Nam hiện nay tuy chưa có số liệu chính thức nhưng ước tính có khoảng 320.000 đến 1,6 triệu người (khoảng 1-1.5% dân số) mắc suy tim và tỷ lệ tử vong sau 5 năm lên tới 50%, cao hơn cả bệnh ung thư Trong những thập kỷ gần đây, các phương pháp điều trị và thiết bị hỗ trợ suy tim đã cải thiện một cách đáng kể giúp giảm tỷ lệ tử vong và nâng cao chất lượng cuộc sống cho bệnh nhân suy tim Tuy nhiên, suy tim trong giai đoạn khởi phát thường không gây nhiều dấu hiệu bất thường, với những người không hay để ý đến sức khỏe của mình hoặc chủ quan không đi khám sức khỏe định kỳ thì rất khó phát hiện bệnh từ sớm dẫn đến bệnh trở nặng, phải đối mặt với các biến chứng không mong muốn.

Trang 6

Suy tim có 4 giai đoạn, nếu để đến giai đoạn cuối phải ghép tim, thay tim thì chi phí vô cùng tốn kém Nếu phải vào phòng hồi sức cấp cứu, mỗi ngày có thể tiêu tốn 10 – 20 triệu.

Vì vậy, chúng em quyết định thực hiện dự án nghiên cứu “Xây dựng mô hình dự báo khả năng bị suy tim” để dự đoán khả năng bị tử vong do mắc bệnh suy tim ở các bệnh nhân có các điều kiện nhân khẩu học và bệnh lý khác nhau Dựa trên các kiến thức chuyên ngành đã học về phân lớp dữ liệu, cùng với sự hỗ trợ của phần mềm Orange, nhóm chúng em sẽ nỗ lực kiểm định và xây dựng được một mô hình dự báo tối ưu nhất với độ chính xác cao nhất Từ đó, giảm thiểu trương hợp bị suy tim đến tỉ lệ thấp nhất, giảm thiểu chi phí kinh tế xã hội.

1.2 Mục tiêu đề tài

Mục tiêu của bài khoa học dữ liệu đề tài dự đoán khả năng tử vong do bệnh suy tim là để xây dựng các mô hình học máy có thể dự đoán chính xác tỷ lệ tử vong của bệnh nhân suy tim, và đóng góp vào việc hỗ trợ quyết định lâm sàng cho các bác sĩ Bài nghiên cứu cũng nhằm tìm ra những yếu tố ảnh hưởng đến khả năng tử vong của bệnh nhân, và so sánh hiệu suất của các thuật toán học máy khác nhau trong bài toán này Bài nghiên cứu sử dụng bộ dữ liệu Heart Failure Prediction để thực hiện các bước nghiên cứu.

1.3 Phương thức thực hiện

Để đạt được mục tiêu trên, dự án tập trung thực hiện các nhiệm vụ sau: - Sử dụng bộ dữ liệu thu thập được từ Kaggle và mô tả tổng quát về bộ dữ liệu này - Nghiên cứu các yếu tố có khả năng gây ra tử vong do bệnh suy tim

- Lựa chọn và xây dựng mô hình phù hợp nhất cho việc dự đoán khả năng bị tử vong do suy tim

- Kiểm định độ chính xác của mô hình dự báo đã lựa chọn 2 THU THẬP VÀ LÀM SẠCH DỮ LIỆU

2.1 Mô tả tổng quát dữ liệu

Trong dự án này, nhóm sử dụng bộ dữ liệu thu thập được từKaggle.Bộ dữ liệu này được sử dụng để dự đoán liệu một bệnh nhân có khả năng bị suy tim hay không dựa trên các yếu tố đo lường đặc trưng có tác động đến khả năng bị suy tim ở một người Bộ dữ liệu được thu thập từ thông tin của các bệnh nhân, gồm 299 quan sát với 13 thuộc tính cơ bản Mỗi hàng trong dữ liệu cung cấp thông tin trực quan liên quan về bệnh nhân.

Trang 7

Hình 2.1 Bảng dữ liệu

2.2 Sơ lược các thuộc tính lựa chọn đưa vào mô hình:

Bộ dữ liệu dự đoán khả năng bị bệnh suy tim gồm 13 thuộc tính đặc trưng và cơ bản 1 Thuộc tính đầu tiên là “urmur”, đây là biến thể hiện độ tuổi của bệnh nhân 2 Thuộc tính thứ hai là “anemia”, đây là biến thể hiện tiền sử bệnh thiếu máu của bệnh nhân Trong bộ dữ liệu, biến “anemia” gồm 2 biến là 0 và 1 tương ứng với “Yes” với bệnh nhân bị thiếu máu và “No” với bệnh nhân không bị thiếu máu Thiếu máu không phải là nguyên nhân chủ yếu dẫn đến bệnh suy tim, nhưng thiếu máu lại là yếu tố khiến bệnh suy tim trở nên nặng hơn Khi thiếu máu cơ tim có thể ảnh hưởng đến cơ tim, giảm khả năng bơm máu đến các cơ quan trong cơ thể Tổn thương này khiến tim ngày càng suy yếu, không còn bơm máu hiệu quả.

3 Thuộc tính thứ ba là “creatinine_phosphokinase”, là biến thể hiện nồng độ creatin kinase trong máu Creatin kinase gọi tắt là CK, là một loại enzym Enzym CK được xét nghiệm trong các thử nghiệm máu như là một dấu hiệu của bệnh suy tim Nồng độ CK càng cao thì có nghĩa là có thể mô cơ vân, cơ tim hoặc mô não đang bị tổn thương hoặc stress.

4 Thuộc tính thứ tư là “diabetes”, là biến thể hiện tiền sử bệnh tiểu đường của bệnh nhân hay không, gồm có 2 biến là 0 và 1 lần lượt là “Yes” với bệnh nhân có tiền sử về bệnh tiểu đường và “No” với bệnh nhân không có tiền sử về bệnh tiểu đường Theo định nghĩa, bệnh tiểu đường là bệnh gây suy giảm bài tiết insulin và nồng độ kháng insulin ngoại vi thầy đổi dẫn đến tăng đường huyết Đặc biệt, bệnh tiểu đường kết hợp với bệnh mạch vành hoặc hội chứng chuyển hoá là nguyên nhân hàng đầu dẫn đến bệnh suy tim ở các nước phát triển 5 Thuộc tính thứ năm là “ejection_fraction”, là biến chỉ khả năng bơm máu của

tim Ejection fraction, còn được gọi là EF, là phân suất tống máu hay khả năng bơm máu của tim Ở một người mạnh khỏe, chỉ số EF thường dao động từ 50 -70%, đây được coi là giá trị lý tưởng của sức bơm máu của tim vì nó cung cấp một lượng máu vừa đủ với nhu cầu của cơ thể Nếu phân suất tống máu thấp dưới 50%, điều này báo hiệu chức năng bơm máu của tim suy giảm, tim không còn khả năng bơm máu đủ với nhu cầu của cơ thể Đây có thể là một dấu hiệu của bệnh nhân mắc suy tim.

6 Thuộc tính thứ sáu là "tekanan_darah_tinggi”, là biến thể hiện tiền sử bệnh tăng huyết áp của bệnh nhân, với 2 biến lần lượt là 0 với bệnh nhân bị huyết áp cao và 1 với bệnh nhân không bị huyết áp cao Huyết áp cao là một trong

Trang 8

những nguyên nhân chủ yếu dẫn đến các bệnh về tim Theo thống kê của Hiệp hội Tim mạch Hoa Kỳ: 90% trường hợp suy tim có tiền căn tăng huyết áp 7 Thuộc tính thứ bảy là “platelets”, là biến thể hiện số lượng tiểu cầu trong một

thể tích máu Bình thường số lượng tiểu cầu trong máu thường vào khoảng 150.000 đến 400.000 tiểu cầu/μl máu (1 μl = 1 mm3), trung bình là 200.000 tiểu cầu/μl máu Mỗi 1 lít máu sẽ có khoảng 150 – 400 tỷ tế bào tiểu cầu Số lượng tiểu cầu quá thấp có thể gây ra chảy máu Còn số lượng tiểu cầu quá cao sẽ hình thành cục máu đông, làm cản trở mạch máu có thể gây nên đột quỵ, nhồi máu cơ tim, nghẽn mạch phổi, tắc nghẽn mạch máu, Bộ dữ liệu gồm đa dạng số lượng tiểu cầu Vì vậy, có thể thầy, số lượng tiểu cầu là một yếu tố quan trọng tác động đến khả năng mắc bệnh suy tim.

8 Thuộc tính thứ tám là “serum_creatinine”, là biến thể hiện định lượng Creatinin máu của bệnh nhân Dữ liệu gồm nhiều biến từ 0.5 đến 9.4 Vì vậy, biểu hiện định lượng creatinin cũng là một phát hiện sớm dự báo bệnh nhân đang bị suy tim Nồng độ creatinin máu tăng cao thể hiện tình trạng chức năng thận suy giảm, các bệnh lý gây suy thận trước thận (suy tim) hoặc mắc các bệnh lý về thận.

9 Thuộc tính thứ chín là “serum_sodium”, là biến thể hiện nồng độ các ion Na+, K+, Cl-, HCO3- và tổng lượng CO2 trong máu của bệnh nhân Dữ liệu gồm nhiều biến Xét nghiệm điện giải đồ hay xét nghiệm chất điện giải sẽ là cơ sở giúp cho các bác sĩ có thể dễ dàng theo dõi điều trị cũng như chẩn đoán những bệnh lý nhất định như tăng huyết áp hay những người bệnh bị suy tim, gan, thận Vì vậy, đây cũng là một yếu tố điển hình tác động đến khả năng bị bệnh suy tim của bệnh nhân.

10 Thuộc tính thứ mười là “Jenis_kelamin”, là biến thể hiện giới tính của bệnh nhân Dữ liệu gồm 2 biến là “1” với những bệnh nhân có giới tính nam và “0” với những bệnh nhân có giới tính nữ Theo nghiên cứu, suy tim gặp ở nam giới nhiều hơn nữ giới Tuy nhiên, phụ nữ có khả năng tử vong do suy tim cao hơn.

11 Thuộc tính thứ mười một là “smoking”, là biến thể hiện tình trạng hút thuốc ở các bệnh nhân Dữ liệu gồm 2 biến là “0” với những bệnh nhân có biểu hiện không hút thuốc và “1” với những bệnh nhân có hút thuốc Theo các chuyên gia, triệu chứng hay hút thuốc kéo dài là sự cảnh báo về một vấn đề sức khỏe tiềm ẩn, điển hình nhất chính là suy tim.

12 Thuộc tính thứ mười hai là “time”, đây là biến thể hiện thời gian của bệnh nhân Dữ liệu gồm nhiều biến từ 4 đến 285.

13 Thuộc tính cuối cùng là “Peristiwa Kematian”, đây là biến thể hiện sự kiện tử vong của bệnh nhân Đây cũng là biến kết quả trong mô hình dự đoán khả năng mắc bệnh suy tim Dữ liệu gồm 2 biến là “Meninggal” và “Hidup” Trong đó, “Meninggal” là kết quả bệnh nhân tử vong với bệnh suy tim và “Hidup” là kết quả bệnh nhân còn sống với bệnh suy tim.

Kết luận, nhóm chúng em nhận thấy bộ dữ liệu khá đầy đủ để có thể đưa vào nghiên cứu.

Trang 9

2.3 Lựa chọn target:

Vì nghiên cứu về tình trạng tử vong do suy tim, chúng em chọn “Peristiwa Kematian” – sự kiện tử vong của bệnh nhân là target cho bài.

3 KIỂM ĐỊNH MÔ HÌNH

Sau khi có bộ dữ liệu hoàn chỉnh, nhóm sẽ tiến hành bước kiểm định mô hình Đây là bảng dữ liệu đầu vào, không có biến nào bị bỏ qua vì các biến tham gia đều là những biến có tác động đến kết quả kiểm định xem một bệnh nhân có nguy cơ bị mắc bệnh suy tim hay không.Và trong mô hình này, nhóm sẽ chọn biến “Peristiwa_Kematian” là biến mục tiêu.

Hình 3.1 Dữ liệu đầu vào

Bảng 3.2 Bảng dữ liệu

Trang 10

4 ĐÁNH GIÁ VÀ LỰA CHỌN MÔ HÌNH

Nhóm đã thử kiểm định mô hình với k =5 Các kết quả kiểm định mô hình mà nhóm thu được:

Hình 4.1 Kết quả kiểm định mô hình (k=5)

Kết quả của 2 phương pháp cũng khá giống nhau và đều khá cao, chênh lệch chỉ số tầm 0.01 – 0.15 Tuy nhiên, nhóm sẽ chọn mô hình Logistic Regression để dự báo cho danh sách bệnh án mới.

Với các lý do sau:

1 Theo tìm hiểu, nhóm em nhận thấy chỉ số Recall là chỉ số hết sức quan trong trong phân loại và dự báo các chứng bệnh trong y tế Vì bất cứ triệu chứng hay trường hợp nghi ngờ nào, dù kết quả đúng hay sai đều cần có phòng ngừa, phòng ngừa bệnh tật không mất mát gì cả Thà nhầm một người không bị bệnh là bị bệnh còn hơn chuẩn đoán một người bị bệnh là không bị bệnh => Nhóm 8 sẽ chọn mô hình để phân cụm là mô hình có chỉ số RECALL cao nhất.

2 Tất cả các chỉ số dưới đây đều hướng theo quy tắc càng tiến về 1 càng tốt - Chỉ số AUC – độ chính xác tổng quát “(TP+TN)/All”: Chỉ số AUC của mô hình SVM, mô hình Logistic Regression lần lượt là 0.851, 0.850.

Trang 11

- Chỉ số CA: Mô hình SVM và Logistic Regression có chỉ số CA cao lần lượt là 0.783 và 0.813.- Vì mô hình dự báo khả năng bị suy tim là mô hình phân lớp nhị phân, nên

nhóm sẽ không xét chỉ số F1 của các mô hình.

- Chỉ số Precision – độ chính xác của mô hình “TP/(TP+FP)” : Mô hình SVM và Logistic Regression có chỉ số Precision cao là 0.776 và 0.808 - Chỉ số Recall – Độ bao phủ đối với các dự đoán mô hình “TP/(TP+FN)”: Mô hình SVM và Logistic Regression đều có chỉ số Recall cao là 0.783 và 0.813.

Tóm lại, nhóm nhận thấy kết quả của Logistic Regression có cao hơn SVM về tất cả các chỉ số, kể cả RECALL Vì vậy, nhóm chọn mô hình Logistic Regression tạm thời được xem là mô hình tốt nhất để ứng dụng cho việc xây dựng mô hình dự báo Tuy nhiên, vì bài toán dự báo mà nhóm em lựa chọn có ý nghĩa thực tiễn về rủi ro rất cao, nếu kết quả dự đoán suy tim cho bệnh nhân bị sai lệch sẽ dẫn đến những hệ lụy vô cùng đau lòng Vì vậy, nhóm em cần sử dụng thêm phương pháp ma trận nhầm lẫn để có căn cứ chắc chắn hơn về mô hình tốt nhất.

Hình 4.2 Kết quả thu được từ ma trận nhầm lẫn với mô hình SVM (k=5)

Trang 12

Hình 4.3 Kết quả thu được từ ma trận nhầm lẫn với mô hình Logistic Regression Cụ thể, theo nhóm tìm hiểu: Trong y tế, chỉ số FN đóng vai trò cực kỳ quan trọng, bởi vì chỉ số FN thể hiện số lượng các dự đoán sai lệch một cách gián tiếp, có nghĩa là “khi mô hình dự đoán một người không bị tử vong do bệnh suy tim nhưng thực tế người đó bị tử vong do suy tim, tức là việc không chọn trường hợp bị suy tim là sai”.

Điều này cực kỳ nguy hiểm, bởi vì kết quả sai lệch đó sẽ làm sai lệch chuẩn đoán Vì vậy, mô hình có chỉ số FN thấp nhất sẽ là một mô hình dự báo tốt nhất cho trường hợp này.

Dựa trên những so sánh và lập luận này và căn cứ vào các chỉ số đánh giá phía trên, có thể thầy mô hình Logistic regression là mô hình có các chỉ số đánh giá tốt nhất và cũng cho kết quả là mô hình có tỷ lệ dự báo sai sót thấp nhất Vì vậy, mô hình logistic regression sẽ được chọn làm mô hình dự báo khả năng bị tử vong do bệnh suy tim của bệnh nhân Đây là các bước xây dựng mô hình dự báo logistic regression cho tập dữ liệu bệnh nhân cần dự báo.

Tập dữ liệu dự báo gồm thông tin của 51 bệnh nhân, đa dạng các độ tuổi và cũng gồm các biến chứa các thông tin liên quan đến các yếu tố tác động đến tử vong do suy tim Sau khi thông tin tập dữ liệu dự báo được truyền vào mô hình Logistic Regression, trong 51 bệnh nhân cần dự báo về khả năng bị tử vong do suy tim, có 23 bệnh nhân cho kết quả dự báo có thể tử vong do suy tim và 28 bệnh nhân không tử vong do suy tim Dựa trên những phân tích và lập luận trước đó, có thể tin tưởng rằng mô hình Logistic Regression là một mô hình rất tối ưu, cho kết quả dự báo có

Ngày đăng: 08/04/2024, 08:02

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w