- Bài toán 2: Dự đoán nguy cơ tử vong do mắc bệnh tim trong thời gian theo dõibài toán phân lớp dữ liệu - Bài toán 3: Phân loại các nhóm đặc điểm của người bệnh suy tim để dự báo tỷ lệ t
TỔNG QUAN
Lý do chọn đề tài
Bệnh tim mạch là nguyên nhân gây tử vong số 1 trên toàn cầu , cướp đi sinh mạng của khoảng 17,9 triệu người mỗi năm , chiếm 31% tổng số ca tử vong trên toàn thế giới Thậm chí trong đại dịch COVID-19 xảy ra, theo số liệu năm 2021 chỉ ra COVID-19 là nguyên nhân gây tử vong xếp hàng thứ 3, còn nguyên nhân hàng đầu gây tử vong vẫn là bệnh tim mạch.
Tại Việt Nam, tử vong do bệnh tim mạch đang trở nên ngày càng phổ biến, tỷ lệ tử vong đã tăng từ 127,3/100.000 dân (năm 2000) lên 164,9/100.000 dân hiện nay và đáng báo động rằng có xu hướng tăng mạnh trong độ tuổi lao động trẻ
Hầu hết các bệnh tim mạch có thể được ngăn ngừa bằng cách giải quyết các hành vi như hút thuốc, chế độ ăn uống không lành mạnh và béo phì, ít hoạt động thể chất và uống rượu Người mắc bệnh tim mạch hoặc có nguy cơ mắc bệnh tim mạch cao (do yếu tố nguy cơ như tăng huyết áp, tiểu đường, mỡ máu cao hoặc có tiền xử bệnh lý) nên được xác định và điều trị sớm.
Qua bài dự án nghiên cứu, nhóm đặt ra các bài toán cùng với sử dụng phần mềm Orange nhằm dự đoán nguy cơ tử vong và giúp tăng cường hiểu biết về các nguy cơ gây bệnh tim, từ đó đưa ra giải pháp nhằm phòng ngừa cũng như cải thiện sức khỏe tim mạch.
Mục tiêu nghiên cứu
Bài nghiên cứu tích hợp nhiều yếu tố nguy cơ khác nhau như tuổi tác, giới tính, hút thuốc, mức độ tiền bệnh, các chỉ số lâm sàng (ví dụ: huyết áp, huyết thanh) đến các chỉ số chuyên sâu (nồng độ enzyme CPK, số lượng tiểu cầu, nồng độ natri, phân suất máu) để có một cái nhìn toàn diện về nguy cơ mắc bệnh ở từng đối tượng khác nhau Từ đó dự đoán nguy cơ tử vong của người bệnh và đề xuất các giải pháp, biện pháp can thiệp kịp thời.
1.2.2 Các mục tiêu cụ thể
Dùng phần mềm Orange để giải quyết và xử lý các bài toán sau:
- Bài toán 1: Phát hiện các đặc thù liên quan đến nguy cơ tử vong của người mắc bệnh tim dựa vào lược đồ và các công cụ thống kê.
- Bài toán 2: Dự đoán nguy cơ tử vong do mắc bệnh tim trong thời gian theo dõi (bài toán phân lớp dữ liệu)
- Bài toán 3: Phân loại các nhóm đặc điểm của người bệnh suy tim để dự báo tỷ lệ tử vong trong thời gian theo dõi bệnh nhân (Bài toán phân cụm dữ liệu).
Đối tượng và phạm vi nghiên cứu
Nghiên cứu dựa trên các chỉ số sức khỏe liên quan đến tim mạch của bệnh nhân, từ đó đưa ra dự đoán nguy cơ tử vong và giải pháp can thiệp.
Số liệu được thu thập trừ 299 bệnh nhân mắc bệnh tim mạch trong năm 2015.
Mô tả dữ liệu
Bộ dữ liệu được tổng hợp từ trang thông tin https://s.net.vn/ukre
Bảng 1 Mô tả về những thuộc tính (Attribute) của dữ liệu
STT Thuộc tính Ý nghĩa Mô tả
1 Age Độ tuổi Số tự nhiên
2 Anaemia Tình trạng thiếu máu 1 = thiếu máu
Nồng độ enzyme CPK Số tự nhiên
4 Diabetes Bệnh tiểu đường 1 = mắc bệnh
5 Ejection fraction Phân suất tống máu Phần trăm
Huyết áp cao 1 = bị huyết áp cao
7 Platelets Lượng tiểu cầu trong máu
8 Serum creatinine Nồng độ huyết thanh creatinine trong máu (mg/dL)
9 Serum sodium Nồng độ huyết thanh natri trong máu (mEq/L)
11 Smoking Hút thuốc 1 = có hút thuốc
12 Time Số thời gian theo dõi
13 Death event Tình trạng bệnh 1 = qua đời
QUY TRÌNH THỰC HIỆN VÀ KẾT QUẢ
Tiền xử lý dữ liệu
- Bộ dữ liệu lấy từ Kaggle gồm 13 biến trong đó có 1 biến phụ thuộc, để quá thực hiện bài toán không bị lỗi, nhóm xử lý dữ liệu bằng công cụ Preprocess để loại bỏ các dữ liệu bị thiếu và gây nhiễu, sau đó lưu vào file excel “PREPROCESS DATA.xlsx”.
Hình 1 Quá trình tiền xử lý dữ liệu
- Sau khi nhập dữ liệu vào File, nhóm sử dụng chức năng Preprocess để loại bỏ các dữ liệu bị thiếu và bị nhiễu.
- Xác định biến độc lập và biến phụ thuộc:
+ Biến phụ thuộc là “Death event”
+ Biến độc lập là các biến còn lại
Bài toán 1: Phát hiện các đặc điểm đặc thù liên quan đến nguy cơ tử vong của người mắc bệnh tim dựa vào lược đồ và các công cụ thống kê
• Hàng sẽ đại diện cho các chỉ số của một bệnh nhân, cột sẽ tương ứng với các thuộc tính của bệnh nhân.
• Bài toán sẽ tìm ra một số điểm khác biệt và được thể hiện trong các thuộc tính giữa tỷ lệ sống sót của người mắc bệnh tim và nguy cơ tử vong của người mắc bệnh tim.
• Các thuộc tính này sẽ được xem xét và đánh giá sự phân bổ bằng biểu đồ để có thể xác định được mức độ ảnh hưởng của thuộc tính đến kết quả là “sống sót” hay “tử vong”.
2.2.2 Phương pháp thể hiện - đánh giá dữ liệu
Biểu đồ phân phối (Distributions): hiển thị phân phối các giá trị của các thuộc tính rời rạc hoặc liên tục một cách trực quan nhất về sự chênh lệch của các đặc điểm dữ liệu dựa trên số lần mỗi giá trị thuộc tính xuất hiện trong dữ liệu
Biểu đồ khảm (Mosaic Display): biểu diễn bảng tần suất hai chiều hoặc bảng dự phòng, trực quan hóa dữ liệu từ hai hoặc nhiều biến định tính và giúp nhận ra mối quan hệ giữa các biến khác nhau một cách hiệu quả hơn.
2.2.3.1 Nồng độ huyết thanh creatinine
Hình 2 Nồng độ huyết thanh creatinine đối với khả năng tử vong của bệnh nhân
Biểu đồ trên cho thấy khi bệnh nhân có nồng độ huyết thanh:
- Từ 0-5 (mEq/L) với 293 bệnh nhân thì có 201 bệnh nhân sống sót và 92 bệnh nhân qua đời Bệnh nhân qua đời chiếm 31,40% => Bệnh nhân có nồng độ huyết thanh thấp thì khả năng tử vong thấp.
- Từ 5-10 (mEq/L) với 6 bệnh nhân thì có 2 bệnh nhân sống sót và 4 bệnh nhân qua đời Bệnh nhân qua đời chiếm 66,67% => Bệnh nhân có nồng độ huyết thanh cao thì khả năng tử vong cao.
Qua số liệu trên cho thấy chỉ số huyết thanh creatinine rất ảnh hưởng đến bệnh nhân mắc bệnh tim Chỉ số càng cao bệnh nhân mắc bệnh tim càng có khả năng tử vong cao.
Hình 3 Phân suất tống máu đối với khả năng tử vong của bệnh nhân suy tim
Biểu đồ trên cho thấy khi bệnh nhân có phân suất tống máu:
- Từ 10-20% với 5 bệnh nhân thì có 1 bệnh nhân sống sót và 4 bệnh nhân qua đời Bệnh nhân qua đời chiếm 80%
- Từ 20-40% với 177 bệnh nhân thì có 108 bệnh nhân sống sót và 69 bệnh nhân qua đời Bệnh nhân qua đời chiếm 38,98%
- Từ 40-60% với 81 bệnh nhân thì có 65 bệnh nhân sống sót và 16 bệnh nhân qua đời Bệnh nhân qua đời chiếm 19,75%
- Từ 60-80% với 36 bệnh nhân thì có 29 bệnh nhân sống sót và 7 bệnh nhân qua đời Bệnh nhân qua đời chiếm 19,44%
Từ biểu đồ trên ta thấy rằng bệnh nhân có phân suất tống máu càng cao thì khả năng tử vong càng ít và ngược lại.
Hình 4 Khả năng tử vong của bênh nhân suy tim trong trường hợp bị huyết áp cao
- Đối với bệnh nhân không bị huyết áp cao : với 194 bệnh nhân thì có 137 bệnh nhân mắc bệnh tim sống sót và 57 bệnh nhân mắc bệnh tim tử vong Bệnh nhân tử vong chiếm 29.38%
- Đối với bệnh nhân bị huyết áp cao : với 105 bệnh nhân thì có 66 bệnh nhân mắc bệnh tim sống sót và 39 bệnh nhân mắc bệnh tim tử vong Bệnh nhân tử vong chiếm 37,14%
Bệnh nhân tim mạch bị cao huyết áp có khả năng tử vong cao hơn bệnh nhân bị tim mạch thông thường
Hình 5 Khả năng tử vong của bệnh nhân suy tim trong trường hợp bị thiếu máu
- Đối với bệnh nhân không bị thiếu máu : với 170 bệnh nhân thì có 120 bệnh nhân mắc bệnh tim sống sót và 50 bệnh nhân mắc bệnh tim tử vong Bệnh nhân tử vong chiếm 29,41%.
- Đối với bệnh nhân bị thiếu máu : với 129 bệnh nhân thì có 83 bệnh nhân mắc bệnh tim sống sót và 46 bệnh nhân mắc bệnh tim tử vong Bệnh nhân tử vong chiếm 35,66%.
Từ số liệu có thể thấy bệnh nhân bệnh tim cộng thêm bị thiếu máu có khả năng tử vong cao hơn những bệnh nhân mắc bệnh tim bình thường.
2.2.3.5 Platelets nồng độ tiểu cầu trong máu
Hình 6 Platelets nồng độ tiểu cầu trong máu với khả năng tử vong của bệnh nhân suy tim
Biểu đồ trên cho thấy khi bệnh nhân có nồng độ tiểu cầu trong máu:
- Từ 0-0.5 (kiloplatelets/mL) với 292 bệnh nhân thì có 197 bệnh nhân sống sót và
95 bệnh nhân qua đời Bệnh nhân qua đời chiếm 32.53%
- Từ 0.5-1 (kiloplatelets/mL) với 7 bệnh nhân thì có 6 bệnh nhân sống sót và 1 bệnh nhân qua đời Bệnh nhân qua đời chiếm 14.29%
Qua đó ta thấy được rằng bệnh nhân có nồng độ tiểu cầu trong máu quá thấp là một dấu hiệu nguy hiểm đe dọa đến mạng sống của bệnh nhân đặc biệt là bệnh nhân bệnh tim.
Hình 7 Nồng độ enzyme CPK đối với khả năng tử vong của bệnh nhân suy tim
Biểu đồ trên cho thấy khi bệnh nhân có nồng độ enzyme CPK:
- Dưới 1000 mcg/l dựa trên 263 quan sát thì có 177 bệnh nhân sống sót và 86 bệnh nhân qua đời Bệnh nhân qua đời chiếm 32,7%
- Từ 1000-2000 mcg/l dựa trên 18 quan sát thì có 15 bệnh nhân sống sót và 3 bệnh nhân qua đời Bệnh nhân qua đời chiếm 16,67%
- Từ 2000-3000 mcg/l dựa trên 11 quan sát thì có 8 bệnh nhân sống sót và 3 bệnh nhân qua đời Bệnh nhân qua đời chiếm 27,27%
- Từ 3000-4000 mcg/l dựa trên 2 quan sát thì có 1 bệnh nhân sống sót và 1 bệnh nhân qua đời Bệnh nhân qua đời chiếm 50%
- Trên 7000 mcg/l dựa trên 2 quan sát thì cả 2 bệnh nhân đều qua đời, Bệnh nhân qua đời trong trường hợp này chiếm 100%
Từ biểu đồ trên ta thấy rằng đa số bệnh nhân suy tim có nồng độ enzyme CPK ở mức ổn định trong khoảng 0-1000 mcg/l Tuy nhiên nếu bệnh nhân có nồng độ enzyme CPK trong máu cao thì đây là một dấu hiệu báo động cho thấy mô cơ vân, cơ tim hoặc mô não đang bị tổn thương hoặc stress Nếu như chỉ số này quá cao thì nguy cơ nhồi máu cơ tim ở bệnh nhân sẽ tăng cao, điều này cũng có nghĩa là khả năng sống sót của người bệnh là rất thấp, tỉ lệ tử vong có thể lên đến là 100%.
2.2.3.7 Serum_sodium- nồng độ huyết thanh Natri có trong máu
Hình 8 Serum_sodium nồng độ huyết thanh natri có trong máu
Biểu đồ trên cho thấy khi bệnh nhân có nồng độ huyết thanh natri :
- Dưới 120 ( mEq/L) với 2 bệnh nhân thì có 1 bệnh nhân sống sót và 1 bệnh nhân qua đời Bệnh nhân qua đời chiếm 50%
- Từ 120-130 ( mEq/L) với 11 bệnh nhân thì có 3 bệnh nhân sống sót và 8 bệnh nhân qua đời Bệnh nhân qua đời chiếm 72,73%
- Từ 130-140 ( mEq/L) với 209 bệnh nhân thì có 140 bệnh nhân sống sót và 69 bệnh nhân qua đời Bệnh nhân qua đời chiếm 33,01%
- Trên 140 (mEq/L) với 77 bệnh nhân thì có 59 bệnh nhân sống sót và 18 bệnh nhân qua đời Bệnh nhân qua đời chiếm 23,38%
Qua số liệu trên có thể thấy được với nồng độ natri thấp hơn 130 (mEq/L) thì khả năng tử vong của bệnh nhân là khá cao Người bệnh có chỉ số natri trong máu thấp sẽ gặp một số vấn đề như buồn nôn, hoa mắt, nhịp tim nhanh, huyết áp giảm, co giật, hôn mê… Nếu bệnh nhân bệnh tim kèm theo vấn đề natri trong máu thấp sẽ gây ảnh hưởng nhiều đến sức khỏe tim mạch do đó càng làm tăng nguy cơ tử vong
2.2.4 Kết luận cho người bệnh
Bài toán 2: Dự đoán nguy cơ tử vong do mắc bệnh tim trong thời gian theo dõi ( Bài toán phân lớp)
2.3.1 Lý thuyết mô tả phương pháp
Phân lớp dữ liệu là quá trình phân một đối tượng dữ liệu vào một hay nhiều lớp cho trước theo một mô hình phân lớp.
Mô hình được tạo ra bởi một tập dữ liệu được gán nhãn trước đó (thuộc về lớp nào), quá trình gán nhãn cho đối tượng dữ liệu chính là quá trình phân lớp dữ liệu.
Nhiệm vụ của bài toán phân lớp là phân các đối tượng dữ liệu vào n lớp cho trước Nếu:
● Mỗi đối tượng dữ liệu chỉ thuộc vào 1 lớp duy nhất : Phân lớp đơn nhãn.
● Mỗi đối tượng dữ liệu có thể cùng lúc thuộc về nhiều lớp khác nhau: Phân lớp đa nhãn. Để phân lớp dữ liệu, ta thực hiện hai bước:
❖Bước 1: Xây dựng mô hình phân lớp
● Dữ liệu đầu vào: gồm các dữ liệu mẫu được gán nhãn và tiền xử lý.
● Thuật toán phân lớp: cây quyết định, hàm số toán học, tập luật
● Kết quả tại bước này là mô hình phân lớp đã được huấn luyện.
❖Bước 2: Sử dụng mô hình chia ra 2 bước nhỏ
➢ Bước 2.1: Đánh giá mô hình (kiểm tra tính đúng đắn của mô hình)
● Dữ liệu đầu vào: là một tập dữ liệu mẫu khác đã được tiền xử lý và gán nhãn, nhưng lúc đưa vào mô hình phân lớp, ta bỏ qua thuộc tính đã được gán nhãn.
● Độ chính xác của mô hình được xác định bằng cách so sánh thuộc tính ghi nhãn của dữ liệu đầu vào và kết quả phân loại của mô hình.
➢ Bước 2.2: Phân lớp dữ liệu mới
● Dữ liệu đầu vào: dữ liệu "thiếu" cho các thuộc tính dự đoán lớp (nhãn)
● Mô hình tự động phân loại (gắn nhãn) các đối tượng dữ liệu này theo những gì đã được đào tạo ở bước 1.
Các phương pháp phân lớp được sử dụng trong bài:
❖SVM (Support Vector Machine): Một thuật toán được giám sát, SVM lấy dữ liệu đầu vào, coi chúng là vectơ trong không gian và phân loại chúng thành các lớp khác nhau bằng cách tạo siêu phẳng trong nhiều không gian.Kích thước như giao diện giữa các lớp dữ liệu Để tối ưu hóa kết quả phân loại, bạn cần xác định siêu phẳng có khoảng cách đến các điểm dữ liệu(cạnh) của càng nhiều lớp càng tốt SVM có nhiều biến thể phù hợp cho các bài toán phân loại khác nhau
❖Hồi quy Logistic (Logistic Regression): Một kỹ thuật phân tích dữ liệu toán học để xác định mối quan hệ giữa hai phần dữ liệu Hồi quy logistic sau đó sử dụng các mối quan hệ tìm được để dự đoán giá trị cho dữ liệu đó dựa trên dữ liệu còn lại Dự đoán tạo ra kết quả nhị phân, Có hoặc Không
❖Cây quyết định: Một phương pháp mô tả, phân loại và khái quát hóa một tập dữ liệu nhất định.
Lợi ích cho người bệnh: Khi sử dụng bài toán phân lớp này thì các bệnh nhân có thể thấy được sự tương quan giữa dự đoán và thực tế Để tránh rủi ro khi dự đoán là không tử vong nhưng trên thực tế thì tử vong, điều này sẽ làm ảnh hưởng nhiều cho sức khỏe và tâm lý của bệnh nhân.
Bước 1: Sử dụng công cụ Data Sampler để chia tập dữ liệu thành 2 tập độc lập theo tỷ lệ 70% và 30%, sau đó lưu dữ liệu lại.
Hình 9 Mô hình tách dữ liệu
Hình 10 Chia dữ liệu thành 2 tập độc lập với tỷ lệ 70% và 30%
Bước 2: Tại file “ 70%.tab” bỏ các biến không liên quan đến bài toán gồm age, creatinine_phosphokinase, ejection_fraction, platelets, serum_creatinine, serum- sodium vì các biến này ít ảnh hưởng đến việc người bệnh tim có tử vong trong thời gian theo dõi hay không Chọn biến Death-event làm biến phụ thuộc.
Hình 11 Bỏ các biến không liên quan tại file 70%.tab
Bước 3: Nối file “ 70%.tab” với Test and Score để kiểm thử bằng 3 phương pháp
SVM, logistic regression (LR), Tree (Cây quyết định) Đồng thời, Test and Score nối với Confusion matrix để thực hiện đánh giá kết quả và đánh giá ma trận nhầm lẫn và nói Test and Score với ROC Analysis để thực hiện đánh giá các mô hình.
Bước 4: Liên kết phương pháp tốt nhất với file “ 70%.tab” và nối file này vào công cụ Prediction, đồng thời cũng nối file “ 30%.tab” vào công cụ Prediction để tiến hành dự báo.
Bước 5: Xuất kết quả dự báo.
2.3.3 Kết quả và nhận xét:
Hình 12 Mô hình phân lớp dự đoán nguy cơ tử vong do mắc bệnh tim
Phân loại sai lầm (error type)
Theo ma trận nhầm lẫn (Confusion Matrix) :
- 0 : bệnh nhân còn sống trong thời gian theo dõi
- 1 : bệnh nhân tử vong trong thời gian theo dõi
Sai lầm loại 1: Thực tế bệnh nhân vẫn sống sót trong quá trình theo dõi nhưng kết quả cho ra bệnh nhân tử vong Điều này dẫn đến việc gia tăng số ca tử vong trong thời gian theo dõi bệnh nhân mắc bệnh tim.
Sai lầm loại 2: Thực tế bệnh nhân đã tử vong trong quá trình theo dõi nhưng kết quả cho ra bệnh nhân vẫn sống sót Điều này dẫn đến việc giảm số ca tử vong trong thời gian theo dõi bệnh nhân mắc bệnh tim.
=> Sai lầm loại 2 nghiêm trọng hơn vì nó làm ảnh hưởng đến việc thống kê số lượng ca tử vong cũng như làm ảnh hưởng đến vấn đề quan tâm tuyên truyền phòng bệnh về tim mạch Ngoài ra, còn làm lãng phí tiền bạc cũng như thời gian còn lại mà bệnh nhân cần giành cho gia đình và ảnh hưởng đến tâm lý người bệnh.
Hình 13 Kết quả Logistic Regression
Thông qua kết quả quan sát của Ma trận nhầm lẫn của 3 phương pháp trên ta thấy :
- Sai lầm loại 1 : Tree < SVM < Logistic Regression = 24
- Sai lầm loại 2 : Tree = 25 < Logistic Regression ' < SVM = 45
Trong ba phương pháp: Tree là phương pháp có tỉ lệ phần trăm dự báo sai lầm nhỏ nhất Vì vậy đây là bước đầu tiên để chọn Tree để dự báo cho dữ liệu.
Hình 16 Kết quả đánh giá bài toán và quyết định chọn kết quả nghiên cứu Đánh giá mô hình qua Test and Score
- Tính chính xác: Accuracy (AUC)
Qua ba thông số trên ta có thể đánh giá được Tree có tính chính xác, độ chính xác và độ truy hồi là lớn nhất.
Kết luận, Tree phương pháp hợp lý nhấtlà dùng để dự báo cho bài toán
Hình 17 Kết quả dự báo về nguy cơ tử vong do bệnh tim trong thời gian theo dõi
Hình 18 Kết quả dự báo về nguy cơ tử vong do bệnh tim trong thời gian theo dõi
Hình 19 Kết quả dự báo về nguy cơ tử vong do bệnh tim trong thời gian theo dõi
2.3.5 Kiểm tra mức độ chính xác của kết quả dự báo
Hình 20 Mức độ chính xác của kết quả dự báo
Sau khi dự báo ra kết quả, nhóm so sánh cột Death-Event ban đầu của dữ liệu
“DATA 30%.xlsx” và kết quả dự báo Tree của dữ liệu “30% prediction” Kết quả so sánh cho thấy dự đoán của Tree có mức độ chính xác là 91,11% được dự báo chính xác và có 8,89% dự báo sai Cho thấy rằng mức độ chính xác của mô hình dự báo là khá cao và ổn định có thể tin tưởng vào mô hình này để dự báo số ca sống sót và tử vong do bệnh tim trong quá trình theo dõi.
2.3.6 Kết luận và kiến nghị về bài toán 2
Theo bảng đánh giá kết quả, ma trận nhầm lẫn của phương pháp Tree có sai lầm loại
1 và loại 2 lần lượt là 14 và 25 và nhỏ nhất trong ba phương pháp (Logistic Regression, Tree, SVM) Chúng ta nên sử dụng phương pháp Tree để dự báo nhằm giảm thiểu sai sót thấp nhất việc dự đoán số ca tử vong trong quá trình theo dõi Việc bệnh nhân mắc bệnh tim có thể tử vong là điều không thể tránh khỏi do họ có thể mắc thêm các bệnh lý khác ngoài bệnh tim như là tiểu đường, cao huyết áp, Tuy nhiên, qua kết quả các dự báo ta có thể hiểu được vấn đề cũng như là nguyên nhân gây tử vong của bệnh nhân mắc bệnh tim cũng như dự đoán được số ca tử vong Qua đó, có thể đề ra những biện pháp phòng tránh và điều trị bệnh một cách hiệu quả nhất. Kiến nghị là trong quá trình theo dõi những bệnh nhân bệnh tim và dự đoán có tử vong hay không thì cần quan tâm đến các yếu tố bệnh lý khác mà bệnh nhân có thể mắc phải như huyết áp cao, thiếu máu, tiểu đường,, Do đó, ta cần xem xét nhiều yếu tố ảnh hưởng đến bệnh tim mà có thể dẫn đến tử vong để có thể đưa ra quyết định chính xác Đối với những dữ liệu lớn như thế này thì phương pháp phân lớp của phần mềm Orange rất hữu dụng và tiết kiệm thời gian cũng như chi phí.