1. Trang chủ
  2. » Luận Văn - Báo Cáo

Đề tài Ứng dụng khoa học dữ liệu vào dự Đoán nguy cơ tử vong do mắc bệnh tim và Đưa ra các phương pháp cải thiện sức khỏe tim mạch

49 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Ứng dụng khoa học dữ liệu vào dự đoán nguy cơ tử vong do mắc bệnh tim và đưa ra các phương pháp cải thiện sức khỏe tim mạch
Tác giả Maryna, Đào Huỳnh Như, Nguyễn Thạch Thảo, Lương Ngọc Quỳnh Thư, Phạm Lê Thanh Tú
Người hướng dẫn ThS. Nguyễn Mạnh Tuấn
Trường học Đại Học Kinh Tế TP Hồ Chí Minh
Chuyên ngành Khoa học dữ liệu
Thể loại Dự án kết thúc học phần
Năm xuất bản 2023
Thành phố TP Hồ Chí Minh
Định dạng
Số trang 49
Dung lượng 5,34 MB

Cấu trúc

  • CHƯƠNG 1: TỔNG QUAN (5)
    • 1.1 Lý do chọn đề tài (6)
    • 1.2 Mục tiêu nghiên cứu (6)
      • 1.2.1 Mục tiêu tổng quát (6)
      • 1.2.2 Các mục tiêu cụ thể (7)
    • 1.3 Đối tượng và phạm vi nghiên cứu (7)
      • 1.3.1 Đối tượng nghiên cứu (7)
      • 1.3.2 Phạm vi nghiên cứu (7)
    • 1.4 Mô tả dữ liệu (7)
  • CHƯƠNG 2: QUY TRÌNH THỰC HIỆN VÀ KẾT QUẢ (9)
    • 2.1 Tiền xử lý dữ liệu (9)
    • 2.2 Bài toán 1: Phát hiện các đặc điểm đặc thù liên quan đến nguy cơ tử vong của người mắc bệnh tim dựa vào lược đồ và các công cụ thống kê (9)
      • 2.2.1 Mô tả bài toán (9)
      • 2.2.2 Phương pháp thể hiện - đánh giá dữ liệu (10)
      • 2.2.3 Phân tích dữ liệu (10)
      • 2.2.4 Kết luận cho người bệnh (17)
    • 2.3. Bài toán 2: Dự đoán nguy cơ tử vong do mắc bệnh tim trong thời gian theo dõi ( Bài toán phân lớp) (17)
      • 2.3.1 Lý thuyết mô tả phương pháp (17)
      • 2.3.2. Quy trình (19)
      • 2.3.3 Kếết qu và nh n xét: ả ậ (0)
      • 2.3.4 Kếết qu d báo: ả ự (0)
      • 2.3.5 Ki m tra m c đ chính xác c a kếết qu d báo ể ứ ộ ủ ả ự (0)
      • 2.3.6 Kếết lu n và kiếến ngh vếề bài toán 2 ậ ị (0)
    • 2.4 Bài toán 3: Phân lo i các nhóm đ c đi m c a ng ạ ặ ể ủ ườ ệ i b nh suy tim đ d báo t l ể ự ỷ ệ (0)
      • 2.4.1 Mô t ph ả ươ ng pháp phân c m (Clustering) ụ (0)
      • 2.4.2 Mô t ph ả ươ ng pháp K-Means (0)
      • 2.4.3 Quy trình th c hi n bài toán phân c m ự ệ ụ (0)
      • 2.4.4 Kếết lu n cho bác sĩ khoa tim m ch và b nh nhân suy tim ậ ạ ệ (0)

Nội dung

- Bài toán 2: Dự đoán nguy cơ tử vong do mắc bệnh tim trong thời gian theo dõibài toán phân lớp dữ liệu - Bài toán 3: Phân loại các nhóm đặc điểm của người bệnh suy tim để dự báo tỷ lệ t

TỔNG QUAN

Lý do chọn đề tài

Bệnh tim mạch là nguyên nhân gây tử vong số 1 trên toàn cầu , cướp đi sinh mạng của khoảng 17,9 triệu người mỗi năm , chiếm 31% tổng số ca tử vong trên toàn thế giới Thậm chí trong đại dịch COVID-19 xảy ra, theo số liệu năm 2021 chỉ ra COVID-19 là nguyên nhân gây tử vong xếp hàng thứ 3, còn nguyên nhân hàng đầu gây tử vong vẫn là bệnh tim mạch.

Tại Việt Nam, tử vong do bệnh tim mạch đang trở nên ngày càng phổ biến, tỷ lệ tử vong đã tăng từ 127,3/100.000 dân (năm 2000) lên 164,9/100.000 dân hiện nay và đáng báo động rằng có xu hướng tăng mạnh trong độ tuổi lao động trẻ

Hầu hết các bệnh tim mạch có thể được ngăn ngừa bằng cách giải quyết các hành vi như hút thuốc, chế độ ăn uống không lành mạnh và béo phì, ít hoạt động thể chất và uống rượu Người mắc bệnh tim mạch hoặc có nguy cơ mắc bệnh tim mạch cao (do yếu tố nguy cơ như tăng huyết áp, tiểu đường, mỡ máu cao hoặc có tiền xử bệnh lý) nên được xác định và điều trị sớm.

Qua bài dự án nghiên cứu, nhóm đặt ra các bài toán cùng với sử dụng phần mềm Orange nhằm dự đoán nguy cơ tử vong và giúp tăng cường hiểu biết về các nguy cơ gây bệnh tim, từ đó đưa ra giải pháp nhằm phòng ngừa cũng như cải thiện sức khỏe tim mạch.

Mục tiêu nghiên cứu

Bài nghiên cứu tích hợp nhiều yếu tố nguy cơ khác nhau như tuổi tác, giới tính, hút thuốc, mức độ tiền bệnh, các chỉ số lâm sàng (ví dụ: huyết áp, huyết thanh) đến các chỉ số chuyên sâu (nồng độ enzyme CPK, số lượng tiểu cầu, nồng độ natri, phân suất máu) để có một cái nhìn toàn diện về nguy cơ mắc bệnh ở từng đối tượng khác nhau Từ đó dự đoán nguy cơ tử vong của người bệnh và đề xuất các giải pháp, biện pháp can thiệp kịp thời.

1.2.2 Các mục tiêu cụ thể

Dùng phần mềm Orange để giải quyết và xử lý các bài toán sau:

- Bài toán 1: Phát hiện các đặc thù liên quan đến nguy cơ tử vong của người mắc bệnh tim dựa vào lược đồ và các công cụ thống kê.

- Bài toán 2: Dự đoán nguy cơ tử vong do mắc bệnh tim trong thời gian theo dõi (bài toán phân lớp dữ liệu)

- Bài toán 3: Phân loại các nhóm đặc điểm của người bệnh suy tim để dự báo tỷ lệ tử vong trong thời gian theo dõi bệnh nhân (Bài toán phân cụm dữ liệu).

Đối tượng và phạm vi nghiên cứu

Nghiên cứu dựa trên các chỉ số sức khỏe liên quan đến tim mạch của bệnh nhân, từ đó đưa ra dự đoán nguy cơ tử vong và giải pháp can thiệp.

Số liệu được thu thập trừ 299 bệnh nhân mắc bệnh tim mạch trong năm 2015.

Mô tả dữ liệu

Bộ dữ liệu được tổng hợp từ trang thông tin https://s.net.vn/ukre

Bảng 1 Mô tả về những thuộc tính (Attribute) của dữ liệu

STT Thuộc tính Ý nghĩa Mô tả

1 Age Độ tuổi Số tự nhiên

2 Anaemia Tình trạng thiếu máu 1 = thiếu máu

Nồng độ enzyme CPK Số tự nhiên

4 Diabetes Bệnh tiểu đường 1 = mắc bệnh

5 Ejection fraction Phân suất tống máu Phần trăm

Huyết áp cao 1 = bị huyết áp cao

7 Platelets Lượng tiểu cầu trong máu

8 Serum creatinine Nồng độ huyết thanh creatinine trong máu (mg/dL)

9 Serum sodium Nồng độ huyết thanh natri trong máu (mEq/L)

11 Smoking Hút thuốc 1 = có hút thuốc

12 Time Số thời gian theo dõi

13 Death event Tình trạng bệnh 1 = qua đời

QUY TRÌNH THỰC HIỆN VÀ KẾT QUẢ

Tiền xử lý dữ liệu

- Bộ dữ liệu lấy từ Kaggle gồm 13 biến trong đó có 1 biến phụ thuộc, để quá thực hiện bài toán không bị lỗi, nhóm xử lý dữ liệu bằng công cụ Preprocess để loại bỏ các dữ liệu bị thiếu và gây nhiễu, sau đó lưu vào file excel “PREPROCESS DATA.xlsx”.

Hình 1 Quá trình tiền xử lý dữ liệu

- Sau khi nhập dữ liệu vào File, nhóm sử dụng chức năng Preprocess để loại bỏ các dữ liệu bị thiếu và bị nhiễu.

- Xác định biến độc lập và biến phụ thuộc:

+ Biến phụ thuộc là “Death event”

+ Biến độc lập là các biến còn lại

Bài toán 1: Phát hiện các đặc điểm đặc thù liên quan đến nguy cơ tử vong của người mắc bệnh tim dựa vào lược đồ và các công cụ thống kê

• Hàng sẽ đại diện cho các chỉ số của một bệnh nhân, cột sẽ tương ứng với các thuộc tính của bệnh nhân.

• Bài toán sẽ tìm ra một số điểm khác biệt và được thể hiện trong các thuộc tính giữa tỷ lệ sống sót của người mắc bệnh tim và nguy cơ tử vong của người mắc bệnh tim.

• Các thuộc tính này sẽ được xem xét và đánh giá sự phân bổ bằng biểu đồ để có thể xác định được mức độ ảnh hưởng của thuộc tính đến kết quả là “sống sót” hay “tử vong”.

2.2.2 Phương pháp thể hiện - đánh giá dữ liệu

Biểu đồ phân phối (Distributions): hiển thị phân phối các giá trị của các thuộc tính rời rạc hoặc liên tục một cách trực quan nhất về sự chênh lệch của các đặc điểm dữ liệu dựa trên số lần mỗi giá trị thuộc tính xuất hiện trong dữ liệu

Biểu đồ khảm (Mosaic Display): biểu diễn bảng tần suất hai chiều hoặc bảng dự phòng, trực quan hóa dữ liệu từ hai hoặc nhiều biến định tính và giúp nhận ra mối quan hệ giữa các biến khác nhau một cách hiệu quả hơn.

2.2.3.1 Nồng độ huyết thanh creatinine

Hình 2 Nồng độ huyết thanh creatinine đối với khả năng tử vong của bệnh nhân

Biểu đồ trên cho thấy khi bệnh nhân có nồng độ huyết thanh:

- Từ 0-5 (mEq/L) với 293 bệnh nhân thì có 201 bệnh nhân sống sót và 92 bệnh nhân qua đời Bệnh nhân qua đời chiếm 31,40% => Bệnh nhân có nồng độ huyết thanh thấp thì khả năng tử vong thấp.

- Từ 5-10 (mEq/L) với 6 bệnh nhân thì có 2 bệnh nhân sống sót và 4 bệnh nhân qua đời Bệnh nhân qua đời chiếm 66,67% => Bệnh nhân có nồng độ huyết thanh cao thì khả năng tử vong cao.

Qua số liệu trên cho thấy chỉ số huyết thanh creatinine rất ảnh hưởng đến bệnh nhân mắc bệnh tim Chỉ số càng cao bệnh nhân mắc bệnh tim càng có khả năng tử vong cao.

Hình 3 Phân suất tống máu đối với khả năng tử vong của bệnh nhân suy tim

Biểu đồ trên cho thấy khi bệnh nhân có phân suất tống máu:

- Từ 10-20% với 5 bệnh nhân thì có 1 bệnh nhân sống sót và 4 bệnh nhân qua đời Bệnh nhân qua đời chiếm 80%

- Từ 20-40% với 177 bệnh nhân thì có 108 bệnh nhân sống sót và 69 bệnh nhân qua đời Bệnh nhân qua đời chiếm 38,98%

- Từ 40-60% với 81 bệnh nhân thì có 65 bệnh nhân sống sót và 16 bệnh nhân qua đời Bệnh nhân qua đời chiếm 19,75%

- Từ 60-80% với 36 bệnh nhân thì có 29 bệnh nhân sống sót và 7 bệnh nhân qua đời Bệnh nhân qua đời chiếm 19,44%

Từ biểu đồ trên ta thấy rằng bệnh nhân có phân suất tống máu càng cao thì khả năng tử vong càng ít và ngược lại.

Hình 4 Khả năng tử vong của bênh nhân suy tim trong trường hợp bị huyết áp cao

- Đối với bệnh nhân không bị huyết áp cao : với 194 bệnh nhân thì có 137 bệnh nhân mắc bệnh tim sống sót và 57 bệnh nhân mắc bệnh tim tử vong Bệnh nhân tử vong chiếm 29.38%

- Đối với bệnh nhân bị huyết áp cao : với 105 bệnh nhân thì có 66 bệnh nhân mắc bệnh tim sống sót và 39 bệnh nhân mắc bệnh tim tử vong Bệnh nhân tử vong chiếm 37,14%

Bệnh nhân tim mạch bị cao huyết áp có khả năng tử vong cao hơn bệnh nhân bị tim mạch thông thường

Hình 5 Khả năng tử vong của bệnh nhân suy tim trong trường hợp bị thiếu máu

- Đối với bệnh nhân không bị thiếu máu : với 170 bệnh nhân thì có 120 bệnh nhân mắc bệnh tim sống sót và 50 bệnh nhân mắc bệnh tim tử vong Bệnh nhân tử vong chiếm 29,41%.

- Đối với bệnh nhân bị thiếu máu : với 129 bệnh nhân thì có 83 bệnh nhân mắc bệnh tim sống sót và 46 bệnh nhân mắc bệnh tim tử vong Bệnh nhân tử vong chiếm 35,66%.

Từ số liệu có thể thấy bệnh nhân bệnh tim cộng thêm bị thiếu máu có khả năng tử vong cao hơn những bệnh nhân mắc bệnh tim bình thường.

2.2.3.5 Platelets nồng độ tiểu cầu trong máu

Hình 6 Platelets nồng độ tiểu cầu trong máu với khả năng tử vong của bệnh nhân suy tim

Biểu đồ trên cho thấy khi bệnh nhân có nồng độ tiểu cầu trong máu:

- Từ 0-0.5 (kiloplatelets/mL) với 292 bệnh nhân thì có 197 bệnh nhân sống sót và

95 bệnh nhân qua đời Bệnh nhân qua đời chiếm 32.53%

- Từ 0.5-1 (kiloplatelets/mL) với 7 bệnh nhân thì có 6 bệnh nhân sống sót và 1 bệnh nhân qua đời Bệnh nhân qua đời chiếm 14.29%

Qua đó ta thấy được rằng bệnh nhân có nồng độ tiểu cầu trong máu quá thấp là một dấu hiệu nguy hiểm đe dọa đến mạng sống của bệnh nhân đặc biệt là bệnh nhân bệnh tim.

Hình 7 Nồng độ enzyme CPK đối với khả năng tử vong của bệnh nhân suy tim

Biểu đồ trên cho thấy khi bệnh nhân có nồng độ enzyme CPK:

- Dưới 1000 mcg/l dựa trên 263 quan sát thì có 177 bệnh nhân sống sót và 86 bệnh nhân qua đời Bệnh nhân qua đời chiếm 32,7%

- Từ 1000-2000 mcg/l dựa trên 18 quan sát thì có 15 bệnh nhân sống sót và 3 bệnh nhân qua đời Bệnh nhân qua đời chiếm 16,67%

- Từ 2000-3000 mcg/l dựa trên 11 quan sát thì có 8 bệnh nhân sống sót và 3 bệnh nhân qua đời Bệnh nhân qua đời chiếm 27,27%

- Từ 3000-4000 mcg/l dựa trên 2 quan sát thì có 1 bệnh nhân sống sót và 1 bệnh nhân qua đời Bệnh nhân qua đời chiếm 50%

- Trên 7000 mcg/l dựa trên 2 quan sát thì cả 2 bệnh nhân đều qua đời, Bệnh nhân qua đời trong trường hợp này chiếm 100%

Từ biểu đồ trên ta thấy rằng đa số bệnh nhân suy tim có nồng độ enzyme CPK ở mức ổn định trong khoảng 0-1000 mcg/l Tuy nhiên nếu bệnh nhân có nồng độ enzyme CPK trong máu cao thì đây là một dấu hiệu báo động cho thấy mô cơ vân, cơ tim hoặc mô não đang bị tổn thương hoặc stress Nếu như chỉ số này quá cao thì nguy cơ nhồi máu cơ tim ở bệnh nhân sẽ tăng cao, điều này cũng có nghĩa là khả năng sống sót của người bệnh là rất thấp, tỉ lệ tử vong có thể lên đến là 100%.

2.2.3.7 Serum_sodium- nồng độ huyết thanh Natri có trong máu

Hình 8 Serum_sodium nồng độ huyết thanh natri có trong máu

Biểu đồ trên cho thấy khi bệnh nhân có nồng độ huyết thanh natri :

- Dưới 120 ( mEq/L) với 2 bệnh nhân thì có 1 bệnh nhân sống sót và 1 bệnh nhân qua đời Bệnh nhân qua đời chiếm 50%

- Từ 120-130 ( mEq/L) với 11 bệnh nhân thì có 3 bệnh nhân sống sót và 8 bệnh nhân qua đời Bệnh nhân qua đời chiếm 72,73%

- Từ 130-140 ( mEq/L) với 209 bệnh nhân thì có 140 bệnh nhân sống sót và 69 bệnh nhân qua đời Bệnh nhân qua đời chiếm 33,01%

- Trên 140 (mEq/L) với 77 bệnh nhân thì có 59 bệnh nhân sống sót và 18 bệnh nhân qua đời Bệnh nhân qua đời chiếm 23,38%

Qua số liệu trên có thể thấy được với nồng độ natri thấp hơn 130 (mEq/L) thì khả năng tử vong của bệnh nhân là khá cao Người bệnh có chỉ số natri trong máu thấp sẽ gặp một số vấn đề như buồn nôn, hoa mắt, nhịp tim nhanh, huyết áp giảm, co giật, hôn mê… Nếu bệnh nhân bệnh tim kèm theo vấn đề natri trong máu thấp sẽ gây ảnh hưởng nhiều đến sức khỏe tim mạch do đó càng làm tăng nguy cơ tử vong

2.2.4 Kết luận cho người bệnh

Bài toán 2: Dự đoán nguy cơ tử vong do mắc bệnh tim trong thời gian theo dõi ( Bài toán phân lớp)

2.3.1 Lý thuyết mô tả phương pháp

Phân lớp dữ liệu là quá trình phân một đối tượng dữ liệu vào một hay nhiều lớp cho trước theo một mô hình phân lớp.

Mô hình được tạo ra bởi một tập dữ liệu được gán nhãn trước đó (thuộc về lớp nào), quá trình gán nhãn cho đối tượng dữ liệu chính là quá trình phân lớp dữ liệu.

Nhiệm vụ của bài toán phân lớp là phân các đối tượng dữ liệu vào n lớp cho trước Nếu:

● Mỗi đối tượng dữ liệu chỉ thuộc vào 1 lớp duy nhất : Phân lớp đơn nhãn.

● Mỗi đối tượng dữ liệu có thể cùng lúc thuộc về nhiều lớp khác nhau: Phân lớp đa nhãn. Để phân lớp dữ liệu, ta thực hiện hai bước:

❖Bước 1: Xây dựng mô hình phân lớp

● Dữ liệu đầu vào: gồm các dữ liệu mẫu được gán nhãn và tiền xử lý.

● Thuật toán phân lớp: cây quyết định, hàm số toán học, tập luật

● Kết quả tại bước này là mô hình phân lớp đã được huấn luyện.

❖Bước 2: Sử dụng mô hình chia ra 2 bước nhỏ

➢ Bước 2.1: Đánh giá mô hình (kiểm tra tính đúng đắn của mô hình)

● Dữ liệu đầu vào: là một tập dữ liệu mẫu khác đã được tiền xử lý và gán nhãn, nhưng lúc đưa vào mô hình phân lớp, ta bỏ qua thuộc tính đã được gán nhãn.

● Độ chính xác của mô hình được xác định bằng cách so sánh thuộc tính ghi nhãn của dữ liệu đầu vào và kết quả phân loại của mô hình.

➢ Bước 2.2: Phân lớp dữ liệu mới

● Dữ liệu đầu vào: dữ liệu "thiếu" cho các thuộc tính dự đoán lớp (nhãn)

● Mô hình tự động phân loại (gắn nhãn) các đối tượng dữ liệu này theo những gì đã được đào tạo ở bước 1.

Các phương pháp phân lớp được sử dụng trong bài:

❖SVM (Support Vector Machine): Một thuật toán được giám sát, SVM lấy dữ liệu đầu vào, coi chúng là vectơ trong không gian và phân loại chúng thành các lớp khác nhau bằng cách tạo siêu phẳng trong nhiều không gian.Kích thước như giao diện giữa các lớp dữ liệu Để tối ưu hóa kết quả phân loại, bạn cần xác định siêu phẳng có khoảng cách đến các điểm dữ liệu(cạnh) của càng nhiều lớp càng tốt SVM có nhiều biến thể phù hợp cho các bài toán phân loại khác nhau

❖Hồi quy Logistic (Logistic Regression): Một kỹ thuật phân tích dữ liệu toán học để xác định mối quan hệ giữa hai phần dữ liệu Hồi quy logistic sau đó sử dụng các mối quan hệ tìm được để dự đoán giá trị cho dữ liệu đó dựa trên dữ liệu còn lại Dự đoán tạo ra kết quả nhị phân, Có hoặc Không

❖Cây quyết định: Một phương pháp mô tả, phân loại và khái quát hóa một tập dữ liệu nhất định.

Lợi ích cho người bệnh: Khi sử dụng bài toán phân lớp này thì các bệnh nhân có thể thấy được sự tương quan giữa dự đoán và thực tế Để tránh rủi ro khi dự đoán là không tử vong nhưng trên thực tế thì tử vong, điều này sẽ làm ảnh hưởng nhiều cho sức khỏe và tâm lý của bệnh nhân.

Bước 1: Sử dụng công cụ Data Sampler để chia tập dữ liệu thành 2 tập độc lập theo tỷ lệ 70% và 30%, sau đó lưu dữ liệu lại.

Hình 9 Mô hình tách dữ liệu

Hình 10 Chia dữ liệu thành 2 tập độc lập với tỷ lệ 70% và 30%

Bước 2: Tại file “ 70%.tab” bỏ các biến không liên quan đến bài toán gồm age, creatinine_phosphokinase, ejection_fraction, platelets, serum_creatinine, serum- sodium vì các biến này ít ảnh hưởng đến việc người bệnh tim có tử vong trong thời gian theo dõi hay không Chọn biến Death-event làm biến phụ thuộc.

Hình 11 Bỏ các biến không liên quan tại file 70%.tab

Bước 3: Nối file “ 70%.tab” với Test and Score để kiểm thử bằng 3 phương pháp

SVM, logistic regression (LR), Tree (Cây quyết định) Đồng thời, Test and Score nối với Confusion matrix để thực hiện đánh giá kết quả và đánh giá ma trận nhầm lẫn và nói Test and Score với ROC Analysis để thực hiện đánh giá các mô hình.

Bước 4: Liên kết phương pháp tốt nhất với file “ 70%.tab” và nối file này vào công cụ Prediction, đồng thời cũng nối file “ 30%.tab” vào công cụ Prediction để tiến hành dự báo.

Bước 5: Xuất kết quả dự báo.

2.3.3 Kết quả và nhận xét:

Hình 12 Mô hình phân lớp dự đoán nguy cơ tử vong do mắc bệnh tim

Phân loại sai lầm (error type)

Theo ma trận nhầm lẫn (Confusion Matrix) :

- 0 : bệnh nhân còn sống trong thời gian theo dõi

- 1 : bệnh nhân tử vong trong thời gian theo dõi

Sai lầm loại 1: Thực tế bệnh nhân vẫn sống sót trong quá trình theo dõi nhưng kết quả cho ra bệnh nhân tử vong Điều này dẫn đến việc gia tăng số ca tử vong trong thời gian theo dõi bệnh nhân mắc bệnh tim.

Sai lầm loại 2: Thực tế bệnh nhân đã tử vong trong quá trình theo dõi nhưng kết quả cho ra bệnh nhân vẫn sống sót Điều này dẫn đến việc giảm số ca tử vong trong thời gian theo dõi bệnh nhân mắc bệnh tim.

=> Sai lầm loại 2 nghiêm trọng hơn vì nó làm ảnh hưởng đến việc thống kê số lượng ca tử vong cũng như làm ảnh hưởng đến vấn đề quan tâm tuyên truyền phòng bệnh về tim mạch Ngoài ra, còn làm lãng phí tiền bạc cũng như thời gian còn lại mà bệnh nhân cần giành cho gia đình và ảnh hưởng đến tâm lý người bệnh.

Hình 13 Kết quả Logistic Regression

Thông qua kết quả quan sát của Ma trận nhầm lẫn của 3 phương pháp trên ta thấy :

- Sai lầm loại 1 : Tree < SVM < Logistic Regression = 24

- Sai lầm loại 2 : Tree = 25 < Logistic Regression ' < SVM = 45

Trong ba phương pháp: Tree là phương pháp có tỉ lệ phần trăm dự báo sai lầm nhỏ nhất Vì vậy đây là bước đầu tiên để chọn Tree để dự báo cho dữ liệu.

Hình 16 Kết quả đánh giá bài toán và quyết định chọn kết quả nghiên cứu Đánh giá mô hình qua Test and Score

- Tính chính xác: Accuracy (AUC)

Qua ba thông số trên ta có thể đánh giá được Tree có tính chính xác, độ chính xác và độ truy hồi là lớn nhất.

Kết luận, Tree phương pháp hợp lý nhấtlà dùng để dự báo cho bài toán

Hình 17 Kết quả dự báo về nguy cơ tử vong do bệnh tim trong thời gian theo dõi

Hình 18 Kết quả dự báo về nguy cơ tử vong do bệnh tim trong thời gian theo dõi

Hình 19 Kết quả dự báo về nguy cơ tử vong do bệnh tim trong thời gian theo dõi

2.3.5 Kiểm tra mức độ chính xác của kết quả dự báo

Hình 20 Mức độ chính xác của kết quả dự báo

Sau khi dự báo ra kết quả, nhóm so sánh cột Death-Event ban đầu của dữ liệu

“DATA 30%.xlsx” và kết quả dự báo Tree của dữ liệu “30% prediction” Kết quả so sánh cho thấy dự đoán của Tree có mức độ chính xác là 91,11% được dự báo chính xác và có 8,89% dự báo sai Cho thấy rằng mức độ chính xác của mô hình dự báo là khá cao và ổn định có thể tin tưởng vào mô hình này để dự báo số ca sống sót và tử vong do bệnh tim trong quá trình theo dõi.

2.3.6 Kết luận và kiến nghị về bài toán 2

Theo bảng đánh giá kết quả, ma trận nhầm lẫn của phương pháp Tree có sai lầm loại

1 và loại 2 lần lượt là 14 và 25 và nhỏ nhất trong ba phương pháp (Logistic Regression, Tree, SVM) Chúng ta nên sử dụng phương pháp Tree để dự báo nhằm giảm thiểu sai sót thấp nhất việc dự đoán số ca tử vong trong quá trình theo dõi Việc bệnh nhân mắc bệnh tim có thể tử vong là điều không thể tránh khỏi do họ có thể mắc thêm các bệnh lý khác ngoài bệnh tim như là tiểu đường, cao huyết áp, Tuy nhiên, qua kết quả các dự báo ta có thể hiểu được vấn đề cũng như là nguyên nhân gây tử vong của bệnh nhân mắc bệnh tim cũng như dự đoán được số ca tử vong Qua đó, có thể đề ra những biện pháp phòng tránh và điều trị bệnh một cách hiệu quả nhất. Kiến nghị là trong quá trình theo dõi những bệnh nhân bệnh tim và dự đoán có tử vong hay không thì cần quan tâm đến các yếu tố bệnh lý khác mà bệnh nhân có thể mắc phải như huyết áp cao, thiếu máu, tiểu đường,, Do đó, ta cần xem xét nhiều yếu tố ảnh hưởng đến bệnh tim mà có thể dẫn đến tử vong để có thể đưa ra quyết định chính xác Đối với những dữ liệu lớn như thế này thì phương pháp phân lớp của phần mềm Orange rất hữu dụng và tiết kiệm thời gian cũng như chi phí.

Ngày đăng: 09/10/2024, 16:25

HÌNH ẢNH LIÊN QUAN

Bảng 1 Mô tả về những thuộc tính (Attribute) của dữ liệu - Đề tài Ứng dụng khoa học dữ liệu vào dự Đoán nguy cơ tử vong do mắc bệnh tim và Đưa ra các phương pháp cải thiện sức khỏe tim mạch
Bảng 1 Mô tả về những thuộc tính (Attribute) của dữ liệu (Trang 7)
Hình 2 Nồng độ huyết thanh creatinine đối với khả năng tử vong của bệnh nhân - Đề tài Ứng dụng khoa học dữ liệu vào dự Đoán nguy cơ tử vong do mắc bệnh tim và Đưa ra các phương pháp cải thiện sức khỏe tim mạch
Hình 2 Nồng độ huyết thanh creatinine đối với khả năng tử vong của bệnh nhân (Trang 10)
Hình 3 Phân suất tống máu đối với khả năng tử vong của bệnh nhân suy tim - Đề tài Ứng dụng khoa học dữ liệu vào dự Đoán nguy cơ tử vong do mắc bệnh tim và Đưa ra các phương pháp cải thiện sức khỏe tim mạch
Hình 3 Phân suất tống máu đối với khả năng tử vong của bệnh nhân suy tim (Trang 11)
Hình 4 Khả năng tử vong của bênh nhân suy tim trong trường hợp bị huyết áp cao - Đề tài Ứng dụng khoa học dữ liệu vào dự Đoán nguy cơ tử vong do mắc bệnh tim và Đưa ra các phương pháp cải thiện sức khỏe tim mạch
Hình 4 Khả năng tử vong của bênh nhân suy tim trong trường hợp bị huyết áp cao (Trang 12)
Hình 5 Khả năng tử vong của bệnh nhân suy tim trong trường hợp bị thiếu máu - Đề tài Ứng dụng khoa học dữ liệu vào dự Đoán nguy cơ tử vong do mắc bệnh tim và Đưa ra các phương pháp cải thiện sức khỏe tim mạch
Hình 5 Khả năng tử vong của bệnh nhân suy tim trong trường hợp bị thiếu máu (Trang 13)
Hình 6 Platelets nồng độ tiểu cầu trong máu với khả năng tử vong của bệnh nhân suy tim - Đề tài Ứng dụng khoa học dữ liệu vào dự Đoán nguy cơ tử vong do mắc bệnh tim và Đưa ra các phương pháp cải thiện sức khỏe tim mạch
Hình 6 Platelets nồng độ tiểu cầu trong máu với khả năng tử vong của bệnh nhân suy tim (Trang 14)
Hình 7 Nồng độ enzyme CPK đối với khả năng tử vong của bệnh nhân suy tim - Đề tài Ứng dụng khoa học dữ liệu vào dự Đoán nguy cơ tử vong do mắc bệnh tim và Đưa ra các phương pháp cải thiện sức khỏe tim mạch
Hình 7 Nồng độ enzyme CPK đối với khả năng tử vong của bệnh nhân suy tim (Trang 15)
Hình 8 Serum_sodium nồng độ huyết thanh natri có trong máu - Đề tài Ứng dụng khoa học dữ liệu vào dự Đoán nguy cơ tử vong do mắc bệnh tim và Đưa ra các phương pháp cải thiện sức khỏe tim mạch
Hình 8 Serum_sodium nồng độ huyết thanh natri có trong máu (Trang 16)
Hình 10 Chia dữ liệu thành 2 tập độc lập với tỷ lệ 70% và 30% - Đề tài Ứng dụng khoa học dữ liệu vào dự Đoán nguy cơ tử vong do mắc bệnh tim và Đưa ra các phương pháp cải thiện sức khỏe tim mạch
Hình 10 Chia dữ liệu thành 2 tập độc lập với tỷ lệ 70% và 30% (Trang 20)
Hình 13 Kết quả Logistic Regression - Đề tài Ứng dụng khoa học dữ liệu vào dự Đoán nguy cơ tử vong do mắc bệnh tim và Đưa ra các phương pháp cải thiện sức khỏe tim mạch
Hình 13 Kết quả Logistic Regression (Trang 22)
Hình 14 Kết quả SVM - Đề tài Ứng dụng khoa học dữ liệu vào dự Đoán nguy cơ tử vong do mắc bệnh tim và Đưa ra các phương pháp cải thiện sức khỏe tim mạch
Hình 14 Kết quả SVM (Trang 23)
Hình 16 Kết quả đánh giá bài toán và quyết định chọn kết quả nghiên cứu - Đề tài Ứng dụng khoa học dữ liệu vào dự Đoán nguy cơ tử vong do mắc bệnh tim và Đưa ra các phương pháp cải thiện sức khỏe tim mạch
Hình 16 Kết quả đánh giá bài toán và quyết định chọn kết quả nghiên cứu (Trang 24)
Hình 18 Kết quả dự báo về nguy cơ tử vong do bệnh tim trong thời gian theo dõi - Đề tài Ứng dụng khoa học dữ liệu vào dự Đoán nguy cơ tử vong do mắc bệnh tim và Đưa ra các phương pháp cải thiện sức khỏe tim mạch
Hình 18 Kết quả dự báo về nguy cơ tử vong do bệnh tim trong thời gian theo dõi (Trang 25)
Hình 23 Kết quả phân cấp trên Orange - Đề tài Ứng dụng khoa học dữ liệu vào dự Đoán nguy cơ tử vong do mắc bệnh tim và Đưa ra các phương pháp cải thiện sức khỏe tim mạch
Hình 23 Kết quả phân cấp trên Orange (Trang 30)
Hình 24 Bảng Silhouette Plot cho 2 phân cụm phân cấp - Đề tài Ứng dụng khoa học dữ liệu vào dự Đoán nguy cơ tử vong do mắc bệnh tim và Đưa ra các phương pháp cải thiện sức khỏe tim mạch
Hình 24 Bảng Silhouette Plot cho 2 phân cụm phân cấp (Trang 30)
Hình 25 Bảng Silhouette Plot cho 2 phân cụm phân cấp - Đề tài Ứng dụng khoa học dữ liệu vào dự Đoán nguy cơ tử vong do mắc bệnh tim và Đưa ra các phương pháp cải thiện sức khỏe tim mạch
Hình 25 Bảng Silhouette Plot cho 2 phân cụm phân cấp (Trang 31)
Hình 26 Kết quả K-means và biểu đồ Silhouette Plot - Đề tài Ứng dụng khoa học dữ liệu vào dự Đoán nguy cơ tử vong do mắc bệnh tim và Đưa ra các phương pháp cải thiện sức khỏe tim mạch
Hình 26 Kết quả K-means và biểu đồ Silhouette Plot (Trang 32)
Hình 27 Biểu đồ thể hiện số bệnh nhân sống sót hoặc qua đời trong quá trình theo dõi - Đề tài Ứng dụng khoa học dữ liệu vào dự Đoán nguy cơ tử vong do mắc bệnh tim và Đưa ra các phương pháp cải thiện sức khỏe tim mạch
Hình 27 Biểu đồ thể hiện số bệnh nhân sống sót hoặc qua đời trong quá trình theo dõi (Trang 33)
Hình 28 Biểu đồ thể hiện số bệnh nhân sống sót hoặc qua đời trong quá trình theo dõi của 2 cụm - Đề tài Ứng dụng khoa học dữ liệu vào dự Đoán nguy cơ tử vong do mắc bệnh tim và Đưa ra các phương pháp cải thiện sức khỏe tim mạch
Hình 28 Biểu đồ thể hiện số bệnh nhân sống sót hoặc qua đời trong quá trình theo dõi của 2 cụm (Trang 34)
Hình 29 Biểu đồ thể hiện số tuổi của bệnh nhân của 2 cụm - Đề tài Ứng dụng khoa học dữ liệu vào dự Đoán nguy cơ tử vong do mắc bệnh tim và Đưa ra các phương pháp cải thiện sức khỏe tim mạch
Hình 29 Biểu đồ thể hiện số tuổi của bệnh nhân của 2 cụm (Trang 35)
Hình 31 Biểu đồ thể hiện nồng độ enzyme CPK trong máu của bệnh nhân ở cụm 1 và cụm 2 - Đề tài Ứng dụng khoa học dữ liệu vào dự Đoán nguy cơ tử vong do mắc bệnh tim và Đưa ra các phương pháp cải thiện sức khỏe tim mạch
Hình 31 Biểu đồ thể hiện nồng độ enzyme CPK trong máu của bệnh nhân ở cụm 1 và cụm 2 (Trang 37)
Hình 32 Biểu đồ thể hiện giới tính của bệnh nhân ở cụm 1 và cụm 2 - Đề tài Ứng dụng khoa học dữ liệu vào dự Đoán nguy cơ tử vong do mắc bệnh tim và Đưa ra các phương pháp cải thiện sức khỏe tim mạch
Hình 32 Biểu đồ thể hiện giới tính của bệnh nhân ở cụm 1 và cụm 2 (Trang 38)
Hình 33 Biểu đồ thể hiện tình trạng bệnh tiểu đường của bệnh nhân ở cụm 1 và cụm 2 - Đề tài Ứng dụng khoa học dữ liệu vào dự Đoán nguy cơ tử vong do mắc bệnh tim và Đưa ra các phương pháp cải thiện sức khỏe tim mạch
Hình 33 Biểu đồ thể hiện tình trạng bệnh tiểu đường của bệnh nhân ở cụm 1 và cụm 2 (Trang 39)
Hình 34 Biểu đồ thể hiện phân suất tống máu của bệnh nhân ở cụm 1 và cụm 2 - Đề tài Ứng dụng khoa học dữ liệu vào dự Đoán nguy cơ tử vong do mắc bệnh tim và Đưa ra các phương pháp cải thiện sức khỏe tim mạch
Hình 34 Biểu đồ thể hiện phân suất tống máu của bệnh nhân ở cụm 1 và cụm 2 (Trang 40)
Hình 35 Biểu đồ thể hiện tình hình huyết áp của bệnh nhân ở cụm 1 và cụm 2 - Đề tài Ứng dụng khoa học dữ liệu vào dự Đoán nguy cơ tử vong do mắc bệnh tim và Đưa ra các phương pháp cải thiện sức khỏe tim mạch
Hình 35 Biểu đồ thể hiện tình hình huyết áp của bệnh nhân ở cụm 1 và cụm 2 (Trang 41)
Hình 37 Biểu đồ thể hiện số lượng nồng độ huyết thanh creatinine trong máu của bệnh nhân ở - Đề tài Ứng dụng khoa học dữ liệu vào dự Đoán nguy cơ tử vong do mắc bệnh tim và Đưa ra các phương pháp cải thiện sức khỏe tim mạch
Hình 37 Biểu đồ thể hiện số lượng nồng độ huyết thanh creatinine trong máu của bệnh nhân ở (Trang 42)
Hình 38 Biểu đồ thể hiện số lượng nồng độ huyết thanh natri có trong máu của bệnh nhân ở cụm - Đề tài Ứng dụng khoa học dữ liệu vào dự Đoán nguy cơ tử vong do mắc bệnh tim và Đưa ra các phương pháp cải thiện sức khỏe tim mạch
Hình 38 Biểu đồ thể hiện số lượng nồng độ huyết thanh natri có trong máu của bệnh nhân ở cụm (Trang 43)
Hình 39  Biểu đồ thể hiện tình hình hút thuốc của bệnh nhân ở cụm 1 và cụm 2 - Đề tài Ứng dụng khoa học dữ liệu vào dự Đoán nguy cơ tử vong do mắc bệnh tim và Đưa ra các phương pháp cải thiện sức khỏe tim mạch
Hình 39 Biểu đồ thể hiện tình hình hút thuốc của bệnh nhân ở cụm 1 và cụm 2 (Trang 44)
Hình 40  Biểu đồ thể hiện thời gian theo dõi bệnh của bệnh nhân ở cụm 1 và cụm 2 - Đề tài Ứng dụng khoa học dữ liệu vào dự Đoán nguy cơ tử vong do mắc bệnh tim và Đưa ra các phương pháp cải thiện sức khỏe tim mạch
Hình 40 Biểu đồ thể hiện thời gian theo dõi bệnh của bệnh nhân ở cụm 1 và cụm 2 (Trang 45)

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN

w