1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân tích các yếu tố nguy cơ dẫn đến nhồi máu cơ tim và đưa ra dự báo về nguy cơ có thể mắc bệnh nhồi máu cơ tim

50 5 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân Tích Các Yếu Tố Nguy Cơ Dẫn Đến Nhồi Máu Cơ Tim Và Đưa Ra Dự Báo Về Nguy Cơ Có Thể Mắc Bệnh Nhồi Máu Cơ Tim
Tác giả Nguyễn Thị Thúy Lê, Nguyễn Bảo Ngân, Trần Đài Loan, Trần Trương Minh Tuyết, Cái Thị Thu Hiền
Người hướng dẫn ThS. Nguyễn Mạnh Tuấn
Trường học Đại học UEH
Chuyên ngành Khoa học dữ liệu
Thể loại tiểu luận
Năm xuất bản 2023
Thành phố TP Hồ Chí Minh
Định dạng
Số trang 50
Dung lượng 1,75 MB

Cấu trúc

  • 1. Lý do chọn đề tài (10)
  • 2. Hiện trạng của bệnh nhồi máu cơ tim hiện nay (0)
  • 3. Mục tiêu đề tài (0)
  • 4. Đối tượng và phạm vi nghiên cứu (0)
  • 5. Phương pháp nghiên cứu (0)
  • 6. Công cụ sử dụng (0)
  • 1. Mô tả tổng quan bộ dữ liệu (14)
  • 2. Mô tả các thuộc tính (14)
  • 3. Thống kê mô tả dữ liệu cần phân tích (16)
    • 3.1. Độ tuổi (16)
    • 3.2. Giới tính (17)
    • 3.3. Các kiểu đau thắt ngực (18)
    • 3.4. Huyết áp khi nghỉ ngơi (mm Hg) (19)
    • 3.5. Tổng lượng cholesterol trong máu (mg/dL) (20)
    • 3.6. Đường huyết lúc đói (mg/dl) (21)
    • 3.7. Kết quả điện tâm đồ (22)
    • 3.8. Nhịp tim tối đa đạt được (23)
    • 3.9. Sự đau thắt ngực do tập thể dục (24)
    • 3.10. Chênh lệch biên độ của đoạn ST khi nghỉ ngơi và khi hoạt động (25)
    • 3.11. Độ dốc của đoạn ST trong kết quả điện tâm đồ (25)
    • 3.12. Số lượng mạch chính bị tắc (26)
    • 3.13 Bệnh thiếu máu tán huyết bẩm sinh (27)
  • 4. Thống kê bằng công cụ Descriptive Statistics (28)
    • 4.1. Tuổi (28)
    • 4.2. Huyết áp khi nghỉ ngơi (mmHg) (28)
    • 4.3. Tổng lượng cholesterol trong máu (mg/dL) (29)
    • 4.4. Nhịp tim tối đa đạt được (31)
    • 4.5. Chênh lệch biên độ của đoạn ST khi nghỉ ngơi và khi hoạt động (mm) (32)
  • 1. Xây dựng mô hình (37)
    • 1.1 Quy trình thực hiện (38)
    • 1.2 Đánh giá mô hình (41)
  • 2. Dự báo (45)
  • 1. Các kết quả đạt được (47)
  • 2. Hạn chế (48)
  • 3. Hướng phát triển đề tài (48)
  • TÀI LIỆU THAM KHẢO (50)

Nội dung

Mô tả tổng quan bộ dữ liệu

- Name: Heart Attack Analysis & Prediction Dataset

(https://www.kaggle.com/datasets/rashikrahmanpritom/heart-attack-analysis- prediction-dataset)

Mô tả các thuộc tính

Thuộc tính Ý nghĩa Mô tả age Tuổi của người được khảo sát numeric sex Giới tính

1: nam 0: nữ categorical cp Các kiểu đau thắt ngực

0: đau thắt ngực điển hình

1: đau thắt ngực không điển hình

2: đau do co thắt mạch vành

3: đau thắt vi mạch máu categorical trtbps Huyết áp khi nghỉ ngơi

(mmHg) numeric chol Tổng lượng cholesterol trong máu (mg/dL) numeric fbs Đường huyết lúc đói categorical

(mg/dl) 1: người được khảo sát mắc bệnh tiểu đường (>120 mg/dl)

0: người được khảo sát không bị tiểu đường(18 tuổi) và chỉ có 2.64% trong

303 người có mức nhịp tim bình thường Theo nghiên cứu thì nhịp tim nhanh là nguy cơ của các bệnh như ngất, ngưng tim, đột quỵ, suy tim,

Sự đau thắt ngực do tập thể dục

Biểu đồ 2.9 Biểu đồ thống kê sự đau thắt ngực do tập thể dục

Tỷ lệ người gặp phải đau thắt ngực khi tập thể dục là 32.67%, trong khi 67.33% không có triệu chứng này Đau thắt ngực trong quá trình thể thao có thể liên quan đến bệnh mạch vành như nhồi máu cơ tim hoặc thiếu máu cục bộ cơ tim mạn tính Ngoài ra, nguyên nhân đau thắt ngực cũng có thể không liên quan đến bệnh lý mạch vành, bao gồm đau thần kinh liên sườn, chấn thương gây tràn khí khoang màng phổi, ung thư phổi, và đau ngực do cong vẹo cột sống.

Chênh lệch biên độ của đoạn ST khi nghỉ ngơi và khi hoạt động

Biểu đồ 2.10 Biểu đồ thống kê mức độ chênh lệch của đoạn ST khi nghỉ ngơi và khi hoạt động

Theo biểu đồ, tỷ lệ người mắc triệu chứng nhồi máu cơ tim có ST chênh lên là 67.33%, cao hơn so với tỷ lệ 32.67% của người bị nhồi máu cơ tim không ST chênh lên, chênh lệch lên đến 34.6% Biến này phản ánh sự phân loại triệu chứng nhồi máu cơ tim và không liên quan đến nguy cơ mắc bệnh mà nhóm nghiên cứu đang xem xét.

Độ dốc của đoạn ST trong kết quả điện tâm đồ

Tỷ lệ nhóm người có đoạn ST chênh xuống và đoạn ST bình thường trong điện tâm đồ lần lượt đạt 46.86% và 46.20%, trong khi tỷ lệ có đoạn ST chênh lên chỉ là 6.93% Sự khác biệt giữa đoạn ST chênh và không chênh lên liên quan đến mức độ tắc nghẽn mạch vành, với tắc nghẽn hoàn toàn dẫn đến nhồi máu toàn bộ cơ tim, còn tắc nghẽn không hoàn toàn chỉ gây nhồi máu dưới nội tâm mạc Đặc biệt, trường hợp không có ST chênh lên nhưng có ST chênh xuống trên điện tâm đồ có ý nghĩa quan trọng trong chẩn đoán thiếu máu cơ tim.

Biểu đồ 2.11 Biểu đồ thống kê độ dốc của đoạn ST trong kết quả điện tâm đồ

Số lượng mạch chính bị tắc

Biểu đồ 2.12 Biểu đồ thống kê số lượng mạch chính bị tắc

Có 57.76% tỷ lệ người không bị tắc nghẽn mạch động mạch chính, 21.45% người có 1 động mạch chính bị tắc, 12.54% người có 2 động mạch chính bị tắc và còn lại là 8.25% người với cả 3 động mạch chính bị tắc nghẽn Nhồi máu cơ tim cấp (AMI) là tình trạng một hay nhiều nhánh động mạch vành bị tắc nghẽn, gây thiếu máu cơ tim đột ngột và hoại tử vùng cơ tim bị thiếu máu nên khi người được khảo sát có số lượng mạch chính bị tắc cao thì cũng dẫn đến nguy cơ mắc nhồi máu cơ tim cao hơn người không bị tắc nghẽn mạch máu.

Bệnh thiếu máu tán huyết bẩm sinh

Biểu đồ 2.13 Biểu đồ thống kê mức độ bị bệnh tiếu máu tán huyết bẩm sinh

Trong số 303 người được khảo sát, tỷ lệ người không mắc bệnh thiếu máu tán huyết bẩm sinh chỉ chiếm 0,66%, trong khi đó, tỷ lệ người mắc thiếu máu vừa cao nhất với 54,79% Đặc biệt, khi kết hợp với các yếu tố khác, những người mắc bệnh thiếu máu tán huyết nặng lại có nguy cơ cao nhất mắc bệnh nhồi máu cơ tim.

Thống kê bằng công cụ Descriptive Statistics

Tuổi

Kết quả nghiên cứu cho thấy giá trị trung bình về tuổi là hơn 54 tuổi, với tuổi nhỏ nhất là 29 và lớn nhất là 77 Số trung vị đạt 55, trong khi yếu vị là 58 và sai số chuẩn là 0.52.

Huyết áp khi nghỉ ngơi (mmHg)

Kết quả khảo sát cho thấy huyết áp trung bình khi nghỉ ngơi đạt khoảng 131 mmHg, với mức huyết áp thấp nhất là 94 mmHg và cao nhất là 200 mmHg Số trung vị huyết áp là 130 mmHg, yếu vị là 120 mmHg, và sai số chuẩn được ghi nhận là 1.01.

Tổng lượng cholesterol trong máu (mg/dL)

Kết quả khảo sát cho thấy giá trị trung bình tổng lượng cholesterol trong máu là hơn 246 mg/dL Trong số 303 người tham gia, lượng cholesterol thấp nhất ghi nhận là 126 mg/dL, trong khi mức cao nhất đạt 564 mg/dL Số trung vị cholesterol trong máu là 240 mg/dL.

Nhịp tim tối đa đạt được

Kết quả khảo sát cho thấy giá trị trung bình của nhịp tim tối đa đạt khoảng 150 nhịp/phút, với nhịp tim tối đa thấp nhất ghi nhận là 71 nhịp/phút và cao nhất là 202 nhịp/phút Số trung vị là 153, yếu vị là 162, và sai số chuẩn là 1.3.

Chênh lệch biên độ của đoạn ST khi nghỉ ngơi và khi hoạt động (mm)

Kết quả nghiên cứu cho thấy giá trị trung bình của chênh lệch biên độ đoạn ST khi nghỉ ngơi và khi hoạt động là khoảng 1.04mm Chênh lệch biên độ thấp nhất ghi nhận là 0 và cao nhất là 6.2 trong số 303 người được khảo sát Số trung vị của chênh lệch này là 0.8, với yếu vị là 0 và sai số chuẩn là 0.0667.

Tiền xử lý dữ liệu là bước quan trọng để nâng cao hiệu quả và độ chính xác trong khai phá dữ liệu, bao gồm các quy trình cần thiết để chuẩn bị dữ liệu trước khi phân tích.

● Nạp dữ liệu: tệp heart attack datasets.csv (Hình 3.1)

Hình 3.1 Nạp dữ liệu heart attack vào file

Để quan sát dữ liệu bảng, bạn có thể kết nối Heat Attack với Data table Khi nhấp đúp vào Data table, bạn sẽ thấy rằng không có dữ liệu nào bị thiếu (0% missing data) như thể hiện trong Hình 3.2.

Hình 3.2 Quan sát dữ liệu trên table

● Nhóm tiến hành định dạng lại dữ liệu của các biến: cp, restecg, slp, thall từ numeric sang categorical để đảm bảo phù hợp với phân tích.(Hình 3.3)

Hình 3.3 Định dạng lại dữ liệu

Mục tiêu của nghiên cứu này là xác định các yếu tố nguy cơ dẫn đến bệnh nhồi máu cơ tim Để đạt được điều này, nhóm nghiên cứu đã tiến hành loại bỏ biến oldpeak, tức là chênh lệch biên độ của đoạn, nhằm làm rõ hơn các yếu tố ảnh hưởng đến tình trạng bệnh.

Biến ST trong quá trình nghỉ ngơi và hoạt động phân loại bệnh nhồi máu cơ tim, với oldpeak=0 chỉ ra nhồi máu cơ tim không ST chênh lên, trong khi oldpeak>0 cho thấy nhồi máu cơ tim có ST chênh lên Nhóm nghiên cứu cũng loại bỏ biến thalachh - nhịp tim tối đa, vì đây là yếu tố chỉ ra biến chứng của bệnh nhồi máu cơ tim.

Hình 3.4 Loại bỏ bớt biến

Để thực hiện mô hình phân lớp, cần sử dụng công cụ Data Sampler để chia tập dữ liệu thành hai phần: 75% cho tập huấn luyện và 25% cho tập kiểm thử.

- Kết quả của tập dữ liệu sau khi lấy 75% sẽ có 228 mẫu dữ liệu, 11 biến và không tồn tại dữ liệu bị lỗi (Hình 3.6)

Hình 3.6 Mẫu dữ liệu thử nghiệm 75%

- Kết quả của tập dữ liệu sau khi lấy 25% sẽ có 75 mẫu dữ liệu, 11 biến và không tồn tại dữ liệu bị lỗi (Hình 3.7)

Hình 3.7 Mẫu dữ liệu thử nghiệm 25%

● Sau đó dùng công cụ Save Data để lưu các dữ liệu vừa chia:

- 75% mẫu dữ liệu từ file dữ liệu đã được xử lý tiền dữ liệu trước đó Chọn Save Data để lưu dữ liệu về dưới file training data.xls.

- Chọn Save Data (1) để lưu 25% dữ liệu về dưới file testing data.xls

XÂY DỰNG VÀ ĐÁNH GIÁ MÔ HÌNH

Xây dựng mô hình

Quy trình thực hiện

● Sử dụng training data.xlsx làm tập dữ liệu huấn luyện, chọn “output” làm biến mục tiêu “Target” ( Hình 4.1)

Hình 4.1 Chọn tập dữ liệu huấn luyện

● Xây dựng mô hình phân lớp bằng phương pháp (Hình 4.2)

- Hồi quy Logistic (Logistic Regression)

- Cây quyết định (Decision Tree Induction)

Hình 4.2 Mô hình phân lớp

Sử dụng công cụ Test and Score cùng với Confusion Matrix là phương pháp hiệu quả để so sánh và đánh giá các thuật toán Mục tiêu là lựa chọn thuật toán có độ chính xác cao nhất, nhằm nâng cao chất lượng dự báo.

● Tại bảng Test and Score, sử dụng phương pháp K-fold Cross Validation

Hình 4.3 Kết quả chia mẫu dữ liệu thành 5 phần

Hình 4.4 Kết quả chia mẫu dữ liệu thành 10 phần

Đánh giá mô hình

❖ Kết quả khi sử dụng công cụ Test and Score

Theo các chỉ số từ ba mô hình khi phân chia dữ liệu thành năm phần trên Test and Score, mô hình Logistic Regression đạt được chỉ số cao nhất so với hai mô hình còn lại.

AUC (Diện tích đường cong)

F1 (Giá trị trung bình điều hoà)

Khi phân dữ liệu thành 10, mô hình Logistic Regression và SVM cho kết quả Recall, CA và F1 bằng nhau và cao hơn so với mô hình khác Tuy nhiên, Logistic Regression đạt được các chỉ số tốt nhất trong số các mô hình đã đề cập.

F1 (Giá trị trung bình điều hoà)

Recall (Độ truy hồi) k Logistic

❖ Kết quả khi sử dụng khi dụng Confusion Matrix (Ma trận nhầm lẫn)

Hình 4.5 Kết quả ma trận nhầm lẫn bằng phương pháp Logistic Regression

- Tỷ lệ nhầm lẫn so với thực tế:

+ output “0”: Trong 36 trường hợp, có 32 trường hợp trùng với thực tế (chiếm 84.2%) và 4 trường hợp bị nhầm lẫn với “1” (chiếm 10.8%).

+ output “1”: Trong 39 trường hợp, có 33 trường hợp trùng với thực tế (chiếm 89.2%), 6 trường hợp bị nhầm lẫn với “0” (chiếm 15.8%).

Hình 4.6 Kết quả ma trận nhầm lẫn bằng phương pháp Decision Tree

- Tỷ lệ nhầm lẫn so với thực tế:

+ output “0”: Trong 36 trường hợp, có 30 trường hợp trùng với thực tế (chiếm 83.3%) và 6 trường hợp bị nhầm lẫn với “1” (chiếm 15.4%).

+ output “1”: Trong 39 trường hợp, có 33 trường hợp trùng với thực tế (chiếm 84.6%), 6 trường hợp bị nhầm lẫn với “0” (chiếm 16.7%).

Hình 4.7 Kết quả ma trận nhầm lẫn bằng phương pháp SVM

- Tỷ lệ nhầm lẫn so với thực tế:

+ output “0”: Trong 36 trường hợp, có 31 trường hợp trùng với thực tế (chiếm 86.1%) và 5 trường hợp bị nhầm lẫn với “1” (chiếm 12.8%).

+ output “1”: Trong 39 trường hợp, có 34 trường hợp trùng với thực tế (chiếm 87.2%), 5 trường hợp bị nhầm lẫn với “0” (chiếm 13.9%).

Dựa trên phân tích từ ma trận nhầm lẫn, mô hình Logistic Regression và SVM cho thấy chỉ số kiểm định tương đương nhau Cả hai mô hình này đều có độ nhầm lẫn giữa dự báo và thực tế thấp hơn so với mô hình còn lại.

Kết quả từ Test and Score cùng với Confusion Matrix cho thấy mô hình Logistic Regression là lựa chọn tối ưu và hiệu quả nhất cho dự báo.

Dự báo

● Sử dụng Data.xlsx làm tập dữ liệu cho việc nghiên cứu dự báo.

Hình 4.8 Chọn tập dữ liệu dự báo

● Sử dụng công cụ Predictions để dự báo kết quả theo mô hình Logistic Regression

Hình 4.9 Mô hình dự báo

Hình 4.10 Kết quả dự báo ĐÁNH GIÁ

Các kết quả đạt được

Từ bộ dữ liệu Heart Attack Analysis & Prediction, chúng tôi đã thực hiện mô hình phân lớp để tìm ra phương pháp có tỷ lệ chính xác cao nhất Phân tích từ Confusion Matrix cho thấy cả hai mô hình Logistic Regression và SVM đều có tỷ lệ nhầm lẫn thấp, tương đương nhau và thấp hơn mô hình Decision Tree Tuy nhiên, theo kết quả AUC trong mục Test and Score, mô hình Logistic Regression đạt được số liệu tốt nhất khi áp dụng 5 fold cross validation và 10 fold cross validation Do đó, nhóm đã kết luận rằng mô hình Logistic Regression là lựa chọn tối ưu cho việc dự báo.

Sau khi xác định phương pháp tối ưu cho phân tích dữ liệu và dự báo, nhóm đã phát hiện những yếu tố chính ảnh hưởng đến nguy cơ nhồi máu cơ tim ở mỗi cá nhân Từ đó, nhóm đề xuất các biện pháp hiệu quả nhằm ngăn ngừa và giảm thiểu nguy cơ mắc bệnh này.

Hạn chế

Mặc dù nhóm đã đạt được nhiều kết quả thiết thực từ đề tài, nhưng vẫn nhận thấy một số hạn chế cần được khắc phục.

Phạm vi nghiên cứu hẹp và quy mô dữ liệu nhỏ đã dẫn đến tính khái quát vấn đề chưa cao, cùng với đó, độ chính xác của kết quả nghiên cứu cũng chưa được đảm bảo do nhóm nghiên cứu sử dụng bộ dữ liệu thu thập trong quá khứ, khiến một số thuộc tính không đại diện và không phù hợp với thực tế hiện tại Ngoài ra, các thuộc tính mới phát sinh có thể đã bị bỏ sót, và một số yếu tố quan trọng khác cũng chưa được đề cập trong bộ dữ liệu.

Thói quen hút thuốc lá không chỉ làm tăng nồng độ cholesterol LDL oxy hóa mà còn giảm cholesterol HDL, yếu tố quan trọng trong việc bảo vệ tim Nicotin trong thuốc lá gây nghiện và kích thích sản sinh adrenaline, dẫn đến nhịp tim nhanh và loạn nhịp tim do catecholamine Hơn nữa, hút thuốc lá còn làm tăng fibrinogen và sự kết dính của tiểu cầu, góp phần vào các vấn đề tim mạch.

Chỉ số triglyceride là một chỉ số quan trọng liên quan đến sức khỏe tim mạch Triglyceride, một loại chất béo trung tính, được sản xuất bởi cơ thể và cũng được hấp thụ từ thực phẩm hàng ngày Chức năng chính của triglyceride là dự trữ năng lượng và cung cấp năng lượng cho cơ thể khi cần thiết Tuy nhiên, khi mức triglyceride trong cơ thể quá cao, chúng có thể tích tụ và bám vào thành mạch, gây cản trở lưu thông máu Tình trạng này, đặc biệt khi kết hợp với cholesterol cao, có thể dẫn đến nhiều biến chứng nghiêm trọng như nhồi máu cơ tim.

*Trích nguồn: Triglyceride cao có nguy hiểm không và các vấn đề liên quan

Hướng phát triển đề tài

Nhồi máu cơ tim là biến chứng nguy hiểm nhất trong các bệnh lý tim mạch, có thể dẫn đến di chứng nghiêm trọng như tai biến, suy tim và viêm màng tim, thậm chí tử vong nếu không được cấp cứu kịp thời Xu hướng gia tăng nhồi máu cơ tim ở người trẻ yêu cầu chúng ta cần hiểu biết sâu rộng về nguy cơ mắc bệnh và các giải pháp phòng ngừa Các yếu tố quyết định nguy cơ nhồi máu cơ tim bao gồm huyết áp cao, lượng đường trong máu và chỉ số Cholesterol Để giảm thiểu nguy cơ mắc nhồi máu cơ tim, cần áp dụng những biện pháp phù hợp và hiệu quả.

Để giảm cholesterol trong bữa ăn, hạn chế thực phẩm giàu cholesterol như thịt và tăng cường rau, nấm, rong biển, cùng cá mình xanh giàu chất xơ Ngoài ra, nên sử dụng dầu thực vật như dầu ô liu thay cho dầu động vật trong chế biến món ăn.

Thường xuyên vận động và xây dựng chế độ tập luyện hiệu quả phù hợp với thể trạng là rất quan trọng Tập thể dục đúng cách với cường độ vừa phải không chỉ tăng cường lưu thông và tuần hoàn máu mà còn giúp giảm căng thẳng, stress Hơn nữa, việc này còn hỗ trợ đốt cháy năng lượng và mỡ thừa, góp phần phòng tránh nhồi máu cơ tim hiệu quả.

Để giảm lượng đường trong máu, cần hạn chế tiêu thụ thực phẩm và đồ uống ngọt, đặc biệt là những sản phẩm chứa nhiều đường tinh luyện Đối với bệnh nhân tiểu đường, việc kiểm soát chế độ ăn uống và thường xuyên kiểm tra lượng đường trong cơ thể là rất quan trọng Ngoài ra, cần tránh tình trạng thừa cân và béo phì để duy trì sức khỏe tốt.

Cơn nhồi máu cơ tim có thể xảy ra đột ngột và khó lường, nhưng có nhiều dấu hiệu cảnh báo Việc khám sức khỏe định kỳ ít nhất 6 tháng một lần và theo dõi các chỉ số quan trọng tại nhà sẽ giúp phát hiện sớm những bất thường trong cơ thể, từ đó nhận biết các dấu hiệu nguy hiểm và chủ động phòng ngừa.

Ngày đăng: 13/11/2023, 04:41

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w