1. Trang chủ
  2. » Luận Văn - Báo Cáo

TIỂU LUẬN đề tài NGHIÊN cứu dự báo NGUY cơ đột QUỴ của cơ THỂ CON NGƯỜI

42 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên Cứu Dự Báo Nguy Cơ Đột Quỵ Của Cơ Thể Con Người
Tác giả Trần Mỹ Kiều, Lê Phương Thảo, Ngô Thị Mỹ Uyến, Hứa Như Ý
Người hướng dẫn ThS. Thái Kim Phụng
Trường học Đại học UEH
Chuyên ngành Khoa học dữ liệu
Thể loại tiểu luận
Năm xuất bản 2022
Thành phố TP.HCM
Định dạng
Số trang 42
Dung lượng 6,69 MB

Cấu trúc

  • 1.4. Đối tượng nghiên cứu (5)
  • 1.5. Phạm vi nghiên cứu (5)
  • 2. Cơ sở lý luận (6)
    • 2.1 Khai phá dữ liệu (6)
      • 2.1.1 Khái niệm (6)
      • 2.1.2 Quy trình khai phá dữ liệu (6)
      • 2.1.3 Các phương pháp khai phá dữ liệu (7)
      • 2.1.4 Công cụ khai phá dữ liệu được sử dụng trong bài nghiên cứu - Orange (8)
    • 2.2 Phân lớp dữ liệu (10)
      • 2.2.1 Khái niệm (10)
      • 2.2.2 Quy trình phân lớp dữ liệu (11)
      • 2.2.3 Các phương pháp phân lớp dữ liệu sử dụng trong bài nghiên cứu (12)
      • 2.2.4. Các phương pháp đánh giá mô hình phân lớp (15)
  • 3. Mô hình nghiên cứu đề xuất (18)
    • 3.1. Mô tả dữ liệu (18)
      • 3.1.1 Mô tả các biến (20)
      • 3.1.2 Bộ dữ liệu huấn luyện (21)
      • 3.1.3 Bộ dữ liệu dự báo (21)
    • 3.2. Xử lý dữ liệu (21)
    • 4.2. Đánh giá kết quả và mô hình (27)
  • 5. Kết luận và nhận xét (28)
    • 5.1 Kết luận (28)
    • 5.2 Hạn chế và giải pháp (29)
  • TÀI LIỆU THAM KHẢO (31)

Nội dung

Cơ sở lý luận

Khai phá dữ liệu

Khai phá dữ liệu là quy trình sử dụng các kỹ thuật tự động để phát hiện và phân tích mối quan hệ giữa các dữ liệu trong một tập hợp lớn và phức tạp, đồng thời nhận diện các mẫu tiềm ẩn trong dữ liệu đó.

2.1.2 Quy trình khai phá dữ liệu Quy trình khai phá dữ liệu bao gồm 7 bước dưới đây:

1 Làm sạch dữ liệu (data cleaning): Loại bỏ nhiễu và các dữ liệu không cần thiết

2 Tích hợp dữ liệu (data integration): quá trình hợp nhất dữ liệu thành những kho dữ liệu (data warehouses & data marts) sau khi đã làm sạch và tiền xử lý (datacleaning & preprocessing)

3 Trích chọn dữ liệu (data selection): trích chọn dữ liệu từ những kho dữ liệu và sau đó chuyển đổi về dạng thích hợp cho quá trình khai thác tri thức Quá trình này bao gồm cả việc xử lý với dữ liệu nhiễu (noisy data), dữ liệu không đầy đủ (incomplete data),.v.v

4 Chuyển đổi dữ liệu: Các dữ liệu được chuyển đổi sang các dạng phù hợp cho quá trình xử lý

5 Khai phá dữ liệu(data mining): Là một trong các bước quan trọng nhất, trong đó sử dụng những phương pháp thông minh để chắt lọc ra những mẫu dữ liệu

6 Ước lượng mẫu (knowledge evaluation): Quá trình đánh giá các kết quả tìm được thông qua các độ đo nào đó

7 Biểu diễn tri thức (knowledge presentation): Quá trình này sử dụng các kỹ thuật để biểu diễn và thể hiện trực quan cho người dùng Được trình bày dưới dạng sơ đồ hình vẽ như sau:

Nguồn: uet.vnu.edu.vn 2.1.3 Các phương pháp khai phá dữ liệu

Phân lớp là một phương pháp dự báo dữ liệu hiệu quả, sử dụng bộ dữ liệu huấn luyện để phân loại các đối tượng Trong bài viết này, tôi sẽ áp dụng phương pháp khai phá dữ liệu này để dự đoán các số liệu cụ thể.

Hồi quy (Regression): Mục đích chính của phương pháp hồi quy này là dùng để khám phá và ánh xạ dữ liệu

Phân cụm là một phương pháp hữu ích trong việc mô tả dữ liệu, giúp xác định và tổ chức các tập hợp hữu hạn các cụm với nhau.

Tổng hợp (Summarization): Phương pháp này cho phép người làm tìm kiếm một mô tả nhỏ gọn

Mô hình ràng buộc (Dependency modeling): Người làm sẽ tìm được mô hình cục bộ mô tả các phụ thuộc dựa vào phương pháp mô hình ràng buộc

Dò tìm biến đổi và độ lệch (Change and Deviation Detection): Mục đích của phương pháp này là để tìm ra những thay đổi quan trọng

2.1.4 Công cụ khai phá dữ liệu được sử dụng trong bài nghiên cứu - Orange Phần mềm Orange được biết đến bởi việc tích hợp các công cụ khai phá dữ liệu mã nguồn mở và học máy thông minh, đơn giản, được lập trình bằng Python với giao diện trực quan và tương tác dễ dàng Với nhiều chức năng, phần mềm này có thể phân tích được những dữ liệu từ đơn giản đến phức tạp, tạo ra những đồ họa đẹp mắt và thú vị và còn giúp việc khai thác dữ liệu và học máy trở nên dễ dàng hơn cho cả người dùng mới và chuyên gia

Các công cụ (widgets) cung cấp nhiều chức năng cơ bản, bao gồm đọc và hiển thị dữ liệu dưới dạng bảng, lựa chọn các thuộc tính của dữ liệu, huấn luyện dữ liệu để dự đoán, so sánh các thuật toán máy học, và trực quan hóa các phần tử dữ liệu.

- Data: dùng để rút trích, biến đổi và nạp dữ liệu (ETL, process)

- Visualize: dùng để biểu diễn biểu đồ (chart) giúp quan sát dữ liệu được tốt hơn

- Model: gồm các hàm máy học (machine learning) phân lớp dữ liệu với Tree, Logistics Regression, SVM,…

- Evaluate: là các phương pháp đánh giá mô hình như: Test & Score, Prediction, Confusion,…

- Unsupervised: gồm các hàm máy học gom nhóm dữ liệu như: Distance, K-means,…

Add-ons của Orange giúp mở rộng các chức năng nâng cao như xử lý dữ liệu lớn với Spark, xử lý ảnh bằng Deep Learning, xử lý văn bản và phân tích mạng xã hội Đây chính là điểm mạnh của Orange so với các phần mềm khai phá dữ liệu khác.

Phân lớp dữ liệu

Quá trình phân loại dữ liệu là việc phân chia một đối tượng vào một hoặc nhiều lớp đã được xác định trước, dựa trên một mô hình phân lớp Mô hình này được phát triển từ một tập dữ liệu đã được gán nhãn trước đó.

(thuộc về lớp nào) Quá trình gán nhãn (thuộc lớp nào) cho đối tượng dữ liệu chính là quá trình phân lớp dữ liệu

2.2.2 Quy trình phân lớp dữ liệu Quá trình phân lớp dữ liệu gồm 2 bước chính: ỉ Bước 1: Xõy dựng mụ hỡnh (hay cũn gọi là giai đoạn “học” hoặc “huấn luyện”)

- Dữ liệu đầu vào: là dữ liệu mẫu đã được gán nhãn và tiền xử lý

- Các thuật toán phân lớp: cây quyết định, hàm số toán học, tập luật…

- Kết quả của bước này là mô hình phân lớp đã được huấn luyện (trình phân lớp)

Nguồn: slides bài giảng LMS ỉ Bước 2: Sử dụng mụ hỡnh chia thành 2 bước nhỏ

• Bước 2.1: Đánh giá mô hình (kiểm tra tính đúng đắn của mô hình)

Dữ liệu đầu vào là một tập dữ liệu mẫu đã được gán nhãn và tiền xử lý Tuy nhiên, khi đưa vào mô hình phân lớp, chúng ta không sử dụng thuộc tính đã được gán nhãn.

Độ chính xác của mô hình sẽ được đánh giá bằng việc so sánh các thuộc tính gán nhãn của dữ liệu đầu vào với kết quả phân loại mà mô hình tạo ra.

Nguồn: slides bài giảng LMS

• Bước 2.2: Phân lớp dữ liệu mới

- Dữ liệu đầu vào: là dữ liệu “khuyết” thuộc tính cần dự đoán lớp (nhãn)

- Mô hình sẽ tự động phân lớp (gán nhãn) cho các đối tượng dữ liệu này dựa vào những gì được huấn luyện ở bước 1

Nguồn: slides bài giảng LMS 2.2.3 Các phương pháp phân lớp dữ liệu sử dụng trong bài nghiên cứu

★ Phương pháp cây ra quyết định Định nghĩa:

Trong lý thuyết quản trị, cây quyết định là một công cụ đồ họa giúp minh họa các quyết định và kết quả khả thi, hỗ trợ quá trình ra quyết định hiệu quả Trong khai thác dữ liệu, cây quyết định được sử dụng để mô tả, phân loại và tổng quát hóa tập dữ liệu, mang lại cái nhìn sâu sắc về thông tin đã cho.

Nguồn: slides bài giảng LMS

Hồi quy logistic là một mô hình thống kê cơ bản sử dụng hàm logistic để mô hình hóa biến phụ thuộc nhị phân Trong phân tích hồi quy, hồi quy logistic (hay hồi quy logit) ước lượng các tham số của mô hình logistic, một dạng hồi quy nhị phân Về mặt toán học, mô hình logistic nhị phân có một biến phụ thuộc với hai giá trị có thể, chẳng hạn như đạt hoặc không đạt, được đại diện bởi một biến chỉ báo với hai giá trị "0" và "1".

Nguồn: slides bài giảng LMS

Phương pháp Neural Network, hay còn gọi là Mạng Neural nhân tạo, là một chuỗi thuật toán được thiết kế để xác định các mối quan hệ trong tập dữ liệu cụ thể, thông qua việc mô phỏng hoạt động của bộ não con người Đơn giản hơn, nó mang tính chất nhân tạo Neural Network có khả năng tương thích linh hoạt với mọi thay đổi trong dữ liệu đầu vào và có thể đưa ra kết quả tối ưu mà không cần phải xác định các tiêu chí đầu ra trước.

★ Phương pháp SVM Định nghĩa:

SVM, hay Support Vector Machine, là một thuật toán học máy có giám sát, hoạt động bằng cách nhận dữ liệu và xem chúng như các vector trong không gian Thuật toán này phân loại dữ liệu thành các lớp khác nhau bằng cách xây dựng một siêu phẳng trong không gian nhiều chiều, tạo ra ranh giới phân cách giữa các lớp dữ liệu.

Các biến thể của SVM:

Hard Margin SVM Hai lớp cần phân lớp là có thể phân chia tuyến tính (linearly seperable)

Soft Margin SVM Hai lớp cần phân lớp là “gần” phân chia tuyến tính (almost linear separable)

Multi - class SVM Phân lớp đa lớp (biên giữa các lớp là tuyến tính)

Kernel SVM Dữ liệu là phi tuyến

2.2.4 Các phương pháp đánh giá mô hình phân lớp 2.2.4.1 Ma trận nhầm lẫn (Confusion matrix)

Ma trận nhầm lẫn là công cụ đánh giá hiệu suất của mô hình phân loại, cho thấy số lượng điểm dữ liệu thực sự thuộc về một lớp cụ thể và lớp mà mô hình dự đoán Ma trận này có kích thước k x k, trong đó k là số lượng lớp trong dữ liệu.

Ma trận nhầm lẫn bao gồm các thuật ngữ quan trọng như sau: Tích cực thực sự (TP) là trường hợp dự đoán đúng lớp tích cực, trong khi Tích cực giả (FP) là trường hợp dự đoán sai khi lớp phủ định được dự đoán là tích cực Ngược lại, Phủ định giả (FN) là khi lớp tích cực bị dự đoán sai thành phủ định, còn Phủ định thực (TN) là khi dự đoán đúng lớp phủ định.

Nguồn: slides bài giảng LMS

2.2.4.2 ROC ( Receiver Operating Characteristic) và AUC (Area Under the Curve)

ROC là một đồ thị quan trọng trong việc đánh giá mô hình phân loại nhị phân, thể hiện mối quan hệ giữa tỷ lệ true positive rate (TPR) và false positive rate (FPR) tại các ngưỡng khác nhau Một mô hình phân loại được coi là hiệu quả khi đường cong ROC tiến gần đến điểm (0;1), tức là đạt được TPR cao và FPR thấp, cho thấy sự phù hợp tốt hơn của mô hình.

Nguồn: slides bài giảng LMS

AUC, hay diện tích dưới đường cong ROC, là một chỉ số đánh giá hiệu suất của mô hình Giá trị AUC nằm trong khoảng từ 0 đến 1, với giá trị càng gần 1 thì mô hình càng hiệu quả Một AUC cao cho thấy khả năng phân loại chính xác của mô hình tốt hơn.

Nguồn: slides bài giảng LMS 2.2.4.3 Tính chính xác (Accuracy)

Là tỷ lệ số mẫu được phân lớp đúng trong toàn bộ tập dữ liệu acc=(a+d) Ún => Error rate=1 -acc là độ lỗi của mô hình

Độ chính xác chỉ ra tỷ lệ dữ liệu được phân loại đúng, nhưng không cung cấp thông tin chi tiết về cách phân loại từng loại, lớp nào được phân loại chính xác nhất, và dữ liệu thuộc lớp nào thường bị nhầm lẫn Mô hình có độ chính xác cao đồng nghĩa với việc nó hoạt động hiệu quả và chính xác hơn.

- Precision (độ chính xác) cho biết tỉ lệ số điểm true positive (TP) trong số những điểm được phân loại là positive (TP + FP)

Recall, also known as sensitivity or True Positive Rate (TPR), is the ratio of true positive (TP) instances to the total number of actual positive instances, which is the sum of true positives and false negatives (TP + FN).

- F1- score là giá trị trung bình điều hòa của hai độ đo Precision và Recall

The F1 score is a metric that reflects the lower value between Precision and Recall, indicating that a higher F1 score signifies greater reliability of the model when both Precision and Recall are high.

2.2.4.5 Hold out với K-fold cross validation

Mô hình nghiên cứu đề xuất

Mô tả dữ liệu

Cột stroke trong dữ liệu là mục tiêu nghiên cứu, nhằm dự đoán nguy cơ đột quỵ Bài nghiên cứu sử dụng 2000 phiếu khảo sát, trong đó 70% được dùng để huấn luyện và 30% để kiểm tra dữ liệu Chúng tôi khảo sát nhiều tác nhân nhằm tổng hợp dữ liệu về các chứng bệnh có thể dẫn đến nguy cơ đột quỵ, áp dụng cho mọi độ tuổi, giới tính và địa điểm sinh sống.

Tăng huyết áp là một trong những nguyên nhân chính gây ra đột quỵ, chiếm 21,7% tỷ lệ tử vong ở Việt Nam, theo Tổ chức Y tế Thế giới (WHO) Đây cũng là nguyên nhân phổ biến nhất dẫn đến khuyết tật nghiêm trọng ở người lớn trên toàn cầu Tình trạng này làm tăng nguy cơ đột quỵ và tử vong sớm, với tỷ lệ mắc bệnh là 1 trong 4 nam giới và 1 trong 5 nữ giới.

Tăng huyết áp làm tăng nguy cơ vỡ hoặc tắc nghẽn các động mạch trong cơ thể, đặc biệt là ở não, dẫn đến tổn thương nghiêm trọng và tăng khả năng xảy ra đột quỵ.

BMI được tính bằng cách chia cân nặng cho bình phương chiều cao, giúp xác định tình trạng cơ thể như thừa cân, thiếu cân hay cân nặng bình thường.

BMI = Cân nặng/ (Chiều cao) 2

Mức độ béo phì thường được tính toán để đánh giá sức khỏe Những người mắc béo phì có nguy cơ cao mắc bệnh tiểu đường, đột quỵ, một số loại ung thư và các bệnh về tim mạch.

Chỉ số BMI cao cho thấy lượng mỡ trong cơ thể tăng, làm gia tăng nguy cơ mắc các bệnh lý nghiêm trọng như béo phì, đột quỵ, huyết áp cao, bệnh tim mạch và tiểu đường Ngược lại, chỉ số BMI thấp có thể dẫn đến các vấn đề sức khỏe như thiếu máu, hệ miễn dịch yếu và loãng xương.

- Hút thuốc lá/ smoking_status Hút thuốc lá từ lâu bị xem là một trong những yếu tố làm tăng đáng kể nguy cơ đột quỵ

Người hút thuốc lá ít hơn 11 điếu mỗi ngày có nguy cơ đột quỵ cao hơn 46% so với người không hút thuốc Đặc biệt, những người tiêu thụ 2 bao thuốc mỗi ngày có nguy cơ bị đột quỵ gấp 5 lần so với người không hút.

Hút thuốc làm tăng nguy cơ đột quỵ bằng cách thu hẹp các động mạch trong não và động mạch cảnh ở cổ Sự tắc nghẽn hoặc hình thành cục máu đông có thể dẫn đến đột quỵ và tê liệt Khi mạch máu bị chặn hoàn toàn, phần não đó sẽ chết, gây ra mất khả năng nói, đi lại hoặc di chuyển bình thường Tùy thuộc vào vùng não bị ảnh hưởng, đột quỵ có thể dẫn đến tử vong.

Mức đường trung bình cao (avg_glucose_level) có thể dẫn đến nguy cơ mắc bệnh đái tháo đường, khi lượng đường trong máu tăng cao Người mắc bệnh này cũng có nguy cơ cao bị đột quỵ, do tăng triglycerid có thể gây ra tình trạng xơ vữa động mạch, làm cứng hoặc tắc nghẽn mạch máu Điều này cản trở lưu thông máu lên não, từ đó làm tăng nguy cơ đột quỵ.

Người mắc bệnh đái tháo đường có nguy cơ đột quỵ cao gấp 2 đến 4 lần so với người bình thường, do hiện tượng tăng đường huyết sau ăn thúc đẩy sự phát triển của xơ vữa động mạch Khi khối xơ vữa phát triển nhanh, nó có thể dẫn đến nghẽn hoặc tắc nghẽn mạch máu, gây ra đột quỵ Glucose, hay còn gọi là đường, là nguồn năng lượng chính nuôi cơ thể, được chuyển hóa từ thực phẩm hàng ngày Trong máu luôn có một lượng glucose nhất định để đảm bảo cung cấp năng lượng cho các hoạt động hàng ngày.

90 - 130 mg/dl (tức 5 - 7,2 mmol/l) ở thời điểm trước bữa ăn

Dưới 180 mg/dl (tức 10 mmol/l) ở thời điểm sau ăn khoảng 1 - 2 tiếng

100 - 150 mg/l (tức 6 - 8,3 mmol/l) ở thời điểm trước khi đi ngủ

Suy tim có thể làm tăng nguy cơ đột quỵ, do tình trạng này khiến tim không còn khả năng bơm máu hiệu quả Biến chứng nghiêm trọng nhất của suy tim chính là khả năng gây ra đột quỵ.

Suy tim, một bệnh lý tim mạch có nguy cơ dẫn đến đột quỵ, thường liên quan đến nhiều yếu tố nguy cơ như huyết áp cao, xơ vữa động mạch, hút thuốc lá, tiểu đường và uống rượu nặng.

Một số bệnh tim mạch như giãn cơ tim, bệnh van tim, viêm màng tim và các khuyết tật tim bẩm sinh có thể làm tăng nguy cơ đột quỵ.

The survey ID collects data on gender, identifying respondents as either Female or Male It records the age of participants and assesses whether they have hypertension (0 for no, 1 for yes) and heart disease (0 for no, 1 for yes) The survey also inquires if respondents have ever been married (No or Yes) and their current work type, which includes options like Private, Self-employed, Govt_job, or children Additionally, it captures the type of residence (Rural or Urban) and measures the average glucose level, which may indicate diabetes risk The Body Mass Index (BMI) is included to evaluate obesity levels, while smoking status is categorized as formerly smoked, never smoked, or smokes Finally, the survey determines the risk of stroke (0 for no, 1 for yes).

3.1.2 Bộ dữ liệu huấn luyện

Nghiên cứu ứng dụng mô hình khai phá dữ liệu để dự báo nguy cơ đột quỵ đã sử dụng 1400 mẫu khảo sát đầu tiên cho quá trình Training, tập trung vào 5 biến độc lập chính: huyết áp cao, bệnh tim, mức glucose trung bình, chỉ số BMI và tình trạng hút thuốc Các biến không liên quan đến dự đoán đã được phân tích và loại bỏ, trong khi biến mục tiêu là chỉ số đột quỵ.

3.1.3 Bộ dữ liệu dự báo

Xử lý dữ liệu

Các thuộc tính như ID, ever_married và work_type không có ảnh hưởng đến việc đánh giá, do đó sinh viên sẽ không sử dụng những đặc tính này trong các bước tiếp theo.

4.1 Phân tích kết quả dựa trên phần mềm

4.1.1 Kết quả của dữ liệu huấn luyện Đầu tiên, chúng ta sẽ sử dụng phần mềm Orange để đưa bộ dữ liệu huấn luyện vào Sau khi đưa bộ dữ liệu huấn luyện vào, chúng ta sẽ bắt đầu khai báo các thuộc tính của bộ dữ liệu huấn luyện

Hình 4.1: Khai báo thuộc tính các biến trong bộ dữ liệu huấn luyện

Nguồn dữ liệu từ phần mềm Orange cho thấy các biến độc lập như giới tính, tuổi, huyết áp, bệnh tim, loại cư trú, mức glucose trung bình, chỉ số BMI và tình trạng hút thuốc được xác định là "feature" Biến phụ thuộc là đột quỵ, được khai báo là "target", nhằm dự đoán nguy cơ đột quỵ Đột quỵ được phân loại thành hai loại: "0 - không có nguy cơ" và "1 - có nguy cơ" Các biến ID, tình trạng hôn nhân và loại công việc sẽ không được đưa vào dự báo và được đánh dấu là "skip".

Sau khi khai báo các thuộc tính dữ liệu quan trọng, nghiên cứu sẽ chọn phương pháp phân lớp dữ liệu tối ưu dựa trên các chỉ số như AUC, CA, F1, Precision và Recall Các phương pháp phân lớp được sử dụng trong nghiên cứu bao gồm Cây quyết định, Hồi quy Logistic, SVM và Mạng nơ-ron Quá trình huấn luyện và dự báo được minh họa trong sơ đồ ở Hình 4.2.

Hình 4.2 Tổng quan về quy trình huấn luyện và dự báo

Sau khi xây dựng sơ đồ như Hình 4.2, nghiên cứu tiến hành phần Test and Score để tổng hợp các chỉ số và chọn mô hình tối ưu Bài nghiên cứu áp dụng phương pháp K-fold cross validation với k=5 nhằm đánh giá mô hình, nhờ vào những ưu điểm vượt trội so với phương pháp Hold-out Phương pháp này cho phép mô hình được huấn luyện và dự đoán trên nhiều tập dữ liệu khác nhau, giúp tăng cường độ chính xác nhờ việc không trùng lặp dữ liệu trong quá trình huấn luyện.

Hình 4.3 Kết quả đánh giá mô hình bằng phương pháp K-fold

Trong nghiên cứu này, Logistic Regression thể hiện hiệu suất vượt trội với các chỉ số AUC, CA, F1, Precision và Recall cao Giá trị AUC đạt 0.821, cao hơn so với các phương pháp khác Chỉ số CA của Logistic Regression cũng ấn tượng, chỉ đứng sau SVM nhưng không chênh lệch nhiều Đặc biệt, độ phù hợp của thuật toán này được khẳng định qua việc đánh giá bằng ma trận nhầm lẫn, như thể hiện trong Hình 4.4.

Hình 4.4 Ma trận nhầm lẫn với Logistic Regression

Nguồn: Kết quả từ chương trình Orange

Từ ma trận nhầm lẫn, ta có thể thấy TP = 1238, FP = 14, TN = 141 và FN = 7 Ở ma trận nhầm lẫn này thể hiện trong 1400 mẫu của bộ huấn luyện như sau:

- Có 1252 người thuộc phân lớp "không có nguy cơ đột quỵ", trong đó lượng mẫu được phân lớp đúng lên đến 1238 người và có 14 mẫu bị phân nhầm lớp

Trong số người thuộc phân lớp "có nguy cơ đột quỵ", có 148 trường hợp, trong đó 141 mẫu được phân loại chính xác, còn lại 7 mẫu bị phân nhầm.

Mô hình Logistic Regression được xác định là phù hợp cho bộ dữ liệu nghiên cứu này, đặc biệt trong việc dự báo số trường hợp có nguy cơ đột quỵ Bài nghiên cứu tiếp theo sẽ phân tích cách mà mô hình Logistic Regression thực hiện dự đoán dựa trên bộ dữ liệu huấn luyện Kết quả dự báo sẽ được trình bày chi tiết ở mục 4.1.2.

4.1.2 Kết quả của dữ liệu dự báo Logistic Regression là phương pháp phân lớp thích hợp nhất cho bài nghiên cứu, vì vậy sẽ sử dụng Logistic Regression dự báo "stroke" cho 600 lượng mẫu còn lại Nhóm sinh viên cũng tiến hành các bước tương tự như bộ dữ liệu huấn luyện, đưa bộ dữ liệu dự báo vào chương trình Orange và chạy các thuộc tính cho các biến số ở bộ dữ liệu dữ báo giống như bộ dữ liệu huấn luyện

Hình 4.5: Khai báo thuộc tính các biến trong bộ dữ liệu dự báo

Nguồn: Kết quả từ chương trình Orange cho thấy các biến độc lập như giới tính, tuổi tác, huyết áp, bệnh tim, loại cư trú, mức glucose trung bình, chỉ số BMI và tình trạng hút thuốc được xác định là "feature" Biến "stroke" cũng được coi là "feature", khác với bộ dữ liệu huấn luyện là "target" Các biến ID, tình trạng hôn nhân và loại công việc được khai báo là "skip" Đặc biệt, biến BMI được phân loại là "meta" và không ảnh hưởng đến quá trình phân loại dữ liệu Cuối cùng, chúng ta sẽ xem dự báo bằng phương pháp hồi quy logistic trong phần Predictions.

Kết quả dự báo từ 600 mẫu cho thấy có 591 người không có nguy cơ đột quỵ, trong khi 9 người có nguy cơ Điều này đặt ra câu hỏi về lý do phân lớp kết quả như vậy Để hiểu rõ hơn về sự phân lớp này, chúng ta có thể tham khảo kết quả của Logistic Regression trong hình 4.6.

Hình 4.6 Kết quả của dự báo bằng Logistic Regression

Dựa vào hình 4.6 từ chương trình Orange, chúng ta có thể thấy rõ các dự báo nguy cơ đột quỵ Những kết quả này giúp chúng ta nhận diện và đánh giá được các yếu tố nguy cơ, từ đó đưa ra những biện pháp phòng ngừa hiệu quả Việc hiểu rõ những dự báo này là rất quan trọng trong việc nâng cao nhận thức về sức khỏe và giảm thiểu tỷ lệ đột quỵ trong cộng đồng.

- Những người có chỉ số Logistic Regression thuộc phân lớp "0" từ 0.5 trở lên sẽ được phân loại là "Không có nguy cơ bị đột quỵ"

- Những người có chỉ số Logistic Regression thuộc phân lớp "1" từ 0.5 trở lên sẽ được phân loại là "Có nguy cơ bị đột quỵ"

Tương tự, thuật toán Logistic Regression cũng phân loại dựa trên chỉ số này đối với số người còn lại (kết quả sẽ được đính kèm ở phần phụ lục).

Đánh giá kết quả và mô hình

Bài nghiên cứu đã chia 2000 mẫu thành 2 bộ dữ liệu: 1400 mẫu cho huấn luyện và 600 mẫu cho dự báo Qua phân tích, Logistic Regression được xác định là phương pháp phân lớp tối ưu dựa trên các chỉ số AUC, F1, CA, Precision và Recall Sử dụng ma trận nhầm lẫn, chúng tôi rút ra kết luận cho bộ dữ liệu huấn luyện Đối với bộ dữ liệu dự báo, mô hình Logistic Regression được áp dụng trên 600 người để dự đoán nguy cơ đột quỵ Kết quả chỉ mang tính chất học thuật và không hoàn toàn chính xác, nhưng nghiên cứu đã góp phần vào việc nâng cao nhận thức về nguy cơ đột quỵ, giúp mọi người có những biện pháp phòng ngừa hiệu quả Nghiên cứu kết hợp giữa công nghệ thông tin và sức khỏe, sử dụng phần mềm Orange để phát triển mô hình dự báo và phân tích các yếu tố nguy cơ liên quan đến đột quỵ, từ đó đề xuất giải pháp phù hợp cho người đọc.

Ngày đăng: 23/12/2023, 23:05

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w