1.2 Mục tiêu nghiên cứu Đề tài "Dự báo và phân tích cơ sở dữ liệu về bệnh tim mạch dựa trên lượng đường khi đói FBS" nhằm phát triển mô hình dự báo để dự đoán nguy cơ mắc bệnh tim mạch c
TỔ NG QUAN NGHIÊN CỨ U
L Ý DO CHỌN ĐỀ TÀI
1.1.1 Khái quát về bệnh tim
Bệnh tim mạch là các tình trạng liên quan đến sức khỏe của trái tim, sự hoạt động của các mạch máu gây suy yếu khả năng làm việc của tim Các bệnh tim mạch bao gồm: các bệnh mạch máu như bệnh động mạch vành, bệnh cơ tim, loạn nhịp tim và suy tim
Bệnh tim mạch gây hẹp, xơ cứng và tắc nghẽn mạch máu, làm gián đoạn hoặc không cung cấp đủ Oxy đến não và các bộ phận khác trong cơ thể Từ đó khiến các cơ quan bị ngừng trệ hoạt động, phá hủy từng bộ phận dẫn đến tử vong
Bệnh tim mạch có thể tấn công bất kể tuổi tác, giới tính hay nghề nghiệp nào Bệnh không thể chữa khỏi hoàn toàn và đòi hỏi phác đồ điều trị nghiêm ngặt, có khả năng kéo dài suốt đời Việc điều trị bệnh tốn kém, gây áp lực tài chính đáng kể cho người bệnh và gia đình.
1.1.2 Thực trạng về tình trạng bệnh tim hiện nay
Theo Tổ chức Y tế Thế giới (WHO), bệnh tim mạch là một trong những nguyên nhân hàng đầu gây tử vong trên toàn cầu Theo WHO, bệnh tim mạch gây ra khoảng 17,9 triệu tử vong mỗi năm, chiếm khoảng 31% tổng số ca tử vong trên thế giới 4 trên 5 ca tử vong do bệnh tim mạch là do đau tim và đột quỵ, và 1/3 số ca tử vong này xảy ra sớm ở những người dưới 70 tuổi Bệnh tim mạch đang gia tăng ở hầu hết các quốc gia trên thế giới, đặc biệt là ở các nước đang phát triển Nguyên nhân chính là do lối sống không lành mạnh, bao gồm chế độ ăn uống không tốt, thiếu hoạt động thể chất, hút thuốc lá, tiêu thụ cồn, và căng thẳng
Mặc dù bệnh tim mạch thường xảy ra với người lớn tuổi, nhưng nó cũng có thể ảnh hưởng đến người trẻ tuổi Các yếu tố nguy cơ như tiền sử gia đình, bệnh tiểu đường, tăng huyết áp, béo phì và hút thuốc lá có thể tăng nguy cơ mắc bệnh tim mạch ở mọi độ tuổi Qua đó thấy được sự nguy hiểm của bệnh tim mạch đối với người mắc phải là rất cao Vì vậy, cần xác định những người có nguy cơ mắc bệnh tim mạch cao nhất và đảm bảo họ được điều trị thích hợp có thể ngăn ngừa tử vong sớm.
M ỤC TIÊU NGHIÊN CỨU
Đề tài "Dự báo và phân tích cơ sở dữ liệu về bệnh tim mạch dựa trên lượng đường khi đói (FBS)" nhằm phát triển mô hình dự báo để dự đoán nguy cơ mắc bệnh tim mạch cho các cá nhân dựa trên dữ liệu y tế và các yếu tố nguy cơ như tuổi, giới tính, loại đau thắt ngực, huyết áp tâm trương (mức huyết áp thấp nhất), lượng mỡ trong máu, lượng glucose huyết tương lúc đói, kết quả điện tâm đồ lúc nghỉ, nhịp tim tối đa, đau ngực khi gắng sức, ST chênh lệch khi gắng sức và lúc nghỉ trên kết quả điện tâm đồ, sự thay đổi ST khi liên quan đến sự gia tăng nhịp tim do luyện tập Ngoài ra, nghiên cứu cũng tập trung vào phân tích cơ sở dữ liệu để tìm hiểu mối quan hệ giữa các yếu tố nguy cơ và bệnh tim mạch, từ đó đưa ra các khuyến nghị và giải pháp phòng ngừa bệnh tim mạch hiệu quả.
Đ ỐI TƯỢNG NGHIÊN CỨU
Đối tượng chính của nghiên cứu là các cơ sở dữ liệu liên quan đến bệnh tim mạch của người bị bệnh và cả người không bị bệnh Bộ dữ liệu này chứa thông tin chi tiết về các biến số y khoa, chỉ số sinh học, yếu tố nguy cơ và kết quả bệnh tim mạch.
P HẠM VI NGHIÊN CỨU
Phạm vi nội dung: Phần lớn đề tài phân tích các yếu tố nguy cơ gây bệnh tim mạch từ đó dự đoán khả năng bệnh nhân mắc bệnh tim mạch.
N HỮNG CÔNG CỤ PHƯƠNG PHÁP SỬ , DỤNG
Nhóm đã sử dụng phần mềm Orange để phân tích đề tài các nguyên nhân dẫn đến bệnh tim mạch Dựa trên các dữ liệu lấy từ datasets về tuổi, giới tính, loại đau thắt ngực, huyết áp tâm trương (mức huyết áp thấp nhất), lượng mỡ trong máu, lượng glucose huyết tương lúc đói, kết quả điện tâm đồ lúc nghỉ, nhịp tim tối đa, đau ngực khi gắng sức, ST chênh lệch khi gắng sức và lúc nghỉ trên kết quả điện tâm đồ, sự thay đổi ST khi liên quan đến sự gia tăng nhịp tim do luyện tập đã được khảo sát từ đó áp dụng các thuật toán và các phương pháp thích hợp và tốt nhất để áp dụng vào mô hình phân tích.
Ý NGHĨA NGHIÊN CỨU
Bằng cách phân tích dữ liệu liên quan như thông tin y tế, xét nghiệm và tiền sử bệnh, mô hình dự báo nguy cơ mắc bệnh tim mạch được xây dựng để hỗ trợ chẩn đoán sớm, phòng ngừa và điều trị hiệu quả Nghiên cứu này làm sáng tỏ vai trò của lượng đường khi đói trong bệnh tim mạch Công nghệ khoa học dữ liệu cho phép xây dựng các mô hình dự báo và phân tích hỗ trợ quyết định lâm sàng, cải thiện chất lượng chăm sóc sức khỏe cho bệnh nhân tim mạch.
C ẤU TRÚC BÀI NGHIÊN CỨU
Chương 1: Tổng quan nghiên cứu
Chương 2: Cơ sở lý thuyết
Chương 3: Tổng quan về cơ sở dữ liệu nguồn, phân tích dữ liệu và kết quả
CƠ SỞ LÝ THUYẾ T
Q UY TRÌNH THỰC HIỆN DỰ ÁN
Quy trình thực hiện dự án khoa học dữ liệu được thực hiện theo 6 bước sau:
Bước 1 Xác định mục tiêu: Đầu tiên, chúng ta sẽ làm việc cùng nhóm và các bên liên quan để xác định rõ mục tiêu của dự án Điều này bao gồm việc đặt câu hỏi và mục tiêu kinh doanh cụ thể mà chúng tôi muốn tìm hiểu thông qua phân tích dữ liệu
Bước tiếp theo trong quy trình phân tích dữ liệu là thu thập dữ liệu từ nhiều nguồn khác nhau, bao gồm cả cơ sở dữ liệu nội bộ và dữ liệu công khai Đảm bảo dữ liệu đầy đủ và chất lượng cao là điều cần thiết để có kết quả phân tích chính xác và có ý nghĩa.
Bước 3 Tiền xử lý dữ liệu: Sau khi thu thập dữ liệu, chúng ta sẽ thực hiện tiền xử lý để làm sạch và chuẩn hóa dữ liệu Điều này bao gồm loại bỏ dữ liệu thiếu, xử lý dữ liệu ngoại lệ, định dạng lại và kiểm tra tính nhất quán của dữ liệu
Bước 4 Phân tích và mô hình hóa: chúng ta sử dụng các phương pháp thống kê và machine learning để tìm hiểu mẫu và quy luật trong dữ liệu Đây có thể là các phương pháp như hồi quy, phân loại, gom cụm hoặc phân tích chuỗi thời gian Mục tiêu là tạo ra mô hình dự đoán và hiểu sâu về dữ liệu
Bước 5: Trực quan hóa và báo cáo Sử dụng các công cụ như Python và Tableau để trực quan hóa dữ liệu và tạo báo cáo giúp doanh nghiệp và nhóm làm việc có cái nhìn sâu sắc hơn về các thông số và xu hướng quan trọng.
Bước 6 Đánh giá và tối ưu hóa: Cuối cùng, chúng ta sẽ đánh giá và tối ưu các mô hình và quy trình đã thực hiện chúng ta sẽ đảm bảo tính chính xác và độ tin cậy của phân tích dữ liệu và đề xuất các cải tiến hoặc phát triển tiếp theo cho dự án.
L Ý THUYẾT VỀ CÁC PHƯƠNG PHÁP TRONG PHÂN TÍCH DỮ LIỆU
2.3.1 Phần mềm Orange a) Khái niệm
Khai phá dữ liệu (Data Mining) và học máy (Machine Learning) là các lĩnh vực khá phức tạp để nghiên cứu và khám phá Vì vậy, đã có nhiều phần mềm ra đời để khắc phục những vấn đề khó khăn và phức tạp này Trong số đó ta có thể kể đến một phần mềm có thể được coi là thông dụng nhất đó chính là Orange
Orange được biết đến là một công cụ được lập trình bằng Python với giao diện trực quan và rất dễ dàng để tương tác Phần mềm Orange có thể dùng để tích hợp các công cụ khai phá dữ liệu và học máy thông minh, đơn giản Orange là giải pháp phần mềm Self-Service Business Intelligence Software với chức năng và chi phí phù hợp cho các loại hình doanh nghiệp từ nhỏ và vừa (SMEs) tới các doanh nghiệp lớn Phần mềm Orange được đánh giá cao bởi cả người dùng lẫn chuyên gia trong lĩnh vực Business Intelligence Software b) Chức năng
Các công cụ (widgets) trong phần mềm Orange cung cấp các nhóm chức năng cơ bản như đọc dữ liệu, hiển thị dữ liệu dưới dạng bảng, cho phép lựa chọn các thuộc tính đặc điểm của dữ liệu, huấn luyện dữ liệu để đưa ra dự đoán, qua đó cũng có thể so sánh các thuật toán máy học, trực quan hóa các phần tử dữ liệu,
File chứa dữ liệu được sử dụng cho quá trình ETL (trích xuất, chuyển đổi và tải dữ liệu) File được dùng để đọc dữ liệu đầu vào từ các nguồn như bảng dữ liệu, sau đó gửi tới kênh đầu ra Trên mục File, người dùng có thể xem dữ liệu mới nhất đã chọn và lịch sử các dữ liệu đã chọn trước đó File tương thích với các loại tệp phổ biến như Excel (.xlsx), tệp văn bản phân tách bằng tab (.txt) và tệp văn bản phân tách bằng dấu phẩy (.csv) Ngoài ra, File còn hỗ trợ đọc dữ liệu từ URL.
Visualize: Dùng để biểu diễn dữ liệu dưới dạng các biểu đồ (chart) giúp cho quá trình quan sát dữ liệu tốt hơn
Model: Bao gồm các hàm máy học (có giám sát) phân lớp dữ liệu với các mô hình Tree, Logistic Regression, SVM,
Evaluate: là các phương pháp dùng để đánh giá các mô hình học có giám sát như: Test & Score, Prediction, Confusion,
Unsupervised: bao gồm các hàm máy học (học không giám sát) được sử dụng để gom nhóm để phân cụm dữ liệu như: Distance, Kmeans,
Add ons: Giúp mở rộng các chức năng nâng cao như xử lý dữ liệu lớn (Big data) với Spark, xử lý hình ảnh với Deep learning, xử lý văn bản, phân tích mạng xã hội, Đây được xem như một điểm cộng nổi bật làm cho Orange vượt trội hơn so với các phần mềm khai phá dữ liệu khác
2.3.2 T ng quan vổ ề các phương pháp a) Tiền xử lý dữ liệu
Tiền xử lý dữ liệu là một những trong những bước cực kỳ quan trọng để giải quyết, xử lý bất kỳ vấn đề trong lĩnh vực Học Máy Song với đó cũng giúp việc khai phá dữ liệu hiệu quả và chính xác hơn Những dữ liệu được khai thác trong lĩnh vực Học Máy cần được biến đổi, làm sạch và xử lý trước, như vậy mới có thể bảo đảm được dữ liệu một cách tốt nhất Tiền xử lý dữ liệu gồm có các quá trình sau: làm sạch dữ liệu, tích hợp và biến đổi dữ liệu, rút gọn dữ liệu Ngoài ra, các kỹ thuật tiền xử lý dữ liệu ngày càng phổ biến hơn, hiện nay gồm có: xử lý dữ liệu bị thiếu, chuẩn hóa dữ liệu, mã hóa các biến nhóm, co giãn dữ liệu, … b) Tích hợp dữ liệu
Tích hợp dữ liệu nhằm mục đích kết hợp dữ liệu không đồng nhất từ nhiều nguồn khác nhau vào một kho dữ liệu và có thể truy vấn, cung cấp cho người dùng một cái nhìn thống nhất về chúng Những nguồn dữ liệu này có thể bao gồm các cơ sở dữ liệu
(database), khối dữ liệu (data cube) hoặc file
Các vấn đề thường gặp:
+ Vấn đề dư thừa dữ liệu
+ Vấn đề mâu thuẫn giá trị dữ liệu c) Chuyển đổi dữ liệu
Là quá trình sửa đổi, tính toán, phân tách và kết hợp dữ liệu thô thành các mô hình dữ liệu sẵn sàng phân tích Mô hình dữ liệu là những đại diện của thực tế có thể dễ dàng chuyển thành chỉ số, báo cáo và trang tổng quan để giúp người dùng hoàn thành các mục tiêu cụ thể
Các bước trong chuyển đổi dữ liệu:
+ Làm trơn dữ liệu (Smoothing): là phương thức xử lý dữ liệu để loại bỏ nhiễu ra khỏi bộ dữ liệu Điều này cho phép các mẫu và xu hướng quan trọng trở nên nổi bật Ví dụ: Số lượng khách hàng ở từng chi nhánh khác nhau Thay vì kiểm tra từng khách hàng, các con số tổng của khách hàng ở từng chi nhánh sẽ được hiển thị trên hệ thống
+ Khái quát hóa dữ liệu (Generalization): chuyển đổi dữ liệu thô thành các khái niệm cấp cao hơn nhờ phân cấp ý niệm
+ Chuẩn hóa dữ liệu (Normalization): là phương pháp phân tách bảng có cấu trúc phức tạp thành những bảng có cấu trúc đơn giản hơn mà không làm mất thông tin dữ liệu Các giá trị được chuyển đổi vào một miền nhất định đã được định nghĩa trước Kết quả là sẽ làm giảm bớt sự dư thừa và loại bỏ những sự cố mâu thuẫn về dữ liệu, tiết kiệm được không gian lưu trữ
Thuộc tính mới có thể được thêm vào hoặc tạo từ tập các thuộc tính hiện có Việc này giúp ích cho việc kiểm tra tính chính xác và phát hiện lỗi liên quan đến dữ liệu.
Giảm kích thước dữ liệu là quá trình kết hợp dữ liệu, loại bỏ các đặc điểm thừa để giữ nguyên vẹn dữ liệu gốc Việc sử dụng dữ liệu đã thu gọn giúp tận dụng hiệu quả hơn so với sử dụng dữ liệu gốc.
Các giai đoạn chính của quá trình rút gọn:
+ Kết hợp khối dữ liệu (data cube aggregation): các phép toán tổng hợp được áp dụng
Dữ liệu ở các mức trừu tượng khác nhau Mức trừu tượng càng cao lượng thu giảm dữ - liệu càng lớn
+ Chọn tập con các thuộc tính (attribute subset selection): giảm kích thước tập dữ liệu bằng cách loại bỏ các thuộc tính không thích hợp (redundant/irrelevant)
+ Thu giảm chiều (dimensionality reduction) dùng cơ chế mã hóa
+ Thu giảm lượng (numerosity reduction): dữ liệu được thay thế bằng dữ liệu khác, giảm về số lượng bằng các phương pháp có thông số (parametric) hay các phương pháp phi tham số (nonparametric method) như gom cụm (clustering), lấy mẫu (sampling), và sử dụng các lược đồ (histogram)
+ Rời rạc hóa (discretization): nghĩa là những giá trị dữ liệu thô sẽ được thay thế bằng các mức khái niệm cao hơn Được tiến hành bằng 2 cách: dưới lên - bottom up hoặc trên xuống
- top down và không có giám sát (unsupervised) hoặc có giám sát (supervised).
+ Xây dựng cây phân cấp khái niệm (concept hierarchy generation): hỗ trợ khai thác dữ liệu của khái niệm ở nhiều mức độ khác nhau
2.3.3 T ng quan vổ ề bài toán phân lớp dữ liệu a) Định nghĩa
Phân lớp dữ liệu là công đoạn phân chia một đối tượng dữ liệu vào nhóm (loại) được định nghĩa trước, dựa trên một mô hình phân lớp Mô hình này được tạo ra bằng cách sử dụng tập dữ liệu đã được gắn nhãn trước đó (thuộc nhóm nào) Còn quá trình gán nhãn (thuộc nhóm nào) cho đối tượng dữ liệu chính là quá trình phân lớp dữ liệu.
Hình ảnh 1: Mô hình phân lớp dữ liệu b) Quy trình phân lớp dữ liệu
- Quá trình phân lớp dữ liệu gồm 2 bước chính:
○ Bước 1: Xây dựng mô hình phân lớp (hay còn gọi là giai đoạn “học” hoặc “huấn luyện”)
➢ Chọn dữ liệu đầu vào: là dữ liệu mẫu đã được gán nhãn và tiền xử lý
➢ Sử dụng các thuật toán phân lớp: cây quyết định, hàm số toán học, tập luật…
➢ Tìm ra kết quả của bước này là mô hình phân lớp đã được huấn luyện (trình phân lớp)
○ Bước 2: Sử dụng mô hình chia thành 2 bước nhỏ
Bước 2.1: Đánh giá mô hình (kiểm tra tính đúng đắn của mô hình)
P HÂN TÍCH DỮ LI ỆU VÀ KẾ T QUẢ
Nhiều nghiên cứu y học đã chỉ ra rằng mức đường huyết khi đói lý tưởng là 100-120 mg/dl Trong một thống kê, 86,50% trong số 526 bệnh nhân đau tim có lượng đường huyết khi đói vượt quá 120 mg/dl, trong khi chỉ 13,50% có đường huyết khi đói dưới 120 mg/dl Số liệu này cho thấy rằng những người có đường huyết khi đói cao hơn 120 mg/dl có nguy cơ mắc bệnh tim cao hơn đáng kể.
3.2 Phân tích dữ ệu và kế li t quả
Trước hết ta tiến hành x l d ử ý ữliệu bằng các bước có trong phần mềm orange:
Hình ảnh 5: Các bước tiến hành xử lý dữ liệu
Hình ảnh 6: N p dữ ạ liệu Heart Disease.csv vào File Để xử lý các mẫu có “Missing Value”, ta tiến hành thực hiện Preprocess, chọn Impute Missing Values, sau đó chọn Average/Most frequent để thay thế những mẫu có “Missing Value” thành giá trị trung bình của chuỗi
Khi nối tệp Heart Disease vào bảng dữ liệu (Data table) để quan sát dữ liệu, khi nhấp đúp chuột vào bảng dữ liệu, bạn sẽ thấy 0% dữ liệu bị thiếu (no missing data).
Hình ảnh 8: Quan sát dữliệu đã xử lý trên Table
Sử dụng Data Sampler phân chia dữ liệu ban đầu thành 2 tệp độc lập theo tỷ lệ 70:30, với tên lần lượt là Data train và Data forecast
Lấy 70% mẫu dữ liệu từ file dữ liệu đã được xử lý tiền dữ liệu trước đó Chọn Save Data để lưu dữ liệu về dưới file Heart Disease 70% fbs.xlsx
Hình ảnh 9: Lấy 70% m u dữ liệu từ file Heart Disease.csv ẫ
Hình ảnh 10: Mẫu dữ liệu thử nghi m 70% ệ
Kết quả tập dữ liệu sau khi lấy mẫu có 718 mẫu dữ liệu, 13 biến và không tồn tại dữ liệu bị lỗi
- Tiếp tục sử dụng Data Sampler để thực hiện lấy mẫu dữ liệu Từ mẫu dữ liệu đã được xử lý trước đó ta chọn Fixed proportion of data chỉnh xuống lấy 30% mẫu dữ liệu, hoàn thành bằng nút chọn sample data Chọn save data để lưu dữ liệu dưới dạng file Heart Disease 30% fbs.xlsx
Hình ảnh 11: L y 30% m u dữ liệu từ file Heart Disease.csv ấ ẫ
Hình ảnh 12: Mẫu dữ liệu thử nghi m 30% ệ
Kết quả của tập dữ liệu sau khi lấy 30% sẽ có 307 mẫu dữ liệu, 13 biến và không tồn tại dữ liệu bị lỗi
Sử dụng Heart Disease 70%.xlsx là tập huấn luyện, chọn biến “fbs” làm biến mục tiêu “Target”
Hình ảnh 13: Ch n tập dữ liệu hu n luyện ọ ấ
Tiến hành so sánh qua Test and Score, Ma trận nhầm lẫn, phân tích ROC để tìm ra phương pháp tốt nhất trong 3 phương pháp (Logistic Regression, SVM và Decision Tree), từ đó phục vụ cho việc dự báo file Data forecast với độ chính xác cao nhất
Hình ảnh 14: Mô hình các thuật toán
★ Chọn tỷ lệ lấy mẫu Cross Validation
Tại bảng Test and Score, chọn tỷ lệ để lấy mẫu Sử dụng công cụ Cross Validation hoặc Random Sampling để thu được chỉ số đẹp nhất
Hình ảnh 15: Kết quả chia mẫu d ữliệu thành 20 lớp
Hình ảnh 16: Kết quả chia mẫu d ữliệu thành 10 lớp nh 17 t qu u d -90%
Hình ả : Kế ả chia mẫ ữliệu thành 50 nh 18 t qu u d -70%
Hình ả : Kế ả chia mẫ ữliệu thành 20 nh 19 t qu u m -66%
Hình ả : Kế ả chia dữ liệ ẫu thành 50
Nhận xét: Evaluation results cho ta biết được kết quả định lượng của 3 mô hình Hồi quy
Logistic (Logistic regression), Cây quyết định (Decision Tree), SVM (Support Vector Machines) với giá trị nào là cao nhất Khi xem xét các chỉ số từ việc lựa chọn lấy mẫu ngẫu nhiên qua các trường hợp trên ta thấy mô hình Cây quyết định (Decision Tree) ở trường hợp chia lấy mẫu dữ liệu theo kiểu Cross Validation đạt được số liệu tốt nhất là 20 lớp (10 66%) với:-
● Diện tích dưới đường cong (AUC) là: 0.923
● Giá trị trung bình điều hòa (F1): 0.932
★ Ma trận nhầm lẫn (Confusion Matrix)
Hình ảnh 20: Kết quả ma trận nh m lẫn bầ ằng phương pháp hồi quy Logistic(%)
Hình ảnh 21: Kết qu ma trậả n nh m lẫn bầ ằng phương pháp SVM(%)
Hình ảnh 22: Kết quả ma trận nh m lẫầ n bằng phương pháp cây quyết định(%)
Nhận xét: Kết quả phân tích từ ma trận nhầm lẫn (Confusion Matrix) chỉ số cần quan sát là sai lầm loại 1 và sai lầm loại 2 Mô hình được đánh giá tốt nhất là mô hình có tỷ lệ sai lầm loại 1 và sai lầm loại 2 thấp nhất Dựa vào kết quả của ma trận nhầm lẫn thấy được mô hình Cây quyết định (Decision Tree) là mô hình có tỷ lệ sai lầm nhỏ nhất với tỷ lệ sai lầm loại 1 là 13,4% và tỷ lệ sai lầm loại 2 là 5,5% Do đó phương pháp Cây quyết định (Decision Tree) là phù hợp nhất
Hình ảnh 23: Kết qu phân tích ROC ả với biến “0"
Hình ảnh 24: Kết quả phân tích ROC với biến “1”
Nhận xét: Một mô hình ROC được đánh giá là hiệu quả khi có TPR cao và FPR thấp, hay có đường cong ROC càng tiệm cận với điểm (0;1) trong đồ thị thì mô hình càng hiệu quả Nhìn vào kết quả mô hình ROC ta thấy mô hình Cây quyết định (Decision Tree) có đường cong ROC tiệm cận với điểm (0;1) nhất nên đây sẽ là mô hình hiệu quả
Kết luận: Cây quyết định (Decision Tree) là phương pháp hiệu quả nhất
● Phương pháp này có các chỉ số trong Test and Score lớn nhất
● Là phương pháp có tỷ lệ sai lầm loại 2 nhỏ nhất
● Là phương pháp hiệu quả nhất do có đường cong ROC tiệm cận với điểm (0;1) 3.2.3 D ự báo
Phân tích dữ liệu và đánh giá hiệu quả các mô hình phân lớp đã chỉ ra rằng mô hình Cây quyết định (Decision Tree) đạt hiệu quả cao nhất Do đó, mô hình này sẽ được lựa chọn để phân tích và dự báo dữ liệu về bệnh tim (Heart Disease).
Sử dụng bộ dữ liệu Heart Disease 30% fbs.xlsx làm tập dữ liệu thử nghiệm sau cùng cho nghiên cứu dự báo
Hình ảnh 25: Nạp dữ liệu dự báo Heart Disease 30% fbs.xlsx
Sử dụng công cụ Predictions để dự báo kết quả theo phương pháp Cây quyết định (Decision Tree)
Hình ảnh 26: Mô hình dự báo
Hình ảnh 27: Kết qu dự ả báo trên Table
Chọn save data để lưu dữ liệu dưới dạng file Heart Disease forecast fbs.xlsx
Hình ảnh 28: File Heart Disease forecast fbs.xlsx
Tiếp tục ta sử dụng hàm Countifs với câu lệnh:
=COUNTIFS(O2:O308,O4,A2:A308,A2) để tính số bệnh nhân có lượng đường huyết khi đói > 120mg/dl bị bệnh tim: 141/307
=COUNTIFS(O2:O308,O4,A2:A308,A6) để tính số bệnh nhân có lượng đường huyết khi đói < 120mg/dl bị bệnh tim: 19/307
3.3 Thảo luận, đánh giá kết quả phân tích và các đề xuất hỗ trợ ra quyết định Để có thể lựa chọn được phương pháp tối ưu nhất, nhóm đã phân tích các chỉ số trong Test and Score và bên cạnh đó còn đồng thời dựa vào ma trận nhầm lẫn:
Theo AUC, ta có thể thấy được khi chia dữ liệu thành 20 phần (10-66%) sẽ tốt hơn là chia dữ liệu thành 10 phần các chỉ số của dữ liệu được chia thành 20 phần có kết quả lớn hơn các chỉ số của dữ liệu được chia làm 10 phần Vì theo lý thuyết, mô hình nào có đa số các chỉ số cao hơn thì mô hình đó sẽ tốt hơn từ đó có thể đưa ra quyết định để chọn được mô hình hiệu quả và tối ưu Qua đó ta cũng thấy được phương pháp Cây quyết định (Decision Tree) là phù hợp nhất bởi vì các chỉ số AUC, CA, F1, Precision và Recall của phương pháp Cây quyết định (Decision Tree) ở cả 3 trường hợp đều cho ra kết quả cao hơn so với các chỉ số tương ứng ở hai phương pháp còn lại là SVM và hồi quy Logistic
• Trong ma trận nhầm lẫn (Confusion Matrix):
Nếu phương pháp nào cho ra các tỷ lệ sai lầm là nhỏ nhất thì đó sẽ là phương pháp tối ưu nhất Dựa vào đó, ta có thể thấy được rằng phương pháp Cây quyết định (Decision Tree) là phù hợp nhất
+ Ở phương pháp cây quyết định (Tree): có tỷ lệ sai lầm loại 1 là 13,4% và tỷ lệ sai lầm loại 2 là 5,5%
+ Ở phương pháp SVM: có tỷ lệ sai lầm loại 1 là 21,2% và tỷ lệ sai lầm loại 2 là 11,7%
+ Ở phương pháp hồi quy logistic (Logistic Regression): có tỷ lệ sai lầm loại 1 là 45,5% và tỷ lệ sai lầm loại 2 là 14,1%
Một mô hình ROC được đánh giá là hiệu quả khi có TPR cao và FPR thấp, hay có đường cong ROC càng tiệm cận với điểm (0;1) trong đồ thị thì mô hình càng hiệu quả Nhìn vào kết quả mô hình ROC ta thấy mô hình Cây quyết định (Decision Tree) có đường cong ROC tiệm cận với điểm (0;1) nhất nên đây sẽ là mô hình hiệu quả
Kết quả dự báo từ 30% dữ liệu ngẫu nhiên từ tệp dữ liệu ban đầu cho thấy tỷ lệ bệnh nhân có lượng đường huyết khi đói > 120mg/dl có tỷ lệ mắc bệnh ung thư cao hơn so với bệnh nhân có lượng đường huyết khi đói < 120mg/dl Một số nguyên nhân dẫn đến lượng đường trong máu cao thường gặp như là chế độ ăn quá nhiều đường và tinh bột, ngủ quá ít, tập thể dục quá ít hoặc quá nhiều, căng thẳng thường xuyên,