Trước tình hình đó, nhận thức được tầm quan trọng của việc chăm sóc sức khỏe bản thân và phòng ngừa bệnh tiểu đường, nhóm chúng em đã quyết định chọn chủ đề:” ỨNG DỤNG KHOA HỌC DỮ LIỆU V
TỔNG QUAN
Lý do chọn đề tài
Theo Liên đoàn Đái tháo đường Thế giới, năm 2021 có 537 triệu người trưởng thành (20-79 tuổi) trên thế giới sống chung với bệnh đái tháo đường (ĐTĐ), cứ 10 người thì có 1 người mắc phải bệnh này Dự đoán, số người mắc ĐTĐ sẽ tăng lên 643 triệu vào năm 2030 và 783 triệu vào năm
Với sự ảnh hưởng ngày càng tăng của tiểu đường đối với sức khỏe cộng đồng Bệnh tiểu đường đang dần trở thành một vấn đề y tế lớn, gây ảnh hưởng mạnh mẽ đến chất lượng cuộc sống của những người mắc bệnh
Song song là sự phát triển nhanh chóng của khoa học dữ liệu và công nghệ thông tin đã mở ra những cơ hội mới để áp dụng chúng trong lĩnh vực y tế Điều này không chỉ giúp nâng cao khả năng chẩn đoán mà còn hỗ trợ trong việc dự đoán nguy cơ mắc bệnh tiểu đường Trước tình hình đó, nhận thức được tầm quan trọng của việc chăm sóc sức khỏe bản thân và phòng ngừa bệnh tiểu đường, nhóm chúng em đã quyết định chọn chủ đề:” ỨNG DỤNG KHOAHỌC DỮ LIỆU VÀO CHẨN ĐOÁN NGUY CƠ BỆNH NHÂN MẮC BỆNH TIỂU ĐƯỜNG” để có thể nhận biết được những người có nguy cơ mắc bệnh tiểu đường từ trước Điều này giúp tăng cơ hội cho việc can thiệp sớm và tối ưu hóa quản lý bệnh, nhờ đó giúp giảm thiểu các biến chứng và chi phí điều trị Qua đó góp phần nào vào việc kiểm soát và ngăn chặn bệnh tiểu đường cho các bài nghiên cứu sau này.
Mục nghiên cứu
- Phân tích các lý thuyết về khai phá dữ liệu nhằm làm rõ những vấn đề cốt lõi mà bài nghiên cứu hướng tới.
- Nghiên cứu các phương pháp phân lớp dữ liệu, và từ đó sẽ chọn ra một phương pháp tối ưu và đảm bảo nhất cho quá trình dự báo dữ liệu.
- Dự báo các nguy cơ tiểu đường của bệnh nhân sẽ dựa vào bộ dữ liệu đã được huấn luyện, từ đó sẽ đưa ra những nhận xét về các chỉ số liên quan báo động về cơ thể của con người.
- Dựa trên kết quả từ dữ liệu huấn luyện và dự báo, nhóm nghiên cứu sẽ rút ra các kết luận quan trọng và đồng thời đề xuất giải pháp cho những hạn chế có thể xuất hiện trong quá trình nghiên cứu.
- Hướng đến việc đặt ra những tiền đề cơ bản và hữu ích để tạo nền tảng cho các nghiên cứu sau này trong lĩnh vực ứng dụng khoa học dữ liệu trong chẩn đoán nguy cơ bệnh tiểu đường.
Đối tượng nghiên cứu
Đối tượng nghiên cứu của đề tài là 768 bệnh nhân tham gia khảo sát tất cả bệnh nhân ở đây đều là phụ nữ ít nhất 21 tuổi, gốc Ấn Độ Pima.
Phương pháp thực hiện
- Để thực hiện nghiên cứu, chúng em đã lựa chọn một phương pháp toàn diện, kết hợp giữa phân tích định tính và định lượng (dự báo) Quá trình này đòi hỏi sự sử dụng cẩn thận của các phương pháp thống kê và phân tích dữ liệu.
- Chúng em đã chủ yếu sử dụng phân tích dữ liệu thống kê, kết hợp với ứng dụng mô hình hồi quy kinh tế định lượng để dự báo khả năng tiểu đường dựa trên các chỉ số sức khỏe Sự hỗ trợ của các công cụ như chương trình Orange và Excel (2016) đã giúp chúng em hiệu quả trong việc xử lý và phân tích dữ liệu.
Phạm vi nghiên cứu
- Thời gian: Mẫu dữ liệu được cập nhật lần cuối vào năm 2022
- Không gian: Bài nghiên cứu dựa trên 768 mẫu khảo sát và dữ liệu từ những người phụ nữ ít nhất 21 tuổi, gốc Ấn Độ Pima Trong đó có 768 lượng mẫu khảo sát sẽ được đưa vào bộ dữ liệu huấn luyện và 200 lượng mẫu sẽ được lấy ngẫu nhiên đưa vào bộ dữ liệu dự báo.
CƠ SỞ LÝ LUẬN
Khai phá dữ liệu
2.1.1 Khái niệm Định nghĩa: Khai phá dữ liệu là một tập hợp các kỹ thuật được sử dụng để tự động khai thác và tìm ra các mối quan hệ lẫn nhau của dữ liệu trong một tập hợp dữ liệu khổng lồ và phức tạp, đồng thời cũng tìm ra các mẫu tiềm ẩn trong tập dữ liệu đó.
2.1.2 Quy trình khai phá dữ liệu
Quy trình khai phá dữ liệu gồm có 7 bước như sau:
1 Làm sạch dữ liệu (Data Cleaning): Loại bỏ nhiễu và các dữ liệu không cần thiết.
2 Tích hợp dữ liệu (Data Integration): Hợp nhất dữ liệu thành những kho dữ liệu (Data
Warehouses & Data Marts) sau khi đã làm sạch và tiền xử lý (Data cleaning & Preprocessing).
3 Trích chọn dữ liệu (Data Selection): Trích chọn dữ liệu từ những kho dữ liệu và sau đó chuyển đổi về dạng thích hợp cho quá trình khai thác tri thức Quá trình này bao gồm cả việc xử lý với dữ liệu nhiễu (Noisy Data), dữ liệu không đầy đủ (Incomplete Data),
4 Chuyển đổi dữ liệu (Data Conversion): Các dữ liệu được chuyển đổi sang các dạng phù hợp cho quá trình xử lý.
5 Khai phá dữ liệu (Data Mining): Được coi là một trong những bước quan trọng nhất, trong đó sử dụng những phương pháp thông minh để chắt lọc ra những mẫu dữ liệu.
6 Ước lượng mẫu (Knowledge Evaluation): Quá trình đánh giá các kết quả tìm được thông qua các độ to nào đó.
7 Biểu diễn tri thức (Knowledge Presentation): Quá trình này sử dụng các kỹ thuật để biểu diễn và thể hiện trực quan cho người dùng.
Hình 2.1: Các bước trong data Mining&KDD
Nguồn: uet.vnu.edu.vn
2.1.3 Các phương pháp khai phá dữ liệu
Có thể khai phá dữ liệu bằng các phương pháp như sau:
1 Phân lớp (Classification): Phương pháp được sử dụng để dự báo dữ liệu thông qua bộ dữ liệu huấn luyện, phân loại đối tượng, thường được sử dụng trong nghiên cứu để dự báo số liệu.
2 Hồi quy (Regression): Mục đích chính của việc sử dụng phương pháp này là để khám phá và ánh xạ dữ liệu.
3 Phân cụm (Clustering): Bằng việc xác định tập hợp hữu hạn các cụm với nhau, phương pháp phân cụm giúp việc mô tả dữ liệu trở nên dễ dàng hơn bao giờ hết.
4 Tổng hợp (Summarization): Phương pháp này cho phép người làm tìm kiếm một mô tả nhỏ gọn.
5 Mô hình ràng buộc (Dependency modeling): Người làm sẽ tìm được mô hình cục bộ mô tả các phụ thuộc dựa vào phương pháp mô hình ràng buộc.
6 Dò tìm biến đổi và độ lệch (Change and Deviation Detection): Mục đích của việc sử dụng phương pháp này là để tìm ra những thay đổi quan trọng.
2.1.4 Công cụ khai phá dữ liệu được sử dụng trong bài - Orange
Phần mềm Orange nổi tiếng với khả năng tích hợp các công cụ khai phá dữ liệu mã nguồn mở một cách đơn giản Được xây dựng bằng ngôn ngữ lập trình Python và được thiết kế với giao diện trực quan và tương tác dễ dàng, Orange không chỉ là một công cụ mạnh mẽ trong việc khai phá dữ liệu mà còn cực kỳ thân thiện với người dùng Với đa dạng chức năng, phần
7 mềm Orange có khả năng phân tích dữ liệu từ những bộ dữ liệu đơn giản nhất đến những tệp dữ liệu siêu phức tạp Nó không chỉ tạo ra những đồ họa đẹp mắt, thú vị mà còn giúp người dùng dễ dàng hơn trong việc thực hiện khai thác dữ liệu và học máy Chính vì những tính năng trên mà Orange vô cùng quan trọng đối với người mới bắt đầu học và cả chuyên gia trong lĩnh vực Khoa học Dữ liệu.
Các công cụ, hay còn được gọi là Widgets, cung cấp nhiều chức năng cơ bản như đọc dữ liệu, hiển thị dữ liệu dưới dạng bảng, lựa chọn các thuộc tính đặc điểm của dữ liệu, huấn luyện mô hình để dự đoán, so sánh các thuật toán toán học, và trực quan hóa các phần tử dữ liệu Nhờ vào sự đa dạng và linh hoạt của các Widgets, người dùng có thể dễ dàng thực hiện và điều chỉnh quá trình phân tích của mình theo nhu cầu cụ thể.
Các Widgets điển hình có trong Orange:
- Data: Dùng để rút trích, biến đổi và nạp dữ liệu (ETL, Process)
- Visualize: Dùng để biểu diễn biểu đồ (chart) giúp quan sát dữ liệu được tốt hơn
- Model: Gồm các hàm máy học (machine learning) phân lớp dữ liệu với Tree, Logistics
- Evaluate: Là các phương pháp đánh giá mô hình như: Test & Score, Prediction, Confusion,
- Unsupervised: Gồm các hàm máy học gom nhóm dữ liệu như: Distance, K-means,
- Add ons: Giúp mở rộng các chức năng nâng cao như xử lý dữ liệu lớn (big data) với Spark, xử lý ảnh với Deep Learning, xử lý văn bản, phân tích mạng xã hội,
Hình 2.7: Add onsNguồn: Orange
Phân lớp dữ liệu
Phân lớp dữ liệu là 1 kỹ thuật trong khai phá dữ liệu mà trong đó ta gắn tên lớp cho một phần tử của tập dữ liệu dựa vào đặc điểm của lớp Mục đích của phân lớp dữ liệu là để xây dựng một mô hình mà ta có thể dự đoán được tên lớp của những phần tử mới dựa vào những đặc điểm của nó.
2.2.2 Quy trình phân lớp dữ liệu
Quy trình phân lớp dữ liệu gồm có 2 bước chính:
● Bước 1: Xây dựng mô hình ( giai đoạn “học” hoặc “huấn luyện” )
- Dữ liệu đầu vào: Là dữ liệu mẫu đã được gán nhãn và tiền xử lý.
- Các thuật toán phân lớp: Cây quyết định, hàm số toán học, tập luật,
- Kết quả của bước này là Mô hình phân lớp đã được huấn luyện.
Hình 2.8: Xây dựng mô hình Nguồn: Bài giảng LMS
● Bước 2: Sử dụng mô hình Ở bước này dữ liệu được xử lý ở 2 bước nhỏ tiếp theo:
Bước 2.1: Đánh giá mô hình (kiểm tra tính đúng đắn của mô hình)
- Dữ liệu đầu vào: Là một tập dữ liệu mẫu khác đã được gán nhãn và tiền xử lý Tuy nhiên lúc đưa vào mô hình phân lớp, ta “lờ” đi thuộc tính đã được gán nhãn.
- Tính đúng đắn của mô hình sẽ được xác định bằng cách so sánh thuộc tính gán nhãn của dữ liệu đầu vào và kết quả phân lớp của mô hình.
Hình 2.9: Đánh giá mô hình Nguồn: Bài giảng LMS
Bước 2.2: Phân lớp dữ liệu mới
- Dữ liệu đầu vào: Là dữ liệu “khuyết” thuộc tính cần dự đoán lớp (nhãn)
- Mô hình sẽ tự động phân lớp (gán nhãn) cho các đối tượng dữ liệu này dựa vào những gì được huấn luyện ở bước 1.
Hình 2.10: Phân lớp dữ liệu mới Nguồn: Bài giảng LMS
2.2.3 Các phương pháp phân lớp dữ liệu được sử dụng trong bài
❖ Phương pháp cây ra quyết định
Trong lý thuyết quản trị, cây quyết định là đồ thị các quyết định cùng các kết quả khả dĩ đi kèm nhằm hỗ trợ quá trình ra quyết định Trong lĩnh vực khai thác dữ liệu, cây quyết định là phương pháp nhằm mô tả, phân loại và tổng quát hóa tập dữ liệu cho trước.
Hình 2.11: Cây ra quyết định Nguồn: Bài giảng LMS
❖ Phương pháp hồi quy Logistics
Hồi quy Logistic là một mô hình thống kê ở dạng cơ bản được sử dụng để mô tả mối quan hệ giữa một biến phụ thuộc nhị phân và một hay nhiều biến độc lập thông qua việc sử dụng hàm logistic Mặc dù mô hình cơ bản này tập trung vào biến phụ thuộc có hai giá trị, thường được ký hiệu là 0 và 1, dùng để mô tả trạng thái như là “đạt được” hoặc “không đạt được”, nhưng cũng có nhiều phần mở rộng phức tạp hơn để xử lý các tình huống phức tạp hơn.
Hình 2.12: Hồi quy Logistics Nguồn: Bài giảng LMS
Trong quá trình phân tích hồi quy, hồi quy logistic, là quá trình ước lượng các tham số của mô hình logistic, một dạng cụ thể của hồi quy nhị phân Toán học của mô hình logistic nhị phân liên quan đến một biến phụ thuộc chỉ có hai giá trị cụ thể, thường được biểu diễn bằng một biến chỉ báo, trong đó “0” và “1” là hai nhãn tương ứng Mô hình này cung cấp linh hoạt và chính xác về xác suất của sự kiện “đạt được” hoặc “không đạt được” dựa trên các biến độc lập.
Neural Network, hay còn được biết đến với tên gọi khác là Mạng Neural Nhân Tạo, là một chuỗi thuật toán được thiết kế để khám phá và mô hình hóa các mối quan hệ phức tạp trong tập dữ liệu cụ thể, lấy cảm hứng từ cách hoạt động của bộ não con người Đơn giản hóa, đây là một hệ thống nhân tạo với khả năng mô phỏng quá trình tư duy của con người.
Hình 2.13: Kiến trúc mạng Neural Network Nguồn: Bài giảng LMS
Mạng Neural thể hiện khả năng linh hoạt bằng cách tương thích với nhiều loại dữ liệu khác nhau từ khi chúng ta thay đổi đầu vào Điều này có nghĩa là nó có khả năng tự học và điều chỉnh để tối ưu hóa kết quả mà không cần sự can thiệp đặc biệt từ người lập trình Mạng Neural có khả năng đưa ra các dự đoàn và kết quả một cách chính xác và hiệu quả, giảm bớt nhu cầu phải xây dựng các tiêu chí đầu ra cụ thể Điều này nó trở thành một công cụ mạnh mẽ và linh hoạt trong việc giải quyết nhiều vấn đề trong lĩnh vực trí tuệ nhân tạo và phân tích dữ liệu.
Là một thuật toán có giám sát, SVM nhận dữ liệu vào, xem chúng như những vector trong không gian và phân loại chúng vào các lớp khác nhau bằng cách xây dựng một siêu phẳng trong không gian nhiều chiều làm mặt phân cách các lớp dữ liệu.
Phương pháp SVM có các biến thể sau:
Hard Margin SVM Hai lớp cần phân lớp là có thể phân chia tuyến tính (linearly separable)
Soft Margin SVM Hai lớp cần phân lớp là “gần” phân chia tuyến tính (almost linear separable)
Multi - class SVM Phân lớp đa lớp (biên giữa các lớp là tuyến tính)
Kernel SVM Dữ liệu là phi tuyến
Bảng 2.1: Các biến thể của SVM Nguồn: Tổng hợp
2.2.4 Các phương pháp đánh giá mô hình phân lớp
2.2.4.1 Ma trận nhầm lẫn (Confusion matrix)
Ma trận nhầm lẫn: Ma trận nhầm lẫn là một công cụ quan trọng trong đánh giá hiệu suất của mô hình, nó thể hiện số lượng lượng điểm dữ liệu thực sự thuộc vào một lớp cụ thể và được dự đoán rơi vào lớp nào Confusion matrix có kích thước là k x k, trong đó k là số lượng lớp của
Các thuật ngữ chính trong ma trận nhầm lẫn bao gồm:
1 True positive (TP): Số lượng điểm dữ liệu thực sự thuộc vào lớp tích cực và được mô hình dự đoán đúng là tích cực.
2 False Positive (FP): Số lượng điểm dữ liệu thực sự thuộc vào lớp tiêu cực nhưng bị mô hình dự đoán là tích cực.
3 False Negative (FN): Số lượng điểm dữ liệu thực sự thuộc vào lớp tích cực nhưng bị mô hình dự đoán là tiêu cực.
4 True Negative (TN): Số lượng điểm dữ liệu thực sự thuộc vào lớp tiêu cực và được mô hình dự đoán đúng là tiêu cực.
Những giá trị này cung cấp cái nhìn chi tiết về khả năng dự đoán của mô hình đối với từng lớp và là cơ sở để tính toán các độ đo đánh giá hiệu suất như độ chính xác, độ nhạy, độ đặc,
2.2.4.2 ROC (Receiver Operating Characteristic) và AUC (Area Under the Curve) Đồ thị ROC là một công cụ phổ biến trong đánh giá mô hình phân loại nhị phân Đường cong ROC biểu diễn tỷ lệ dự đoán true positive rate (TPR) theo tỷ lệ dự đoán false positive rate (FPR) tại các ngưỡng quyết định khác nhau Đối với một mô hình hiệu quả, đường cong ROC sẽ tiệm cận điểm (0;1), nơi TPR cao và FPR thấp, làm cho mô hình trở nên phù hợp và chính xác hơn.
AUC là diện tích nằm dưới đường cong ROC Giá trị này là một số dương nhỏ hơn hoặc bằng 1 Giá trị này càng lớn thì mô hình càng tốt.
Hình 2.15: AUC Nguồn: Bài giảng LMS
2.2.4.3 Tính chính xác (Accuracy) Độ chính xác (Accuracy) là tỷ lệ của số lượng mẫu được phân loại đúng so với tổng số mẫu trong toàn bộ tập dữ liệu, được tính theo công thức acc = (a+d)/n, trong đó a và d là số lượng mẫu thuộc lớp tích cực và tiêu cực được phân loại đúng, và n là tổng số mẫu.
Tuy độ chính xác cung cấp cái nhìn tổng quan về hiệu suất của mô hình, nhưng nó không cung cấp thông tin chi tiết về cách mỗi lớp được phân loại Độ chính chính xác không giúp phân biệt được lớp nào được phân loại chính xác nhất, hay lớp nào thường xuyên bị phân loại nhầm vào lớp khác. Độ lỗi của mô hình, được tính bằng cách lấy 1 trừ đi độ chính xác (Error Rate = 1-acc), cho biết mức độ sai sót tổng thể của mô hình Một độ chính xác cao (High Accuracy rate) thường đi kèm với độ lỗi thấp (Low Error rate), và mô hình sẽ đạt hiệu suất tốt khi cả hai chỉ số này được duy trì ở mức cao và thấp tương ứng.
MÔ HÌNH NGHIÊN CỨU ĐỀ XUẤT
Mô tả dữ liệu
Bộ dữ liệu được lấy trực tiếp từ nguồn: https://www.kaggle.com/datasets/akshaydattatraykhare/diabetes-dataset
Trong các cột dữ liệu, cột outcome là mục tiêu của bài nghiên cứu, cho biết việc dự đoán bạn có nguy cơ tiểu đường hay không Trong bài này, sinh viên sử dụng 768 phiếu khảo sát trong đó sử dụng 768 phiếu để huấn luyện (Training) và 200 phiếu ngẫu nhiên để kiểm tra dữ liệu (Forecast) Sau đây là một số tác nhân chúng em thực hiện khảo sát để tổng hợp dữ liệu cho việc dự đoán các chứng bệnh hình thành nên nguy cơ tiểu đường.
Tên biến Mô tả Kiểu
Pregnancies Việc mang thai có thể làm tăng các vấn đề tiểu đường lâu dài nhất định, như vấn đề về mắt và bệnh thận Định lượng
Cho biết mức đường trung bình có thể dẫn đến bệnh đái tháo đường Định lượng
Blood Pressure Huyết áp cao (tăng huyết áp) có thể dẫn đến nhiều biến chứng của bệnh tiểu đường Hầu hết mọi người mắc tiểu đường cuối cùng sẽ phải đối mặt với tình trạng huyết áp cao, cùng với những vấn đề về tim và tuần hoàn máu khác. Định lượng
Skin Thickness Các kết quả nghiên cứu cho thấy độ dày da giảm đi do sự tiến triển của bệnh tiểu đường Độ dày da bị ảnh hưởng đáng kể bởi mức độ insulin, nhưng không bị ảnh hưởng bởi mức độ glucose. Định lượng
Insulin Insulin là một yếu tố quan trọng trong việc phát triển tiểu đường loại 2 Hormone quan trọng này, mà bạn không thể sống sót nếu thiếu, điều chỉnh đường huyết (glucose) trong Định lượng
19 cơ thể, một quá trình rất phức tạp.
BMI Chỉ số người ta dùng để tính toán mức độ béo phì Định lượng
DPF ước lượng khả năng mắc bệnh tiểu đường tùy thuộc vào tuổi của người nghiên cứu và tiền sử tiểu đường trong gia đình, được xem xét là các yếu tố nguy cơ chính của bệnh tiểu đường. Định lượng
Age Tuổi cao là một yếu tố nguy cơ lớn cho bệnh tiểu đường và tiểu đường tiền sử Do đó, người cao tuổi có tỷ lệ mắc bệnh tiểu đường và tiểu đường tiền sử cao hơn so với nhóm người trẻ và trung niên và có khả năng phát triển các biến chứng ở hệ tim mạch, võng mạc và thận cao hơn. Định lượng
Outcome Họ có nguy cơ tiểu đường hay không? 0 là không có nguy cơ; 1 là có nguy cơ Định tính (0;1)
Bảng 3.1: Mô tả các biến Nguồn: Tổng hợp
3.1.2 Bộ dữ liệu huấn luyện
Khi ứng dụng mô hình khai phá dữ liệu trong việc dự báo chỉ số nguy cơ tiểu đường ở người, bài nghiên cứu đã sử dụng bộ dữ liệu gồm 768 lượng mẫu thuộc bộ dữ liệu huấn luyện và 200 lượng mẫu ngẫu nhiên thuộc bộ dữ liệu dự báo, có các biến độc lập như trên nhưng trong đó chủ yếu tập trung vào 9 biến độc lập chủ yếu là nguyên nhân chính dẫn đến tiểu đường (Pregnancies, Glucose, Blood Pressure, Skin Thickness, Insulin, BMI, Diabetes Pedigree Function, Age) Trong đó Outcome sẽ là biến Target.
3.1.3 Bộ dữ liệu dự báo
Sau khi đã sử dụng 768 mẫu khảo sát để huấn luyện, 200 lượng mẫu ngẫu nhiên được lấy từ bộ dữ liệu sẽ dùng để kiểm tra Cũng được thể hiện qua các biến độc lập như dữ liệu huấn luyện, riêng outcome sẽ không còn là biến Target nữa, mà sẽ là Feature Sau khi đã Training bộ dữ liệu huấn luyện, từ đó lựa chọn phương pháp phân loại phù hợp nhất để tiến hành phân loại cho bộ dữ liệu dự báo Outcome sẽ được dự báo theo dạng numeric
0 và 1 với 0 là không có nguy cơ tiểu đường và 1 là sẽ có nguy cơ tiểu đường trong tương lai.
Tiền xử lý dữ liệu
Trước khi áp dụng dữ liệu và mô hình, sinh viên nghiên cứu làm sạch và xử lý gọn dữ liệu Tuy nhiên, bộ dữ liệu không có thuộc tính không ảnh hưởng đến việc đưa ra đánh giá, vì vậy nhóm chúng em sử dụng 100% các đặc tính nêu trên trong quá trình sau này.
KẾT QUẢ THỰC HIỆN
Phân tích dữ liệu dựa trên phần mềm
4.1.1 Kết quả dữ liệu huấn luyện Đầu tiên, chúng ta sẽ sử dụng phần mềm Orange để đưa bộ dữ liệu huấn luyện vào Sau khi đưa bộ dữ liệu huấn luyện vào, chúng ta sẽ bắt đầu khai báo các thuộc tính của bộ dữ liệu huấn luyện.
Hình 4.1: Khai báo thuộc tính các biến trong bộ dữ liệu huấn luyện
Trong đó các biến có liên quan bao gồm: Pregnancies, Glucose, Blood Pressure, Skin
Thickness, Insulin, BMI, Diabetes Pedigree Function, Age Và biến mục tiêu: Outcome được mã hoá “0;1” (kết quả huấn luyện cho thấy có nguy cơ bị tiểu đường hay là không) với kết quả cho ra là 0 thì thể hiện không có nguy cơ bị tiểu đường và kết quả cho ra là 1 thì có nguy cơ bị tiểu đường Đa số các biến đều thuộc chuyên ngành y nên chúng ta sẽ đánh giá hết để tăng tính hiệu quả việc chuẩn đoán.
Sau khi đã khai báo các thuộc tính của các dữ liệu cần được chú ý, bài nguyên cứu sẽ lựa chọn phương pháp phân lớp dữ liệu phù hợp nhất thông qua các chỉ số như AUC, CA, F1, Precision, Recall Các phương pháp phân lớp mà bài nghiên cứu sử dụng là Tree, Logistic Regression, SVM, Neural Network Bài nghiên cứu đã vẽ ra sơ đồ của quá trình huấn luyện và dự báo được thể hiện ở Hình 4.2 như sau:
Hình 4.2: Tổng quan về quy trình huấn luyện và dự báo
Sau khi đã có sơ đồ như Hình 4.2, bài nghiên cứu sẽ tiếp tục đến phần Test and Score để tổng quan các chỉ số và lựa chọn mô hình phù hợp nhất cho bài nghiên cứu Ở đây, bài nghiên
23 cứu sử dụng phương pháp K-fold cross validation với k=5 để đánh giá mô hình nhờ những đặc tính vượt trội của nó so với phương pháp Hold-out như: mô hình sẽ được huấn luyện và dự báo trên nhiều phần dữ liệu khác nhau, không trùng dữ liệu khi huấn luyện giúp mô hình tăng độ chính xác.
● Precision (độ chính xác): cho biết trong số m mẫu được phân vào lớp i thì có tỷ lệ bao nhiêu mẫu có đúng (tránh nhầm lẫn với tính chính xác accuracy).
● Recall (độ phủ) còn gọi là độ phủ hay độ nhạy (sensitivity) hay TPR (True Positive Rate)
● F1-score là giá trị trung bình điều hòa (harmonic mean) của hai độ đo Precision và Recall.
- F1 có giá trị gần với giá trị nào nhỏ hơn giữa 2 giá trị Precision và Recall
- F1 sẽ có giá trị lớn nếu cả 2 giá trị Precision và Recall đều lớn.
● AUC là diện tích nằm dưới đường cong ROC Giá trị này là một số dương nhỏ hơn hoặc bằng 1
Giá trị này càng lớn thì mô hình càng tốt.
Hình 4.3: Kết quả đánh giá mô hình bằng phương pháp K - fold
Nguồn: Orange Ở hình 4.3, Logistic Regression được đánh giá là cao ở các chỉ số AUC, CA, F1, Precision, Recall Giá trị AUC của Logistic Regression là 0.828, một chỉ số cao hơn so với các phương pháp còn lại Cùng với đó, chỉ số CA cũng khá cao, chỉ sau SVM nhưng không chênh lệch quá lớn. Đặc biệt, độ phù hợp của của thuật toán Logistic Regression đối với bài nghiên cứu này còn được chứng minh thông qua phương pháp đánh giá bằng ma trận nhầm lẫn như Hình 4.4 sau:
Hình 4.4: Ma trận nhầm lẫn với Logistic Regression
- 500 quan sát không bị bệnh, kết quả dự đoán sai lệch 60
- 258 quan sát là bị bệnh nhưng dự đoán sai lệch 116 tuy nghiệm sai lệch của phương pháp Logistic vẫn cao hơn so với các phương pháp còn lại.
Từ đó có thể kết luận rằng, mô hình Logistic Regression rất thích hợp cho bộ dữ liệu của bài nghiên cứu này và khá phù hợp để dự báo số trường hợp có nguy cơ tiểu đường Tiếp theo đây, bài nghiên cứu sẽ đi phân tích dự báo để dự đoán xem mô hình Logistic Regression dự báo như thế nào trong bộ dữ liệu dự báo thông qua bộ dữ liệu huấn luyện Kết quả của dữ liệu dự báo
4.1.2 Kết quả dữ liệu dự báo
Logistic Regression là phương pháp phân lớp thích hợp nhất cho bài nghiên cứu, vì vậy sẽ sử dụng Logistic Regression dự báo "outcome" cho 200 lượng mẫu ngâu nhiên Nhóm sinh viên cũng tiến hành các bước tương tự như bộ dữ liệu huấn luyện, đưa bộ dữ liệu dự báo vào chương trình Orange và chạy các thuộc tính cho các biến số ở bộ dữ liệu dữ báo giống như bộ dữ liệu huấn luyện.
Hình 4.5: Khai báo thuộc tính các biến trong bộ dữ liệu dự báo
Cũng giống như bộ dữ liệu huấn luyện, các biến liên quan gồm: Pregnancies, Glucose, BloodPressure, SkinThickness, Insulin, BMI, DiabetesPedigreeFunction, Age Ngoài ra biến
“outcome” sẽ chuyển thành ”feature” để dự đoán tệp dữ liệu mới.
Sau đó, chúng ta vào Predictions để xem dự báo bằng phương pháp Logistic Regression như thế nào.
Hình 4.6: Kết quả dự báo bằng phương pháp Logistic Regression
Kết quả cho thấy: 64 quan sát là bị tiểu đường và 137 quan sát là không bị tiểu đường.
Đánh giá kết quả và mô hình
Dựa vào 4 phương pháp phân lớp dữ liệu, có thể thấy phương pháp Logistic
Regression cho kết quả tốt hơn so với 3 phương pháp còn lại là Tree, Neural Network và SVM Do đó, nhóm sinh viên sử dụng mô hình này để áp dụng vào tập dữ liệu cần dự đoán Bài nghiên cứu về ứng dụng của Logistic Regression để dự báo cho số người có nguy cơ bị tiểu đường Bài nghiên cứu đã dùng bộ dữ liệu của Kaggle https://www.kaggle.com/datasets/akshaydattatraykhare/diabetes-dataset
Sau đó, 768 lượng mẫu được chia thành 2 bộ dữ liệu khác nhau, trong đó có 768 lượng mẫu thuộc bộ dữ liệu huấn luyện và 200 lượng mẫu thuộc bộ dữ liệu dự báo Tiến hành phân tích bộ dữ liệu huấn luyện, ấn định các thuộc tính cần sử dụng cho các biến độc lập, cùng như biến phụ thuộc, ta nhận thấy rằng, Logistic Regression là phương pháp phân lớp thích hợp nhất cho bài nghiên cứu thông qua bảng chỉ số AUC, F1, CA, Precision, Recall Tiếp theo, chúng ta sử dụng ma trận nhầm lẫn để rút ra kết luận cho bộ dữ liệu huấn luyện Đối với bộ dữ liệu dự báo, sau khi đã tiến hành chạy mô hình dự báo bằng Orange và cụ thể là sử dụng phương pháp Logistic Regression để dự báo cho nguy cơ bị tiểu đường 200 người còn lại Kết quả trên chỉ mang tớnh chất học thuật và tham khảo, dự bỏo thụng qua những số liệu cú sơn, những số liệu đó dự báo thực sự chưa phải chính xác Tuy chưa thực sự hoàn thiện nhưng bài nghiên cứu cũng đã góp phần vào việc dự báo nguy cơ bị tiểu đường, giúp mọi người nên làm gì và tránh làm gì để giảm thiểu nguy cơ về tiểu đường cho chính bản thân mình Bài nghiên cứu sử dụng chủ yếu trên 2 mảng chính đó là về công nghệ thông tin và về sức khỏe Về công nghệ thông tin, bài nghiên cứu sử dụng phần mềm Orange để chạy các mô hình và từ đó đưa ra một mô hình cụ thể,chính xác, đánh giá bộ dữ liệu dự báo thông qua bộ dữ liệu huấn luyện Ngoài ra, về sức khỏe,giúp cho những ai đọc được số liệu này sẽ thống kê những yếu tố nào dẫn đến nguy cơ cao trong tiểu đường mà từ đó có thể đưa ra những giải pháp cũng như chế độ phù hợp với chính mình để tránh nguy cơ bị tiểu đường.