Một số nghiên cứu trước đây, như nghiên cứu của Kavakiotis và cộng sự 2017 về phân tích các yếu tố nguy cơ bệnh tiểu đường sử dụng machine learning, đã đạt được những kết quả khả quan nh
TỔNG QUAN VỀ ĐỀ TÀI
Lý do chọn đề tài
Đề tài luận văn về dự đoán nguy cơ mắc bệnh tiểu đường có tầm quan trọng lớn trong bối cảnh bệnh tiểu đường trở thành vấn đề y tế toàn cầu Theo báo cáo của WHO năm 2016, số người mắc bệnh tiểu đường đã tăng gấp bốn lần trong ba thập kỷ qua, với khoảng 422 triệu người hiện đang sống chung với bệnh Bệnh tiểu đường không chỉ gây gánh nặng chi phí y tế mà còn ảnh hưởng nghiêm trọng đến chất lượng cuộc sống, dẫn đến nhiều biến chứng như bệnh tim mạch, suy thận và mù lòa Do đó, việc dự đoán nguy cơ mắc bệnh tiểu đường giúp phát hiện sớm, quản lý hiệu quả bệnh và giảm thiểu gánh nặng y tế, đồng thời nâng cao chất lượng sống cho cộng đồng.
Sự gia tăng đáng báo động của tỷ lệ mắc bệnh tiểu đường toàn cầu, với dự báo của International Diabetes Federation (IDF) rằng số người mắc bệnh có thể đạt 700 triệu vào năm 2045 nếu không có biện pháp phòng ngừa hiệu quả, nhấn mạnh tính cấp thiết của đề tài này Điều này cho thấy cần thiết phải thực hiện các nghiên cứu chuyên sâu và áp dụng các phương pháp dự đoán tiên tiến để phát hiện sớm và can thiệp kịp thời.
Mặc dù có nhiều nghiên cứu dự đoán nguy cơ mắc bệnh tiểu đường, nhưng vẫn tồn tại hạn chế về độ chính xác và tính ứng dụng Nghiên cứu của Kavakiotis và cộng sự (2017) cho thấy kết quả khả quan trong việc phân tích các yếu tố nguy cơ bằng machine learning, nhưng gặp khó khăn trong thực tiễn do thiếu dữ liệu đa dạng và khả năng thích ứng với biến đổi dữ liệu y tế Các mô hình dự đoán hiện tại chủ yếu dựa vào yếu tố nhân khẩu học và lâm sàng cơ bản, chưa khai thác triệt để dữ liệu từ gen, môi trường sống và thói quen sinh hoạt.
Nhiều địa phương và cơ quan y tế đang gặp khó khăn trong việc quản lý và xử lý dữ liệu y tế do hạ tầng kỹ thuật và nguồn lực còn hạn chế Báo cáo của Tổ chức Y tế Thế giới chỉ ra rằng tình trạng này ảnh hưởng đến hiệu quả của các dịch vụ y tế.
Theo Tổ chức Y tế Thế giới (WHO) từ năm 2017, nhiều quốc gia có thu nhập thấp và trung bình đang đối mặt với sự thiếu hụt hệ thống thông tin y tế hiện đại, gây khó khăn trong việc thu thập và phân tích dữ liệu một cách chính xác và kịp thời Tại những địa phương này, hạ tầng kỹ thuật yếu kém, thiếu nhân lực chuyên môn và hạn chế về tài chính đã làm giảm hiệu quả của việc triển khai các công nghệ dự đoán tiên tiến.
Nhóm tác giả tiến hành nghiên cứu nhằm dự đoán nguy cơ mắc bệnh tiểu đường, khắc phục các hạn chế hiện tại và cung cấp công cụ dự đoán chính xác Nghiên cứu này không chỉ hỗ trợ phát hiện sớm và quản lý hiệu quả bệnh tiểu đường mà còn mang lại giải pháp khả thi cho các địa phương và cơ quan y tế có nguồn lực hạn chế, góp phần nâng cao sức khỏe cộng đồng và giảm thiểu gánh nặng y tế toàn cầu.
Mục tiêu nghiên cứu
Xây dựng mô hình dự đoán nguy cơ mắc bệnh tiểu đường thông qua việc phát triển và hiệu chỉnh các mô hình dựa trên kỹ thuật khoa học dữ liệu và machine learning Mục tiêu là xác định nguy cơ mắc bệnh tiểu đường dựa trên các yếu tố nguy cơ đã được xác định trước đó.
Nghiên cứu và phân tích các yếu tố nguy cơ chính góp phần vào sự phát triển của bệnh tiểu đường, bao gồm di truyền, lối sống, chế độ ăn uống, mức độ hoạt động thể chất và yếu tố môi trường Đánh giá độ chính xác và hiệu quả của các mô hình dự đoán thông qua thử nghiệm trên các tập dữ liệu khác nhau, đồng thời so sánh với các phương pháp hiện tại để xác định ưu điểm và hạn chế của mô hình mới Cuối cùng, ứng dụng mô hình dự đoán trong thực tiễn bằng cách xây dựng các công cụ hỗ trợ quyết định cho cơ quan y tế, bệnh viện và bác sĩ, nhằm phát hiện sớm và quản lý bệnh tiểu đường hiệu quả hơn.
Để giảm tỷ lệ mắc bệnh tiểu đường trong cộng đồng, cần đưa ra các khuyến nghị chính sách y tế cụ thể và các biện pháp phòng ngừa hiệu quả Các giải pháp này nên dựa trên kết quả nghiên cứu, nhằm nâng cao nhận thức về bệnh tiểu đường và khuyến khích lối sống lành mạnh Việc triển khai các chương trình giáo dục sức khỏe, tăng cường kiểm tra sức khỏe định kỳ và hỗ trợ dinh dưỡng hợp lý sẽ góp phần quan trọng vào việc phòng ngừa bệnh tiểu đường.
Tăng cường nhận thức và giáo dục cộng đồng về bệnh tiểu đường thông qua việc phát triển các chương trình giáo dục và tài liệu hướng dẫn dựa trên nghiên cứu Điều này nhằm nâng cao hiểu biết về nguy cơ mắc bệnh tiểu đường và các biện pháp phòng tránh hiệu quả.
Đánh giá khả năng mở rộng và áp dụng mô hình dự đoán nguy cơ mắc bệnh tiểu đường ở các địa phương khác nhau là rất quan trọng Cần xem xét các điều kiện kinh tế, xã hội và cơ sở hạ tầng y tế của từng khu vực để đưa ra các giải pháp cụ thể và hiệu quả.
Đối tượng và phạm vi nghiên cứu
Nghiên cứu này tập trung vào tập dữ liệu chứa thông tin y tế và nhân khẩu học liên quan đến các bệnh nhân có khả năng mắc bệnh tiểu đường ở mọi độ tuổi, được trích xuất từ một nguồn dữ liệu đáng tin cậy.
Dataset "diabetes_prediction_dataset.csv" chứa các biến số quan trọng như tuổi, giới tính, chỉ số khối cơ thể (BMI), tình trạng huyết áp, bệnh tim, lịch sử hút thuốc, mức độ HbA1c và mức đường huyết, giúp phân tích và dự đoán nguy cơ mắc bệnh tiểu đường.
Phạm vi nghiên cứu phân bố rộng khắp các quốc gia trên thế giới, từ năm 2020 đến năm
Phương pháp nghiên cứu
1.4.1 Thu thập và tiền xử lý dữ liệu
Dữ liệu được sử dụng trong nghiên cứu này được thu thập từ tệp
Bảng dữ liệu "diabetes_prediction_dataset.csv" chứa thông tin y tế và nhân khẩu học của bệnh nhân, cùng với trạng thái bệnh tiểu đường (dương tính hoặc âm tính) Các bước tiền xử lý dữ liệu sẽ được thực hiện để đảm bảo tính chính xác và độ tin cậy của phân tích.
Bước đầu tiên trong việc xử lý dữ liệu là kiểm tra và xử lý các giá trị thiếu Bạn có thể điền các giá trị trung bình hoặc trung vị để thay thế cho các giá trị thiếu, hoặc loại bỏ các mẫu không đầy đủ nếu cần thiết.
Trong bước 2 của quá trình xử lý dữ liệu, các biến phân loại như giới tính cần được chuyển đổi thành các biến số học để tương thích với các thuật toán máy học Ví dụ, giới tính có thể được mã hóa bằng cách chuyển đổi 'Nam' thành 1 và 'Nữ' thành 0.
Bước 3: Chuẩn hóa dữ liệu là quá trình điều chỉnh các biến số học như chỉ số khối cơ thể (BMI), mức đường huyết và mức HbA1c Mục tiêu là đảm bảo rằng tất cả các biến này có cùng thang đo và trọng số tương đương, từ đó nâng cao hiệu quả trong quá trình huấn luyện mô hình.
1.4.2 Phân tích dữ liệu khám phá (EDA)
Phân tích dữ liệu khám phá (Exploratory Data Analysis) giúp hiểu rõ hơn về phân bố của các biến, mối quan hệ giữa chúng và xác định các mẫu hoặc xu hướng trong dữ liệu.
- Biểu đồ phân bố Sử dụng biểu đồ phân phối để hiểu rõ hơn về phân bố của các biến số học như tuổi, BMI, và mức đường huyết
- Biểu đồ hộp Sử dụng biểu đồ hộp (box plot) để xác định các giá trị ngoại lai
Ma trận tương quan là công cụ hữu ích để tính toán và trực quan hóa mối quan hệ giữa các biến Việc phân tích ma trận này giúp xác định các biến có tương quan mạnh, từ đó hỗ trợ trong việc hiểu rõ hơn về dữ liệu và đưa ra những quyết định chính xác.
1.4.3 Xây dựng mô hình dự đoán
Sáu thuật toán học máy được sử dụng để xây dựng các mô hình dự đoán nguy cơ mắc bệnh tiểu đường, bao gồm:
- Hồi quy logistic (Logistic Regression)
- Máy vector hỗ trợ (Support Vector Machine - SVM)
- Cây quyết định (Decision Tree)
- Rừng ngẫu nhiên (Random Forest)
1.4.4 Huấn luyện và đánh giá mô hình
Các mô hình sẽ được huấn luyện và đánh giá bằng cách chia tập dữ liệu thành tập huấn luyện và tập kiểm tra:
- K-fold Cross-Validation Sử dụng k-fold cross-validation để đánh giá mô hình một cách chính xác hơn và giảm thiểu hiện tượng overfitting
Các chỉ số đánh giá hiệu suất của mô hình bao gồm độ chính xác (accuracy), độ chính xác (precision), độ nhạy (recall) và điểm F1 (F1-score) Những chỉ số này giúp đánh giá hiệu quả của mô hình trong việc phân loại và nhận diện dữ liệu.
1.4.5 So sánh và tối ưu hóa mô hình
Sau khi huấn luyện, hiệu suất của các mô hình được so sánh để chọn ra mô hình tốt nhất:
- So sánh hiệu suất So sánh các chỉ số đánh giá của từng mô hình để xác định mô hình có hiệu suất tốt nhất
Điều chỉnh siêu tham số (Hyperparameter Tuning) là quá trình quan trọng để tối ưu hóa mô hình, sử dụng các kỹ thuật như Grid Search và Random Search nhằm xác định các siêu tham số tốt nhất cho hiệu suất tối ưu.
Để xử lý tình trạng mất cân bằng lớp trong dữ liệu, khi số lượng mẫu dương tính và âm tính không đồng đều, bạn có thể áp dụng các kỹ thuật như SMOTE hoặc điều chỉnh trọng số mẫu Những phương pháp này giúp cải thiện hiệu suất của mô hình một cách hiệu quả.
1.4.6 Triển khai và đánh giá trong thực tế
Mô hình tốt nhất sẽ được triển khai trong môi trường thực tế và đánh giá hiệu suất trên các dữ liệu mới:
- Triển khai mô hình Mô hình được triển khai trong môi trường thực tế để dự đoán nguy cơ mắc bệnh tiểu đường cho các bệnh nhân mới
Hiệu suất của mô hình được đánh giá trên dữ liệu mới nhằm đảm bảo khả năng hoạt động hiệu quả trên các tập dữ liệu khác nhau Điều này giúp mô hình có thể áp dụng cho cộng đồng bệnh nhân tiểu đường đa dạng.
Ý nghĩa và đóng góp của đề tài
1.5.1 Đóng góp về mặt lý thuyết
Mô hình dự đoán bệnh tiểu đường được phát triển nhằm hoàn thiện và nâng cao hiểu biết về các yếu tố nguy cơ liên quan đến bệnh này, dựa trên các biến số y tế và nhân khẩu học Sự phát triển này không chỉ mở rộng kho tàng tri thức mà còn giúp nâng cao khả năng dự đoán và quản lý bệnh tiểu đường hiệu quả hơn.
Phân tích các yếu tố nguy cơ giúp hiểu rõ ảnh hưởng của giới tính, tuổi tác, huyết áp, tình trạng bệnh tim, lịch sử hút thuốc, chỉ số khối cơ thể (BMI), mức độ HbA1c và đường huyết đối với nguy cơ mắc bệnh tiểu đường Việc này đóng góp vào việc xác định các yếu tố nguy cơ chính và cơ chế gây bệnh, từ đó nâng cao nhận thức và phòng ngừa hiệu quả bệnh tiểu đường.
1.5.2 Ý nghĩa về mặt ứng dụng thực tiễn
Mô hình dự đoán nguy cơ mắc bệnh tiểu đường giúp các cơ quan y tế và bác sĩ phát hiện sớm và phòng ngừa bệnh hiệu quả, đặc biệt đối với những người có nguy cơ cao nhưng chưa được chẩn đoán.
Cá nhân hóa điều trị bệnh tiểu đường dựa trên hồ sơ y tế và nhân khẩu học của từng bệnh nhân giúp tối ưu hóa hiệu quả điều trị và giảm thiểu biến chứng Nghiên cứu này định hướng các chiến lược điều trị cá nhân hóa, góp phần nâng cao chất lượng chăm sóc sức khỏe cho bệnh nhân.
Chính sách y tế công cộng đóng vai trò quan trọng trong việc cung cấp dữ liệu và kết quả nghiên cứu, giúp xây dựng các chính sách hiệu quả nhằm giảm tỷ lệ mắc bệnh tiểu đường trong cộng đồng Điều này bao gồm triển khai các chiến dịch giáo dục, sàng lọc và can thiệp sớm để nâng cao sức khỏe cộng đồng.
Nghiên cứu này cung cấp thông tin quý giá cho các chương trình quản lý sức khỏe cộng đồng, nhằm giảm thiểu gánh nặng bệnh tiểu đường trên hệ thống y tế và cải thiện chất lượng cuộc sống của người dân.
1.5.3 Đối với kinh tế và xã hội
Phát hiện sớm và quản lý hiệu quả bệnh tiểu đường là chìa khóa giúp giảm chi phí y tế, đồng thời hạn chế chi phí điều trị và quản lý các biến chứng liên quan đến bệnh.
Nghiên cứu này nhằm nâng cao nhận thức cộng đồng về các yếu tố nguy cơ liên quan đến bệnh tiểu đường, đồng thời nhấn mạnh tầm quan trọng của việc kiểm soát những yếu tố này để phòng ngừa bệnh hiệu quả.
CƠ SỞ LÝ THUYẾT
Khai phá dữ liệu
Khai phá dữ liệu là kỹ thuật sử dụng máy tính để phân loại và sắp xếp các tập hợp dữ liệu nhằm xác định cấu trúc, xu hướng và khám phá các mẫu hình cũng như mối quan hệ ẩn Mục tiêu chính của khai phá dữ liệu là giúp doanh nghiệp áp dụng những kiến thức này để giải quyết vấn đề, dự đoán xu hướng tương lai và tăng cường biên lợi nhuận.
Khai thác dữ liệu là yếu tố quan trọng cho sự thành công của các sáng kiến phân tích Doanh nghiệp có thể sử dụng quy trình này để tăng cường lòng tin của khách hàng, tìm kiếm nguồn thu nhập mới và giữ chân khách hàng hiện tại Một quy trình khai thác dữ liệu hiệu quả sẽ hỗ trợ đắc lực cho việc hoạch định chiến lược kinh doanh và quản lý hoạt động.
Trong lĩnh vực tài chính, doanh nghiệp sử dụng Data Mining để dự đoán xu hướng thị trường, quản lý rủi ro, phát hiện gian lận và giao dịch bất hợp pháp, cũng như cải thiện dịch vụ khách hàng.
Trong ngành viễn thông cạnh tranh, doanh nghiệp có thể nâng cao dịch vụ khách hàng và tạo ra lợi thế cạnh tranh bằng cách phân tích hành vi của khách hàng và dự đoán xu hướng của họ.
Khai phá dữ liệu giúp phát hiện mối quan hệ giữa bệnh và phương pháp điều trị, từ đó tìm ra các loại thuốc mới Bên cạnh đó, nó còn dựa vào các yếu tố rủi ro để dự đoán loại bệnh mà bệnh nhân có khả năng mắc phải.
Các nhà cung cấp dịch vụ giáo dục sử dụng khai thác dữ liệu để dự đoán hành vi học tập của người học trong tương lai Điều này giúp doanh nghiệp hiểu rõ nhu cầu của người học, từ đó hỗ trợ họ hiệu quả hơn Họ cũng có thể thiết kế lộ trình và phương pháp giảng dạy phù hợp, nhằm nâng cao chất lượng đầu ra của học sinh.
2.1.2.5 Lĩnh vực kỹ thuật sản xuất
Kỹ thuật khai phá dữ liệu giúp doanh nghiệp sản xuất phân tích dự đoán hiệu suất thiết bị, thời gian và chi phí phát triển sản phẩm, chất lượng sản phẩm đầu ra, cũng như hiệu quả chuỗi cung ứng.
Khai thác dữ liệu là một công cụ quan trọng giúp doanh nghiệp nâng cao hiệu quả hoạt động và giành lợi thế cạnh tranh Việc ứng dụng công nghệ này mang lại cái nhìn sâu sắc về dữ liệu, từ đó tạo ra giá trị lớn cho nhiều lĩnh vực khác nhau.
2.1.3 Phương pháp khai phá dữ liệu
2.1.3.1 Khai phá luật kết hợp
Khai phá luật kết hợp là một kỹ thuật quan trọng trong khai thác dữ liệu, giúp xác định mối quan hệ giữa các mục dữ liệu trong cơ sở dữ liệu Luật kết hợp X → Y chỉ ra rằng tập Y thường xuất hiện đồng thời với tập X.
Khai phá luật kết hợp là một kỹ thuật khai thác dữ liệu phổ biến, thường được các doanh nghiệp bán lẻ áp dụng để phân tích hành vi mua sắm và dự đoán xu hướng từ giỏ hàng của khách hàng tiềm năng Kỹ thuật này cũng được sử dụng trong lĩnh vực Công nghệ Thông tin, đặc biệt trong các chương trình học máy (Machine Learning).
Phân lớp dữ liệu là quá trình tự động hoặc bán tự động phân chia mẫu dữ liệu thành nhiều nhóm dựa trên các đặc điểm đã biết Mục tiêu chính của phân lớp là xây dựng mô hình từ dữ liệu đã được gán nhãn (dữ liệu huấn luyện) và sử dụng mô hình này để dự đoán nhãn cho các đối tượng dữ liệu mới (dữ liệu kiểm tra).
Phân lớp dữ liệu là một kỹ thuật linh hoạt và mạnh mẽ, giúp giải quyết nhiều vấn đề trong các lĩnh vực khác nhau Kỹ thuật này sử dụng dữ liệu đã biết để đưa ra dự đoán chính xác về quy luật và xu hướng của dữ liệu mới.
Phân cụm dữ liệu là quá trình nhóm các đối tượng dữ liệu thành các cụm (cluster) dựa trên sự tương đồng giữa chúng theo một tiêu chí nhất định Kỹ thuật này thường áp dụng cho dữ liệu chưa được gán nhãn, phản ánh thực tế trong nhiều lĩnh vực.
Phân cụm dữ liệu là công cụ thiết yếu giúp khám phá và hiểu cấu trúc nội tại của dữ liệu, hỗ trợ các nhà khoa học dữ liệu và chuyên gia khai thác tri thức tiềm ẩn, từ đó đưa ra các quyết định thông minh dựa trên dữ liệu.
Kỹ thuật phát hiện bất thường (Anomaly Detection) là một phương pháp khai phá dữ liệu nhằm xác định các điểm dữ liệu không tuân theo hành vi thông thường trong tập dữ liệu Những điểm này, gọi là bất thường hoặc ngoại lệ, rất quan trọng vì chúng cung cấp thông tin cần thiết, có thể chỉ ra sự kiện đặc biệt, lỗi hệ thống, hoặc các trường hợp cần điều tra thêm mà các nhà phân tích dữ liệu cần chú ý.
Kỹ thuật phân lớp
Phân lớp dữ liệu là quá trình xác định và sắp xếp đối tượng dữ liệu vào các nhóm đã được xác định trước thông qua một mô hình phân lớp Mô hình này được xây dựng dựa trên tập dữ liệu đã được gán nhãn, cho phép biết trước nhóm mà đối tượng thuộc về Mục tiêu chính của phân lớp dữ liệu là phát triển mô hình dự đoán chính xác nhóm của dữ liệu mới dựa trên các đặc điểm của chúng.
Trong bài toán phân lớp, nhiệm vụ chủ yếu là phân loại các đối tượng dữ liệu vào n nhóm đã được xác định trước Có nhiều loại phân lớp phổ biến, bao gồm phân lớp nhị phân, phân lớp đa lớp, và phân lớp mờ.
- Phân lớp nhị phân: Chỉ có hai nhóm đã được xác định trước (n=2)
- Phân lớp đa nhóm: Có hơn hai nhóm đã được xác định trước (n>2)
- Phân lớp đơn nhãn: Mỗi đối tượng dữ liệu chỉ thuộc về một nhóm duy nhất
- Phân lớp đa nhãn: Một đối tượng dữ liệu có thể thuộc về nhiều nhóm khác nhau cùng một lúc
Quá trình phân lớp dữ liệu gồm 2 bước chính:
Bước 1: Thiết lập mô hình (hay còn gọi là giai đoạn “học” hoặc “huấn luyện”):
- Đầu vào là các mẫu dữ liệu gán nhãn và tiền xử lý dữ liệu
- Sử dụng các thuật toán như Decision Tree, SVM, hàm số…
- Kết quả của bước này là mô hình phân lớp
Bước 2: Sử dụng mô hình chia thành 2 bước nhỏ”
Bước 2.1: Đánh giá mô hình (kiểm tra tính đúng đắn của mô hình):
- Đầu vào là một tập dữ liệu khác (dữ liệu nhỏ hơn dữ liệu huấn luyện, thường chia tỷ lệ là 75%25%) đã được gán nhãn và làm sạch
- Khi áp dụng mô hình phân lớp các nhãn gán trước sẽ bị ẩn đi
- Tính chính xác của mô hình được xác định bằng cách so sahs nhãn gán ban đầu với kết quả phân lớp của mô hình
Bước 2.2: Phân lớp dữ liệu mới:
- Đầu vào là các mẫu chưa được gán nhãn
- Mô hình tự động phân lớp cho các đối tượng dữ liệu này dựa vào những gì được huấn luyện ở bước 1
2.2.3 Các phương pháp phân lớp
2.2.3.1 Hồi quy Logistic (Logistic Regression)
Hồi quy logistic là một phương pháp phân tích dữ liệu dựa trên toán học nhằm xác định mối quan hệ giữa hai biến dữ liệu Kỹ thuật này cho phép dự đoán giá trị của các yếu tố khác dựa trên mối quan hệ đã xác định Kết quả của hồi quy logistic thường là các giá trị hữu hạn, chẳng hạn như có hoặc không.
Có 3 dạng hồi quy Logistic:
- Hồi quy logistic nhị phân Biến phụ thuộc chỉ có hai 2 kết quả / lớp
- Hồi quy logistic đa thức Biến phụ thuộc chỉ có hai hoặc 3 kết quả/lớp trở lên không theo thứ tự
- Hồi quy logistic thông thường Biến phụ thuộc chỉ có hai hoặc nhiều hơn 3 kết quả / theo thứ tự nhất định
Phương pháp hồi quy logistic có nhiều ứng dụng đa dạng, từ việc dự đoán khả năng mua hàng của khách hàng đến khả năng thanh toán của người dùng cho dịch vụ trực tuyến, cũng như khả năng mắc bệnh của bệnh nhân Những ưu điểm nổi bật của phương pháp này giúp nâng cao độ chính xác trong các dự đoán và hỗ trợ quyết định hiệu quả trong nhiều lĩnh vực.
- Mô hình hồi quy logistic khá đơn giản, dễ dàng xử lý khối lượng dữ liệu lớn ở tốc độ cao và hiệu quả
Nó không chỉ đánh giá mức độ ảnh hưởng của biến độc lập mà còn xác định hướng mối quan hệ, đồng thời cung cấp các hệ số quan trọng của các đặc điểm.
- Hồi quy logistic không dự đoán được kết quả liên tục
- Hồi quy logistic có thể không chính xác nếu kích thước mẫu quá nhỏ
Hình 2.1: Hồi quy Logistic (Logistic Regression)
Support Vector Machine (SVM) là một thuật toán học có giám sát, phân loại dữ liệu thành các lớp khác nhau bằng cách tạo ra một siêu phẳng trong không gian nhiều chiều Để tối ưu hóa quá trình phân lớp, SVM xác định siêu phẳng sao cho khoảng cách từ nó đến các điểm dữ liệu của tất cả các lớp là lớn nhất Khoảng cách này, được gọi là margin, là khoảng cách giữa siêu phẳng và các điểm dữ liệu gần nhất thuộc hai lớp khác nhau.
Bài toán SVM (Support Vector Machine) tìm kiếm hai đường biên cho hai lớp dữ liệu sao cho khoảng cách giữa chúng được tối đa hóa Siêu phẳng nằm giữa hai đường biên này, được gọi là các Support Vector, đóng vai trò quan trọng trong việc xác định siêu phẳng (màu cam) SVM có nhiều biến thể khác nhau để cải thiện hiệu suất và khả năng ứng dụng trong các bài toán phân loại.
- Hard Margin SVM: Áp dụng khi hai lớp dữ liệu có thể phân chia tuyến tính (linearly separable)
- Soft Margin SVM Áp dụng khi hai lớp dữ liệu có thể phân chia tuyến tính (almost linear separable)
- Multi- class SVM Áp dụng cho bài toán Phân lớp đa lớp (biên giữa các lớp là tuyến tính)
- Kernel SVM Dữ liệu là phi tuyến Ưu điểm:
- Tiết kiệm bộ nhớ vì chỉ cần kiểm tra điểm dữ liệu mới với siêu phẳng đã tìm được mà không cần tính toán lại
- Linh hoạt vừa có thể phân lớp tuyến tính và phi tuyến (sử dụng các kernel khác nhau),
- Xử lý tốt trong không gian nhiều chiều
- Hiệu suất giảm khi số chiều của dữ liệu lớn hơn số lượng mẫu dữ liệu
- Chưa thể hiện tính xác suất trong phân lớp
Hình 2.2: SVM (Support Vector Machine)
2.2.3.3 Cây quyết định (Decision Tree)
Trong lý thuyết quản trị, cây quyết định là một công cụ đồ họa thể hiện các quyết định và kết quả khả dĩ, giúp tối ưu hóa quá trình ra quyết định.
Trong lĩnh vực khai thác dữ liệu, cây quyết định là phương pháp nhằm mô tả,phân loại và tổng quát hóa tập dữ liệu cho trước
Cây quyết định bao gồm hai loại
- Cây hồi quy có ước tính mô hình là các giá trị số thực
- Cây phân loại được dùng trong các mô hình có giá trị cuối cùng nằm mục đích chính là phần loại Ưu điểm:
- Không đòi hỏi việc chuẩn hóa dữ liệu
- Có thể xử lý trên nhiều kiểu dữ liệu khác nhau
- Xử lý tốt một lượng dữ liệu lớn trong thời gian ngắn
- Khó giải quyết trong tình huống dữ liệu phụ thuộc thời gian
- Chi phí xây dựng mô hình cao
Hình 2.3: Cây quyết định (Decision Tree)
Mạng nơ-ron (Neural Network) là một chuỗi thuật toán được thiết kế để phát hiện các mối quan hệ cơ bản trong tập dữ liệu Bằng cách mô phỏng cách thức hoạt động của não bộ con người, mạng nơ-ron kết nối các nút đơn giản để hình thành một mạng lưới phức tạp Chính vì vậy, nó được coi là hệ thống của các tế bào thần kinh nhân tạo.
Kiến trúc của mạng Neural Network bao gồm sự kết hợp của các tầng perceptron, thường được gọi là perceptron đa tầng Mỗi mạng Neural Network bao gồm ba loại tầng chính: tầng đầu vào, tầng ẩn và tầng đầu ra.
- Tầng input layer (tầng vào) tầng này nằm phía bên trái của mạng và đại diện cho các đầu vào của hệ thống
- Tầng output layer (tầng ra) Là tầng bên phải của mạng, chịu trách nhiệm cung cấp đầu ra của hệ thống
- Tầng hidden layer (tầng ẩn) Tầng này nằm ở giữa tầng vào và tầng này thực hiện các quá trình suy luận và tính toán logic của mạng Nerual Network
Mạng nơ-ron có khả năng giải quyết nhiều vấn đề như phân loại, dự đoán và phân tích hình ảnh cũng như âm thanh Ưu điểm của nó bao gồm khả năng học từ dữ liệu phức tạp, xử lý đầu vào phi tuyến tính và tự động nhận diện các đặc trưng quan trọng Tuy nhiên, mạng nơ-ron cũng gặp một số hạn chế như nguy cơ overfitting, yêu cầu tài nguyên tính toán lớn và khó khăn trong việc giải thích kết quả dự đoán.
Phương pháp đánh giá mô hình phân lớp
2.3.1 Ma trận nhầm lẫn (Confusion matrix)
Ma trận nhầm lẫn là công cụ đánh giá hiệu quả của mô hình phân loại, kiểm tra độ chính xác và độ bao phủ dự đoán cho từng lớp Nó xác định số điểm dữ liệu thuộc về mỗi lớp cụ thể và có kích thước n x n, với n là số lượng lớp của dữ liệu Ma trận này được sử dụng phổ biến để đo lường hiệu suất, đặc biệt trong các mô hình phân loại.
Hình 2.5: Mô tả trực quan ma trận nhầm lẫn (Confusion matrix) Ở từng lớp phân loại, ma trận nhầm lẫn bao gồm 4 lớp:
● Dự đoán lớp positive là positive: Tích cực thực (TP)
● Dự đoán lớp negative là positive :Tích cực giả (FP)
● Dự đoán lớp positive là negative: Phủ định giả (FN)
● Dự đoán lớp negative là negative: Phủ định thực (TN)
2.3.2 Độ chính xác (Accuracy) Độ chính xác (Accuracy) được tính bằng tỷ lệ giữa số mẫu được phân loại đúng và tổng số mẫu trong tập dữ liệu Công thức tính độ chính xác như sau:
Độ chính xác (accuracy) được tính bằng tổng số TP, FP, TN và FN, nhưng không cho biết chi tiết về cách phân loại các loại dữ liệu, độ chính xác của từng loại hay lớp nào chứa dữ liệu bị phân loại sai Tuy nhiên, độ chính xác vẫn là một chỉ số quan trọng để đánh giá hiệu quả của mô hình phân loại; độ chính xác cao đồng nghĩa với việc mô hình dự đoán chính xác hơn.
2.3.3.1 Precision Độ chính xác (Precision) là tỷ lệ giữa số lượng mẫu dương được phân loại đúng và tổng số mẫu được phân loại là dương Công thức tính Precision như sau:
2.3.3.2 Recall Độ bao phủ (Recall) là tỷ lệ giữa số mẫu dương được phân loại đúng và tổng số mẫu dương thực tế Công thức tính Recall như sau:
F1-score là một tiêu chí đánh giá kết hợp giữa độ chính xác (Precision) và độ bao phủ (Recall) Công thức tính F1-score như sau:
Biểu đồ ROC (Receiver Operating Characteristic) là công cụ phân tích giúp cân bằng giữa độ nhạy và độ đặc hiệu trong các mô hình dự đoán Biểu đồ này có hai trục: trục hoành (X) thể hiện tỷ lệ dương giả (False Positive Rate) và trục tung (Y) thể hiện tỷ lệ dương thật (True Positive Rate) Công thức tính toán cho True Positive Rate và False Positive Rate đóng vai trò quan trọng trong việc đánh giá hiệu suất của mô hình.
ROC là một biểu đồ quan trọng trong việc đánh giá mô hình phân loại nhị phân, thể hiện mối quan hệ giữa True Positive Rate và False Positive Rate Đường cong ROC được hình thành khi hai giá trị này biến thiên ngược chiều nhau, với các điểm bên trái đường chéo cho thấy hiệu suất tốt hơn AUC (Area Under the Curve) đại diện cho diện tích dưới đường cong ROC, có giá trị từ 0 đến 1, với AUC lớn hơn 0.5 cho thấy mô hình có khả năng phân loại tốt.
Hình 2.7: Diện tích đường cong ROC(độ đo AUC)
Bảng 2.1: Độ chính xác của mô hình phân lớp trên thang đo AUC
Phần mềm Orange
Orange là một công cụ trực quan hóa dữ liệu, học máy và khai thác dữ liệu, giúp người dùng nghiên cứu và giải quyết các vấn đề liên quan đến dữ liệu Với giao diện trực quan dựa trên hệ thống widgets, Orange cho phép người dùng phân tích dữ liệu dễ dàng mà không cần có kỹ năng lập trình nâng cao.
2.4.2 Phương pháp phân cụm dữ liệu
Phương pháp phân cụm dữ liệu trong Orange áp dụng các thuật toán không giám sát để nhóm các điểm dữ liệu có đặc điểm tương đồng vào cùng một cụm Dưới đây là các bước cơ bản để thực hiện phương pháp này trong Orange.
- Chọn thuật toán phân cụm Orange hỗ trợ nhiều thuật toán phân cụm như K-means, Hierarchical Clustering, DBSCAN, v.v
Để đảm bảo thuật toán phân cụm hoạt động hiệu quả, dữ liệu cần được tiền xử lý bằng cách loại bỏ nhiễu và chuẩn hóa.
- Thiết lập tham số Đối với mỗi thuật toán, cần thiết lập các tham số phù hợp, như số lượng cụm cho K-means
- Chạy thuật toán Sử dụng các widget tương ứng trong Orange để thực hiện phân cụm
Đánh giá kết quả phân cụm là một bước quan trọng, trong đó việc sử dụng các biểu đồ và ma trận giúp phân tích sự phân bố của dữ liệu trong từng cụm Các công cụ này không chỉ hỗ trợ việc hình dung kết quả mà còn cung cấp cái nhìn sâu sắc về cấu trúc và đặc điểm của từng nhóm dữ liệu.
2.4.3 Lý do chọn Orange là phần mềm chính
Orange là phần mềm lý tưởng nhờ vào khả năng tích hợp dễ dàng các công cụ khai phá dữ liệu mã nguồn mở và học máy thông minh.
Giao diện người dùng trực quan và dễ sử dụng của Orange, được thiết kế dựa trên widget, giúp cho việc phân tích dữ liệu trở nên dễ dàng và trực quan hơn.
Orange là một công cụ mã nguồn mở với cộng đồng người dùng và phát triển đông đảo, mang đến sự hỗ trợ và cập nhật thường xuyên.
Orange là một nền tảng mạnh mẽ tích hợp học máy và khai phá dữ liệu, cung cấp nhiều thuật toán và công cụ hữu ích Người dùng có thể dễ dàng thực hiện các tác vụ từ cơ bản đến phức tạp, giúp tối ưu hóa quy trình phân tích dữ liệu.
Orange cung cấp các công cụ mạnh mẽ để phân tích và trực quan hóa dữ liệu, giúp người dùng dễ dàng hiểu và trình bày thông tin một cách hấp dẫn và trực quan.
- Phù hợp cho mọi trình độ Từ người mới bắt đầu đến chuyên gia đều có thể sử dụng Orange hiệu quả.
MÔ HÌNH NGHIÊN CỨU
Sơ lược về tình hình mắc bệnh tiểu đường
Hiện nay, tỷ lệ mắc bệnh tiểu đường đang gia tăng đáng kể trên toàn cầu, đặc biệt ở các khu vực phát triển và đang phát triển như Châu Á, Châu Âu và Mỹ Sự phát triển kinh tế cùng với thay đổi lối sống là những yếu tố chính góp phần vào tình hình phức tạp của bệnh tiểu đường.
Trong bối cảnh hiện tại, ngành y tế đang đối mặt với nhiều thách thức trong quản lý và điều trị bệnh tiểu đường Sự gia tăng bệnh nhân yêu cầu hệ thống y tế cung cấp nhiều dịch vụ chăm sóc sức khỏe hơn, từ chẩn đoán, theo dõi đến điều trị lâu dài Các bệnh viện và phòng khám cần đáp ứng nhu cầu điều trị đa dạng của các nhóm bệnh nhân, bao gồm cả những người mắc bệnh tiểu đường type 1 cần insulin và những người mắc bệnh tiểu đường type 2 có thể kiểm soát bằng thuốc uống và thay đổi lối sống.
Chi phí điều trị bệnh tiểu đường đang gia tăng đáng kể, đặc biệt là giá insulin và các loại thuốc khác, khiến nhiều bệnh nhân gặp khó khăn trong việc tiếp cận điều trị Tình hình này càng trở nên nghiêm trọng hơn đối với những người sống ở các nước có thu nhập thấp và trung bình, đặc biệt trong bối cảnh khủng hoảng kinh tế và lạm phát cao.
Giáo dục và nâng cao nhận thức về bệnh tiểu đường là một thách thức quan trọng, vì nhiều người chưa hiểu rõ về các nguy cơ và biện pháp phòng ngừa Điều này dẫn đến việc phát hiện bệnh muộn và điều trị không hiệu quả Do đó, cần tăng cường các chiến dịch tuyên truyền và giáo dục cộng đồng để giúp người dân nhận thức rõ hơn về bệnh tiểu đường và cách phòng tránh hiệu quả.
Các chính phủ và tổ chức y tế toàn cầu đang nỗ lực cải thiện tình hình bệnh tiểu đường thông qua các chương trình kiểm soát bệnh tiểu đường quốc gia và quốc tế Những chương trình này tập trung vào việc nâng cao chất lượng chăm sóc sức khỏe, giảm chi phí điều trị và tăng cường giáo dục cộng đồng Đồng thời, công nghệ mới như ứng dụng theo dõi glucose và thiết bị tiêm insulin tự động đang được phát triển để hỗ trợ bệnh nhân tiểu đường quản lý bệnh hiệu quả hơn.
Tình hình bệnh tiểu đường hiện nay đối mặt với nhiều thách thức nhưng cũng mở ra cơ hội cải thiện Để kiểm soát và điều trị bệnh hiệu quả, cần có chiến lược toàn diện từ chính phủ, tổ chức y tế và cộng đồng Việc áp dụng công nghệ tiên tiến, nâng cao chất lượng dịch vụ y tế và tăng cường giáo dục cộng đồng sẽ giúp giảm thiểu tác động của bệnh tiểu đường, đồng thời nâng cao chất lượng cuộc sống cho bệnh nhân.
Mô hình nghiên cứu
Bệnh tiểu đường là tình trạng sức khỏe khi mức đường huyết tăng cao do rối loạn chuyển hóa Nghiên cứu này tập trung vào khả năng dự đoán nguy cơ mắc bệnh tiểu đường dựa trên thông tin y tế và nhân khẩu học của bệnh nhân Mục tiêu là hỗ trợ bác sĩ và cơ quan y tế trong việc phát hiện sớm và quản lý hiệu quả bệnh tiểu đường.
Biến phụ thuộc trong nghiên cứu này được xác định bằng giá trị 1 cho sự hiện diện của bệnh tiểu đường và 0 cho sự không có mặt của bệnh Các giá trị này dựa trên kết quả xét nghiệm và chẩn đoán y khoa, bao gồm các chỉ số sức khỏe như tuổi, giới tính, chỉ số khối cơ thể (BMI), tình trạng huyết áp, bệnh tim, lịch sử hút thuốc, mức độ HbA1c và mức đường huyết Dữ liệu này được thu thập trong quá trình kiểm tra định kỳ của bệnh nhân.
Các bác sĩ và chuyên gia y tế phân loại tình trạng bệnh tiểu đường dựa trên các ngưỡng giá trị chuẩn y tế Tôi sử dụng kinh nghiệm và kiến thức về y học cùng khoa học dữ liệu để phân loại bệnh nhân có nguy cơ mắc bệnh tiểu đường, với giá trị dự đoán là 1 cho nguy cơ cao và 0 cho nguy cơ thấp Phương pháp này tối ưu hóa quá trình sàng lọc và theo dõi bệnh nhân, từ đó cho phép đưa ra các biện pháp can thiệp kịp thời và hiệu quả.
Các biến độc lập sẽ được áp dụng để xây dựng và huấn luyện các mô hình dự đoán thông qua các thuật toán máy học khác nhau Mục tiêu chính là xác định mối quan hệ giữa các biến này và nguy cơ mắc bệnh tiểu đường, nhằm phát hiện sớm và quản lý bệnh hiệu quả hơn.
Giới tính của bệnh nhân được phân loại thành Female (Nữ) và Male (Nam), đóng vai trò quan trọng trong nguy cơ mắc bệnh tiểu đường Nghiên cứu của National Institutes of Health (NIH) năm 2006 cho thấy nam giới có nguy cơ cao phát triển bệnh tiểu đường type 2 hơn nữ giới, khi kiểm soát các yếu tố như chỉ số khối cơ thể (BMI) và lối sống Sự khác biệt về phân bố mỡ cơ thể, với nam giới thường tích tụ mỡ bụng nhiều hơn, là một yếu tố nguy cơ chính Hormone giới tính cũng ảnh hưởng đến chuyển hóa glucose và độ nhạy insulin; estrogen ở phụ nữ có tác dụng bảo vệ chống kháng insulin, trong khi testosterone ở nam giới có thể làm tăng nguy cơ này Bài báo trên tạp chí "Diabetes Care" xác nhận rằng nam giới có tỷ lệ mắc bệnh tiểu đường type 2 cao hơn nữ giới, ngay cả khi đã điều chỉnh các yếu tố nguy cơ truyền thống Những phát hiện này nhấn mạnh tầm quan trọng của việc xem xét giới tính trong việc đánh giá nguy cơ và phát triển chiến lược phòng ngừa bệnh tiểu đường.
Tuổi tác là yếu tố quan trọng ảnh hưởng đến nguy cơ mắc bệnh tiểu đường, đặc biệt là bệnh tiểu đường type 2, với nguy cơ cao hơn đáng kể ở người trên 45 tuổi Sự suy giảm chức năng của tế bào beta trong tuyến tụy và giảm nhạy cảm với insulin theo tuổi tác là những nguyên nhân chính Người cao tuổi thường có lối sống ít vận động và dễ bị thừa cân, làm tăng nguy cơ mắc bệnh Ngoài ra, kiểm soát đường huyết kém thường gặp ở người lớn tuổi, dẫn đến nguy cơ cao hơn về các biến chứng liên quan đến bệnh tiểu đường.
3.2.2.3 Hypertension (Tình trạng huyết áp)
Tăng huyết áp được mã hóa thành 0 (huyết áp ổn định) và 1 (huyết áp cao), là yếu tố nguy cơ quan trọng dẫn đến bệnh tiểu đường Nghiên cứu trên tạp chí "Hypertension" cho thấy người bị tăng huyết áp có nguy cơ mắc bệnh tiểu đường type 2 cao gấp 2,5 lần so với người có huyết áp bình thường Mối liên hệ này được giải thích qua tình trạng kháng insulin và viêm mãn tính, thường đi kèm với tăng huyết áp Tăng huyết áp có thể làm hỏng mạch máu và ảnh hưởng đến chức năng tuyến tụy, nơi sản xuất insulin Ngoài ra, tình trạng này còn gây căng thẳng cho hệ tim mạch, làm tăng nguy cơ biến chứng tim mạch, từ đó góp phần vào sự phát triển của bệnh tiểu đường Do đó, quản lý và kiểm soát huyết áp hiệu quả là rất quan trọng để giảm nguy cơ mắc bệnh tiểu đường và các biến chứng liên quan.
3.2.2.4 Heart Disease (Tình trạng bệnh tim)
Bệnh tim được mã hóa thành 0 (Không có bệnh) và 1 (Có bệnh), có mối liên hệ chặt chẽ với bệnh tiểu đường, đặc biệt là tiểu đường type 2, khi bệnh tim có thể là biến chứng hoặc yếu tố nguy cơ Nghiên cứu trên tạp chí "The Lancet" chỉ ra rằng người có tiền sử bệnh tim có nguy cơ mắc bệnh tiểu đường cao gấp 2-3 lần so với người không mắc bệnh tim Các cơ chế như kháng insulin và viêm mãn tính thường đi kèm với bệnh tim, dẫn đến tổn thương mạch máu, ảnh hưởng đến chức năng tuyến tụy và chuyển hóa glucose Ngoài ra, các yếu tố nguy cơ như tăng huyết áp, béo phì và lối sống ít vận động cũng góp phần vào mối quan hệ này Việc phát hiện và quản lý sớm cả hai tình trạng là rất quan trọng để giảm nguy cơ và cải thiện sức khỏe tổng thể.
3.2.2.5 Smoking History (Lịch sử hút thuốc)
Lịch sử hút thuốc của bệnh nhân được phân loại thành nhiều cấp độ: không bao giờ hút, đã từng hút, hiện đang hút hoặc không có thông tin Hút thuốc là một yếu tố nguy cơ quan trọng đối với nhiều bệnh lý, bao gồm cả tiểu đường, do tác động của nicotine và các chất độc hại khác đến quá trình chuyển hóa glucose.
Nghiên cứu cho thấy hút thuốc có mối liên hệ mạnh mẽ với nguy cơ mắc bệnh tiểu đường type 2, với người hút thuốc có nguy cơ cao gấp đôi so với người không hút thuốc (Diabetologia, 2017) Nicotine và các hợp chất trong thuốc lá gây ảnh hưởng tiêu cực đến sự đề kháng insulin và chuyển hóa glucose Hút thuốc cũng thường đi kèm với lối sống không lành mạnh như thiếu vận động và tiêu thụ calo dư thừa, làm tăng nguy cơ phát triển bệnh tiểu đường Tuy nhiên, nguy cơ mắc bệnh tiểu đường có thể giảm sau khi ngừng hút thuốc, nhấn mạnh tầm quan trọng của việc từ bỏ thói quen này để bảo vệ sức khỏe.
3.2.2.6 BMI (Chỉ số khối cơ thể)
Chỉ số khối cơ thể (BMI) được tính bằng cách chia cân nặng (kg) cho bình phương chiều cao (m) Đây là một chỉ số quan trọng để đánh giá tình trạng béo phì, một yếu tố nguy cơ lớn dẫn đến bệnh tiểu đường type 2, theo nghiên cứu đăng trên The Lancet Diabetes.
Nghiên cứu được công bố trên tạp chí "The Lancet Diabetes & Endocrinology" năm 2019 cho thấy mỗi tăng 5 đơn vị trong chỉ số BMI làm tăng nguy cơ mắc bệnh tiểu đường lên gần 60% Tăng cân gây cản trở chuyển hóa glucose và giảm độ nhạy cảm với insulin, trong khi mỡ tự do từ mỡ béo có thể gây viêm nhiễm và tổn thương tế bào, làm tăng nguy cơ kháng insulin Do đó, duy trì chỉ số BMI ở mức lý tưởng thông qua lối sống lành mạnh, bao gồm chế độ ăn uống cân đối và vận động thường xuyên, rất quan trọng trong việc phòng ngừa và quản lý bệnh tiểu đường.
Mức độ HbA1c (hemoglobin A1c) là chỉ số quan trọng để đo lường đường huyết lâu dài trong máu HbA1c hình thành khi glucose kết hợp với hemoglobin trong tế bào máu đỏ, và tỷ lệ HbA1c so với tổng lượng hemoglobin trong máu phản ánh mức độ kiểm soát đường huyết của cơ thể.
Mức độ HbA1c được xác định thông qua xét nghiệm máu đặc biệt tại phòng khám hoặc bệnh viện, quy trình này đo lường tỷ lệ HbA1c so với tổng lượng hemoglobin trong máu.
Mức độ HbA1c, được đo bằng phần trăm (%), là chỉ số quan trọng để đánh giá kiểm soát đường huyết trong thời gian dài, phản ánh mức độ đường huyết trung bình trong 2-3 tháng trước đó Mức HbA1c cao thường chỉ ra việc kiểm soát bệnh tiểu đường kém, làm tăng nguy cơ biến chứng Đối với người bệnh tiểu đường, duy trì mức HbA1c ổn định là thiết yếu trong quản lý bệnh Các mục tiêu HbA1c nên được thiết lập theo hướng dẫn của chuyên gia y tế, dựa trên tình trạng sức khỏe và mục tiêu điều trị cá nhân.
KẾT QUẢ THỰC HIỆN
Mô tả dữ liệu
Để đạt được độ chính xác cao trong việc dự đoán nguy cơ mắc bệnh tiểu đường, nhóm nghiên cứu đã áp dụng phương pháp khai thác dữ liệu và thu thập thông tin từ nền tảng Kaggle, nơi cung cấp tài nguyên và công cụ cho các vấn đề thực tiễn Sau khi lựa chọn nguồn dữ liệu uy tín, nhóm đã tập trung vào các chỉ số quan trọng nhằm đưa ra dự đoán chính xác nhất về nguy cơ mắc bệnh tiểu đường của bệnh nhân.
Dữ liệu trong cột "Diabetes" là mục tiêu chính của nghiên cứu, xác định tình trạng mắc tiểu đường của bệnh nhân Nhóm tác giả đã trích dẫn tổng cộng 54.702 dữ liệu, trong đó 38.292 dữ liệu (chiếm 70%) được sử dụng để huấn luyện mô hình, và 16.410 dữ liệu (chiếm 30%) được dùng để kiểm tra hiệu quả của mô hình.
Phân phối các biến trong bộ dữ liệu
Bảng 4.2: Phân bố các biến
STT Tên biến Mô tả biến Loại thuộc tính biến Phân phối
1 gender Giới tính của bệnh nhân categorical
2 age Tuổi bệnh nhân numeric
Bệnh lý cao huyết áp của bệnh nhân categorical
Tình trạng bệnh tim của bệnh nhân categorical
Tiền sử hút thuốc của bệnh nhân categorical
Chỉ số khối cơ thể (BMI) của bệnh nhân numeric
Mức đường huyết trong vòng 2- 3 tháng của bệnh nhân (không bị ảnh hưởng bởi những thay đổi ngắn hạn trong mức đường numeric huyết)
Chỉ số đường huyết của bệnh nhân (biến động nhiều trong ngày do ăn uống, hoạt động thể chất và các yếu tố khác) numeric
Bệnh tiểu đường của bệnh nhân là biến mục tiêu được dự đoán categorical
Chọn biến mục tiêu
Mục tiêu của việc phân lớp nhị phân trong dự đoán tình trạng bệnh tiểu đường là hỗ trợ y tế và nhân khẩu học Nếu bệnh nhân không mắc bệnh tiểu đường, giá trị sẽ được gán là “Not Diseased”, trong khi nếu bệnh nhân được chẩn đoán mắc bệnh, giá trị sẽ là “Diseased”.
Chọn biến phân tích
Nhóm đã sử dụng widget Correlations để xác định mối tương quan giữa các cặp biến trong bộ dữ liệu Do các biến không có mối tương quan cao, điều này không ảnh hưởng đến độ chính xác của mô hình, vì vậy nhóm quyết định giữ lại tất cả các biến để tiến hành phân tích.
Hình 4.1: Tính tương quan giữa các biến
Tiền xử lý dữ liệu
Hình 4.2 Mô hình tiền xử lý dữ liệu Bước 1: Sử dụng Edit Domain widget để chỉnh sửa giá trị của thuộc tính Diabetes, giá trị
“0” tương ứng với “Not diseased” và giá trị “1” tương ứng với “Diseased”
Cửa sổ làm việc của Edit Domain cho phép chỉnh sửa giá trị thuộc tính Diabetes Bước 2 là kiểm tra bộ dữ liệu thông qua Data Table, và xác nhận rằng bộ dữ liệu đã đầy đủ mà không có dữ liệu bị thiếu.
Hình 4.4 Bảng dữ liệu của bộ dữ liệu
Bước 3: Nhóm sử dụng widget Outliers để loại bỏ dữ liệu nhiễu, nhằm nâng cao độ chính xác của mô hình Các tham số đã được điều chỉnh tương ứng.
Hình 4.5 Cửa sổ làm việc của Outliers để loại bỏ các dữ liệu gây nhiễu
Bước 4: Chọn ngẫu nhiên bộ dữ liệu Với kích thước lớn của bộ dữ liệu đã được tiền xử lý (91.2k mẫu), nhóm quyết định sử dụng Data Sampler widget để chọn ngẫu nhiên 60% số lượng mẫu, tương đương 54.702 mẫu, nhằm tạo ra bộ dữ liệu phục vụ cho phân tích và xây dựng mô hình phân lớp.
Hình 4.6: Data Sampler được dùng để chia mẫu dữ liệu
Sau khi hoàn tất quá trình tiền xử lý dữ liệu, nhóm sẽ lưu lại bộ dữ liệu chính bằng widget Save Data Điều này cho thấy bộ dữ liệu đã được làm sạch và sẵn sàng cho việc phân tích.
Hình 4.7: Bảng dữ liệu của bộ dữ liệu sau khi tiền xử lý
Kết quả thực nghiệm
4.6.1 Phân chia tập dữ liệu
Sau khi hoàn tất quá trình tiền xử lý dữ liệu, chúng tôi sử dụng công cụ Data Sampler widget để phân chia bộ dữ liệu chính thành hai phần: 70% cho tập dữ liệu huấn luyện và 30% cho tập dữ liệu thử nghiệm, sau đó lưu trữ dữ liệu đã tách ra.
Hình 4.8: Thực hiện chia dữ liệu thành hai tập
Bước 1: Nối file “Train” với Test and Score để tiến hành thực hiện mô hình phân lớp (gồm
This article explores four key machine learning models: Logistic Regression, Decision Tree, Support Vector Machine (SVM), and Neural Networks It connects the Test and Score metrics with the Confusion Matrix and incorporates ROC Analysis to visually evaluate performance metrics and predictions related to the target variable across these models.
Hình 4.9: Các bước phân lớp và đánh giá dữ liệu
Bước 2: Liên kết phương pháp tốt nhất với file “Train” và nối file này vào công cụ prediction
Nghiên cứu này áp dụng phương pháp Cross validation K-fold với k = 5 để đánh giá mô hình Phương pháp này cho phép mô hình được huấn luyện và dự báo trên nhiều phần dữ liệu khác nhau, giúp tăng độ chính xác nhờ vào việc không trùng lặp dữ liệu trong quá trình huấn luyện.
Hình 4.11: Kết quả ma trận nhầm lẫn của phương pháp Neural Network
Có thể nhận thấy, xác suất dự đoán sai ở phương pháp này là 3.3% dự đoán sai “Diseased” thành “Not diseased” và 14,8% dự đoán sai “Not diseased” thành “Diseased”
Hình 4.12: Kết quả ma trận nhầm lẫn của phương pháp SVM
Có thể nhận thấy, xác suất dự đoán sai ở phương pháp này là 4.5 % dự đoán sai “Diseased” thành “Not diseased” và 84.3 % dự đoán sai “Not diseased” thành “Diseased”
Hình 4.13: Kết quả ma trận nhầm lẫn của phương pháp Tree
Xác suất dự đoán sai của phương pháp này là 4.1%, trong đó có 4.1% trường hợp “Diseased” được dự đoán thành “Not diseased”, và không có trường hợp nào dự đoán mắc bệnh ở những người không mắc bệnh.
Hình 4.14: Kết quả ma trận nhầm lẫn của phương pháp Neural Network
Có thể nhận thấy, xác suất dự đoán sai ở phương pháp này là 2.6 % dự đoán sai “Diseased” thành “Not diseased” và 7.7 % dự đoán sai “Not diseased” thành “Diseased”
Phân tích dựa trên ma trận nhầm lẫn
Based on the results from the confusion matrix, it is evident that the SVM model, Tree model, and Logistic Regression (LR) model exhibit higher False Positive (FP) and False Negative (FN) rates compared to the Neural Network (NN) model.
So sánh kết quả False Negative của LR, SVM, Tree, NN có thể thấy rằng:
Chỉ số FN trong y khoa rất quan trọng vì nó phản ánh số lượng dự đoán sai lệch, ví dụ như khi mô hình dự đoán sai rằng một người không bị đái tháo đường trong khi thực tế họ lại mắc bệnh Sự sai lệch này có thể dẫn đến sự chủ quan của bác sĩ và bệnh nhân, làm mất cơ hội điều trị kịp thời để ngăn ngừa bệnh phát triển Do đó, mô hình có chỉ số FN thấp nhất sẽ là mô hình dự báo tốt nhất Qua các so sánh và phân tích, mô hình NN được xác định là có chỉ số đánh giá tốt nhất và tỷ lệ dự đoán sai sót thấp nhất.
NN sẽ được chọn làm mô hình dự báo khả năng bị bệnh đái tháo đường của bệnh nhân
Hình 4.15: Đồ thị ROC của 4 phương pháp phân lớp với target là Not diseased
Hình 4.16: Đồ thị ROC của 4 phương pháp phân lớp với target là Diseased
Phân tích và đánh giá
Kết quả từ việc chia mẫu dữ liệu qua widget Test and Score ở mục 4.5.2 cho thấy các mô hình đều đạt điểm cao với sự chênh lệch nhỏ trong các chỉ số AUC, CA, Precision và Recall.
Chỉ số AUC (Diện tích dưới đường cong) là một tiêu chí quan trọng trong đánh giá mô hình phân lớp, với giá trị AUC càng gần 1 thì mô hình càng hiệu quả Theo bảng kết quả, mô hình Neural Network đạt chỉ số AUC cao nhất là 96.8%, trong khi các mô hình Tree, LR và SVM lần lượt có chỉ số AUC là 71%, 95.7% và 56.7%.
Theo lý thuyết đánh giá mô hình phân lớp, chỉ số CA càng cao thì mô hình càng tốt và cho kết quả chính xác Trong bảng kết quả, mô hình Neural Network đạt chỉ số CA cao nhất là 96.9%, trong khi các mô hình khác như Tree, LR và SVM có chỉ số AUC lần lượt là 95.9%, 96.1% và 65.2%.
Chỉ số Precision là thước đo độ chính xác của mô hình, với giá trị cao hơn cho thấy mô hình hoạt động tốt hơn Theo bảng kết quả, mô hình Neural Network đạt chỉ số Precision cao nhất là 96.7%, vượt trội hơn so với các mô hình khác như Tree.
LR và SVM có chỉ số Precision lần lượt là 96.1%, 95.8%, 87.9%
Chỉ số Recall là một yếu tố quan trọng để đánh giá độ nhạy của mô hình, với giá trị càng gần 1 thì mô hình càng được coi là tốt Theo bảng kết quả, mô hình Neural Network đạt chỉ số Recall cao nhất là 96.9%, trong khi các mô hình Tree, LR và SVM lần lượt có chỉ số Recall là 95.9%, 96.1% và 65.2%.
Sau khi quan sát, nhóm có kết luận:
- Diện tích dưới đường cong (AUC), cao nhất là phương pháp Neural Network 0,968
- Tính chính xác (CA), cao nhất là phương pháp Neural Network 0,969
- Giá trị trung bình điều hòa (F1-score), cao nhất là phương pháp Neural Network 0,966
- Độ chính xác (Precision), cao nhất là phương pháp Neural Network 0,967
- Độ phủ (Recall), cao nhất là phương pháp Neural Network 0,969
Sau khi phân tích chi tiết tập dữ liệu huấn luyện, các kỹ thuật đã chọn cho thấy hiệu quả tốt trong phân loại tình trạng bệnh tiểu đường Nhóm nghiên cứu khuyến nghị ưu tiên sử dụng kỹ thuật Neural Network dựa trên các kết quả đánh giá đã thực hiện.
4.9.2 Đánh giá ma trận nhầm lẫn, ROC và chọn mô hình
The confusion matrix results for four models—Logistic Regression, Decision Tree, SVM, and Neural Network—reveal that the Neural Network model exhibits the most balanced error rates Specifically, it has a False Positive Rate of 7.7% and a False Negative Rate of 2.6%, indicating a more even distribution of Type I and Type II errors compared to the other models.
Mô hình Neural Network có đường cong ROC gần nhất với đường y = 1 trong cả hai biểu đồ, cho thấy hiệu suất cao nhất trong việc cân bằng giữa tỷ lệ TPR và tỷ lệ FPR.
Kết luận: Dựa trên các chỉ số đã phân tích, nhóm nghiên cứu xác định mô hình phân lớp Neural Network là phương pháp tối ưu nhất cho bài toán dự đoán, nhờ vào những ưu điểm vượt trội mà nó mang lại.
Giảm thiểu tỷ lệ False Negative trong mô hình Neural Network là rất quan trọng, với tỷ lệ chỉ 2.6% Trong lĩnh vực y khoa, việc này giúp đảm bảo rằng những bệnh nhân mắc bệnh không bị bỏ sót, từ đó họ có thể nhận được chẩn đoán và điều trị kịp thời.
Mô hình Neural Network đạt hiệu suất cao với diện tích dưới đường cong ROC (AUC) lớn nhất, cho thấy khả năng phân biệt giữa các lớp tốt nhất Điều này không chỉ giúp phát hiện nhiều bệnh nhân mắc bệnh mà còn giảm thiểu tối đa số lượng cảnh báo giả (False Positives).
Dựa trên phân tích ma trận nhầm lẫn và biểu đồ ROC, mô hình Neural Network được xác định là lựa chọn tối ưu cho việc dự đoán bệnh tiểu đường.
Kết quả dự báo
Hình 4.17: Tổng quan về quy trình huấn luyện và dự báo bằng sơ đồ
Nhóm đã xây dựng mô hình dự báo dựa trên 16,411 quan sát ngẫu nhiên từ tập dữ liệu gốc, chiếm 30% tổng số dữ liệu, thông qua widget Data Sampler Sử dụng mô hình Neural Network đã được huấn luyện trước, nhóm đã thu được kết quả tại widget Predictions.
Hình 4.18: Kết quả dự báo của mô hình Neural Network
Các chỉ số của mô hình dự báo trên tập dữ liệu thử nghiệm của phương pháp Neural Network là:
Bảng 4.10: Kết quả dự báo của phương pháp Neural Network
AUC (Area Under the Curve) 0.970
Dựa vào hình minh họa kết quả dự báo của 20 khách hàng đầu tiên, ta có thể rút ra kết luận rằng:
- Những bệnh nhân nào có chỉ số thuộc phân lớp Neural Network “Diseased” từ 0.08 trở xuống sẽ được phân loại là “bị bệnh tiểu đường (Diseased)”
- Ngược lại, chỉ số Neural Network thuộc phân lớp “Not diseased” từ 0.08 trở lên sẽ được phân loại là “không bị bệnh tiểu đường (Not Diseased)”
Thuật toán Neural Network sẽ phân loại các bệnh nhân dựa trên các chỉ số đã xác định Để đánh giá độ chính xác của mô hình trên dữ liệu thử nghiệm, nhóm nghiên cứu đã so sánh kết quả dự đoán thông qua ma trận nhầm lẫn (Confusion Matrix) và xem xét các chỉ số liên quan.
Hình 4.19: Kết quả dự báo theo dự kiến của phương pháp Neural Network
Hình 4.20: Kết quả dự báo theo dự kiến của phương pháp Neural Network (%)
- 15198 người được dự đoán không bị tiểu đường và thực tế không bị tiểu đường
- 51 người được dự đoán có bị tiểu đường và thực tế là không bị tiểu đường
- 426 người được dự đoán không bị tiểu đường và thực tế là có bị tiểu đường
- 735 người được dự đoán là bị tiểu đường và thực tế là bị tiểu đường
Qua đó, số lượng người không bị tiểu đường cao hơn đối với số lượng người tiểu đường
Và số phần trăm dự đoán chính xác cao cho thấy hiệu quả của phương pháp Neural Network
Mô hình Neural Network giúp bác sĩ đưa ra phương án điều trị phù hợp cho từng bệnh nhân, nhờ vào khả năng dự đoán chính xác Điều này cho phép bác sĩ thiết lập phác đồ điều trị kịp thời, ngăn chặn bệnh từ giai đoạn khởi phát và giảm thiểu tình trạng kết quả dự báo sai, giúp bệnh nhân không chủ quan về tình trạng sức khỏe của mình.
Kết luận từ kết quả thực hiện trên phần mềm Orange cho thấy việc áp dụng Neural Network trong phân lớp mắc bệnh tiểu đường mang lại khả năng dự báo chính xác và đáng tin cậy Qua các chỉ số đánh giá như Test and Score và ma trận nhầm lẫn, mô hình chứng minh được độ ổn định và tính đáng tin cậy Phương pháp Neural Network không chỉ giúp dự đoán nguy cơ mắc bệnh tiểu đường mà còn hỗ trợ trong việc thiết kế chính sách và tối ưu hóa các phương pháp điều trị phù hợp cho người bệnh.