Luận văn thạc sĩ Công nghệ thông tin: Ứng dụng phân tích dữ liệu lâm sàng để phân tầng nguy cơ tim mạch trên bệnh nhân đái tháo đường típ 2

Các phương pháp hiện nay được thao tác một cách thủ công, bác sĩ phải đọc từng dòng dữ liệu đã thu thập từ đó đưa ra kết quả phân tầng NCTM đối với NB đái tháo đường, việc này tốnnhiều t

Trang 1

ĐẠI HỌC QUOC GIA TP HCMTRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

—— => KE RC

NGUYÊN PHÚC HOÀNG

UNG DUNG PHAN TÍCH DU LIEU LAM SÀNG DE

PHAN TANG NGUY CO TIM MACH TREN BENH NHAN

DAI THÁO DUONG TIP 2

LUAN VAN THAC Si

NGANH CONG NGHE THONG TIN

Mã số: 8.48.02.01

TP HO CHÍ MINH - NĂM 2022

Trang 2

ĐẠI HỌC QUỐC GIA TP HCM

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

ScD HK oR

NGUYEN PHUC HOANG

UNG DUNG PHAN TICH DU LIEU LAM SANG DE

PHAN TANG NGUY CO TIM MACH TREN BENH NHAN

DAI THÁO DUONG TÍP 2

LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN

Mã số: 8.48.02.01

NGƯỜI HƯỚNG DẪN KHOA HỌC

TS DO TRỌNG HỢP

TP HÒ CHÍ MINH - NĂM 2022

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan dé tài “Ứng dụng phân tích dir liệu lâm sàng dé phân tầngnguy cơ tim mạch trên bệnh nhân đái tháo đường típ 2” là chính tôi nghiên cứudưới sự hướng dẫn của Thầy TS Đỗ Trọng Hợp

Không có sự sao chép của người khác và của công trình nghiên cứu khác.

Những báo cáo và tài liệu dùng cho việc tham khảo trong luận văn đều được chophép và có ghi ra nguồn rõ ràng, minh bạch Đề tài là bài thực nghiệm nghiên cứucủa bản thân, phần mềm, nguồn data và tất cả các kết quả trình bày trong luận văn

là trung thực.

Tôi xin chịu trách nhiệm với những sai phạm trong đề tài của mình

Người cam đoan

Nguyễn Phúc Hoàng

Trang 4

LỜI CẢM ƠN

Sau thời gian nghiên cứu, tôi đã hoàn thành luận văn “Ứng dụng phân tích

dé liệu lâm sàng dé phân tầng nguy co tim mạch trên bệnh nhân đái tháo đường tip2” Để hoàn thành và đạt được các kết quả trong luận văn nay, tôi xin chân thành gửi

cảm ơn đến:

- TS Đỗ Trọng Hop Thay đã hướng dẫn và chỉnh sửa hợp lý và kịp thời để hướngcho tôi có một luận văn hoàn chỉnh Những quan tâm, chi bảo của Thay giúp cho tôi tựtin hơn và tạo động lực hơn để giúp tôi làm đề tài tốt hơn, có trách nhiệm với bản thân

hơn.

- TS Bác sĩ chuyên khoa Nội tiết Trần Quang Nam — Trưởng khoa nội tiết cùngBác sĩ CKI nội tiết Lê Hoàng Bảo, BS CKI Trần Văn Lượng đang làm việc tại BVDHYD HCM đã hướng dẫn, giải thích các chi số về y khoa, cung cấp các tài liệu vàđặt ra các câu hỏi về bệnh DTD cùng với tài liệu lý thuyết PT NCTM với NB DTD tip

2

- Trưởng phòng cùng đồng nghiệp phòng Công nghệ thông tin của BV DHYDHCM đã cho phép sử dụng bộ dữ liệu để tôi được sử dụng thực nghiệm trên bộ dữ liệu

này.

Tôi xin cảm ơn các tình cảm của toàn thé các Thay, Cô phòng dao tạo Sau

đại học trường Dai học Công nghệ thông tin đã tận tâm, tận tình truyền đạt, giảng

dạy những kiến thức vô cùng giá trị trong suốt thời gian học Đây là nền tảng quý

báu làm hành trang cho tôi tự tin hơn trong khi tiếp cận và thực hiện đề tài này

Cuối cùng, Tôi xin cảm ơn đến gia đình, cơ quan và những đồng đội khóa caohọc CNTT CHI2 và CHI3, những người đã cùng đồng hành, giúp đỡ tôi trongthời gian theo học tại trường và truyền đạt các kinh nghiệm thực hiện bài luận văn

Trang 5

LOI CAM DOAN

6 Y nghĩa khoa học và ý nghĩa thực ti

7 Cấu trúc của dé tài như sau

CHƯƠNG 1 TONG QUAN

1.1 Khái niệm và mối liên quan bệnh đái tháo đường với tim mach

1.1.1 Khái niệm về bệnh đái tháo đường

1.1.2 Sự hệ giữa các bệnh lý tim mạch và DTD

1.2 Thực trạng và các nghiên cứu liên quan

1.2.1 Tổng quan về BV ĐHYD HCM

1.2.2 Tình hình điều trị đái tháo đường và biến chứng tim mạch tại BV BHYD HCM 12

1.2.3 Hiện trạng phân tích dữ liệu đối với NB đái tháo đường và biến chứng tim mạch tại

BV ĐHYD HCM và các CSYT khác 13 1.2.4 Các nghiên cứu liên quan 13

CHƯƠNG 2 CÁCH TIEP CAN VÀ PHƯƠNG PHAP NGHIÊN CỨU

2.1 Cách tiếp cận

2.2 Phương pháp nghiên cứu

CHƯƠNG 3 CƠ SỞ LÝ THUYÉT

3.1 Phân tích mô hình hồi quy tuyến tinh đơn giản

3.2 Phân tích hệ số tương quan Pearson

3.3 Thuật toán Perceptron Learning Algorithm.

Trang 6

3.4.1 Định nghĩa

3.4.2 Cách hoạt động của Support Vector Machine

3.4.3.

3.4.4.

3.5 Thuật toán Random Forest:

3.5.1 Giới thiệu thuật toán

3.5.2 Cách hoạt động của Random Forest

3.5.3 Đánh giá thuật toán Random forest

CHƯƠNG 4 KHÁM PHÁ DỮ LIỆU - PHÂN TÍCH DỮ LIỆU

4.1 Giới thiệu tập Data

4.2 Chuẩn bị dữ liệu và chuyền

4.3 Dữ liệu minh họa

4.4 Phân tích dữ li

4.4.1 Phân tích những tương quan của biên độc

biến phân loạ

4.4.2 Phân tích liên hệ

KetQuaPhanTangTimMach

4.5 Xây dựng mô hình dự báo phân ting NCTM

4.5.1 Mô hình Perceptron Learning Algorithm (PLA)

4.5.2 Mô hình dit báo Support Vector Machine.

4.5.3 MHDB Random Forest

CHƯƠNG 5 ĐÁNH GIÁ KET QUA PHAN TÍCH VA DỰ BAO VE PHAN TANG

NGUY CO TIM MACH 105

5.1 Đánh giá kết qua phan tích

5.2 Đánh giá mô hình dự báo phân ting NCTM:

CHƯƠNG 6 KET LUẬN VÀ HƯỚNG PHÁT TRIÊN

Trang 7

DANH SÁCH CÁC KÝ HIỆU VÀ CHỮ VIET TAT

Từ viết tắt Tiếng Anh Tiếng Việt

CNTT Công nghệ thông tin

BV ĐHYD Bệnh viện Đại học Y Dược Thành phố

DTD Dai thao duong

NCTM Nguy co tim mach

NCTB Nguy co trung binh

SVM Support Vector Machine | Thuật toán máy véc tơ hỗ trợ

RD Random Forest Thuật toán rừng cây ngẫu nhiên

Neural Networks Mạng dây thần kinh

Deep Learning Phương pháp học sâu

Data Dữ liệuRandom Ngẫu nhiên

LS Lâm sàng

ML Machine Learning Hoc may

Trang 8

DANH MỤC BẢNG

Bang 4-1: Thống kê biến giới tính NB

Bang 4-2: Thống kê mô chỉ tiết giới tính trong các nhóm nguy cơ

Bảng 4-3: Bảng chỉ tiết số liệu NB tăng huyết áp

Bang 4-4: Tổng hợp các kết quả và phân tích biết ¡ loạn Lipid

Bảng 4-5: Số liệu liệt kê kết quả NCTM so với bệnh võng mạc.

Bảng 4-6: Các kết quả khám thận so với nhóm NCTM

Bảng 4-7: Tỉ lệ của biến kết quả viêm đa dây thần kinh

Bảng 4-8: Số liệu kết quả rối loạn cương

Bang 4-9: Ti lệ của kết quả khám loét chân

Bang 4-10: Ti lệ kết quả NB khám nhồi máu cơ tim

Bảng 4-11: Bảng mô tả tỉ lệ kết quả khám đột quy

Bảng 4-12: Bảng tỉ lệ NB có tiền sử hút thuốc lá

Bảng 4-13: Tỉ lệ người bệnh có tiền sử RB

Bảng 4-14: Tỉ lệ của kết quả khám điều trị ăn đơn thuần

Bảng 4-15: Bảng mô tả tỉ lệ NB đang dùng thuốc Insulin

Bảng 4-16:

Bang 4-17: Thống kê phân tích số

iét kê số lượng NB có điều trị thuốc huyết áp

u NB sử dụng thuốc Statin

Bang 4-18: Phân tích và thống kê tỉ lệ NB điều trị chống kết tậ 82

Bang 4-19: Thống kê số lượng và phân tích khám LS chân phải

Bang 4-20: Liệt kê tỉ lệ kết quả khám mắt

Bảng 4-21: Thống kê số lượng va phân tích tỉ lệ tiền sử DTD gia đình

Bảng 4-22:

Bảng 4-23:

Bang 5-1: Thống kê kết quả thực nghiệm MHDB.

lệt kê tỉ lệ kết quả khám mach máu chân

‘éng hợp điểm số hệ số tương quan giữa các biến đầu vào với kết quả

Trang 9

DANH MỤC HÌNH

Hình 2.1: Các bước đề xuất thực hiện nghiên cứu

Hình 3.1: Biểu diễn bài toán phân chia hai lớp

Hình 3.2: Ví dụ bài toán phân chia hai lớp của SVM

Hình 3.3: Mô tả hoạt động của SVM

Hình 3.4: Xác định khoảng cách giữa cách đường siêu phăng

Hình 3.5: Chọn siêu mặt phăng chia lớp riêng biệt

Hình 3.6: Diễn đạt Random Forest:

Hình 4.1: Hién th

Hình 4.2: Số liệu

liệu giới tính

iến số tuổi NB

Hình 4.3: Biểu đồ mô tả dữ liệu số năm DTD của NB.

Hình 4.4: Trực quan số lượng các kết qua phân loại nguy cơ tim mạch Hình 4.5: Tổng hợp sự tương quan giữa những biến với kendall

Hình 4.6: Một số hình ảnh về bộ data thô ban đầu

Hình 4.7: Thao tác làm sạch dữ liệu bằng ứng dụng Excel

Hình 4.8: Hình ảnh dữ liệu trước khi chuyền đ

Hình 4.9: Các hình ảnh dữ liệu sau khi chuyển đồi nhị phân

Hình 4.10: Hình ảnh hiền thị mô tả dữ liệu trên Excel

Hình 4.11: Thông tin tập data trên đọc trên Python

Hình 4.12: Hình ảnh hiền thị mô tả tập data trên R

Hình 4.13: Tổng quan kết quả mồi tương quan giữa các cột data

Hình 4.14: Độ tuổi so với kết quả phân loại NCTM

Hình 4.15: Thời gian bị ĐTĐ liên quan với kết quả phân tang NCTM

Hình 4.16: Dữ liệu của đường huyết đói

Hình 4.17: Mức ảnh hưởng HbAIC đến kết quả PT NCTM

Hình 4.18: Creatinin và kết quả PT NCTM.

Hình 4.19: Phân tích ảnh hưởng eGFR đến kết quả NCTM

Hình 4.20: Sự ảnh hưởng biến AcNieu đến kết quả NCTM

Hình 4.21: Mức độ ảnh hưởng giới tính đến kết quả xếp loại NCTM

Hình 4.22: Ảnh hưởng biến tăng huyết áp đến kết quả đánh giá NCTM Hình 4.23: Ảnh hưởng của kết quả rồi loạn Lipid đến kết quả

Hình 4.24: Ảnh hưởng của kết quả BVM đến kết quả PT NCTM

Hình 4.25: Ảnh hưởng của kết quả khám thận đến kết quả PT NCTM

Trang 10

Hình 4.26:

Hình 4.27

Hình 4.28

: Ảnh hưởng của kết quả rồi loạn cương đến kết quả PT NCTM

: Ảnh hưởng của kết quả liệt dạ dày đến kết quả PT NCTM

Hình 6.1: Đề xuất mô hình triển khai tại BV ĐHYD HCM

Sự ảnh hưởng kết quả viêm da dây thần kinh đến kết qua

Ảnh hưởng của kết quả khám loét chân đến kết quả PT NCTM

Ảnh hưởng của kết quả nhồi máu cơ tim đến kết quả PT NCTM

Ảnh hưởng của kết quả khám đột quy đến kết quả PT NCTM

Ảnh hưởng của tiền sử NB HTL đến kết qua.

Ảnh hưởng của tiền sử RB của NB đến kết quả.

Ảnh hưởng của kết quả khám điều trị ăn đơn thuần đến kết qua

Ảnh hưởng của NB đang dùng thuốc Insulin đến kết quả.

Ảnh hưởng của NB đang điều trị thuốc huyết áp đến kết quả.

Ảnh hưởng của NB đang điều trị thuốc Statin đến kết quả

Ảnh hưởng của NB có kèm điều trị thuốc Fibrate

Đồ thị và tương quan của NB điều trị chống kết tập đến NCTM

Ảnh hưởng của kết quả khám LS chân trái

Ảnh hưởng của kết quả khám LS mắt phải đến kết quả

Ảnh hưởng của kết quả khám LS mắt trái

Ảnh hưởng của tiền sử DTD gia đình đến kết quả

Ảnh hưởng của kết quả khám LS mạch máu chân phải

Ảnh hưởng của kết quả khám LS mạch mau chân trái

Code thao tác chuẩn bị dữ liệu trên python

Code thao tác chuyên đổi dữ liệu trên python

Chia tập dữ liệu thành bộ train và test Hình ảnh xây dựng MHDB Perceptron Learning Algorithm

Hình ảnh xây dựng MHDB Support Vector Machine 99

Hình ảnh xây dựng MHDB Random Forest 100

Hình ảnh mô phỏng so sánh mô hình SVM va PLA .I01 Hình ảnh mô phỏng so sánh mô hình Random Forest và PLA 101

Hình xử lý trích chọn đặt trưng và chạy lại ba mô hình

So sánh mô hình Random Forest với PLA, SVM sau trích chọn đặc trưng 104

Đánh giá tông thé ba mô hình

Trang 11

MỞ DAU

ï thiệu

Đái tháo đường là một dạng của bệnh rối loạn chuyển hóa cacbohydrat,

mỡ và protein khi tụy bị thiếu hoóc môn insulin, hoặc các tác động của cơ thể bị giảm,

thấy rõ nhất là mức đường luôn luôn cao trong máu; khi mới phát bệnh thì nó thường

biểu hiện của người bệnh (NB) là đi tiểu nhiều vào ban đêm và vì vậy những ngườinày thường khát nước Bệnh DTD là một trong những lý do chính phát sinh ra nhiềubệnh hiểm nghèo, vi dụng như bệnh tim, bệnh mạch vành, bị tai biến, mù mắt, suy

thận.

Ti lệ mắc bệnh đái tháo đường trên toàn thế giới tiếp tục gia tăng và được dựđoán rằng trên 600 triệu người sẽ tiến triển mắc đái tháo đường típ 2 trên toàn thế giớivào năm 2045, và một con số tương tự tiền đái tháo đường đang phát triển Ở nước tacũng được xếp trong nhóm quốc gia có tỉ lệ NB đái tháo đường tăng nhanh nhất trênthế giới Những con số này đặt ra những vấn đề báo động cho các nền kinh tế đangphát triển, trong đó những người tham gia trực tiếp vào việc tăng trưởng kinh tế là

những người có thé dé trở thành đái tháo đường tip 2 và chết sớm vì bệnh lý [8]

Biến chứng về tìm mạch ở các bệnh nhân đái tháo đường là một trong nhữngbiến chứng phổ biến nhất và là một trong những căn nguyên gây tử vong ở các bệnhnhân đái tháo đường Vì vậy việc theo dõi điều trị, phân tang NCTM là một phần vô

cùng quan trọng trong việc điều trị bệnh nhân đái tháo đường hiện nay trong y học

2 Lý do lựa chọn đề tài

Phân tầng NCTM có ý nghĩa vô cùng quan trọng trong việc điều trị NB đái tháođường, đặc biệt là việc ngăn ngừa các biến chứng gây tử vong như tim mạch, đột quy.Hiện nay khi NB bị đái tháo đường vào viện khám thì ngoài việc điều trị đái tháo

đường, bác sĩ phải đánh giá những biến chứng và bệnh hiểm nghèo khác do đái tháo

đường gây ra, nguy cơ tim mach là một trong những công việc mà bác sĩ đồng thời

thực hiện đánh giá

Phương pháp thực hiện dé phân tang NCTM cho NB DTD tip 2 hiện nay là bác

sĩ ghi nhớ tất cả những chỉ số khám LS thuộc NB đó như: Tuổi, chỉ số huyết áp, rỗiloạn mỡ máu, khám thận, bệnh về thần kinh, loét chân, bệnh nhồi máu cơ tim, thuốc

Trang 12

lá, rượu bia từ 48-50 chỉ số dé phân tang NCTM cho NB đái tháo đường tip 2, từ

đó bác sĩ có liệu pháp điều trị thích hợp đối với NB đái tháo đường Các phương pháp

hiện nay được thao tác một cách thủ công, bác sĩ phải đọc từng dòng dữ liệu đã thu

thập từ đó đưa ra kết quả phân tầng NCTM đối với NB đái tháo đường, việc này tốnnhiều thời gian và dễ bị sai sót trong quá trình thực hiện

Xuất phát từ thực trạng hiện tại của BV, trong đó khoa khám bệnh quá tải trong

khâu khám và theo dõi chữa trị bệnh DTD và tim mạch Đề tài này ứng dụng phân tích

đữ liệu dựa vào bộ Data thu thập trong khi thăm khám NB khám bệnh tại BV ĐHYD

TPHCM để phân tích các nguy cơ có thé anh hưởng đến kết quả PT NCTM, đồng thờixây dựng mô hình dự báo (MHDB) phân loại nguy cơ tim mạch đối với NB đái tháo

đường típ 2.

Đề tài đóng góp công cụ hỗ trợ bác sĩ công cụ thực hiện nhanh chóng, đóng góp

xây dựng MHDB tầng NCTM đối với NB DTD tip 2 hỗ trợ bác sĩ đưa đưa ra hướng điều

trị một cách nhanh chóng.

3 Mục tiêu đề tài

Phân tích dữ liệu thực tế đối với người mắc bệnh ĐTĐ típ 2 và đưa ra MHDB kết

quả phân loại PT NCTM trên NB DTD tip 2

Mục tiêu cụ thể

- Phân tích sử dụng trên dữ liệu thực của bệnh án DTD tip 2 tại khoa khám bệnh thuộc.

BV ĐHYD HCM

- Phân tích dữ liệu đã thu thập được gồm các biến số - là các yếu tố có thé ảnh hưởng

đến kết quả phân loại NCTM đối với NB bị mắc bệnh DTD tip 2

- Dé xuất mô hình(model) sử dung dé phân tang (phân loại) NCTM thông qua các thuật

toán trong phương pháp toán học và phương pháp máy học

4 Phương pháp luận

- Phương pháp thu thập thông tin và số liệu: Thu thập số liệu của NB trong vòng 5 năm

từ năm 2017 đến năm 2022, gần 10 nghìn người dang mắc bệnh DTD đã từng đượcbác sĩ thăm khám qua tại chuyên khoa Nội tiết của BV ĐHYD HCM

- Phương pháp phân tích dữ liệu: Phân tích dữ liệu trên những biến số có được của từng

ca bệnh đã khám nhằm đánh giá mối tương quan giữa các yếu tố từ đó đưa ra các yếu

tố ảnh hưởng và các yếu tố không ảnh hưởng đến kết qua phân tang NCTM

Trang 13

- Phương pháp mô hình toán: Sử dụng một mô hình toán học để chạy thực nghiệm trênnền dữ liệu đã thu thập và đã phân tích đưa ra mô hình sử dụng phân loại phù hợp

- Phương pháp ghi nhận các ý kiến của các chuyên gia: Tham khảo và ghi nhậ các ý kiến

tư vấn, đóng góp của chuyên gia về lĩnh vực phân tích, của bác sĩ trong ngành; luận cứkhoa học các van đề vướng mắc, tìm nguyên nhân và các giải pháp khắc phục

5 Đối tượng nghiên cứu và phạm

Đối tượng nghiên cứu

Nghiên cứu trap trung vào thông tin tập dữ liệu gọi là “bệnh án DTD tip 2”

Phạm vi nghiên cứu:

Trong phạm vi bài nghiên cứu, học viên dé xuất mô hình chạy thực nghiệm gồm:

- Xem xét mức độ ảnh hưởng của các yếu tố đến việc kết quả phân tầng NCTM trên

những NB đái tháo đường típ 2 được thu thập được.

- Nghiên cứu MHDB kết quả phân tang NCTM trên tập dữ liệu bệnh án DTD tip 2

6 Ý nghĩa khoa học và ý nghĩa thực tiễn của đề tài

Hiện nay Bộ Thông tin Truyền thông và Bộ Y tế đang thực hiện nhiệm vụ đâymạnh công tác chuyền đổi số Đối với ngành y tế, Bộ Y tế đang day mạnh triển khai ứngdụng công nghệ thông tin trong ngành Quyết định s6 2656/QĐ-UBND ngày 26/07 năm

2021 của Ủy ban nhân dân thành phố Hồ Chí Minh về việc Phê duyệt Đề án “Y Tế thông

minh giai đoạn 2021 — 2025 và tầm nhìn 2030” Mục tiêu sẽ xây dựng một hệ thống côngnghệ thông tin có khả năng tích hợp kết nói, chia sẻ và liên thông được nhiều cơ sở y tế

(CSYT) với nhau.

Nội dung của đề tài đóng góp ý nghĩa khoa học khi phân tích các đặc trưng của

bài toán phân loại trong lĩnh vực y khoa và bộ dữ liệu tại BV DHYD TPHCM, các quy

trình được sử dụng phân tích và dự báo trên bộ dữ liệu này.

Đề tài của bài luận văn đóng góp ý nghĩa thực tiễn khi học viên áp dụng vào bộ

dữ liệu thực tế, có thé triển khai ứng dung tại đơn vị của học viên làm việc, trên dữ liệu

thật được thu thập, trình bày các kết quả đạt được mang ý nghĩa, và trả lời các câu hỏi đã

đặt ra dé từ đó đưa ra những dé xuất xây dựng ứng dụng được tốt hơn

Đề tài này góp phần xây dựng một ứng dụng đề các bác sĩ có thêm nhiều thông

tin, cơ sở giúp ích cho các bác sĩ và bộ phận CNTT của BV học viên đang công tác và

các CSYT khác phát triển thành một công cụ hoàn chỉnh để thực hiện một cách tự động

Trang 14

việc dự báo kết quả phân loại NCTM cho NB đái tháo đường, giúp rút ngắn thời giankhám và điều trị của bác sĩ

Qua đề tài này việc ứng dụng vào dữ liệu thực tế nhằm đưa ra MHDB phù hợp

đối với việc phân tầng NCTM cho NB đái tháo đường sẽ là tiền đề cho việc xây dựng cácbệnh án khác: Bệnh án chuyên khoa răng hàm mặt, bệnh án chuyên khoa thẩm mỹ, bệnh

án chuyên khoa sản, bệnh án phân loại khám sức khỏe

Đề tài cũng là bước đầu dé BV phát triển thêm nhiều lĩnh vực như: Hệ thống hỗtrợ ra quyết định, hệ thống dự báo kết quả chân đoán bắt thường đối với việc thực hiệnkhám cận LS đang mong muốn được xây dựng như: Xét nghiệm, đo điện tâm đồ, điện

cơ, điện não

7 Cau trúc của đề tài như sau

- Chương 1 Tổng Quan, bao gồm giới thiệu tổng quan về hướng nghiên cứu, phạm vinghiên cứu, phương pháp nghiên cứu

- Chương 2 Cách tiếp cận và phương pháp nghiên cứu liên quan: Trinh bày các phươngpháp nghiên cứu phỏ biến về phân tích dữ liệu, dự báo phân tang NCTM và cách lựa

chọn mô hình.

- Chương 3 Các cơ sở lý thuyết: Trình bày các cơ sở lý thuyết liên quan học viên ứng

dụng vào bài nghiên cứu, các cơ sở lý thuyết về phân tích dữ liệu và các mô hình họcmáy

- Chương 4 Khám phá dữ liệu - Phân tích dữ liệu: Giới thiệu dữ liệu trong lĩnh vực y

khoa cụ thể là bộ dữ liệu bệnh án Đái tháo đường được thu thập tại phòng khám nộitiết khoa khám bệnh thuộc BV ĐHYD TPHCM trong 5 năm, từ năm 2017 - đến năm

2022 Thực hiện thực nghiệm và đánh giá các MHDB trên bộ dữ liệu có được.

- Chương 5 - Đánh giá nhận xét các kết qua phân tích và các MHDB

- Chương 6 - Kết luận và hướng phát triển

10

Trang 15

CHƯƠNG 1 TONG QUAN

1.1 Khái niệm và mối liên quan bệnh đái tháo đường với tìm mạch

1.1.1 Khái niệm về bệnh đái tháo đường

Bệnh đái tháo đường là khi cơ thể chúng ta bị rối loạn sự chuyển hóa không đồng

nhất, có trạng thái trong máu bị tăng glucose vì chức năng điều tiết insulin không hoạt

động tốt, hiện nay DTD được nhận diện bao gồm các loại:

Dai tháo đường tip 1 (Type 1): NB thường bị thiếu insulin do tuyến tụy không sảnxuất insulin Dai tháo đường tip 1 hiếm gặp, bị di truyền, thường xảy ra ở trẻ nhỏ, ngườitrẻ và chiếm dưới 10% số người mắc bệnh

Đái tháo đường típ 2 (Type 2): những người bị đái tháo đường típ 2 bị đề khángvới insulin Nghĩa là cơ thé vẫn có thé sản xuất insulin nhưng nó không thé chuyền hóađược glucose Khoảng 90% - 95% người bị đái tháo đường trên thế giới là tip 2

Dai tháo đường ở phụ nữ mang thai (thai kỳ): thường được xách định và phát hiện

trong thời điểm 3 tháng cuối trong kỳ mang thai hoặc là khoảng giữa của 3 tháng giữa

kỳ mang thai và không thuộc diện ĐTĐ típ 1, trước đây không có các triệu chứng về

DTD tip | và tip 2

Những loại đái tháo đường khác gọi là chuyên biệt do nhiều lý do như đái tháođường ở trẻ mới sanh, nguyên nhân dùng thuốc điều trị bệnh khác hoặc những chất đượcnap vào co thé trong khi chữa bệnh, đái tháo đường do điều trị HIV/AIDS, đái tháo

đường sau cấy ghép mô

1.1.2 Sự hệ giữa các bệnh lý tim mạch và DTD

Dai tháo đường là một dang bệnh nội tiết chuyển hoá rat đặt biệt, nguyên do là có

sự lượng đường glucose trong máu tăng dưới dạng mạn tính Bệnh phát triên từ dạng

mạn tinh sau đó rồi loạn và làm cho nhiều cơ quan bị suy yếu, va trọng tâm trong phầnnghiên cứu này của học viên là liên quan đến các vấn đề về tìm mạch

Các bệnh liên quan đến tim mach là thường rất phô biến, nguy hiểm nhất đó là cóthé gây tỷ lệ tử vong cao đối với những NB DTD Vì vậy, việc nắm bắt và hiểu biết vềbệnh lý tim mạch, các dấu hiện LS của biến chứng tim mạch sẽ góp phần phòng ngừa,hạn chế sự tiến triển của bệnh tim mạch ở các bệnh nhân đái tháo đường là rất cần thiết

Trang 16

O NB DTD, cơ thể của họ có đường huyết rất cao dài dẫn đến tổn thương các

mạch máu, các dây thần kinh làm nhiệm vụ chỉ phối tới các mạch máu (cũng như quả

tim của của chúng ta) Dé thời gian mang bệnh DTD càng lâu thì nguy cơ bị các bệnhliên quan đến tim mạch càng cao NB bị đái tháo đường thường hay mắc các chứngbệnh tim mach ở tuổi trẻ hơn so với những người không bi DTD Nếu được giám sát,

theo dõi, điều trị kịp bệnh DTD thì có thể việc nguy cơ mắc các chứng bệnh tim mạch

sẽ giảm.

1.2 Thực trạng và các nghiên cứu liên quan

1.2.1 Tổng quan về BV ĐHYD HCM

BV ĐHYD HCM là một bệnh viện (BV) của trường Dai học Y Dược TPHCM

(ĐHYD) hoạt động theo mô hình Viện — Trường Là BV công lập và hạch toán độc lap

theo quyết định của Bộ Y tế

BV ĐHYD HCM làm nhiệm vụ khám, chữa bệnh; nghiên cứu khoa học; chanđoán, điều trị, chăm sóc sức khỏe người dân dựa vào các kỹ thuật cao; thực hiện đào tạo

các nguồn lực chuyên môn y học và chuyên giao các mô hình cho các đơn vị cùng ngành

Hiện nay với sự nỗ lực của đội ngũ y bác sĩ, BV ĐHYD HCM là BV hạng | với

thực hiện khám chữa bệnh ở ba cơ sở, 1.000 giường điều trị, 12 Phòng chức năng, 39

trung tâm và đơn vị Trung bình BV tiếp nhận khám điều trị ngoại trú 5000 lượt/ngày,

nhập cấp cứu gần 40 lượtngày, nhập điều trị nội trú 250 lượtngày BV Đại học Y DượcTPHCM là một trong những BV tốt ở khu vực Miền nam và cả nước

1.2.2 Tình hình điều trị đái tháo đường và biến chứng tim mạch tại BV DHYD

HCM

Phòng khám các bệnh liên quan đến nội tiết của BV nhận khám trung bình 300

lượt khám trong ngày, trong đó trung bình có 4.5 lượt khám mắc bệnh đái tháo đường

~ chiếm tỷ lệ 1.5%

BV thường bị quá tải, NB rất đông Đại đa số người dân đều tập trung khám bệnh

ở các BV lớn dẫn đến tình trạng này

Việc chữa bệnh đái tháo đường thường được các bác sĩ chỉ dẫn theo một lộ trình

và mắt nhiều thời gian, song song cũng có sự hợp tác nghiêm chỉnh của NB đồng thờitheo dõi giám sát các chỉ số xét nghiệm liên quan, vì vậy việc chữa tri DTD cần có thời

gian công sức các bác sĩ và sự kiên nhẫn của NB

12

Trang 17

1.2.3 Hiện trạng phân tích dữ liệu đối với NB đái tháo đường và biến chứng timmạch tại BV ĐHYD HCM và các CSYT khác

BV thúc day mạnh các chủ trương của nha nước như: Thực hiện dé án y tế thôngminh giai đoạn 2021 — 2025 của Bộ Y tế, số hóa hồ sơ bệnh án, ứng dụng bệnh án điện

tử và áp dụng ứng dụng trí tuệ nhân tạo vào việc giúp ích cho những nhà chuyên môn

trong quá trình chữa bệnh Đại đa số những BV, phòng khám lớn tương tự cũng như tại

BV áp dụng các sản phim CNTT đã được thương mai như ứng dung RAPID AI trongđiều trị đột quy cấp, ứng dụng AI DrAid tự động chỉ ra các điểm không bình thường và

bệnh lý trên hình chụp X-quang.

Đặc giống nhau của các thử nghiệm về lĩnh vực phân tích dữ liệu, học máy hay

AI là được thực hiện trên bộ dữ liệu chuẩn như DICOM Còn lại đại đa số các công

trình nghiên cứu hiện nay của BV và các CSYT khác được thực hiện với các cách như

lấy mẫu trực tiếp (Ví dụ thực hiện khảo sát trên 100 NB), phương pháp thống kê số liệu

thực hiện trực tiếp trên NB, có thê kể đến các công trình nghiên cứu như:

Tại bệnh viện ĐHYD HCM trước đây chú trọng trong việc quản trị BV, phát triển

các MHDB về số lượng lượt khám, doanh thu mỗi ngày hoặc về chất lượng dịch vụ.

Đồng thời tại BV và những cơ sở có cùng chức năng ở Việt Nam hiện nay việc xây

dựng hệ thống phần mềm còn rời rạc, nhiều mô đun phần mềm được phát triển phát

sinh theo nhu cầu sử dụng, việc nhập liệu và lưu trữ vào cơ sở đữ liệu không được chuẩnhóa nên khi cần khai thác dữ liệu sẽ vướng phải nhiều khâu như: Không đủ thông tin,trường thông tin dữ liệu lẫn lộn giữa các kiểu dữ liệu, hoặc cần phải thực hiện kết nối

nhiều cơ sở dữ liệu, kết nối nhiều bảng dữ liệu ở các hệ thống khác nhau Dé có một bộ

dữ liệu chuẩn dùng vào việc phân tích và nghiên cứu cần phải xây dựng từ đầu hoặc là

thực hiện thủ công trải qua nhiều công đoạn

Hiện nay các bác sĩ tại BV đã quen dan với việc ứng dụng CNTT, và nhận thấyviệc ứng dụng CNTT là rất quan trọng vào việc nghiên cứu khoa học dựa trên tập dữ

liệu được lưu trữ lại nên đã phối hợp cùng bộ phận CNTT để xây dựng một công cụ thu

thập bộ dữ liệu này nhằm ứng dụng vào công tác nghiên cứu khoa học về sau

1.2.4 Các nghiên cứu liên quan

Luận án tiến sĩ y học của Trần Thị Trúc Linh [4] Đại học Y Dược Huế năm 2016

“Nghiên cứu mối liên quan giữa biểu hiện tim với mục tiêu theo khuyến cáo ESC-EASD

Trang 18

ở bệnh nhân đái tháo đường týp 2 có tăng huyết áp”, việc nghiên cứu được thực hiệnqua việc theo dõi điều trị, ghi chép số liệu trên một số lượng NB nhất định, sau đó tiếnhành phân tích và đưa ra kết quả

Nghiên cứu thực hiện trên tập dữ liệu của các công trình nghiên cứu khoa học

khác trên thế giới như Luận văn Thạc sĩ của Hoàng Văn Thắng — năm 2020 [5] “Ungdụng khai phá dữ liệu trong hỗ trợ chấn đoán bệnh đái tháo đường tuýp 2” sử dụng bộ

dữ liệu về đái tháo đường được ghi nhận trên người Án Độ, bộ dữ liệu được ghi chépbỡi Viện Tiểu đường và Bệnh tiêu hóa và thận Hoa Kỳ

Nghiên cứu “Rừng ngẫu nhiên cải tiến cho phân loại dữ liệu gien” với nội dung

sử dụng thuật toán rừng ngẫu nhiên kèm theo việc cải tiến thuật toán sử dụng để phânloại gien Việc nghiên cứu thực hiện trên tập dữ liệu có sẵn của công trình nghiên cứukhác của các tác giả Huỳnh Phụng Toàn, Nguyễn Vũ Lâm, Nguyễn Minh Trung và Đỗ

Thanh Nghị

14

Trang 19

CHƯƠNG 2 CÁCH TIẾP CẬN VÀ PHƯƠNG PHÁP NGHIÊN CỨU

các công trình nghiên cứu khác, hoặc nghiên cứu được thực hiện LS trên các NB thông

qua việc lấy mẫu ngau nhiên

Với việc nắm bắt được tầm quan trọng trong việc thu thập dữ liệu để phục vụ việckhám chữa bệnh tại BV, các y bác sĩ tai BV ĐHYD HCM đã phối hợp với phòngCNTT thiết kế triển khai mẫu bệnh án DTD dé ghi nhận lại tat cả các yếu tố NB ảnhhưởng đến tìm mạch Với bộ dữ liệu sẵn có, học viên đã tham khảo các ý kiến của bác

sĩ và tiền hành nghiên cứu trên tập dữ liệu sẵn có này

2.2 Phương pháp nghiên cứu

- Phương pháp thu thập số liệu: Thu thập số liệu của NB trong vòng 5 năm từ năm 2017đến năm 2022, gần 10 nghìn lượt khám đang mắc bệnh DTD đã từng được khám quatại chuyên khoa Nội tiết của BV

- Phương pháp tiền xử lý đữ liệu: Trong quá trình nhập liệu với thực trạng bệnh nhânđông, các bác sĩ nhập liệu nhiều dữ liệu number và text xen lẫn vào nhau, hoặc cácchỉ số xét nghiệm khi cập nhật tự động đã ghi nhận bao gồm phan đơn vi tính, nhiềuhang dit liệu có các 6 không có dit liệu vì vậy cần có bước chuẩn hóa dữ liệu

- Phương pháp phân tích dữ liệu: Phân tích dữ liệu trên những biến số có được và được

chuẩn hóa của từng NB, phân tích từng biến độc lập với so với biến phụ thuộc nhằm

đánh giá mức độ ảnh hưởng hay là độ tương quan của các yếu tố đến các kết quả phântầng tim mạch của NB DTD tip 2

- Phương pháp sử dụng các mô hình toán: Sử dụng ba mô hình toán học khác nhau dé

chạy thực nghiệm trên nên dữ liệu đã thu thập và đã phân tích và để xuất mô hình phùhợp

Trang 20

- Phuong pháp ghi nhận ý kiến từ các chuyên gia: Ghi nhận ý kiến đóng góp của chuyêngia về lĩnh vực phân tích, đóng góp các câu hỏi cần phải trả lời của bác sĩ trong ngành;

luận cứ khoa học các bài toán cần cần giải quyết, phân tích đánh giá nguyên nhân vàtìm kiếm các hướng dé khắc phục

Các bước thực hiện

Để xây dựng một công cụ ứng dụng vào việc phân tích dữ liệu và dự báo được kết

quả phân loại NCTM tự động đối với NB đái tháo đường típ 2, các bước thực hiện

như sau:

Bước 1: Thu thập dữ liệu

Bước 2: Làm sạch và chuẩn hóa số liệu

Bước 2: Khám phá và Phân tích dữ liệu

Bước 3: Xây dựng MHDB

Bước 4: Đánh giá kết quả phân tích và dự báo

Thu thập Data Tiền xử lý Data Xử lý tập Data

Phân tích từng Tập data bệnh án thành phân data

DTD ci

ĐHYD TPHCM

- Chuan hóa chuyên đôi

Kết luận và đề xuất Mô hình học máy

t toán Perceptron Learning

- Thuật toán Support Vector Machine

- Hướng phát triển ~ Thuật toán Random Forest

- Lựa chọn các biên dau vào phù hợp cho mô

hình

Hình 2.1: Các bước đề xuất thực hiện nghiên cứu

16

Trang 21

CHUONG 3 CƠ SỞ LÝ THUYET

3.1 Phân tích mô hình hồi quy tuyến tính đơn giản

- Quan hệ được gọi là tuyến tính có thé hiểu là một thuật ngữ được sử dụng trong thống

kê, được dùng dé diễn tả mối quan hệ giữa một biến độc lập và một một biến phụ

- _ Mô hình hồi quy tuyến tinh đơn giản là mô hình được dién đạt bằng một phương trìnhy= #+ Bx, với một yếu tô đầu vào là x nên được gọi là model hồi quy tuyến tínhđơn giản Là một phương pháp thống kê phân tích giúp hồi quy và dự bao dit liệutheo thuật toán giữa một một biến độc lập (biến đầu vào) với một biến phụ thuộc (đầura) Giải thích một cách đơn giản thì hồi quy tuyến tính đơn giản đó là cách tiếp cậntuyến tính dé dự đoán biến đầu ra Y trên trục tung y dựa trên các biến biến đầu vào Xtrên trục hoành x trong đồ thị

3.2 Phân tích hệ số tương quan Pearson

- Thường được mô tả bằng có một biến di chuyền với một biến khác trong một mối

quan hệ.

- Hệ số tương quan gọi là r, được tính trong trong giới hạn -1 <r < 1 Trong đó đượcgiải thích rằng:

+ Hệ số tương quan r > 0 cho biết mối tương quan là tương quan thuận và cả hai di

cùng một hướng Nếu r= | thì cả hai biến đang đánh giá mối tương quan dang dichuyển song song

+ r<0 cho biết mối tương quan là tương quan nghịch và cả hai đi đi ngược nhau

+ r=0 thì nói lên kết quả hai biến không có tương quan.

Trang 22

3.3 Thuật toán Perceptron Learning Algorithm

Thuật toán Perceptron Learning Algorithm (PLA) là một mô hình cơ bản của

Neural — nền tang của Deep Learning, PLA là thuật toán dạng phân loại sử dụng chonhững bài toán phân loại kết quả hai lớp

Có hai tập hợp data, giả sử đã được đánh sẵn nhãn, như bên dưới (hình 3.1)

hình bên trái Hai lớp được mô phòng là một tập các ô vuông (màu xanh) và một tap

các 6 tròn (mau đỏ) Câu hỏi là với tập dit liệu đó, hãy dựng lên một mô hình phân hai

lớp rõ ràng, khi có một ô tam giám màu xám thì nhận dạng được nó nằm ở lớp nào

Hình 3.1: Biểu diễn bài toán phân chia hai lớp

Theo một cách giải thích khác là cần thực hiện phân chia vùng cho mỗi lớp, vớimột data mới, chúng ta chỉ cần xác định xem điêm dữ liệu mới đó thuộc vào vùng nàocủa lớp nào và quyết định dữ liệu mới thuộc lớp đó Để phân chia được các vùng thìchúng ta cần tìm đường biên chia cắt giữa chia vùng Như vậy bài toán phân loại được

hiểu đơn giản hơn là tìm đường chia cắt giữa hai vùng

Tương tự như những thuật toán khác trong lĩnh vực ML, PLA là bài toán tìm

đường phân chia bằng cách làm nhỏ nhất một hàm gọi là mat mát PLA xây dựng hàmmat mát đảm bảo rằng một hàm số phải là khả vi

Thuật toán PLA thực hiện các bước như sau

a) Chọn một vector bất kỳ với hệ số khởi tạo w và biên được xác định (một

đường thẳng)

b) Tìm được các điểm đã bị phân lớp sai và điều chỉnh lại vector của bước (a)

theo phương Gradient descent (nghiệm gần đúng của bài toán) cho các điểm dữ liệu

theo tuần tự x; nằm trong tập # gọi là tập phân lớp không đúng

18

Trang 23

c) Dò lại các điểm đã thự hiện cập nhật đường biên (boudary) phân chia đúng

đã được đánh dấu Nếu có điểm sai tiến hành làm lại bước (b)

3.4 Thuật toán Support Vector Machine

Hình 3.2: Ví dụ bài toán phân chia hai lớp của SVM.

Các đối tượng trên đồ thị tọa độ quan sát thường được gọi là Support Vectors vàbiên giới phân chia hai lớp (tốt nhất) được gọi là Support Vector Machine

3.4.2 Cách hoạt động của Support Vector Machine

Việc tìm một không gian siêu phẳng đề phân chia bao gồm các bước

Trang 24

Hình 3.3: Mô tả hoạt động của SVM

Bước 1: Theo hình 3.3 có ba đường thắng được gọi là siêu phẳng, cần chọn ramột đường chính xác nhất đề phân chia hai món màu xanh và màu đỏ Như vậy nguyên

tắc đầu tiên để chọn một hyper plane (siêu phăng) là chọn một hyper-plane đề phân chia

hai lớp tốt nhất, trong hình chúng ta thay là đường N

Bước 2: Nhìn hình 3.4 chúng ta thấy có ba đường siêu phẳng M, N, O, theo bước

1 thì cả ba đường đều thỏa mãn Vì vậy bước (2) cần xác định khoảng cách lớn nhất từđiểm gần nhất của lớp màu đỏ hoặc lớp màu xanh đến đường thẳng, khoảng cách nàyđược gọi là Margin Theo hình 3.4 thì chúng ta thấy khoảng cách các margin lớn nhất

là đường thing O Và ghi nhớ dé không được chọn nhầm vì khi dữ liệu nhiều lên thì déxảy ra tình trạng phân lớp sai

x

Hình 3.4: Xác định khoảng cách giữa cách đường siêu phẳng

20

Trang 25

Bước 3: Vẫn sử dụng các bước (1) và bước (2) dé chọn ra siêu mặt phẳng (đườngthẳng) như hình 3.5 dưới đây

Hình 3.5: Chọn siêu mặt phẳng chia lớp riêng biệtChúng ta thấy mục tiêu chia hai phần riêng biệt nếu không chú ý đặt điểm là màuthì có thể sẽ chọn đường N, tuy nhiên sẽ là không đúng vì theo bước (1) thì cần phảichọn siêu mặt phẳng thành hai lớp riêng biệt với nhau như vậy đường M mới là đườngchính xác nhất

3.4.3 Margin của Support Vector Machine

Margin hay còn gọi là lề là khoảng giữa các đường siêu phẳng đến hai điểm datagần nhất tương ứng với mỗi lớp đã được phân chia Trong các bài toán SVM thì cácmargin luôn được đặt ra dé tính toán tìm điềm lớn nhất nhờ đó mà SVM giảm rất nhiều

sự thiếu sót trong việc phân loại data mới

3.4.4 Nhận xét

s* Điểm mạnh của thuật toán SVM

- SVM là một kỹ thuật phân loại phổ biến, điểm mạnh là tính toán hiệu quả đối với dữ

liệu dung lượng lớn

- SVM sử dụng tốt trong không gian chiều cao, đặt biệt sử dụng cho các bài toán phân

loại văn bản hoặc phân tích hành vi, quan điểm

- SVM có ưu điểm hoạt động ít tốn tài nguyên bộ nhớ

- SVM hoạt động linh hoạt trong các bài toán phân lớp phi tuyến Với khả năng áp

dụng các Kernel mới rất linh động trong việc sử dụng phương pháp phi tuyến và tuyếntính đưa đến hiệu suất phân loại cao

Trang 26

SVM là áp dụng tốt trong vấn dé xử lý ảnh, phân loại văn bản các loại, phân loại hành

vi (có/không), quan điểm (đúng, sai)

“ Yéu điểm của thuật toán

SVM cũng có một số nhược điểm như đối với tập data lớn thì SVM cho kết quả khôngtốt bằng các thuật toán khác Ngoài ra việc giải thích chỉ tiết, dé hiểu rõ chỉ tiết xác

suất của từng kết quả phân loại của mỗi kết quả thì phải dựa vào các khái niệm về

định nghĩa khoảng cách giữa siêu phẳng đến các điểm dữ liệu được đo gần nhất giữahai lớp hoặc hai kết quả (Margin)

Để SVM hoạt động hiểu quả và linh hoạt thì thường sử dụng kèm các hàm Kernel

3.5 Thuật toán Random Forest

3.5.1 Giới thiệu thuật toán

Random forest (RF) là thuật toán học máy phổ biến, là một thuật toán về kỹ thuật học

có giám sát và có áp dung cho cả bài toán hồi quy và phân loại trong Machine

Learning

RF hoạt động bằng cách tạo ra bat kỳ một cây quyết định trên các mẫu data, mỗi câyđược dự đoán và chọn giải pháp tốt nhất bằng cách bỏ phiếu RF đã cung cấp khá tốtcác chỉ báo về tầm quan trọng của tính năng sẵn có

RF thường được sử dụng rất nhiều, do tính chất đơn giản và đa dạng Số lượng cây

lớn hơn được dùng trong rừng nên độ chính xác cao hơn và phòng ngừa vấn đề quá

tải.

Diễn đạt bằng kỹ thuật thì đây là một cách tổng hợp dựa trên những cách tiếp cận

phân loại và đưa ra quyết định của các cây quyết định được tạo ra trên một tập dữ liệuđược chia ngẫu nhiên

Một tập phân loại cây quyết định này còn được gọi là rừng Cây được phân tráchnhiệm quyết định riêng lẻ được tạo ra bằng phương pháp dùng chỉ báo chọn các đặctính như cộng thêm thông tin, số lượng cộng thêm và chỉ số bất thường cho mỗi loạithuộc tính Mỗi cây quyết định đưa ra kết quả ngẫu nhiên độc lập

Trong bài toán phân chia nhiều lớp, mỗi sự lựa chọn và lớp được chọn nhiều nhất sẽ

được bau ra là kết quả cuối cùng Đối với những bài toán hồi quy, thì việc bau ra kết

quả cuối cùng được tính theo mức trung bình cộng của các cây quyết định Việc phân

loại diễn ra dé dang và nhanh chóng

2

Trang 27

3.5.2 Cách hoạt động của Random Forest

Cách RF vận hành:

a) Từ tập data ban đầu, chọn ra các mẫu một cách random

b) Mỗi mẫu tạo một cây quyết định từ đó từ cây quyết định này tiếp nhận kết quả

eco

sy a

Test Set Voting

Hinh 3.6: Dién dat Random Forests

3.5.3 Đánh giá thuật toán Random forest

Ưu điểm

- RF đào tạo nhanh hơn so với các thuật toán phân loại khác.

Kết quả của RF cho độ chính xác cao, bao gồm tập data lớn kết cho kết quả đầu rarất tin cậy

- RF dự đoán tốt khi data bị thiếu một phan

‹* Nhược điểm

- RF có thể dự đoán chậm do xuất hiện nhiều cây quyết định

- Khi thực hiện dự đoán, trong một lượt thì đồng loạt các cây trong rừng phải đưa ra

dự đoán cùng một lúc rồi đồng thời cử cây đại điện Tắc cả các bước có thé matchỉ phí về thời gian

Trang 28

Nếu tìm hiểu qua mô hình cây khác thì RF khó hiểu hơn, Ví dụ cây quyết định sẽđưa ra kết quả quyết định dé dàng với phương pháp di theo chỉ dẫn trong cây.

Ứng dụng:

Với các ưu điểm của mô hình, Random forest thường được sử dụng vào các lĩnh

vực như:

Y học: Dự báo các bài toán phân loại bệnh và nguy cơ của bệnh

Ngân hang: Ứng dụng mô hình dé xác định khi rủi ro giải ngân vay tiền

Bat động san: Ung dụng vào việc xác định các khu vực đất đai

Tiếp thị: Dự báo để đưa ra các xu hướng tiếp thị trong tương lai

24

Trang 29

CHƯƠNG 4 KHÁM PHÁ DỮ LIỆU - PHÂN TÍCH DỮ LIỆU

4.1 Giới thiệu tập Data

Dữ liệu (data): Bộ data được sử dụng từ việc các bác sĩ thu thập ghi nhận tại phòng,

điều trị bệnh nội tiết ngoại trú của BV ĐHYD HCM Mỗi ngày tắt cả bệnh nhân khám

bệnh tại khoa nội tiết khi phát hiện bị bệnh đái tháo đường thì các bác sĩ thực hiện lập

bệnh án chuyên khoa gọi là bệnh án đái tháo đường, bộ đữ liệu được nhập vào phầnmềm trong vòng 5 năm từ 2017 đến 2022, số lượng là gần 10 nghìn NB đái tháo đường(gần 10 nghìn dòng)

Data dang bảng biểu, sau khi được làm sạch và xóa bỏ các cột có thông tin tronghoặc các cột thông tin không có ý nghĩa nhiều còn lại 7011 hàng và 43 cột Mỗi cột thể

hiện một thông tin của NB bao gồm:

- SoHS: Thông tin Mã số hỗ sơ

- HoTen: Họ và tên, Nhập text

- GioiTinh: Giới tính, Nhập text (0: Nữ, 1: Nam)

Histogram with fixed size bins (bins=50)

Hình 4.2: Số liệu về biến số tuổi NB

Trang 30

- NamDTD: ghi nhận lại năm mắc đái tháo đường, dữ liệu nhập text

- SoNamDTD: Năm bị đái tháo đường, tính bằng YEAR(NgayKham-NamDTD)

Histogram with fixed size bins (bin

Hình 4.3: Biểu đồ mô tả dữ liệu số nam DTD của NB

- TangHuyetAp: Tiền căn tăng huyết áp (True: có, False: Không)

- RoiLoanLipid: Rồi loan Lipid, nhập text (True: Có, False: Không)

- BenhVongMac: Khám cận LS bệnh võng mạc, nhập text (True: Có, False: Không)

- BenhThan: Khám lâm sàng bệnh thận, nhập text (True: Có, False: Không)

- ViemDaDayTK: Khám lâm sàng Viêm da day thần kinh, nhập text (True: Có, False:

Không)

- RoiLoanCuong: Khám lâm sàng rối loạn cương, nhập text (True: Có, False: Không)

- LietDaDay: Khám lâm sàng Liệt đa dây, nhập text (True: Có, False: Không)

- LoetChan: Khám lâm sàng Loét chân, nhập text (True: Có, False: Không)

- BenhThanKinh: (True: Có, False: Không)

- NhoiMauCoTim: Tiền căn nhồi máu co tim, nhập text (True: Có, False: Không)

- DotQuy: Tiền căn đột quy, nhập text (True: Có, False: Không)

- BenhDongMachChiDuoi: Khám lâm sàng động mạch đối với bệnh động mach chi dưới

nhập text (True: Có, False: Không)

- ThuocLa: Hút thuốc lá, nhập text (0: Không, 1: Có, 2: Da bỏ)

- RuouBia: Uống rượu bia, nhập text (0: Không, 1: Có, 2: Đã bỏ)

- DieuTriAnDonThuan: Khám tiền căn điều trị ăn đơn thuần, nhập text (True: Có, False:

Không)

26

Trang 31

DieuTriThuocKhac: Điều trị thuốc khác, nhập text (True: Có, False: Không)

DieuTriThuocInsulin: Điều trị thuốc Isullin, nhập text (True: Có, False: Không)

DieuTriThuocHuyetAp: Điều trị thuốc huyết áp, nhập text (True: Có, False: Không)DieuTriThuocStatin: Điều trị thuốc Statin (thuộc điều trị mỡ máu), nhập text (True:

Có, False: Không)

DieuTriThuocFibrate: Điều trị thuốc Fibrate (thuốc điều trị mỡ máu), nhập text (True:

Có, False: Không)

DieuTriChongTapKet: Điều trị chống kết tập tiểu cầu, chống máu đông dẫn đến nguy

cơ đột quy, nhập text (True: Có, False: Không)

LSBanChanPhai: Khám bàn chân tiêu đường (Monoflament) — Chân phải, nhập text

(0: Bình thường, 1: Bất thường, 2: Chưa khám)

LSBanChanTrai: Khám ban chân tiêu đường (Monoflament) — Chân trái, nhập text (0:

Binh thường, 1: Bat thường, 2: Chưa khám)

LSLoetChan: Kham lâm sàng loét chân (0: Không, 1: Có, 2: Chưa khám).

LSMachMauChanPhai: Khám lâm sàng mạch máu chân phải (0: Bình thường, 1: Bấtthường, 2: Chưa khám)

LSMachMauChanTrai: Khám lâm sàng mạch máu chân trái (0: Bình thường, 1: Bat

thường, 2: Chưa khám)

LSMatPhai: Khám lâm sàng mắt phải (1: BVM chưa tăng sinh, 2: BVM tăng sinh, 3:BVM chưa tăng sinh + Phù hoàng điểm, 4: BVM tăng sinh + Phù hoàng điểm, 5: Bình

thường, 6: Chưa chụp được).

LSMatTrai: Khám lâm sàng mắt phải (1: BVM chưa tăng sinh, 2: BVM tăng sinh, 3:BVM chưa tăng sinh + Phù hoàng điểm, 4: BVM tăng sinh + Phù hoàng điểm, 5: Bình

thường, 6: Chưa chụp được).

DTDGiaDinh: Tiền sử đái tháo đường gia đình (0: không, 1: có ba mẹ bị đái tháo

đường)

DuongHuyetDoi: Chỉ số đường huyết trước khi ăn, load tự động từ xét nghiệm, đơn vị

đo là mmol/L, đối đường huyết đói của người bình thường là <5.6 mmol/L

HbAIC: chỉ số trên Hb hồng cầu, có ý nghĩa đại điện cho tình trạng gắn kết của đường,cập nhật tự động từ hệ thống xét nghiệm, được tính bằng phần trăm (%) Chỉ số HbAIC

Trang 32

bat thường khi vượt ngưỡng hơn người thường là 1% tương đương với chỉ số đườnghuyết mỗi người tăng 1.7mmol/I (hoặc 30mg/dl)

+ Khi xét nghiện HbAIC > 6.5% thì nói lên đường huyết kiểm soát không tốt+ Khi xét nghiệm HbAIC < 6.5% thì chứng tỏ đường huyết được kiểm sót tốt

- Creatinin: chỉ số nồng độ Creatinin trong cơ thé giúp thể hiện thận khỏe hay yếu, dữ

liệu cập nhật tự động từ hệ thống xét nghiệm, được tính băng đơn vị mmol/L Người

trưởng thành, nồng độ creatinine bình thường sẽ là:

+ Nam: từ 53- 106 mmol/l (từ 0.6 đến 1.2 mg/dl)

+ Nữ: từ 44- 97 mmol/l (0.5 đến 1.1 mg/dl

- eGFR: chỉ số độ lọc cầu thận, chi số thể hiện lượng máu được lọc bởi các quản cầuthận trong mỗi phút, nó được tính dựa vào creatinime trong huyết thanh, dữ liệu cậpnhật tự động từ hệ thống xét nghiệm, được tính bằng đơn vị ml/phút Chỉ số độ lọc cầu

thận của người bình thường là trên 90 mL/ phút/1,73m2.

- AcNieu: là chỉ số protein niệu vi thể (microalbumin) trong 24 giờ để nhận biết bệnh lý

về thận, đơn vị đang tính trong bảng dữ liệu là mg/mmol

+ Xét nghiệm protein niệu hạ < 1g/24h: Thường được đánh giá viêm thận, viêm

thận kẽ, vỡ thận, đa nang thận, thận bị xơ mạch, có thể kèm tăng huyết ap

+ Xét nghiệm protein niệu 1< Protein niệu < 3g/24h: thường gặp trong các bệnh

về cầu thận hay viêm mạn tính hoặc cấp tính cầu thận hay bệnh thận kèm đái

tháo đường

+ Xét nghiệm protein niệu tăng > 3,5g/24h: Là một dạng bệnh thường được gọi

là hội chứng thận hư

- KetQuaPhanTangTimMach: Kết quả phân tang hay gọi là phân loại nguy cơ tim mạch

(: Nguy cơ rất cao, 2: nguy cơ cao, 1 nguy cơ trung bình) Là kết quả đầu ra của dữ

liệu dựa vào các yếu tố ở trên từ đó bác sĩ tiến hành phân loại NCTM cho NB

4 Mức nguy cơ Số ca Tỉ lệ

Nguy cơ trung bình 480

28

Trang 33

Các biến số được phân loại sau quá trình khám phá dữ liệu như sau:

- Biến phụ thuộc: là biến phân loại KetQuaPhanTangTimMach, đây là kết quả đầu ra

của một ca khám bệnh dựa trên các biến số còn lại mà bác sĩ cho chỉ định thực hiện sau

đó đưa ra kết quả phân loại Từ kết quả này bác sĩ sẽ có lộ trình chữa bệnh phù hợp

- Biến độc lập: có 37 cột dữ liệu là các biến: Tuoi, SoNamDTD, GioiTinh,

TangHuyetAp, RoiLoanLipid, BenhVongMac, BenhThan, ViemDaDayTK,

RoiLoanCuong, LietDaDay, LoetChan, BenhThanKinh, NhoiMauCoTim, DotQuy, BenhDongMachChiDuoi, ThuocLa, RuoiBia, AcNieu, DieuTriAnDonThuan,

DieuTriThuocKhac, eGFR, Creatinin, DieuTriThuocInsulin, DieuTriThuocHuyetAp,

DieuTriThuocStatin, DieuTriThuocFibrate, DieuTriChongTapKet, LSBanChanPhai, LSBanChanTrai, LSLoetChan, LSMachMauChanPhai, LSMachMauChanTrai,

LSMatPhai, LSMatTrai, DTDGiaDinh, DuongHuyetDoi, HbAIC.

Trong biến độc lập chia làm hai loại biến:

+ _ Biến độc lập là biến định lượng có tính liên tục, là các biến các chỉ số đo lường

được và chỉ số đầu vào khi thực hiện xét nghiệm: Tuoi, SoNamDTD,DuongHuyetDoi, HbA IC, Creatinin, eGFR, AcNieu.

+ _ Biến độc lập là biến định tính thuộc biến phân loại: là các biến còn lại có giá trị

phân loại 0, 1 hoặc True, False

- Thông tin của người bệnh: 2 cột dữ liệu HoTen và SoHS mô tả thông tin hành

chính của NB, học viên sẽ không đưa vào phân tích

Với trường dữ liệu được mô tả như trên học viên tiến hành nghiên cứu và thực

nghiệm dựa trên các cơ sở lý thuyết

a) Kiểm tra sự tương quan giữa những biến độc lập là biến định lượng với biến phân

loại là kết quả phân tầng tim mạch thuộc biến phân loại dựa vào biêu đồ boxplot

và phân tích hệ số tương quan Pearson, phân tích hồi quy tuyến tính đồng thời thựchiện các kỹ thuật kiểm định, kết hợp trình điều dữ liệu bằng biéu đồ box plot được

Trang 34

c) Ung dung kendall thực hiện kiểm định sự tương quan giữa những biến độc lập vớinhau dé xem xét biến có quan hệ tịnh tiến

a rm ` 100 Sol :

Hình 4.5: Tổng hợp sự tương quan giữa những biến với kendall

d) Với tập dữ liệu gồm nhiều biến độc lập đồng thời kết quả đầu ra là biến phân loạinên học viên lựa chọn 3 mô hình phù hợp cho bài toán đó là nghiên cứu và đưa ra MHDB trên SVM, PLA, Random forest

4.2 Chuẩn bi dữ liệu và chuyển doi dữ liệu

s* Làm sạch dir liệu (Data clearn)

Các cột dữ liệu được ghi nhận lại chưa được chuẩn, ví dụ cột chỉ số eGFR là

chỉ số độ lọc cầu thận, chỉ số thể hiện lượng máu được lọc bởi các quản cầu thận trongmỗi phút, eGFR được tính toán dựa vào creatinime trong huyết thanh, dữ liệu cập nhật

tự động từ hệ thống xét nghiệm, được tính bằng đơn vị ml/phút, mỗi ô dữ liệu có xenlẫn biến number và text Học viên tiến hành làm sạch chỉ giữ là định dang là number

và bỏ text có nội dung là mô tả đơn vị tính.

30

Trang 35

Creatinin = GR, Cholesterol HDLe 1DLe = Trighceride c„

85.7umol/t, 81 mi/phuit 3.31 mmGl/L 1⁄26 mmol/L 1⁄5 mmol/L 23 mmol/L

83.8 umol/t” 2 3.76 mmol/L 2.13 mmol/L.

72.6 umol/U" 96 6.3 mmGl/L 1⁄23 mmol/L 4.85 mmol/L 3.09 mmol/.”67.8 umol/t” 96 8.4mmol/t 1.48 mmol/L 6.12 mmGl/L 3.69 mmol/L”.201umGl/L7 92 4.34mmol/t 1.56 mmol/L 5.68 mmol/L 3.52 mmol/L”

75 umol/L 82 644 mmGl/L 171 mmGl/L 4.28 mmol/L 2.86 mmol/L”.

728umGl/LÝ ” 68 mmol/L 1.58 mmol/L 41 mmGl/L 2.48 mmol/L 63.8umGl/L, 89ml/ph/173 m2 7⁄1 mmGl/L 1.18 mmol/L 4.984 mmol/L 427mmol/L 391.2umol/L” 37 3⁄2 mmol/L 0.78 mmol/L 2.71 mmol/” 1567 33umol/LÝ 16 3.8mmGl/L 1.18 mmol/L 3.57 mmol/L 2.28 mmol/L”

65.2 umol/L” 1 5.36 mmol/L 1.38 mmol/L 2.81 mmGl/L 1.66 mmol/L.

Hình 4.6: Một số hình ảnh vẻ bộ data thô ban đầuTương tự các cột khác yêu cầu về định dạng là number, học viên dùng công cụ

filter của excel để lọc các dữ liệu chưa đồng nhất, đồng thời xóa bỏ các dữ liệu định

đạng text bị chen lẫn trong định dạng number, đưa về giá trị number

Đối với dữ liệu hàng, học viên công cụ filter của excel để lọc và xóa bỏ tất cảcác hàng có dữ liệu trống hoặc dit liệu không phải là các chỉ số xét nghiệm number

(mỗi hàng là đại diện cho một lượt khám của một NB)

852unglk — simVphuit ái RmBi, +24emmeIk 35mmeIk 4 Knanz

8580mel/L” 92 376mmol/L Ll Senztoa

Teun” 36 63mmol/t 123 mmol 4.45 mmol/L Sony cae ,

— E3 s4mneIL 14emnolt ei2mmolt

70.1 umol/” 92 4,84 mmol/L 1.56 mmol/L 5.62 mmol/L.

75 umol/i” 2 6.44 mmol/L 1.71 mmol/L 4.28 mmol/L.

‘72.8 umol/i" 7 6.8mmol/t 1.58 mmol/L 4.1 mmol/L TH NG ’

— m2 ramet 1ä nnolt -8mneUt = 2

1812umo/L” 3 3.2 mmGl/L 078 mmol/L 2.71 mmel/C” = 5

'33umol/L7 7% 3.8 mmol/L 1.18 mmol/L 3.57 mmol/L 198.88

'65.2umol/L” 12 5.36 mmol/L 1.38 mmol/L 2.81 mmol/L benh

bìng a samme we

SLumolt—_ sSmUphuit 344 mmoÚc at mel sarmnall a

?94uneli_- 6L42mi/phuit 208mmalfc sa

33umel/t” ° 3.82 mmGl/L 1.19 mmol/L 2.38 mmol/L tanks) a 99.5 umol/L” Cy $5 mmol/L 1.15 mmol/L 417 mmol/L.

S17 uneih a 7 mmol 112 mml/L 366 mmolL mm

ersunaiU P 336mmafL 113 mmol 393mmaft

Hình 4.7: Thao tác làm sạch dữ liệ bằng ứng dụng Excel

Thực hiện tuần tự cho tất cả các cột, học viên có được bộ dữ liệu có đầy đủ dữliệu cho tất cả các ô, còn lại là 7011 đòng dữ liệu

s* Chuyển đối data (Data Preparation)

Chuyên đổi biến nhị phân Yes/No (binary_map) Học viên sử dụng python déchuyền đổi trong quá trình ứng dụng mô hình học máy và sử dụng Excel để chuyển

đổi khi sử dụng phân tích dữ liệu trên R

Đọc data từ ứng dụng Microsoft Excel trước khi chuyển đổi, dữ liệu dang text

và number hiện có trong mỗi ô giá trị

Trang 36

[sx “Gish “Nani Tatham Thơi — NaÔTD SONAmOIlTE — Tnguyeialtonl evo Benton Venison etDoDay towtGian BehuiNhoVaecDoGuy Bech

TH ~-‹⁄‹ SG aot 2 TANSE TRUE VASE” TASE ASE AIC TASC” TASE TAI FAIS TAISE TASE

AHEGBMO CC c0 ssa ĐANOU CD CƯ l3 TRUC TRUE ƯA FALSE FALSE FALSE FALSE FALSE LSE FALSE FASE TASE

Nieootsec 13978 LỰA 320170 TRỤC TRUE FALSE FASE FALSE FALSE ASE FASE PA FALSE FALSE FASE MEĐBS 13800 safer? M 2UỢ 3O aE FALSE ANSE FASE FALL FALSE FALSE FASE FALSE FALSE FALSE FASE

NHGGĐE 03863, saan TOU CÀO FASE TRUE FALSE FASE PSG FALSE FALSE FASE FASE FALSE FALSE PSE

(AOGHS 010 HNNOU 7P HA do 3 TỤC TRUE FALSE TỤC FASE PASE PS FALSE FASE FASE FASE FASE

B06 c0 HO LỰMNGU AB TƠƠ Cà 2 TRUC TRUE FALSE FALSE TRUE FALSE FALSE TRUE FALSE TRUE FALSE PSE

isoey ©3967 ĐỰNHU 520172 TRỤC TRUE FALSE FASE FALSE FALSE FALSE FASE FALSE FALSE FALSE FASE iassonsaa 3 HMƠ HAMOD aaa ANSE TRUE FALSE FALSE TRUE FASE FALSE ASE FASE FASE FASE FASE

NHCĐIMC c0 THƠ TỰMNGU soos HO 2 TRUE TRUE FALSE TM FALSE FALSE FALSE FASE FASE FALSE FALSE PSE

NHOUE c0 THƠ TỰANU st 2UU CÀO 2 TRUE TRỤC AM PA FALSE FALSE FALSE FASE PA FALSE FALSE FASE

(OANH «smd ĐO 5 CAU ANSE FALSE FALSE FALSE ASE FALSE FASE FALSE FASE FALSE FALSE FALSE

N25 13566 HƯU SE TUU CÀ TRUE MỤC FALSE FASE PASG FALSE FALSE FASE PA FALSE PA FASE (ẠOIMBENO có HỢC ĐMSOD CÔ An 5O TRUE TRUE FALSE FALSE TRUE FASE FALSE FALSE FASE FALSE FASE FASE

faovoosioa c0 —asel‘pinox7?—=—«2G—=—2017= 2 TỤC TRUE PASE FALSE FALSE FALSE FALSE FALSE LSE FALSE TRUE ALSE

(ABBBMSGP + Mê: MNVOU 5 MO 3 FALSE TRUE FALSE PS FASE TRUE FALSE FALSE FASE FASE FASE FASE

NHANG c0 THỜ afro? 7S «2012S TRUC FALSE FALSE TRUE FALSE FALSE FALSE FASE FALSE FALSE FALSE PSE gore 1 TM HƯU 620172 TRUE FALSE FALSE FASE PSG FALSE FALSE FASE FALSE TRUE FALSE FASE

havostves c0 HH5 HẾNU ĐO 207 ĐO 2 TRUE TỤC ANSE TRUE FALSE FALSE ASE PASE GALE FALSE FALSE FASE

oveie 3864 sanyo? 5 207 CÀ 2 TRUE TRUE FALSE FASE PA FALSE FALSE FASE FALSE FALSE PASE PSE

NHONĐỢ «3959, HỢNU S207 TRỤC FALSE FALSE FASE FALSE FALSE FALSE FASE PA FALSE FALSE FASE NƯGSĐC 3060 azar? ab 200072 TRUE FALSE FALSE TRUE FALL FALSE ASE FASE FAIS FALSE FALSE FASE

NHƠN 03865 anyon? FASE FALSE FALSE FASE FASE FALSE FALSE FASE FASE FALSE FALSE PSE

rotons 03862 anny? 5520172 TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE PSE

irons ©3807 Đ/DỢBU 320170 FALSE FALSE FALSE FASE FALSE FALSE FALSE FASE FALSE FALSE PA PASE arocines c0 S868 HƯUẾNU Áp 207 3 2 TRÚC TRUE FASE FASE FALSE FALSE ASE FASE FALSE FALSE FALSE FASE

[povoosror 0558, HƯU ĐO MỜ O2 FALSE TRUE FASE FALSE TRỤC FALSE FALSE FALSE FALSE FALSE PMSE FALSE

Hinh 4.8: Hình ảnh dữ liệu trước khi chuyền đồi

Sử dung python dé chuyển đổi dữ liệu phân tích trên Python, sử dụng excel

chuyé đổi dữ liệu để phân tích trên R

# Xử Lý cốc đặc trưng mang tính chất boolean bồng cách mop False = 0 và True = 1

‘from numpy import asarray

from sklearn.preprocessing import OrdinalEncoder

# define data

data = asarray([["True'], ['Fa1se"]])

# define ordinal encoding

Trang 37

UV | W | X TY | Z | AA | AB | ÁC | AD | AE | AE | A6 | AH | AL | AI | AK | AL -0ieurifh lev Dev ih OiuTrChcSBanChar LSBanChat LSLoetCha LSMachMLSMachM [MatPhailSMatTrai TOD DuongHuy HòAIC Crean GFR AeMieu KetQuaPhas

Hình 4.9: Các hình anh dữ liệu sau khi chuyền đổi nhị phân

4.3 Dữ liệu minh họa

s Một vài hình ảnh minh họa data

'ĐieuTiiThiDieuTiChcL SBanChatL58anChar 'SLoetChalSMachMALSMachMiSMatPhai SMatTrai OTOGiaDir DuongHuy HbAIC 'Creainin eGFR —— AcNieu — KetQuaPhanTangTimh,

FALsE dol le 0 5 5 0 87 «9956398 ——.66 Ngwycocao

FAISE a oo 0 o 5 5 096 965 782 83 147Ngycocao

FALSE 1 8 0 0 o 5 50 96 906 97 C70 639Ngwyc@rateae FALSE 10 0 0 8 o 5 5 066 ^^ nh Faust a oo 0 o 0 5 5 0 98 67 966 59 222Ngwycotrungbah FALSE o 0 o o o 0 5 5 0 96 98 176 47 - 3542 Nguycoratca0

TRUE oO 0 0 0 0 0 6 6 0 94 93 995 53 33141Ngaycoretcso

FALSE 1 0 0 o o ở 5 5 0 97 77 98 «938A Nguycoca0

FALSE 0 0 0 o 0 6 6 6 0 91 59 907 64 7.05 Neuycotrung binh

Trang 38

columns (total 44 columns):

Column Non-Null Count

KetQuaPhanTangTimMach 7011 non-null object

dtypes: bool(17), float64(5), int64(18), object(4) memory usage: 1.6+ MB

Hình 4.11: Thông tin tap data trên đọc trên Python

34

Trang 39

Từ data ban đầu, ta cần phải chuyển đổi dữ liệu về dạng CSV dé làm dữ liệu

đầu vào cho quá trình phân tích Trong đề tài này học viên sử dụng ngôn ngữ R, Pythontrên Jupyter Notebook được cài đặt thông qua Anaconda

Phân tích các yếu tố liên quan đến PTNCTM sử dụng phân tích bằng hệ số tương

quan Pearson.

> Phan tích mối tương quan giữa biến liên tục và biến phân loại

Trang 40

Để phân tích sự quan hệ giữa các yếu tố liên quan đến kết quả phân loại nguy

cơ tim mạch trên NB đái tháo đường típ 2 (biến phân loại) đối với những biến địnhlượng có tính liên tục, học viên áp dụng hệ số tương quan tuyến tính r với mức ý nghĩa

ơ = 5%, trong đó:

- r=0: Chứng tỏ không có tương quan tuyến tính giữa 2 biến

- r=1;r=-1: Có mối tương quan tuyến tính rất lớn đối với 2 biến

-_r<0: Hai biến tương quan ngược với nhau, ví dụ biến m tăng thì biến n giảm

~_r>0: Hai biến tương quan cùng nhau, vi dụ biến m tăng thì biến n tăng

Ghi chú:

- Hệ số tương quan được gọi là tuyến tính chỉ có ý nghĩa khi giá trị alpha được tính

nhỏ hơn mức 0.05 tức là p — value < 0.05

- Nếu 0.50< r< +1 (r#0), chứng tỏ 2 biến tương quan mạnh

- Nếu0.30< r< +0.49 (r#0), chứng tỏ hai biến tương quan trung bình với nhau

- Néur<+ 29 (r#0), chứng tỏ 2 biến tương quan yếu

Kiểm định hệ số tương quan

- Sử dụng cor() tính hệ số tương quan

- Sử dung cor.test() kiểm tra sự liên kết/tương quan giữa các cặp mẫu cần đánh giá

- Sir dụng phân tích dựa vào thuật toán hồi quy tuyến tinh để phân tích giá trị p và ý

nghĩa thống kê của các cặp mẫu cần đánh giá

> Phan tích mối tương quan giữa biến phân loại và biến phân loại

Để phân tích các yếu tố có liên quan đến kết quả phân loại nguy cơ tim mạch

trên NB DTD tip 2 hay không, đối với các biến là biến có tính chất định tính (biếnphân loại) và là biến phân loại học viên sử dụng cor() kết hợp kiểm định chỉ square

và kiêm định Fisher’s exact test

Kiểm định Chỉ bình phương (Chi squared test, chisq.test)

Là một trong những phân phối được sử dụng rộng rãi nhất Chỉ — Square kiểmđịnh giả thuyết khi dit liệu ở dang tần số với mục tiêu là:

- Kiểm tra thé hiện sự khác nhau, và tỉ lệ khác nhau

- Để xác định những điểm liên quan

Kiểm định Fisher (Fisher’s exact test)

36

Tiêu đề	Ứng Dụng Phân Tích Dữ Liệu Lâm Sàng Để Phân Tầng Nguy Cơ Tim Mạch Trên Bệnh Nhân Đái Tháo Đường Típ 2
Tác giả	Nguyễn Phúc Hoàng
Người hướng dẫn	TS. Đỗ Trọng Hợp
Trường học	Đại học Quốc gia TP HCM
Chuyên ngành	Công nghệ thông tin
Thể loại	luận văn thạc sĩ
Năm xuất bản	2022
Thành phố	TP HCM

Định dạng
Số trang	127
Dung lượng	52,14 MB