Các phương pháp hiện nay được thao tác một cách thủ công, bác sĩ phải đọc từng dòng dữ liệu đã thu thập từ đó đưa ra kết quả phân tầng NCTM đối với NB đái tháo đường, việc này tốnnhiều t
Trang 1ĐẠI HỌC QUOC GIA TP HCMTRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
—— => KE RC
NGUYÊN PHÚC HOÀNG
UNG DUNG PHAN TÍCH DU LIEU LAM SÀNG DE
PHAN TANG NGUY CO TIM MACH TREN BENH NHAN
DAI THÁO DUONG TIP 2
LUAN VAN THAC Si
NGANH CONG NGHE THONG TIN
Mã số: 8.48.02.01
TP HO CHÍ MINH - NĂM 2022
Trang 2ĐẠI HỌC QUỐC GIA TP HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
ScD HK oR
NGUYEN PHUC HOANG
UNG DUNG PHAN TICH DU LIEU LAM SANG DE
PHAN TANG NGUY CO TIM MACH TREN BENH NHAN
DAI THÁO DUONG TÍP 2
LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN
Mã số: 8.48.02.01
NGƯỜI HƯỚNG DẪN KHOA HỌC
TS DO TRỌNG HỢP
TP HÒ CHÍ MINH - NĂM 2022
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan dé tài “Ứng dụng phân tích dir liệu lâm sàng dé phân tầngnguy cơ tim mạch trên bệnh nhân đái tháo đường típ 2” là chính tôi nghiên cứudưới sự hướng dẫn của Thầy TS Đỗ Trọng Hợp
Không có sự sao chép của người khác và của công trình nghiên cứu khác.
Những báo cáo và tài liệu dùng cho việc tham khảo trong luận văn đều được chophép và có ghi ra nguồn rõ ràng, minh bạch Đề tài là bài thực nghiệm nghiên cứucủa bản thân, phần mềm, nguồn data và tất cả các kết quả trình bày trong luận văn
là trung thực.
Tôi xin chịu trách nhiệm với những sai phạm trong đề tài của mình
Người cam đoan
Nguyễn Phúc Hoàng
Trang 4LỜI CẢM ƠN
Sau thời gian nghiên cứu, tôi đã hoàn thành luận văn “Ứng dụng phân tích
dé liệu lâm sàng dé phân tầng nguy co tim mạch trên bệnh nhân đái tháo đường tip2” Để hoàn thành và đạt được các kết quả trong luận văn nay, tôi xin chân thành gửi
cảm ơn đến:
- TS Đỗ Trọng Hop Thay đã hướng dẫn và chỉnh sửa hợp lý và kịp thời để hướngcho tôi có một luận văn hoàn chỉnh Những quan tâm, chi bảo của Thay giúp cho tôi tựtin hơn và tạo động lực hơn để giúp tôi làm đề tài tốt hơn, có trách nhiệm với bản thân
hơn.
- TS Bác sĩ chuyên khoa Nội tiết Trần Quang Nam — Trưởng khoa nội tiết cùngBác sĩ CKI nội tiết Lê Hoàng Bảo, BS CKI Trần Văn Lượng đang làm việc tại BVDHYD HCM đã hướng dẫn, giải thích các chi số về y khoa, cung cấp các tài liệu vàđặt ra các câu hỏi về bệnh DTD cùng với tài liệu lý thuyết PT NCTM với NB DTD tip
2
- Trưởng phòng cùng đồng nghiệp phòng Công nghệ thông tin của BV DHYDHCM đã cho phép sử dụng bộ dữ liệu để tôi được sử dụng thực nghiệm trên bộ dữ liệu
này.
Tôi xin cảm ơn các tình cảm của toàn thé các Thay, Cô phòng dao tạo Sau
đại học trường Dai học Công nghệ thông tin đã tận tâm, tận tình truyền đạt, giảng
dạy những kiến thức vô cùng giá trị trong suốt thời gian học Đây là nền tảng quý
báu làm hành trang cho tôi tự tin hơn trong khi tiếp cận và thực hiện đề tài này
Cuối cùng, Tôi xin cảm ơn đến gia đình, cơ quan và những đồng đội khóa caohọc CNTT CHI2 và CHI3, những người đã cùng đồng hành, giúp đỡ tôi trongthời gian theo học tại trường và truyền đạt các kinh nghiệm thực hiện bài luận văn
Trang 5LOI CAM DOAN
6 Y nghĩa khoa học và ý nghĩa thực ti
7 Cấu trúc của dé tài như sau
CHƯƠNG 1 TONG QUAN
1.1 Khái niệm và mối liên quan bệnh đái tháo đường với tim mach
1.1.1 Khái niệm về bệnh đái tháo đường
1.1.2 Sự hệ giữa các bệnh lý tim mạch và DTD
1.2 Thực trạng và các nghiên cứu liên quan
1.2.1 Tổng quan về BV ĐHYD HCM
1.2.2 Tình hình điều trị đái tháo đường và biến chứng tim mạch tại BV BHYD HCM 12
1.2.3 Hiện trạng phân tích dữ liệu đối với NB đái tháo đường và biến chứng tim mạch tại
BV ĐHYD HCM và các CSYT khác 13 1.2.4 Các nghiên cứu liên quan 13
CHƯƠNG 2 CÁCH TIEP CAN VÀ PHƯƠNG PHAP NGHIÊN CỨU
2.1 Cách tiếp cận
2.2 Phương pháp nghiên cứu
CHƯƠNG 3 CƠ SỞ LÝ THUYÉT
3.1 Phân tích mô hình hồi quy tuyến tinh đơn giản
3.2 Phân tích hệ số tương quan Pearson
3.3 Thuật toán Perceptron Learning Algorithm.
Trang 63.4.1 Định nghĩa
3.4.2 Cách hoạt động của Support Vector Machine
3.4.3.
3.4.4.
3.5 Thuật toán Random Forest:
3.5.1 Giới thiệu thuật toán
3.5.2 Cách hoạt động của Random Forest
3.5.3 Đánh giá thuật toán Random forest
CHƯƠNG 4 KHÁM PHÁ DỮ LIỆU - PHÂN TÍCH DỮ LIỆU
4.1 Giới thiệu tập Data
4.2 Chuẩn bị dữ liệu và chuyền
4.3 Dữ liệu minh họa
4.4 Phân tích dữ li
4.4.1 Phân tích những tương quan của biên độc
biến phân loạ
4.4.2 Phân tích liên hệ
KetQuaPhanTangTimMach
4.5 Xây dựng mô hình dự báo phân ting NCTM
4.5.1 Mô hình Perceptron Learning Algorithm (PLA)
4.5.2 Mô hình dit báo Support Vector Machine.
4.5.3 MHDB Random Forest
CHƯƠNG 5 ĐÁNH GIÁ KET QUA PHAN TÍCH VA DỰ BAO VE PHAN TANG
NGUY CO TIM MACH 105
5.1 Đánh giá kết qua phan tích
5.2 Đánh giá mô hình dự báo phân ting NCTM:
CHƯƠNG 6 KET LUẬN VÀ HƯỚNG PHÁT TRIÊN
Trang 7DANH SÁCH CÁC KÝ HIỆU VÀ CHỮ VIET TAT
Từ viết tắt Tiếng Anh Tiếng Việt
CNTT Công nghệ thông tin
BV ĐHYD Bệnh viện Đại học Y Dược Thành phố
DTD Dai thao duong
NCTM Nguy co tim mach
NCTB Nguy co trung binh
SVM Support Vector Machine | Thuật toán máy véc tơ hỗ trợ
RD Random Forest Thuật toán rừng cây ngẫu nhiên
Neural Networks Mạng dây thần kinh
Deep Learning Phương pháp học sâu
Data Dữ liệuRandom Ngẫu nhiên
LS Lâm sàng
ML Machine Learning Hoc may
Trang 8DANH MỤC BẢNG
Bang 4-1: Thống kê biến giới tính NB
Bang 4-2: Thống kê mô chỉ tiết giới tính trong các nhóm nguy cơ
Bảng 4-3: Bảng chỉ tiết số liệu NB tăng huyết áp
Bang 4-4: Tổng hợp các kết quả và phân tích biết ¡ loạn Lipid
Bảng 4-5: Số liệu liệt kê kết quả NCTM so với bệnh võng mạc.
Bảng 4-6: Các kết quả khám thận so với nhóm NCTM
Bảng 4-7: Tỉ lệ của biến kết quả viêm đa dây thần kinh
Bảng 4-8: Số liệu kết quả rối loạn cương
Bang 4-9: Ti lệ của kết quả khám loét chân
Bang 4-10: Ti lệ kết quả NB khám nhồi máu cơ tim
Bảng 4-11: Bảng mô tả tỉ lệ kết quả khám đột quy
Bảng 4-12: Bảng tỉ lệ NB có tiền sử hút thuốc lá
Bảng 4-13: Tỉ lệ người bệnh có tiền sử RB
Bảng 4-14: Tỉ lệ của kết quả khám điều trị ăn đơn thuần
Bảng 4-15: Bảng mô tả tỉ lệ NB đang dùng thuốc Insulin
Bảng 4-16:
Bang 4-17: Thống kê phân tích số
iét kê số lượng NB có điều trị thuốc huyết áp
u NB sử dụng thuốc Statin
Bang 4-18: Phân tích và thống kê tỉ lệ NB điều trị chống kết tậ 82
Bang 4-19: Thống kê số lượng và phân tích khám LS chân phải
Bang 4-20: Liệt kê tỉ lệ kết quả khám mắt
Bảng 4-21: Thống kê số lượng va phân tích tỉ lệ tiền sử DTD gia đình
Bảng 4-22:
Bảng 4-23:
Bang 5-1: Thống kê kết quả thực nghiệm MHDB.
lệt kê tỉ lệ kết quả khám mach máu chân
‘éng hợp điểm số hệ số tương quan giữa các biến đầu vào với kết quả
Trang 9DANH MỤC HÌNH
Hình 2.1: Các bước đề xuất thực hiện nghiên cứu
Hình 3.1: Biểu diễn bài toán phân chia hai lớp
Hình 3.2: Ví dụ bài toán phân chia hai lớp của SVM
Hình 3.3: Mô tả hoạt động của SVM
Hình 3.4: Xác định khoảng cách giữa cách đường siêu phăng
Hình 3.5: Chọn siêu mặt phăng chia lớp riêng biệt
Hình 3.6: Diễn đạt Random Forest:
Hình 4.1: Hién th
Hình 4.2: Số liệu
liệu giới tính
iến số tuổi NB
Hình 4.3: Biểu đồ mô tả dữ liệu số năm DTD của NB.
Hình 4.4: Trực quan số lượng các kết qua phân loại nguy cơ tim mạch Hình 4.5: Tổng hợp sự tương quan giữa những biến với kendall
Hình 4.6: Một số hình ảnh về bộ data thô ban đầu
Hình 4.7: Thao tác làm sạch dữ liệu bằng ứng dụng Excel
Hình 4.8: Hình ảnh dữ liệu trước khi chuyền đ
Hình 4.9: Các hình ảnh dữ liệu sau khi chuyển đồi nhị phân
Hình 4.10: Hình ảnh hiền thị mô tả dữ liệu trên Excel
Hình 4.11: Thông tin tập data trên đọc trên Python
Hình 4.12: Hình ảnh hiền thị mô tả tập data trên R
Hình 4.13: Tổng quan kết quả mồi tương quan giữa các cột data
Hình 4.14: Độ tuổi so với kết quả phân loại NCTM
Hình 4.15: Thời gian bị ĐTĐ liên quan với kết quả phân tang NCTM
Hình 4.16: Dữ liệu của đường huyết đói
Hình 4.17: Mức ảnh hưởng HbAIC đến kết quả PT NCTM
Hình 4.18: Creatinin và kết quả PT NCTM.
Hình 4.19: Phân tích ảnh hưởng eGFR đến kết quả NCTM
Hình 4.20: Sự ảnh hưởng biến AcNieu đến kết quả NCTM
Hình 4.21: Mức độ ảnh hưởng giới tính đến kết quả xếp loại NCTM
Hình 4.22: Ảnh hưởng biến tăng huyết áp đến kết quả đánh giá NCTM Hình 4.23: Ảnh hưởng của kết quả rồi loạn Lipid đến kết quả
Hình 4.24: Ảnh hưởng của kết quả BVM đến kết quả PT NCTM
Hình 4.25: Ảnh hưởng của kết quả khám thận đến kết quả PT NCTM
Trang 10Hình 4.26:
Hình 4.27
Hình 4.28
: Ảnh hưởng của kết quả rồi loạn cương đến kết quả PT NCTM
: Ảnh hưởng của kết quả liệt dạ dày đến kết quả PT NCTM
Hình 6.1: Đề xuất mô hình triển khai tại BV ĐHYD HCM
Sự ảnh hưởng kết quả viêm da dây thần kinh đến kết qua
Ảnh hưởng của kết quả khám loét chân đến kết quả PT NCTM
Ảnh hưởng của kết quả nhồi máu cơ tim đến kết quả PT NCTM
Ảnh hưởng của kết quả khám đột quy đến kết quả PT NCTM
Ảnh hưởng của tiền sử NB HTL đến kết qua.
Ảnh hưởng của tiền sử RB của NB đến kết quả.
Ảnh hưởng của kết quả khám điều trị ăn đơn thuần đến kết qua
Ảnh hưởng của NB đang dùng thuốc Insulin đến kết quả.
Ảnh hưởng của NB đang điều trị thuốc huyết áp đến kết quả.
Ảnh hưởng của NB đang điều trị thuốc Statin đến kết quả
Ảnh hưởng của NB có kèm điều trị thuốc Fibrate
Đồ thị và tương quan của NB điều trị chống kết tập đến NCTM
Ảnh hưởng của kết quả khám LS chân trái
Ảnh hưởng của kết quả khám LS chân trái
Ảnh hưởng của kết quả khám LS mắt phải đến kết quả
Ảnh hưởng của kết quả khám LS mắt trái
Ảnh hưởng của tiền sử DTD gia đình đến kết quả
Ảnh hưởng của kết quả khám LS mạch máu chân phải
Ảnh hưởng của kết quả khám LS mạch mau chân trái
Code thao tác chuẩn bị dữ liệu trên python
Code thao tác chuyên đổi dữ liệu trên python
Chia tập dữ liệu thành bộ train và test Hình ảnh xây dựng MHDB Perceptron Learning Algorithm
Hình ảnh xây dựng MHDB Support Vector Machine 99
Hình ảnh xây dựng MHDB Random Forest 100
Hình ảnh mô phỏng so sánh mô hình SVM va PLA .I01 Hình ảnh mô phỏng so sánh mô hình Random Forest và PLA 101
Hình xử lý trích chọn đặt trưng và chạy lại ba mô hình
So sánh mô hình Random Forest với PLA, SVM sau trích chọn đặc trưng 104
Đánh giá tông thé ba mô hình
Trang 11MỞ DAU
ï thiệu
Đái tháo đường là một dạng của bệnh rối loạn chuyển hóa cacbohydrat,
mỡ và protein khi tụy bị thiếu hoóc môn insulin, hoặc các tác động của cơ thể bị giảm,
thấy rõ nhất là mức đường luôn luôn cao trong máu; khi mới phát bệnh thì nó thường
biểu hiện của người bệnh (NB) là đi tiểu nhiều vào ban đêm và vì vậy những ngườinày thường khát nước Bệnh DTD là một trong những lý do chính phát sinh ra nhiềubệnh hiểm nghèo, vi dụng như bệnh tim, bệnh mạch vành, bị tai biến, mù mắt, suy
thận.
Ti lệ mắc bệnh đái tháo đường trên toàn thế giới tiếp tục gia tăng và được dựđoán rằng trên 600 triệu người sẽ tiến triển mắc đái tháo đường típ 2 trên toàn thế giớivào năm 2045, và một con số tương tự tiền đái tháo đường đang phát triển Ở nước tacũng được xếp trong nhóm quốc gia có tỉ lệ NB đái tháo đường tăng nhanh nhất trênthế giới Những con số này đặt ra những vấn đề báo động cho các nền kinh tế đangphát triển, trong đó những người tham gia trực tiếp vào việc tăng trưởng kinh tế là
những người có thé dé trở thành đái tháo đường tip 2 và chết sớm vì bệnh lý [8]
Biến chứng về tìm mạch ở các bệnh nhân đái tháo đường là một trong nhữngbiến chứng phổ biến nhất và là một trong những căn nguyên gây tử vong ở các bệnhnhân đái tháo đường Vì vậy việc theo dõi điều trị, phân tang NCTM là một phần vô
cùng quan trọng trong việc điều trị bệnh nhân đái tháo đường hiện nay trong y học
2 Lý do lựa chọn đề tài
Phân tầng NCTM có ý nghĩa vô cùng quan trọng trong việc điều trị NB đái tháođường, đặc biệt là việc ngăn ngừa các biến chứng gây tử vong như tim mạch, đột quy.Hiện nay khi NB bị đái tháo đường vào viện khám thì ngoài việc điều trị đái tháo
đường, bác sĩ phải đánh giá những biến chứng và bệnh hiểm nghèo khác do đái tháo
đường gây ra, nguy cơ tim mach là một trong những công việc mà bác sĩ đồng thời
thực hiện đánh giá
Phương pháp thực hiện dé phân tang NCTM cho NB DTD tip 2 hiện nay là bác
sĩ ghi nhớ tất cả những chỉ số khám LS thuộc NB đó như: Tuổi, chỉ số huyết áp, rỗiloạn mỡ máu, khám thận, bệnh về thần kinh, loét chân, bệnh nhồi máu cơ tim, thuốc
Trang 12lá, rượu bia từ 48-50 chỉ số dé phân tang NCTM cho NB đái tháo đường tip 2, từ
đó bác sĩ có liệu pháp điều trị thích hợp đối với NB đái tháo đường Các phương pháp
hiện nay được thao tác một cách thủ công, bác sĩ phải đọc từng dòng dữ liệu đã thu
thập từ đó đưa ra kết quả phân tầng NCTM đối với NB đái tháo đường, việc này tốnnhiều thời gian và dễ bị sai sót trong quá trình thực hiện
Xuất phát từ thực trạng hiện tại của BV, trong đó khoa khám bệnh quá tải trong
khâu khám và theo dõi chữa trị bệnh DTD và tim mạch Đề tài này ứng dụng phân tích
đữ liệu dựa vào bộ Data thu thập trong khi thăm khám NB khám bệnh tại BV ĐHYD
TPHCM để phân tích các nguy cơ có thé anh hưởng đến kết quả PT NCTM, đồng thờixây dựng mô hình dự báo (MHDB) phân loại nguy cơ tim mạch đối với NB đái tháo
đường típ 2.
Đề tài đóng góp công cụ hỗ trợ bác sĩ công cụ thực hiện nhanh chóng, đóng góp
xây dựng MHDB tầng NCTM đối với NB DTD tip 2 hỗ trợ bác sĩ đưa đưa ra hướng điều
trị một cách nhanh chóng.
3 Mục tiêu đề tài
Phân tích dữ liệu thực tế đối với người mắc bệnh ĐTĐ típ 2 và đưa ra MHDB kết
quả phân loại PT NCTM trên NB DTD tip 2
Mục tiêu cụ thể
- Phân tích sử dụng trên dữ liệu thực của bệnh án DTD tip 2 tại khoa khám bệnh thuộc.
BV ĐHYD HCM
- Phân tích dữ liệu đã thu thập được gồm các biến số - là các yếu tố có thé ảnh hưởng
đến kết quả phân loại NCTM đối với NB bị mắc bệnh DTD tip 2
- Dé xuất mô hình(model) sử dung dé phân tang (phân loại) NCTM thông qua các thuật
toán trong phương pháp toán học và phương pháp máy học
4 Phương pháp luận
- Phương pháp thu thập thông tin và số liệu: Thu thập số liệu của NB trong vòng 5 năm
từ năm 2017 đến năm 2022, gần 10 nghìn người dang mắc bệnh DTD đã từng đượcbác sĩ thăm khám qua tại chuyên khoa Nội tiết của BV ĐHYD HCM
- Phương pháp phân tích dữ liệu: Phân tích dữ liệu trên những biến số có được của từng
ca bệnh đã khám nhằm đánh giá mối tương quan giữa các yếu tố từ đó đưa ra các yếu
tố ảnh hưởng và các yếu tố không ảnh hưởng đến kết qua phân tang NCTM
Trang 13- Phương pháp mô hình toán: Sử dụng một mô hình toán học để chạy thực nghiệm trênnền dữ liệu đã thu thập và đã phân tích đưa ra mô hình sử dụng phân loại phù hợp
- Phương pháp ghi nhận các ý kiến của các chuyên gia: Tham khảo và ghi nhậ các ý kiến
tư vấn, đóng góp của chuyên gia về lĩnh vực phân tích, của bác sĩ trong ngành; luận cứkhoa học các van đề vướng mắc, tìm nguyên nhân và các giải pháp khắc phục
5 Đối tượng nghiên cứu và phạm
Đối tượng nghiên cứu
Nghiên cứu trap trung vào thông tin tập dữ liệu gọi là “bệnh án DTD tip 2”
Phạm vi nghiên cứu:
Trong phạm vi bài nghiên cứu, học viên dé xuất mô hình chạy thực nghiệm gồm:
- Xem xét mức độ ảnh hưởng của các yếu tố đến việc kết quả phân tầng NCTM trên
những NB đái tháo đường típ 2 được thu thập được.
- Nghiên cứu MHDB kết quả phân tang NCTM trên tập dữ liệu bệnh án DTD tip 2
6 Ý nghĩa khoa học và ý nghĩa thực tiễn của đề tài
Hiện nay Bộ Thông tin Truyền thông và Bộ Y tế đang thực hiện nhiệm vụ đâymạnh công tác chuyền đổi số Đối với ngành y tế, Bộ Y tế đang day mạnh triển khai ứngdụng công nghệ thông tin trong ngành Quyết định s6 2656/QĐ-UBND ngày 26/07 năm
2021 của Ủy ban nhân dân thành phố Hồ Chí Minh về việc Phê duyệt Đề án “Y Tế thông
minh giai đoạn 2021 — 2025 và tầm nhìn 2030” Mục tiêu sẽ xây dựng một hệ thống côngnghệ thông tin có khả năng tích hợp kết nói, chia sẻ và liên thông được nhiều cơ sở y tế
(CSYT) với nhau.
Nội dung của đề tài đóng góp ý nghĩa khoa học khi phân tích các đặc trưng của
bài toán phân loại trong lĩnh vực y khoa và bộ dữ liệu tại BV DHYD TPHCM, các quy
trình được sử dụng phân tích và dự báo trên bộ dữ liệu này.
Đề tài của bài luận văn đóng góp ý nghĩa thực tiễn khi học viên áp dụng vào bộ
dữ liệu thực tế, có thé triển khai ứng dung tại đơn vị của học viên làm việc, trên dữ liệu
thật được thu thập, trình bày các kết quả đạt được mang ý nghĩa, và trả lời các câu hỏi đã
đặt ra dé từ đó đưa ra những dé xuất xây dựng ứng dụng được tốt hơn
Đề tài này góp phần xây dựng một ứng dụng đề các bác sĩ có thêm nhiều thông
tin, cơ sở giúp ích cho các bác sĩ và bộ phận CNTT của BV học viên đang công tác và
các CSYT khác phát triển thành một công cụ hoàn chỉnh để thực hiện một cách tự động
Trang 14việc dự báo kết quả phân loại NCTM cho NB đái tháo đường, giúp rút ngắn thời giankhám và điều trị của bác sĩ
Qua đề tài này việc ứng dụng vào dữ liệu thực tế nhằm đưa ra MHDB phù hợp
đối với việc phân tầng NCTM cho NB đái tháo đường sẽ là tiền đề cho việc xây dựng cácbệnh án khác: Bệnh án chuyên khoa răng hàm mặt, bệnh án chuyên khoa thẩm mỹ, bệnh
án chuyên khoa sản, bệnh án phân loại khám sức khỏe
Đề tài cũng là bước đầu dé BV phát triển thêm nhiều lĩnh vực như: Hệ thống hỗtrợ ra quyết định, hệ thống dự báo kết quả chân đoán bắt thường đối với việc thực hiệnkhám cận LS đang mong muốn được xây dựng như: Xét nghiệm, đo điện tâm đồ, điện
cơ, điện não
7 Cau trúc của đề tài như sau
- Chương 1 Tổng Quan, bao gồm giới thiệu tổng quan về hướng nghiên cứu, phạm vinghiên cứu, phương pháp nghiên cứu
- Chương 2 Cách tiếp cận và phương pháp nghiên cứu liên quan: Trinh bày các phươngpháp nghiên cứu phỏ biến về phân tích dữ liệu, dự báo phân tang NCTM và cách lựa
chọn mô hình.
- Chương 3 Các cơ sở lý thuyết: Trình bày các cơ sở lý thuyết liên quan học viên ứng
dụng vào bài nghiên cứu, các cơ sở lý thuyết về phân tích dữ liệu và các mô hình họcmáy
- Chương 4 Khám phá dữ liệu - Phân tích dữ liệu: Giới thiệu dữ liệu trong lĩnh vực y
khoa cụ thể là bộ dữ liệu bệnh án Đái tháo đường được thu thập tại phòng khám nộitiết khoa khám bệnh thuộc BV ĐHYD TPHCM trong 5 năm, từ năm 2017 - đến năm
2022 Thực hiện thực nghiệm và đánh giá các MHDB trên bộ dữ liệu có được.
- Chương 5 - Đánh giá nhận xét các kết qua phân tích và các MHDB
- Chương 6 - Kết luận và hướng phát triển
10
Trang 15CHƯƠNG 1 TONG QUAN
1.1 Khái niệm và mối liên quan bệnh đái tháo đường với tìm mạch
1.1.1 Khái niệm về bệnh đái tháo đường
Bệnh đái tháo đường là khi cơ thể chúng ta bị rối loạn sự chuyển hóa không đồng
nhất, có trạng thái trong máu bị tăng glucose vì chức năng điều tiết insulin không hoạt
động tốt, hiện nay DTD được nhận diện bao gồm các loại:
Dai tháo đường tip 1 (Type 1): NB thường bị thiếu insulin do tuyến tụy không sảnxuất insulin Dai tháo đường tip 1 hiếm gặp, bị di truyền, thường xảy ra ở trẻ nhỏ, ngườitrẻ và chiếm dưới 10% số người mắc bệnh
Đái tháo đường típ 2 (Type 2): những người bị đái tháo đường típ 2 bị đề khángvới insulin Nghĩa là cơ thé vẫn có thé sản xuất insulin nhưng nó không thé chuyền hóađược glucose Khoảng 90% - 95% người bị đái tháo đường trên thế giới là tip 2
Dai tháo đường ở phụ nữ mang thai (thai kỳ): thường được xách định và phát hiện
trong thời điểm 3 tháng cuối trong kỳ mang thai hoặc là khoảng giữa của 3 tháng giữa
kỳ mang thai và không thuộc diện ĐTĐ típ 1, trước đây không có các triệu chứng về
DTD tip | và tip 2
Những loại đái tháo đường khác gọi là chuyên biệt do nhiều lý do như đái tháođường ở trẻ mới sanh, nguyên nhân dùng thuốc điều trị bệnh khác hoặc những chất đượcnap vào co thé trong khi chữa bệnh, đái tháo đường do điều trị HIV/AIDS, đái tháo
đường sau cấy ghép mô
1.1.2 Sự hệ giữa các bệnh lý tim mạch và DTD
Dai tháo đường là một dang bệnh nội tiết chuyển hoá rat đặt biệt, nguyên do là có
sự lượng đường glucose trong máu tăng dưới dạng mạn tính Bệnh phát triên từ dạng
mạn tinh sau đó rồi loạn và làm cho nhiều cơ quan bị suy yếu, va trọng tâm trong phầnnghiên cứu này của học viên là liên quan đến các vấn đề về tìm mạch
Các bệnh liên quan đến tim mach là thường rất phô biến, nguy hiểm nhất đó là cóthé gây tỷ lệ tử vong cao đối với những NB DTD Vì vậy, việc nắm bắt và hiểu biết vềbệnh lý tim mạch, các dấu hiện LS của biến chứng tim mạch sẽ góp phần phòng ngừa,hạn chế sự tiến triển của bệnh tim mạch ở các bệnh nhân đái tháo đường là rất cần thiết
Trang 16O NB DTD, cơ thể của họ có đường huyết rất cao dài dẫn đến tổn thương các
mạch máu, các dây thần kinh làm nhiệm vụ chỉ phối tới các mạch máu (cũng như quả
tim của của chúng ta) Dé thời gian mang bệnh DTD càng lâu thì nguy cơ bị các bệnhliên quan đến tim mạch càng cao NB bị đái tháo đường thường hay mắc các chứngbệnh tim mach ở tuổi trẻ hơn so với những người không bi DTD Nếu được giám sát,
theo dõi, điều trị kịp bệnh DTD thì có thể việc nguy cơ mắc các chứng bệnh tim mạch
sẽ giảm.
1.2 Thực trạng và các nghiên cứu liên quan
1.2.1 Tổng quan về BV ĐHYD HCM
BV ĐHYD HCM là một bệnh viện (BV) của trường Dai học Y Dược TPHCM
(ĐHYD) hoạt động theo mô hình Viện — Trường Là BV công lập và hạch toán độc lap
theo quyết định của Bộ Y tế
BV ĐHYD HCM làm nhiệm vụ khám, chữa bệnh; nghiên cứu khoa học; chanđoán, điều trị, chăm sóc sức khỏe người dân dựa vào các kỹ thuật cao; thực hiện đào tạo
các nguồn lực chuyên môn y học và chuyên giao các mô hình cho các đơn vị cùng ngành
Hiện nay với sự nỗ lực của đội ngũ y bác sĩ, BV ĐHYD HCM là BV hạng | với
thực hiện khám chữa bệnh ở ba cơ sở, 1.000 giường điều trị, 12 Phòng chức năng, 39
trung tâm và đơn vị Trung bình BV tiếp nhận khám điều trị ngoại trú 5000 lượt/ngày,
nhập cấp cứu gần 40 lượtngày, nhập điều trị nội trú 250 lượtngày BV Đại học Y DượcTPHCM là một trong những BV tốt ở khu vực Miền nam và cả nước
1.2.2 Tình hình điều trị đái tháo đường và biến chứng tim mạch tại BV DHYD
HCM
Phòng khám các bệnh liên quan đến nội tiết của BV nhận khám trung bình 300
lượt khám trong ngày, trong đó trung bình có 4.5 lượt khám mắc bệnh đái tháo đường
~ chiếm tỷ lệ 1.5%
BV thường bị quá tải, NB rất đông Đại đa số người dân đều tập trung khám bệnh
ở các BV lớn dẫn đến tình trạng này
Việc chữa bệnh đái tháo đường thường được các bác sĩ chỉ dẫn theo một lộ trình
và mắt nhiều thời gian, song song cũng có sự hợp tác nghiêm chỉnh của NB đồng thờitheo dõi giám sát các chỉ số xét nghiệm liên quan, vì vậy việc chữa tri DTD cần có thời
gian công sức các bác sĩ và sự kiên nhẫn của NB
12
Trang 171.2.3 Hiện trạng phân tích dữ liệu đối với NB đái tháo đường và biến chứng timmạch tại BV ĐHYD HCM và các CSYT khác
BV thúc day mạnh các chủ trương của nha nước như: Thực hiện dé án y tế thôngminh giai đoạn 2021 — 2025 của Bộ Y tế, số hóa hồ sơ bệnh án, ứng dụng bệnh án điện
tử và áp dụng ứng dụng trí tuệ nhân tạo vào việc giúp ích cho những nhà chuyên môn
trong quá trình chữa bệnh Đại đa số những BV, phòng khám lớn tương tự cũng như tại
BV áp dụng các sản phim CNTT đã được thương mai như ứng dung RAPID AI trongđiều trị đột quy cấp, ứng dụng AI DrAid tự động chỉ ra các điểm không bình thường và
bệnh lý trên hình chụp X-quang.
Đặc giống nhau của các thử nghiệm về lĩnh vực phân tích dữ liệu, học máy hay
AI là được thực hiện trên bộ dữ liệu chuẩn như DICOM Còn lại đại đa số các công
trình nghiên cứu hiện nay của BV và các CSYT khác được thực hiện với các cách như
lấy mẫu trực tiếp (Ví dụ thực hiện khảo sát trên 100 NB), phương pháp thống kê số liệu
thực hiện trực tiếp trên NB, có thê kể đến các công trình nghiên cứu như:
Tại bệnh viện ĐHYD HCM trước đây chú trọng trong việc quản trị BV, phát triển
các MHDB về số lượng lượt khám, doanh thu mỗi ngày hoặc về chất lượng dịch vụ.
Đồng thời tại BV và những cơ sở có cùng chức năng ở Việt Nam hiện nay việc xây
dựng hệ thống phần mềm còn rời rạc, nhiều mô đun phần mềm được phát triển phát
sinh theo nhu cầu sử dụng, việc nhập liệu và lưu trữ vào cơ sở đữ liệu không được chuẩnhóa nên khi cần khai thác dữ liệu sẽ vướng phải nhiều khâu như: Không đủ thông tin,trường thông tin dữ liệu lẫn lộn giữa các kiểu dữ liệu, hoặc cần phải thực hiện kết nối
nhiều cơ sở dữ liệu, kết nối nhiều bảng dữ liệu ở các hệ thống khác nhau Dé có một bộ
dữ liệu chuẩn dùng vào việc phân tích và nghiên cứu cần phải xây dựng từ đầu hoặc là
thực hiện thủ công trải qua nhiều công đoạn
Hiện nay các bác sĩ tại BV đã quen dan với việc ứng dụng CNTT, và nhận thấyviệc ứng dụng CNTT là rất quan trọng vào việc nghiên cứu khoa học dựa trên tập dữ
liệu được lưu trữ lại nên đã phối hợp cùng bộ phận CNTT để xây dựng một công cụ thu
thập bộ dữ liệu này nhằm ứng dụng vào công tác nghiên cứu khoa học về sau
1.2.4 Các nghiên cứu liên quan
Luận án tiến sĩ y học của Trần Thị Trúc Linh [4] Đại học Y Dược Huế năm 2016
“Nghiên cứu mối liên quan giữa biểu hiện tim với mục tiêu theo khuyến cáo ESC-EASD
Trang 18ở bệnh nhân đái tháo đường týp 2 có tăng huyết áp”, việc nghiên cứu được thực hiệnqua việc theo dõi điều trị, ghi chép số liệu trên một số lượng NB nhất định, sau đó tiếnhành phân tích và đưa ra kết quả
Nghiên cứu thực hiện trên tập dữ liệu của các công trình nghiên cứu khoa học
khác trên thế giới như Luận văn Thạc sĩ của Hoàng Văn Thắng — năm 2020 [5] “Ungdụng khai phá dữ liệu trong hỗ trợ chấn đoán bệnh đái tháo đường tuýp 2” sử dụng bộ
dữ liệu về đái tháo đường được ghi nhận trên người Án Độ, bộ dữ liệu được ghi chépbỡi Viện Tiểu đường và Bệnh tiêu hóa và thận Hoa Kỳ
Nghiên cứu “Rừng ngẫu nhiên cải tiến cho phân loại dữ liệu gien” với nội dung
sử dụng thuật toán rừng ngẫu nhiên kèm theo việc cải tiến thuật toán sử dụng để phânloại gien Việc nghiên cứu thực hiện trên tập dữ liệu có sẵn của công trình nghiên cứukhác của các tác giả Huỳnh Phụng Toàn, Nguyễn Vũ Lâm, Nguyễn Minh Trung và Đỗ
Thanh Nghị
14
Trang 19CHƯƠNG 2 CÁCH TIẾP CẬN VÀ PHƯƠNG PHÁP NGHIÊN CỨU
các công trình nghiên cứu khác, hoặc nghiên cứu được thực hiện LS trên các NB thông
qua việc lấy mẫu ngau nhiên
Với việc nắm bắt được tầm quan trọng trong việc thu thập dữ liệu để phục vụ việckhám chữa bệnh tại BV, các y bác sĩ tai BV ĐHYD HCM đã phối hợp với phòngCNTT thiết kế triển khai mẫu bệnh án DTD dé ghi nhận lại tat cả các yếu tố NB ảnhhưởng đến tìm mạch Với bộ dữ liệu sẵn có, học viên đã tham khảo các ý kiến của bác
sĩ và tiền hành nghiên cứu trên tập dữ liệu sẵn có này
2.2 Phương pháp nghiên cứu
- Phương pháp thu thập số liệu: Thu thập số liệu của NB trong vòng 5 năm từ năm 2017đến năm 2022, gần 10 nghìn lượt khám đang mắc bệnh DTD đã từng được khám quatại chuyên khoa Nội tiết của BV
- Phương pháp tiền xử lý đữ liệu: Trong quá trình nhập liệu với thực trạng bệnh nhânđông, các bác sĩ nhập liệu nhiều dữ liệu number và text xen lẫn vào nhau, hoặc cácchỉ số xét nghiệm khi cập nhật tự động đã ghi nhận bao gồm phan đơn vi tính, nhiềuhang dit liệu có các 6 không có dit liệu vì vậy cần có bước chuẩn hóa dữ liệu
- Phương pháp phân tích dữ liệu: Phân tích dữ liệu trên những biến số có được và được
chuẩn hóa của từng NB, phân tích từng biến độc lập với so với biến phụ thuộc nhằm
đánh giá mức độ ảnh hưởng hay là độ tương quan của các yếu tố đến các kết quả phântầng tim mạch của NB DTD tip 2
- Phương pháp sử dụng các mô hình toán: Sử dụng ba mô hình toán học khác nhau dé
chạy thực nghiệm trên nên dữ liệu đã thu thập và đã phân tích và để xuất mô hình phùhợp
Trang 20- Phuong pháp ghi nhận ý kiến từ các chuyên gia: Ghi nhận ý kiến đóng góp của chuyêngia về lĩnh vực phân tích, đóng góp các câu hỏi cần phải trả lời của bác sĩ trong ngành;
luận cứ khoa học các bài toán cần cần giải quyết, phân tích đánh giá nguyên nhân vàtìm kiếm các hướng dé khắc phục
Các bước thực hiện
Để xây dựng một công cụ ứng dụng vào việc phân tích dữ liệu và dự báo được kết
quả phân loại NCTM tự động đối với NB đái tháo đường típ 2, các bước thực hiện
như sau:
Bước 1: Thu thập dữ liệu
Bước 2: Làm sạch và chuẩn hóa số liệu
Bước 2: Khám phá và Phân tích dữ liệu
Bước 3: Xây dựng MHDB
Bước 4: Đánh giá kết quả phân tích và dự báo
Thu thập Data Tiền xử lý Data Xử lý tập Data
Phân tích từng Tập data bệnh án thành phân data
DTD ci
ĐHYD TPHCM
- Chuan hóa chuyên đôi
Kết luận và đề xuất Mô hình học máy
t toán Perceptron Learning
- Thuật toán Support Vector Machine
- Hướng phát triển ~ Thuật toán Random Forest
- Lựa chọn các biên dau vào phù hợp cho mô
hình
Hình 2.1: Các bước đề xuất thực hiện nghiên cứu
16
Trang 21CHUONG 3 CƠ SỞ LÝ THUYET
3.1 Phân tích mô hình hồi quy tuyến tính đơn giản
- Quan hệ được gọi là tuyến tính có thé hiểu là một thuật ngữ được sử dụng trong thống
kê, được dùng dé diễn tả mối quan hệ giữa một biến độc lập và một một biến phụ
- _ Mô hình hồi quy tuyến tinh đơn giản là mô hình được dién đạt bằng một phương trìnhy= #+ Bx, với một yếu tô đầu vào là x nên được gọi là model hồi quy tuyến tínhđơn giản Là một phương pháp thống kê phân tích giúp hồi quy và dự bao dit liệutheo thuật toán giữa một một biến độc lập (biến đầu vào) với một biến phụ thuộc (đầura) Giải thích một cách đơn giản thì hồi quy tuyến tính đơn giản đó là cách tiếp cậntuyến tính dé dự đoán biến đầu ra Y trên trục tung y dựa trên các biến biến đầu vào Xtrên trục hoành x trong đồ thị
3.2 Phân tích hệ số tương quan Pearson
- Thường được mô tả bằng có một biến di chuyền với một biến khác trong một mối
quan hệ.
- Hệ số tương quan gọi là r, được tính trong trong giới hạn -1 <r < 1 Trong đó đượcgiải thích rằng:
+ Hệ số tương quan r > 0 cho biết mối tương quan là tương quan thuận và cả hai di
cùng một hướng Nếu r= | thì cả hai biến đang đánh giá mối tương quan dang dichuyển song song
+ r<0 cho biết mối tương quan là tương quan nghịch và cả hai đi đi ngược nhau
+ r=0 thì nói lên kết quả hai biến không có tương quan.
Trang 223.3 Thuật toán Perceptron Learning Algorithm
Thuật toán Perceptron Learning Algorithm (PLA) là một mô hình cơ bản của
Neural — nền tang của Deep Learning, PLA là thuật toán dạng phân loại sử dụng chonhững bài toán phân loại kết quả hai lớp
Có hai tập hợp data, giả sử đã được đánh sẵn nhãn, như bên dưới (hình 3.1)
hình bên trái Hai lớp được mô phòng là một tập các ô vuông (màu xanh) và một tap
các 6 tròn (mau đỏ) Câu hỏi là với tập dit liệu đó, hãy dựng lên một mô hình phân hai
lớp rõ ràng, khi có một ô tam giám màu xám thì nhận dạng được nó nằm ở lớp nào
Hình 3.1: Biểu diễn bài toán phân chia hai lớp
Theo một cách giải thích khác là cần thực hiện phân chia vùng cho mỗi lớp, vớimột data mới, chúng ta chỉ cần xác định xem điêm dữ liệu mới đó thuộc vào vùng nàocủa lớp nào và quyết định dữ liệu mới thuộc lớp đó Để phân chia được các vùng thìchúng ta cần tìm đường biên chia cắt giữa chia vùng Như vậy bài toán phân loại được
hiểu đơn giản hơn là tìm đường chia cắt giữa hai vùng
Tương tự như những thuật toán khác trong lĩnh vực ML, PLA là bài toán tìm
đường phân chia bằng cách làm nhỏ nhất một hàm gọi là mat mát PLA xây dựng hàmmat mát đảm bảo rằng một hàm số phải là khả vi
Thuật toán PLA thực hiện các bước như sau
a) Chọn một vector bất kỳ với hệ số khởi tạo w và biên được xác định (một
đường thẳng)
b) Tìm được các điểm đã bị phân lớp sai và điều chỉnh lại vector của bước (a)
theo phương Gradient descent (nghiệm gần đúng của bài toán) cho các điểm dữ liệu
theo tuần tự x; nằm trong tập # gọi là tập phân lớp không đúng
18
Trang 23c) Dò lại các điểm đã thự hiện cập nhật đường biên (boudary) phân chia đúng
đã được đánh dấu Nếu có điểm sai tiến hành làm lại bước (b)
3.4 Thuật toán Support Vector Machine
Hình 3.2: Ví dụ bài toán phân chia hai lớp của SVM.
Các đối tượng trên đồ thị tọa độ quan sát thường được gọi là Support Vectors vàbiên giới phân chia hai lớp (tốt nhất) được gọi là Support Vector Machine
3.4.2 Cách hoạt động của Support Vector Machine
Việc tìm một không gian siêu phẳng đề phân chia bao gồm các bước
Trang 24Hình 3.3: Mô tả hoạt động của SVM
Bước 1: Theo hình 3.3 có ba đường thắng được gọi là siêu phẳng, cần chọn ramột đường chính xác nhất đề phân chia hai món màu xanh và màu đỏ Như vậy nguyên
tắc đầu tiên để chọn một hyper plane (siêu phăng) là chọn một hyper-plane đề phân chia
hai lớp tốt nhất, trong hình chúng ta thay là đường N
Bước 2: Nhìn hình 3.4 chúng ta thấy có ba đường siêu phẳng M, N, O, theo bước
1 thì cả ba đường đều thỏa mãn Vì vậy bước (2) cần xác định khoảng cách lớn nhất từđiểm gần nhất của lớp màu đỏ hoặc lớp màu xanh đến đường thẳng, khoảng cách nàyđược gọi là Margin Theo hình 3.4 thì chúng ta thấy khoảng cách các margin lớn nhất
là đường thing O Và ghi nhớ dé không được chọn nhầm vì khi dữ liệu nhiều lên thì déxảy ra tình trạng phân lớp sai
x
Hình 3.4: Xác định khoảng cách giữa cách đường siêu phẳng
20
Trang 25Bước 3: Vẫn sử dụng các bước (1) và bước (2) dé chọn ra siêu mặt phẳng (đườngthẳng) như hình 3.5 dưới đây
Hình 3.5: Chọn siêu mặt phẳng chia lớp riêng biệtChúng ta thấy mục tiêu chia hai phần riêng biệt nếu không chú ý đặt điểm là màuthì có thể sẽ chọn đường N, tuy nhiên sẽ là không đúng vì theo bước (1) thì cần phảichọn siêu mặt phẳng thành hai lớp riêng biệt với nhau như vậy đường M mới là đườngchính xác nhất
3.4.3 Margin của Support Vector Machine
Margin hay còn gọi là lề là khoảng giữa các đường siêu phẳng đến hai điểm datagần nhất tương ứng với mỗi lớp đã được phân chia Trong các bài toán SVM thì cácmargin luôn được đặt ra dé tính toán tìm điềm lớn nhất nhờ đó mà SVM giảm rất nhiều
sự thiếu sót trong việc phân loại data mới
3.4.4 Nhận xét
s* Điểm mạnh của thuật toán SVM
- SVM là một kỹ thuật phân loại phổ biến, điểm mạnh là tính toán hiệu quả đối với dữ
liệu dung lượng lớn
- SVM sử dụng tốt trong không gian chiều cao, đặt biệt sử dụng cho các bài toán phân
loại văn bản hoặc phân tích hành vi, quan điểm
- SVM có ưu điểm hoạt động ít tốn tài nguyên bộ nhớ
- SVM hoạt động linh hoạt trong các bài toán phân lớp phi tuyến Với khả năng áp
dụng các Kernel mới rất linh động trong việc sử dụng phương pháp phi tuyến và tuyếntính đưa đến hiệu suất phân loại cao
Trang 26SVM là áp dụng tốt trong vấn dé xử lý ảnh, phân loại văn bản các loại, phân loại hành
vi (có/không), quan điểm (đúng, sai)
“ Yéu điểm của thuật toán
SVM cũng có một số nhược điểm như đối với tập data lớn thì SVM cho kết quả khôngtốt bằng các thuật toán khác Ngoài ra việc giải thích chỉ tiết, dé hiểu rõ chỉ tiết xác
suất của từng kết quả phân loại của mỗi kết quả thì phải dựa vào các khái niệm về
định nghĩa khoảng cách giữa siêu phẳng đến các điểm dữ liệu được đo gần nhất giữahai lớp hoặc hai kết quả (Margin)
Để SVM hoạt động hiểu quả và linh hoạt thì thường sử dụng kèm các hàm Kernel
3.5 Thuật toán Random Forest
3.5.1 Giới thiệu thuật toán
Random forest (RF) là thuật toán học máy phổ biến, là một thuật toán về kỹ thuật học
có giám sát và có áp dung cho cả bài toán hồi quy và phân loại trong Machine
Learning
RF hoạt động bằng cách tạo ra bat kỳ một cây quyết định trên các mẫu data, mỗi câyđược dự đoán và chọn giải pháp tốt nhất bằng cách bỏ phiếu RF đã cung cấp khá tốtcác chỉ báo về tầm quan trọng của tính năng sẵn có
RF thường được sử dụng rất nhiều, do tính chất đơn giản và đa dạng Số lượng cây
lớn hơn được dùng trong rừng nên độ chính xác cao hơn và phòng ngừa vấn đề quá
tải.
Diễn đạt bằng kỹ thuật thì đây là một cách tổng hợp dựa trên những cách tiếp cận
phân loại và đưa ra quyết định của các cây quyết định được tạo ra trên một tập dữ liệuđược chia ngẫu nhiên
Một tập phân loại cây quyết định này còn được gọi là rừng Cây được phân tráchnhiệm quyết định riêng lẻ được tạo ra bằng phương pháp dùng chỉ báo chọn các đặctính như cộng thêm thông tin, số lượng cộng thêm và chỉ số bất thường cho mỗi loạithuộc tính Mỗi cây quyết định đưa ra kết quả ngẫu nhiên độc lập
Trong bài toán phân chia nhiều lớp, mỗi sự lựa chọn và lớp được chọn nhiều nhất sẽ
được bau ra là kết quả cuối cùng Đối với những bài toán hồi quy, thì việc bau ra kết
quả cuối cùng được tính theo mức trung bình cộng của các cây quyết định Việc phân
loại diễn ra dé dang và nhanh chóng
2
Trang 273.5.2 Cách hoạt động của Random Forest
Cách RF vận hành:
a) Từ tập data ban đầu, chọn ra các mẫu một cách random
b) Mỗi mẫu tạo một cây quyết định từ đó từ cây quyết định này tiếp nhận kết quả
eco
sy a
Test Set Voting
Hinh 3.6: Dién dat Random Forests
3.5.3 Đánh giá thuật toán Random forest
Ưu điểm
- RF đào tạo nhanh hơn so với các thuật toán phân loại khác.
Kết quả của RF cho độ chính xác cao, bao gồm tập data lớn kết cho kết quả đầu rarất tin cậy
- RF dự đoán tốt khi data bị thiếu một phan
‹* Nhược điểm
- RF có thể dự đoán chậm do xuất hiện nhiều cây quyết định
- Khi thực hiện dự đoán, trong một lượt thì đồng loạt các cây trong rừng phải đưa ra
dự đoán cùng một lúc rồi đồng thời cử cây đại điện Tắc cả các bước có thé matchỉ phí về thời gian
Trang 28Nếu tìm hiểu qua mô hình cây khác thì RF khó hiểu hơn, Ví dụ cây quyết định sẽđưa ra kết quả quyết định dé dàng với phương pháp di theo chỉ dẫn trong cây.
Ứng dụng:
Với các ưu điểm của mô hình, Random forest thường được sử dụng vào các lĩnh
vực như:
Y học: Dự báo các bài toán phân loại bệnh và nguy cơ của bệnh
Ngân hang: Ứng dụng mô hình dé xác định khi rủi ro giải ngân vay tiền
Bat động san: Ung dụng vào việc xác định các khu vực đất đai
Tiếp thị: Dự báo để đưa ra các xu hướng tiếp thị trong tương lai
24
Trang 29CHƯƠNG 4 KHÁM PHÁ DỮ LIỆU - PHÂN TÍCH DỮ LIỆU
4.1 Giới thiệu tập Data
Dữ liệu (data): Bộ data được sử dụng từ việc các bác sĩ thu thập ghi nhận tại phòng,
điều trị bệnh nội tiết ngoại trú của BV ĐHYD HCM Mỗi ngày tắt cả bệnh nhân khám
bệnh tại khoa nội tiết khi phát hiện bị bệnh đái tháo đường thì các bác sĩ thực hiện lập
bệnh án chuyên khoa gọi là bệnh án đái tháo đường, bộ đữ liệu được nhập vào phầnmềm trong vòng 5 năm từ 2017 đến 2022, số lượng là gần 10 nghìn NB đái tháo đường(gần 10 nghìn dòng)
Data dang bảng biểu, sau khi được làm sạch và xóa bỏ các cột có thông tin tronghoặc các cột thông tin không có ý nghĩa nhiều còn lại 7011 hàng và 43 cột Mỗi cột thể
hiện một thông tin của NB bao gồm:
- SoHS: Thông tin Mã số hỗ sơ
- HoTen: Họ và tên, Nhập text
- GioiTinh: Giới tính, Nhập text (0: Nữ, 1: Nam)
Histogram with fixed size bins (bins=50)
Hình 4.2: Số liệu về biến số tuổi NB
Trang 30- NamDTD: ghi nhận lại năm mắc đái tháo đường, dữ liệu nhập text
- SoNamDTD: Năm bị đái tháo đường, tính bằng YEAR(NgayKham-NamDTD)
Histogram with fixed size bins (bin
Hình 4.3: Biểu đồ mô tả dữ liệu số nam DTD của NB
- TangHuyetAp: Tiền căn tăng huyết áp (True: có, False: Không)
- RoiLoanLipid: Rồi loan Lipid, nhập text (True: Có, False: Không)
- BenhVongMac: Khám cận LS bệnh võng mạc, nhập text (True: Có, False: Không)
- BenhThan: Khám lâm sàng bệnh thận, nhập text (True: Có, False: Không)
- ViemDaDayTK: Khám lâm sàng Viêm da day thần kinh, nhập text (True: Có, False:
Không)
- RoiLoanCuong: Khám lâm sàng rối loạn cương, nhập text (True: Có, False: Không)
- LietDaDay: Khám lâm sàng Liệt đa dây, nhập text (True: Có, False: Không)
- LoetChan: Khám lâm sàng Loét chân, nhập text (True: Có, False: Không)
- BenhThanKinh: (True: Có, False: Không)
- NhoiMauCoTim: Tiền căn nhồi máu co tim, nhập text (True: Có, False: Không)
- DotQuy: Tiền căn đột quy, nhập text (True: Có, False: Không)
- BenhDongMachChiDuoi: Khám lâm sàng động mạch đối với bệnh động mach chi dưới
nhập text (True: Có, False: Không)
- ThuocLa: Hút thuốc lá, nhập text (0: Không, 1: Có, 2: Da bỏ)
- RuouBia: Uống rượu bia, nhập text (0: Không, 1: Có, 2: Đã bỏ)
- DieuTriAnDonThuan: Khám tiền căn điều trị ăn đơn thuần, nhập text (True: Có, False:
Không)
26
Trang 31DieuTriThuocKhac: Điều trị thuốc khác, nhập text (True: Có, False: Không)
DieuTriThuocInsulin: Điều trị thuốc Isullin, nhập text (True: Có, False: Không)
DieuTriThuocHuyetAp: Điều trị thuốc huyết áp, nhập text (True: Có, False: Không)DieuTriThuocStatin: Điều trị thuốc Statin (thuộc điều trị mỡ máu), nhập text (True:
Có, False: Không)
DieuTriThuocFibrate: Điều trị thuốc Fibrate (thuốc điều trị mỡ máu), nhập text (True:
Có, False: Không)
DieuTriChongTapKet: Điều trị chống kết tập tiểu cầu, chống máu đông dẫn đến nguy
cơ đột quy, nhập text (True: Có, False: Không)
LSBanChanPhai: Khám bàn chân tiêu đường (Monoflament) — Chân phải, nhập text
(0: Bình thường, 1: Bất thường, 2: Chưa khám)
LSBanChanTrai: Khám ban chân tiêu đường (Monoflament) — Chân trái, nhập text (0:
Binh thường, 1: Bat thường, 2: Chưa khám)
LSLoetChan: Kham lâm sàng loét chân (0: Không, 1: Có, 2: Chưa khám).
LSMachMauChanPhai: Khám lâm sàng mạch máu chân phải (0: Bình thường, 1: Bấtthường, 2: Chưa khám)
LSMachMauChanTrai: Khám lâm sàng mạch máu chân trái (0: Bình thường, 1: Bat
thường, 2: Chưa khám)
LSMatPhai: Khám lâm sàng mắt phải (1: BVM chưa tăng sinh, 2: BVM tăng sinh, 3:BVM chưa tăng sinh + Phù hoàng điểm, 4: BVM tăng sinh + Phù hoàng điểm, 5: Bình
thường, 6: Chưa chụp được).
LSMatTrai: Khám lâm sàng mắt phải (1: BVM chưa tăng sinh, 2: BVM tăng sinh, 3:BVM chưa tăng sinh + Phù hoàng điểm, 4: BVM tăng sinh + Phù hoàng điểm, 5: Bình
thường, 6: Chưa chụp được).
DTDGiaDinh: Tiền sử đái tháo đường gia đình (0: không, 1: có ba mẹ bị đái tháo
đường)
DuongHuyetDoi: Chỉ số đường huyết trước khi ăn, load tự động từ xét nghiệm, đơn vị
đo là mmol/L, đối đường huyết đói của người bình thường là <5.6 mmol/L
HbAIC: chỉ số trên Hb hồng cầu, có ý nghĩa đại điện cho tình trạng gắn kết của đường,cập nhật tự động từ hệ thống xét nghiệm, được tính bằng phần trăm (%) Chỉ số HbAIC
Trang 32bat thường khi vượt ngưỡng hơn người thường là 1% tương đương với chỉ số đườnghuyết mỗi người tăng 1.7mmol/I (hoặc 30mg/dl)
+ Khi xét nghiện HbAIC > 6.5% thì nói lên đường huyết kiểm soát không tốt+ Khi xét nghiệm HbAIC < 6.5% thì chứng tỏ đường huyết được kiểm sót tốt
- Creatinin: chỉ số nồng độ Creatinin trong cơ thé giúp thể hiện thận khỏe hay yếu, dữ
liệu cập nhật tự động từ hệ thống xét nghiệm, được tính băng đơn vị mmol/L Người
trưởng thành, nồng độ creatinine bình thường sẽ là:
+ Nam: từ 53- 106 mmol/l (từ 0.6 đến 1.2 mg/dl)
+ Nữ: từ 44- 97 mmol/l (0.5 đến 1.1 mg/dl
- eGFR: chỉ số độ lọc cầu thận, chi số thể hiện lượng máu được lọc bởi các quản cầuthận trong mỗi phút, nó được tính dựa vào creatinime trong huyết thanh, dữ liệu cậpnhật tự động từ hệ thống xét nghiệm, được tính bằng đơn vị ml/phút Chỉ số độ lọc cầu
thận của người bình thường là trên 90 mL/ phút/1,73m2.
- AcNieu: là chỉ số protein niệu vi thể (microalbumin) trong 24 giờ để nhận biết bệnh lý
về thận, đơn vị đang tính trong bảng dữ liệu là mg/mmol
+ Xét nghiệm protein niệu hạ < 1g/24h: Thường được đánh giá viêm thận, viêm
thận kẽ, vỡ thận, đa nang thận, thận bị xơ mạch, có thể kèm tăng huyết ap
+ Xét nghiệm protein niệu 1< Protein niệu < 3g/24h: thường gặp trong các bệnh
về cầu thận hay viêm mạn tính hoặc cấp tính cầu thận hay bệnh thận kèm đái
tháo đường
+ Xét nghiệm protein niệu tăng > 3,5g/24h: Là một dạng bệnh thường được gọi
là hội chứng thận hư
- KetQuaPhanTangTimMach: Kết quả phân tang hay gọi là phân loại nguy cơ tim mạch
(: Nguy cơ rất cao, 2: nguy cơ cao, 1 nguy cơ trung bình) Là kết quả đầu ra của dữ
liệu dựa vào các yếu tố ở trên từ đó bác sĩ tiến hành phân loại NCTM cho NB
4 Mức nguy cơ Số ca Tỉ lệ
Nguy cơ trung bình 480
28
Trang 33Các biến số được phân loại sau quá trình khám phá dữ liệu như sau:
- Biến phụ thuộc: là biến phân loại KetQuaPhanTangTimMach, đây là kết quả đầu ra
của một ca khám bệnh dựa trên các biến số còn lại mà bác sĩ cho chỉ định thực hiện sau
đó đưa ra kết quả phân loại Từ kết quả này bác sĩ sẽ có lộ trình chữa bệnh phù hợp
- Biến độc lập: có 37 cột dữ liệu là các biến: Tuoi, SoNamDTD, GioiTinh,
TangHuyetAp, RoiLoanLipid, BenhVongMac, BenhThan, ViemDaDayTK,
RoiLoanCuong, LietDaDay, LoetChan, BenhThanKinh, NhoiMauCoTim, DotQuy, BenhDongMachChiDuoi, ThuocLa, RuoiBia, AcNieu, DieuTriAnDonThuan,
DieuTriThuocKhac, eGFR, Creatinin, DieuTriThuocInsulin, DieuTriThuocHuyetAp,
DieuTriThuocStatin, DieuTriThuocFibrate, DieuTriChongTapKet, LSBanChanPhai, LSBanChanTrai, LSLoetChan, LSMachMauChanPhai, LSMachMauChanTrai,
LSMatPhai, LSMatTrai, DTDGiaDinh, DuongHuyetDoi, HbAIC.
Trong biến độc lập chia làm hai loại biến:
+ _ Biến độc lập là biến định lượng có tính liên tục, là các biến các chỉ số đo lường
được và chỉ số đầu vào khi thực hiện xét nghiệm: Tuoi, SoNamDTD,DuongHuyetDoi, HbA IC, Creatinin, eGFR, AcNieu.
+ _ Biến độc lập là biến định tính thuộc biến phân loại: là các biến còn lại có giá trị
phân loại 0, 1 hoặc True, False
- Thông tin của người bệnh: 2 cột dữ liệu HoTen và SoHS mô tả thông tin hành
chính của NB, học viên sẽ không đưa vào phân tích
Với trường dữ liệu được mô tả như trên học viên tiến hành nghiên cứu và thực
nghiệm dựa trên các cơ sở lý thuyết
a) Kiểm tra sự tương quan giữa những biến độc lập là biến định lượng với biến phân
loại là kết quả phân tầng tim mạch thuộc biến phân loại dựa vào biêu đồ boxplot
và phân tích hệ số tương quan Pearson, phân tích hồi quy tuyến tính đồng thời thựchiện các kỹ thuật kiểm định, kết hợp trình điều dữ liệu bằng biéu đồ box plot được
Trang 34c) Ung dung kendall thực hiện kiểm định sự tương quan giữa những biến độc lập vớinhau dé xem xét biến có quan hệ tịnh tiến
a rm ` 100 Sol :
Hình 4.5: Tổng hợp sự tương quan giữa những biến với kendall
d) Với tập dữ liệu gồm nhiều biến độc lập đồng thời kết quả đầu ra là biến phân loạinên học viên lựa chọn 3 mô hình phù hợp cho bài toán đó là nghiên cứu và đưa ra MHDB trên SVM, PLA, Random forest
4.2 Chuẩn bi dữ liệu và chuyển doi dữ liệu
s* Làm sạch dir liệu (Data clearn)
Các cột dữ liệu được ghi nhận lại chưa được chuẩn, ví dụ cột chỉ số eGFR là
chỉ số độ lọc cầu thận, chỉ số thể hiện lượng máu được lọc bởi các quản cầu thận trongmỗi phút, eGFR được tính toán dựa vào creatinime trong huyết thanh, dữ liệu cập nhật
tự động từ hệ thống xét nghiệm, được tính bằng đơn vị ml/phút, mỗi ô dữ liệu có xenlẫn biến number và text Học viên tiến hành làm sạch chỉ giữ là định dang là number
và bỏ text có nội dung là mô tả đơn vị tính.
30
Trang 35Creatinin = GR, Cholesterol HDLe 1DLe = Trighceride c„
85.7umol/t, 81 mi/phuit 3.31 mmGl/L 1⁄26 mmol/L 1⁄5 mmol/L 23 mmol/L
83.8 umol/t” 2 3.76 mmol/L 2.13 mmol/L.
72.6 umol/U" 96 6.3 mmGl/L 1⁄23 mmol/L 4.85 mmol/L 3.09 mmol/.”67.8 umol/t” 96 8.4mmol/t 1.48 mmol/L 6.12 mmGl/L 3.69 mmol/L”.201umGl/L7 92 4.34mmol/t 1.56 mmol/L 5.68 mmol/L 3.52 mmol/L”
75 umol/L 82 644 mmGl/L 171 mmGl/L 4.28 mmol/L 2.86 mmol/L”.
728umGl/LÝ ” 68 mmol/L 1.58 mmol/L 41 mmGl/L 2.48 mmol/L 63.8umGl/L, 89ml/ph/173 m2 7⁄1 mmGl/L 1.18 mmol/L 4.984 mmol/L 427mmol/L 391.2umol/L” 37 3⁄2 mmol/L 0.78 mmol/L 2.71 mmol/” 1567 33umol/LÝ 16 3.8mmGl/L 1.18 mmol/L 3.57 mmol/L 2.28 mmol/L”
65.2 umol/L” 1 5.36 mmol/L 1.38 mmol/L 2.81 mmGl/L 1.66 mmol/L.
Hình 4.6: Một số hình ảnh vẻ bộ data thô ban đầuTương tự các cột khác yêu cầu về định dạng là number, học viên dùng công cụ
filter của excel để lọc các dữ liệu chưa đồng nhất, đồng thời xóa bỏ các dữ liệu định
đạng text bị chen lẫn trong định dạng number, đưa về giá trị number
Đối với dữ liệu hàng, học viên công cụ filter của excel để lọc và xóa bỏ tất cảcác hàng có dữ liệu trống hoặc dit liệu không phải là các chỉ số xét nghiệm number
(mỗi hàng là đại diện cho một lượt khám của một NB)
852unglk — simVphuit ái RmBi, +24emmeIk 35mmeIk 4 Knanz
8580mel/L” 92 376mmol/L Ll Senztoa
Teun” 36 63mmol/t 123 mmol 4.45 mmol/L Sony cae ,
— E3 s4mneIL 14emnolt ei2mmolt
70.1 umol/” 92 4,84 mmol/L 1.56 mmol/L 5.62 mmol/L.
75 umol/i” 2 6.44 mmol/L 1.71 mmol/L 4.28 mmol/L.
‘72.8 umol/i" 7 6.8mmol/t 1.58 mmol/L 4.1 mmol/L TH NG ’
— m2 ramet 1ä nnolt -8mneUt = 2
1812umo/L” 3 3.2 mmGl/L 078 mmol/L 2.71 mmel/C” = 5
'33umol/L7 7% 3.8 mmol/L 1.18 mmol/L 3.57 mmol/L 198.88
'65.2umol/L” 12 5.36 mmol/L 1.38 mmol/L 2.81 mmol/L benh
bìng a samme we
SLumolt—_ sSmUphuit 344 mmoÚc at mel sarmnall a
?94uneli_- 6L42mi/phuit 208mmalfc sa
33umel/t” ° 3.82 mmGl/L 1.19 mmol/L 2.38 mmol/L tanks) a 99.5 umol/L” Cy $5 mmol/L 1.15 mmol/L 417 mmol/L.
S17 uneih a 7 mmol 112 mml/L 366 mmolL mm
ersunaiU P 336mmafL 113 mmol 393mmaft
Hình 4.7: Thao tác làm sạch dữ liệ bằng ứng dụng Excel
Thực hiện tuần tự cho tất cả các cột, học viên có được bộ dữ liệu có đầy đủ dữliệu cho tất cả các ô, còn lại là 7011 đòng dữ liệu
s* Chuyển đối data (Data Preparation)
Chuyên đổi biến nhị phân Yes/No (binary_map) Học viên sử dụng python déchuyền đổi trong quá trình ứng dụng mô hình học máy và sử dụng Excel để chuyển
đổi khi sử dụng phân tích dữ liệu trên R
Đọc data từ ứng dụng Microsoft Excel trước khi chuyển đổi, dữ liệu dang text
và number hiện có trong mỗi ô giá trị
Trang 36[sx “Gish “Nani Tatham Thơi — NaÔTD SONAmOIlTE — Tnguyeialtonl evo Benton Venison etDoDay towtGian BehuiNhoVaecDoGuy Bech
TH ~-‹⁄‹ SG aot 2 TANSE TRUE VASE” TASE ASE AIC TASC” TASE TAI FAIS TAISE TASE
AHEGBMO CC c0 ssa ĐANOU CD CƯ l3 TRUC TRUE ƯA FALSE FALSE FALSE FALSE FALSE LSE FALSE FASE TASE
Nieootsec 13978 LỰA 320170 TRỤC TRUE FALSE FASE FALSE FALSE ASE FASE PA FALSE FALSE FASE MEĐBS 13800 safer? M 2UỢ 3O aE FALSE ANSE FASE FALL FALSE FALSE FASE FALSE FALSE FALSE FASE
NHGGĐE 03863, saan TOU CÀO FASE TRUE FALSE FASE PSG FALSE FALSE FASE FASE FALSE FALSE PSE
(AOGHS 010 HNNOU 7P HA do 3 TỤC TRUE FALSE TỤC FASE PASE PS FALSE FASE FASE FASE FASE
B06 c0 HO LỰMNGU AB TƠƠ Cà 2 TRUC TRUE FALSE FALSE TRUE FALSE FALSE TRUE FALSE TRUE FALSE PSE
isoey ©3967 ĐỰNHU 520172 TRỤC TRUE FALSE FASE FALSE FALSE FALSE FASE FALSE FALSE FALSE FASE iassonsaa 3 HMƠ HAMOD aaa ANSE TRUE FALSE FALSE TRUE FASE FALSE ASE FASE FASE FASE FASE
NHCĐIMC c0 THƠ TỰMNGU soos HO 2 TRUE TRUE FALSE TM FALSE FALSE FALSE FASE FASE FALSE FALSE PSE
NHOUE c0 THƠ TỰANU st 2UU CÀO 2 TRUE TRỤC AM PA FALSE FALSE FALSE FASE PA FALSE FALSE FASE
(OANH «smd ĐO 5 CAU ANSE FALSE FALSE FALSE ASE FALSE FASE FALSE FASE FALSE FALSE FALSE
N25 13566 HƯU SE TUU CÀ TRUE MỤC FALSE FASE PASG FALSE FALSE FASE PA FALSE PA FASE (ẠOIMBENO có HỢC ĐMSOD CÔ An 5O TRUE TRUE FALSE FALSE TRUE FASE FALSE FALSE FASE FALSE FASE FASE
faovoosioa c0 —asel‘pinox7?—=—«2G—=—2017= 2 TỤC TRUE PASE FALSE FALSE FALSE FALSE FALSE LSE FALSE TRUE ALSE
(ABBBMSGP + Mê: MNVOU 5 MO 3 FALSE TRUE FALSE PS FASE TRUE FALSE FALSE FASE FASE FASE FASE
NHANG c0 THỜ afro? 7S «2012S TRUC FALSE FALSE TRUE FALSE FALSE FALSE FASE FALSE FALSE FALSE PSE gore 1 TM HƯU 620172 TRUE FALSE FALSE FASE PSG FALSE FALSE FASE FALSE TRUE FALSE FASE
havostves c0 HH5 HẾNU ĐO 207 ĐO 2 TRUE TỤC ANSE TRUE FALSE FALSE ASE PASE GALE FALSE FALSE FASE
oveie 3864 sanyo? 5 207 CÀ 2 TRUE TRUE FALSE FASE PA FALSE FALSE FASE FALSE FALSE PASE PSE
NHONĐỢ «3959, HỢNU S207 TRỤC FALSE FALSE FASE FALSE FALSE FALSE FASE PA FALSE FALSE FASE NƯGSĐC 3060 azar? ab 200072 TRUE FALSE FALSE TRUE FALL FALSE ASE FASE FAIS FALSE FALSE FASE
NHƠN 03865 anyon? FASE FALSE FALSE FASE FASE FALSE FALSE FASE FASE FALSE FALSE PSE
NHGMOS ©3966 Safari? SH 207 1O 2 FALSE TỤC FALSE FASE TRUE FALSE ASE PASE PA FALSE FALSE FASE
rotons 03862 anny? 5520172 TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE PSE
irons ©3807 Đ/DỢBU 320170 FALSE FALSE FALSE FASE FALSE FALSE FALSE FASE FALSE FALSE PA PASE arocines c0 S868 HƯUẾNU Áp 207 3 2 TRÚC TRUE FASE FASE FALSE FALSE ASE FASE FALSE FALSE FALSE FASE
[povoosror 0558, HƯU ĐO MỜ O2 FALSE TRUE FASE FALSE TRỤC FALSE FALSE FALSE FALSE FALSE PMSE FALSE
Hinh 4.8: Hình ảnh dữ liệu trước khi chuyền đồi
Sử dung python dé chuyển đổi dữ liệu phân tích trên Python, sử dụng excel
chuyé đổi dữ liệu để phân tích trên R
# Xử Lý cốc đặc trưng mang tính chất boolean bồng cách mop False = 0 và True = 1
‘from numpy import asarray
from sklearn.preprocessing import OrdinalEncoder
# define data
data = asarray([["True'], ['Fa1se"]])
# define ordinal encoding
Trang 37UV | W | X TY | Z | AA | AB | ÁC | AD | AE | AE | A6 | AH | AL | AI | AK | AL -0ieurifh lev Dev ih OiuTrChcSBanChar LSBanChat LSLoetCha LSMachMLSMachM [MatPhailSMatTrai TOD DuongHuy HòAIC Crean GFR AeMieu KetQuaPhas
Hình 4.9: Các hình anh dữ liệu sau khi chuyền đổi nhị phân
4.3 Dữ liệu minh họa
s Một vài hình ảnh minh họa data
'ĐieuTiiThiDieuTiChcL SBanChatL58anChar 'SLoetChalSMachMALSMachMiSMatPhai SMatTrai OTOGiaDir DuongHuy HbAIC 'Creainin eGFR —— AcNieu — KetQuaPhanTangTimh,
FALsE dol le 0 5 5 0 87 «9956398 ——.66 Ngwycocao
FAISE a oo 0 o 5 5 096 965 782 83 147Ngycocao
FALSE 1 8 0 0 o 5 50 96 906 97 C70 639Ngwyc@rateae FALSE 10 0 0 8 o 5 5 066 ^^ nh Faust a oo 0 o 0 5 5 0 98 67 966 59 222Ngwycotrungbah FALSE o 0 o o o 0 5 5 0 96 98 176 47 - 3542 Nguycoratca0
TRUE oO 0 0 0 0 0 6 6 0 94 93 995 53 33141Ngaycoretcso
FALSE 1 0 0 o o ở 5 5 0 97 77 98 «938A Nguycoca0
FALSE 0 0 0 o 0 6 6 6 0 91 59 907 64 7.05 Neuycotrung binh
Trang 38columns (total 44 columns):
Column Non-Null Count
KetQuaPhanTangTimMach 7011 non-null object
dtypes: bool(17), float64(5), int64(18), object(4) memory usage: 1.6+ MB
Hình 4.11: Thông tin tap data trên đọc trên Python
34
Trang 39Từ data ban đầu, ta cần phải chuyển đổi dữ liệu về dạng CSV dé làm dữ liệu
đầu vào cho quá trình phân tích Trong đề tài này học viên sử dụng ngôn ngữ R, Pythontrên Jupyter Notebook được cài đặt thông qua Anaconda
Phân tích các yếu tố liên quan đến PTNCTM sử dụng phân tích bằng hệ số tương
quan Pearson.
> Phan tích mối tương quan giữa biến liên tục và biến phân loại
Trang 40Để phân tích sự quan hệ giữa các yếu tố liên quan đến kết quả phân loại nguy
cơ tim mạch trên NB đái tháo đường típ 2 (biến phân loại) đối với những biến địnhlượng có tính liên tục, học viên áp dụng hệ số tương quan tuyến tính r với mức ý nghĩa
ơ = 5%, trong đó:
- r=0: Chứng tỏ không có tương quan tuyến tính giữa 2 biến
- r=1;r=-1: Có mối tương quan tuyến tính rất lớn đối với 2 biến
-_r<0: Hai biến tương quan ngược với nhau, ví dụ biến m tăng thì biến n giảm
~_r>0: Hai biến tương quan cùng nhau, vi dụ biến m tăng thì biến n tăng
Ghi chú:
- Hệ số tương quan được gọi là tuyến tính chỉ có ý nghĩa khi giá trị alpha được tính
nhỏ hơn mức 0.05 tức là p — value < 0.05
- Nếu 0.50< r< +1 (r#0), chứng tỏ 2 biến tương quan mạnh
- Nếu0.30< r< +0.49 (r#0), chứng tỏ hai biến tương quan trung bình với nhau
- Néur<+ 29 (r#0), chứng tỏ 2 biến tương quan yếu
Kiểm định hệ số tương quan
- Sử dụng cor() tính hệ số tương quan
- Sử dung cor.test() kiểm tra sự liên kết/tương quan giữa các cặp mẫu cần đánh giá
- Sir dụng phân tích dựa vào thuật toán hồi quy tuyến tinh để phân tích giá trị p và ý
nghĩa thống kê của các cặp mẫu cần đánh giá
> Phan tích mối tương quan giữa biến phân loại và biến phân loại
Để phân tích các yếu tố có liên quan đến kết quả phân loại nguy cơ tim mạch
trên NB DTD tip 2 hay không, đối với các biến là biến có tính chất định tính (biếnphân loại) và là biến phân loại học viên sử dụng cor() kết hợp kiểm định chỉ square
và kiêm định Fisher’s exact test
Kiểm định Chỉ bình phương (Chi squared test, chisq.test)
Là một trong những phân phối được sử dụng rộng rãi nhất Chỉ — Square kiểmđịnh giả thuyết khi dit liệu ở dang tần số với mục tiêu là:
- Kiểm tra thé hiện sự khác nhau, và tỉ lệ khác nhau
- Để xác định những điểm liên quan
Kiểm định Fisher (Fisher’s exact test)
36