Song song với sự phổ biến của các bệnh mãn tính như Đái tháo đường, sự pháttriển nhanh chóng của khoa học dữ liệu và công nghệ thông tin đã mở ra rất nhiều những cơ hội mới để áp dụng tr
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC UEH KHOA TÀI CHÍNH
TIỂU LUẬN CUỐI KỲ
ỨNG DỤNG KHOA HỌC DỮ LIỆU VÀO CHẨN ĐOÁN NGUY CƠ MẮC BỆNH ĐÁI THÁO ĐƯỜNG Ở PHỤ NỮ
Giảng viên hướng dẫn : Võ Thành Đức
Môn học : Khoa học Dữ liệu
Mã lớp học phần : 23C1INF50905962
Sinh viên thực hiện : Nhóm 9 – K48
Nguyễn Đức An - 31221024845Nguyễn Thành Đạt - 31221021190Nguyễn Trần Tiến Đạt -31221025544
Nguyễn Thị Minh Ngọc 31221025138
-Nguyễn Trung Thành - 31211025544
TP.Hồ Chí Minh, ngày 20 tháng 11 năm 2023
Trang 23 Nguyễn Trần Tiến Đạt 31221025544 CHƯƠNG 2: TỔNG
QUAN VỀ BỆNH ĐÁITHÁO ĐƯỜNG
Trang 3MỤC LỤC
DANH MỤC BẢNG BIỂU VÀ HÌNH ẢNH 1
LỜI CẢM ƠN 2
CHƯƠNG 1: TỔNG QUAN 3
1.1 Lý do chọn đề tài 3
1.2 Mục nghiên cứu 3
1.3 Đối tượng nghiên cứu 3
CHƯƠNG 2: TỔNG QUAN VỀ ĐÁI THÁO ĐƯỜNG 4
2.1 Định nghĩa 4
2.2 Phân loại Đái tháo đường 4
2.2.1 Đái tháo đường type 1 4
2.2.2 Đái tháo đường type 2 4
2.2.3 Các loại bệnh Đái tháo đường đặc biệt khác 5
2.3 Các biến chứng của Đái tháo đường 5
2.3.1 Biến chứng cấp tính 5
2.3.2 Biến chứng mãn tính 5
CHƯƠNG 3: MÔ HÌNH NGHIÊN CỨU ĐỀ XUẤT 6
3.1 Mô tả dữ liệu 6
3.1.1 Mô tả các biến 6
3.1.2 Bộ dữ liệu huấn luyện 7
3.1.3 Bộ dữ liệu dự báo 7
3.2 Tiền xử lý dữ liệu 8
CHƯƠNG 4: KẾT QUẢ THỰC HIỆN 9
4.1 Phân tích dữ liệu dựa trên phần mềm 9
4.1.1 Kết quả dữ liệu huấn luyện 9
4.1.2 Kết quả dữ liệu dự báo 12
4.2 Đánh giá kết quả và mô hình 14
CHƯƠNG 5: KẾT LUẬN VÀ NHẬN XÉT 16
5.1 Kết luận 16
5.2 Nhận xét 17
Trang 45.2.1 Hạn chế 17
5.2.2 Giải pháp 17
TÀI LIỆU THAM KHẢO 19
PHỤ LỤC KẾT QUẢ DỰ BÁO 20
Trang 6LỜI CẢM ƠN
Trước hết, nhóm chúng em muốn bày tỏ lòng biết ơn chân thành đến Trường Đạihọc Kinh tế Thành phố Hồ Chí Minh vì đã tích hợp môn học Khoa học dữ liệu vàochương trình giảng dạy Đặc biệt, chúng em không thể không bày tỏ lòng kính trọng vàbiết ơn sâu sắc đến thầy Võ Thành Đức, giảng viên của chúng em, người đã khôngngừng hỗ trợ và chia sẻ những kiến thức quý báu trong suốt khoảng thời gian học vừaqua Thầy không chỉ là người thầy mẫu mực mà còn là nguồn động viên lớn lao, giúpchúng em phát triển tư duy và kỹ năng trong lĩnh vực này
Quãng thời gian tham gia môn học Khoa học dữ liệu của thầy thực sự là một hànhtrình đầy ấn tượng Chúng em đã học được không chỉ những kiến thức chuyên sâu màcòn là tinh thần làm việc hiệu quả và nghiêm túc Những thông điệp và kinh nghiệmthực tế mà chúng em đã thu được từ thầy sẽ là nguồn động viên quý báu, giúp chúng em
tự tin hơn trên con đường sự nghiệp
Môn học Khoa học dữ liệu không chỉ là thách thức mà còn là cơ hội để chúng emphát triển Nó không chỉ cung cấp những kiến thức sâu rộng mà còn tận dụng tối đa nhucầu thực tế của sinh viên trong thời đại công nghệ số ngày nay Tuy nhiên, do chúng em
có hạn chế về kiến thức và khả năng tiếp thu, có những điểm chưa hoàn hảo trong bàitiểu luận của chúng em Chúng em đã cố gắng hết sức, nhưng không thể tránh khỏinhững khuyết điểm và sai sót Chúng em mong rằng thầy sẽ chia sẻ ý kiến và góp ý củamình để chúng em có cơ hội hoàn thiện bài tiểu luận hơn
Nhóm chúng em chân thành cảm ơn sự hỗ trợ và sự dạy dỗ quý báu của thầy!
2
Trang 7CHƯƠNG 1: TỔNG QUAN1.1 Lý do chọn đề tài
Đái tháo đường là một trong những bệnh mãn tính phổ biến nhất trên thế giới, vớitốc độ gia tăng đáng kể và trở thành một vấn đề sức khỏe cộng đồng cần đặc biệt quantâm Bệnh Đái tháo đường cũng là một trong những nguyên nhân gây tử vong hàng đầuhiện nay, làm gia tăng gánh nặng y tế, ảnh hưởng nghiêm trọng đến sức khỏe cộng đồng.Tuy nhiên, hiểu biết của cộng đồng về “kẻ giết người thầm lặng” này còn nhiều hạn chế,nhiều người vẫn không nhận ra được tầm quan trọng của vấn đề này
Song song với sự phổ biến của các bệnh mãn tính như Đái tháo đường, sự pháttriển nhanh chóng của khoa học dữ liệu và công nghệ thông tin đã mở ra rất nhiều những
cơ hội mới để áp dụng trong lĩnh y tế Ứng dụng dữ liệu trong y tế đã tạo ra những thayđổi lớn trong việc hỗ trợ các y bác sĩ trong quá trình chẩn đoán, phân tích và đánh giátrong quá trình chăm sóc sức khỏe, điều trị bệnh nhân
Trước tình hình đó, nhóm chúng em đã lựa chọn tiến hành đề tài “ỨNG DỤNGKHOA HỌC DỮ LIỆU VÀO CHẨN ĐOÁN NGUY CƠ MẮC BỆNH ĐÁI THÁOĐƯỜNG Ở PHỤ NỮ” để có thể nhận biết được những nguy cơ mắc bệnh Đái tháođường từ trước đặc biệt ở phụ nữ Từ đó giúp tăng cơ hội cho việc can thiệp sớm và tối
ưu hóa quản lý bệnh, giúp giảm thiểu các biến chứng và chi phí điều trị Qua đó gópphần nào vào việc kiểm soát và ngăn chặn bệnh Đái tháo đường cho các bài nghiên cứusau này
1.3 Đối tượng nghiên cứu
Đối tượng nghiên cứu của đề tài là 768 bệnh nhân tham gia khảo sát tất cả bệnhnhân ở đây đều là những người phụ nữ Ấn độ Pima ít nhất 21 tuổi - một trong những nơi
có tỷ lệ Đái tháo đường cao nhất thế giới
Trang 8CHƯƠNG 2: TỔNG QUAN VỀ ĐÁI THÁO ĐƯỜNG2.1 Định nghĩa
Theo WHO (Tổ chức y tế thế giới), Đái tháo đường là một bệnh mãn tính gây rabởi sự thiếu hụt tương đối hoặc tuyệt đối insulin, dẫn đến các rối loạn chuyển hóa hydratcacbon Bệnh được đặc trưng bởi tình trạng tăng đường huyết mãn tính và các rối loạnchuyển hóa
Các triệu chứng bao gồm tiểu tiện, khát nước và cảm thấy đói nhiều hơn bìnhthường Nếu không được điều trị, Đái tháo đường có thể gây ra nhiều biến chứng, gồmcác biến chứng cấp tính như tăng áp lực thẩm thấu và tử vong cũng như các biến chứngmãn tính như bệnh tim mạch, tai biến mạch máu não, bệnh thận, tổn thương mắt, thầnkinh và suy giảm nhận thức,
2.2 Phân loại Đái tháo đường
2.2.1 Đái tháo đường type 1
- Đái tháo đường type 1 xảy ra khi cơ thể ngừng sản xuất insulin hoặc lượng insulinđược sản xuất quá ít không đủ để điều hòa lượng glucose có trong máu
- Đái tháo đường type 1 còn được biết đến với cái tên “Đái tháo đường tuổi vịthành niên” hoặc “Đái tháo đường phụ thuộc insulin”
- Đái tháo đường type 1 chiếm khoảng 5%-10% các trường hợp bị Đái tháo đườngtrên toàn thế giới, thường gặp chủ yếu ở trẻ em hoặc thiếu niên
- Đái tháo đường type 1 cũng có thể gặp ở những người lớn tuổi hơn do tụy bị hủyhoại bởi rượu, phẫu thuật hoặc bệnh tật Bệnh cũng có thể là kết quả của bệnh suy
tế bào beta tuyến tụy tiến triển, vốn là những tế bào sản xuất insulin
- Những bệnh nhân bị Đái tháo đường type 1 cần phải được điều trị bằng insulinmỗi ngày để duy trì cuộc sống
2.2.2 Đái tháo đường type 2
Xảy ra khi tụy có khả năng sản xuất insulin nhưng cơ thể mất khả năng sử dụngđược lượng insulin này (một phần hay hoàn toàn) Cơ thể cố gắng chống lại sự đề khángnày bằng cách chế tiết insulin nhiều hơn Những người bị đề kháng insulin sẽ phát triểnthành bệnh Đái tháo đường type 2 khi cơ thể họ không tiếp tục chế tiết đủ Insulin để đápứng với nhu cầu cao hơn
- Đái tháo đường loại 2 thường được gọi là “Đái tháo đường tuổi trưởng thành”hoặc “Đái tháo đường không phụ thuộc insulin”
- Có ít nhất 90% bệnh nhân Đái tháo đường bị Đái tháo đường type 2 Các bệnhnhân ở giai đoạn trưởng thành có khả năng cao bị bệnh Đái tháo đường type 2,thường là sau 45 tuổi
4
Trang 9- Đái tháo đường type 2 có thể kiểm soát được bằng chế độ ăn, giảm cân, thể thao
và thuốc Hơn 50% bệnh nhân Đái tháo đường type 2 cần sử dụng insulin để kiểmsoát đường huyết ở một số giai đoạn tiến triển của bệnh
2.2.3 Các loại bệnh Đái tháo đường đặc biệt khác
● Đái tháo đường thứ phát: do bệnh lý tụy ngoại tiết, bệnh nội tiết, do dùng thuốc và hóa
chất, một số hội chứng rối loạn gen
● Đái tháo đường thai kỳ: Hội chứng này xảy ra trong nửa cuối thai kỳ
- Những phụ nữ bị Đái tháo đường thai kỳ dễ sinh con to
- Mặc dù Đái tháo đường thai kỳ thường sẽ khỏi sau khi sinh, những phụ nữ bịbệnh này sẽ dễ bị Đái tháo đường type 2 hơn những phụ nữ khác sau này
2.3 Các biến chứng của Đái tháo đường
2.3.1 Biến chứng cấp tính
Trong giai đoạn ngắn, Đái tháo đường có thể gây ra những tình trạng cấp tính sau:
- Nhiều bệnh nhiễm trùng
- Hạ đường huyết
- Nhiễm ceton acid do Đái tháo đường
- Hội chứng tăng áp lực thẩm thấu không do ceton
2.3.2 Biến chứng mãn tính
Nếu kéo dài, Đái tháo đường có thể gây tổn thương võng mạc, thận, thần kinh vàmạch máu
- Tổn thương võng mạc có thể dẫn đến mù lòa
- Tổn thương thận có thể gây suy thận
- Tổn thương thần kinh có thể gây ra những vết thương và loét ở bàn chân, thườngphải cắt cụt bàn và cẳng chân
- Tổn thương các dây thần kinh thuộc hệ thần kinh tự chủ có thể dẫn tới liệt dạ dày,tiêu chảy, không kiểm soát được tần số tim và huyết áp khi thay đổi tư thế
- Thúc đẩy xơ vữa động mạch dẫn đến hẹp hoặc tắc nghẽn mạch máu Những thayđổi này có thể dẫn đến cơn suy tâm cấp, đột quỵ và giảm lưu lượng tuần hoàn đếntay và chân (bệnh lý mạch máu ngoại biên)
- Dẫn đến tăng huyết áp và tăng cholesterol, triglycerid Những bệnh này tiến triểnđộc lập kết hợp với Đái tháo đường để gia tăng nguy cơ bị bệnh tim mạch, bệnhthận, và những biến chứng về mạch máu khác
Trang 10CHƯƠNG 3: MÔ HÌNH NGHIÊN CỨU ĐỀ XUẤT
3.1 Mô tả dữ liệu.
Bộ dữ liệu được lấy trực tiếp từ nguồn:
https://www.kaggle.com/datasets/akshaydattatraykhare/diabetes-dataset
Trong các cột dữ liệu, cột outcome là mục tiêu của bài nghiên cứu, cho biết việc
dự đoán bạn có nguy cơ Đái tháo đường hay không Trong bài này, sinh viên sử dụng
768 phiếu khảo sát trong đó sử dụng 768 phiếu để huấn luyện (Training) và 200 phiếungẫu nhiên để kiểm tra dữ liệu (Forecast) Sau đây là một số tác nhân chúng em thựchiện khảo sát để tổng hợp dữ liệu cho việc dự đoán các chứng bệnh hình thành nên nguy
cơ Đái tháo đường
3.1.1 Mô tả các biến
Pregnancies Việc mang thai có thể làm tăng các vấn đề Đái tháo
đường lâu dài nhất định, như vấn đề về mắt và bệnh
Cho biết mức đường trung bình có thể dẫn đến bệnh
Blood Pressure Huyết áp cao (tăng huyết áp) có thể dẫn đến nhiều
biến chứng của bệnh Đái tháo đường Hầu hết mọingười mắc Đái tháo đường cuối cùng sẽ phải đốimặt với tình trạng huyết áp cao, cùng với những vấn
đề về tim và tuần hoàn máu khác
Định lượng
Skin Thickness Các kết quả nghiên cứu cho thấy độ dày da giảm đi
do sự tiến triển của bệnh Đái tháo đường Độ dày da
bị ảnh hưởng đáng kể bởi mức độ insulin, nhưngkhông bị ảnh hưởng bởi mức độ glucose
Định lượng
Insulin Insulin là một yếu tố quan trọng trong việc phát
triển Đái tháo đường loại 2 Hormone quan trọngnày, mà bạn không thể sống sót nếu thiếu, điềuchỉnh đường huyết (glucose) trong cơ thể, một quá
trình rất phức tạp
Định lượng
6
Trang 11BMI Chỉ số người ta dùng để tính toán mức độ béo phì Định lượngDiabetes Pedigree
Function DPF ước lượng khả năng mắc bệnh Đái tháo đườngtùy thuộc vào tuổi của người nghiên cứu và tiền sử
Đái tháo đường trong gia đình, được xem xét là cácyếu tố nguy cơ chính của bệnh Đái tháo đường
Định lượng
Age Tuổi cao là một yếu tố nguy cơ lớn cho bệnh Đái
tháo đường và Đái tháo đường tiền sử Do đó, ngườicao tuổi có tỷ lệ mắc bệnh Đái tháo đường và Đáitháo đường tiền sử cao hơn so với nhóm người trẻ
và trung niên và có khả năng phát triển các biếnchứng ở hệ tim mạch, võng mạc và thận cao hơn
Định lượng
Outcome Họ có nguy cơ Đái tháo đường hay không? 0 là
không có nguy cơ; 1 là có nguy cơ Định tính (0;1)
Bảng 3.1: Mô tả các biến
Nguồn: Tổng hợp
3.1.2 Bộ dữ liệu huấn luyện
Khi ứng dụng mô hình khai phá dữ liệu trong việc dự báo chỉ số nguy cơ Đái tháođường ở người, bài nghiên cứu đã sử dụng bộ dữ liệu gồm 768 lượng mẫu thuộc bộ dữliệu huấn luyện, có các biến độc lập như trên nhưng trong đó chủ yếu tập trung vào 9biến độc lập chủ yếu là nguyên nhân chính dẫn đến Đái tháo đường (Pregnancies,Glucose, Blood Pressure, Skin Thickness, Insulin, BMI, Diabetes Pedigree Function,Age) Trong đó Outcome sẽ là biến Target
3.2 Tiền xử lý dữ liệu
Trước khi áp dụng dữ liệu và mô hình, sinh viên nghiên cứu làm sạch và xử lý gọn
dữ liệu Tuy nhiên, bộ dữ liệu không có thuộc tính không ảnh hưởng đến việc đưa rađánh giá, vì vậy nhóm chúng em sử dụng 100% các đặc tính nêu trên trong quá trình sau
Trang 12CHƯƠNG 4: KẾT QUẢ THỰC HIỆN
4.1 Phân tích dữ liệu dựa trên phần mềm
4.1.1 Kết quả dữ liệu huấn luyện
Đầu tiên, chúng ta sẽ sử dụng phần mềm Orange để đưa bộ dữ liệu huấn luyệnvào Sau khi đưa bộ dữ liệu huấn luyện vào, chúng ta sẽ bắt đầu khai báo các thuộc tínhcủa bộ dữ liệu huấn luyện
Hình 4.1: Khai báo thuộc tính các biến trong bộ dữ liệu huấn luyện
Nguồn: Orange
Trong đó các biến có liên quan bao gồm: Pregnancies, Glucose, Blood Pressure,Skin Thickness, Insulin, BMI, Diabetes Pedigree Function, Age Và biến mục tiêu:Outcome được mã hoá “0,1” (kết quả huấn luyện cho thấy có nguy cơ bị Đái tháo đườnghay là không) với kết quả cho ra là 0 thì thể hiện không có nguy cơ bị Đái tháo đường vàkết quả cho ra là 1 thì có nguy cơ bị Đái tháo đường Đa số các biến đều thuộc chuyên
8
Trang 13ngành y nên chúng ta sẽ đánh giá hết để tăng tính hiệu quả việc chuẩn đoán.
Sau khi đã khai báo các thuộc tính của các dữ liệu cần được chú ý, bài nguyên cứu
sẽ lựa chọn phương pháp phân lớp dữ liệu phù hợp nhất thông qua các chỉ số như AUC,
CA, F1, Precision, Recall Các phương pháp phân lớp mà bài nghiên cứu sử dụng làTree, Logistic Regression, SVM, Neural Network Bài nghiên cứu đã vẽ ra sơ đồ củaquá trình huấn luyện và dự báo được thể hiện ở Hình 4.2 như sau:
Hình 4.2: Tổng quan về quy trình huấn luyện và dự báo
Nguồn: Orange
Sau khi đã có sơ đồ như Hình 4.2, bài nghiên cứu sẽ tiếp tục đến phần Test andScore để tổng quan các chỉ số và lựa chọn mô hình phù hợp nhất cho bài nghiên cứu Ởđây, bài nghiên cứu sử dụng phương pháp K-fold cross validation với k=5 để đánh giá
mô hình nhờ những đặc tính vượt trội của nó so với phương pháp Hold-out như: môhình sẽ được huấn luyện và dự báo trên nhiều phần dữ liệu khác nhau, không trùng dữliệu khi huấn luyện giúp mô hình tăng độ chính xác
● Precision (độ chính xác): cho biết trong số m mẫu được phân vào lớp i thì có tỷ lệ bao
nhiêu mẫu có đúng (tránh nhầm lẫn với tính chính xác accuracy)
● Recall (độ phủ) còn gọi là độ phủ hay độ nhạy (sensitivity) hay TPR (True Positive
Rate)
● F1-score là giá trị trung bình điều hòa (harmonic mean) của hai độ đo Precision và
Recall
Trang 14- F1 có giá trị gần với giá trị nào nhỏ hơn giữa 2 giá trị Precision và Recall
- F1 sẽ có giá trị lớn nếu cả 2 giá trị Precision và Recall đều lớn
● AUC là diện tích nằm dưới đường cong ROC Giá trị này là một số dương nhỏ hơn hoặc
bằng 1
Giá trị này càng lớn thì mô hình càng tốt
Hình 4.3: Kết quả đánh giá mô hình bằng phương pháp K - fold
Nguồn: Orange
Ở hình 4.3, Logistic Regression được đánh giá là cao nhất ở các chỉ số AUC(0,282), CA (0,771) , F1 (0,764), Precision (0,771), Recall (0,477) so với các phươngpháp còn lại
Đặc biệt, độ phù hợp của của thuật toán Logistic Regression đối với bài nghiêncứu này còn được chứng minh thông qua phương pháp đánh giá bằng ma trận nhầm lẫnnhư Hình 4.4 sau:
10
Trang 15Hình 4.4: Ma trận nhầm lẫn với Logistic Regression
Nguồn: Orange
Trong 768 quan sát có:
- 500 quan sát không bị bệnh, kết quả dự đoán sai lệch 60
- 258 quan sát là bị bệnh nhưng dự đoán sai lệch 116 tuy nhiên sai lệch của phươngpháp Logistic vẫn thấp hơn so với các phương pháp còn lại
Từ đó có thể kết luận rằng, mô hình Logistic Regression rất thích hợp cho bộ dữliệu của bài nghiên cứu này và khá phù hợp để dự báo số trường hợp có nguy cơ Đáitháo đường Tiếp theo đây, bài nghiên cứu sẽ đi phân tích dự báo để dự đoán xem môhình Logistic Regression dự báo như thế nào trong bộ dữ liệu dự báo thông qua bộ dữliệu huấn luyện Kết quả của dữ liệu dự báo được trình bày ở mục 4.1.2
4.1.2 Kết quả dữ liệu dự báo
Logistic Regression là phương pháp phân lớp thích hợp nhất cho bài nghiên cứu,
vì vậy sẽ sử dụng Logistic Regression dự báo "outcome" cho 200 lượng mẫu ngâunhiên Nhóm sinh viên cũng tiến hành các bước tương tự như bộ dữ liệu huấn luyện, đưa
bộ dữ liệu dự báo vào chương trình Orange và chạy các thuộc tính cho các biến số ở bộ
dữ liệu dữ báo giống như bộ dữ liệu huấn luyện