1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Ứng dụng khoa học dữ liệu vào chẩn đoán nguy cơ mắc bệnh đái tháo đường ở phụ nữ

23 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Ứng dụng khoa học dữ liệu vào chẩn đoán nguy cơ mắc bệnh đái tháo đường ở phụ nữ
Tác giả Nguyễn Đức An, Nguyễn Thành Đạt, Nguyễn Trần Tiến Đạt, Nguyễn Thị Minh Ngọc, Nguyễn Trung Thành
Người hướng dẫn Võ Thành Đức
Trường học Đại học UEH
Chuyên ngành Khoa học Dữ liệu
Thể loại Tiểu luận cuối kỳ
Năm xuất bản 2023
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 23
Dung lượng 3,43 MB

Nội dung

Song song với sự phổ biến của các bệnh mãn tính như Đái tháo đường, sự pháttriển nhanh chóng của khoa học dữ liệu và công nghệ thông tin đã mở ra rất nhiều những cơ hội mới để áp dụng tr

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

ĐẠI HỌC UEH KHOA TÀI CHÍNH

TIỂU LUẬN CUỐI KỲ

ỨNG DỤNG KHOA HỌC DỮ LIỆU VÀO CHẨN ĐOÁN NGUY CƠ MẮC BỆNH ĐÁI THÁO ĐƯỜNG Ở PHỤ NỮ

Giảng viên hướng dẫn : Võ Thành Đức

Môn học : Khoa học Dữ liệu

Mã lớp học phần : 23C1INF50905962

Sinh viên thực hiện : Nhóm 9 – K48

Nguyễn Đức An - 31221024845Nguyễn Thành Đạt - 31221021190Nguyễn Trần Tiến Đạt -31221025544

Nguyễn Thị Minh Ngọc 31221025138

-Nguyễn Trung Thành - 31211025544

TP.Hồ Chí Minh, ngày 20 tháng 11 năm 2023

Trang 2

3 Nguyễn Trần Tiến Đạt 31221025544 CHƯƠNG 2: TỔNG

QUAN VỀ BỆNH ĐÁITHÁO ĐƯỜNG

Trang 3

MỤC LỤC

DANH MỤC BẢNG BIỂU VÀ HÌNH ẢNH 1

LỜI CẢM ƠN 2

CHƯƠNG 1: TỔNG QUAN 3

1.1 Lý do chọn đề tài 3

1.2 Mục nghiên cứu 3

1.3 Đối tượng nghiên cứu 3

CHƯƠNG 2: TỔNG QUAN VỀ ĐÁI THÁO ĐƯỜNG 4

2.1 Định nghĩa 4

2.2 Phân loại Đái tháo đường 4

2.2.1 Đái tháo đường type 1 4

2.2.2 Đái tháo đường type 2 4

2.2.3 Các loại bệnh Đái tháo đường đặc biệt khác 5

2.3 Các biến chứng của Đái tháo đường 5

2.3.1 Biến chứng cấp tính 5

2.3.2 Biến chứng mãn tính 5

CHƯƠNG 3: MÔ HÌNH NGHIÊN CỨU ĐỀ XUẤT 6

3.1 Mô tả dữ liệu 6

3.1.1 Mô tả các biến 6

3.1.2 Bộ dữ liệu huấn luyện 7

3.1.3 Bộ dữ liệu dự báo 7

3.2 Tiền xử lý dữ liệu 8

CHƯƠNG 4: KẾT QUẢ THỰC HIỆN 9

4.1 Phân tích dữ liệu dựa trên phần mềm 9

4.1.1 Kết quả dữ liệu huấn luyện 9

4.1.2 Kết quả dữ liệu dự báo 12

4.2 Đánh giá kết quả và mô hình 14

CHƯƠNG 5: KẾT LUẬN VÀ NHẬN XÉT 16

5.1 Kết luận 16

5.2 Nhận xét 17

Trang 4

5.2.1 Hạn chế 17

5.2.2 Giải pháp 17

TÀI LIỆU THAM KHẢO 19

PHỤ LỤC KẾT QUẢ DỰ BÁO 20

Trang 6

LỜI CẢM ƠN

Trước hết, nhóm chúng em muốn bày tỏ lòng biết ơn chân thành đến Trường Đạihọc Kinh tế Thành phố Hồ Chí Minh vì đã tích hợp môn học Khoa học dữ liệu vàochương trình giảng dạy Đặc biệt, chúng em không thể không bày tỏ lòng kính trọng vàbiết ơn sâu sắc đến thầy Võ Thành Đức, giảng viên của chúng em, người đã khôngngừng hỗ trợ và chia sẻ những kiến thức quý báu trong suốt khoảng thời gian học vừaqua Thầy không chỉ là người thầy mẫu mực mà còn là nguồn động viên lớn lao, giúpchúng em phát triển tư duy và kỹ năng trong lĩnh vực này

Quãng thời gian tham gia môn học Khoa học dữ liệu của thầy thực sự là một hànhtrình đầy ấn tượng Chúng em đã học được không chỉ những kiến thức chuyên sâu màcòn là tinh thần làm việc hiệu quả và nghiêm túc Những thông điệp và kinh nghiệmthực tế mà chúng em đã thu được từ thầy sẽ là nguồn động viên quý báu, giúp chúng em

tự tin hơn trên con đường sự nghiệp

Môn học Khoa học dữ liệu không chỉ là thách thức mà còn là cơ hội để chúng emphát triển Nó không chỉ cung cấp những kiến thức sâu rộng mà còn tận dụng tối đa nhucầu thực tế của sinh viên trong thời đại công nghệ số ngày nay Tuy nhiên, do chúng em

có hạn chế về kiến thức và khả năng tiếp thu, có những điểm chưa hoàn hảo trong bàitiểu luận của chúng em Chúng em đã cố gắng hết sức, nhưng không thể tránh khỏinhững khuyết điểm và sai sót Chúng em mong rằng thầy sẽ chia sẻ ý kiến và góp ý củamình để chúng em có cơ hội hoàn thiện bài tiểu luận hơn

Nhóm chúng em chân thành cảm ơn sự hỗ trợ và sự dạy dỗ quý báu của thầy!

2

Trang 7

CHƯƠNG 1: TỔNG QUAN1.1 Lý do chọn đề tài

Đái tháo đường là một trong những bệnh mãn tính phổ biến nhất trên thế giới, vớitốc độ gia tăng đáng kể và trở thành một vấn đề sức khỏe cộng đồng cần đặc biệt quantâm Bệnh Đái tháo đường cũng là một trong những nguyên nhân gây tử vong hàng đầuhiện nay, làm gia tăng gánh nặng y tế, ảnh hưởng nghiêm trọng đến sức khỏe cộng đồng.Tuy nhiên, hiểu biết của cộng đồng về “kẻ giết người thầm lặng” này còn nhiều hạn chế,nhiều người vẫn không nhận ra được tầm quan trọng của vấn đề này

Song song với sự phổ biến của các bệnh mãn tính như Đái tháo đường, sự pháttriển nhanh chóng của khoa học dữ liệu và công nghệ thông tin đã mở ra rất nhiều những

cơ hội mới để áp dụng trong lĩnh y tế Ứng dụng dữ liệu trong y tế đã tạo ra những thayđổi lớn trong việc hỗ trợ các y bác sĩ trong quá trình chẩn đoán, phân tích và đánh giátrong quá trình chăm sóc sức khỏe, điều trị bệnh nhân

Trước tình hình đó, nhóm chúng em đã lựa chọn tiến hành đề tài “ỨNG DỤNGKHOA HỌC DỮ LIỆU VÀO CHẨN ĐOÁN NGUY CƠ MẮC BỆNH ĐÁI THÁOĐƯỜNG Ở PHỤ NỮ” để có thể nhận biết được những nguy cơ mắc bệnh Đái tháođường từ trước đặc biệt ở phụ nữ Từ đó giúp tăng cơ hội cho việc can thiệp sớm và tối

ưu hóa quản lý bệnh, giúp giảm thiểu các biến chứng và chi phí điều trị Qua đó gópphần nào vào việc kiểm soát và ngăn chặn bệnh Đái tháo đường cho các bài nghiên cứusau này

1.3 Đối tượng nghiên cứu

Đối tượng nghiên cứu của đề tài là 768 bệnh nhân tham gia khảo sát tất cả bệnhnhân ở đây đều là những người phụ nữ Ấn độ Pima ít nhất 21 tuổi - một trong những nơi

có tỷ lệ Đái tháo đường cao nhất thế giới

Trang 8

CHƯƠNG 2: TỔNG QUAN VỀ ĐÁI THÁO ĐƯỜNG2.1 Định nghĩa

Theo WHO (Tổ chức y tế thế giới), Đái tháo đường là một bệnh mãn tính gây rabởi sự thiếu hụt tương đối hoặc tuyệt đối insulin, dẫn đến các rối loạn chuyển hóa hydratcacbon Bệnh được đặc trưng bởi tình trạng tăng đường huyết mãn tính và các rối loạnchuyển hóa

Các triệu chứng bao gồm tiểu tiện, khát nước và cảm thấy đói nhiều hơn bìnhthường Nếu không được điều trị, Đái tháo đường có thể gây ra nhiều biến chứng, gồmcác biến chứng cấp tính như tăng áp lực thẩm thấu và tử vong cũng như các biến chứngmãn tính như bệnh tim mạch, tai biến mạch máu não, bệnh thận, tổn thương mắt, thầnkinh và suy giảm nhận thức,

2.2 Phân loại Đái tháo đường

2.2.1 Đái tháo đường type 1

- Đái tháo đường type 1 xảy ra khi cơ thể ngừng sản xuất insulin hoặc lượng insulinđược sản xuất quá ít không đủ để điều hòa lượng glucose có trong máu

- Đái tháo đường type 1 còn được biết đến với cái tên “Đái tháo đường tuổi vịthành niên” hoặc “Đái tháo đường phụ thuộc insulin”

- Đái tháo đường type 1 chiếm khoảng 5%-10% các trường hợp bị Đái tháo đườngtrên toàn thế giới, thường gặp chủ yếu ở trẻ em hoặc thiếu niên

- Đái tháo đường type 1 cũng có thể gặp ở những người lớn tuổi hơn do tụy bị hủyhoại bởi rượu, phẫu thuật hoặc bệnh tật Bệnh cũng có thể là kết quả của bệnh suy

tế bào beta tuyến tụy tiến triển, vốn là những tế bào sản xuất insulin

- Những bệnh nhân bị Đái tháo đường type 1 cần phải được điều trị bằng insulinmỗi ngày để duy trì cuộc sống

2.2.2 Đái tháo đường type 2

Xảy ra khi tụy có khả năng sản xuất insulin nhưng cơ thể mất khả năng sử dụngđược lượng insulin này (một phần hay hoàn toàn) Cơ thể cố gắng chống lại sự đề khángnày bằng cách chế tiết insulin nhiều hơn Những người bị đề kháng insulin sẽ phát triểnthành bệnh Đái tháo đường type 2 khi cơ thể họ không tiếp tục chế tiết đủ Insulin để đápứng với nhu cầu cao hơn

- Đái tháo đường loại 2 thường được gọi là “Đái tháo đường tuổi trưởng thành”hoặc “Đái tháo đường không phụ thuộc insulin”

- Có ít nhất 90% bệnh nhân Đái tháo đường bị Đái tháo đường type 2 Các bệnhnhân ở giai đoạn trưởng thành có khả năng cao bị bệnh Đái tháo đường type 2,thường là sau 45 tuổi

4

Trang 9

- Đái tháo đường type 2 có thể kiểm soát được bằng chế độ ăn, giảm cân, thể thao

và thuốc Hơn 50% bệnh nhân Đái tháo đường type 2 cần sử dụng insulin để kiểmsoát đường huyết ở một số giai đoạn tiến triển của bệnh

2.2.3 Các loại bệnh Đái tháo đường đặc biệt khác

● Đái tháo đường thứ phát: do bệnh lý tụy ngoại tiết, bệnh nội tiết, do dùng thuốc và hóa

chất, một số hội chứng rối loạn gen

● Đái tháo đường thai kỳ: Hội chứng này xảy ra trong nửa cuối thai kỳ

- Những phụ nữ bị Đái tháo đường thai kỳ dễ sinh con to

- Mặc dù Đái tháo đường thai kỳ thường sẽ khỏi sau khi sinh, những phụ nữ bịbệnh này sẽ dễ bị Đái tháo đường type 2 hơn những phụ nữ khác sau này

2.3 Các biến chứng của Đái tháo đường

2.3.1 Biến chứng cấp tính

Trong giai đoạn ngắn, Đái tháo đường có thể gây ra những tình trạng cấp tính sau:

- Nhiều bệnh nhiễm trùng

- Hạ đường huyết

- Nhiễm ceton acid do Đái tháo đường

- Hội chứng tăng áp lực thẩm thấu không do ceton

2.3.2 Biến chứng mãn tính

Nếu kéo dài, Đái tháo đường có thể gây tổn thương võng mạc, thận, thần kinh vàmạch máu

- Tổn thương võng mạc có thể dẫn đến mù lòa

- Tổn thương thận có thể gây suy thận

- Tổn thương thần kinh có thể gây ra những vết thương và loét ở bàn chân, thườngphải cắt cụt bàn và cẳng chân

- Tổn thương các dây thần kinh thuộc hệ thần kinh tự chủ có thể dẫn tới liệt dạ dày,tiêu chảy, không kiểm soát được tần số tim và huyết áp khi thay đổi tư thế

- Thúc đẩy xơ vữa động mạch dẫn đến hẹp hoặc tắc nghẽn mạch máu Những thayđổi này có thể dẫn đến cơn suy tâm cấp, đột quỵ và giảm lưu lượng tuần hoàn đếntay và chân (bệnh lý mạch máu ngoại biên)

- Dẫn đến tăng huyết áp và tăng cholesterol, triglycerid Những bệnh này tiến triểnđộc lập kết hợp với Đái tháo đường để gia tăng nguy cơ bị bệnh tim mạch, bệnhthận, và những biến chứng về mạch máu khác

Trang 10

CHƯƠNG 3: MÔ HÌNH NGHIÊN CỨU ĐỀ XUẤT

3.1 Mô tả dữ liệu.

Bộ dữ liệu được lấy trực tiếp từ nguồn:

https://www.kaggle.com/datasets/akshaydattatraykhare/diabetes-dataset

Trong các cột dữ liệu, cột outcome là mục tiêu của bài nghiên cứu, cho biết việc

dự đoán bạn có nguy cơ Đái tháo đường hay không Trong bài này, sinh viên sử dụng

768 phiếu khảo sát trong đó sử dụng 768 phiếu để huấn luyện (Training) và 200 phiếungẫu nhiên để kiểm tra dữ liệu (Forecast) Sau đây là một số tác nhân chúng em thựchiện khảo sát để tổng hợp dữ liệu cho việc dự đoán các chứng bệnh hình thành nên nguy

cơ Đái tháo đường

3.1.1 Mô tả các biến

Pregnancies Việc mang thai có thể làm tăng các vấn đề Đái tháo

đường lâu dài nhất định, như vấn đề về mắt và bệnh

Cho biết mức đường trung bình có thể dẫn đến bệnh

Blood Pressure Huyết áp cao (tăng huyết áp) có thể dẫn đến nhiều

biến chứng của bệnh Đái tháo đường Hầu hết mọingười mắc Đái tháo đường cuối cùng sẽ phải đốimặt với tình trạng huyết áp cao, cùng với những vấn

đề về tim và tuần hoàn máu khác

Định lượng

Skin Thickness Các kết quả nghiên cứu cho thấy độ dày da giảm đi

do sự tiến triển của bệnh Đái tháo đường Độ dày da

bị ảnh hưởng đáng kể bởi mức độ insulin, nhưngkhông bị ảnh hưởng bởi mức độ glucose

Định lượng

Insulin Insulin là một yếu tố quan trọng trong việc phát

triển Đái tháo đường loại 2 Hormone quan trọngnày, mà bạn không thể sống sót nếu thiếu, điềuchỉnh đường huyết (glucose) trong cơ thể, một quá

trình rất phức tạp

Định lượng

6

Trang 11

BMI Chỉ số người ta dùng để tính toán mức độ béo phì Định lượngDiabetes Pedigree

Function DPF ước lượng khả năng mắc bệnh Đái tháo đườngtùy thuộc vào tuổi của người nghiên cứu và tiền sử

Đái tháo đường trong gia đình, được xem xét là cácyếu tố nguy cơ chính của bệnh Đái tháo đường

Định lượng

Age Tuổi cao là một yếu tố nguy cơ lớn cho bệnh Đái

tháo đường và Đái tháo đường tiền sử Do đó, ngườicao tuổi có tỷ lệ mắc bệnh Đái tháo đường và Đáitháo đường tiền sử cao hơn so với nhóm người trẻ

và trung niên và có khả năng phát triển các biếnchứng ở hệ tim mạch, võng mạc và thận cao hơn

Định lượng

Outcome Họ có nguy cơ Đái tháo đường hay không? 0 là

không có nguy cơ; 1 là có nguy cơ Định tính (0;1)

Bảng 3.1: Mô tả các biến

Nguồn: Tổng hợp

3.1.2 Bộ dữ liệu huấn luyện

Khi ứng dụng mô hình khai phá dữ liệu trong việc dự báo chỉ số nguy cơ Đái tháođường ở người, bài nghiên cứu đã sử dụng bộ dữ liệu gồm 768 lượng mẫu thuộc bộ dữliệu huấn luyện, có các biến độc lập như trên nhưng trong đó chủ yếu tập trung vào 9biến độc lập chủ yếu là nguyên nhân chính dẫn đến Đái tháo đường (Pregnancies,Glucose, Blood Pressure, Skin Thickness, Insulin, BMI, Diabetes Pedigree Function,Age) Trong đó Outcome sẽ là biến Target

3.2 Tiền xử lý dữ liệu

Trước khi áp dụng dữ liệu và mô hình, sinh viên nghiên cứu làm sạch và xử lý gọn

dữ liệu Tuy nhiên, bộ dữ liệu không có thuộc tính không ảnh hưởng đến việc đưa rađánh giá, vì vậy nhóm chúng em sử dụng 100% các đặc tính nêu trên trong quá trình sau

Trang 12

CHƯƠNG 4: KẾT QUẢ THỰC HIỆN

4.1 Phân tích dữ liệu dựa trên phần mềm

4.1.1 Kết quả dữ liệu huấn luyện

Đầu tiên, chúng ta sẽ sử dụng phần mềm Orange để đưa bộ dữ liệu huấn luyệnvào Sau khi đưa bộ dữ liệu huấn luyện vào, chúng ta sẽ bắt đầu khai báo các thuộc tínhcủa bộ dữ liệu huấn luyện

Hình 4.1: Khai báo thuộc tính các biến trong bộ dữ liệu huấn luyện

Nguồn: Orange

Trong đó các biến có liên quan bao gồm: Pregnancies, Glucose, Blood Pressure,Skin Thickness, Insulin, BMI, Diabetes Pedigree Function, Age Và biến mục tiêu:Outcome được mã hoá “0,1” (kết quả huấn luyện cho thấy có nguy cơ bị Đái tháo đườnghay là không) với kết quả cho ra là 0 thì thể hiện không có nguy cơ bị Đái tháo đường vàkết quả cho ra là 1 thì có nguy cơ bị Đái tháo đường Đa số các biến đều thuộc chuyên

8

Trang 13

ngành y nên chúng ta sẽ đánh giá hết để tăng tính hiệu quả việc chuẩn đoán.

Sau khi đã khai báo các thuộc tính của các dữ liệu cần được chú ý, bài nguyên cứu

sẽ lựa chọn phương pháp phân lớp dữ liệu phù hợp nhất thông qua các chỉ số như AUC,

CA, F1, Precision, Recall Các phương pháp phân lớp mà bài nghiên cứu sử dụng làTree, Logistic Regression, SVM, Neural Network Bài nghiên cứu đã vẽ ra sơ đồ củaquá trình huấn luyện và dự báo được thể hiện ở Hình 4.2 như sau:

Hình 4.2: Tổng quan về quy trình huấn luyện và dự báo

Nguồn: Orange

Sau khi đã có sơ đồ như Hình 4.2, bài nghiên cứu sẽ tiếp tục đến phần Test andScore để tổng quan các chỉ số và lựa chọn mô hình phù hợp nhất cho bài nghiên cứu Ởđây, bài nghiên cứu sử dụng phương pháp K-fold cross validation với k=5 để đánh giá

mô hình nhờ những đặc tính vượt trội của nó so với phương pháp Hold-out như: môhình sẽ được huấn luyện và dự báo trên nhiều phần dữ liệu khác nhau, không trùng dữliệu khi huấn luyện giúp mô hình tăng độ chính xác

● Precision (độ chính xác): cho biết trong số m mẫu được phân vào lớp i thì có tỷ lệ bao

nhiêu mẫu có đúng (tránh nhầm lẫn với tính chính xác accuracy)

● Recall (độ phủ) còn gọi là độ phủ hay độ nhạy (sensitivity) hay TPR (True Positive

Rate)

● F1-score là giá trị trung bình điều hòa (harmonic mean) của hai độ đo Precision và

Recall

Trang 14

- F1 có giá trị gần với giá trị nào nhỏ hơn giữa 2 giá trị Precision và Recall

- F1 sẽ có giá trị lớn nếu cả 2 giá trị Precision và Recall đều lớn

● AUC là diện tích nằm dưới đường cong ROC Giá trị này là một số dương nhỏ hơn hoặc

bằng 1

Giá trị này càng lớn thì mô hình càng tốt

Hình 4.3: Kết quả đánh giá mô hình bằng phương pháp K - fold

Nguồn: Orange

Ở hình 4.3, Logistic Regression được đánh giá là cao nhất ở các chỉ số AUC(0,282), CA (0,771) , F1 (0,764), Precision (0,771), Recall (0,477) so với các phươngpháp còn lại

Đặc biệt, độ phù hợp của của thuật toán Logistic Regression đối với bài nghiêncứu này còn được chứng minh thông qua phương pháp đánh giá bằng ma trận nhầm lẫnnhư Hình 4.4 sau:

10

Trang 15

Hình 4.4: Ma trận nhầm lẫn với Logistic Regression

Nguồn: Orange

Trong 768 quan sát có:

- 500 quan sát không bị bệnh, kết quả dự đoán sai lệch 60

- 258 quan sát là bị bệnh nhưng dự đoán sai lệch 116 tuy nhiên sai lệch của phươngpháp Logistic vẫn thấp hơn so với các phương pháp còn lại

Từ đó có thể kết luận rằng, mô hình Logistic Regression rất thích hợp cho bộ dữliệu của bài nghiên cứu này và khá phù hợp để dự báo số trường hợp có nguy cơ Đáitháo đường Tiếp theo đây, bài nghiên cứu sẽ đi phân tích dự báo để dự đoán xem môhình Logistic Regression dự báo như thế nào trong bộ dữ liệu dự báo thông qua bộ dữliệu huấn luyện Kết quả của dữ liệu dự báo được trình bày ở mục 4.1.2

4.1.2 Kết quả dữ liệu dự báo

Logistic Regression là phương pháp phân lớp thích hợp nhất cho bài nghiên cứu,

vì vậy sẽ sử dụng Logistic Regression dự báo "outcome" cho 200 lượng mẫu ngâunhiên Nhóm sinh viên cũng tiến hành các bước tương tự như bộ dữ liệu huấn luyện, đưa

bộ dữ liệu dự báo vào chương trình Orange và chạy các thuộc tính cho các biến số ở bộ

dữ liệu dữ báo giống như bộ dữ liệu huấn luyện

Ngày đăng: 08/04/2024, 12:12

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w