1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Bài tập lớn môn nhập môn khoa học dữ liệu Đề tài phân tích dữ liệu sức khỏe

15 3 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân Tích Dữ Liệu Sức Khỏe
Tác giả Đinh Ngọc Minh Châu, Đào Hương Giang, Ngô Sỹ Thịnh, Giáp Trần Quang Vinh
Người hướng dẫn Thầy Lương Văn Thiện
Trường học Trường Đại Học Kinh Tế Quốc Dân
Chuyên ngành Nhập Môn Khoa Học Dữ Liệu
Thể loại Bài Tập Lớn
Định dạng
Số trang 15
Dung lượng 752,69 KB

Nội dung

Các mô hình dự đoán hiện đại không chỉ hỗ trợ bác sĩ trong việc chẩn đoán bệnh mà còn giúp nâng cao hiệu quả điều trị và giảm thiểu nguy cơ tử vong ở bệnh nhân.. Dự án"Phân tích và dự đo

Trang 1

TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN

KHOA KHOA HỌC DỮ LIỆU VÀ TRÍ TUỆ NHÂN TẠO

-** -BÀI TẬP LỚN MÔN NHẬP MÔN KHOA HỌC DỮ LIỆU

 Đề tài: Phân tích dữ liệu sức khỏe

Lớp tín chỉ: Nhập môn khoa học dữ liệu  

STT Sinh viên Lớp Mã sinh viên

1 Đinh Ngọc Minh Châu DS66B 11247145

2 Đào Hương Giang DS66B 11247160

3 Ngô Sỹ Thịnh DS66B 11247226

4 Giáp Trần Quang Vinh DS66B 11247246

Trang 2

Lời cảm ơn Trước tiên, nhóm chúng em xin gửi lời cảm ơn chân thành và sâu sắc đến thầy Lương Văn Thiện, người đã tận tình giảng dạy, hướng dẫn và hỗ trợ nhóm trong suốt quá trình thực hiện bài tập lớn này Những chỉ dẫn tận tâm của thầy

đã giúp chúng em không chỉ hiểu sâu hơn về các khía cạnh lý thuyết mà còn áp dụng được kiến thức vào thực tiễn phân tích dữ liệu

Nhóm cũng xin cảm ơn các thành viên trong lớp đã cùng trao đổi, thảo luận và đóng góp ý kiến hữu ích, giúp nhóm có thêm nhiều góc nhìn để hoàn thiện bài báo cáo

Nhóm chúng em rất mong nhận được sự góp ý từ thầy và các bạn để có thể cải thiện và phát triển hơn nữa trong các bài tập và dự án tương lai

Trang 3

MỤC LỤC

I Giới thiệu………Trang

  1 Lý do chọn đề tài……… Trang

  2 Mục tiêu………Trang

  3 Ý nghĩa……… Trang

II Xây dựng Model phân tích……… Trang

  1 Khám phá dữ liệu ………Trang

  2 Phân tích dữ liệu…….……… Trang

  3 Dự đoán kết quả ……… Trang III Kết luận………Trang

Trang 4

Lời mở đầu   Như chúng ta đã biết, trong thời đại khoa học công nghệ phát triển, việc

áp dụng các phương pháp phân tích dữ liệu và trí tuệ nhân tạo vào lĩnh vực y tế 

đã mang lại nhiều giá trị to lớn Các mô hình dự đoán hiện đại không chỉ hỗ trợ  bác sĩ trong việc chẩn đoán bệnh mà còn giúp nâng cao hiệu quả điều trị và giảm thiểu nguy cơ tử vong ở bệnh nhân

Dự án"Phân tích và dự đoán khả năng mắc ung thư phổi" được thực hiện với mong muốn tận dụng sức mạnh của dữ liệu để xây dựng các mô hình dự  đoán chính xác Dựa trên tập dữ liệu bao gồm thông tin về các đặc trưng sinh lý, thói quen và bệnh lý của bệnh nhân, nhóm nghiên cứu đã triển khai các thuật toán học máy như Logistic Regression và Random Forest nhằm đánh giá khả năng mắc bệnh ung thư phổi

Bài báo cáo này không chỉ cung cấp cái nhìn tổng quan về cách xây dựng, đánh giá mô hình dự đoán mà còn nêu bật những ưu nhược điểm của từng phương pháp, từ đó đưa ra những giải pháp phù hợp cho việc áp dụng trong thực tiễn

Hy vọng rằng kết quả từ nghiên cứu này sẽ góp phần nâng cao nhận thức về vai trò của khoa học dữ liệu trong lĩnh vực y tế và mở ra những hướng đi mới cho các nghiên cứu ứng dụng trong tương lai

NỘI DUNG

I GIỚI THIỆU

1 Lý do chọn đề tài

  Ung thư phổi hiện là một trong những căn bệnh có tỷ lệ tử vong cao nhất trên toàn cầu, đặc biệt tại Việt Nam, nơi tỷ lệ mắc và tử vong ngày càng gia tăng Việc phát hiện sớm và chính xác nguy cơ mắc bệnh là yếu tố sống còn trong điều trị, nhưng các phương pháp chẩn đoán truyền thống thường tốn kém

Trang 5

và đòi hỏi nhiều thời gian Trong bối cảnh này, ứng dụng các thuật toán học máy để dự đoán nguy cơ mắc ung thư dựa trên dữ liệu y tế không chỉ mang lại tính chính xác cao mà còn giúp tiết kiệm nguồn lực  Chọn đề tài này, nhóm nghiên cứu mong muốn tìm hiểu sâu về tiềm năng của Machine Learning trong y tế và góp phần đề xuất giải pháp hỗ trợ chẩn đoán sớm ung thư phổi, từ đó nâng cao hiệu quả điều trị và giảm thiểu gánh nặng cho bệnh nhân cũng như hệ thống y tế

2 Mục tiêu

● Phân tích dữ liệu bệnh nhân ung thư phổi bao gồm các đặc trưng sinh lý, thói quen sinh hoạt và tiền sử bệnh lý

● Xây dựng và triển khai hai mô hình học máy làLogistic Regression và Random Forest để dự đoán nguy cơ mắc ung thư phổi

● Đánh giá hiệu quả của hai mô hình thông qua các thước đo hiệu suất như Confusion Matrix, ROC Curve, và các chỉ số liên quan

● Đưa ra nhận xét về mô hình phù hợp nhất và các khuyến nghị nhằm cải thiện khả năng phát hiện bệnh

3 Ý nghĩa

● Ý nghĩa khoa học: Đề tài ứng dụng các thuật toán Machine Learning để khám phá và phân tích dữ liệu y tế, đồng thời đánh giá khả năng ứng dụng của chúng trong lĩnh vực phát hiện sớm bệnh lý, đặc biệt là ung thư phổi Đây là một hướng nghiên cứu quan trọng, mở ra tiềm năng ứng dụng công nghệ trong việc cải tiến hệ thống y tế

● Ý nghĩa thực tiễn: Kết quả nghiên cứu giúp xây dựng mô hình hỗ trợ y

tế thông minh, đặc biệt trong sàng lọc và dự đoán nguy cơ mắc bệnh

Trang 6

Điều này góp phần giảm thiểu các trường hợp bỏ sót (False Negative) và nâng cao khả năng phát hiện chính xác, từ đó hỗ trợ các bác sĩ trong việc

ra quyết định điều trị kịp thời

● Ý nghĩa xã hội: Đề tài này hướng tới mục tiêu nâng cao nhận thức và sự quan tâm của cộng đồng đối với các công cụ hỗ trợ y tế hiện đại, qua đó thúc đẩy việc ứng dụng công nghệ trong việc chăm sóc sức khỏe cộng đồng

II XÂY DỰNG MODEL PHÂN TÍCH

1 Khám phá dữ liệu

Phần chuẩn bị dữ liệu là một bước quan trọng trong quá trình phân tích và khai thác dữ liệu Trong bài báo cáo này, chúng em sử dụng một tập dữ liệu dưới dạng dataframe về ung thư phổi được lấy từ Kaggle Để thu thập và chuẩn bị dữ  liệu này, chúng em thực hiện các bước sau:

● Bước 1: Tải dữ liệu từ Kaggle

Tập dữ liệu về ung thư phổi được tải từ Kaggle, cung cấp các thông tin như đặc điểm nhân khẩu học, kết quả xét nghiệm y tế, và tình trạng bệnh

lý Sau khi tìm kiếm và chọn tập dữ liệu phù hợp, chúng em đã tải xuống các tệp CSV chứa thông tin này Dữ liệu bao gồm các cột như:

○ GENDER : giới tính

○ AGE: tuổi

○ SMOKING: bệnh nhân có tiền sử hút thuốc

○ YELLOW_FINGERS: bệnh nhân có triệu chứng ngón tay màu vàng

○ ANXIETY: bệnh nhân có tiền sử rối loạn lo âu

○ PEER_PRESSURE: bệnh nhân chịu áp lực từ bạn b, đồng

nghiệp

○ CHRONIC_DISEASE: bệnh nhân mắc bệnh mãn tính

○ FATIGUE: bệnh nhân hay trong tình trạng mệt mỏi, kiệt sức

○ ALLERGY: bệnh nhân có tiền sử bị dị ứng

○ WHEEZING: bệnh nhân có tiếng thở khò kh

○ ALCOHOL_CONSUMING: bệnh nhân có sử dụng đồ uống có cồn

○ COUGHING: bệnh nhân thường xuyên bị ho

○ SHORTNESS_OF_BREATH: bệnh nhân có triệu chứng khó thở

Trang 7

○ SWALLOWING_DIFFICULTY: bệnh nhân gặp khó khăn trong nhai nuốt

○ CHEST_PAIN: bệnh nhân xuất hiện những cơn đau ở ngực

○ Nhãn:LUNG_CANCER : bệnh nhân có mắc bệnh ung thư phổi hay không

Tổng cộng, dataset gồm có 3000 mẫu dữ liệu, tương ứng 3000 hồ sơ bệnh nhân

● Bước 2: Kiểm tra và làm sạch dữ liệu

Sau khi tải dữ liệu, chúng em thực hiện:

○ Kiểm tra tính toàn vẹn: Đảm bảo các giá trị trong các cột là hợp lệ

○ Loại bỏ dữ liệu thiếu: Các dòng hoặc cột chứa giá trị bị thiếu được xử lý bằng cách loại bỏ hoặc thay thế bằng giá trị trung bình/mặc định phù hợp

○ Xử lý giá trị ngoại lai: Phát hiện và xử lý các giá trị không hợp lý hoặc khác thường

● Bước 3: Chuẩn hóa và sắp xếp dữ liệu

Chuyển đổi định dạng dữ liệu: Chuyển đổi các cột định tính (categorical) sang dạng số (numerical), sử dụng mã hóa nhãn (label encoding) hoặc mã hóa one-hot (one-hot encoding)

Chun ha dữ liệu: Sử dụng StandardScaler() thuộc thư viện scikit-learn để quy đổi tỷ lệ của các giá trị khác nhau để so sánh

Lý do cần chuẩn hóa dữ liệu:

○ Tăng hiệu quả của các thuật toán học máy

○ Giảm ảnh hưởng của đặc trưng có đơn vị lớn

○ Cân bằng ảnh hưởng giữa các đặc trưng

Như vậy, chúng em đã hoàn thành phần chun bị dữ liệu Trong các phần tiếp theo, chúng em sẽ tiến hành phân tích khám phá dữ liệu, và xây dựng các mô hình dự đoán

để hỗ trợ phân loại tình trạng ung thư phổi.

2 Phân tích dữ liệu

a) Biểu đồ phân phối của biến “Lung Cancer”

Trang 8

Biểu đồ violin trên thể hiện phân phối tuổi của các bệnh nhân được phân loại theo trạng thái ung thư phổi ( Lung Cancer: YES hoặc NO) Dữ liệu được trình bày như sau:

1. Nhm không mắc ung thư phổi (NO):

○ Tuổi của nhóm này phân bố rộng, trải dài từ khoảng 20 đến 80 tuổi

○ Phần lớn dữ liệu tập trung ở khoảng tuổi trung niên (40–60 tuổi), thể hiện qua vùng giữa violin plot có độ rộng lớn hơn

2. Nhm mắc ung thư phổi (YES):

○ Tương tự nhóm NO, độ tuổi cũng phân bố rộng, nhưng có sự khác biệt trong trọng tâm phân phối

○ Phân phối có xu hướng tập trung ở độ tuổi cao hơn (50–70 tuổi), cho thấy nguy cơ mắc ung thư phổi có thể tăng lên khi tuổi tác tăng

3. So sánh hai nhm:

○ Độ tuổi trung bình của nhóm mắc ung thư phổi (YES) cao hơn so với nhóm không mắc (NO)

○ Việc này có thể chỉ ra một mối liên hệ tiềm năng giữa tuổi tác và nguy cơ ung thư phổi, đặc biệt là ở độ tuổi cao hơn (trên 50 tuổi) Nhận xét:

Trang 9

● Tuổi tác có thể là một yếu tố ảnh hưởng đến nguy cơ mắc ung thư phổi Kết quả phân tích này cần được kiểm tra lại với các đặc điểm khác như lối sống, tiền sử hút thuốc, hoặc các yếu tố môi trường để đưa ra kết luận toàn diện hơn

● Trong các bước tiếp theo, có thể cân nhắc kiểm định thống kê để xác nhận xem sự khác biệt này có ý nghĩa hay không

b) Biểu đồ theo tuổi cho mỗi yếu tố 

Các biểu đồ đếm cho thấy mối quan hệ giữa độ tuổi và các yếu tố rủi ro liên quan đến ung thư phổi, bao gồm: SMOKING, YELLOW_FINGERS,

ANXIETY, PEER_PRESSURE, CHRONIC_DISEASE, và FATIGUE Dưới đây là phân tích chi tiết:

1 Hút thuốc (SMOKING):

○ Tỷ lệ hút thuốc tăng dần theo độ tuổi, cao nhất ở nhóm trung niên (40–60) và trên 60

2 Ngn tay vàng (YELLOW_FINGERS):

○ Phổ biến hơn ở các nhóm tuổi cao, tương ứng với tỷ lệ hút thuốc

3 Lo âu (ANXIETY):

○ Thường gặp hơn ở nhóm trung niên và cao tuổi, có thể liên quan đến sức khỏe và căng thẳng

4 Áp lực bạn bè (PEER_PRESSURE):

○ Chủ yếu ảnh hưởng đến nhóm trẻ (20–40 tuổi), giảm ở nhóm tuổi lớn hơn

5 Bệnh mãn tính (CHRONIC_DISEASE):

Trang 10

○ Xuất hiện nhiều hơn sau 40 tuổi, đặc biệt ở nhóm trên 60, là yếu tố rủi ro đáng chú ý

6 Mệt mỏi (FATIGUE):

○ Thường gặp ở nhóm trung niên và cao tuổi, có thể là triệu chứng liên quan đến sức khỏe

Nhận xét:

● Tuổi tác ảnh hưởng lớn đến các yếu tố rủi ro, với hút thuốc và bệnh mãn tính phổ biến ở nhóm lớn tuổi, trong khi áp lực bạn b thường xảy ra ở người trẻ

● Kết quả này gợi ý các biện pháp phòng ngừa phù hợp theo nhóm tuổi, đặc biệt chú trọng giáo dục chống hút thuốc và kiểm soát bệnh mãn tính

c) Biểu đồ theo giới tính cho “Lung Cancer”

Biểu đồ đếm thể hiện sự phân bố của các yếu tố rủi ro (SMOKING,

YELLOW_FINGERS, ANXIETY, PEER_PRESSURE, CHRONIC_DISEASE,

Trang 11

 FATIGUE) theo giới tính (M - Nam, F - Nữ) và trạng thái mắc ung thư phổi (Yes hoặc No) Các điểm chính rút ra như sau:

1 Hút thuốc (SMOKING):

○ Nam giới có tỷ lệ hút thuốc cao hơn nữ giới ở cả hai nhóm

○ Người hút thuốc có xu hướng mắc ung thư phổi cao hơn, đặc biệt

là ở nam giới, cho thấy đây là yếu tố nguy cơ quan trọng

2 Ngn tay vàng (YELLOW_FINGERS):

○ Không có sự khác biệt đáng kể giữa nam và nữ

○ Tình trạng này chủ yếu liên quan đến thói quen hút thuốc hơn là giới tính

3 Lo âu (ANXIETY):

○ Tỷ lệ lo âu tương đương ở cả hai giới và không có sự khác biệt rõ rệt giữa nhóm mắc và không mắc bệnh

○ Lo âu không phải yếu tố nguy cơ chính nhưng có thể liên quan đến các vấn đề sức khỏe khác

4 Áp lực bạn bè (PEER_PRESSURE):

○ Tỷ lệ tương tự ở cả nam và nữ, không ảnh hưởng lớn đến nguy cơ mắc ung thư phổi

5 Bệnh mãn tính (CHRONIC_DISEASE):

○ Tỷ lệ bệnh mãn tính cao hơn ở nhóm mắc bệnh, bất kể giới tính, chỉ ra đây có thể là yếu tố dự báo quan trọng

6 Mệt mỏi (FATIGUE):

○ Mệt mỏi phổ biến hơn ở nhóm mắc bệnh, thể hiện vai trò như một triệu chứng thường gặp

Kết luận

Nam giới chịu ảnh hưởng lớn hơn từ yếu tố hút thuốc, trong khi bệnh mãn tính

và mệt mỏi xuất hiện phổ biến ở cả hai giới trong nhóm mắc bệnh Một số yếu

tố khác như lo âu hay áp lực bạn b không ảnh hưởng đáng kể

3 Dự đoán kết quả

Trong phần này, nhóm triển khai hai mô hình học máy chính:

a) Logistic Regression

● Mô hình được huấn luyện trên dữ liệu đã chuẩn hóa và cho kết quả dự đoán với độ chính xác trung bình (accuracy) là 49.33%

Trang 12

● Ưu điểm: Đơn giản, dễ triển khai, khả năng dự đoán tốt với lớp không mắc bệnh

● Hạn chế : Tỷ lệ bỏ sót (False Negatives) cao, ảnh hưởng đến hiệu quả phát hiện bệnh

b) Random Forest

● Mô hình được huấn luyện với 650 cây quyết định và cho kết quả dự đoán với độ chính xác trung bình là 56,44%

● Ưu điểm: Hiệu suất cân bằng hơn, giảm tỷ lệ bỏ sót so với Logistic Regression

● Hạn chế : Tỷ lệ dự đoán nhầm cho lớp không mắc bệnh (False Positives) vẫn tương đối cao

Trang 13

Kết quả so sánh giữa hai mô hình:

- Random Forest vượt trội hơn trong việc phát hiện chính xác các trường hợp mắc bệnh, phù hợp hơn cho bài toán phát hiện ung thư phổi

- Logistic Regression vẫn hữu ích trong các tình huống cần giải thích dễ dàng và đơn giản hóa mô hình

III.KẾT LUẬN

KẾT LUẬN Phân tích dữ liệu ung thư phổi là một bài toán quan trọng với nhiều ứng dụng thực tế trong y học và nghiên cứu Để giải quyết bài toán này, có thể sử dụng các mô hình học máy như Random Forest và Logistic Regression Random Forest, với khả năng xử lý dữ liệu phức tạp và giảm thiểu overfitting, giúp xác

Trang 14

định các đặc trưng quan trọng trong chẩn đoán ung thư phổi Logistic Regression, với tính chất đơn giản và khả năng diễn giải rõ ràng, cũng là một công cụ hiệu quả trong dự đoán xác suất mắc bệnh Cả hai mô hình đều có thể đạt được độ chính xác cao khi được huấn luyện trên các bộ dữ liệu đủ lớn và đa dạng, từ đó hỗ trợ đưa ra các quyết định lâm sàng chính xác và nhanh chóng Kết luận, bài toán phân tích ung thư phổi là một bài toán quan trọng và đầy tiềm năng trong lĩnh vực y học Các mô hình học máy như Logistic Regression và Random Forest đều có khả năng giải quyết bài toán này một cách hiệu quả Tuy nhiên, Logistic Regression nổi bật hơn nhờ sự đơn giản, dễ triển khai và khả năng diễn giải rõ ràng các kết quả, phù hợp với các bài toán yêu cầu giải thích nguyên nhân và mối quan hệ giữa các biến số Theo kết quả nghiên cứu đã trình bày, Logistic Regression thể hiện hiệu năng vượt trội so với Random Forest trong bài toán phân tích ung thư phổi

Trang 15

TÀI LIỆU THAM KHẢO

1 Lung Cancer Data Analysis - SONAWANE LALIT Kaggle

2 Machine Learning cơ bản - TS Vũ Hữu Tiệp

Ngày đăng: 06/12/2024, 21:31

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w