1. Trang chủ
  2. » Luận Văn - Báo Cáo

Đ ti khai phá dữ liệu của bệnh Đột quỵ sử dụng phương pháp phân lớp cây quyết Định

23 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Khai Phá Dữ Liệu của bệnh đột quỵ sử dụng phương pháp phân lớp Cây Quyết Định
Tác giả Nguyễn Viết Tiến
Người hướng dẫn Phạm Nghĩa Vinh, Lê Quang Sơn, Vũ Văn Định
Trường học Trường Đại Học Điện Lực
Chuyên ngành Công Nghệ Thông Tin
Thể loại báo cáo
Năm xuất bản 2024
Thành phố Hà Nội
Định dạng
Số trang 23
Dung lượng 3,61 MB

Nội dung

TRƯỜNG ĐẠI HỌC ĐIỆN LỰC KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO MÔN HỌC KHAI PHÁ DỮ LIỆU Đ TI: Khai Phá Dữ Liệu của bệnh đột quỵ sử dụng phương pháp phân lớp Cây Quyết Định Sinh viên thực

Trang 1

TRƯỜNG ĐẠI HỌC ĐIỆN LỰC

KHOA CÔNG NGHỆ THÔNG TIN

BÁO CÁO MÔN HỌC

KHAI PHÁ DỮ LIỆU Đ TI: Khai Phá Dữ Liệu của bệnh đột quỵ sử dụng phương

pháp phân lớp Cây Quyết Định

Sinh viên thực hiện

Trang 3

NỘI DUNG BÁO CÁO

LỜI NÓI ĐẦU 5

1 GIỚI THIỆU BÀI TOÁN 6

1.1 BI TOÁN Đ RA 6

1.2 MỤC TIÊU CỦA NHÓM 6

2 MÔ TẢ BÀI TOÁN 7

3 TIỀN XỬ LÝ DỮ LIỆU 9

3.1 IMPORT THƯ VIỆN 9

3.2 ĐỌC DỮ LIỆU TỪ DATAFRAME 9

3.3 Ý NGHĨA DATA PROCESSING (TIN XỬ LÝ DỮ LIỆU) 10

3.4 XỬ LÝ GIÁ TRỊ NULL 10

3.5 OUTLIERS HANDLING (XỬ LÝ NHIỄU) 12

3.6 XỬ LÝ GIÁ TRỊ ‘OTHER’ TRONG GENDER V CỘT ID 14

3.7 BALACING THE DATA (CÂN BẰNG DỮ LIỆU) 15

3.8 ONE-HOT ENCODING 16

4 MÔ HÌNH PHÂN LỚP CÂY QUYẾT ĐỊNH 17

4.1 CHIA DỮ LIỆU TRAINING V TEST 17

4.2 XÂY DỰNG MÔ HÌNH PHÂN LỚP DECISION TREE 18

5 CÁC TIÊU CHÍ ĐÁNH GIÁ 19

6 ĐÁNH GIÁ MÔ HÌNH PHÂN LỚP 21

7 KẾT LUẬN 23

LỜI CẢM ƠN 24

Trang 4

LỜI NÓI ĐẦU

Trong gần hai thập kỷ qua, các hệ thống cơ sở dữ liệu đã đem lại những lợiích vô cùng to lớn cho nhân loại Cùng với sự phát triển của công nghệ thông tin vàứng dụng của nó trong đời sống – kinh tế - xã hội, lượng dữ liệu thu thập đượcngày càng nhiều theo thời gian, làm xuất hiện ngày càng nhiều các hệ thống cơ sở

dữ liệu có kích thước lớn

Trong tình hình hiện nay, khi thông tin đang trở thành yếu tố quyết địnhtrong kinh doanh thì vấn đề tìm ra các thông tin hữu ích trong các cơ sở dữ liệukhổng lồ ngày càng trở thành mục tiêu quan trọng của các doanh nghiệp và khaiphá dữ liệu dần trở thành thành phần chính để thực thi nhiệm vụ khai phá tri thức.Được đánh giá sẽ tạo ra cuộc cách mạng trong thế kỷ 21, khai phá dữ liệu sẽ ngàycàng được ứng dụng phổ biến trong các lĩnh vực kinh tế, xã hội: ngân hàng, truyềnthông, quảng cáo…

Trong quá trình tìm hiểu và làm bài nhóm chúng em xin chân thành cảm

ơn sự giúp đỡ và chỉ dạy của thầy Vũ Văn Định để chúng em có thể hoàn thành đề

tài “Khai Phá Dữ Liệu của bệnh đột quỵ sử dụng phương pháp phân lớp Cây

Quyết Định”.

Trang 5

1 GIỚI THIỆU BI TOÁN

1.1 BI TOÁN Đ RA

Đột quỵ là một tình trạng bệnh lý nghiêm trọng có thể gây ra những hậu quảthay đổi cuộc sống và được công nhận là một trong những nguyên nhân gây tửvong hàng đầu trên toàn cầu Theo dữ liệu mới nhất của Tổ chức Y tế Thế giới(WHO), đột quỵ vẫn là nguyên nhân gây tử vong đứng thứ 2 trên toàn thế giới,chiếm khoảng 11% tổng số ca tử vong

Trong phân tích này, nhóm sẽ sử dụng các kỹ thuật học máy để dự đoánnguy cơ đột quỵ Bộ dữ liệu này được sử dụng để dự đoán liệu một bệnh nhân cókhả năng bị đột quỵ hay không dựa trên các thông số đầu vào như giới tính, tuổitác, các bệnh khác nhau và tình trạng hút thuốc Mỗi hàng trong dữ liệu cung cấpthông tin liên quan về bệnh nhân Dự đoán sớm và xác định các trường hợp độtquỵ tiềm ẩn là rất quan trọng để can thiệp y tế kịp thời và mang lại kết quả sứckhỏe tốt hơn

1.2 MỤC TIÊU CỦA NHÓM

Từ bài toán được đặt ra phía trên, nhóm sẽ xem xét mối quan hệ giữa cácthông số sức khỏe khác nhau, các yếu tố về lối sống Từ đó sử dụng các mô hìnhhọc máy để dự đoán khả năng có thể mắc bệnh đột quỵ của bệnh nhân

Mục tiêu của nhóm khi thực hiện bài báo cáo đó chính là vận dụng nhữngkiến thức đã được giảng dạy trên lớp để áp dụng vào bài toán thực tế Bên cạnh đó

là việc đồng thời tích lũy thêm các kinh nghiệm cho bản thân trong lĩnh vực KhaiPhá Dữ Liệu

Trang 6

2 MÔ TẢ BI TOÁN

Tên bài toán: Khai phá dữ liệu của bệnh đột quỵ sử dụng mô hình phân lớp

Cây Quyết Định

Các thuộc tính đầu vào:

- Age (tuổi): Đây là độ tuổi của bệnh nhân Tuổi tác là một yếu tố quan trọng trong

dự đoán đột quỵ vì nguy cơ đột quỵ tăng theo tuổi tác Theo Tổ chức Y tế Thế giới,nguy cơ đột quỵ tăng gấp đôi sau mỗi thập kỷ sau tuổi 55

- Hypertension (tăng huyết áp): Đây là đặc điểm cho biết bệnh nhân có bị tănghuyết áp (huyết áp cao) hay không Tăng huyết áp là một yếu tố nguy cơ đáng kểgây đột quỵ vì nó có thể làm hỏng các mạch máu, khiến chúng dễ bị tắc nghẽnhoặc vỡ

- heart_disease (bệnh tim): Yếu tố này cho biết bệnh nhân có bị bệnh tim haykhông Bệnh nhân mắc bệnh tim có nguy cơ bị đột quỵ cao hơn vì những tình trạngnày có thể dẫn đến hình thành cục máu đông trong tim và có thể di chuyển lên não

- ever_married (tình trạng hôn nhân) : Yếu tố này thể hiện bệnh nhân đã kết hônhay chưa Mặc dù không phải là yếu tố nguy cơ trực tiếp gây đột quỵ nhưng tìnhtrạng hôn nhân có thể liên quan đến các yếu tố lối sống ảnh hưởng đến nguy cơ độtquỵ

- Work_type (loại công việc): Yếu tố này mô tả loại nghề nghiệp của bệnh nhân.Một số nghề nghiệp có thể liên quan đến mức độ căng thẳng cao hơn hoặc hành vi

ít vận động, có thể ảnh hưởng đến nguy cơ đột quỵ

Trang 7

- Residence_type (nơi cư trú): Yếu tố này cho biết bệnh nhân sống ở khu vực nôngthôn hay thành thị Nơi cư trú có thể liên quan đến nguy cơ đột quỵ do các yếu tốnhư khả năng tiếp cận dịch vụ chăm sóc sức khỏe, chất lượng không khí, thói quensinh hoạt, v.v.

- avg_glucose_level (mức đường huyết trung bình): Yếu tố này thể hiện mứcđường huyết trung bình trong máu của bệnh nhân Lượng đường trong máu cao cóthể làm hỏng mạch máu, dẫn đến tăng nguy cơ đột quỵ

- bmi: Đây là chỉ số khối cơ thể của bệnh nhân, được tính bằng cân nặng tính bằngkilogam chia cho bình phương chiều cao tính bằng mét Chỉ số BMI cao cho thấybéo phì, đây là yếu tố nguy cơ đáng kể của đột quỵ

- smoking_status (tình trạng hút thuốc): Yếu tố này cho biết bệnh nhân là ngườihút thuốc, đã từng hút thuốc hay chưa bao giờ hút thuốc Hút thuốc có thể làm tăngnguy cơ đột quỵ vì nó có thể làm hỏng mạch máu, tăng huyết áp và giảm lượngoxy đến não

- gender (giới tính): Yếu tố này đại diện cho giới tính của bệnh nhân Giới tính cóthể ảnh hưởng đến nguy cơ đột quỵ do sự khác biệt sinh học và lối sống đặc trưngcủa giới tính

* Kết quả đầu ra:

- stroke (Đột quỵ): Sẽ có dạng nhị phân 0 tương đương với dự đoán bệnh nhânkhông bị đột quỵ 1 tương đương với dự đoán bệnh nhân bị đột quỵ

Trang 9

- DATAFRAME:

3.3 Ý NGHĨA DATA PROCESSING (TIN XỬ LÝ DỮ LIỆU)

- Đặt vấn đề: Có thể thấy trong DataFrame vẫn tồn tại những giá trị Null, thêmvào đó là các giá trị của các cột thuộc tính là kiểu String Vì vậy, với những vấn đềtrên DataFrame chưa phù hợp để có thể sử dụng để huấn luyện xây dựng 1 mô hìnhhọc máy Vậy nên ta cần tiền xử lý dữ liệu để có thể phù hợp với quá trình xâydựng mô hình

3.4 XỬ LÝ GIÁ TRỊ NULL

- Đếm số lượng dữ liệu giá trị Null trong DataFrame

Trang 10

- Có thể thấy tồn tại 201 giá trị Null ở cột bmi Ta cần xử lý các dữ liệu Null vì sẽ gây ảnh hưởng đến hiệu suất và kết quả của mô hình.

- Thay thế các giá trị Null bằng giá trị trung bình của cột bmi

- Số lượng các dữ liệu Null trong DataFrame sau khi xử lý dữ liệu

Trang 11

- Xử lý giá trị “Unknown” trong smoking _status Ta sẽ thay thế các giá trị

“Unknown” bằng 1 giá trị bất kì tồn tại trong smoking_status

- Số lượng giá trị “Unknown” trước khi xử lý dữ liệu

- Số lượng giá trị “Unknown” sau khi xử lý dữ liệu

3.5 OUTLIERS HANDLING (XỬ LÝ NHIỄU)

- Các giá trị nhiễu (noise) đề cập đến dữ liệu không mong muốn, không thể dựđoán hoặc có tính biến động ngẫu nhiên Sự xuất hiện của nhiễu trong dữ liệu cóthể có nhiều hậu quả xấu và ảnh hưởng đến hiệu suất của mô hình

Trang 12

- Có thể thấy rằng trong bmi chứa các giá trị nhiễu, nên ta cần xử lý nhiễu ở cộtbmi Ta sẽ loại bỏ đi các giá trị > 55, vì các giá trị đó nằm trong khoảng các giá trịnhiễu cần phải loại bỏ.

- Câu lệnh thực hiện loại bỏ các giá trị nhiễu

- Dữ liệu trong DataFrame sau khi được xử lý nhiễu

Trang 13

3.6 XỬ LÝ GIÁ TRỊ ‘OTHER’ TRONG GENDER V CỘT ID

- Loại bỏ cột ID, vì dữ liệu này không có ảnh hưởng quan trọng lên quá trình xây dựng mô hình phân lớp

- Loại bỏ giá trị Other trong cột gender Vì giá trị này có số lượng ít, nên không ảnh hưởng nhiều đến mô hình phân lớp

- Số lượng giá trị “Other” trong gender sau khi xử lý dữ liệu

Trang 14

3.7 BALACING THE DATA (CÂN BẰNG DỮ LIỆU)

-Đếm số lượng biến mục tiêu 0 và 1 của Stroke

- Thấy rằng dữ liệu nhãn 0 chiếm 95% tổng số lượng DataFrame Số lượng thấpcác nhãn 1 sẽ ảnh hưởng đến mô hình học máy, dự đoán nhãn 1 có thể rất kém

- Cân bằng dữ liệu bằng phương pháp Resampling Tức ta sẽ sử dụng lại các hàng

dữ liệu có nhãn 1 nhiều lần để số lượng dữ liệu cân bằng với dữ liệu nhãn 0

- Mã code thực thi cân bằng dữ liệu:

Trang 15

- Số lượng nhãn 0 và 1 của Stroke sau khi Resampling:

- DataFrame sau khi cân bằng dữ liệu

- Dữ liệu đã từ 5076 hàng dữ liệu thành 9656 hàng dữ liệu và dữ liệu nhãn 0 và nhãn 1 đã được cân bằng

3.8 ONE-HOT ENCODING

- One-hot Encoding là 1 phương pháp tiền xử lý dữ liệu được sử dụng để chuyển đổi giá trị các biến phân loại thành các biến nhị phân Từ đó dữ liệu sẽ phù hợp để

sử dụng trong quá trình huấn luyện và xây dựng mô hình

- Sử dụng phương pháp One-Hot Encoding cho thuộc tính work_type vàsmoking_status, gender, ever_married, Residence_type

Trang 16

- Kết quả DataFrame sau khi áp dụng One-Hot Encoding.

- Dữ liệu trong DataFrame đã được tiền xử lý và đã sẵn sàng để sử dụng vào môhình phân lớp Cây Quyết Định

4 MÔ HÌNH PHÂN LỚP CÂY QUYẾT ĐỊNH

4.1 CHIA DỮ LIỆU TRAINING V TEST

- Dữ liệu trong DataFrame được chia làm 2 tập 80% làm Training Data, sử dụng

để huấn luyện mô hình 20% làm Test Data, sử dụng để mô hình phân lớp

Trang 17

4.2 XÂY DỰNG MÔ HÌNH PHÂN LỚP DECISION TREE

- Mã code thực hiện xây dựng mô hình phân lớp Decision Tree

Trang 18

- Kết quả của mô hình phân lớp Cây Quyết Định:

5 CÁC TIÊU CHÍ ĐÁNH GIÁ

1 Accuracy (tính chính xác): Mức độ dự đoán chính xác của hệ thống (đã đượchuấn luyện) đối với các ví dụ kiểm chứng (test instances)

+ Công thức tính Accuracy:

2 Precision: Đối với lớp ci, tổng số các ví dụ thuộc lớp ci được phân loại chính

xác chia cho tổng số các ví dụ được phân loại vào lớp ci

+ Công thức tính Precision:

3 Recall: Đối với lớp ci, tổng số các ví dụ thuộc lớp ci được phân loại chính xácchia cho tổng số các ví dụ thuộc lớp ci

+ Công thức tính Recall:

Trang 19

4 F1-Score: là sự kết hợp của 2 tiêu chí đánh giá Precision và Recall F1 là mộttrung bình điều hòa (harmonic mean) của các tiêu chí Precision và Recall.+ Công thức tính F1-Score:

5 Confusion Matrix (ma trận nhầm lẫn):

+ TPi (true positive): Số lượng dữ liệu thuộc lớp ci được phân loại chính xácvào lớp ci

+ FPi (false positive): Số lượng dữ liệu bên ngoài bị phân loại nhầm vào lớp ci

+ TNi (true negative): Số lượng dữ liệu không thuộc lớp ci được phân loạichính xác

+ FNi (false negative): Số lượng dữ liệu thuộc lớp ci bị phân loại nhầm vàocác lớp khác ci

6 Kappa Statistic: Kappa Statistic là một chỉ số đánh giá độ đồng nhất giữa dựđoán của mô hình và thực tế

Trang 20

7 MAE: là chỉ số đo lường trung bình giá trị tuyệt đối của sai số giữa dự đoán vàgiá trị thực tế.

8 RMSE: chỉ số đo lường căn bậc hai của trung bình của bình phương sai số giữa

dự đoán và giá trị thực tế

9 RAE: tỷ lệ của MAE so với trung bình giá trị thực tế

10 RRSE: căn bậc hai của tỷ lệ của RMSE so với trung bình giá trị thực tế

6 ĐÁNH GIÁ MÔ HÌNH PHÂN LỚP

- Accuracy: Đạt 0.98, điều này có nghĩa rằng mô hình dự đoán đúng khoảng 98%

dữ liệu kiểm tra, cho thấy hiệu suất chung của mô hình là rất cao

- Precision: Kết quả lớp 0 và lớp 1 đều rất cao, với Precision 0 là 1.00 và Precision

1 là 0.95 Điều này cho thấy mô hình đưa ra ít dự đoán sai cho cả hai lớp

- Recall: Kết quả lớp 0 và lớp 1 đều rất cao, với Recall 0 là 0.95 và Recall 1 là 1.00 Điều này cho thấy mô hình có khả năng phát hiện tốt cả hai lớp

- F1-Score: Với F1-Score 0 là 0.98 và F1-Score 1 là 0.98 Giá trị cao của nó cho

thấy mô hình có khả năng phân loại và phát hiện tốt cho cả hai lớp

- Kappa Statistic: Đạt 0.95, cho thấy mô hình có sự đồng thuận rất cao giữa dựđoán và thực tế Điều này chỉ ra rằng mô hình đạt được sự đồng thuận tốt

- MAE: Đạt 0.024, giá trị này rất thấp, chỉ ra rằng sai số trung bình giữa dự đoán

và giá trị thực tế là rất nhỏ Giá trị MAE thấp là dấu hiệu của một mô hình có khảnăng dự đoán tốt và chính xác

Trang 21

- RMSE: Đạt 0.15, là một giá trị thấp, cho thấy sai số bình phương trung bình cũngrất nhỏ RMSE thường cao hơn so với MAE do nó tính toán sai số bình phương,nhưng trong trường hợp này, giá trị thấp của RMSE cũng cho thấy mô hình dựđoán chính xác.

- RAE: Đạt 0.049, sai số tương đối tuyệt đối giữa dự đoán và giá trị thực tế là thấp.Cho thấy mô hình có khả năng dự đoán tốt

- RRSE: Đạt 0.31, cũng là một giá trị thấp, chỉ ra rằng sai số tương đối bìnhphương trung bình rất nhỏ và mô hình đạt hiệu suất tốt

- Tổng quan, mô hình này có hiệu suất rất cao, với khả năng phân loại chính xác cảhai lớp, một sự cân bằng tốt giữa precision và recall, và các sai số rất thấp Nó cókhả năng dự đoán dữ liệu kiểm tra một cách chính xác và hiệu quả Mô hình đạtđược tỷ lệ chuẩn xác 98%, nhóm đánh giá đây là 1 tỷ lệ chính xác cao, nhưng vẫncần cải thiện hơn nữa vì đây là bài toán liên quan đến y tế

- Mô hình làm tốt ở việc phân loại các dữ liệu nhãn 1, khi mô hình phân lớp đúng100% Test Data Nhưng đối với các dữ liệu nhãn 0, mô hình phân lớp sai 47 dữliệu trên tổng số 973 dữ liệu đạt tỷ lệ dự đoán đúng 95% đối với lớp 0 Vậy là môhình vẫn có thể sẽ phân lớp sai các bệnh nhân không mắc đột quỵ thành kết quảbệnh nhân mắc đột quỵ Đây là 1 điểm mà nhóm cần lưu ý và cải thiện trong môhình phân lớp

Trang 22

7 KẾT LUẬN

Qua quá trình thực hiện bài báo cáo, nhóm đã nghiên cứu, áp dụng và xâydựng thành công một mô hình phân lớp Cây Quyết Định và ứng dụng mô hình vàobài toán được đề ra ban đầu

Nhóm đánh giá mô hình phân lớp Cây Quyết Định được sử dụng trong bàitoán trên đã đạt được tỷ lệ chính xác cao với 98% nhưng vẫn cần phải cải thiện ởmặt phân lớp các điểm dữ liệu có nhãn 0 Vì đây là bài toán liên quan đến y khoanên đòi hỏi độ chuẩn xác cao và tối thiểu những sai sót Với việc mô hình phân lớpchỉ đạt được 95% độ chuẩn xác khi phân loại các dữ liệu nhãn 0, nhóm đánh giáđây vẫn là một tỷ lệ chưa thể đáp ứng được những yêu cầu cao và khắt khe trongcác bài toán liên quan đến y khoa Nhóm vẫn sẽ tiếp tục tích lũy kiến thức, đồngthời nghiên cứu và cải thiện mô hình phân lớp Cây Quyết Định để mô hình cóđược đầu ra kết quả tốt hơn

Trong quá trình thực hiện bài báo cáo, nhóm đánh giá bản thân đã đạt đượccác mục tiêu được đề ra Nhóm đã được ứng dụng những kiến thức được giảng dạytrên lớp vào các bước của bài toán như quá trình tiền xử lý, xây dựng mô hình phânlớp Bên cạnh đó, các thành viên cũng đã có cơ hội được thử nghiệm và tích lũythêm cho bản thân nhiều bài học và kinh nghiệm trong lĩnh vực Khai Phá Dữ Liệu

Trang 23

LỜI CẢM ƠN

Qua quá trình thực hiên bài báo cáo, các thành viên trong nhóm đã có cơ hộiđược tích lũy thêm kiến thức, những kinh nghiệm trong lĩnh vực Khai Phá Dữ Liệu

và áp dụng các kiến thức vào bài toán thực tế

Mặc dù đã có nhiều cố gắng trong suốt quá trình làm bài tập, nhưng vì kiếnthức còn hạn chế, cũng như chưa có nhiều kinh nghiệm trong thực tế nên không thểtránh khỏi những sai sót Vì vậy, nhóm mong sẽ nhận được những lời góp ý từ thầy

để chỉnh sửa, hoàn thiện bài làm tốt hơn

Cuối cùng, nhóm sẽ không thể hoàn thiện được bài báo cáo nếu không có sựgiúp đỡ từ thầy Vũ Văn Định Nhóm xin cảm ơn thầy vì đã luôn giúp đỡ nhómxuyên suốt quá trình thực hiện bài báo cáo

Ngày đăng: 22/01/2025, 15:09

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w