1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Báo cáo khai phá dữ liệu Đề tài Ứng dụng các thuật toán phân lớp dự Đoán khả năng bệnh nhân mắc bệnh suy tim

58 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Ứng Dụng Các Thuật Toán Phân Lớp Dự Đoán Khả Năng Bệnh Nhân Mắc Bệnh Suy Tim
Tác giả Trần Thu Trang, Lê Thuỳ Trang, Nguyễn Thị Dịu
Người hướng dẫn Cô Bùi Thị Hồng Nhung
Trường học Học viện Ngân hàng
Chuyên ngành Hệ thống thông tin quản lý
Thể loại báo cáo
Năm xuất bản 2021
Thành phố Hà Nội
Định dạng
Số trang 58
Dung lượng 2,18 MB

Cấu trúc

  • CHƯƠNG 1. TỔNG QUAN VỀ ĐỀ TÀI (13)
    • 1.1. Đặt vấn đề (13)
    • 1.2. Mục tiêu đề tài (14)
    • 1.3. Đối tượng phương pháp nghiên cứu (14)
    • 1.4. Ý nghĩa của đề tài (14)
    • 1.5. Bố cục đề tài (14)
  • CHƯƠNG 2. CƠ SỞ LÝ THUYẾT (15)
    • 2.1. Tổng quan về kỹ thuật khai phá dữ liệu (15)
      • 2.1.1. Khái niệm khai phá dữ liệu (15)
      • 2.1.2. Các giai đoạn của quá trình khai phá dữ liệu (15)
    • 2.2. Bài toán phân lớp trong Khai phá dữ liệu (16)
      • 2.2.1. Khái niệm phân lớp (16)
      • 2.2.2. Quá trình phân lớp dữ liệu (16)
    • 2.3. Cơ sở dữ liệu Y khoa (16)
      • 2.3.1. Sơ lược về bệnh Suy tim (16)
      • 2.3.2. Triệu chứng lâm sàng bệnh Suy tim (16)
        • 2.3.2.1. Suy tim trái (17)
        • 2.3.2.2. Suy tim phải (17)
        • 2.3.2.3. Suy tim toàn bộ (17)
      • 2.3.3. Chuẩn đoán (17)
  • CHƯƠNG 3. XÂY DỰNG MÔ HÌNH DỰ BÁO (20)
    • 3.1. Cơ sở dữ liệu (20)
    • 3.2. Thuật toán Navie Bayes (21)
      • 3.2.1. Lý do lựa chọn thuật toán Naive Bayes (21)
      • 3.2.2. Tổng quan về thuật toán (21)
    • 3.3. Thuật toán Random Forest (29)
      • 3.3.1. Lý do lựa chọn thuật toán Random Forest (29)
      • 3.3.2. Tổng quan về thuật toán (29)
  • CHƯƠNG 4 THỰC NGHIỆM ĐÁNH GIÁ (36)
    • 4.1. Trực quan hóa dữ liệu (36)
      • 4.1.1. Ma trận tương quan (36)
      • 4.1.2. Các biểu đồ (37)
    • 4.2. Tiền xử lý dữ liệu (40)
      • 4.2.1. Xử lý ngoại lai (40)
      • 4.2.2. Lưu file dữ liệu sau khi xử lý (42)
      • 4.2.3. Đọc file dữ liệu mới (43)
    • 4.3. Thực nghiệm (43)
      • 4.3.1. Thuật toán Navie Bayes (43)
      • 4.3.2. Thuật toán Random Forest (50)
      • 4.3.3. Thuật toán Decision Tree (53)
    • 4.4. Đánh giá (54)
  • CHƯƠNG 5. TỔNG KẾT (56)
    • 5.1. Kết luận (56)
    • 5.2. Hạn chế của đề tài (56)
    • 5.3. Hướng phát triển (56)
  • TÀI LIỆU THAM KHẢO (58)

Nội dung

Trong khuôn khổ bài báo cáo này, chúng em tìm hiểu và trình bày về một kĩ thuật trong khai phá dữ liệu để phân lớn dữ liệu cũng như tổng quan về khai phá dữ liệu, với đề tài “Ứng dụng cá

TỔNG QUAN VỀ ĐỀ TÀI

Đặt vấn đề

Trong thời đại công nghệ thông tin hiện nay, sự phát triển không ngừng của CNTT và các ứng dụng của nó đã dẫn đến việc tích lũy một lượng lớn thông tin và cơ sở dữ liệu Để đưa ra quyết định nhanh chóng dựa trên khối lượng dữ liệu khổng lồ, con người cần thông tin kịp thời Tuy nhiên, các phương pháp quản trị và khai thác cơ sở dữ liệu truyền thống ngày càng trở nên không hiệu quả, tạo điều kiện cho sự phát triển của kỹ thuật phát hiện tri thức và khai phá dữ liệu nhanh chóng.

Khai phá dữ liệu đang được nghiên cứu và ứng dụng rộng rãi trong nhiều lĩnh vực trên toàn cầu Các kết quả thử nghiệm cho thấy, với độ chính xác cao, các mô hình này mang lại nguồn tri thức quý giá và hữu ích.

Trong bài báo cáo này, chúng tôi nghiên cứu và trình bày về một kỹ thuật trong khai phá dữ liệu nhằm phân loại dữ liệu, đồng thời cung cấp cái nhìn tổng quan về lĩnh vực khai phá dữ liệu.

Ứng dụng các thuật toán phân lớp giúp dự đoán khả năng mắc suy tim cho bệnh nhân tại Bệnh viện Tim Hà Nội, nhằm nâng cao hiệu quả chẩn đoán và điều trị.

Suy tim là một tình trạng bệnh lý khi cơ tim không đủ khả năng cung cấp máu theo nhu cầu của cơ thể Theo Tổ chức Y tế Thế giới (WHO), mỗi năm có khoảng 5 triệu người mới mắc suy tim trên toàn cầu.

Chụp X-quang, xét nghiệm máu và siêu âm tim là những phương pháp hữu ích trong chẩn đoán bệnh suy tim Trong số đó, xét nghiệm điện tâm đồ (ECG) được ưa chuộng hơn cả, giúp theo dõi hoạt động, tốc độ và nhịp điệu của tim, từ đó phát hiện các bệnh lý tim mạch, bao gồm suy tim.

ECG cung cấp kết quả chính xác chủ yếu cho những người đã mắc suy tim hoặc những người khỏe mạnh mà chưa có dấu hiệu rõ ràng của bệnh, giúp dự đoán nguy cơ mắc bệnh trong tương lai.

Mục tiêu của bài viết là hỗ trợ bệnh viện Hà Nội trong việc phát triển mô hình nhận diện dấu hiệu của chứng rối loạn chức năng thất trái không triệu chứng (ALVD), tiền thân của bệnh suy tim Mô hình này không chỉ nhằm mang lại kết quả chính xác cho những bệnh nhân đã mắc suy tim, mà còn giúp phát hiện những dấu hiệu tiềm ẩn ở người khỏe mạnh, từ đó dự đoán nguy cơ mắc bệnh trong tương lai.

Một tệp dữ liệu phân tích chứa thông tin của hơn 900 khách hàng, bao gồm các yếu tố nhân khẩu học như tuổi và giới tính Dữ liệu cũng cung cấp các thông số về sức khỏe tim mạch, bao gồm cơn đau tim, huyết áp tâm thu, lượng mỡ trong máu và lượng đường trong máu.

6 tâm đồ, nhịp tim tối đa,…) Từ cơ sở này giúp chúng ta có những thông tin thú vị giúp ích cho quá trình ra quyết định.

Mục tiêu đề tài

Nhóm nghiên cứu đã xây dựng mô hình dự đoán bệnh nhân suy tim, đồng thời phân tích dữ liệu và sử dụng trực quan hóa để xác định các yếu tố ảnh hưởng lớn nhất đến nguy cơ mắc bệnh Qua đó, họ đưa ra kết luận giúp bệnh viện cải thiện pháp đồ dự đoán, nâng cao hiệu quả trong việc quản lý và điều trị bệnh nhân.

Đối tượng phương pháp nghiên cứu

 Đối tượng nghiên cứu: 920 bệnh nhân từng thăm khám tim tại bệnh viện

 Phương pháp nghiên cứu: Sử dụng các thuật toán phân lớp để đưa ra dự đoán.

Ý nghĩa của đề tài

Dựa trên dữ liệu bệnh viện, nhóm nghiên cứu đã áp dụng các thuật toán phân lớp để dự đoán khả năng mắc suy tim ở bệnh nhân, từ đó nâng cao tỷ lệ chẩn đoán chính xác bệnh tại bệnh viện.

Bố cục đề tài

Bố cục đề tài gồm có 5 phần:

 Chương 1: Tổng quan về đề tài

 Chương 2: Cơ sở lý thuyết

 Chương 3: Xây dựng mô hình dự báo

 Chương 4: Thực nghiệm và đánh giá

CƠ SỞ LÝ THUYẾT

Tổng quan về kỹ thuật khai phá dữ liệu

2.1.1 Khái niệm khai phá dữ liệu

Khai phá dữ liệu (data mining) là quá trình tính toán nhằm tìm ra các mẫu trong các bộ dữ liệu lớn, kết hợp giữa máy học, thống kê và hệ thống cơ sở dữ liệu Đây là một lĩnh vực liên ngành trong khoa học máy tính, với mục tiêu trích xuất thông tin từ dữ liệu và chuyển đổi thành cấu trúc dễ hiểu Quá trình này không chỉ bao gồm phân tích thô mà còn liên quan đến quản lý dữ liệu, xử lý dữ liệu trước, suy xét mô hình và suy luận thống kê Nó cũng bao gồm các thước đo thú vị, cân nhắc phức tạp, xuất kết quả về các cấu trúc được phát hiện, hình hóa và cập nhật trực tuyến Khai phá dữ liệu là bước phân tích trong quá trình khám phá kiến thức trong cơ sở dữ liệu (KDD).

Khai phá dữ liệu là một bước trong quy trình khám phá tri thức, nhằm:

● Rút trích thông tin hữu ích, chưa biết, tiềm ẩn trong khối dữ liệu lớn

● Phân tích dữ liệu bán tự động

● Giải thích dữ liệu trên các tập dữ liệu lớn

2.1.2 Các giai đoạn của quá trình khai phá dữ liệu

Quy trình khai phá dữ liệu là một chuỗi lặp và tương tác, bắt đầu từ dữ liệu thô và kết thúc với tri thức đáp ứng nhu cầu của người sử dụng.

Các bước chính trong quy trình khai phá dữ liệu:

1 Làm sạch dữ liệu: Trước tiên, cần làm sạch dữ liệu để nó phù hợp với tiêu chuẩn

Dữ liệu bẩn hoặc không đầy đủ dẫn đến thông tin chi tiết kém và hệ thống bị lỗi gây tốn kém thời gian và tiền bạc

2 Tích hợp dữ liệu: Đây là một trong những kỹ thuật khai thác hàng đầu để hợp lý hóa toàn bộ quá trình trích xuất, chuyển đổi và tải

3 Giảm chiều dữ liệu: Quy trình tiêu chuẩn này trích xuất thông tin liên quan để phân tích dữ liệu và đánh giá mẫu

4 Chuyển đổi dữ liệu: Chuyển đổi dữ liệu sang dạng có thể chấp nhận được để phù hợp với các mục tiêu khai thác Hợp nhất dữ liệu chuẩn bị để tối ưu hóa các quy trình khai thác dữ liệu và giúp dễ dàng phân biệt các mẫu trong tập dữ liệu cuối cùng

5 Khai phá dữ liệu: Sử dụng các ứng dụng khai thác dữ liệu để trích xuất các xu hướng hữu ích và tối ưu hóa việc khám phá kiến thức để tạo ra thông tin kinh doanh

6 Đánh giá mẫu: Đây là giai đoạn đưa những hiểu biết sâu sắc vào thế giới thực Xác định bất kỳ mẫu hữu ích nào có thể tạo ra kiến thức kinh doanh

7 Trình bày kiến thức trong khai phá dữ liệu: Phân tích dữ liệu sử dụng kết hợp trực quan hóa dữ liệu, báo cáo và các công cụ khai thác khác để chia sẻ thông tin với những người khác.

Bài toán phân lớp trong Khai phá dữ liệu

Dạng phân tích dữ liệu nhằm rút trích các mô hình mô tả các lớp dữ liệu hoặc dự đoán xu hướng dữ liệu

Việc phân loại dữ liệu là rất quan trọng vì nó giúp tổ chức xác định mức độ bảo vệ cần thiết cho từng loại dữ liệu dựa trên tính quan trọng, độ nhạy cảm và mức độ bí mật Cụ thể, phân loại dữ liệu cho phép tổ chức xác định nguồn lực và chi phí cần thiết để bảo vệ thông tin Hơn nữa, phân loại dữ liệu còn là căn cứ cho các quy trình lưu trữ, xử lý, vận chuyển và tiêu hủy dữ liệu một cách hiệu quả.

2.2.2 Quá trình phân lớp dữ liệu

Quá trình gồm hai bước:

● Bước học (giai đoạn huấn luyện): xây dựng bộ phân loại (classifier) bằng việc phân tích/học tập huấn luyện.

● Bước phân loại (classification): phân loại dữ liệu/đối tượng mới nếu độ chính xác của bộ phân loại được đánh giá là có thể chấp nhận được (acceptable).

Cơ sở dữ liệu Y khoa

2.3.1 Sơ lược về bệnh Suy tim

Suy tim (HF) là hội chứng rối loạn chức năng tâm thất, với suy tim trái gây khó thở và mệt mỏi, trong khi suy tim phải dẫn đến ứ trệ tuần hoàn ngoại biên Các tình trạng suy tim có thể tiến triển đồng thời hoặc độc lập Chẩn đoán ban đầu dựa vào lâm sàng, hỗ trợ bởi chụp XQ ngực, siêu âm tim và xét nghiệm BNP Phương pháp điều trị bao gồm giáo dục bệnh nhân, sử dụng thuốc lợi tiểu, ức chế men chuyển, chẹn thụ thể angiotensin II, thuốc chẹn beta, thuốc kháng aldosterone, ức chế neprilysin, cũng như việc sử dụng máy tạo nhịp hoặc máy khử rung và điều trị các nguyên nhân gây suy tim.

2.3.2 Triệu chứng lâm sàng bệnh Suy tim

Suy tim được phân loại thành ba loại chính: suy tim trái, suy tim phải và suy tim toàn bộ Mỗi loại suy tim có những triệu chứng đặc trưng riêng, giúp nhận diện và điều trị hiệu quả hơn.

Khó thở là triệu chứng phổ biến ở người bệnh suy tim, đặc biệt khi gắng sức trong giai đoạn đầu Khi bệnh tiến triển nặng, những cơn khó thở kịch phát vào ban đêm có thể xuất hiện, buộc người bệnh phải ngồi dậy để thở dễ hơn.

Cơn hen tim và phù phổi cấp gây ra khó thở nghiêm trọng, ho khạc bọt hồng và tình trạng vật vã kích thích ở bệnh nhân Những triệu chứng này thường xuất hiện do bệnh nhân đã gắng sức quá mức Việc cấp cứu kịp thời là cần thiết để bảo vệ tính mạng của người bệnh.

Đau ngực có thể là triệu chứng của bệnh lý mạch vành, nguyên nhân dẫn đến suy tim Đồng thời, suy tim nặng cũng có thể làm giảm khả năng tưới máu cho mạch vành, gây ra cơn đau này.

 Hoa mắt, chóng mặt, tiểu tiện ít

 Triệu chứng cận lâm sàng bệnh suy tim trái: mỏm tim lệch trái, tiếng thổi bất thường do bệnh lý van tim

 Khó thở: tình trạng khó thở tăng dần và nặng dần lên, tuy nhiên không có cơn khó thở kịch phát như suy tim trái

 Gan to, phù chân, tĩnh mạch bị cổ nổi

 Triệu chứng bệnh giống suy tim phải nhưng mức độ nặng hơn, tình trạng khó thở thường xuyên xảy ra

 Gan to, phù nhiều, tĩnh mạch cổ nổi, xuất hiện trình trạng tràn dịch đa màng

Ngoài ra theo Hội Tim mạch học New York suy tim có thể được phân theo các cấp độ như sau:

 Suy tim cấp độ 1: bệnh nhân có bệnh tim nhưng không có triệu chứng cơ năng, có thể sinh hoạt và hoạt động gần như bình thường

 Suy tim cấp độ 2: khi gắng sức nhiều, các triệu chứng suy tim sẽ xuất hiện

 Suy tim cấp độ 3: khi gắng sức ít các triệu chứng cũng xuất hiện, do đó người bệnh bị hạn chế nhiều hoạt động thể lực

 Suy tim cấp độ 4: hay còn gọi là suy tim giai đoạn cuối, các triệu chứng xuất hiện thường xuyên kể cả khi nghỉ ngơi

Hỏi bệnh sử và thực hiện khám lâm sàng kỹ lưỡng là bước quan trọng trong chẩn đoán suy tim Bên cạnh đó, các phương tiện cận lâm sàng như siêu âm tim và định lượng BNP hoặc NT-ProBNP cũng đóng vai trò quan trọng trong việc xác định tình trạng bệnh.

Để chẩn đoán suy tim, thường cần thực hiện 10 bước xác định Điện tâm đồ và chụp X-quang ngực thẳng là những xét nghiệm thiết yếu trong mọi trường hợp nghi ngờ Các phương pháp này, cùng với siêu âm tim, giúp đánh giá mức độ nặng và nguyên nhân gây suy tim.

Hình 1: Quy trình chuẩn đoán suy tim theo khuyến cáo của Hội tim mạch Châu Âu

Hình 2: Các thăm do cận lâm sàng cần thực hiện giúp chuẩn đoán yếu tố làm nặng và tiên lượng bệnh suy tim

XÂY DỰNG MÔ HÌNH DỰ BÁO

Cơ sở dữ liệu

Dữ liệu của bài toán gồm 920 bản ghi và 13 thuộc tính

Thông tin về các thuộc tính:

Các biến được chia như sau:

ID không cung cấp thông tin bổ sung nào và không có mối liên hệ giữa ID của bệnh nhân và nguy cơ mắc bệnh tim Nó cũng không đưa ra kết luận chung cho các bệnh nhân trong tương lai, do đó thông tin này có thể được loại bỏ khi dự đoán mô hình.

 HeartDisease: đầu ra [1: bệnh tim, 0: bình thường]

 Age: tuổi của bệnh nhân [năm]

 Sex: giới tính của bệnh nhân [M: Nam, F: Nữ]

 TA (Typical Angina): Đau thắt ngực điển hình

 ATA (Atypical Angina): Đau thắt ngực không điển hình,

 NAP: Đau thắt ngực không

 ASY: Không có triệu chứng

 RestingBP (Resting Blood Pressure): huyết áp khi nghỉ ngơi [mm Hg]

 Cholesterol: cholesterol huyết thanh [mm / dl]

 FastingBS (Fasting Blood Sugar): đường huyết lúc đói [1: nếu FastingBS> 120 mg / dl, 0: Để tránh được điều đó thì phải giảm được False Negative(bệnh nhân bị suy tim nhưng lại được chuẩn đoán là không bị)

=> Recall nên được tối đa hóa, Recall càng lớn, cơ hội xác định chính xác cả hai lớp càng cao

Chúng em sẽ thực hiện thêm một mô hình Naive Bayes để so sánh và cải thiện độ chính xác cũng như độ hồi tưởng Để bắt đầu, chúng em sẽ xây dựng mô hình Mixed Naive Bayes kết hợp giữa Gaussian và Categorical Đầu tiên, chúng em sẽ tạo một hàm để lặp lại các đoạn mã đã sử dụng trong mô hình Mixed Naive Bayes trước đó.

Hình 4.20 Funtion thực hiện việc đào tạo mẫu, thực nghiệm và in ra kết quả

Phương pháp chuyển đổi các biến liên tục thành biến phân loại có thể được thực hiện bằng cách sử dụng hàm 'qcut' trong Pandas để phân chia các biến liên tục thành các khoảng.

Hình 4.21 Chuẩn bị dữ liệu

 Dự đoán và in ra kết quả

In ra kết quả xác suất của từng nhãn, độ chính xác và mô hình ma trận nhầm lẫn của mô hình

Hình 4.22 Ma trận nhầm lẫn của mô hình Mixed NB

 Accuracy = 0.84: Độ chính xác của mô hình sau khi sử dụng phương pháp 2 = 84%

 True Positive = 94: có 94 bệnh nhân mắc chứng suy tim được dự đoán đúng

 True Negative = 60: có 60 bệnh nhân không mắc chứng suy tim được dự đoán đúng

 False Positive = 16 : có 16 bệnh nhân không mắc chứng suy tim nhưng được dự đoán là có chấp nhận

 False Negative = 14: có 14 bệnh nhân mắc chứng suy tim nhưng được dự đoán là không chấp nhận

Phù hợp dữ liệu với hàm đã xây dựng và in ra độ đo đánh giá

Hình 4.23 Độ đo đánh giá mô hình Mixed NB

4.3.2 Thuật toán Random Forest a) Xây dựng mô hình Random Forest

Xác định thuộc tính mô tả X và thuộc tính dự đoán Y

Tạo mẫu đào tạo và thực nghiệm với tỉ lệ 80:20

Hình 4.24 Chuẩn bị dữ liệu

 Xây dựng mô hình Random Forest

Hình 4.25 Xây dựng mô hình Random Forest

In ra ma trận nhầm lẫn và báo cáo phân loại của mô hình

Hình 4.26 Ma trận nhầm lẫn của mô hình Random Forest

 Accuracy = 0.83: Độ chính xác của mô hình = 83%

 True Positive = 96: có 96 bệnh nhân mắc chứng suy tim được dự đoán đúng

 True Negative = 56: có 56 bệnh nhân không mắc chứng suy tim được dự đoán đúng

 False Positive = 20 : có 20 bệnh nhân không mắc chứng suy tim nhưng được dự đoán là có chấp nhận

 False Negative = 12: có 12 bệnh nhân mắc chứng suy tim nhưng được dự đoán là không chấp nhận

Lớp 0:Không bị suy tim

 F1-score = 0.86: Độ đo F = 0.86 b) Điều chỉnh các siêu tham số

After running the algorithm, we observed that the accuracy is still not satisfactory Therefore, we would like to recommend William Koehrsen's article, "Hyperparameter Tuning the Random Forest in Python," for a more detailed description of the process.

We will utilize RandomizedSearchCV from sklearn to optimize our hyperparameters While Koehrsen employed the entire hyperparameter grid in his paper, we will take a different approach.

Chúng tôi nhận thấy rằng quá trình này có thể tốn nhiều thời gian để thực hiện trên thực tế Do đó, chúng tôi quyết định tập trung vào ba siêu tham số quan trọng: n_estimators, max_features và max_depth.

Hình 4.26 In ra các tham số của mô hình Random Forest

 'n_estimators'= 277: Số lượng cây trong rừng = 277

 'max_features'= 'sqrt' ( 'max_features':Số lượng các tính năng cần xem xét khi tìm kiếm sự phân chia tốt nhất

 'max_depth'= 300: Chiều sâu tối đa của cây = 300

Sau khi thu được kết quả từ các tham số n_estimators, max_features và max_depth, chúng tôi đã áp dụng những tham số này vào mô hình nhằm cải thiện độ chính xác của nó.

Hình 4.27 Ma trận nhầm lẫn của mô hình Random Forest sau khi điều chỉnh các siêu tham số

 Accuracy = 0.85: Độ chính xác của mô hình = 85%

 True Positive = 97: có 97 bệnh nhân mắc chứng suy tim được dự đoán đúng

 True Negative = 59: có 59 bệnh nhân không mắc chứng suy tim được dự đoán đúng

 False Positive = 17 : có 17 bệnh nhân không mắc chứng suy tim nhưng được dự đoán là có chấp nhận

 False Negative = 11: có 11 bệnh nhân mắc chứng suy tim nhưng được dự đoán là không chấp nhận

Lớp 0:Không bị suy tim

Chúng em đã phát triển một mô hình sử dụng thuật toán Decision Tree để so sánh giữa mô hình nhóm nghiên cứu và mô hình thực nghiệm trên lớp, nhằm xác định mô hình tối ưu cho dự đoán khả năng bệnh nhân mắc bệnh suy tim.

Hình 4.28 Chuẩn bị dữ liệu cho thuật toán Decision Tree

Hình 4.29 Xây dựng mô hình cho thuật toán Decision Tree

Hình 4.30 Ma trận nhầm lẫn và độ đo đánh giá của thuật toán Decision Tree

Đánh giá

 Với thuật toán phân lớp Navie Bayes:

Sau khi áp dụng thuật toán Naive Bayes với phương pháp 1 (NB Mixed), chúng tôi đạt được độ chính xác 83% Tuy nhiên, chỉ số False Negative của mô hình vẫn chưa được tối ưu hóa, khi có 17 bệnh nhân mắc bệnh suy tim nhưng lại bị chẩn đoán sai là không mắc bệnh.

Chúng tôi sẽ thực hiện thêm một mô hình Naive Bayes để so sánh và nâng cao độ chính xác cũng như độ hồi tưởng.

Và khi áp dụng phương pháp 2 (Mixed NB), độ chính xác đã được tăng lên (83% - 84%) và chỉ số recall (tăng từ 86% lên 87%) đều đã được cải thiện

False Negative(số bệnh nhân bị suy tim nhưng được chuẩn đoán là không) giảm từ

Số bệnh nhân mắc bệnh suy tim được chuẩn đoán đúng (True Positive) đã tăng từ 93 lên 94, mặc dù chỉ tăng không đáng kể, nhưng đây là một tín hiệu tích cực giúp bệnh viện không bỏ lỡ cơ hội chữa trị kịp thời cho bệnh nhân.

 Với thuật toán Random Forest:

Thuật toán Random Forest đạt được độ chính xác 83% và chỉ số recall 89%, cho thấy hiệu quả cao trong việc chẩn đoán suy tim Số lượng False Negative, tức là bệnh nhân bị suy tim nhưng được chẩn đoán là không, đã giảm xuống còn 12, điều này mang lại tín hiệu tích cực cho quá trình chẩn đoán.

After our research, we discovered that the Random Forest model can be further optimized Therefore, we would like to introduce William Koehrsen's article, "Hyperparameter Tuning the Random Forest in Python," which provides a detailed description of the tuning process.

Chúng em sẽ áp dụng RandomizedSearchCV từ sklearn để tối ưu hóa các siêu tham số của mô hình Mặc dù Koehrsen đã sử dụng toàn bộ lưới siêu tham số trong nghiên cứu của mình, nhưng chúng em nhận thấy rằng phương pháp này có thể tốn nhiều thời gian khi thực hiện Do đó, chúng em quyết định tập trung vào ba siêu tham số chính: n_estimators, max_features và max_depth.

Khi điều chỉnh các siêu tham số, độ chính xác của mô hình đã được cải thiện, đạt từ 83% lên 85%, trong khi chỉ số recall cũng tăng từ 89% lên 90% Số lượng False Negative, tức là số bệnh nhân bị suy tim nhưng được chuẩn đoán sai, đã giảm từ 12 xuống còn 11 Đồng thời, True Positive, số bệnh nhân mắc bệnh suy tim và được chuẩn đoán đúng, đã tăng từ 96 lên 97.

 Với thuật toán Decision Tree:

Thuật toán Decision Tree đạt độ chính xác 95% với chỉ số recall là 0.91 Số lượng False Negative (bệnh nhân bị suy tim nhưng được chẩn đoán sai) giảm xuống 9, trong khi số True Positive (bệnh nhân mắc suy tim và được chẩn đoán đúng) giảm còn 93.

Mục tiêu chính của bài toán là nâng cao khả năng chẩn đoán chính xác bệnh suy tim ở nhiều bệnh nhân Việc bỏ sót một bệnh nhân mắc suy tim có thể dẫn đến việc mất cơ hội và thời gian quý báu để điều trị hiệu quả.

=> Để tránh được điều đó thì phải giảm được False Negative(bệnh nhân bị suy tim nhưng lại được chuẩn đoán là không bị)

Để tối ưu hóa quá trình chẩn đoán bệnh nhân bị suy tim, chỉ số Recall cần được nâng cao, vì Recall lớn hơn đồng nghĩa với khả năng xác định chính xác cả hai lớp cao hơn Kết quả cho thấy thuật toán Decision Tree đạt hiệu suất tốt nhất với chỉ số Recall lên tới 91%, điều này chứng tỏ hiệu quả của nó trong việc chẩn đoán bệnh.

Negative(bệnh nhân bị suy tim nhưng lại được chuẩn đoán là không bị) chỉ còn là 9 bệnh nhân

TỔNG KẾT

Kết luận

Trong khảo sát này, chúng tôi đã thực hiện nghiên cứu trên bộ dữ liệu bệnh suy tim, so sánh các kỹ thuật phân loại như Random Forest, Decision Tree và Naïve Bayes Kết quả cho thấy Decision Tree đạt hiệu suất tốt nhất cho bệnh tim, nhưng hiệu quả của các phương pháp có thể khác nhau tùy thuộc vào đặc tính của dữ liệu Cả Random Forest và Decision Tree đều cho kết quả đáng tin cậy với độ chính xác trung bình khoảng 85% Thực nghiệm cũng chỉ ra rằng việc xác định dữ liệu phân bố tuyến tính hay phi tuyến sẽ nâng cao hiệu quả và độ tin cậy của hệ thống phân loại.

Hạn chế của đề tài

Naive Bayes giả định rằng các đặc trưng của dữ liệu là độc lập có điều kiện với giá trị của từng lớp, thay vì tính toán xác suất của từng giá trị thuộc tính Tuy nhiên, độ chính xác của Naive Bayes thường không cao khi so sánh với các thuật toán khác Trong thực tế, việc các đặc trưng dữ liệu hoàn toàn độc lập với nhau gần như là điều không thể.

Với mô hình Random Forest, mọi cây trong rừng đều phải đưa ra dự đoán cho cùng một đầu vào và sau đó thực hiện bỏ phiếu, dẫn đến việc tốn thời gian Mặc dù Random Forest mang lại độ chính xác cao, nhưng nó khó hiểu hơn so với cây quyết định, nơi người dùng có thể dễ dàng theo dõi và đưa ra quyết định thông qua các nhánh của cây.

Hướng phát triển

Trong thực tế, tùy thuộc vào nhu cầu mà chúng ta tiến hành chọn lựa các thuật toán khác nhau để khai phá dữ liệu

Tiềm năng và lợi ích của các phương pháp này là rõ ràng, cung cấp thông tin và tri thức quý giá Chúng ta cần tiếp tục nghiên cứu và cải tiến để hoàn thiện các phương pháp này trong tương lai.

Bộ dữ liệu được sử dụng trong nghiên cứu này là dữ liệu công cộng về y khoa, với các thông tin bệnh nhân tương đồng giữa các chủng tộc khác nhau Do đó, kết quả có thể hỗ trợ bác sĩ chẩn đoán bệnh tại Việt Nam Chúng tôi sẽ tiếp tục khảo sát thêm các kỹ thuật phân loại dữ liệu để tìm ra những phương pháp tối ưu trên nhiều tập dữ liệu chăm sóc sức khỏe khác.

Chúng tôi sẽ nỗ lực thu thập thêm dữ liệu tại Việt Nam nhằm hỗ trợ tối ưu quy trình khám chữa bệnh trong nước.

Ngày đăng: 09/12/2024, 22:14

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w