1. Trang chủ
  2. » Luận Văn - Báo Cáo

tiểu luận kho và khai phá dữ liệu chủ đề dự đoán nguy cơ mắc bệnh tiểu đường ở người

33 2 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Dự Đoán Nguy Cơ Mắc Bệnh Tiểu Đường Ở Người
Tác giả Lê Trần Bảo Hân, Trần Thảo Nhi, Nguyễn Thị Minh Phượng, Trần Thị Như Quỳnh, Nguyễn Phan Minh Anh
Người hướng dẫn Nguyễn Văn Chức
Trường học Trường Đại Học Kinh Tế Đà Nẵng
Chuyên ngành Khoa Thương Mại Điện Tử
Thể loại Báo Cáo Giữa Kỳ
Năm xuất bản 2023
Thành phố Đà Nẵng
Định dạng
Số trang 33
Dung lượng 5,2 MB

Cấu trúc

  • I. TỔNG QUAN ĐỀ TÀI (5)
    • 1. Giới thiệu đề tài (5)
    • 2. Mục tiêu đề tài (5)
    • 3. Mô tả quy trình tổng thể ứng dụng học máy dự đoán bệnh tiểu đường ở người:. 2 II. THU THẬP DỮ LIỆU (6)
    • 1. Mô tả dữ liệu (7)
      • 1.1. Nguồn dữ liệu (7)
      • 1.2. Mô tả bộ dữ liệu (7)
    • 2. Tiền xử lý dữ liệu (9)
  • III. XÂY DỰNG CÁC MÔ HÌNH ĐỂ DỰ ĐOÁN NGUY CƠ MẮC BỆNH TIỂU ĐƯỜNG Ở NGƯỜI (14)
    • 1. Hồi quy Logistic (14)
      • 1.1. Giới thiệu Hồi quy Logistic (14)
      • 1.2. Xây dựng mô hình Hồi quy Logistic (15)
      • 1.3. Đánh giá hiệu suất mô hình Hồi quy Logistic (17)
    • 2. Decision Tree (19)
      • 2.1. Giới thiệu về Decision Tree (19)
      • 2.2. Xây dựng mô hình Decision Tree (20)
      • 2.3. Đánh giá hiệu suất mô hình Decision Tree (21)
    • 3. Random Forest (24)
      • 3.1. Giới thiệu về Random Forest (24)
      • 3.2. Xây dựng mô hình Random Forest (25)

Nội dung

Báo cáo Dự đoán nguy cơ mắc bệnh tiểu đường ở người GVHD: Nguyễn Văn Chức- Tính toán sự tương quan của các biến với biến ‘Diabetes’:- Biểu đồ heatmap:... Báo cáo Dự đoán nguy cơ mắc bệnh

XÂY DỰNG CÁC MÔ HÌNH ĐỂ DỰ ĐOÁN NGUY CƠ MẮC BỆNH TIỂU ĐƯỜNG Ở NGƯỜI

Hồi quy Logistic

1.1 Giới thiệu Hồi quy Logistic:

- Hồi quy Logistic (Logistic Regression) là một phương pháp trong thống kê và học máy được sử dụng để dự đoán xác suất của một biến phụ thuộc về một loạt các biến độc lập Mô hình hồi quy Logistic thường được áp dụng trong các bài toán phân loại, nơi chúng ta muốn dự đoán một biến phụ thuộc vào một trong hai lớp hoặc nhiều hơn, thường được biểu thị bằng giá trị nhị phân (0 hoặc 1) hoặc các giá trị rời rạc khác.

- Các đặc điểm quan trọng của hồi quy Logistic:

+ Hàm Logistic (Sigmoid): Mô hình hồi quy Logistic sử dụng hàm Logistic (hoặc hàm Sigmoid) để biểu diễn xác suất Hàm này có dạng đường cong S và giới hạn

Nhóm 3 - 47K29.1 Page 10 giá trị đầu ra trong khoảng từ 0 đến 1, rất thích hợp để mô tả xác suất Hàm Logistic được sử dụng để ánh xạ một tổ hợp tuyến tính của các biến độc lập thành một giá trị xác suất.

+ Biến phụ thuộc nhị phân: Hồi quy Logistic thường được sử dụng cho các biến phụ thuộc nhị phân, nghĩa là biến phụ thuộc chỉ nhận giá trị 0 hoặc 1

+ Hệ số hồi quy: Mục tiêu của hồi quy Logistic là ước tính các hệ số hồi quy tối ưu sao cho mô hình phù hợp với dữ liệu Các hệ số này đại diện cho mức độ ảnh hưởng của từng biến độc lập đến xác suất của biến phụ thuộc Các hệ số này thường được tìm kiếm thông qua các phương pháp tối ưu hóa.

Ứng dụng đa dạng của hồi quy logistic bao gồm y tế (dự đoán nguy cơ bệnh), marketing (dự đoán hành vi khách hàng), tài chính (dự đoán khả năng vỡ nợ) và nhiều lĩnh vực khác.

1.2 Xây dựng mô hình Hồi quy Logistic:

- Import các thư viện cần thiết để xây dựng mô hình.

Báo cáo Dự đoán nguy cơ mắc bệnh tiểu đường ở người GVHD: Nguyễn Văn Chức

- Bảng so sánh kết quả dự đoán với giá trị thực.

=> Độ chính xác của mô hình xấp xỉ 93%

- Sử dụng mô hình đễ dự đoán dữ liệu gốc.

1.3 Đánh giá hiệu suất mô hình Hồi quy Logistic:

- Theo như ma trận nhầm lẫn:

+ Có 611 người không có bệnh được dự đoán là không có bệnh.

+ Có 50 người có bệnh được dự đoán là không có bệnh.

+ Có 13 người không có bệnh được dự đoán là có bệnh.

+ Có 187 người có bệnh được dự đoán là có bệnh.

Báo cáo Dự đoán nguy cơ mắc bệnh tiểu đường ở người GVHD: Nguyễn Văn Chức

Độ chính xác của mô hình là 93% tổng thể, bao gồm độ chính xác cao đối với các trường hợp dương tính (94%) và âm tính (92%) Điều này chứng minh khả năng phân loại chính xác dữ liệu đầu vào của mô hình.

- Đối với lớp 0, precision = 92% thể hiện sự phát hiện các điểm dữ liệu có bệnh khá chuẩn Recall của lớp này lên đến 98% thể hiện sự bỏ sót các điểm dữ liệu có bệnh rất thấp F1 score = 95% thể hiện sự dung hòa của 2 chỉ số precision và recall cao Từ đó kết luận được rằng, ở lớp 0 mô hình đang được đánh giá khá tốt

- Đối với lớp 1, precision = 94% thể hiện sự phát hiện các điểm dữ liệu có bệnh chuẩn hơn lớp 0 Tuy nhiên Recall = 79% thể hiện sự bỏ sót các điểm dữ liệu có bệnh khá thấp và chênh lệch với lớp 0 là 19% F1 score = 86% thể hiện sự dung hòa của 2 chỉ số precision và recall tương đối cao Từ đó kết luận được rằng, ở lớp 1 mô hình đang được đánh giá khá và thấp hơn lớp 0.

Đường cong ROC (màu xanh lam) phản ánh độ chính xác của mô hình dự báo Vị trí càng gần góc trên bên trái của đường cong cho biết mô hình càng chính xác Mô hình này có độ nhạy 0,944, cho thấy khả năng phân loại chính xác 94,4% các mẫu dương Đường cong ROC toàn diện minh chứng cho hiệu suất mạnh mẽ của mô hình trong việc phân biệt chính xác giữa các mẫu dương và âm tính.

=> Tóm lại, mô hình dường như hoạt động tốt trong việc phát hiện các trường hợp không có bệnh với độ chính xác cao Tuy nhiên, đối với trường hợp có bệnh mô hình có thể được cải thiện để giảm số lượng dự đoán dương tính sai và tăng độ recall.

Decision Tree

2.1 Giới thiệu về Decision Tree:

Cây quyết định là công cụ dự đoán nguy cơ mắc bệnh tiểu đường mạnh mẽ, cung cấp khả năng diễn giải cao, xử lý dữ liệu đa dạng và biến đầu vào phi cấu trúc Khả năng xử lý mối quan hệ phi tuyến tính và tự động xác định biến quan trọng cũng là ưu điểm của cây quyết định Tuy nhiên, kiểm soát quá khớp và tiền xử lý dữ liệu thích hợp là điều cần thiết cho hiệu suất tối ưu.

Báo cáo Dự đoán nguy cơ mắc bệnh tiểu đường ở người GVHD: Nguyễn Văn Chức

2.2 Xây dựng mô hình Decision Tree:

- Import các thư viện cần thiết để xây dựng mô hình.

- Sử dụng mô hình để dự đoán có mắc bệnh tiểu đường hay không cho dữ liệu gốc

- Cây quyết định dự đoán bệnh tiểu đường.

2.3 Đánh giá hiệu suất mô hình Decision Tree:

Báo cáo Dự đoán nguy cơ mắc bệnh tiểu đường ở người GVHD: Nguyễn Văn Chức

- Có thể thấy kết quả mô hình dự đoán được khá là tương đồng với kết quả mắc bệnh thực tế, mô hình trên có độ chính xác khá cao

+ Mô hình dự đoán đúng 578 biến thuộc lớp Negative.

+ Mô hình dự đoán đúng 227 biến thuộc lớp Positive.

+ Mô hình dự đoán sai 25 biến thuộc lớp Negative.

+ Mô hình dự đoán sai 31 biến thuộc lớp Positive.

=> Độ chính xác của mô hình trên khoảng 93.5% (= Số dự đoán đúng/Tổng dự đoán)

- Đối với lớp 0 (Negative), mô hình có Precision cao (95%) và Recall (96%) F1-score cũng cao (0.95), cho thấy mô hình hoạt động tốt trong việc dự đoán các trường hợp thuộc lớp cần tìm.

- Đối với lớp 1 (Positive), Precision là 90%, Recall là 88%, và F1-score là 0.89 Mô hình cũng hoạt động tốt trong việc dự đoán các trường hợp thuộc lớp cần tìm, nhưng độ chính xác và độ nhớ tìm thấp hơn so với lớp 0.

Báo cáo Dự đoán nguy cơ mắc bệnh tiểu đường ở người GVHD: Nguyễn Văn Chức

- Đường cong đi dọc theo biên trái (dự đoán đúng giá trị chính xác) và dọc theo biên phía trên của không gian ROC => Kết quả kiểm tra có độ chính xác cao.

- AUC = 0.919 gần 1 => mô hình có 91.9% phân biệt giữa dự đoán đúng và dự đoán sai.

=> Tổng kết, mô hình có tỷ lệ chính xác tổng thể (accuracy) là 94%, và các chỉ số precision, recall và F1-score cho cả hai lớp đều ở mức khá cao, cho thấy mô hình làm việc tốt trong việc dự đoán khả năng mắc bệnh tiểu đường.

Random Forest

3.1 Giới thiệu về Random Forest:

- Random Forest (Rừng Ngẫu Nhiên) là một thuật toán học máy phổ biến và mạnh mẽ được sử dụng trong phân loại và dự đoán Nó là một biến thể của cây quyết định (decision tree) và sử dụng kỹ thuật "ensemble learning" (học tổ hợp) để cải thiện hiệu suất của mô hình dự đoán

- Ưu điểm: Random Forest có khả năng giảm quá khớp, xử lý dữ liệu nhiễu và xác định biến quan trọng Nó cũng không yêu cầu nhiều tiền xử lý dữ liệu và thường cho ra kết quả tốt mà không cần tinh chỉnh tham số phức tạp.

3.2 Xây dựng mô hình Random Forest:

- Import các thư viện cần thiết để xây dựng mô hình.

Báo cáo Dự đoán nguy cơ mắc bệnh tiểu đường ở người GVHD: Nguyễn Văn Chức

- Sử dụng mô hình để dự đoán có mắc bệnh tiểu đường hay không cho dữ liệu gốc.

- Random Forest dự đoán bệnh tiểu đường.

3.3 Đánh giá hiệu suất mô hình Random Forest:

- Có thể thấy kết quả mô hình dự đoán được khá là tương đồng với kết quả mắc bệnh thực tế, mô hình trên có độ chính xác khá cao

Báo cáo Dự đoán nguy cơ mắc bệnh tiểu đường ở người GVHD: Nguyễn Văn Chức

+ Mô hình dự đoán đúng 590 biến thuộc lớp Negative.

+ Mô hình dự đoán đúng 240 biến thuộc lớp Positive.

+ Mô hình dự đoán sai 8 biến thuộc lớp Negative.

+ Mô hình dự đoán sai 23 biến thuộc lớp Positive.

=> Độ chính xác của mô hình trên khoảng 96.3% (= Số dự đoán đúng/Tổng dự đoán)

- Đối với lớp 0 (Negative), mô hình có Precision cao (96%) và Recall (99%) F1-score cũng cao (0.97), cho thấy mô hình hoạt động tốt trong việc dự đoán các trường hợp thuộc lớp cần tìm.

- Đối với lớp 1 (Positive), Precision là 97%, Recall là 91% và F1-score là 0.94 Mô hình cũng hoạt động tốt trong việc dự đoán các trường hợp thuộc lớp cần tìm, nhưng độ chính xác và độ nhớ tìm thấp hơn so với lớp 0.

- Đường cong đi dọc theo biên trái (dự đoán đúng giá trị chính xác) và dọc theo biên phía trên của không gian ROC => Kết quả kiểm tra có độ chính xác cao.

- AUC = 0.95 gần 1 => mô hình phân biệt được 95% dự đoán đúng và dự đoán sai.

=> Tổng kết, mô hình có tỷ lệ chính xác tổng thể (accuracy) là 95.8%, và các chỉ số precision, recall và F1-score cho cả hai lớp đều ở mức khá cao, cho thấy mô hình làm việc tốt trong việc dự đoán khả năng mắc bệnh tiểu đường.

=> Ngoài ra, so sánh giữa Decision Tree và Random Forest thì RF đã xây dựng mô hình có kết quả dự đoán tốt hơn

- Nhóm đã tiến hành xây dựng bộ dữ liệu liên quan đến bệnh tiểu đường ở người được thu thập từ hơn 4300 người với nhiều độ tuổi khác nhau Thông qua việc áp dụng các kĩ thuật học máy như Logistic Regression, Decision Tree và Random Forest đã cho độ chính xác dự đoán khá cao từ 93% đến 96% trên cả 3 kỹ thuật.

Trong quá trình xây dựng và đánh giá mô hình, Random Forest cho thấy hiệu suất dự đoán tốt nhất với độ chính xác lên tới 96% Các mô hình khác cũng đạt hiệu quả cao, với Decision Tree có độ chính xác đạt 94% và Logistic Regression đạt 93% Tuy nhiên, chênh lệch giữa các chỉ số này tương đối nhỏ, chứng tỏ cả ba phương pháp đều có khả năng dự đoán bệnh tiểu đường hiệu quả.

Báo cáo Dự đoán nguy cơ mắc bệnh tiểu đường ở người GVHD: Nguyễn Văn Chức

- Tuy hiệu quả của các mô hình khá tốt nhưng phương pháp dự đoán trên chỉ mang tính chất tham khảo cho các y bác sĩ trong việc kiểm soát căn bệnh tiểu đường ở người, không thể chẩn đoán chuẩn xác rằng một người có mắc bệnh hay không Để có được kết quả chính xác nhất cần phải được chuẩn đoán bởi các chuyên gia có kinh nghiệm lẫn kiến thức chuyên sâu về lĩnh vực này.

1 Understand Random Forest Algorithms With Examples (Updated 2023) (2023, October 31) Understand Random Forest Algorithms With Examples (Updated

2023) https://www.analyticsvidhya.com/blog/2021/06/understanding-random- forest/

2 Khái niệm về phương pháp random forest trong cuộc cách mạng machine learning và định hướng ứng dụng trong lĩnh vực viễn thám - Luận văn, đồ án, luan van, do an (2023, October 31) Khái niệm về phương pháp random forest trong cuộc cách mạng machine learning và định hướng ứng dụng trong lĩnh vực viễn thám - Luận văn, đồ án, luan van, do an https://doan.edu.vn/do-an/khai- niem-ve-phuong-phap-random-forest-trong-cuoc-cach-mang-machine-learning- va-dinh-huong-ung-dung-trong-linh-vuc-vien-51483/

3 Hoc lap trinh, thuat toan Machine learning Decision Tree CART (2023, October

31) Hoc lap trinh, thuat toan Machine learning Decision Tree CART. https://ihoclaptrinh.com/thuat-toan-machine-learning-decision-tree-cart

4 Tự học ML | Hồi quy rừng ngẫu nhiờn bằng Python ằ Cafedev.vn (2023, October 31) Tự học ML | Hồi quy rừng ngẫu nhiờn bằng Python ằ Cafedev.vn. https://cafedev.vn/tu-hoc-ml-hoi-quy-rung-ngau-nhien-bang-python/

5 Hiểu mô hình xây dựng và hồi quy logistic bằng Python (2023, October 31). Hiểu mô hình xây dựng và hồi quy logistic bằng Python. https://ichi.pro/vi/hieu-mo-hinh-xay-dung-va-hoi-quy-logistic-bang-python- 25643771585192

6 Noron - Mạng hỏi đáp Việt (2023, October 31) Noron - Mạng hỏi đáp Việt. https://www.noron.vn/post/tim-hieu-chi-tiet-ve-auc -roc-trong-machine- learning-1fz9nhqo5ut?

Nhóm 3 - 47K29.1 Page 26 fbclid=IwAR0XzfRFfvgQinw2qGJgzmngvX4yh45XhlwE7C_Q6JNEifP0q11C SKfFe6c

7 [Thực Hành] Bài 4: Tiền xử lý dữ liệu - Pre-process data (2023, October 31). [Thực Hành] Bài 4: Tiền xử lý dữ liệu - Pre-process data. https://aiwithmisa.com/2020/12/11/aml-bai4/aiwithmisa.com/2020/12/11/aml- bai4/

8 Chi tiết bài học Tiền xử lý dữ liệu trong lĩnh vực học máy (Phần 1) (2023, October 31) Chi tiết bài học Tiền xử lý dữ liệu trong lĩnh vực học máy (Phần

1) https://www.vimentor.com/vi/lesson/tien-xu-ly-du-lieu-trong-linh-vuc-hoc- may-phan-1

9 Ngưỡng (thresholding) trong opencv (2020, December 24) Ngưỡng (thresholding) trong opencv https://www.phamduytung.com/blog/2020-12-24- thresholding/

Ngày đăng: 30/05/2024, 16:18

HÌNH ẢNH LIÊN QUAN

Bảng phân công nhiệm vụ, phần trăm đóng góp của thành viên - tiểu luận kho và khai phá dữ liệu chủ đề dự đoán nguy cơ mắc bệnh tiểu đường ở người
Bảng ph ân công nhiệm vụ, phần trăm đóng góp của thành viên (Trang 2)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w