1. Trang chủ
  2. » Luận Văn - Báo Cáo

Báo cáo dự đoán bệnh tiểu đường ( Học Máy)

52 337 11

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 52
Dung lượng 1,06 MB

Nội dung

Báo cáo dự đoán bệnh tiểu đường ( Học Máy) bằng ba thuật toán. Báo cáo dự đoán bệnh tiểu đường ( Học Máy) bằng ba thuật toán. Báo cáo dự đoán bệnh tiểu đường ( Học Máy) bằng ba thuật toán. Báo cáo dự đoán bệnh tiểu đường ( Học Máy) bằng ba thuật toán. Báo cáo dự đoán bệnh tiểu đường ( Học Máy) bằng ba thuật toán. Báo cáo dự đoán bệnh tiểu đường ( Học Máy) bằng ba thuật toán.

BỘ GIÁO DỤC & ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP HỒ CHÍ MINH KHOA ĐÀO TẠO CHẤT LƯỢNG CAO -⸙∆⸙ - BÁO CÁO CUỐI KỲ Môn học: Học máy GVHD: TS Vũ Quang Huy SVTH: Nguyễn Bá Trọng 20146444 Nguyễn Minh Thành 20146422 Tp Hồ Chí Minh, tháng năm 2023 MỤC LỤC CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN 1.1 Giới thiệu đề tài 1.2 Lý chọn đề tài 1.3 Các nội dung dự kiến thực CHƯƠNG 2: CƠ SỞ LÍ THUYẾT XÂY DỰNG CÁC MƠ HÌNH HỌC MÁY 2.1 Giới thiệu chung 2.2 Thuật toán Random Fores 2.2.1 Định nghĩa thuật toán 2.2.2 Mơ tả thuật tốn 2.2.3 Ưu điểm, nhược điểm thuật toán .6 2.2.4 Ứng dụng thuật toán toán thực tế 2.3 Thuật toán Support Vector Machine(SVM) 2.3.1 Định nghĩa thuật toán 2.3.2 Mơ tả thuật tốn 2.3.3 Ưu điểm, nhược điểm thuật toán 13 2.3.4 Ứng dụng thuật toán toán thực tế 14 2.4 Thuật toán GradientBoostingClassifier 2.4.1 Định nghĩa thuật toán 14 2.4.2 Mơ tả thuật tốn 15 2.4.3 Ưu điểm, nhược điểm thuật toán 15 2.4.4 Ứng dụng thuật toán toán thực tế 16 CHƯƠNG 3: DỮ LIỆU HUẤN LUYỆN 3.1 Mô tả liệu huấn luyện 3.2 Đặc trưng đầu vào đầu liệu 3.3 Phân tích về cấu trúc tính chất liệu 3.4 Các bước thao tác tiền xử lý liệu trước đưa vào huấn luyện mơ hình CHƯƠNG 4: LƯU ĐỒ THUẬT TỐN ĐỂ HUẤN LUYỆN MƠ HÌNH CHƯƠNG 5: CODE CHƯƠNG TRÌNH HUẤN LUYỆN 5.1 Code khai báo thư viện 5.2 Code tiền xử lý liệu 5.3 Code huấn luyện liệu 5.3.1 Đánh giá mô hình Random Forest .31 5.3.2 Đánh giá mơ hình thuật tốn GradientBoostingClassifier 33 5.3.3 Đánh giá mơ hình thuật toán Support Vector Machine .34 CHƯƠNG 6: PHÂN TÍCH VÀ ĐÁNH GIÁ MƠ HÌNH ĐẠT ĐƯỢC 6.1 Đánh giá mơ hình Random Forest 6.2 Đánh giá mơ hình thuật tốn GradientBoostingClassifier 6.3 Đánh giá mơ hình thuật toán Support Vector Machine CHƯƠNG 7: KẾT LUẬN 7.1 Các công việc kết đạt 7.2 Nhược điểm cần cải tiển giải pháp đề xuất TÀI LIỆU THAM KHẢO PHỤ LỤC DANH MỤC TỪ VIẾT TẮT WHO: Tổ chức Y tế giới ML: Machine Learning SVM: Thuật toán Support Vector Machine SVC: Support Vector Classifier CART: Classification And Regression Tree KNN: K-Nearest Neighbors SMOTE: Synthetic Minority Oversampling Technique DANH MỤC HÌNH ẢNH Hình 1: Mơ hình thuật tốn Random Fores Hình 2: Sơ đồ mơ sở tốn học thuật tốn Random Fores Hình 3: Kết dự đốn bệnh tiểu đường thuật tốn học máy khác https://link.springer.com/article/10.1007/s00521-022-07049-z Hình 4: Mơ tả thuật tốn SVM Hình 5: Identify the right hyper-plane (Scenario-1) Hình 6: Identify the right hyper-plane (Scenario-2) Hình 7: Identify the right hyper-plane (Scenario-3) Hình 8: Find the hyper-plane to segregate to classes (Scenario-4) Hình 9: Biến đổi từ trục Oxy sang Oxz theo công thức z = x^2+ y^2 Hình 10: Kết đọc file liệu Hình 11: Tỉ lệ bệnh tiểu đường khơng bị bệnh Hình 12: Tương quan biến đầu biến đầu vào Hình 13: Sau thay giá trị nan Hình 14: Sau thay giá trị vào nan Hình 15: Dữ liệu đưa vào huấn luyện Hình 16: Lưu đồ thuật tốn Hình 17: Kết liệu sau xử lý để đem huấn luyện Hình 18: Code sử dụng GridSearchCV Random Forest Hình 19: Code huấn luyện mơ hình Hình 20: Code sử dụng GridSearchCV tập liệu cân Hình 21: Code huấn luyện mơ hình Hình 22: Code sử dụng GridSearchCV GradientBoostingClassifier Hình 23: Code huấn luyện mơ hình Hình 24: Code sử dụng GridSearchCV Support Vector Machine Hình 25: Code huấn luyện mơ hình Hình 26: Đặc trưng quan trọng ảnh hưởng đến mơ hình sau huấn luyện Hình 27: Kết dự đốn mơ hình Hình 28: Kết dự đốn mơ hình sử dụng thuật tốn GradientBoostingClassifier Hình 29: Kết dự đốn mơ hình sử dụng thuật tốn Support Vector Machine Hình 30: Kết sau đọc file liệu Hình 31: mối tương quan biến Hình 32: Kết sau Kiểm tra giá trị null sau thay vào chúng nan Hình 33: Dữ liệu để đem huấn luyện Hình 34: Kết sau huấn luyện thuật tốn Random Fores Hình 35: Kết sau huấn luyện thuật tốn GradientBoostingClassifier Hình 36: Kết sau huấn luyện thuật toán Support Vector Machine Hình 37: Độ xác thuật tốn DANH MỤC BẢNG Bảng 1: Kiểu liệu có tập liệu CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN 1.1 Giới thiệu đề tài Tiểu đường bệnh biểu tăng đường máu mãn tính thiếu insulin, bệnh khơng truyền nhiễm có ảnh hưởng nghiêm trọng sống người Nó xem bệnh hàng đầu có khả gây chết cho người Nhiều quốc gia phải đối mặt với phát triển nhanh chóng trẻ hóa bệnh tiểu đường Khi mắc bệnh tiểu đường làm cho số đường huyết cao mức bình thường Nguyên nhân tiết insulin bị khiếm khuyết ảnh hưởng sinh học bị suy yếu hai Bệnh tiểu đường dẫn đến tổn thương mãn tính rối loạn chức mô khác nhau, đặc biệt mắt, thận, tim, mạch máu dây thần kinh tim mạch, hạ đường huyết, nhiễm trùng dẫn đến hoại tử tử vong.Theo tổ chức Y tế giới (WHO) gọi bệnh tiểu đường "Cơn sóng thần tàn phá sức khỏe toàn cầu" tỷ lệ mắc bệnh biến chứng bệnh ngày tăng cao Nếu biện pháp ngăn chặn hiệu dự báo đến năm 2040, tồn giới có 642 triệu người mắc bệnh tiểu đường, có triệu người mắc bệnh nước ta Nguyên nhân kết hầu hết người bệnh khơng nhận tình trạng sức khỏe họ thời điểm sớm Người mắc bệnh tiểu đường có sống khỏe mạnh hạnh phúc họ kiểm sốt bệnh cách thơng qua dùng thuốc kết hợp với chế độ ăn uống lành mạnh giám sát bác sĩ Vì vậy, phát sớm đóng vai trị quan trọng chẩn đốn bệnh tiểu đường giảm đáng kể biến chứng tiểu đường mang lại 1.2 Lý chọn đề tài Trong khoa học y tế, chẩn đốn tình trạng sức khỏe nhiệm vụ khó khăn Đặc biệt, chẩn đoán bệnh tiểu đường thách thức quan trọng nước phát triển phát triển Thực tế cho thấy, lịch sử khám bệnh bệnh nhân kết xét nghiệm cần thiết để chẩn đoán bệnh cụ thể chẩn đoán dựa kinh nghiệm bác sĩ Tuy nhiên, chẩn đoán bệnh bác sĩ kinh nghiệm có kết khơng xác tình trạng sức khỏe bệnh nhân Do đó, làm để chẩn đốn phân tích bệnh tiểu đường nhanh chóng xác chủ đề đáng để nghiên cứu Chẩn đốn sớm hơn, kiểm sốt dễ dàng nhiều Để có kết chẩn đốn mong muốn, ngồi việc dựa vào kinh nghiệm cao bác sỹ cần phải sử dụng công nghệ thông tin tiên tiến ứng dụng khai thác liệu lĩnh vực phù hợp cho việc Khai thác liệu cung cấp khả trích xuất khám phá mẫu chưa biết, ẩn từ kho lưu trữ liệu lớn Những mẫu hỗ trợ y tế chẩn đoán định Với phát triển phương pháp Machine Learning, khả vận dụng phương pháp để tìm giải pháp cho vấn đề bệnh tiểu đường khả thi,chúng ta khai thác liệu hỗ trợ dự đoán bệnh nhân bị tiểu Khai thác liệu có khả trích xuất kiến thức ẩn từ lượng lớn liệu liên quan đến bệnh tiểu đường để từ đưa đâu yếu tố gây bệnh tiểu đường Gần đây, có nhiều nhà nghiên cứu giới phát triển mơ hình dự đốn khác cách sử dụng khai thác liệu để dự đoán chẩn đoán cho bệnh nhân tiểu đường. Để làm điều này, đề xuất nghiên cứu với đề tài: “Sử dụng Machine Learning xây dựng mô hình học máy ứng dụng tiên lượng bệnh tiểu đường” 1.3 Các nội dung dự kiến thực Trình tự thực báo cáo bao gồm nội dung chương, tài liệu tham khảo phụ lục kèm theo Chương 1: Giới thiệu tổng quan đề tài Chương 2: Cơ sở lí thuyết xây dựng mơ hình học máy Chương 3: Dữ liệu huấn luyện đề tài Chương 4: Lưu đồ thuật toán để huấn luyện mơ hình Chương 5: Code chương trình huấn luyện Chương 6: Phân tích đánh giá mơ hình đạt Chương 7: Kết luận mơ hình huấn luyện CHƯƠNG 2: CƠ SỞ LÍ THUYẾT XÂY DỰNG CÁC MƠ HÌNH HỌC MÁY 2.1 Giới thiệu chung Trên giới, có nhiều nghiên cứu áp dụng khai phá dữ liệu chẩn đoán bệnh tiểu đường: Nilam Chandgude giáo sư Suvarna trình bày thuật toán phân loại được sử dụng để chẩn đoán bệnh tiểu đường Tác giả sử dụng mạng nơ ron, định Naive Bayes, SVM, ID3, thuật toán CART(Classification And Regression Tree) và so sánh những thuật toán này Kết quả CART cho độ chính xác tốt các thuật toán khác Thirumal P C Nagarajan N trình bày các kỹ thuật khai phá dữ liệu khác để dự đoán bệnh đái tháo đường Bộ dữ liệu bệnh tiểu đường của người Pima Ấn Độ được sử dụng để phân tích Sau tiền xử lý dữ liệu, thuật toán Naive Bayes Classifier, thuật toán SVM, C4.5(Cây định), KNN được áp dụng Kết quả thuật toán C4.5 cung cấp độ chính xác cao và KNN cung cấp độ chính xác thấp K.Rajalakshmi và Tiến sĩ S.S.Dhenakaran phân tích các kỹ thuật dự đoán khai phá dữ liệu các hệ thống quản lý chăm sóc sức khỏe Các kỹ thuật khai phá dữ liệu định, phân loại Bayes, mạng nơ ron và SVM được trình bày Các kỹ thuật khai phá dữ liệu khác được so sánh dựa dự đoán bệnh khác Thuật toán SVM thực hiện tốt việc dự đoán bệnh tiểu đường Trong báo cáo tìm hiểu thuật tốn học máy để huấn luyện mơ hình Random Forest, GradientBoostingClassifier(một phương pháp học hiệu Machine Learning) Support Vector Machine(SVM) 2.2 Thuật toán Random Fores 2.2.1 Định nghĩa thuật toán Random Forest một thuật toán học máy phổ biến thuộc kỹ thuật học có

Ngày đăng: 04/06/2023, 20:52

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w