1. Trang chủ
  2. » Luận Văn - Báo Cáo

Dự đoán bệnh đột quỵ ở người dựa trên các mô hình phân lớp

98 17 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

- ĐẠI HỌC HUẾ TRƯỜNG ĐẠI HỌC KINH TẾ KHOA HỆ THỐNG THÔNG TIN KINH TẾ ̣c K in h tê ́H uê ́ - - BÁO CÁO THỰC TẬP CUỐI KHĨA ho DỰ ĐỐN BỆNH ĐỘT QỤY Ở NGƯỜI DỰA TRÊN Đ ại CÁC MÔ HÌNH PHÂN LỚP Giáo viên hướng dẫn Lớp: K53 Tin Học Kinh Tế TS Hoàng Hữu Trung ̀ng Sinh viên thực hiện: Phan Thị Cẩm Nhi Mã sinh viên: 19K4081019 ươ Niên khóa: 2019 – 2023 Tr Đơn vị thực tập: Công ty TNHH MTV MGI Solutions Việt Nam Huế, tháng 12 năm 2022 - GVHD: TS Hoàng Hữu Trung Tr ươ ̀ng Đ ại ho ̣c K in h tê ́H uê ́ Khóa luận tốt nghiệp SVTH: Phan Thị Cẩm Nhi II - GVHD: TS Hoàng Hữu Trung Khóa luận tốt nghiệp LỜI CẢM ƠN Vậy kết thúc chặng đường thời sinh viên rồi, mà em hồn thành xong chương trình học trường, rời xa giảng đường Đại học để bước chân vào môi trường – thực tập nghề nghiệp doanh nghiệp Tại đây, sinh viên uê ́ chúng em có hội tiếp xúc với môi trường làm việc thực tế, học tập thêm nhiều kiến thức phù hợp với định hướng mà thân chọn Em vơ biết ơn gia đình, tê ́H thầy cô, bạn bè người thân yêu bên cạnh nguồn động lực tiếp thêm sức mạnh cho em hoàn thành báo cáo tốt nghiệp cuối khóa “Khơng thầy đố mày làm nên” – Trong suốt thời gian thực tập hoàn thành h báo cáo, em nhận nhiều giúp đỡ nhiệt tình từ q thầy giáo trường, in thầy cô khoa Hệ Thống Thông Tin tận tâm giúp đỡ em, kịp thời giải đáp cho ̣c K em thắc mắc cho em lời nhắc nhở, động viên để em hoàn thành tốt Em xin gửi lời tri ân sâu sắc đến quý thầy cô trường Đại học Kinh tế Huế, thầy cô khoa Hệ thống Thông tin Kinh tế đặc biệt thầy giáo TS Hoàng Hữu ho Trung - người trực tiếp hướng dẫn, theo sát giúp đỡ em trình vừa qua Bên cạnh đó, em xin gửi lời cảm ơn đến anh chị công ty TNHH MTV Đ ại MGI Solutions Việt Nam tạo điều kiện cho em học tập, có nhiều trải nghiệm bổ ích kết nối với người suốt thời gian qua Cảm ơn anh Leader anh chị đồng nghiệp ln nhiệt tình giúp đỡ em Nhờ vào kiến thức dạy ̀ng thực hành MGI mà em tham gia vào làm dự án tự tin hơn, qua ngày trưởng thành tích lũy thêm nhiều kiến thức bổ ích cịn kinh nghiệm ươ quý báu cho hành trang nghề nghiệp em sau Bài báo cáo em không tránh khỏi hạn chế nhiều thiếu sót Em Tr kính mong nhận góp ý, giúp đỡ từ thầy cố gắng hồn thiện tốt cho báo cáo Em xin chân thành cảm ơn! Sinh viên, Phan Thị Cẩm Nhi SVTH: Phan Thị Cẩm Nhi III - GVHD: TS Hoàng Hữu Trung Tr ươ ̀ng Đ ại ho ̣c K in h tê ́H uê ́ Khóa luận tốt nghiệp SVTH: Phan Thị Cẩm Nhi IV - GVHD: TS Hồng Hữu Trung Khóa luận tốt nghiệp MỤC LỤC LỜI CẢM ƠN III uê ́ DANH MỤC HÌNH ẢNH X tê ́H DANH MỤC BẢNG BIỂU XIII DANH MỤC SƠ ĐỒ XIV DANH MỤC THUẬT NGỮ .XV h PHẦN I: MỞ ĐẦU in Lý chọn đề tài ̣c K Mục tiêu nghiên cứu Mục tiêu tổng quát .2 2.2 Mục tiêu cụ thể .2 ho 2.1 Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu .3 3.2 Phạm vi nghiên cứu Đ ại 3.1 Phương pháp nghiên cứu .3 ̀ng Cấu trúc khóa luận .4 ươ Các cơng trình nghiên cứu liên quan PHẦN II: NỘI DUNG VÀ KẾT QUẢ NGHIÊN CỨU Tr CHƯƠNG I: CƠ SỞ LÝ THUYẾT 1.1 Tổng quan học máy .6 1.1.1 Giới thiệu học máy 1.1.2 Ứng dụng học máy SVTH: Phan Thị Cẩm Nhi V - GVHD: TS Hồng Hữu Trung Khóa luận tốt nghiệp 1.1.3 Phân loại phương pháp học máy 1.1.3.1 Học có giám sát (Supervised Learning) 1.1.3.2 Học khơng có giám sát (Unsupervised Learning) uê ́ 1.1.3.3 Học bán giám sát (Semi-supervised Learning) 1.1.3.4 Học tăng cường (Reinforcement Learning) .9 tê ́H 1.1.4 Phân cụm phân lớp 1.1.4.2 Phân cụm (Clustering) h 1.1.4.3 Phân lớp (Classification) 10 in 1.2 Các phương pháp phân lớp 11 ̣c K 1.2.1 Support Vector Machine (SVM) 11 1.2.2 K-Nearest Neighbor (KNN) 12 ho 1.2.3 Random Forest Classifier (RFC) 13 1.2.4 Logistic regression (LR) .14 Đ ại 1.2.5 Naive Bayes (NB) .15 1.2.6 Stochastic Gradient Descent 15 1.2.7 Decision Tree 15 ̀ng 1.2.8 XGBoost (eXtreme Gradient Boosting) .16 ươ 1.3 So sánh mơ hình phân lớp 17 1.4 Các bước toán dự đoán học máy .19 Tr 1.4.1 Trực quan hóa liệu (Data Visualization) 19 1.4.2 Tiền xử lý liệu (Preprocessing) .19 1.4.2.1 Xử lí liệu trống (Missing Data) .20 1.4.2.2 Xử lí liệu ngoại lệ (Ouliers) 23 1.4.2.3 Chuẩn hóa phạm vi liệu (Feature Scaling) 24 SVTH: Phan Thị Cẩm Nhi VI - GVHD: TS Hồng Hữu Trung Khóa luận tốt nghiệp 1.4.2.4 Lựa chọn thuộc tính (Feature Selection) 25 1.4.2.5 Mã hóa liệu phân loại (Encoding Categorical Data) .25 1.4.2.6 Xử lý cân mẫu (SMOTE) 26 ́ 1.4.3 Lựa chọn mơ hình (Model Selection) 26 1.4.4 Phương pháp phân chia liệu 27 tê ́H 1.4.6 Hiệu chỉnh siêu tham số (Hyperparameter Tuning) .29 1.5 Ngôn ngữ lập trình Python cho học máy 30 h 1.6 Bệnh đột quỵ .31 in 1.5.1 Khái niệm 31 ̣c K 1.5.2 Nguyên nhân dẫn đến bệnh đột quỵ .31 1.5.2 Các số liệu liên quan đến bệnh đột quỵ 32 CHƯƠNG II: DỰ ĐOÁN BỆNH ĐỘT QỤY Ở NGƯỜI DỰA TRÊN CÁC MƠ HÌNH ho PHÂN LỚP 34 2.1 Mô tả tập liệu 34 Đ ại 2.1.1 Giới thiệu tập liệu nghiên cứu 34 2.1.2 Trực quan hóa liệu (Data Visualization) 37 ̀ng 2.1.2.1 Huyết áp - Hypertension 37 2.1.2.2 Bệnh tim – heart_desease .38 ươ 2.1.2.4 Nơi sinh sống – residence_type 40 Tr 2.1.2.8 Lượng đường máu – avg_glucose_level .44 2.1.2.9 Độ tuổi - age 45 2.2 Tiền xử lý liệu (Preproccessing) 46 2.2.1 Xử lí liệu trống (Missing Data) .46 2.2.2 Xử lí liệu ngoại lệ (Ouliers) 50 SVTH: Phan Thị Cẩm Nhi VII - GVHD: TS Hồng Hữu Trung Khóa luận tốt nghiệp 2.2.3 Lựa chọn thuộc tính (Feature selection) .53 2.2.4 Mã hóa liệu phân loại (Encoding Categorical Data) .53 2.2.5 Phân chia liệu huấn luyện liệu kiểm thử (Train – Test) 56 uê ́ 2.2.6 Xử lí cân mẫu (SMOTE) 58 2.2.7 Chuẩn hóa phạm vi liệu (Feature Scaling) 60 tê ́H 2.4 Xây dựng mơ hình huấn luyện (Model Training) .62 2.4.1 Lựa chọn mơ hình (Model selection) 62 h 2.4.3 Kiểm thử mơ hình (Test model) 63 in 2.4.3.1 Logistic Regression (LR) .64 ̣c K 2.4.3.2 Random Forest Classifier (RFC) 65 2.4.4 Hiệu chỉnh mơ hình (Turning model) 67 ho 2.4.4.1 Logistic Regression (LR) .67 2.4.4.2 Random Forest Classifier (RFC) 68 Đ ại 2.4.4.3 eXtreme Gradient Boosting (XGB) 69 CHƯƠNG III: KẾT QUẢ THỰC NGHIỆM VÀ THẢO LUẬN 70 3.1 Kết thực nghiệm 70 ̀ng 3.1.1 Trước hiệu chỉnh mơ hình 70 ươ 3.1.1.1 Logistic Regression (LR) .Error! Bookmark not defined 3.1.1.2 Random Forest Classifier (RFC) Error! Bookmark not defined Tr 3.1.1.3 eXtreme Gradient Boosting (XGB) Error! Bookmark not defined 3.1.2 Sau hiệu chỉnh mô hình 72 3.1.2.1 Logistic Regression (LR) .73 3.1.2.2 Random Forest Classifier (RFC) 74 3.1.2.3 eXtreme Gradient Boosting (XGB) 75 SVTH: Phan Thị Cẩm Nhi VIII - GVHD: TS Hoàng Hữu Trung Khóa luận tốt nghiệp 3.2 Thảo luận kết thực nghiệm Error! Bookmark not defined PHẦN III: KẾT LUẬN 77 Kết đạt 77 uê ́ Hạn chế 78 Hướng phát triển đề tài 78 tê ́H TÀI LIỆU THAM KHẢO .79 Tr ươ ̀ng Đ ại ho ̣c K in h KẾT QUẢ KIỂM TRA ĐẠO VĂN 82 SVTH: Phan Thị Cẩm Nhi IX - GVHD: TS Hoàng Hữu Trung Khóa luận tốt nghiệp DANH MỤC HÌNH ẢNH Hình 1 Ví dụ tốn sử dụng mơ hình phân lớp .10 Hình Ví dụ tốn Support Vector Machine 11 uê ́ Hình Ví dụ tốn K-Nearest Neighbor 12 tê ́H Hình Ví dụ tốn Random Forest Classifier .13 Hình Ví dụ toán Decision Tree 16 Hình Ví dụ trực quan hóa liệu .19 h Hình Ví dụ bảng GridSearchCV hiệu chỉnh siêu tham số 30 in Hình Thuật tốn khai báo thư viện nghiên cứu .36 ̣c K Hình 2 Thuật tốn nhập vào liệu “healthcare-dataset-stroke-data.csv” 36 Hình Xuất dòng tập liệu 37 ho Hình Thuật tốn trực quan hóa thuộc tính Huyết áp bệnh đột quỵ 37 Hình Thuật tốn trực quan hóa thuộc tính Bệnh tim bệnh đột quỵ 38 Đ ại Hình Thuật tốn trực quan hóa Giới tính Bệnh đột quỵ 39 Hình Thuật tốn trực quan hóa Nơi sinh sống Bệnh đột quỵ 40 ̀ng Hình Thuật tốn trực quan hóa Tình trạng hút thuốc Bệnh đột quỵ 41 Hình Thuật tốn trực quan hóa Tình trạng nhân 42 ươ Hình 10 Thuật tốn trực quan hóa BMI 43 Tr Hình 11 Thuật tốn trực quan hóa Đường huyết 44 Hình 12 Thuật tốn trực quan hóa Độ tuổi .45 Hình 13 Một số liệu trống tập liệu “healthcare dataset stroke data” 46 Hình 14 Tập liệu có 201 liệu bị trống BMI 46 Hình 15 Thuật toán xử lý liệu trống nghiên cứu 47 SVTH: Phan Thị Cẩm Nhi X - GVHD: TS Hồng Hữu Trung Khóa luận tốt nghiệp ho ̣c K in h tê ́H uê ́ 2.4.4.2 Random Forest Classifier (RFC) Tr ươ ̀ng Đ ại Hình 43 Thuật tốn hiệu chỉnh mơ hình Random Forest Classifier (RFC) SVTH: Phan Thị Cẩm Nhi 68 - GVHD: TS Hồng Hữu Trung Khóa luận tốt nghiệp ho ̣c K in h tê ́H uê ́ 2.4.4.3 eXtreme Gradient Boosting (XGB) Tr ươ ̀ng Đ ại Hình 44 Thuật tốn hiệu chỉnh mơ hình eXtreme Gradient Boosting (XGB) SVTH: Phan Thị Cẩm Nhi 69 - GVHD: TS Hồng Hữu Trung Khóa luận tốt nghiệp CHƯƠNG III: KẾT QUẢ THỰC NGHIỆM VÀ THẢO LUẬN Hình Kết ma trận nhầm lẫn mô hình phân lớp Tr ươ ̀ng Đ ại ho ̣c K in h tê ́H uê ́ 3.1 Kết thực nghiệm 3.1.1 Kết kiểm thử mơ hình phân lớp SVTH: Phan Thị Cẩm Nhi 70 - GVHD: TS Hoàng Hữu Trung ̀ng Đ ại ho ̣c K in h tê ́H uê ́ Khóa luận tốt nghiệp Tr ươ Hình Kết đường cong ROC mơ hình phân lớp SVTH: Phan Thị Cẩm Nhi 71 - GVHD: TS Hoàng Hữu Trung ̣c K in h tê ́H uê ́ Khóa luận tốt nghiệp Đ ại ho Hình 3 Kết kiểm thử mơ hình phân lớp Bảng So sánh kết chạy mơ hình với liệu “healthcare dataset stroke data” Huấn luyện Kiểm thử AUC Thời gian thực thi LR 77.83% 73.29% 0.84 0.06s RFC 100% 94.32% 0.80 0.93s XGB 99.77% 94.23% 0.82 1.03s NB 59.78% 21.62% 0.82 0.01s SGD 77.11% 78.57% 0.84 0.09s KNN 93.70% 86.59% 0.70 0.44s DT 100% 91.98% 0.59 0.06s SVM 92.26% 91.68% 0.79 12.26s Tr ươ ̀ng Mơ hình SVTH: Phan Thị Cẩm Nhi 72 - GVHD: TS Hoàng Hữu Trung Khóa luận tốt nghiệp ̣c K in h tê ́H uê ́ 3.1.2 Kết hiệu chỉnh mơ hình LR, RFC XGB 3.1.2.1 Logistic Regression (LR) ho Hình 3 Ma trận nhầm lẫn đường cong ROC mơ hình LR (sau hiệu chỉnh) Sau hiệu chỉnh siêu tham số đưa vào huấn luyện - kiểm thử toàn tập liệu, mơ hình LR đưa kết có: Đ ại - Độ xác tập huấn luyện: 77,95% - Độ xác tập kiểm thử: 72,90% + Dự đoán bị bệnh đột quỵ: 36 ̀ng + Dự đốn bị bệnh đột quỵ thành khơng bị bệnh đột quỵ: + Dự đốn khơng bị bệnh đột quỵ: 709 ươ + Dự đốn khơng bị bệnh đột quỵ thành bị bệnh đột quỵ: 268 Tr - Chỉ số AUC: 0.85 Mơ hình LR chạy đưa kết thời gian 0.04 giây SVTH: Phan Thị Cẩm Nhi 73 - GVHD: TS Hồng Hữu Trung Khóa luận tốt nghiệp in h tê ́H uê ́ 3.1.2.2 Random Forest Classifier (RFC) ̣c K Hình Ma trận nhầm lẫn đường cong ROC mơ hình RFC (sau hiệu chỉnh) Sau hiệu chỉnh siêu tham số đưa vào huấn luyện - kiểm thử tồn tập liệu, mơ hình RFC đưa kết có: ho - Độ xác tập huấn luyện: 100,00% - Độ xác tập kiểm thử: 94,42% Đ ại + Dự đoán bị bệnh đột quỵ: + Dự đoán bị bệnh đột quỵ thành không bị bệnh đột quỵ: 44 + Dự đốn khơng bị bệnh đột quỵ: 964 + Dự đốn khơng bị bệnh đột quỵ thành bị bệnh đột quỵ: 13 ̀ng - Chỉ số AUC: 0.82 Tr ươ Mơ hình LR chạy đưa kết thời gian 1.81 giây SVTH: Phan Thị Cẩm Nhi 74 - GVHD: TS Hồng Hữu Trung Khóa luận tốt nghiệp in h tê ́H uê ́ 3.1.2.3 eXtreme Gradient Boosting (XGB) ̣c K Hình Ma trận nhầm lẫn đường cong ROC mơ hình XGB (sau hiệu chỉnh) Sau hiệu chỉnh siêu tham số đưa vào huấn luyện - kiểm thử toàn tập ho liệu, mơ hình XGB đưa kết có: - Độ xác tập huấn luyện: 98,13% Đ ại - Độ xác tập kiểm thử: 94,62% + Dự đoán bị bệnh đột quỵ: + Dự đoán bị bệnh đột quỵ thành không bị bệnh đột quỵ: 41 + Dự đốn khơng bị bệnh đột quỵ: 963 ̀ng + Dự đốn khơng bị bệnh đột quỵ thành bị bệnh đột quỵ: 14 ươ - Chỉ số AUC: 0.82 Tr Mơ hình LR chạy đưa kết thời gian 0.77 giây SVTH: Phan Thị Cẩm Nhi 75 - GVHD: TS Hồng Hữu Trung Khóa luận tốt nghiệp Bảng Kết chạy mơ hình với liệu “healthcare dataset stroke data” sau hiệu chỉnh Huấn luyện Kiểm thử AUC Thời gian thực thi LR (Hiệu chỉnh) 77.95% 72.90% 0.85 0.02s RFC (Hiệu chỉnh) 100% 94.42% 0.82 2.12s XGB (Hiệu chỉnh) 98.13% 94.62% 0.82 tê ́H uê ́ Mơ hình h 3.2 Thảo luận kết thực nghiệm 1.39s in Đánh giá độ xác hiệu suất thực thi mơ hình phân lớp tập liệu kiểm tra 30%, mơ hình cho độ xác tương đối cao (lớn 90%) ̣c K bao gồm: RFC, XGB, DT SVM Còn lại mơ hình có độ xác thấp LR, NB, SGD KNN Trong đó, biên độ lệch độ xác mơ hình lớn, ho lên đến 72.70%, hiển thị qua hình 3.8 mơ hình RFC có độ xác cao (94.32%) NB có độ xác thấp (21.62%) Bên cạnh đó, việc điều chỉnh siêu tham số ảnh hướng đến độ xác thuật tốn, chọn siêu tham số hợp Đ ại lý giúp cải thiện độ xác thuật tốn kết hiển thị bảng 3.2 Hiệu suất thực thi mơ hình thể thời gian chạy bảng cho thấy, mơ hình cho độ xác cao tương đương với thời gian chạy dài ̀ng ngược lại, mơ hình cho độ xác thấp thực thi thời gian ươ nhanh chóng Qua kiểm thử cho thấy mơ hình học máy RFC XGB dự báo bệnh đột quỵ hiệu Tr Ngoài ra, từ bảng 3.1 3.2 ta thấy rằng, trước hay sau hiệu chỉnh siêu tham số mơ hình RFC XGB đưa dự đốn có độ xác tối ưu đáng tin cậy LR, ngược lại thời gian thực thi hai mơ hình lại cao thể độ phức tạp của thuật toán SVTH: Phan Thị Cẩm Nhi 76 - GVHD: TS Hồng Hữu Trung Khóa luận tốt nghiệp PHẦN III: KẾT LUẬN Kết đạt - Nắm tổng quan bệnh đột qụy người yếu tố nguy dẫn đến uê ́ bệnh đột quỵ cụm phân lớp phương pháp tự học có giám sát tê ́H - Hiểu học máy (machine learning) phương pháp học nó; phân - So sánh ưu điểm, nhược điểm mơ hình thuật tốn phân lớp Decision Tree, K-Nearest Neighbor (KNN), Logistic Regression, Naïve Bayes, Random Forest Classifier (RFC), Stochastic Gradient Descent (SGD), Support Vector Machine h (SVM), eXtreme Gradient Boost (XGB) ̣c K liệu “healthcare dataset stroke data” in - Trực quan hóa liệu bước đầu có nhìn tổng quan đặc điểm - Cho liệu sau trải khai bước tiền xử lý: xử lý liệu trống xử lý giá trị ngoại lệ, sau chuẩn hóa phạm vi phân bố liệu; lựa ho chọn thuộc tính thích hợp cho nghiên cứu, sau mã hóa liệu phân loại thành liệu kiểu số, tối ưu thành dạng liệu kiểu ma trận để máy học tốt Đ ại - Lựa chọn mơ hình LR, RFC, XGB số mơ hình phân lớp dựa phương pháp cross-validation dự đốn xác trung bình ban đầu huấn luyện mơ hình để đưa đến hiệu chỉnh ̀ng - Kiểm thử thành công mơ hình phân lớp, đưa số đánh độ xác, số AUC Sau đó, tiếp tục hiệu chỉnh mơ hình LR, RFC XGB ươ cách tìm tham số tối ưu nhất, thay cho tham số mặc định thuật toán để đưa đến kết dự đoán xác cuối Tr - Có đánh giá dựa kết phân tích tốn dự đốn bệnh đột quỵ từ mơ hình phân lớp đạt SVTH: Phan Thị Cẩm Nhi 77 - GVHD: TS Hồng Hữu Trung Khóa luận tốt nghiệp Hạn chế Bên cạnh kết đạt được, đề tài nghiên cứu tồn vài hạn chế sau: - Nghiên cứu toán Machine Learning thường phụ thuộc nhiều vào uê ́ tập liệu Các liệu chưa thuộc tính nhận giá trị số liệu phân loại tê ́H áp dụng thuật toán phân lớp - Tập liệu chọn lọc từ trang Kaggle tiếng liệu cứng thống kê sẵn tác giả tập liệu Thời gian nghiên cứu không dài, chủ đề nghiên cứu cứu nên cịn chưa có nhiều kinh nghiệm thực tế h Hướng phát triển đề tài in Dựa kết thực nghiệm mà nghiên cứu đạt được, ̣c K hạn chế tồn nghiên cứu, tác giả đề xuất hướng nghiên cứu để hồn thiện tốn dự đốn bệnh đột quỵ dựa mơ hình phân lớp sau: ho - Tối ưu hóa tốc độ xử lý, cải tiến thời gian thực thi mô hình - Tiếp tục phát triển đề tài dự đoán vấn đề liên quan đến lĩnh vực kinh tế Tr ươ ̀ng Đ ại - So sánh kết đạt với kết từ thi trang Kaggle SVTH: Phan Thị Cẩm Nhi 78 - GVHD: TS Hồng Hữu Trung Khóa luận tốt nghiệp TÀI LIỆU THAM KHẢO [1] Vũ Hữu Tiệp (2020), “Machine Learning Cơ Bản”, ngày truy cập: 30/10/2022, https://machinelearningcoban.com/ [2] World Stroke Organization, “Learn about stroke”, ngày truy cập: 30/10/2022, uê ́ https://www.world-stroke.org/ tê ́H [3] Hiếua, N T., Linha, T X., Hieua, N T., & Linha, T X Dự đoán cường độ liên kết cốt thép bị ăn mòn lớp bê tông xung quanh phương pháp XGBoost, ngày truy cập 15/11/2022, https://cdn.duytan.edu.vn/ in 15/11/2022, http://vap.ac.vn/Portals/0/TuyenTap/ h [4] Nghiên cứu “Khoa học Trái đất Môi trường”, ngày truy cập: [5] Songhee Cheon, Jungyoon Kim & Jihye Lim, “The Use of Deep Learning to ̣c K Predict Stroke Patient Mortality”, https://www.mdpi.com/1660-4601/16/11/1876 [6] “Power Systems Cyber-attack Detection Based on Machine Learning”, ngày truy ho cập: 20/11/2022, https://www.neliti.com/publications/453433/power-systems-cyberattack-detection-based-on-machine-learning Đ ại [7] “Một số ứng dụng Machine Learning nay”, ngày truy cập: 20/10/20022, https://longvan.net/machine-learning-la-gi-ung-dung-cua-machine-learning.html [8] Nguyễn Cúc, “Machine learning - Học máy kinh doanh”, ngày truy cập: https://funix.edu.vn/chia-se-kien-thuc/machine-learning-hoc-may-trong- ̀ng 20/10/2022, kinh-doanh/ ươ [9] Caruana, R., & Niculescu-Mizil, A (2006, June) “An empirical comparison of supervised learning aLRorithms In Proceedings of the 23rd international conference Tr on Machine learning (pp 161-168)”, ngày truy cập: 22/11/2022, https://dl.acm.org/doi/abs/10.1145/1143844.1143865 [10] Von Luxburg, U (2010) Clustering stability: an overview Foundations and Trends® in Machine Learning, 2(3), 235-274, ngày truy cập: 22/11/2022, https://www.nowpublishers.com/article/Details/MAL-008 SVTH: Phan Thị Cẩm Nhi 79 - GVHD: TS Hồng Hữu Trung Khóa luận tốt nghiệp [11] Machine Learning Cơ Bản, “Tổng quan toán phân lớp”, ngày truy cập: 23/11/2022, https://tek4.vn/khoa-hoc/machine-learning-co-ban/tong-quan-ve-bai-toanphan-lop [12] Xuân Hồng, “Chia sẻ kiến thức Machine Learning”, ngày truy cập: https://ongxuanhong.wordpress.com/2015/08/25/ap-dung-cac-phuong- uê ́ 23/11/2022, tê ́H phap-phan-lop-classification-tren-tap-du-lieu-mushroom/ [13] Hearst, M A., Dumais, S T., Osuna, E., Platt, J., & Scholkopf, B (1998) Support vector machines IEEE Intelligent Systems and their applications, 13(4), 1828 h [14] Keller, J M., Gray, M R., & Givens, J A (1985) A fuzzy k-nearest neighbor in aLRorithm IEEE transactions on systems, man, and cybernetics, (4), 580-585 ̣c K [15] Pal, M (2005) Random forest classifier for remote sensing classification International journal of remote sensing, 26(1), 217-222 ho [16] Kleinbaum, D G., Dietz, K., Gail, M., Klein, M., & Klein, M (2002) Logistic regression (p 536) New York: Springer-Verlag Đ ại [17] Rish, I (2001, August) An empirical study of the naive Bayes classifier In IJCAI 2001 workshop on empirical methods in artificial intelligence (Vol 3, No 22, pp 4146) ̀ng [18] Chen, T., He, T., Benesty, M., Khotilovich, V., Tang, Y., Cho, H., & Chen, K (2015) Xgboost: extreme gradient boosting R package version 0.4-2, 1(4), 1-4 ươ [19] Waskom, M L (2021) Seaborn: statistical data visualization Journal of Open Source Software, 6(60), 3021 Tr [20] Chmielewski, M R., & Grzymala-Busse, J W (1996) Global discretization of continuous attributes as preprocessing for machine learning International journal of approximate reasoning, 15(4), 319-331 [21] Kaggle, Step-by-step Data Preprocessing & EDA, ngày truy cập: 15/11/2022, https://www.kaggle.com/code/agrawaladitya/step-by-step-data-preprocessing-eda SVTH: Phan Thị Cẩm Nhi 80 - GVHD: TS Hoàng Hữu Trung Khóa luận tốt nghiệp [22] Quý Nguyễn, “Các phương pháp scale liệu machine learning”, ngày truy cập: 22/11/2022, https://ndquy.github.io/posts/cac-phuong-phap-scaling/ [23] “Natural Language Processing”, ngày truy cập: 22/11/2022, http://viet.jnlp.org/kien-thuc-co-ban-ve-xu-ly-ngon-ngu-tu-nhien/lua-chon-dac-trung- uê ́ feature-selection tê ́H [24] “Classification Accuracy is Not Enough: More Performance Measures You Can Use”, ngày truy cập: 25/11/2022, https://machinelearningmastery.com/classificationaccuracy-is-not-enough-more-performance-measures-you-can-use/ [25] “Trade off precision and recall - Andrew Ng”, ngày truy cập: 25/11/2022, [26] “Understanding AUC - ROC in h https://www.youtube.com/watch?v=W5meQnGACGo Curve”, ngày truy cập: 25/11/2022, 68b2303cc9c5?gi=d793a283f240 ̣c K https://towardsdatascience.com/understanding-auc-roc-curve- ho [27] “Receiver Operating Characteristic (ROC) with cross validation”, ngày truy cập: 23/11/2022, https://scikit- learn.org/stable/auto_examples/model_selection/plot_roc_crossval.html#sphx-glr- Đ ại auto-examples-model-selection-plot-roc-crossval-py [28] Từ điển CNTT, “Hyperparameter tuning gì?”, ngày truy cập: 27/11/2022, ̀ng https://www.dictionary4it.com/term/hyperparameter-tuning-6617/ [29] About pandas, ngày truy cập: 22/11/2022, https://pandas.pydata.org/, ươ [30] “Đột quỵ, nguyên nhân, chuẩn đoán cách phòng ngừa”, ngày truy cập: 22/11/2022, https://tamanhhospital.vn/dot-quy/ Tr [31] Bộ Y Tế, “Chuyên trang thông tin bệnh đột quỵ”, ngày truy cập: 30/10/2022, https://dotquy.kcb.vn/hieu-dung-ve-dot-quy/nhom-doi-tuong-nao-co-nguy-co-dot-quycao-.html [32] Kaggle, “healthcare-dataset-stroke-data” ngày truy cập: 5/10/2022, https://www.kaggle.com/code/rishabh057/healthcare-dataset-stroke-data SVTH: Phan Thị Cẩm Nhi 81 - GVHD: TS Hồng Hữu Trung Khóa luận tốt nghiệp KẾT QUẢ KIỂM TRA ĐẠO VĂN Link kiểm tra: https://app.kiemtratailieu.vn/ Tr ươ ̀ng Đ ại ho ̣c K in h tê ́H uê ́ Độ trùng lặp: 16% SVTH: Phan Thị Cẩm Nhi 82

Ngày đăng: 28/08/2023, 20:47

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w