(Tiểu luận) báo cáo dự án đề tài khả năng mắc bệnh covid

51 0 0
(Tiểu luận) báo cáo dự án  đề tài khả năng mắc bệnh covid

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC KINH TẾ TP HỒ CHÍ MINH KHOA KẾ TỐN   BÁO CÁO DỰ ÁN BỘ MÔN: KHOA HỌC DỮ LIỆU ĐỀ TÀI: Giảng viên: Mã lớp học phần: Sinh viên thực hiện: Hồ Gia Kim Hiền Võ Minh Thư Huỳnh Thu Thủy Nguyễn Thị Thanh Thảo Phan Thanh Duy TP.HCM, ngày 22 tháng 12 năm 2022  h MỤC LỤC MỤC LỤC DANH MỤC TỪ VIẾT TẮT DANH MỤC HÌNH ẢNH .3 DANH MỤC BẢNG DANH MỤC BIỂU ĐỒ LỜI CẢM ƠN THÔNG TIN SINH VIÊN VÀ MỨC ĐỘ ĐÓNG GÓP: CHƯƠNG TỔNG QUAN ĐỀ TÀI (15% thời lượng) 1.1 Lý chọn đề tài 1.2 Mục tiêu đề tài .6 1.3 Đối tượng phạm vi nghiên cứu đề tài .6 1.4 Công cụ sử dụng 1.5 Ý nghĩa nghiên cứu 1.6 Cấu trúc đề tài CHƯƠNG CƠ SỞ LÝ THUYẾT (20% thời lượng) 2.1 Tổng quan Khoa học liệu .7 2.2 Lợi ích Khoa học liệu kinh doanh quản lý 11 2.3 Quy trình thực dự án Khoa học liệu 13 2.4 Lý thuyết phương pháp phân tích liệu (đề cập đến lý thuyết, sở toán học, … mơ hình nhóm áp dụng) 13 CHƯƠNG PHÂN TÍCH YÊU CẦU NGƯỜI DÙNG VÀ MÔ TẢ DỮ LIỆU (20 % thời lượng) .25 3.1 Xác định phân tích u cầu người dùng (mơ tả rõ chi tiết toán cần giải quyết) 25 a/ Bài toán 1: Dự đoán phân loại đối tượng bị bệnh theo loại bệnh .25 b/ Bài toán 2: Dự báo độ tuổi bị bệnh bệnh nhân thuộc loại “returned home” 25 c/ Bài toán 3: Phân cụm bệnh nhân thuộc loại “hospitalization” .25 d/ Bài toán 4: Phân lớp kiểm tra kết phân cụm từ toán phân cụm bệnh nhân loại “hospitalization” .25 3.2 Tổng quan sở liệu nguồn: 25 3.2.1 Mô tả liệu nguồn 25 3.2.2 Lựa chọn trình bày liệu cần phân tích yêu cầu người dùng (để giải toán đặt 3.1 cần dùng liệu 3.2.1) 27 CHƯƠNG PHÂN TÍCH DỮ LIỆU VÀ KẾT QUẢ (35% thời lượng) .28 h 4.1 Giới thiệu giải pháp quy trình thực hiện: 28 4.1.1/ Phân tích xử lý liệu 28 4.1.2/ Các toán 32 a/ Bài toán 1: Dự đoán phân loại đối tượng bị bệnh theo loại bệnh .32 b/ Bài toán 2: Dự báo độ tuổi bệnh nhân “ returned home” 33 c/ Bài toán 3: Phân cụm bệnh nhân loại “hospitalization” .33 d/ Bài toán 4: Phân lớp kiểm tra kết phân cụm từ toán phân cụm bệnh nhân loại “hospitalization” .34 4.2 Phân tích trực quan hóa kết (nếu có) ( Thư đanh đá ) :))) Pé Thư Ku té 35 ✻ Bài toán 1: Dự đoán phân loại đối tượng bị bệnh theo loại bệnh 35 ✻ Bài toán 2: Dự báo độ tuổi bệnh nhân “ returned home” 37 ✻ Bài toán 3: Phân cụm bệnh nhân loại “hospitalization” 39 ✻ Bài toán 4: Phân lớp kiểm tra kết phân cụm từ toán phân cụm bệnh nhân loại “hospitalization” .41 CHƯƠNG KẾT LUẬN (5% thời lượng) 51 5.1 Kết đạt được: 51 5.2 Hạn chế: .51 5.3 Hướng phát triển đề tài: .51 TÀI LIỆU THAM KHẢO (5% thời lượng) 51 PHỤ LỤC (NẾU CÓ) 52 DANH MỤC TỪ VIẾT TẮT COVID - 19: Corona virut disease năm 2019 SVM : Support Vector Machine SV : Support Vector CART : Classification and Regression Trees GLM : Generalized Linear Models AUC : Area Under the Curve IoT : Internet of Things ROC : Receiver Operating Characteristic ANN : Artificial Neural Network DANH MỤC HÌNH ẢNH Hình 1: Khoa học phân tích liệu .7 Hình 2: Lược đồ Data Science 10 Hình 3: Quy trình phân tích liệu .10 Hình 4: Sơ đồ DIKW .11 h Hình 5: Phương pháp phân tích liệu 13 Hình 6: Quá trình phân lớp liệu 14 Hình 7: Mơ hình hồi quy logistic 15 Hình 8: Đồ thị inverse logit 15 Hình 9: Mơ hình phân lớp nhị phân sử dụng phương pháp hồi quy logistic 16 Hình 10: Mơ hình định 16 Hình 11: Mơ hình Support Vector Machine 18 Hình 12: Mơ hình Support Vector Machine 18 Hình 13: Mơ hình Meural Network .19 Hình 14: Underfitting .20 Hình 15: Overfitting .20 Hình 16: Good Fitting 20 Hình 17: Bảng kết dự đoán 21 Hình 18: Độ xác 21 Hình 19: ROC 22 Hình 20: AUC 22 Hình 21: Phương pháp phân chia liệu Hold-out .22 Hình 22: Phương pháp phân chia liệu K-fold cross alidation 23 Hình 23: Mơ hình phân cụm liệu 23 Hình 24: Mơ hình tốn 31 Hình 25: Mơ hình tốn 32 Hình 26: Mơ hình tốn 33 Hình 27: Mơ hình tốn 33 Hình 28: Sử dụng "Select Column" để giảm bớt số cột 34 Hình 29: Kết dự báo ( ) 36 Hình 30: Kết dự đoán (2) 38 Hình 31: Kết dự báo (4) 49 DANH MỤC BẢNG Bảng 1: Các biến thể SVM .19 Bảng 2: Mô tả biến 26 Bảng 3: Bảng Valuation age 31 Bảng 4: Kết Test & Score ( ) 34 Bảng 5: Kết Confusion Matrix ( ) 35 Bảng 6: Kết Test & Score ( ) 36 Bảng 7: Kết Confusion Matrix ( ) 38 Bảng 8: Kết k-Means (3) 39 Bảng 9: Kết k-Means (4) 41 Bảng 10: Kết Test & Score ( ) 47 Bảng 11: Kết Confusion Matrix ( ) 49 Bảng 12: Tiêu chí đánh giá 51 DANH MỤC BIỂU ĐỒ h Biểu đồ 1: Bảng số lượng loại bệnh nhân 28 Biểu đồ 2: Biểu đồ cột loại bệnh nhân 29 Biểu đồ 3: Biểu đồ tròn loại bệnh nhân 29 Biểu đồ 4: Biểu đồ bênh nhân theo giới tính 30 Biểu đồ 5: Biểu đồ phân cụm số liệu ban đầu 30 Biểu đồ 6: Biểu đồ phân loại Valuation age 31 Biểu đồ 7: Biểu đồ cột phân loại Valuation age .32 Biểu đồ 8: Minh họa Sihouette Plot (3) 40 Biểu đồ 9: Minh họa Scatter Plot (3) ( Age/ Sex / C1) 41 Biểu đồ 10: Minh họa Scatter Plot (3) ( Age/ Sex / C2) 41 Biểu đồ 11: Minh họa Sihouette Plot (4) .47 Biểu đồ 12: Minh họa Scatter Plot (4) (Age / Sex ) .48 LỜI CẢM ƠN Đầu tiên, chúng em xin gửi lời cảm ơn tới Thầy Nguyễn Văn Hồ – người trực tiếp giảng dạy truyền đạt kiến thức cần thiết bổ ích phục vụ cho trình làm dự án Trong q trình thực dự án khơng thể tránh khỏi thiếu sót cách diễn đạt, lỗi trình bày phương hướng cách thức giải vấn đề, chúng em mong Thầy bỏ qua góp ý để cố gắng sửa đổi hoàn thiện dự án tới Chúng em chúc Thầy nhiều sức khỏe, nhiệt huyết với nghề để truyền đạt nhiều kiến thức bổ ích cho hệ sau Chúng em trân trọng cảm ơn Thầy! THÔNG TIN SINH VIÊN VÀ MỨC ĐỘ ĐÓNG GÓP: STT Họ tên MSSV Công việc Đánh giá Hồ Gia Kim Hiền 31211021776 100% Võ Minh Thư 31211025402 100% Huỳnh Thu Thủy 31211024925 100% Nguyễn Thị Thanh Thảo 31211025428 100% Phan Thanh Duy 31211021742 100% CHƯƠNG TỔNG QUAN ĐỀ TÀI (15% thời lượng) 1.1 Lý chọn đề tài Mấy năm trở lại gần đây, Thế giới xuất “đại dịch toàn cầu” COVID – 19 (Sars–Cov–2) Đây bệnh truyền nhiễm gây virus corona Tùy theo thể trạng sức khỏe người bị nhiễm bệnh Đa số người trẻ nhiễm bệnh COVID-19 bệnh hô hấp từ nhẹ trung bình, cần cách ly hồi phục không cần đến điều trị y tế đặc biệt Khơng mà xem bệnh loại bệnh thơng thường Vì có người mắc bệnh từ trước bị nhiễm COVID, bệnh tim mạch, tiểu đường, hơ hấp mãn tính, … người cao h tuổi bị mắc bệnh phát triển nghiêm trọng dẫn đến tử vong Theo Nguồn: Worldometers, Bộ Y Tế (MOH), vnexpress.net cho thấy tính đến có 655.591.265 số ca nhiễm 6.664.515 số ca tử vong Mặc dù, xã hội giãn cách, trở lại hoạt động sản xuất kinh doanh bình thường khơng có nghĩa đại dịch hồn toàn biến Hàng ngày, hàng xuất ca nhiễm bệnh có ca tử vong COVID-19 Vì vậy, nhóm chúng em định chọn đề tài: “Khả mắc bệnh COVID-19” Để dự đoán bệnh nhân có khả mắc bệnh cao hay thấp để từ rút kết luận giải pháp để giảm thiểu số người mắc bệnh kịp thời chữa trị cho người có nguy mắc bệnh cao 1.2 Mục tiêu đề tài Sau nghiên cứu tìm hiểu đề tài: “Khả mắc bệnh COVID” nhóm chúng em đưa mục tiêu sau đây: - Dựa tình trạng triệu chứng tại, tiền sử bệnh để từ đưa dự đoán phân loại đối tượng bệnh nhân theo nhóm: Khả mắc bệnh thấp, trung bình, cao - Từ dự đốn trên, gom cụm đối tượng có khả mắc bệnh COVID-19 để y, bác sĩ có giải pháp điều trị cho nhóm đối tượng Chính phủ có kế hoạch phù hợp để phân phối nguồn lực y tế cách hiệu 1.3 Đối tượng phạm vi nghiên cứu đề tài - Đối tượng nghiên cứu: Đối tượng nghiên cứu đề tài bệnh nhân điều trị đơn vị y tế: cấp 1, cấp hay cấp Mexico Tập liệu bao gồm thông tin liệu thô chứa 100.000 hàng liệu (bệnh nhân điều trị đơn vị y tế: cấp 1, cấp hay cấp 3) 21 cột (đặc tính) - Phạm vi nghiên cứu: Thời gian: liệu đơn vị y tế cấp 1, cấp hay cấp Mexico, khoảng thời gian từ 02/01/2020 đến 02/05/2021 Không gian: Bài nghiên cứu thực dựa đơn vị y tế: cấp 1, cấp hay cấp Mexico, đăng tải trang web Kaggle, có đầy đủ liệu cung cấp phủ Mexico (liên kết) 1.4 Cơng cụ sử dụng Chúng em sử dụng phần mềm bảng tính Excel; cơng cụ khai phá liệu Orange để xử lý liệu, biểu diễn liệu so sánh mơ hình với phương pháp Logistic Regression, Tree, SVM sử dụng Ma trận nhầm lẫn (Confusion Matrix) để chọn phương pháp có sai lầm loại nhỏ AUC chọn phương pháp có giá trị lớn qua Test and Score 1.5 Ý nghĩa nghiên cứu Với đề tài “Khả mắc bệnh COVID”, dự đốn, kết phân tích tình hình thực tế xảy cho thấy lý do, nguyên nhân dẫn đến việc mắc bệnh, triệu chứng để đưa phương pháp điều trị kịp thời; biết khả nhiễm bệnh để chuẩn bị, phịng ngừa để góp phần đẩy lùi dịch bệnh ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui h 1.6 Cấu trúc đề tài Gồm có chương nội dung: Chương 1: Tổng quan đề tài Chương 2: Cơ sở lý thuyết Chương 3: Phân tích u cầu người dùng mơ tả liệu Chương 4: Phân tích liệu kết Chương 5: Kết luận CHƯƠNG CƠ SỞ LÝ THUYẾT (20% thời lượng) 2.1 Tổng quan Khoa học liệu TÓM TẮT: Khoa học liệu lĩnh vực liên ngành mà đó, liệu xử lý, xếp giải mã mơ hình thống kê hay phương pháp tốn học Khoa học liệu (Data science) gồm ba phần chính: tạo quản trị liệu, phân tích liệu, áp dụng kết phân tích thành hành động có giá trị Việc phân tích sử dụng liệu dựa vào ba nguồn tri thức: toán học (thống kê tốn học - Mathematical Statistics), cơng nghệ thơng tin (máy học - Machine Learning) tri thức lĩnh vực ứng dụng cụ thể.Về quy trình hệ thống trích xuất kiến thức hiểu biết từ dạng liệu khác (có cấu trúc khơng có cấu trúc), tiếp nối số lĩnh vực phân tích liệu • Data gì? Một tập hợp thơng tin, gồm chữ, số, hình ảnh…được chia làm liệu thơ liệu xử lý • Vai trị Data? Trong máy tính, Data hay liệu thơng tin chuyển sang dạng có hiệu để di chuyển xử lý Liên quan đến máy tính phương tiện truyền dẫn ngày nay, liệu thông tin chuyển đổi thành dạng số nhị phân.Có hai loại liệu chính: - Dữ liệu định tính ( liệu phân loại), đo tính dạng số, xếp theo thể loại, theo số Những liệu bao gồm âm thanh, hình ảnh, biểu tượng văn Giới tính người, tức là, nam nữ liệu định tính.Dữ liệu định tính cho biết nhận thức người giúp nhà nghiên cứu thị trường hiểu thị hiếu khách hàng sau lên ý tưởng chiến lược phù hợp - Dữ liệu định lượng ( Dữ liệu số ): Có thể biểu thị giá trị số, nghĩa đếm kể phân tích liệu thống kê Dữ liệu định lượng dùng để thao tác thống kê liệu biểu diễn nhiều biểu đồ biểu đồ cột, biểu đường, biểu đồ tròn,… ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui • Data Science gì? Data Science định nghĩa tất thu thập, khai thác phân tích liệu để tìm insight giá trị Sau trực quan hóa Insight cho bên liên quan, để chuyển hóa Insight thành hành động Đây lĩnh vực đa ngành sử dụng phương pháp quy trình khoa học để rút insight từ liệu Ngồi ra, Data Science cịn cơng cụ lao động quan trọng thời kỳ chuyển đổi số • Các nguyên tắc Data Science? ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui h Hình 1: Khoa học phân tích liệu Học máy (Machine Learning) Học máy phần quan trọng khoa học liệu Nó giúp phân tích lượng liệu khổng lồ cách sử dụng thuật toán khác Là nhà khoa học liệu, bạn cần phải thành thạo Học máy Mơ hình hóa (Modeling) Các nhà khoa học liệu cần phải giỏi mơ hình hóa, q trình bao gồm việc tìm thuật tốn phù hợp để giải vấn đề đào tạo mơ hình Mơ hình hóa phần Học máy Số liệu thống kê (Statistic) Thống kê phần quan trọng Data Science Nó giúp nhập liệu, đánh giá mơ hình, trực quan hóa hóa liệu, Các nhà khoa học liệu tạo hiểu biết sâu sắc từ liệu với trợ giúp Thống kê Lập trình (Programming) Python R thường sử dụng việc thực dự án khoa học liệu Điều quan trọng phải biết ngơn ngữ lập trình Cơ sở liệu (Databases) Các nhà khoa học liệu xử lý nhiều liệu nên điều quan trọng họ phải biết cách làm việc với sở liệu • Ứng dụng Data Science Ứng dụng Data Science ngành ngân hàng Ngân hàng ngành ứng dụng Data Science nhiều nhất: + Mơ hình rủi ro: hỗ trợ đắc lực Data Science Big Data mơ hình rủi ro, ngân hàng áp dụng để phân tích, sàng lọc khách hàng khả không đủ chi trả khoản vay trước viễn cảnh rủi ro xảy + Hệ thống phịng chống gian lận: định vị, phân tích hoạt động người dùng, rà sốt tồn q trình để tìm mơ hình có kẽ hở độc hại Dùng thuật toán phân cụm K-Means, SVM ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui h + Giá trị vòng đời khách hàng: sàng lọc phân loại khách hàng tiềm với giá trị thiết thực tương lai thông qua phân tích dự đốn nhờ cơng cụ liệu CART hay GLM + Phân khúc thị trường: định vị khoanh vùng xác nhóm khách hàng thơng qua K-means + Hệ thống gợi ý: User-Based Collaborative Filtering Item-Based Collaborative Filtering + Phân tích dự đốn theo thời gian thực: dự đốn tình xảy tương lai, Machine Learning đóng vai trị yếu q trình phân tích Trong phân tích đánh giá thực tế, ngân hàng sử dụng thuật toán Machine Learning để cải thiện chiến lược họ đào sâu tìm hiểu nhiều vấn đề tác động đến chất lượng công việc Ứng dụng Data Science ngành tài Data Science giữ vị trí quan trọng quy trình tự động hóa nghiệp vụ tài kế tốn, sử dụng vận hành hệ thống báo động nguy ngân hàng qua Data Science Nhờ có thuật tốn Data Science chắt lọc liệu khách hàng sẵn có giúp thúc đẩy suất làm việc, phát triển công việc theo định hướng bền vững + Machine Learning đưa dự báo phân tích, cho phép cơng ty dự báo giá trị vòng đời khách hàng thị phần họ chiếm lĩnh.Những kỹ thuật thuật toán Machine Learning thúc đẩy tương tác truyền thông đa phương tiện, tăng tốc độ tiếp nhận phản hồi, chăm sóc khách hàng để phân tích hiệu + Ngơn ngữ hóa data mining (khai phá liệu) ứng dụng Data Science giúp trình chuyển đổi từ thông tin sang dạng thức linh động, tiến để tăng lợi nhuận Ứng dụng Data Science ngành sản xuất Dựa vào ứng dụng Data Science, sản xuất cải thiện khả tạo sản phẩm, tối ưu hiệu suất, giảm chi phí tăng lợi nhuận Cơng cụ hỗ trợ IoT (Internet of Things), Data Science cho phép doanh nghiệp dự đoán vấn đề, điều phối hệ thống phân tích dịng liệu họ.Một ứng dụng Data Scientist khác cho ngành sản xuất tự động hóa (automation) Ứng dụng Data Science ngành giao thông vận tải Data Science giúp mơi trường giao thơng an tồn cho người điều khiển giao thông, giúp phương tiện giao thông cải tiến, thêm yếu tố tự động hóa Data Science nhân rộng khái niệm “xe tự lái” – bước tiến lớn ngành thời đại số Lộ trình khoa học sản phẩm đời từ Data Science Thông qua nhiều biến số thông tin khách hàng, địa điểm, dẫn kinh tế, logistics, phương tiện xe cộ nhận biết đoạn đường thuận lợi hướng cho người điều khiển cách tự động Ứng dụng Data Science ngành y tế – chăm sóc sức khỏe Các lĩnh vực áp dụng thành công ứng dụng Data Science kể đến Phân tích hình ảnh y khoa, gen gen, điều chế thuốc, phân tích chẩn ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui h đoán, ứng dụng phần mềm sức khỏe hay trợ lý sức khỏe tâm lý Xử lý chẩn đoán qua X-ray, MRI, CT-scans dễ dàng cịn “thơng minh” + Ở lĩnh vực di truyền học MapReduce xem tảng hỗ trợ đắc lực cho việc dự báo gen + Điều chế thuốc dựa vào tư liệu người dùng v.v… Cơng tác chẩn đốn bệnh trở nên khoa học xác ứng dụng Data Science vào máy móc y khoa + Cơng cụ để tính tốn phác đồ điều trị phù hợp cho bệnh nhân + Phần mềm ứng dụng trợ lý sức khỏe xây dựng tảng ứng dụng Data Science Ứng dụng Data Science ngành E-Commerce (Thương mại điện tử) Nhận biết tảng khách hàng tiềm năng, Data Science sử dụng khai thác sản phẩm, dịch vụ nhà cung cấp, phân tích dự đốn xu thị trường nhờ doanh nghiệp tối ưu cấu giá cho phân khúc khách hàng + Phân đoạn thị trường chọn lọc đối tượng khách hàng mục tiêu doanh nghiệp Sử dụng kỹ thuật Data Science đề xuất nâng cao hệ thống, tảng E-commerce hồn tồn đưa thông tin giá trị khả thi doanh nghiệp để họ định hướng chiến lược mua bán thị trường + Dùng phương pháp phân tích dựa liệu có sẵn phản hồi khách hàng để có thơng tin mà doanh nghiệp muốn Cơng việc địi hỏi sử dụng Natural Language Processing để phân tích câu chữ khách hàng (cách lọc negative/ positive comment facebook) hay kết khảo sát + Fraud Detection, cơng cụ có vai trị Machine Learning phát gian lận kinh doanh online, offline • Quy trình xử lý liệu ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui Hình 2: Lược đồ Data Science Cũng hình thức thí nghiệm khác, khoa học liệu yêu cầu bạn thực quan sát, đặt câu hỏi, hình thành giả thuyết, tạo kiểm tra, phân tích kết đưa khuyến nghị thực tế ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui ui 10 h 37 h Bảng 7: Kết Confusion Matrix ( ) - Kết dự báo: Hình 30: Kết dự đốn (2) ✻ Bài toán 3: Phân cụm bệnh nhân loại “hospitalization” - Kết phân loại k-Means: Chạy k-Means từ đến 10 cụm, điểm Silhouette thấp ( < 0.2) Do chọn chạy k-Means với số cụm 38 h Bảng 8: Kết k-Means (3) - Minh họa kết phân cụm Biểu đồ 8: Minh họa Sihouette Plot (3) 39 h Biểu đồ 9: Minh họa Scatter Plot (3) ( Age/ Sex / C1) Biểu đồ 10: Minh họa Scatter Plot (3) ( Age/ Sex / C2) ✻ Bài toán 4: Phân lớp kiểm tra kết phân cụm từ toán phân cụm bệnh nhân loại “hospitalization” Nhận xét từ kết 3: ○ Vì điểm Silhouette thấp (< 0.2) dẫn đến phải phân lớp liệu để kiểm tra tính đắn kết phân cụm từ ○ Ngoài ra, việc phân lớp qua vài thao tác tiền xử lý để đảm bảo kết phân cụm không bị ảnh hưởng nhiều yếu tố khác 40 h - Kết phân loại k-Means: Chạy k-Means từ đến 10 cụm liệu giảm cột, điểm Silhouette thấp (< 0.5), với kết số phân cụm = 10 cao ( 0.488 ) Do chọn chạy k-Means với số phân cụm = 10 Bảng 9: Kết k-Means (4) - Minh họa kết phân cụm: 41 h 42 h 43 h 44 h 45 h Biểu đồ 11: Minh họa Sihouette Plot (4) 46 h Biểu đồ 12: Minh họa Scatter Plot (4) (Age / Sex ) - Kết đánh giá phương pháp Test & Score Bảng 10: Kết Test & Score ( ) - Đánh giá mơ hình dựa kết Confusion Matrix: ● So với PP lại, sai lầm loại loại PP Random Forest định trọng yếu Các sai lầm mức 3% tỷ lệ tập trung cao dự đoán Các tỷ lệ dự đoán đạt cao, gần tuyệt đối Do kết luận kết dự đốn hoàn toàn tin cậy được, Sihouette Score chưa đạt 0.5 ● Kết luận: Chọn “Random Forest” phương pháp dùng để phân lớp liệu File “Data forecast” 47 h 48 h Bảng 11: Kết Confusion Matrix ( ) - Kết dự báo: Hình 31: Kết dự báo (4) 4.3 Thảo luận đánh giá kết phân tích đề xuất hỗ trợ định Qua bước xử lý phân tích liệu trên, nhóm đưa kết luận toán sau: ● Kết phân cụm có bị ảnh hưởng nhiều yếu tố, có yếu tố “Giảm số cột liệu gốc”, cụ thể kết phân cụm toán so sánh với kết toán qua xử lý xem xét yếu tố ảnh hưởng hồn tồn trái ngược ● Bài tốn phân lớp phân cụm có mối quan hệ mật thiết với nhau, định lẫn Với việc kết phân cụm cải thiện tốt so với khơng có yếu tố tác động, làm cho việc phân cụm liệu dễ hơn, tạo điều kiện cho toàn phân lớp giải tốt hơn, thu kết tốt 49 h CHƯƠNG KẾT LUẬN (5% thời lượng) 5.1 Kết đạt được: Với liệu có liên quan đến yếu tố ảnh hưởng đến khả mắc bệnh Covid - 19 nhóm em tiến hành tiền xử lý liệu với phương pháp: Random Forest, Neural Network, SVM Sau thời gian nghiên cứu với biến thuộc tính nhóm em dự báo yếu tố thực ảnh hưởng đến khả mắc bệnh Covid Phần lớn bệnh nhân lớn tuổi có khả mắc bệnh covid Kết đạt không lệch nhiều so với nhãn mục tiêu sẵn có liệu 5.2 Hạn chế: Đối với đề tài: -Trong nghiên cứu đề tài q trình phân tích liệu cịn gặp nhiều khó khăn có vài sai sót -Kết mơ hình chưa cho thấy rõ mức độ ứng dụng Đối với nhóm: -Đây lần nhóm chúng em thực dự án tảng excel orange khơng có kinh nghiệm nên phải dành nhiều thời gian công sức gặp số hạn chế việc sử dụng phần mềm cho việc tính tốn phân tích số li -Do làm đề tài hoạt động nhóm từ chọn đề tài thảo luận, bàn bạc nghiên cứu đề tài chọn liệu, tiến hành vận dụng phân tích số liệu, diễn trực tuyến nên nhóm cịn gặp nhiều khó khăn 5.3 Hướng phát triển đề tài: -Tình hình khả mắc bệnh covid cịn diễn biến nhiều giới Do xã hội trở lại hoạt động sản xuất sinh hoạt bình thường, việc giữ khoảng cách khơng cịn nên bệnh dễ lây truyền Để khả mắc bệnh covid thấp người dân cần thực điều sau đây: +Khi nhớ đeo trang, sát khuẩn tay +Thường xuyên tập thể dục thể thao để tăng sức đề kháng, hệ miễn dịch +Ăn uống đầy đủ đặc biệt nhớ rửa tay nhớ ăn +Tiêm ngừa vắc - xin đầy đủ +Nếu có triệu chứng ho, sốt cao, phải đến trạm y tế -Việc người tự bảo vệ sức khỏe thân cần thiết Phịng bệnh chữa bệnh người đừng chủ quan xem thường dịch bệnh Mỗi người cần có ý thức việc phịng, chống dịch bệnh Bên cạnh đó, quan Nhà nước cần tuyên truyền để nâng cao ý thức người dân Nếu có sức khỏe học tập làm việc hiệu TÀI LIỆU THAM KHẢO (5% thời lượng) [1] Slide giảng dạy môn Khoa học liệu _UEH 50 h PHỤ LỤC (NẾU CĨ) Bảng 12: Tiêu chí đánh giá 51 h

Ngày đăng: 04/04/2023, 09:33

Tài liệu cùng người dùng

Tài liệu liên quan