Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 42 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
42
Dung lượng
2,66 MB
Nội dung
lOMoARcPSD|18034504 BỘ GIÁO DỤC & ĐÀO TẠO ĐẠI HỌC UEH TRƯỜNG KINH DOANH KHOA KẾ TOÁN TIỂU LUẬN KẾT THÚC HỌC PHẦN MÔN KHOA HỌC DỮ LIỆU ĐỀ TÀI: NGHIÊN CỨU DỰ BÁO NGUY CƠ ĐỘT QUỴ CỦA CƠ THỂ CON NGƯỜI MÃ LỚP HP: 22C1INF50905971 GIẢNG VIÊN: THÁI KIM PHỤNG HỌ VÀ TÊN THÀNH VIÊN: TRẦN MỸ KIỀU - 31211026884 LÊ PHƯƠNG THẢO - 31211022157 NGÔ THỊ MỸ UYẾN - 31211022904 HỨA NHƯ Ý – 31211024587 TP.HCM, Tháng 12 năm 2022 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 MỤC LỤC Giới thiệu 1.1 Lý lựa chọn đề tài 1.2 Mục tiêu nghiên cứu 1.3 Phương pháp thực 1.4 Đối tượng nghiên cứu 1.5 Phạm vi nghiên cứu Cơ sở lý luận 2.1 Khai phá liệu 2.1.1 Khái niệm .5 2.1.2 Quy trình khai phá liệu 2.1.3 Các phương pháp khai phá liệu .6 2.1.4 Công cụ khai phá liệu sử dụng nghiên cứu - Orange .7 2.2 Phân lớp liệu 2.2.1 Khái niệm .9 2.2.2 Quy trình phân lớp liệu 10 2.2.3 Các phương pháp phân lớp liệu sử dụng nghiên cứu 11 2.2.4 Các phương pháp đánh giá mơ hình phân lớp 14 Mơ hình nghiên cứu đề xuất 17 3.1 Mô tả liệu 17 3.1.1 Mô tả biến 19 3.1.2 Bộ liệu huấn luyện 20 3.1.3 Bộ liệu dự báo .20 3.2 Xử lý liệu 20 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Kết thực .20 4.1 Phân tích kết dựa phần mềm 20 4.1.1 Kết liệu huấn luyện 20 4.1.2 Kết liệu dự báo .24 4.2 Đánh giá kết mơ hình 26 Kết luận nhận xét 27 5.1 Kết luận: .27 5.2 Hạn chế giải pháp 28 Hạn chế: 28 Giải pháp: 29 TÀI LIỆU THAM KHẢO 30 PHỤ LỤC KẾT QUẢ DỰ BÁO DỰA VÀO CHỈ SỐ LOGISTIC REGRESSION 31 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Giới thiệu 1.1 Lý lựa chọn đề tài - Ngày giới trẻ hay chạy theo nhịp sống vội vã, cố gắng làm để nâng cao sống thân mà bỏ quên việc chăm sóc quan tâm đến sức khỏe thân Việc kiểm tra theo dõi định kỳ số thể dần bị thờ bỏ qua, đến sức khỏe bị ảnh hưởng nghiêm trọng báo hiệu khẩn cấp muộn màng Ơng bà ta có câu “phịng bệnh chữa bệnh”, quan tâm sức khỏe bảo vệ trước có triệu chứng quan trọng Làm việc hoạt động ngày thời đại công nghệ ngày phát triển khiến phải nỗ lực vô quan trọng đừng để qn thân Có sức thể tiếp tục lao động tận hưởng sống này, nên chậm lại quan tâm thân, biết yêu thương thân trước Nhận thức tầm quan trọng việc quan tâm, chăm sóc sức khỏe nên nhóm chúng em định chọn chủ đề “Dự báo nguy bệnh đột quỵ” thông qua liệu có để phân tích tầm quan trọng sức khỏe người Căn bệnh đột quỵ bệnh vô nguy hiểm nghiêm trọng xảy bất ngờ khơng thể nói trước, nhiên có nguy tiềm tàng thơng qua số, cân nặng biểu thể người mà ta nên ý phòng hờ Với công nghệ kỹ thuật KPDL nghiên cứu, ứng dụng nhiều nhiều lĩnh vực đời sống, kinh tế xã hội nước giới, mẻ Việt Nam Tuy nhiên, năm gần đây, nước ta dần chấp nhận đưa vào sử dụng Nhóm chúng em áp dụng phương pháp để dự báo nguy đột quỵ nguy hiểm cho sức khoẻ lượng lớn liệu nhằm khơng bỏ sót liệu quan trọng nhiều mẫu khảo sát 1.2 Mục tiêu nghiên cứu - Bài nghiên cứu tiến hành phân tích lý thuyết khai phá liệu nhằm tập trung làm rõ vấn đề nghiên cứu - Nghiên cứu phương pháp cụ thể, phương pháp phân lớp liệu (phương pháp phân lớp đưa dự báo, phân loại phân lớp đối tượng) Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 - Nghiên cứu phương pháp phân lớp liệu, từ chọn phương pháp tối ưu đảm bảo cho trình dự báo liệu - Dự báo nguy đột quỵ người dựa vào liệu huấn luyện, từ đưa nhận xét số BMI số số liên quan báo động thể người - Qua kết liệu huấn luyện với dự báo nguy đột quỵ thể, nhóm đưa kết luận, với hạn chế nghiên cứu, sau đưa giải pháp tốt cho nghiên cứu - Tạo tiền đề cho nghiên cứu sau 1.3 Phương pháp thực - Phương pháp nghiên cứu đề tài kết hợp phân tích định tính với phân tích định tượng (dự báo) - Chúng sử dụng phương pháp thống kê, phân tích liệu, ứng dụng mơ hình hồi quy kinh tế định lượng để dự báo khả đột quỵ qua số sức khỏe với hỗ trợ chương trình Orange Excel (2016) 1.4 Đối tượng nghiên cứu - Đối tượng nghiên cứu đề tài 2000 người tham gia khảo sát bao gồm nam nữ độ tuổi, kết hôn chưa kết hôn Urban Rural 1.5 Phạm vi nghiên cứu - Thời gian: Mẫu liệu thu thập từ năm 2020 - Không gian: Bài nghiên cứu dựa 2000 mẫu khảo sát liệu từ 2000 người bao gồm nam nữ độ tuổi, kết hôn chưa kết hôn, vùng Urban Rural Trong có 1400 lượng mẫu thuộc liệu huấn luyện 600 lượng mẫu thuộc liệu dự báo Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Cơ sở lý luận 2.1 Khai phá liệu 2.1.1 Khái niệm Khai phá liệu trình phân loại, xếp tập hợp liệu lớn để xác định mẫu thiết lập mối liên hệ nhằm giải vấn đề nhờ phân tích liệu Hay nói cách khác, q trình cơng ty sử dụng phần mềm để tìm kiếm mẫu hình (pattern) lượng liệu lớn Các MCU khai phá liệu cho phép doanh nghiệp dự đốn xu hướng tương lai Nói rõ định nghĩa: Khai phá liệu tập hợp kỹ thuật sử dụng để tự động khai thác tìm mối quan hệ lẫn liệu tập hợp liệu khổng lồ phức tạp, đồng thời tìm mẫu tiềm ẩn tập liệu 2.1.2 Quy trình khai phá liệu Quy trình khai phá liệu bao gồm bước đây: Làm liệu (data cleaning): Loại bỏ nhiễu liệu không cần thiết Tích hợp liệu (data integration): trình hợp liệu thành kho liệu (data warehouses & data marts) sau làm tiền xử lý (datacleaning & preprocessing) Trích chọn liệu (data selection): trích chọn liệu từ kho liệu sau chuyển đổi dạng thích hợp cho q trình khai thác tri thức Q trình bao gồm việc xử lý với liệu nhiễu (noisy data), liệu không đầy đủ (incomplete data),.v.v Chuyển đổi liệu: Các liệu chuyển đổi sang dạng phù hợp cho trình xử lý Khai phá liệu(data mining): Là bước quan trọng nhất, sử dụng phương pháp thông minh để chắt lọc mẫu liệu Ước lượng mẫu (knowledge evaluation): Quá trình đánh giá kết tìm thơng qua độ đo Biểu diễn tri thức (knowledge presentation): Quá trình sử dụng kỹ thuật để biểu diễn thể trực quan cho người dùng Được trình bày dạng sơ đồ hình vẽ sau: Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Nguồn: uet.vnu.edu.vn 2.1.3 Các phương pháp khai phá liệu Phân lớp (Classification): Phương pháp sử dụng để dự báo liệu thông qua liệu huấn luyện, phân loại đối tượng Tôi sử dụng phương pháp khai phá liệu để dự báo số liệu Hồi quy (Regression): Mục đích phương pháp hồi quy dùng để khám phá ánh xạ liệu Phân cụm (Clustering): Phương pháp phân cụm giúp việc mô tả liệu trở nên dễ dàng xác định tập hợp hữu hạn cụm với Tổng hợp (Summarization): Phương pháp cho phép người làm tìm kiếm mơ tả nhỏ gọn Mơ hình ràng buộc (Dependency modeling): Người làm tìm mơ hình cục mơ tả phụ thuộc dựa vào phương pháp mơ hình ràng buộc Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Dị tìm biến đổi độ lệch (Change and Deviation Detection): Mục đích phương pháp để tìm thay đổi quan trọng 2.1.4 Công cụ khai phá liệu sử dụng nghiên cứu - Orange Phần mềm Orange biết đến việc tích hợp cơng cụ khai phá liệu mã nguồn mở học máy thông minh, đơn giản, lập trình Python với giao diện trực quan tương tác dễ dàng Với nhiều chức năng, phần mềm phân tích liệu từ đơn giản đến phức tạp, tạo đồ họa đẹp mắt thú vị giúp việc khai thác liệu học máy trở nên dễ dàng cho người dùng chuyên gia Các công cụ (widgets) cung cấp chức đọc liệu, hiển thị liệu dạng bảng, lựa chọn thuộc tính đặc điểm liệu, huấn luyện liệu để dự đoán, so sánh thuật tốn máy học, trực quan hóa phần tử liệu, … Điển hình như: - Data: dùng để rút trích, biến đổi nạp liệu (ETL, process) - Visualize: dùng để biểu diễn biểu đồ (chart) giúp quan sát liệu tốt Nguồn: Orange - Model: gồm hàm máy học (machine learning) phân lớp liệu với Tree, Logistics Regression, SVM,… Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Nguồn: Orange - Evaluate: phương pháp đánh giá mơ hình như: Test & Score, Prediction, Confusion,… Nguồn: Orange - Unsupervised: gồm hàm máy học gom nhóm liệu như: Distance, K-means,… Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Nguồn: Orange - Add ons: giúp mở rộng chức nâng cao xử lý liệu lớn (big data) với Spark, xử lý ảnh với Deep Learning, xử lý văn bản, phân tích mạng xã hội,… có lẽ điểm cộng Orange so với phần mềm khai phá liệu khác Nguồn: Orange 2.2 Phân lớp liệu 2.2.1 Khái niệm Là trình phân đối tượng liệu vào hay nhiều lớp (loại) cho trước nhờ mơ hình phân lớp Mơ hình xây dựng dựa tập liệu gán nhãn trước Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Sau đó, 2000 lượng mẫu chia thành liệu khác nhau, có 1400 lượng mẫu thuộc liệu huấn luyện 600 lượng mẫu thuộc liệu dự báo Tiến hành phân tích liệu huấn luyện, ấn định thuộc tính cần sử dụng cho biến độc lập, biến phụ thuộc, ta nhận thấy rằng, Logistic Regression phương pháp phân lớp thích hợp cho nghiên cứu thông qua bảng số AUC, F1, CA, Precision, Recall Tiếp theo, sử dụng ma trận nhầm lẫn để rút kết luận cho liệu huấn luyện Đối với liệu dự báo, sau tiến hành chạy mơ hình dự báo Orange cụ thể sử dụng phương pháp Logistic Regression để dự báo cho nguy bị đột quỵ 600 người lại Kết mang tính chất học thuật tham khảo, dự báo thơng qua số liệu có sẵn, số liệu dự báo thực chưa phải xác Tuy chưa thực hoàn thiện nghiên cứu góp phần vào việc dự báo nguy bị đột quỵ, giúp người nên làm tránh làm để giảm thiểu nguy đột quỵ cho thân Bài nghiên cứu sử dụng chủ yếu mảng công nghệ thông tin sức khỏe Về công nghệ thông tin, nghiên cứu sử dụng phần mềm Orange để chạy mơ hình từ đưa mơ hình cụ thể, xác, đánh giá liệu dự báo thông qua liệu huấn luyện Ngoài ra, sức khỏe, giúp cho đọc số liệu thống kê yếu tố dẫn đến nguy cao đột quỵ mà từ đưa giải pháp chế độ phù hợp với để tránh nguy bị đột quỵ Kết luận nhận xét 5.1 Kết luận: - Về lý thuyết, nghiên cứu trình bày sở lý thuyết tổng quan kỹ thuật KPDL, tập trung chủ yếu vào phương pháp phân lớp liệu sử dụng thuật toán Neural Network - Về thực nghiệm, áp dụng tảng lý thuyết nghiên cứu vào toán ứng dụng dự báo xem thể người có nguy bị đột quỵ hay không với biến độc lập hypertension, heart_disease, avg_glucose_level, bmi, smoking_status Bài nghiên cứu đề xuất xây dựng bốn mơ hình dự đốn dựa thuật tốn định, SVM, Neural 27 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Network Logistic Regression, từ so sánh mơ hình với chọn mơ hình tối ưu Logistic Regression - Với việc triển khai ứng dụng kết việc dự báo xem thể người nguy đột quỵ Không thực hồn thiện xác nghiên cứu góp phần vào việc dự báo nguy bị đột quỵ, giúp người nên làm tránh làm để giảm thiểu nguy đột quỵ cho thân - Cụ thể, người có số Logistic Regression thuộc phân lớp "0" từ 0.5 trở lên phân loại "Khơng có nguy bị đột quỵ", thơng qua tiếp tục trì phát triển lối sống lành mạnh Còn người có số Logistic Regression thuộc phân lớp "1" từ 0.5 trở lên phân loại "Có nguy bị đột quỵ", cần ý xem xét lại trình ăn uống sinh hoạt, thăm khám định kỳ để bác sĩ, chuyên viên sức khoẻ theo dõi điều trị kịp thời Đồng thời người khác ngồi dự báo thơng qua số để rút thêm kinh nghiệm đánh giá xem xét sức khỏe thân người khác 5.2 Hạn chế giải pháp Hạn chế: - Mặc dù nghiên cứu làm theo hướng nghiên cứu khoa học có nhiều sai sót định - Thứ nhất, hạn chế mặt thời gian (hồn thành khoảng tháng) khơng gian thực Dữ liệu mẫu khảo sát lấy online trang web có nguồn trích dẫn mà khơng thực trực tiếp thu thập khảo sát - Thứ hai, mẫu khảo sát thu thập thuộc năm 2020 nên độ xác thay đổi năm sau - Thứ ba, nghiên cứu sử dụng biến số tác động chủ yếu bao gồm: hypertension, heart_disease, avg_glucose_level, bmi, smoking_statusnên cịn nhiều yếu tố khác ảnh hưởng đến kết dự đoán hiệu bị bỏ sót - Thứ tư, số BMI khơng thể tính lượng chất béo thể – Yếu tố tiềm ẩn nguy liên quan đến sức khỏe tương lai 28 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Chỉ số BMI có ý nghĩa việc xác định tình trạng cân nặng thể, song lại khơng tính lượng chất béo tồn - yếu tố hiểm họa dễ gây bệnh lý nguy hiểm Mặc dù khoa học chứng minh số BMI lượng mỡ thể có liên quan mật thiết với nhau, song khơng thể thể xác tình trạng mỡ thừa cịn phụ thuộc vào yếu tố khác độ tuổi, giới tính, tập luyện,… Ví dụ phụ nữ thường có xu hướng nhiều mỡ thừa thể đàn ơng tính chất cơng việc, tập luyện hàng ngày Người già có xu hướng tích nhiều mỡ thể người trẻ, số BMI khơng thể xác Những người tập luyện thể thao khác mức độ săn thể khác Đặc biệt vận động viên thường tập luyện cường độ cao, lượng bắp cao nên khối lượng thể tăng cao mỡ thừa lại giảm Giải pháp: - Thứ nhất, nên thu thập liệu thời điểm gần so với để thu hiệu xác cao cho nghiên cứu sau - Thứ hai, hi vọng đề tài nghiên cứu thời gian tới phát nhiều mơ hình phù hợp nhằm đến kết luận xác yếu tố thật có ảnh hưởng lớn đến kết thực hiệu khảo sát dự đoán - Thứ ba, thực tế, nhiều bạn sở hữu số khối thể mức ổn định tỏ chủ quan, họ cho cân nặng sức khỏe tốt Mà nhược điểm số BMI không đo lường lượng chất béo thể, yếu tố có ảnh hưởng trực tiếp tới sức khỏe tương lai Tốt nhất, người không quan tâm theo dõi số BMI số khác nghiên cứu đề cập, nên tìm hiểu kiểm sốt tình trạng thể thường xun thơng qua yếu tố khác 29 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 TÀI LIỆU THAM KHẢO - Tài liệu tham khảo LMS - Slides giảng LMS - “Nguy đột quỵ tăng huyết áp”_17/05/2022_Trạm y tế phường Linh Trung https://tytphuonglinhtrung.medinet.gov.vn/quan-ly-benh-man-tinh-khong-lay/nguy-codot-quy-do-tang-huyet-ap-cmobile11666-37683.aspx - “Hút thuốc thuốc điện tử - tăng gấp đôi nguy đột quỵ người trẻ”_25/05/2021_Trạm y tế Quận Gị Vấp https://trungtamytegovap.medinet.gov.vn/chuyen-muc/hut-thuoc-la-va-thuoc-la-dien-tutang-gap-doi-nguy-co-dot-quy-o-nguoi-tre-cmobile14393-45032.aspx - “Cách tính ý nghĩa số BMI đánh giá tình trạng thể”_05/07/2022_MELATEC https://medlatec.vn/tin-tuc/cach-tinh-va-y-nghia-cua-chi-so-bmi-trong-danh-gia-tinhtrang-co-the-s195-n18722 - “Mối quan hệ đái tháo đường đột quỵ”_Bệnh viện Nguyễn Tri Phương https://bvnguyentriphuong.com.vn/noi-tiet/moi-quan-he-giua-dai-thao-duong-va-dot-quy 30 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 PHỤ LỤC KẾT QUẢ DỰ BÁO DỰA VÀO CHỈ SỐ LOGISTIC REGRESSION 31 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 32 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 33 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 34 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 35 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 36 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 37 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 38 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 39 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 40 Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 Nguồn: Kết từ chương trình Orange 41 Downloaded by vu ga (vuchinhhp2@gmail.com) ... ứng dụng kết việc dự báo xem thể người nguy đột quỵ Khơng thực hồn thiện xác nghiên cứu góp phần vào việc dự báo nguy bị đột quỵ, giúp người nên làm tránh làm để giảm thiểu nguy đột quỵ cho thân... lOMoARcPSD|18034504 Hình 4.6 Kết dự báo Logistic Regression (Minh họa số dự báo nguy đột quỵ) Nguồn: Kết từ chương trình Orange Dựa vào hình 4.6 minh họa dự báo nguy đột quỵ, rút kết luận: - Những người có số... quan báo động thể người - Qua kết liệu huấn luyện với dự báo nguy đột quỵ thể, nhóm đưa kết luận, với hạn chế nghiên cứu, sau đưa giải pháp tốt cho nghiên cứu - Tạo tiền đề cho nghiên cứu sau 1.3