Khai phá dữ liệu tỉ lệ mắc và tử vong do virus covid 19 bằng thuật toán phân cụm k means

45 53 0
Khai phá dữ liệu tỉ lệ mắc và tử vong do virus covid 19 bằng thuật toán phân cụm k means

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƯNG ĐI HC ĐIÊN LC KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO MÔN HC KHAI PHÁ DỮ LIỆU ĐỀ TÀI: KHAI PHÁ DỮ LIỆU TỈ LỆ MẮC VÀ TỬ VONG DO VIRUS COVID-19 BẰNG THUẬT TOÁN PHÂN CỤM K-MEANS Sinh viên thực hiện: ĐỒN THỊ HỊA VŨ THỊ MINH THƯƠNG Giảng viên hướng dẫn Khoa Chuyên ngành Lớp Khóa TRỊNH THỊ HỒNG : VŨ VĂN ĐỊNH : CÔNG NGHỆ THÔNG TIN : HT THƯƠNG MI ĐIỆN TỬ : D13HTTMĐT1 : 2018-2023 MỤC LỤC LỜI CẢM ƠN TÓM TẮT CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI 1.1 Đặt vấn đề 1.2 Cơ sở hình thành đề tài 1.3 Mục tiêu đề tài 1.4 Đối tượng phương pháp nghiên cứu 1.5 Ý nghĩa đề tài 1.5.1 Ý nghĩa khoa học 1.5.2 Ý nghĩa thực tiễn 1.6 Bố cục đề tài CHƯƠNG 2: KHAI PHÁ DỮ LIỆU 2.1 Tổng quan kỹ thuật Khai phá liệu(Data mining) 7 2.1.1 Khái niệm khai phá liệu 2.1.2 Quy trình khai phá liệu 2.1.3 Ứng dụng khai phá liệu 11 2.2 Tổng quan hệ hỗ trợ định 11 2.3 Phân cụm liệu ứng dụng 12 2.3.1 Mục đích phân cụm liệu 12 2.3.2 Các bước để phân cụm 13 2.3.3 Các loại đặc trưng 15 2.3.4 Các ứng dụng phân cụm 16 2.3.5 Phân loại thuật toán phân cụm 2.4 Cơ sở liệu Y khoa 18 20 2.4.1 Sơ lược Đại dịch covid-19 20 2.4.2 Sự lây truyền 21 2.4.3 Dấu hiệu triệu chứng 22 CHƯƠNG 3: KỸ THUẬT PHÂN CỤM VÀ THUẬT TOÁN K-MENAS 23 3.1 Giới thiệu kỹ thuật phân cụm Khai phá liệu 23 3.2 Thuật Toán K-Means 24 3.3 Áp dụng sử dụng thuật toán K-means vào dataset Covid-19 29 CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1 Xây dựng mơ hình Weka 31 31 KẾT LUẬN 41 TÀI LIỆU THAM KHẢO 42 DANH MỤC HÌNH ẢNH Hình Knowledge Discovery in Databases 10 Hình 2 Sơ đồ hệ hỗ trợ định 12 Hình Các bước trình phân cụm 15 Hình Các kỹ thuật phân cụm……… …………………………………… 23 Hình Mơ tả thuật tốn K-Means 24 Hình 3 Tập liệu Covid-19 sau phân cụm 30 Hình Nhập liệu vào Weka .31 Hình Dữ liệu đưa vào phân đoạn – tiền xử lý 32 Hình Các thuộc tính liệu tỷ lệ nguwoif chết nhiếm virus triệu người 33 Hình 4 Đầu phân lớp 34 Hình Đầu phân cum K-means vói tất thuộc tính 35 Hình Biểu đồ tỷ lê cụm theo tồn thuộc tính tồn liệu 36 Hình Đầu phân cum K-means vói thuộc tính quốc gia tỷ lệ người chết 37 Hình Biểu đồ tỷ lê cụm theo thuộc tính quốc gia người chết tồn liệu 38 Hình Đầu phân cum K-means vói thuộc tính quốc gia tỷ lệ người mắc bệnh 39 Hình 10 Biểu đồ tỷ lê cụm theo thuộc tính quốc gia người chết toàn liệu 40 DANH MỤC BẢNG BIỂU Bảng Triệu chứng tỉ lệ mắc bệnh 22 Bảng Bảng phân tích liệu đầu với tất thuộc tính 35 Bảng Bảng phân tích liệu đầu với thuộc tính Quốc gia tỷ lệ nguời chết 37 Bảng Bảng phân tích liệu đầu với thuộc tính Quốc gia tỷ lệ nguời chết 39 LI CẢM ƠN Qua tập lớn này, chúng em xin gửi lời cảm ơn tới thầy cô khoa công nghệ thông tin, đặc biệt thầy Vũ Văn Định cho chúng em có hội tìm hiểu góc kiến thức mới, hay bổ ích với tận tâm dạy dỗ chúng em, giúp chúng em hồn thiện đề tài Trong q trình tìm hiểu hồn thiện, đề tài khơng thể tránh khỏi sai sót, khuyết điểm Vì vậy, nhóm thực chúng em hy vọng nhận đánh giá đóng góp nhiệt tình từ phía thầy bạn để nhóm chúng em hồn thiện Qua tập lớn này, chúng em xin cảm ơn bạn bè lớp D13HTTMDT1 giúp đỡ chúng em trình học tập làm tập lớn, chia sẻ kinh nghiệm kiến thức bạn tạo nên tảng kiến thức cho chúng em Cuối cùng, chúng em xin gửi lời cảm ơn gia đình đặc biệt cha mẹ tạo điều kiện tốt cho có đủ khả thực tập lớn này, trang trải học phí, đơng viên tinh thần cho em để học tập môi trường đại học tuyệt vời Chúng em xin chân thành cảm ơn! Nhóm sinh viên thực ĐỒN THỊ HỊA VŨ THỊ MINH THƯƠNG TRỊNH THỊ HỒNG TÓM TẮT Ngành y tế giáo dục vấn đề sống quốc gia giới Trong năm gần đây, phủ Việt nam đặc biệt đầu tư cho hai ngành mũi nhọn thơng qua sách , nguồn vốn dành cho trang thiết bị hạ tầng nghiên cứu khoa học Trong lĩnh vực kho học, ngày có nhiều cơng trình khoa học y tế Tuy nhiên nghiên cứu khoa học ứng dụng công nghệ thông tin để giải toán y tế khơng nhiều Do nguy hiểm tình hình lây lan diễn biến phức tạm đại dịch Covid-19 xảy toàn giới, nên chúng e làm đề tài sử dụng môn học khai phá liệu để xác định đánh gía tỷ lệ mắc bệnh tử vong người dân 200 quốc gia vũng lãnh thổ thấy nguy hiểm nhóm nước bị ảnh hưởng nhiều Nghiên cứu tiến hành theo bước chính: (1) Tìm hiểu nghiệp vụ y tế liên quan đến virus corona (2) Thu nhập tiền xử lý liệu (3) Tìm hiểu toán phân cụm khai phá liệu, lựa chọn thuật toán phù hợp với yêu cầu toán đặt liệu thu nhập (4) Hiện thực chương trình máy tính đánh giá ý nghĩa thực tiễn CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI 1.1 Đặt vấn đề Ứng dụng công nghệ thông tin vào việc lưu trữ xử lý thông tin ngày áp dụng hầu hết lĩnh vực, điều tạo lượng lớn liệu lưu trữ với kích thước tăng lên khơng ngừng Đây điều kiện tốt cho việc khai thác kho liệu để đem lại tri thức có ích với công cụ truy vấn, lập việc khai thác kho liệu để đem lại tri thức có ích với công cụ truy vấn, lập bẳng biểu khai phá liệu Khai phá liệu kỹ thuật dựa tảng nhiều lý thuyết xác xuất, thống kê, máy học nhằm tìm kiếm tri thức tiềm ẩn kho liệu có kích thước lớn mà người dùng khó nhận biết kỹ thuật thông thường Nguồn liệu y khoa lớn, áp dụng khai phá liệu lĩnh vực mang lại nhiều ý nghĩa cho ngành y tế Nó cung cấp nững thơng tin quý giá nhằm hỗ trợ việc chuẩn đoán điều trị sớm giúp bệnh nhân thoát đưuọc nhiều bệnh hiểm nghèo Trong lĩnh vực y khoa Việt Nam, tuyến y tế phường, xã, vùng sâu, vùng xa cịn thiếu nhân lực y tế có trình độ chun mơn thiếu trang thiết bị cần thiết chuẩn đốn bệnh Vì xây dựng hệ thống chuẩn đoán cần thiết cho ngành y tế Việt Nam Hệ hỗ trợ kết hợp với cán y tế giúp chuẩn đoán sớm số bệnh phát sớm bệnh nguy hiểm giảm gánh nặng kinh tế cho gia đình bệnh nhân xã hội Để minh chứng cho lợi ích mà việc chuẩn đốn mang lại, đề tài chọn liệu virus corona để thử nghiệm đánh giá Ứng dụng kỹ thuật phân cụm liệu khai phá liệu nhằm xây dựng hệ thống đánh giá hướng nghiên cứu đề tài Sau phân tích số thuật toán đặc điểm liệu thu nhập visrus covid-19 , đề tài đề xuất ứng dụng mơ hình phân cụm thuật tốn K-Means để tìm qui luật tìm ẩn liệu 1.2 Cơ sở hình thành đề tài Theo thống kê năm 2019 từ tổ chức Y tế Thế giới(WHO),ra tuyên bố gọi "COVID-19" "Đại dịch toàn cầu Khởi nguồn vào tháng 12 năm 2019 với tâm dịch ghi nhận thành phố Vũ Hán thuộc miền Trung Trung Quốc, bắt nguồn từ nhóm người mắc viêm phổi không rõ nguyên nhân Ca COVID19 tử vong ghi nhận vào ngày tháng năm 2020 Vũ Hán Theo dõi 17 bệnh nhân tử vong Trung Quốc thống kê đến ngày 22 tháng năm 2020, thời gian bắt đầu mắc COVID-19 đến tử vong nằm khoảng đến 41 ngày, với số trung vị 14 ngày Theo đài Trung ương Trung Quốc NHC, tính đến ngày tháng năm 2020, phần lớn ca tử vong (trên tổng số 490 ca) có độ tuổi cao – khoảng 80% ca người có độ tuổi lớn 60, 75% số họ có bệnh lý bệnh tim mạch đái tháo đường Ca tử vong so với SARS-CoV-2 Trung Quốc Philippines vào ngày tháng 2,và ca tử vong châu Á (tại Pháp) vào ngày 15 tháng năm 2020 Tính đến ngày 24 tháng năm 2020, lãnh thổ Trung Quốc đại lục, chục người tử vong Iran, Hàn Quốc Ý Sau thêm ca tử vong coronavirus báo cáo Bắc Mỹ, Úc, San Marino, Tây Ban Nha, Iraq, Anh Quốc CHDCND Triều Tiên Số ca tử vong tồn cầu có liên quan tới COVID-19 vượt qua số 10.000 người vào ngày 20 tháng năm 2020, 207.008 Tính đến ngày 27 tháng năm 2020 Vì xây dựng hệ thống đánh giá tỉ lệ mắc bệnh tỉ lệ chết để phát sớm nguy dịch bệnh vấn đề quan tâm gia đình xã hội Đề tài áp dụng Môn khai phá liệu xây dựng đánh giá tỷ lệ với liệu thu thập từ nước nước 1.3 Mục tiêu đề tài Đề tài tập chung vào nghiên cứu kỹ thuật phân cụm khai phá dữu liệu, từ nắm bắt giải thuật làm tiền đề cho nghiên cứu xây dựng ứng dụng cụ thể Sau phân tích đặc điểm dữu liệu thu nhập đưuọc lựa chọn giải thuật phù hợp với liệu, việc xây dựng đánh giá chất lượng, độ hiệu hệ thống mục tiêu đề tài 1.4 Đối tượng phương pháp nghiên cứu Đề tài tập chung vào nghiên cứu kỹ thuật phân cụm khai phá liệu cụ thể nghiên cứu thuật toán k-means để áp dụng vào việc phân tích sở liệu tỷ lệ mắc chết covid-19 thu nhập liệu mắc bệnh va chết vi covid19 từ tình nguyện viện 200 quốc gia vùng lãng thổ khác Sử dụng phương pháp nghiên cứu hồi cứu với hỗ trợ chuyên môn bác sĩ chuyên khoa, đề tài tiến hành nghiên cứu sở thuật toán phân cụm khai phá liệu 1.5 Ý nghĩa đề tài 1.5.1 Ý nghĩa khoa học Với trợ giúp máy tính, đề tài đóng góp biện pháp thực hỗ trợ cán y tế đánh giá bệnh cho bệnh nhân Kết quả, Kinh nghiệm thu đưuọc thực đề tài giúp cán y tế phát sớm bệnh cho bệnh nhân, đồng thời mong muốn người công tác lĩnh vực y khoa Khoa học máy tính ngồi lại với để tìm giải pháp tốt vấn đề điều trị bệnh cách kết hợp lịnh vực y học khoa học máy tính 1.5.2 Ý nghĩa thực tiễn Đánh giá tỷ lệ nhiễm , chết virus phát bệnh q trình, địi hỏi cán y tế khơng phải thật vững chun mơn mà cịn có đầy đủ trang thiết bị y tế chuẩn đốn xác bệnh cho bệnh nhân Nếu Mỗi cột ma trận khoảng cách (D) đối tượng (cột thứ tương ứng với đối tượng A, cột thứ tương ứng với đối tượng B,…) Hàng thứ ma trận khoảng cách biểu diễn khoảng cách đối tượng đến tâm nhóm thứ (c1) hàng thứ ma trận khoảng cách biểu diễn khoảng cách đối tượng đến tâm nhóm thứ (c2) Ví dụ, khoảng cách từ loại thuốc C=(4,3) đến tâm c1(1,1) 3.61 đến tâm c2(2,1) 2.83 tính sau: Bước Nhóm đối tượng vào nhóm gần Ta thấy nhóm sau vịng lặp thứ gồm có đối tượng A nhóm gồm đối tượng lại B,C,D Bước Tính lại tọa độ tâm cho nhóm dựa vào tọa độ đối tượng nhóm Nhóm có đối tượng A nên tâm nhóm khơng đổi, c1(1,1) Tâm nhóm tính sau: 26 Bước Tính lại khoảng cách từ đối tượng đến tâm Bước Nhóm đối tượng vào nhóm Bước Tính lại tâm cho nhóm 27 Bước Tính lại khoảng cách từ đối tượng đến tâm Bước 10 Nhóm đối tượng vào nhóm 28 Ta thấy G2 = G1 (Khơng có thay đổi nhóm đối tượng) nên thuật toán dừng kết phân nhóm sau: Thuật tốn K-Means có ưu điểm đơn giản, dễ hiểu cài đặt Tuy nhiên, số hạn chế K-Means hiệu thuật tốn phụ thuộc vào việc chọn số nhóm K (phải xác định trước) chi phí cho thực vịng lặp tính tốn khoảng cách lớn số cụm K liệu phân cụm lớn 3.3 Áp dụng sử dụng thuật toán K-means vào dataset Covid-19 Tập liệu covid-19 bao gồm liệu 200 quốc gia gồm nước có người chết virus covid-19 nước chưa có nguời chết covid-19 Tập liệu bao gồm thuộc tính sau: Quốc Gia Tỉ lệ người nhiễm triệu người Tỷ lệ nguời chết triệu người Tổng số người kiểm tra tất nước Tỷ lệ kiểm tra triệu người Đây toán phân cụm sử dụng phương pháp phân cụm khác k-Medians, Expectation Maximization (EM) để phân loại cho kết tốt Chúng ta hình dung tập liệu thông qua biểu diễn dạng file CSV sau, cột từ đến tương ứng với số 29 XXXXXXX Hình 3 Tập liệu Covid-19 sau phân cụm 30 CHƯƠNG 4: THC NGHIỆM VÀ ĐÁNH GIÁ 4.1 Xây dựng mơ hình Weka Hình Nhập liệu vào Weka Hình Dữ liệu đưa vào phân đoạn – tiền xử lý 31 Hình Các thuộc tính liệu tỷ lệ người chết nhiễm virus triệu người 32 Hình 4 Đầu phân lớp • Đầu phân lớp: Các thuộc tính: Quốc Gia Tỉ lệ người nhiễm triệu người Tỷ lệ người chết triệu người Tổng số người kiểm tra tất nước Tỷ lệ kiểm tra triệu người 33 Hình Đầu phân cụm K-means với tất thuộc tính Bảng phân tích liệu: Tâm Quốc Spain USA Germany Brazil 6% 1% 80% 13% Gia Tỷ lệ che phủ toàn liệu Bàng Bảng phân tích liệu đầu với tất cac thuộc tính 34 Hình Biểu đồ tỷ lệ cụm theo toàn thuộc tính tồn liệu Hình Đầu phân cụm K-means với thuộc tính quốc gia tỷ lệ người chết Bảng phân tích liệu 35 Cluster Tâm Quốc International Cambodia Vatican China 8% 7% 27% 59% Gia Tỷ lệ che phủ toàn liệu Bàng Bảng phân tích liệu đầu với thuộc tính Quốc gia tỷ lệ nguời chết Hình Biểu đồ tỷ lệ cụm theo thuộc tính quốc gia người chết toàn liệu 36 Hình Đầu phân cụm K-means với thuộc tính quốc gia tỷ lệ người mắc bệnh Bảng phân tích liệu: Cluster Tâm Quốc Bahamas International Bolivia China 17% 5% 8% 70% Gia Tỷ lệ che phủ toàn liệu Bàng Bảng phân tích liệu đầu với thuộc tính Quốc gia tỷ lệ nguời chết 37 Hình 10 Biểu đồ tỷ lệ cụm theo thuộc tính quốc gia người chết tồn liệu 38 KẾT LUẬN Sau thời gian thực hiện, chúng em thực số kết sau: • Tìm hiểu khai phá liệu • Vai trị khai phá liệu • Tìm hiểu thuật tốn K-Means • Tìm hiểu K-means giải toán phân cụm người mắc bệnh chết quốc gia Chúng em tìm hiểu lý thuyết xác suất đến thuật toán K-means Tuy độ xác cịn chưa cao chất phương pháp tập liệu chưa đủ lớn mong thầy giúp đỡ để tốn chúng em hoàn thiện 39 TÀI LIỆU THAM KHẢO [1] Các tài liệu tham khảo thầy Vũ Văn Định [2] https://tecktalk.vn [3] https://machinelearningcoban.com [4] https://tailieu.vn [5] https://bigdatauni.com 40 ... CHƯƠNG 3: K? ?? THUẬT PHÂN CỤM VÀ THUẬT TOÁN K- MENAS 23 3.1 Giới thiệu k? ?? thuật phân cụm Khai phá liệu 23 3.2 Thuật Toán K- Means 24 3.3 Áp dụng sử dụng thuật toán K- means vào dataset Covid- 19 29 CHƯƠNG... Các k? ?? thuật phân cụm phân loại sau (xem hình) Hình Các k? ?? thuật phân cụm 23 3.2 Thuật Toán K- Means K- Means thuật toán quan trọng sử dụng phổ biến k? ?? thuật phân cụm Tư tưởng thuật tốn K- Means. .. 44–70% Khó thở 31–40% Ho có đờm 28–33% Đau nhức 11–35% Bảng Triệu chứng tỉ lệ mắc bệnh 22 CHƯƠNG 3: K? ?? THUẬT PHÂN CỤM VÀ THUẬT TOÁN K- MENAS 3.1 Giới thiệu k? ?? thuật phân cụm Khai phá liệu Phân cụm k? ??

Ngày đăng: 12/04/2022, 18:46

Tài liệu cùng người dùng

Tài liệu liên quan