KHAI PHÁ DỮ LIỆU TỈ LỆ MẮC VÀ TỬ VONG DO VIRUS COVID19 BẰNG THUẬT TOÁN PHÂN CỤM KMEANS

48 9 0
KHAI PHÁ DỮ LIỆU TỈ LỆ MẮC VÀ TỬ VONG DO VIRUS COVID19 BẰNG THUẬT TOÁN PHÂN CỤM KMEANS

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Qua bài tập lớn này, chúng em xin gửi lời cảm ơn tới thầy cô khoa công nghệ thông tin, đặc biệt là thầy Vũ Văn Định đã cho chúng em có cơ hội được tìm hiểu một góc kiến thức mới, hay và bổ ích cùng với đó là sự tận tâm dạy dỗ chúng em, giúp chúng em có thể hoàn thiện đề tài này. Trong quá trình tìm hiểu và hoàn thiện, đề tài sẽ không thể tránh khỏi những sai sót, khuyết điểm. Vì vậy, nhóm thực hiện chúng em hy vọng nhận được sự đánh giá và đóng góp nhiệt tình từ phía thầy và các bạn để bài của nhóm chúng em được hoàn thiện hơn. Qua bài tập lớn này, chúng em xin cảm ơn các bạn bè lớp D13HTTMDT1 đã giúp đỡ chúng em trong quá trình học tập và làm bài tập lớn, đã chia sẻ kinh nghiệm kiến thức của các bạn đã tạo nên nền tảng kiến thức cho chúng em. Cuối cùng, chúng em xin gửi lời cảm ơn gia đình đặc biệt là cha mẹ đã tạo điều kiện tốt nhất cho con có đủ khả năng thực hiện bài tập lớn này, trang trải học phí, đông viên tinh thần cho em để học tập trong môi trường đại học tuyệt vời này. Chúng em xin chân thành cảm ơn

lOMoARcPSD|18351890 Downloaded by MAI ??I CÁT (maingoc0911.minhhungland@gmail.com) lOMoARcPSD|18351890 TRƯỜNG ĐẠI HỌC ĐIỆN LỰC KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO MÔN HỌC KHAI PHÁ DỮ LIỆU ĐỀ TÀI: KHAI PHÁ DỮ LIỆU TỈ LỆ MẮC VÀ TỬ VONG DO VIRUS COVID-19 BẰNG THUẬT TOÁN PHÂN CỤM K-MEANS Sinh viên thực hiện: ĐỒN THỊ HỊA VŨ THỊ MINH THƯƠNG Giảng viên hướng dẫn Khoa Chuyên ngành Lớp Khóa TRỊNH THỊ HỒNG : VŨ VĂN ĐỊNH : CÔNG NGHỆ THÔNG TIN : HT THƯƠNG MẠI ĐIỆN TỬ : D13HTTMĐT1 : 2018-2023 Downloaded by MAI ??I CÁT (maingoc0911.minhhungland@gmail.com) lOMoARcPSD|18351890 Hà Nội, tháng 02 năm 2021 PHIẾU CHẤM ĐIỂM Sinh viên thực : Họ tên Chữ ký Điểm Chữ ký Ghi Đồn Thị Hịa Vũ Thị Minh Thương Trịnh Thị Hồng Giảng viên chấm : Họ tên Giảng viên 1: Downloaded by MAI ??I CÁT (maingoc0911.minhhungland@gmail.com) lOMoARcPSD|18351890 Giảng viên 2: Downloaded by MAI ??I CÁT (maingoc0911.minhhungland@gmail.com) lOMoARcPSD|18351890 MỤC LỤC LỜI CẢM ƠN TÓM TẮT CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI 1.1 Đặt vấn đề 1.2 Cơ sở hình thành đề tài 1.3 Mục tiêu đề tài 1.4 Đối tượng phương pháp nghiên cứu 1.5 Ý nghĩa đề tài 1.5.1 Ý nghĩa khoa học 1.5.2 Ý nghĩa thực tiễn 1.6 Bố cục đề tài CHƯƠNG 2: KHAI PHÁ DỮ LIỆU 2.1 Tổng quan kỹ thuật Khai phá liệu(Data mining) 7 2.1.1 Khái niệm khai phá liệu 2.1.2 Quy trình khai phá liệu 2.1.3 Ứng dụng khai phá liệu 11 2.2 Tổng quan hệ hỗ trợ định 11 2.3 Phân cụm liệu ứng dụng 12 2.3.1 Mục đích phân cụm liệu 12 2.3.2 Các bước để phân cụm 13 2.3.3 Các loại đặc trưng 15 2.3.4 Các ứng dụng phân cụm 16 Downloaded by MAI ??I CÁT (maingoc0911.minhhungland@gmail.com) lOMoARcPSD|18351890 2.3.5 Phân loại thuật toán phân cụm 2.4 Cơ sở liệu Y khoa 18 20 2.4.1 Sơ lược Đại dịch covid-19 20 2.4.2 Sự lây truyền 21 2.4.3 Dấu hiệu triệu chứng 22 CHƯƠNG 3: KỸ THUẬT PHÂN CỤM VÀ THUẬT TOÁN K-MENAS 23 3.1 Giới thiệu kỹ thuật phân cụm Khai phá liệu 23 3.2 Thuật Toán K-Means 24 3.3 Áp dụng sử dụng thuật toán K-means vào dataset Covid-19 29 CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1 Xây dựng mơ hình Weka 31 31 KẾT LUẬN 41 TÀI LIỆU THAM KHẢO 42 Downloaded by MAI ??I CÁT (maingoc0911.minhhungland@gmail.com) lOMoARcPSD|18351890 DANH MỤC HÌNH ẢNH Hình Knowledge Discovery in Databases 10 Hình 2 Sơ đồ hệ hỗ trợ định 12 Hình Các bước trình phân cụm 15 Hình Các kỹ thuật phân cụm……… …………………………………… 23 Hình Mơ tả thuật tốn K-Means 24 Hình 3 Tập liệu Covid-19 sau phân cụm 30 Hình Nhập liệu vào Weka .31 Hình Dữ liệu đưa vào phân đoạn – tiền xử lý 32 Hình Các thuộc tính liệu tỷ lệ nguwoif chết nhiếm virus triệu người 33 Hình 4 Đầu phân lớp 34 Hình Đầu phân cum K-means vói tất thuộc tính 35 Hình Biểu đồ tỷ lê cụm theo tồn thuộc tính tồn liệu 36 Hình Đầu phân cum K-means vói thuộc tính quốc gia tỷ lệ người chết 37 Hình Biểu đồ tỷ lê cụm theo thuộc tính quốc gia người chết tồn liệu 38 Hình Đầu phân cum K-means vói thuộc tính quốc gia tỷ lệ người mắc bệnh 39 Hình 10 Biểu đồ tỷ lê cụm theo thuộc tính quốc gia người chết toàn liệu 40 Downloaded by MAI ??I CÁT (maingoc0911.minhhungland@gmail.com) lOMoARcPSD|18351890 DANH MỤC BẢNG BIỂU Bảng Triệu chứng tỉ lệ mắc bệnh 22 Bảng Bảng phân tích liệu đầu với tất thuộc tính 35 Bảng Bảng phân tích liệu đầu với thuộc tính Quốc gia tỷ lệ nguời chết 37 Bảng Bảng phân tích liệu đầu với thuộc tính Quốc gia tỷ lệ nguời chết 39 Downloaded by MAI ??I CÁT (maingoc0911.minhhungland@gmail.com) lOMoARcPSD|18351890 LỜI CẢM ƠN Qua tập lớn này, chúng em xin gửi lời cảm ơn tới thầy cô khoa công nghệ thông tin, đặc biệt thầy Vũ Văn Định cho chúng em có hội tìm hiểu góc kiến thức mới, hay bổ ích với tận tâm dạy dỗ chúng em, giúp chúng em hồn thiện đề tài Trong q trình tìm hiểu hồn thiện, đề tài khơng thể tránh khỏi sai sót, khuyết điểm Vì vậy, nhóm thực chúng em hy vọng nhận đánh giá đóng góp nhiệt tình từ phía thầy bạn để nhóm chúng em hoàn thiện Qua tập lớn này, chúng em xin cảm ơn bạn bè lớp D13HTTMDT1 giúp đỡ chúng em trình học tập làm tập lớn, chia sẻ kinh nghiệm kiến thức bạn tạo nên tảng kiến thức cho chúng em Cuối cùng, chúng em xin gửi lời cảm ơn gia đình đặc biệt cha mẹ tạo điều kiện tốt cho có đủ khả thực tập lớn này, trang trải học phí, đơng viên tinh thần cho em để học tập môi trường đại học tuyệt vời Chúng em xin chân thành cảm ơn! Nhóm sinh viên thực ĐỒN THỊ HỊA VŨ THỊ MINH THƯƠNG TRỊNH THỊ HỒNG Downloaded by MAI ??I CÁT (maingoc0911.minhhungland@gmail.com) lOMoARcPSD|18351890 TÓM TẮT Ngành y tế giáo dục vấn đề sống quốc gia giới Trong năm gần đây, phủ Việt nam đặc biệt đầu tư cho hai ngành mũi nhọn thơng qua sách , nguồn vốn dành cho trang thiết bị hạ tầng nghiên cứu khoa học Trong lĩnh vực kho học, ngày có nhiều cơng trình khoa học y tế Tuy nhiên nghiên cứu khoa học ứng dụng công nghệ thơng tin để giải tốn y tế khơng nhiều Do nguy hiểm tình hình lây lan diễn biến phức tạm đại dịch Covid-19 xảy toàn giới, nên chúng e làm đề tài sử dụng môn học khai phá liệu để xác định đánh gía tỷ lệ mắc bệnh tử vong người dân 200 quốc gia vũng lãnh thổ thấy nguy hiểm nhóm nước bị ảnh hưởng nhiều Nghiên cứu tiến hành theo bước chính: (1) Tìm hiểu nghiệp vụ y tế liên quan đến virus corona (2) Thu nhập tiền xử lý liệu (3) Tìm hiểu toán phân cụm khai phá liệu, lựa chọn thuật toán phù hợp với yêu cầu toán đặt liệu thu nhập (4) Hiện thực chương trình máy tính đánh giá ý nghĩa thực tiễn Downloaded by MAI ??I CÁT (maingoc0911.minhhungland@gmail.com) lOMoARcPSD|18351890 Mỗi cột ma trận khoảng cách (D) đối tượng (cột thứ tương ứng với đối tượng A, cột thứ tương ứng với đối tượng B,…) Hàng thứ ma trận khoảng cách biểu diễn khoảng cách đối tượng đến tâm nhóm thứ (c1) hàng thứ ma trận khoảng cách biểu diễn khoảng cách đối tượng đến tâm nhóm thứ (c2) Ví dụ, khoảng cách từ loại thuốc C=(4,3) đến tâm c1(1,1) 3.61 đến tâm c2(2,1) 2.83 tính sau: Bước Nhóm đối tượng vào nhóm gần Ta thấy nhóm sau vịng lặp thứ gồm có đối tượng A nhóm gồm đối tượng cịn lại B,C,D Bước Tính lại tọa độ tâm cho nhóm dựa vào tọa độ đối tượng nhóm Nhóm có đối tượng A nên tâm nhóm khơng đổi, c1(1,1) Tâm nhóm tính sau: 26 Downloaded by MAI ??I CÁT (maingoc0911.minhhungland@gmail.com) lOMoARcPSD|18351890 Bước Tính lại khoảng cách từ đối tượng đến tâm Bước Nhóm đối tượng vào nhóm Bước Tính lại tâm cho nhóm 27 Downloaded by MAI ??I CÁT (maingoc0911.minhhungland@gmail.com) lOMoARcPSD|18351890 Bước Tính lại khoảng cách từ đối tượng đến tâm Bước 10 Nhóm đối tượng vào nhóm 28 Downloaded by MAI ??I CÁT (maingoc0911.minhhungland@gmail.com) lOMoARcPSD|18351890 Ta thấy G2 = G1 (Khơng có thay đổi nhóm đối tượng) nên thuật toán dừng kết phân nhóm sau: Thuật tốn K-Means có ưu điểm đơn giản, dễ hiểu cài đặt Tuy nhiên, số hạn chế K-Means hiệu thuật tốn phụ thuộc vào việc chọn số nhóm K (phải xác định trước) chi phí cho thực vịng lặp tính tốn khoảng cách lớn số cụm K liệu phân cụm lớn 3.3 Áp dụng sử dụng thuật toán K-means vào dataset Covid-19 Tập liệu covid-19 bao gồm liệu 200 quốc gia gồm nước có người chết virus covid-19 nước chưa có nguời chết covid-19 Tập liệu bao gồm thuộc tính sau: Quốc Gia Tỉ lệ người nhiễm triệu người Tỷ lệ nguời chết triệu người Tổng số người kiểm tra tất nước Tỷ lệ kiểm tra triệu người Đây toán phân cụm sử dụng phương pháp phân cụm khác k-Medians, Expectation Maximization (EM) để phân loại cho kết tốt Chúng ta hình dung tập liệu thông qua biểu diễn dạng file CSV sau, cột từ đến tương ứng với số 29 Downloaded by MAI ??I CÁT (maingoc0911.minhhungland@gmail.com) lOMoARcPSD|18351890 XXXXXXX Hình 3 Tập liệu Covid-19 sau phân cụm 30 Downloaded by MAI ??I CÁT (maingoc0911.minhhungland@gmail.com) lOMoARcPSD|18351890 CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1 Xây dựng mơ hình Weka Hình Nhập liệu vào Weka Hình Dữ liệu đưa vào phân đoạn – tiền xử lý 31 Downloaded by MAI ??I CÁT (maingoc0911.minhhungland@gmail.com) lOMoARcPSD|18351890 Hình Các thuộc tính liệu tỷ lệ người chết nhiễm virus triệu người 32 Downloaded by MAI ??I CÁT (maingoc0911.minhhungland@gmail.com) lOMoARcPSD|18351890 Hình 4 Đầu phân lớp • Đầu phân lớp: Các thuộc tính: Quốc Gia Tỉ lệ người nhiễm triệu người Tỷ lệ người chết triệu người Tổng số người kiểm tra tất nước Tỷ lệ kiểm tra triệu người 33 Downloaded by MAI ??I CÁT (maingoc0911.minhhungland@gmail.com) lOMoARcPSD|18351890 Hình Đầu phân cụm K-means với tất thuộc tính Bảng phân tích liệu: Tâm Quốc Spain USA Germany Brazil 1% 80% 13% Gia Tỷ lệ che phủ 6% toàn liệu Bàng Bảng phân tích liệu đầu với tất cac thuộc tính 34 Downloaded by MAI ??I CÁT (maingoc0911.minhhungland@gmail.com) lOMoARcPSD|18351890 Hình Biểu đồ tỷ lệ cụm theo tồn thuộc tính tồn liệu Hình Đầu phân cụm K-means với thuộc tính quốc gia tỷ lệ người chết Bảng phân tích liệu 35 Downloaded by MAI ??I CÁT (maingoc0911.minhhungland@gmail.com) lOMoARcPSD|18351890 Cluster Tâm Quốc International Cambodia Vatican China 7% 27% 59% Gia Tỷ lệ che phủ % toàn liệu Bàng Bảng phân tích liệu đầu với thuộc tính Quốc gia tỷ lệ nguời chết Hình Biểu đồ tỷ lệ cụm theo thuộc tính quốc gia người chết toàn liệu 36 Downloaded by MAI ??I CÁT (maingoc0911.minhhungland@gmail.com) lOMoARcPSD|18351890 Hình Đầu phân cụm K-means với thuộc tính quốc gia tỷ lệ người mắc bệnh Bảng phân tích liệu: Cluster Tâm Quốc Bahamas International Bolivia China 17% 5% 8% 70% Gia Tỷ lệ che phủ toàn liệu Bàng Bảng phân tích liệu đầu với thuộc tính Quốc gia tỷ lệ nguời chết 37 Downloaded by MAI ??I CÁT (maingoc0911.minhhungland@gmail.com) lOMoARcPSD|18351890 Hình 10 Biểu đồ tỷ lệ cụm theo thuộc tính quốc gia người chết toàn liệu 38 Downloaded by MAI ??I CÁT (maingoc0911.minhhungland@gmail.com) lOMoARcPSD|18351890 KẾT LUẬN Sau thời gian thực hiện, chúng em thực số kết sau: • Tìm hiểu khai phá liệu • Vai trị khai phá liệu • Tìm hiểu thuật tốn K-Means • Tìm hiểu K-means giải toán phân cụm người mắc bệnh chết quốc gia Chúng em tìm hiểu lý thuyết xác suất đến thuật tốn K-means Tuy độ xác cịn chưa cao chất phương pháp tập liệu chưa đủ lớn mong thầy giúp đỡ để tốn chúng em hoàn thiện 39 Downloaded by MAI ??I CÁT (maingoc0911.minhhungland@gmail.com) lOMoARcPSD|18351890 TÀI LIỆU THAM KHẢO [1] Các tài liệu tham khảo thầy Vũ Văn Định [2] https://tecktalk.vn [3] https://machinelearningcoban.com [4] https://tailieu.vn [5] https://bigdatauni.com 40 Downloaded by MAI ??I CÁT (maingoc0911.minhhungland@gmail.com) ... LỰC KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO MÔN HỌC KHAI PHÁ DỮ LIỆU ĐỀ TÀI: KHAI PHÁ DỮ LIỆU TỈ LỆ MẮC VÀ TỬ VONG DO VIRUS COVID-19 BẰNG THUẬT TOÁN PHÂN CỤM K-MEANS Sinh viên thực hiện: ĐỒN THỊ HỊA... lOMoARcPSD|18351890 CHƯƠNG 3: KỸ THUẬT PHÂN CỤM VÀ THUẬT TOÁN K-MENAS 3.1 Giới thiệu kỹ thuật phân cụm Khai phá liệu Phân cụm kỹ thuật quan trọng khai phá liệu, thuộc lớp phương pháp Unsupervised Learning... cách phân cụm X Kết phân cụm phụ thuộc vào thuật toán tiêu chuẩn phân cụm Như vậy, thuật toán phân cụm chức học cố gắng tìm đặc trưng riêng biệt cụm ẩn dấu tập liệu Có nhiều cách để phân loại thuật

Ngày đăng: 16/01/2023, 10:32

Tài liệu cùng người dùng

Tài liệu liên quan