1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khai phá dữ liệu tỉ lệ mắc v tử vong do virus covid 19 bằng thuật toán phân cụm k means

35 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Khai Phá Dữ Liệu Tỉ Lệ Mắc Và Tử Vong Do Virus Covid-19 Bằng Thuật Toán Phân Cụm K-Means
Tác giả Nguyễn Đức Thành, Lê Hoàng Lan
Người hướng dẫn Vũ Văn Định
Trường học Trường Đại Học Điện Lực
Chuyên ngành Công Nghệ Thông Tin
Thể loại Báo cáo
Năm xuất bản 2024
Thành phố Hà Nội
Định dạng
Số trang 35
Dung lượng 4,57 MB

Cấu trúc

  • CHƯƠNG 1: TỔNG QUAN Đ TI (9)
    • 1.1 Đặt vấn đề (9)
    • 1.2 Cơ sở hình thành đề tài (10)
    • 1.3 Mục tiêu đề tài (10)
    • 1.4 Đối tượng và phương pháp nghiên cứu (11)
    • 1.5 Ý nghĩa đề tài (11)
      • 1.5.1 Ý nghĩa khoa học (11)
      • 1.5.2 Ý nghĩa thực tiễn (11)
  • CHƯƠNG 2: KHAI PHÁ DỮ LIỆU (12)
    • 2.1 Tổng quan về kĩ thuật khai phá dữ liệu (12)
      • 2.1.1 Khái niệm về khai phá dữ liệu (12)
      • 2.1.2 Quy trình khai phá dữ liệu (12)
      • 2.1.3 Ứng dụng của khai phá dữ liệu (15)
    • 2.2 Tổng quan về hệ hỗ trợ ra quyết định (15)
    • 2.3 Phân cụm dữ liệu và ứng dụng (16)
      • 2.3.1 Mục đích của phân cụm dữ liệu (16)
      • 2.3.2 Các bước cơ bản để phân cụm (17)
      • 2.3.3 Các loại đặc trưng (18)
      • 2.3.4 Các ứng dụng của phân cụm (19)
      • 2.3.5 Phân loại các thuật toán phân cụm (20)
    • 2.4 Cơ sở dữ liệu Y khoa (21)
      • 2.4.1 Sơ lược về đại dịch Covid-19 (21)
      • 2.4.2 Sự lây truyền (22)
      • 2.4.3 Dấu hiệu và triệu chứng (22)
  • CHƯƠNG 3: KĨ THUẬT PHÂN CỤM V THUẬT TOÁN K-MEANS (24)
    • 3.1 Giới thiệu về kĩ thuật phân cụm trong khai phá dữ liệu (24)
    • 3.2 Thuật toán K-Means (24)
    • 3.3 Áp dụng và sử dụng thuật toán K-Means vào bộ dataset Covid-19 (25)
  • CHƯƠNG 4: THỰC NGHIỆM V ĐÁNH GIÁ (27)
  • KẾT LUẬN (34)

Nội dung

Khai phá dữliệu là một kỹ thuật dựa trên nền tảng của nhiều lý thuyết nhưxác xuất, thống kê, máy học nhằm tìm kiếm các tri thức tiềm ẩntrong các kho dữ liệu có kích thước lớn mà người dù

TỔNG QUAN Đ TI

Đặt vấn đề

Việc ứng dụng công nghệ thông tin trong lưu trữ và xử lý dữ liệu hiện nay đã tạo ra một khối lượng dữ liệu khổng lồ, mở ra cơ hội khai thác kho dữ liệu để thu thập tri thức hữu ích thông qua các công cụ truy vấn và phân tích Khai phá dữ liệu, dựa trên lý thuyết xác suất, thống kê và máy học, giúp phát hiện tri thức tiềm ẩn trong các kho dữ liệu lớn mà các phương pháp truyền thống khó nhận diện Trong lĩnh vực y tế, việc áp dụng khai phá dữ liệu có thể mang lại nhiều lợi ích, đặc biệt trong việc chẩn đoán và điều trị sớm, giúp bệnh nhân tránh được nhiều căn bệnh nguy hiểm Tại Việt Nam, hệ thống y tế ở các vùng sâu, vùng xa đang thiếu nhân lực và trang thiết bị, do đó, xây dựng hệ thống chẩn đoán là cần thiết Hệ thống hỗ trợ sẽ giúp cán bộ y tế phát hiện sớm các bệnh nguy hiểm, giảm gánh nặng kinh tế cho gia đình và xã hội Để chứng minh lợi ích của việc chẩn đoán, đề tài chọn bộ dữ liệu về virus corona để thử nghiệm Ứng dụng kỹ thuật phân cụm trong khai phá dữ liệu nhằm xây dựng hệ thống đánh giá là một trong những hướng nghiên cứu chính Sau khi phân tích các thuật toán và đặc điểm dữ liệu về virus COVID-19, đề tài đề xuất sử dụng mô hình phân cụm và thuật toán K-Means để tìm ra quy luật ẩn trong dữ liệu.

Cơ sở hình thành đề tài

Vào năm 2019, Tổ chức Y tế Thế giới (WHO) đã công nhận COVID-19 là "Đại dịch toàn cầu," bắt nguồn từ thành phố Vũ Hán, Trung Quốc, vào tháng 12 năm 2019, khi một nhóm người mắc viêm phổi không rõ nguyên nhân Ca tử vong đầu tiên do COVID-19 được ghi nhận vào ngày 9 tháng 1 năm 2020, và theo thống kê, thời gian từ khi mắc bệnh đến khi tử vong của 17 bệnh nhân đầu tiên ở Trung Quốc dao động từ 6 ngày.

Theo báo cáo của đài Trung ương Trung Quốc (NHC) vào ngày 2 tháng 2 năm 2020, thời gian ủ bệnh của virus SARS-CoV-2 là 41 ngày, với số trung vị là 14 ngày Phần lớn các ca tử vong, chiếm khoảng 80% trong tổng số 490 ca, là người trên 60 tuổi, và 75% trong số đó có bệnh lý nền như bệnh tim mạch và đái tháo đường Ca tử vong đầu tiên do SARS-CoV-2 bên ngoài Trung Quốc xảy ra tại Philippines vào ngày 1 tháng 2, tiếp theo là ca tử vong đầu tiên ngoài châu Á tại Pháp vào ngày 15 tháng 2 năm 2020.

Năm 2020, ngoài lãnh thổ Trung Quốc đại lục, nhiều ca tử vong do coronavirus đã được ghi nhận tại Iran, Hàn Quốc và Ý Tiếp theo, các trường hợp tử vong cũng xuất hiện ở Bắc Mỹ, Úc, San Marino, Tây Ban Nha, Iraq, Anh Quốc và có khả năng cả CHDCND Triều Tiên.

Số ca tử vong trên toàn cầu do hoặc có liên quan tới COVID-19 đã vượt qua con số 10.000 người vào ngày 20 tháng 3 năm

Tính đến ngày 27 tháng 4 năm 2020, số ca mắc bệnh đã vượt quá 207.008, khiến việc xây dựng hệ thống đánh giá tỷ lệ mắc bệnh và tỷ lệ tử vong trở thành vấn đề cấp bách cho cả gia đình và xã hội Đề tài này áp dụng công nghệ Khai phá dữ liệu nhằm đánh giá các tỷ lệ dựa trên bộ dữ liệu thu thập từ trong nước và quốc tế.

Mục tiêu đề tài

Đề tài nghiên cứu kỹ thuật phân cụm trong khai phá dữ liệu nhằm phát triển các giải thuật cơ bản cho ứng dụng thực tế Qua việc phân tích đặc điểm dữ liệu thu thập được và chọn lựa giải thuật phù hợp, mục tiêu chính là xây dựng và đánh giá chất lượng cũng như hiệu quả của hệ thống.

Đối tượng và phương pháp nghiên cứu

Đề tài nghiên cứu kỹ thuật phân cụm trong khai phá dữ liệu, đặc biệt là thuật toán k-means, nhằm phân tích cơ sở dữ liệu tỷ lệ mắc và chết do covid-19 Dữ liệu được thu thập từ các tình nguyện viên ở hơn 200 quốc gia và vùng lãnh thổ khác nhau Nghiên cứu sử dụng phương pháp hồi cứu với sự hỗ trợ chuyên môn từ các bác sĩ chuyên khoa, tiến hành phân tích dựa trên thuật toán phân cụm để rút ra những thông tin quan trọng về tình hình dịch bệnh.

Ý nghĩa đề tài

Với sự hỗ trợ của công nghệ máy tính, đề tài này đề xuất một phương pháp giúp cán bộ y tế đánh giá bệnh nhân hiệu quả hơn Kinh nghiệm thu được từ việc thực hiện đề tài sẽ góp phần vào việc phát hiện sớm bệnh tật, đồng thời khuyến khích sự hợp tác giữa các chuyên gia trong lĩnh vực y khoa và khoa học máy tính nhằm tìm ra những giải pháp điều trị bệnh tối ưu hơn thông qua sự kết hợp giữa hai lĩnh vực này.

1.5.2 Ý nghĩa thực tiễn Đánh giá tỷ lệ nhiễm, chết do virus và phát hiện bệnh là cả một quá trình, đòi hỏi các cán bộ y tế không những phải thật vững chuyên môn mà còn có đầy đủ các trang thiết bị y tế mới có thể chuẩn đoán chính xác bệnh cho bệnh nhân. Nếu chuẩn đoán sai bệnh sẽ đưa đến điều trị sai, không phát hiện sớm bệnh cho bệnh nhân,…

KHAI PHÁ DỮ LIỆU

Tổng quan về kĩ thuật khai phá dữ liệu

2.1.1 Khái niệm về khai phá dữ liệu

Khai phá dữ liệu (data mining) là quá trình tính toán nhằm tìm ra các mẫu trong các bộ dữ liệu lớn, kết hợp giữa máy học, thống kê và hệ thống cơ sở dữ liệu Đây là một lĩnh vực liên ngành trong khoa học máy tính, với mục tiêu trích xuất thông tin từ dữ liệu và chuyển đổi thành cấu trúc dễ hiểu Quá trình này không chỉ bao gồm phân tích thô mà còn liên quan đến quản lý dữ liệu, xử lý dữ liệu trước, suy xét mô hình và suy luận thống kê Khai phá dữ liệu là một bước quan trọng trong quá trình "khám phá kiến thức trong cơ sở dữ liệu" (KDD) và là một phần của quy trình khai thác tri thức (Knowledge Discovery Process).

• Xác định vấn đề và không gian dữ liệu để giải quyết vấn đề (Problem understanding and data understanding).

Data preparation involves several key processes, including data cleaning to ensure accuracy, data integration to consolidate information from various sources, data selection to choose relevant datasets, and data transformation to format data for analysis.

Khai thác dữ liệu là quá trình xác định nhiệm vụ và lựa chọn các kỹ thuật phù hợp để thu thập thông tin Qua đó, chúng ta có thể thu được một nguồn tri thức thô giá trị.

• Đánh giá (Evaluation): dựa trên một số tiêu chí tiến hành kiểm tra và lọc nguồn tri thức thu được.

Quá trình khai thác tri thức không chỉ diễn ra theo một trình tự tuyến tính từ đầu đến cuối, mà còn là một chu trình lặp lại, cho phép quay trở lại các bước trước đó để điều chỉnh và tối ưu hóa.

2.1.2 Quy trình khai phá dữ liệu

Để tối ưu hóa quá trình khai thác dữ liệu, chúng ta cần nghiên cứu lĩnh vực áp dụng Data mining nhằm xác định tri thức cần thiết Việc này giúp định hướng rõ ràng và tiết kiệm thời gian, tránh lãng phí vào những thông tin không quan trọng.

Tạo tập tin dữ liễu đầu vào

Ta xây dựng tập tin để lưu trữ các dữ liệu đầu vào để máy tính có thể lưu trữ và xử lý.

Trong bước tiền xử lý, chúng ta loại bỏ các dữ liệu không cần thiết và tinh chỉnh cấu trúc dữ liệu, đồng thời thực hiện mã hóa để tối ưu hóa quá trình xử lý.

Trong các tập dữ liệu có chiều lớn, số lượng tổ hợp có thể tăng lên đáng kể, với n chiều dẫn đến 2^n tổ hợp Việc giảm số chiều là một bước quan trọng nhằm tối ưu hóa tài nguyên trong quá trình xử lý tri thức Một trong những phương pháp phổ biến để thực hiện điều này là sử dụng Rough set.

Để đạt được mục đích khai thác dữ liệu, việc lựa chọn tác vụ phù hợp là rất quan trọng Các tác vụ khai thác dữ liệu thường gặp bao gồm phân loại, hồi quy, phân cụm và phát hiện bất thường.

Khai thác dữ liệu: Tìm kiếm tri thức

Sau khi hoàn thành các bước trước, bước quan trọng nhất trong toàn bộ quá trình là khai thác và tìm kiếm tri thức Đánh giá mẫu tìm được là một phần thiết yếu trong giai đoạn này.

Ta cần đánh giá lại trong các tri thức tìm được, ta sẽ sử dụng được những tri thức nào, những tri thức nào dư thừa, không cần biết.

Chúng ta cần trình bày tri thức đã thu thập dưới dạng ngôn ngữ tự nhiên, giúp người dùng dễ dàng tiếp cận và hiểu rõ những thông tin đó.

Sử dụng các tri thức vừa khám phá

Ta có thể tham khảo tiến trình KDD( Knowledge Discovery in Databases) để hiểu rõ hơn về khai phá dữ liệu:

Hình 2 1 2: Knowledge Discovery in Databases.

Data preparation is a critical step that encompasses several key processes, including data cleaning to ensure accuracy, data integration for combining information from various sources, data selection to choose relevant datasets, and data transformation to convert data into a suitable format for analysis.

Khai thác dữ liệu (data mining) là quá trình xác định nhiệm vụ và lựa chọn kỹ thuật phù hợp để thu thập thông tin, từ đó tạo ra nguồn tri thức thô Sau khi thu thập, bước đánh giá (evaluation) sẽ được thực hiện dựa trên các tiêu chí cụ thể nhằm kiểm tra và lọc nguồn tri thức đã thu được.

Quá trình khai thác tri thức không chỉ diễn ra theo trình tự tuyến tính từ đầu đến cuối, mà còn là một chu trình lặp lại, cho phép quay trở lại các bước đã thực hiện trước đó.

2.1.3 Ứng dụng của khai phá dữ liệu

Kinh tế đóng vai trò quan trọng trong các lĩnh vực như kinh doanh, tài chính, tiếp thị bán hàng, bảo hiểm, thương mại và ngân hàng Nó cung cấp các báo cáo chi tiết và phân tích rủi ro, giúp doanh nghiệp xây dựng chiến lược kinh doanh hiệu quả Bằng cách phân loại khách hàng, doanh nghiệp có thể xác định và tối ưu hóa thị trường mục tiêu.

Khoa học: Thiên văn học - dự đoán đường đi các thiên thể, hành tinh, ; Công nghệ sinh học – tìm ra các gen mới, cây con giống mới,…

Web: các công cụ tìm kiếm.

Tổng quan về hệ hỗ trợ ra quyết định

Hệ hỗ trợ ra quyết định (DSS) là một phần của hệ thống thông tin, có chức năng cung cấp thông tin cần thiết để hỗ trợ quá trình ra quyết định và giải quyết vấn đề DSS có thể được áp dụng cho cả cá nhân và tổ chức, với khả năng hỗ trợ trực tiếp hoặc gián tiếp trong việc đưa ra các quyết định hiệu quả.

Trong lĩnh vực y tế, hệ thống hỗ trợ ra quyết định dựa vào tri thức cung cấp thông tin chẩn đoán bệnh cho nhân viên y tế, giúp cải thiện quy trình chẩn đoán, theo dõi và điều trị Những thông tin này được trích lọc một cách thông minh, mang lại giá trị cao trong việc nâng cao hiệu quả điều trị Các lợi ích của hệ thống hỗ trợ ra quyết định trong y tế bao gồm việc tăng cường độ chính xác trong chẩn đoán và cải thiện chất lượng chăm sóc bệnh nhân.

• Tăng cường chất lượng chuẩn đoán, chăm sóc bệnh nhân.

• Giảm nguy cơ sai sót để tránh các tình huống nguy hiểm cho bệnh nhân.

• Tăng cường hiệu quả ứng dụng công nghệ thông tin vào lĩnh vực y tế để giảm bớt những thủ tục giấy tờ không cần thiết.

Hình 2 2: Sơ đồ hệ hô trợ quyết định

Phân cụm dữ liệu và ứng dụng

2.3.1 Mục đích của phân cụm dữ liệu

Phân loại là hành vi nguyên thuỷ của con người, giúp họ xử lý lượng thông tin khổng lồ hàng ngày Việc phân cụm dữ liệu nhằm khai phá cấu trúc mẫu dữ liệu, tạo thành các nhóm từ tập dữ liệu lớn, cho phép phân tích sâu hơn từng cụm dữ liệu Qua đó, người dùng có thể tìm kiếm và khai thác thông tin tiềm ẩn, hữu ích cho việc ra quyết định.

Một vài ví dụ về ý nghĩa thực tiễn của phân cụm dữ liệu như sau:

- Khám phá ra các vị trí địa lý thuận lợi cho việc xây dựng các kho hàng phục vụ mua bàn hàng của một công ty thương mại.

Xác định các cụm ảnh động vật, bao gồm thú và chim, trong cơ sở dữ liệu hình ảnh động vật là cần thiết để nâng cao hiệu quả tìm kiếm hình ảnh.

- Xác định các nhóm người bệnh nhằm cung cấp thông tin cho việc phân phối các thuốc điều trị trong y tế.

- Xác định nhóm các khách hàng trong CSDL ngân hàng có vốn các đầu tư vào bất động sản cao.

Phân cụm dữ liệu là một phương pháp quan trọng trong xử lý thông tin, giúp khám phá mối liên hệ giữa các mẫu dữ liệu bằng cách tổ chức chúng thành các cụm tương tự.

Tất cả các dạng dữ liệu được biểu diễn thông qua khái niệm đặc trưng, từ đó hình thành nên vector đặc trưng một chiều Phân cụm dữ liệu được hiểu là quá trình nhóm các đối tượng tương tự lại với nhau.

2.3.2 Các bước cơ bản để phân cụm

Chọn lựa đặc trưng là quá trình quan trọng nhằm mã hóa tối đa thông tin liên quan đến công việc Mục tiêu chính là giảm thiểu sự dư thừa thông tin giữa các đặc trưng Trước khi sử dụng trong các bước tiếp theo, các đặc trưng cần được tiền xử lý hợp lý.

Chọn độ đo gần gũi là việc xác định mức độ tương đồng giữa hai vector đặc trưng Để đảm bảo tính chính xác, tất cả các vector cần đóng góp như nhau trong việc tính toán, tránh tình trạng một đặc trưng nào đó chiếm ưu thế Quá trình tiền xử lý đóng vai trò quan trọng trong việc đạt được điều này.

Tiêu chuẩn phân cụm phụ thuộc vào cách hiểu của chuyên gia về thuật ngữ “dễ nhận thấy”, dựa vào loại cụm được xác định trong tập dữ liệu Ví dụ, một cụm chặt (compact) của các vector trong không gian một chiều có thể dễ nhận thấy theo một tiêu chuẩn nhất định, trong khi cụm “dài và mỏng” lại dễ nhận thấy theo tiêu chuẩn khác Tiêu chuẩn phân loại này có thể được diễn đạt thông qua hàm chi phí hoặc các quy tắc khác.

Thuật toán phân loại : Cần lựa chọn một sơ đồ thuật toán riêng biệt nhằm làm sáng tỏ cấu trúc cụm của tập dữ liệu.

Khi có kết quả phân loại, việc kiểm tra tính chính xác của nó là rất quan trọng Điều này thường được thực hiện thông qua các kiểm định phù hợp để đảm bảo độ tin cậy của kết quả.

Khi giải thích kết quả phân loại, chuyên gia cần kết hợp với bằng chứng thực nghiệm và phân tích để đưa ra kết luận chính xác Việc thực hiện bước khuynh hướng phân cụm là cần thiết, trong đó có các kiểm định để xác định xem dữ liệu có cấu trúc phân cụm hay không, vì một tập dữ liệu ngẫu nhiên sẽ làm cho việc phân cụm trở nên vô nghĩa Lựa chọn các đặc trưng, độ đo gần gũi và tiêu chuẩn phân cụm khác nhau có thể dẫn đến các kết quả phân cụm khác nhau, do đó, quyết định lựa chọn phương pháp phù hợp hoàn toàn phụ thuộc vào kiến thức và kinh nghiệm của chuyên gia Tính chủ quan của chuyên gia là một yếu tố không thể tránh khỏi trong quá trình này.

Hình 2 3 2: Các bước trong quá trình phân cụm

Có bốn loại đặc trưng, đó là:

Các đặc trưng danh nghĩa (nominal) là những đặc điểm mà giá trị của chúng mã hóa các trạng thái khác nhau Ví dụ, trong trường hợp giới tính, giá trị 1 có thể đại diện cho nam và 0 cho nữ Sự so sánh về lượng giữa các giá trị này là không có ý nghĩa.

Các đặc trưng thứ tự (ordinal) là những đặc trưng mà giá trị của chúng có thể được sắp xếp theo một thứ tự có ý nghĩa Ví dụ, trong việc đánh giá sự hoàn thành khóa học của sinh viên, các giá trị như 4, 3, 2, 1 tương ứng với các mức độ “xuất sắc”, “rất tốt”, “tốt” và “không tốt” Mặc dù các giá trị này được sắp xếp theo thứ tự, nhưng sự so sánh giữa hai giá trị liên tiếp không quan trọng về mặt lượng.

Đặc trưng đo theo khoảng (interval-scaled) là những đặc trưng mà sự khác biệt giữa hai giá trị có ý nghĩa về mặt số lượng Ví dụ, trong thang đo nhiệt độ, khoảng từ 10-15 độ được xem là rét đậm, trong khi nhiệt độ dưới 10 độ được coi là rét hại Mỗi khoảng nhiệt độ này mang một ý nghĩa riêng, phản ánh mức độ lạnh khác nhau.

Các đặc trưng đo theo tỷ lệ (ratio-scaled) cho phép so sánh trực tiếp giữa các giá trị, nhưng không phải lúc nào cũng có thể áp dụng cho mọi loại dữ liệu Ví dụ, trong trường hợp nhiệt độ, tỷ lệ giữa nhiệt độ Hà Nội 10 độ và Matxcơva 1 độ không thể diễn giải rằng Hà Nội nóng gấp mười lần Matxcơva Ngược lại, với cân nặng, một người nặng 100 kg thực sự nặng gấp hai lần một người nặng 50 kg, cho thấy rằng đặc trưng cân nặng là một đặc trưng đo theo tỷ lệ.

2.3.4 Các ứng dụng của phân cụm

Phân cụm là một công cụ quan trọng trong một số ứng dụng Sau đây là một số ứng dụng của nó:

Giảm dữ liệu là quá trình phân cụm một lượng lớn dữ liệu (N) thành m cụm dữ liệu rõ ràng, với m nhỏ hơn nhiều so với N Mỗi cụm được xử lý như một đối tượng đơn, giúp đơn giản hóa việc phân tích và quản lý dữ liệu.

Rút ra các giả thuyết liên quan đến tính tự nhiên của dữ liệu là cần thiết, và các giả thuyết này cần được kiểm tra thông qua việc sử dụng nhiều tập dữ liệu khác nhau.

Cơ sở dữ liệu Y khoa

2.4.1 Sơ lược về đại dịch Covid-19 Đại dịch COVID-19 là một đại dịch bệnh truyền nhiễm với tác nhân là virus SARS-CoV-2, đang diễn ra trên phạm vi toàn cầu Khởi nguồn vào tháng

Vào tháng 12 năm 2019, dịch bệnh COVID-19 lần đầu tiên được ghi nhận tại thành phố Vũ Hán, Trung Quốc, bắt nguồn từ một nhóm người mắc viêm phổi không rõ nguyên nhân Các nhà khoa học Trung Quốc đã nghiên cứu và phân lập thành công một chủng virus corona mới, được Tổ chức Y tế Thế giới công nhận.

17 tạm thời gọi là 2019-nCoV, có trình tự gen giống với SARS-CoV trước đây với mức tương đồng lên tới 79,5%

Virus corona chủ yếu tấn công đường hô hấp dưới, gây ra các triệu chứng giống như cúm như sốt, ho, khó thở, đau cơ và mệt mỏi Trong trường hợp nặng, bệnh có thể tiến triển thành viêm phổi, hội chứng suy hô hấp cấp tính, nhiễm trùng huyết, sốc nhiễm trùng, và thậm chí dẫn đến tử vong Hiện tại, các biện pháp y tế chủ yếu tập trung vào việc kiểm soát các triệu chứng lâm sàng, do chưa có phương pháp điều trị hiệu quả nào được phát hiện.

Virus corona chủng mới lây lan chủ yếu qua giọt bắn trong không khí khi người nhiễm ho hoặc hắt hơi trong khoảng cách 0,91m đến 1,8m Trong số 41 ca bệnh ban đầu, hai phần ba có liên quan đến Chợ bán buôn hải sản Hoa Nam Nghiên cứu tháng 5 năm 2020 tại Đại học Hong Kong - Trung Quốc cho thấy virus này lây qua mắt cao gấp 100 lần so với SARS.

Hệ số lây nhiễm cơ bản R0

Khả năng lây lan của virus giữa người với người rất khác nhau; một số người có thể mắc bệnh nhưng không truyền virus, trong khi những người khác lại có khả năng lây bệnh cho nhiều người Hệ số lây nhiễm cơ bản R0, hay còn gọi là hệ số sinh sản cơ bản, ước tính từ 2 đến 4 (R0=2÷4), cho thấy khả năng truyền virus từ người này sang người khác Điều này có nghĩa là một người mới nhiễm có thể lây nhiễm cho từ 2 đến 4 người khác, và theo các báo cáo hiện tại, một người mắc chủng coronavirus này có thể truyền virus cho 4 người khác.

2.4.3 Dấu hiệu và triệu chứng

Các triệu chứng của COVID-19 bao gồm sốt xuất hiện ở 90% trường hợp, mệt mỏi và ho khan ở 80%, khó thở ở 20%, và suy hô hấp ở 15% Virus có thể tồn tại trong cơ thể mà không gây triệu chứng X-quang ngực cho thấy dấu hiệu tổn thương ở cả hai phổi, trong khi dấu hiệu sống của bệnh nhân thường ổn định khi nhập viện Các xét nghiệm máu thường phát hiện số lượng bạch cầu thấp, bao gồm giảm bạch cầu và giảm bạch cầu lympho Ngoài ra, nhiều bệnh nhân còn gặp phải các biểu hiện ngoài da, đặc biệt là ở các ngón chân.

Theo Trung tâm Kiểm soát và Phòng ngừa Dịch bệnh Mỹ (CDC), có tới 25% người mắc bệnh có thể không biểu hiện triệu chứng rõ ràng hoặc hoàn toàn không có triệu chứng.

Ho có đờm 28-33% Đau và nhức cơ 11-35%

Bảng 2.4.3: Triệu chứng và tỉ lệ mắc bệnh

KĨ THUẬT PHÂN CỤM V THUẬT TOÁN K-MEANS

Giới thiệu về kĩ thuật phân cụm trong khai phá dữ liệu

Phân cụm là một kỹ thuật quan trọng trong khai phá dữ liệu, thuộc phương pháp Unsupervised Learning trong Machine Learning Kỹ thuật này giúp nhóm các đối tượng vào các cụm (clusters) sao cho các đối tượng trong cùng một cụm có sự tương đồng (similar) và khác biệt (dissimilar) với các đối tượng ở cụm khác.

Phân cụm nhằm mục đích khám phá bản chất bên trong các nhóm dữ liệu Các thuật toán phân cụm tạo ra các cụm, nhưng không có tiêu chí nào được coi là tốt nhất để đánh giá phân tích phân cụm Tiêu chí đánh giá phụ thuộc vào mục đích của phân cụm, bao gồm giảm dữ liệu, tìm kiếm các cụm tự nhiên, các cụm hữu ích và phát hiện ngoại lệ.

Hình 3.1: Các kĩ thuật phân cụm

Thuật toán K-Means

K-Means là thuật toán rất quan trọng và được sử dụng phổ biến trong kỹ thuật phân cụm Tư tưởng chính của thuật toán K-Means là tìm cách phân nhóm các đối tượng (objects) đã cho vào K cụm (K là số các cụm được xác đinh trước,

K nguyên dương) sao cho tổng bình phương khoảng cách giữa các đối tượng đến tâm nhóm (centroid ) là nhỏ nhất.

Hình 3.2: Mô tả thuật toán K-Means

Thuật toán K-Means thực hiện qua các bước chính sau:

1 Chọn ngẫu nhiên K tâm (centroid) cho K cụm (cluster) Mỗi cụm được đại diện bằng các tâm của cụm.

2 Tính khoảng cách giữa các đối tượng (objects) đến K tâm (thường dùng khoảng cách Euclidean).

3 Nhóm các đối tượng vào nhóm gần nhất

4 Xác định lại tâm mới cho các nhóm

5 Thực hiện lại bước 2 cho đến khi không có sự thay đổi nhóm nào của các đối tượng

Thuật toán K-Means nổi bật với tính đơn giản, dễ hiểu và dễ cài đặt Tuy nhiên, hiệu quả của nó phụ thuộc vào việc xác định số lượng nhóm K trước, và khi số cụm K cùng với dữ liệu phân cụm lớn, chi phí cho việc thực hiện vòng lặp tính toán khoảng cách sẽ tăng cao.

Áp dụng và sử dụng thuật toán K-Means vào bộ dataset Covid-19

Tập dữ liệu COVID-19 bao gồm thông tin từ 200 quốc gia, bao gồm cả những nước đã ghi nhận ca tử vong do virus và những nước chưa có trường hợp tử vong Các thuộc tính trong tập dữ liệu này cung cấp cái nhìn tổng quan về tình hình dịch bệnh trên toàn cầu.

2 Tỉ lệ người nhiễm trên 1 triệu người.

3 Tỷ lệ nguời chết trên 1 triệu người.

4 Tổng số người kiểm tra của tất cả các nước

5 Tỷ lệ kiểm tra trên 1 triệu người Đây là một bài toán phân cụm và chúng ta có thể sử dụng các phương pháp phân cụm khác như k-Medians, Expectation Maximization (EM) để phân loại cũng cho kết quả khá tốt Chúng ta có thể hình dung tập dữ liệu này thông qua biểu diễn dưới dạng file CSV như sau, các cột từ 1 đến 5 tương ứng với các chỉ số nêu trên.

THỰC NGHIỆM V ĐÁNH GIÁ

Hình 4.1: Nhập dữ liệu vào Weka

Hình 4.2: Dữ liệu được đưa vào phân đoạn – tiền xử lí

Hình 4.3: Các thuộc tính bộ dữ liệu tỉ lệ người chết và nhiễm virus trên 1 triệu người

Hình 4.4: Đầu ra phân lớp

 Đầu ra phân lớp: Các thuộc tính:

2 Tỉ lệ người nhiễm trên 1 triệu người.

3 Tỷ lệ người chết trên 1 triệu người.

4 Tổng số người kiểm tra của tất cả các nước

5 Tỷ lệ kiểm tra trên 1 triệu người

Hình 4.5: Đầu ra phân cụm bằng K-Means với tất cả thuộc tính

Bảng phân tích dữ liệu:

Tỉ lệ che phủ toàn bộ dữ liệu

Bảng 4.1: Bảng phân tích đầu ra với tất cả các thuộc tính

Hình 4.6: Biểu đồ tỉ lệ các cụm theo toàn bộ thuộc tính trên toàn bộ dữ liệu

Hình 4.7: Đầu ra phân cụm bằng K-Means với thuộc tính quốc gia và tỉ lệ người chết

Bảng phân tích dữ liệu

Tỉ lệ che phủ toàn bộ dữ liệu

Bảng 4.2: Bảng phân tích dữ liệu đầu ra với thuộc tính Quốc gia và tỉ lệ người chết

Hình 4.8: Biểu đồ tỉ lệ các cụm theo thuộc tính Quốc gia và người chết trên toàn bộ dữ liệu

Hình 4.9: Đầu ra phân cụm bằng K-Mean với thuộc tính Quốc gia và tỉ lệ người mắc bệnh

Bảng phân tích dữ liệu

Tỉ lệ che phủ toàn bộ dữ liệu

Bảng 4.3: Phân tích dữ liệu đầu ra với thuộc tính Quốc gia và tỉ lệ người chết

Hình 4.10: Biểu đồ tỉ lệ các cụm theo thuộc tính Quốc gia và người chết trên toàn bộ dữ liệu

Ngày đăng: 22/01/2025, 15:09