1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khai phá dữ liệu tỉ lệ mắc và tử vong do virus covid 19 bằng thuật toán phân cụm kmeans

39 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Khai Phá Dữ Liệu Tỉ Lệ Mắc Và Tử Vong Do Virus Covid-19 Bằng Thuật Toán Phân Cụm Kmeans
Tác giả Phan Xuân Hoàng, Nguyễn Việt Hoàng
Người hướng dẫn Vũ Văn Định
Trường học Trường Đại Học Điện Lực
Chuyên ngành Công Nghệ Thông Tin
Thể loại Báo cáo chuyên đề
Năm xuất bản 2024
Thành phố Hà Nội
Định dạng
Số trang 39
Dung lượng 5,56 MB

Cấu trúc

  • CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU (7)
    • 1.1 Tổng quan về kỹ thuật Khai phá dữ liệu (Data mining) (7)
      • 1.1.1 Khái niệm về khai phá dữ liệu (7)
      • 1.1.2 Quy trình khai phá dữ liệu (8)
        • 1.1.2.1 Nghiên cứu lĩnh vực (8)
        • 1.1.2.2 Tạo tập tin dữ liễu đầu vào (8)
        • 1.1.2.3 Tiền xử lý, làm sạch, mã hóa (8)
        • 1.1.2.4 Rút gọn chiều (8)
        • 1.1.2.5 Chọn tác vụ khai thác dữ liệu (8)
        • 1.1.2.6 Khai thác dữ liệu: Tìm kiếm tri thức (9)
        • 1.1.2.7 Đánh giá mẫu tìm được (9)
        • 1.1.2.8 Biểu diễn tri thức (9)
        • 1.1.2.9 Sử dụng các tri thức vừa khám phá (9)
      • 1.1.3 Ứng dụng của khai phá dữ liệu (10)
    • 1.2 Tổng quan về hệ hỗ trợ ra quyết định (10)
    • 1.3 Phân cụm dữ liệu và ứng dụng (11)
      • 2.3.1 Mục đích của phân cụm dữ liệu (11)
      • 1.3.2 Các bước cơ bản để phân cụm (12)
      • 1.3.3. Các loại đặc trưng (14)
      • 1.3.4 Các ứng dụng của phân cụm (15)
  • CHƯƠNG 2: TỔNG QUAN VỀ ĐỀ TÀI (21)
    • 2.1 Đặt vấn đề (21)
    • 2.2 Cơ sở hình thành đề tài (22)
    • 2.3 Mục tiêu đề tài (23)
    • 2.4 Đối tượng và phương pháp nghiên cứu (23)
    • 2.5 Ý nghĩa đề tài (23)
      • 2.5.1 Ý nghĩa khoa học (23)
      • 2.5.2 Ý nghĩa thực tiễn (24)
  • CHƯƠNG 3: KỸ THUẬT PHÂN CỤM VÀ THUẬT TOÁN K-MENAS (25)
    • 3.1 Giới thiệu về kỹ thuật phân cụm trong Khai phá dữ liệu (25)
    • 3.2 Thuật Toán K-Means (25)
    • 3.3 Áp dụng và sử dụng thuật toán K-means vào bộ dataset Covid-19 (31)
  • CHƯƠNG 4: TH2C NGHIỆM VÀ ĐÁNH GÍA (0)
    • 4.1. Cài đặt chương trình (33)
  • KẾT LUẬN (38)
  • TÀI LIỆU THAM KHẢO (39)

Nội dung

Do sự nguy hiểm và tình hình lây lan diễn biến phức tạm của đại dịch Covid-19 xảy ra trên toàn thếgiới, vậy nên chúng e làm đề tài sử dụng môn học khai phá dữ liệu để xác địnhđánh gía tỷ

TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU

Tổng quan về kỹ thuật Khai phá dữ liệu (Data mining)

1.1.1 Khái niệm về khai phá dữ liệu

Khai phá dữ liệu (data mining) là quá trình tính toán nhằm phát hiện các mẫu trong các bộ dữ liệu lớn, kết hợp giữa máy học, thống kê và hệ thống cơ sở dữ liệu Đây là một lĩnh vực liên ngành thuộc khoa học máy tính, với mục tiêu trích xuất thông tin từ dữ liệu và chuyển đổi nó thành cấu trúc dễ hiểu Quá trình này không chỉ bao gồm phân tích thô mà còn liên quan đến quản lý dữ liệu, xử lý dữ liệu trước, suy xét mô hình, suy luận thống kê, và các thước đo thú vị Kết quả của khai phá dữ liệu được hiện hình hóa và cập nhật trực tuyến, đóng vai trò quan trọng trong phân tích dữ liệu.

"khám phá kiến thức trong cơ sở dữ liệu" hoặc KDD.

Khai phá dữ liệu là một bước của quá trình khai thác tri thức (Knowledge Discovery Process), bao gồm:

• Xác định vấn đề và không gian dữ liệu để giải quyết vấn đề (Problem understanding and data understanding).

Data preparation involves several key processes, including data cleaning to eliminate inaccuracies, data integration to combine information from different sources, data selection to choose relevant datasets, and data transformation to convert data into a suitable format for analysis.

Khai thác dữ liệu là quá trình xác định nhiệm vụ và lựa chọn các kỹ thuật phù hợp để thu thập thông tin Qua đó, chúng ta có thể thu được nguồn tri thức thô quý giá, phục vụ cho các phân tích và quyết định tiếp theo.

• Đánh giá (Evaluation): dựa trên một số tiêu chí tiến hành kiểm tra và lọc nguồn tri thức thu được.

Quá trình khai thác tri thức không chỉ đơn thuần là một chuỗi tuần tự từ đầu đến cuối, mà còn mang tính lặp lại và có khả năng quay trở lại các bước trước đó.

1.1.2 Quy trình khai phá dữ liệu

Để tối ưu hóa quy trình sử dụng Data mining, cần tiến hành nghiên cứu kỹ lưỡng về lĩnh vực áp dụng, nhằm xác định những tri thức quan trọng cần được lọc ra Qua đó, việc định hướng rõ ràng sẽ giúp tiết kiệm thời gian và nguồn lực, tránh lãng phí vào những thông tin không cần thiết.

1.1.2.2 Tạo tập tin dữ liễu đầu vào

Ta xây dựng tập tin để lưu trữ các dữ liệu đầu vào để máy tính có thể lưu trữ và xử lý.

1.1.2.3 Tiền xử lý, làm sạch, mã hóa Ở bước này ta tiến hành bỏ bớt những dữ liệu rườm rà, không cần thiết, tinh chỉnh lại cấu trúc của dữ liệu và mã hóa chúng để tiện cho quá trình xử lý.

Một tập dữ liệu với nhiều chiều có thể tạo ra khối lượng dữ liệu khổng lồ, ví dụ với n chiều sẽ có 2^n tổ hợp Vì vậy, việc giảm số chiều là rất cần thiết để tiết kiệm tài nguyên trong quá trình xử lý tri thức Thông thường, kỹ thuật Rough set được sử dụng để thực hiện việc giảm số chiều này.

1.1.2.5 Chọn tác vụ khai thác dữ liệu Để đạt được mục đích ta cần, ta chọn được tác vụ khai thác dữ liệu sao cho phù hợp Thông thường có các tác vụ sau:

1.1.2.6 Khai thác dữ liệu: Tìm kiếm tri thức

Sau khi tiến hành các bước trên thì đây là bước chính của cả quá trình, ta sẽ tiến hành khai thác và tìm kiếm tri thức.

1.1.2.7 Đánh giá mẫu tìm được

Ta cần đánh giá lại trong các tri thức tìm được, ta sẽ sử dụng được những tri thức nào, những tri thức nào dư thừa, không cần biết.

Ta chuyển hóa tri thức đã thu thập thành ngôn ngữ tự nhiên, nhằm giúp người dùng dễ dàng tiếp cận và hiểu rõ những thông tin đó.

1.1.2.9 Sử dụng các tri thức vừa khám phá

Ta có thể tham khảo tiến trình KDD (Knowledge Discovery in Databases) để hiểu rõ hơn về khai phá dữ liệu:

Hình 1 1 Knowledge Discovery in Databases

Data preparation involves several key processes, including data cleaning, data integration, data selection, and data transformation These steps are essential for ensuring that the data is accurate, consistent, and ready for analysis.

Khai thác dữ liệu là quá trình xác định nhiệm vụ và lựa chọn kỹ thuật phù hợp, nhằm thu thập nguồn tri thức thô Sau đó, việc đánh giá sẽ được thực hiện dựa trên các tiêu chí nhất định để kiểm tra và lọc nguồn tri thức đã thu thập.

Quá trình khai thác tri thức không chỉ diễn ra theo một trình tự tuyến tính từ đầu đến cuối, mà còn là một chu trình lặp lại, cho phép quay trở lại các bước trước đó để hoàn thiện và nâng cao hiểu biết.

1.1.3 Ứng dụng của khai phá dữ liệu

Kinh tế đóng vai trò quan trọng trong các lĩnh vực như kinh doanh, tài chính, tiếp thị, bảo hiểm, thương mại và ngân hàng Nó cung cấp các báo cáo chi tiết và phân tích rủi ro cần thiết để xây dựng chiến lược kinh doanh và sản xuất hiệu quả Bằng cách phân loại khách hàng, doanh nghiệp có thể xác định thị trường và thị phần một cách chính xác hơn.

Khoa học: Thiên văn học - dự đoán đường đi các thiên thể, hành tinh, …; Công nghệ sinh học – tìm ra các gen mới, cây con giống mới, …

Web: các công cụ tìm kiếm.

Tổng quan về hệ hỗ trợ ra quyết định

Hệ hỗ trợ ra quyết định là một phần quan trọng của hệ thống thông tin, giúp cung cấp thông tin cần thiết để hỗ trợ quá trình ra quyết định và giải quyết vấn đề Hệ thống này có thể được áp dụng cho cả cá nhân và tổ chức, với khả năng hỗ trợ trực tiếp hoặc gián tiếp.

Trong lĩnh vực y tế, hệ thống hỗ trợ ra quyết định dựa vào tri thức cung cấp thông tin chẩn đoán bệnh hữu ích cho nhân viên y tế Thông tin này được trích lọc và trình bày một cách thông minh, giúp cải thiện quá trình chẩn đoán, theo dõi và điều trị bệnh hiệu quả hơn Một số lợi ích của hệ thống hỗ trợ ra quyết định trong y tế bao gồm nâng cao độ chính xác trong chẩn đoán và tối ưu hóa quy trình điều trị.

• Tăng cường chất lượng chuẩn đoán, chăm sóc bệnh nhân.

• Giảm nguy cơ sai sót để tránh các tình huống nguy hiểm cho bệnh nhân.

• Tăng cường hiệu quả ứng dụng công nghệ thông tin vào lĩnh vực y tế để giảm bớt những thủ tục giấy tờ không cần thiết.

Hình 1 2 Sơ đồ hệ hỗ trợ quyết định

Phân cụm dữ liệu và ứng dụng

2.3.1 Mục đích của phân cụm dữ liệu

Phân loại là hành vi nguyên thủy của con người, giúp họ xử lý lượng thông tin khổng lồ hàng ngày Việc phân cụm dữ liệu nhằm khai phá cấu trúc mẫu dữ liệu, tạo ra các nhóm từ tập dữ liệu lớn Điều này cho phép phân tích sâu hơn từng cụm dữ liệu, nhằm tìm kiếm thông tin tiềm ẩn và hữu ích phục vụ cho quá trình ra quyết định.

Một vài ví dụ về ý nghĩa thực tiễn của phân cụm dữ liệu như sau:

- Khám phá ra các vị trí địa lý thuận lợi cho việc xây dựng các kho hàng phục vụ mua bàn hàng của một công ty thương mại

Để nâng cao hiệu quả tìm kiếm ảnh trong cơ sở dữ liệu động vật, việc xác định các cụm ảnh liên quan đến các loài động vật như thú và chim là rất quan trọng Điều này giúp người dùng dễ dàng tìm thấy hình ảnh mong muốn và cải thiện trải nghiệm tìm kiếm.

- Xác định các nhóm người bệnh nhằm cung cấp thông tin cho việc phân phối các thuốc điều trị trong y tế

- Xác định nhóm các khách hàng trong CSDL ngân hàng có vốn các đầu tư vào bất động sản cao

Phân cụm dữ liệu là một phương pháp xử lý thông tin quan trọng, giúp khám phá mối liên hệ giữa các mẫu dữ liệu bằng cách tổ chức chúng thành các cụm tương tự Phương pháp này ngày càng trở nên phổ biến trong việc phân tích và hiểu rõ hơn về các đặc điểm của dữ liệu.

Tất cả các dạng dữ liệu được biểu diễn qua các khái niệm đặc trưng, tạo thành vector đặc trưng l-chiều Phân cụm dữ liệu được hiểu là quá trình nhóm các dữ liệu tương tự lại với nhau.

1.3.2 Các bước cơ bản để phân cụm

Lựa chọn đặc trưng là bước quan trọng để tối ưu hóa thông tin liên quan đến công việc Cần đảm bảo rằng các đặc trưng được chọn lựa hợp lý nhằm giảm thiểu sự dư thừa thông tin Trước khi sử dụng trong các bước tiếp theo, các đặc trưng này cần được tiền xử lý để đạt hiệu quả cao nhất.

Chọn độ đo gần gũi là cách xác định mức độ tương đồng giữa hai vector đặc trưng Để đảm bảo tính chính xác, tất cả các vector phải có vai trò như nhau trong việc tính toán, không có vector nào vượt trội hơn Quá trình tiền xử lý đóng vai trò quan trọng trong việc đạt được điều này.

Tiêu chuẩn phân cụm phụ thuộc vào cách hiểu của chuyên gia về thuật ngữ “dễ nhận thấy” dựa trên loại cụm mà họ cho là ẩn trong dữ liệu Ví dụ, một cụm chặt (compact) của các vector đặc trưng trong không gian l-chiều có thể dễ nhận thấy theo một tiêu chuẩn nhất định, trong khi cụm “dài và mỏng” lại có thể được nhận diện qua tiêu chuẩn khác Tiêu chuẩn phân loại có thể được thể hiện thông qua hàm chi phí hoặc các quy tắc khác.

Thuật toán phân loại: Cần lựa chọn một sơ đồ thuật toán riêng biệt nhằm làm sáng tỏ cấu trúc cụm của tập dữ liệu.

Khi có kết quả phân loại, việc kiểm tra tính chính xác của kết quả là rất quan trọng Điều này thường được thực hiện thông qua các kiểm định phù hợp để đảm bảo độ tin cậy của kết quả.

Để giải thích kết quả, các chuyên gia cần kết hợp kết quả phân loại với bằng chứng thực nghiệm và phân tích nhằm đưa ra kết luận chính xác Trong một số trường hợp, cần thực hiện bước khuynh hướng phân cụm với các kiểm định khác nhau để xác định xem dữ liệu có cấu trúc phân cụm hay không Ví dụ, nếu tập dữ liệu hoàn toàn ngẫu nhiên, mọi nỗ lực phân cụm sẽ trở nên vô nghĩa.

Việc lựa chọn các đặc trưng, độ đo gần gũi và tiêu chuẩn phân cụm khác nhau có thể dẫn đến kết quả phân cụm khác nhau Do đó, sự lựa chọn hợp lý phụ thuộc vào kiến thức và kinh nghiệm của chuyên gia Tính chủ quan của chuyên gia là điều không thể tránh khỏi trong quá trình này.

Hình 1 3 Các bước trong quá trình phân cụm

Có bốn loại đặc trưng, đó là:

Các đặc trưng danh nghĩa (nominal) là những đặc trưng mà giá trị của chúng mã hóa các trạng thái khác nhau Ví dụ, trong trường hợp đặc trưng giới tính, giá trị 1 đại diện cho nam và giá trị 0 đại diện cho nữ Việc so sánh lượng giữa các giá trị này là không có ý nghĩa.

Các đặc trưng thứ tự (ordinal) là những đặc trưng mà giá trị của chúng có thể được sắp xếp theo một thứ tự có ý nghĩa Ví dụ, trong việc thể hiện mức độ hoàn thành khóa học của sinh viên, các giá trị có thể được quy định như sau: 4 cho hoàn thành xuất sắc, 3 cho hoàn thành tốt, 2 cho hoàn thành trung bình, và 1 cho chưa hoàn thành.

Các giá trị được phân loại bao gồm “xuất sắc”, “rất tốt”, “tốt” và “không tốt”, được sắp xếp theo một thứ tự có ý nghĩa Tuy nhiên, sự so sánh giữa hai giá trị liên tiếp không mang tính chất quan trọng về mặt lượng.

Đặc trưng đo theo khoảng (interval-scaled) được định nghĩa khi sự khác biệt giữa hai giá trị có ý nghĩa về mặt số lượng Ví dụ, trong thang đo nhiệt độ, khoảng từ 10-15 độ được coi là rét đậm, trong khi nhiệt độ dưới 10 độ được xem là rét hại Mỗi khoảng nhiệt độ do đó mang một ý nghĩa riêng biệt, phản ánh sự thay đổi rõ rệt trong cảm nhận nhiệt độ.

Các đặc trưng đo theo tỷ lệ (ratio-scaled) cho phép so sánh các giá trị với nhau một cách chính xác Ví dụ, không thể nói rằng nhiệt độ Hà Nội 10 độ nóng gấp mười lần nhiệt độ Matxcơva 1 độ, vì tỷ lệ nhiệt độ không phản ánh sự khác biệt về cảm nhận nhiệt Ngược lại, trong trường hợp cân nặng, một người nặng 100 kg thực sự nặng gấp hai lần một người nặng 50 kg, cho thấy rằng đặc trưng cân nặng là một thang đo tỷ lệ chính xác.

1.3.4 Các ứng dụng của phân cụm

Phân cụm là một công cụ quan trọng trong một số ứng dụng. Sau đây là một số ứng dụng của nó:

TỔNG QUAN VỀ ĐỀ TÀI

Đặt vấn đề

Việc ứng dụng công nghệ thông tin trong lưu trữ và xử lý dữ liệu hiện nay đã trở thành phổ biến trong nhiều lĩnh vực, dẫn đến sự gia tăng không ngừng về khối lượng dữ liệu Điều này tạo điều kiện thuận lợi cho việc khai thác kho dữ liệu, giúp thu thập tri thức hữu ích thông qua các công cụ truy vấn, lập bảng biểu và khai phá dữ liệu.

Khai phá dữ liệu là kỹ thuật sử dụng các lý thuyết như xác suất, thống kê và máy học để phát hiện tri thức tiềm ẩn trong kho dữ liệu lớn mà khó nhận biết bằng phương pháp thông thường Trong lĩnh vực y tế, nguồn dữ liệu phong phú có thể được khai thác để cung cấp thông tin quý giá, hỗ trợ trong việc chẩn đoán và điều trị sớm, từ đó giúp bệnh nhân tránh khỏi nhiều căn bệnh hiểm nghèo.

Trong lĩnh vực y tế Việt Nam, các tuyến y tế ở phường, xã và vùng sâu còn thiếu nhân lực chuyên môn và trang thiết bị cần thiết cho chẩn đoán bệnh, do đó, việc xây dựng hệ thống chẩn đoán là rất cần thiết Hệ thống này sẽ hỗ trợ cán bộ y tế trong việc phát hiện sớm các bệnh nguy hiểm, giảm gánh nặng kinh tế cho gia đình bệnh nhân và xã hội Để chứng minh lợi ích của việc chẩn đoán, đề tài sử dụng bộ dữ liệu về virus corona để thử nghiệm và đánh giá Ứng dụng kỹ thuật phân cụm dữ liệu trong khai phá dữ liệu nhằm xây dựng hệ thống đánh giá là một trong những hướng nghiên cứu chính của đề tài Qua phân tích các thuật toán và đặc điểm dữ liệu về virus COVID-19, đề tài đề xuất sử dụng mô hình phân cụm và thuật toán K-Means để tìm ra quy luật tiềm ẩn trong dữ liệu.

Cơ sở hình thành đề tài

Theo thống kê năm 2019 từ tổ chức Y tế Thế giới (WHO), ra tuyên bố gọi

"COVID-19" là "Đại dịch toàn cầu Khởi nguồn vào tháng 12 năm

Năm 2019, dịch COVID-19 lần đầu tiên được ghi nhận tại thành phố Vũ Hán, miền Trung Trung Quốc, xuất phát từ một nhóm người mắc viêm phổi không rõ nguyên nhân.

Vào ngày 9 tháng 1 năm 2020, Vũ Hán ghi nhận 19 ca tử vong đầu tiên do COVID-19 Theo thống kê đến ngày 22 tháng 1 năm 2020, thời gian từ khi mắc bệnh đến khi tử vong của 17 bệnh nhân đầu tiên dao động từ 6 đến 41 ngày, với số trung vị là 14 ngày Đến ngày 2 tháng 2 năm 2020, theo thông tin từ NHC Trung Quốc, hơn 80% trong tổng số 490 ca tử vong là người trên 60 tuổi, và 75% trong số họ có các bệnh lý nền như bệnh tim mạch và tiểu đường.

Ca tử vong đầu tiên do SARS-CoV-2 ngoài Trung Quốc được ghi nhận tại Philippines vào ngày 1 tháng 2 năm 2020, và ca tử vong đầu tiên ngoài châu Á xảy ra tại Pháp vào ngày 15 tháng 2 cùng năm Đến ngày 24 tháng 2, đã có hơn chục trường hợp tử vong tại Iran, Hàn Quốc và Ý Sau đó, các ca tử vong do coronavirus tiếp tục được báo cáo tại Bắc Mỹ, Úc, San Marino, Tây Ban Nha, Iraq, Anh Quốc, và có thể cả CHDCND Triều Tiên.

Số ca tử vong trên toàn cầu do hoặc có liên quan tới COVID-

19 đã vượt qua con số 10.000 người vào ngày 20 tháng 3 năm

Tính đến ngày 27 tháng 4 năm 2020, Việt Nam ghi nhận hơn 207.008 ca mắc bệnh, cho thấy sự cần thiết phải xây dựng hệ thống đánh giá tỷ lệ mắc bệnh và tỷ lệ tử vong nhằm phát hiện sớm nguy cơ dịch bệnh Đây là vấn đề được nhiều gia đình và xã hội quan tâm Đề tài này áp dụng khai phá dữ liệu để đánh giá các tỷ lệ dựa trên bộ dữ liệu thu thập từ trong nước và quốc tế.

Mục tiêu đề tài

Đề tài này tập trung vào nghiên cứu kỹ thuật phân cụm trong khai phá dữ liệu, nhằm nắm bắt các giải thuật cơ bản phục vụ cho việc phát triển ứng dụng cụ thể Sau khi phân tích đặc điểm của dữ liệu thu thập được và lựa chọn giải thuật phù hợp, mục tiêu chính còn lại là xây dựng và đánh giá chất lượng cũng như hiệu quả của hệ thống.

Đối tượng và phương pháp nghiên cứu

Đề tài này tập trung vào nghiên cứu kỹ thuật phân cụm trong khai phá dữ liệu, đặc biệt là thuật toán k-means, nhằm phân tích cơ sở dữ liệu về tỷ lệ mắc và tử vong do COVID-19 Dữ liệu được thu thập từ các tình nguyện viên ở hơn 200 quốc gia và vùng lãnh thổ khác nhau Với sự hỗ trợ chuyên môn từ các bác sĩ chuyên khoa, nghiên cứu áp dụng phương pháp hồi cứu để thực hiện phân tích dựa trên thuật toán phân cụm trong khai phá dữ liệu.

Ý nghĩa đề tài

Với sự hỗ trợ của công nghệ máy tính, đề tài này cung cấp một phương pháp hữu ích cho cán bộ y tế trong việc đánh giá bệnh nhân Kinh nghiệm thu được từ nghiên cứu sẽ giúp phát hiện sớm bệnh tật, đồng thời khuyến khích sự hợp tác giữa các chuyên gia y tế và khoa học máy tính nhằm tìm ra những giải pháp điều trị hiệu quả hơn, kết hợp hai lĩnh vực này.

2.5.2 Ý nghĩa thực tiễn Đánh giá tỷ lệ nhiễm, chết do virus và phát hiện bệnh là cả một quá trình, đòi hỏi các cán bộ y tế không những phải thật vững chuyên môn mà còn có đầy đủ các trang thiết bị y tế mới có thể chuẩn đoán chính xác bệnh cho bệnh nhân Nếu chuẩn đoán sai bệnh sẽ đưa đến điều trị sai, không phát hiện sớm bệnh cho bệnh nhân…

KỸ THUẬT PHÂN CỤM VÀ THUẬT TOÁN K-MENAS

Giới thiệu về kỹ thuật phân cụm trong Khai phá dữ liệu

Phân cụm là một kỹ thuật quan trọng trong khai phá dữ liệu, thuộc nhóm các phương pháp Unsupervised Learning trong Machine Learning Kỹ thuật này chủ yếu nhằm mục đích nhóm các đối tượng vào các cụm (clusters) sao cho các đối tượng trong cùng một cụm có sự tương đồng (similar) cao, trong khi các đối tượng thuộc các cụm khác lại có sự khác biệt (dissimilar) rõ rệt.

Phân cụm là phương pháp nhằm khám phá bản chất bên trong các nhóm dữ liệu Các thuật toán phân cụm tạo ra các cụm (clusters), nhưng không có tiêu chí nào được coi là tốt nhất để đánh giá hiệu quả của phân tích phân cụm Tiêu chí đánh giá phụ thuộc vào mục đích cụ thể của phân cụm, bao gồm việc giảm dữ liệu, tìm kiếm các cụm tự nhiên, xác định các cụm hữu ích và phát hiện điểm ngoại lệ.

Các kỹ thuật phân cụm được phân loại như sau:

Hình 3 1 Các kỹ thuật phân cụm

Thuật Toán K-Means

K-Means là thuật toán rất quan trọng và được sử dụng phổ biến trong kỹ thuật phân cụm Tư tưởng chính của thuật toán K-Means là tìm cách phân nhóm các đối tượng (objects) đã cho vào K cụm (K là số các cụm được xác đinh trước, K nguyên dương) sao cho tổng bình phương khoảng cách giữa các đối tượng đến tâm nhóm (centroid) là nhỏ nhất.

Thuật toán K-Means được mô tả như sau:

Hình 3 2 Mô tả thuật toán K-Means

Thuật toán K-Means thực hiện qua các bước chính sau:

1 Chọn ngẫu nhiên K tâm (centroid) cho K cụm (cluster) Mỗi cụm được đại diện bằng các tâm của cụm.

2 Tính khoảng cách giữa các đối tượng (objects) đến K tâm (thường dùng khoảng cách Euclidean)

3 Nhóm các đối tượng vào nhóm gần nhất

4 Xác định lại tâm mới cho các nhóm

5 Thực hiện lại bước 2 cho đến khi không có sự thay đổi nhóm nào của các đối tượng

Ví dụ minh họa thuật toán K-Mean:

Trong nghiên cứu này, chúng ta có 4 loại thuốc A, B, C, D, mỗi loại được mô tả bằng 2 đặc trưng X và Y Mục tiêu chính là phân loại các loại thuốc này thành 2 nhóm (K=2) dựa trên các đặc trưng đã được xác định.

Bước đầu tiên trong quá trình phân nhóm là khởi tạo tâm (centroid) cho hai nhóm Chúng ta giả định rằng A sẽ là tâm của nhóm thứ nhất với tọa độ c1(1,1), trong khi B sẽ là tâm của nhóm thứ hai với tọa độ c2(2,1).

Bước 2 Tính khoảng cách từ các đối tượng đến tâm của các nhóm (Khoảng cách

Trong ma trận khoảng cách (D), mỗi cột đại diện cho một đối tượng, với cột đầu tiên tương ứng với đối tượng A và cột thứ hai với đối tượng B Hàng đầu tiên thể hiện khoảng cách của các đối tượng đến tâm của nhóm thứ nhất (c1), trong khi hàng thứ hai phản ánh khoảng cách đến tâm của nhóm thứ hai (c2).

Ví dụ, khoảng cách từ loại thuốc C = (4,3) đến tâm c1(1,1) là 3.61 và đến tâm c2(2,1) là 2.83 được tính như sau:

Bước 3 Nhóm các đối tượng vào nhóm gần nhất

Ta thấy rằng nhóm 1 sau vòng lặp thứ nhất gồm có 1 đối tượng A và nhóm 2 gồm các đối tượng còn lại B, C, D.

Bước 5 là tính toán lại tọa độ trung tâm cho các nhóm mới dựa trên tọa độ của các đối tượng trong nhóm Đối với nhóm 1, chỉ có một đối tượng A, vì vậy tọa độ trung tâm của nhóm 1 vẫn giữ nguyên là c1(1,1) Tọa độ trung tâm của nhóm 2 sẽ được tính toán dựa trên các đối tượng trong nhóm.

Bước 6 Tính lại khoảng cách từ các đối tượng đến tâm mới

Bước 7 Nhóm các đối tượng vào nhóm

Bước 8 Tính lại tâm cho nhóm mới

Bước 9 Tính lại khoảng cách từ các đối tượng đến tâm mới

Ta thấy G = G (Không có sự thay đổi nhóm nào của các đối2 1 tượng) nên thuật toán dừng và kết quả phân nhóm như sau:

Thuật toán K-Means nổi bật với tính đơn giản, dễ hiểu và dễ triển khai Tuy nhiên, hiệu quả của nó phụ thuộc vào việc xác định số lượng nhóm K trước, và chi phí tính toán sẽ tăng cao khi số cụm K và dữ liệu phân cụm lớn.

Áp dụng và sử dụng thuật toán K-means vào bộ dataset Covid-19

Tập dữ liệu COVID-19 chứa thông tin của 200 quốc gia, bao gồm cả những nước đã ghi nhận ca tử vong và những nước chưa có người chết do virus Dữ liệu này bao gồm nhiều thuộc tính quan trọng để phân tích tình hình dịch bệnh.

2 Tỉ lệ người nhiễm trên 1 triệu người.

3 Tỷ lệ nguời chết trên 1 triệu người.

4 Tổng số người kiểm tra của tất cả các nước

5 Tỷ lệ kiểm tra trên 1 triệu người Đây là một bài toán phân cụm và chúng ta có thể sử dụng các phương pháp phân cụm khác như k-Medians, Expectation Maximization (EM) để phân loại cũng cho kết quả khá tốt Chúng ta có thể hình dung tập dữ liệu này thông qua biểu diễn dưới dạng file CSV như sau, các cột từ 1 đến 5 tương ứng với các chỉ số nêu trên.

TH2C NGHIỆM VÀ ĐÁNH GÍA

Cài đặt chương trình

Import các thư viện cần thiết:

Hình 4 1 Import các thư viện Đọc dữ liệu từ file và lọc dữ liệu bằng cách loại ỏ những giá trị NaN:

Hình 4 2 Đọc dữ liệu từ file và lọc dữ liệu

- Tạo một danh sách bao gồm các cột sẽ được sử dụng cho việc phân cụm.

- Tạo mảng X chứa dữ liệu từ các cột được chỉ định trong features.

- Khởi tạo một đối tượng StandardScaler để chuẩn hóa dữ liệu.

- Chuẩn hóa dữ liệu trong X và lưu kết quả vào X_scaled.

Hình 4 3 Tạo các biến cần thiết

Sử dụng thuật toán k mean với 3 cụm lên dữ liệu đã chuẩn hóa:

Hiển thị dữ liệu dưới dạng biểu đồ:

Hình 4 5 Hiển thị dữ liệu dưới dạng biểu đồ

Lưu tập dữ liệu sang một file mới:

Hình 4 6 Lưu tệp vào file mới

Hình 4 7 Dữ liệu đầu vào kết quả đầu ra khi lưu sang một file mới:

Hình 4 8 Kết quả đầu ra kết quả được hiển thị dưới dạng biểu đồ:

Hình 4 9 Kết quả dạng biểu đồ

Ngày đăng: 22/01/2025, 15:13

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN