1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tiểu luận cuối kỳ tin học ứng dụng 2 phân tích dữ liệu sử dụng python và google colab

54 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Tiểu Luận Cuối Kỳ Tin Học Ứng Dụng Phân Tích Dữ Liệu Sử Dụng Python Và Google Colab
Tác giả Trần Tuấn Kiệt, Phạm Yến My, Lê Thị Lệ Mỹ, Nguyễn Hoàng Ngọc
Người hướng dẫn GVHD: Đỗ Phước Sang
Trường học Trường Đại Học Sư Phạm Kỹ Thuật TP.HCM
Chuyên ngành Logistics và Quản lý chuỗi cung ứng
Thể loại tiểu luận
Năm xuất bản 2023
Thành phố Thành Phố Hồ Chí Minh
Định dạng
Số trang 54
Dung lượng 4,43 MB

Cấu trúc

  • 1. Lý do ch ọn đề ............................................................................................. 1 tài 2. M c tiêu ti u lu n ........................................................................................... 1ụểậ CHƯƠNG 1: CHỌN CHỦ ĐỀ VÀ THU THẬP DỮ LIỆU (6)
    • 1.1 T ng quan v v ổ ề ấn đề nghiên c u........................................................................ 3 ứ (8)
    • 1.2 Các lý thuy t liên quan ........................................................................................ 3 ế (8)
    • 1.3 Sơ lượ c các nghiên c ứu trướ c (9)
    • 1.4 Ch n d u ......................................................................................................... 7 ọ ữ liệ CHƯƠNG 2: PHÂN TÍCH DỮ LIỆU (0)
    • 2.1 X ử lý dữ u thô v i Excel ................................................................................ 10 liệ ớ (0)
      • 2.1.1 Quy trình x lý và làm s ch d u .......................................................... 10 ử ạ ữ liệ (0)
      • 2.1.2 S d ử ụng các hàm trong Excel để ử x lý d u......................................... 12 ữ liệ (0)
      • 2.1.3 S d ng Conditional Formatting .............................................................. 14 ử ụ 2.1.4. S d ng Dashboard ................................................................................... 17ử ụ (19)
      • 2.1.5 Vi t Code VBA có vi c tìm ki m và highlight d u ............................. 19 ế ệ ế ữ liệ (24)
    • 2.2 Phân tích dữ liệu sử dụng python và google colab (27)
      • 2.2.1 Dữ liệu data được chọn (27)
      • 2.2.2 K t n ế ối dữ u và th c hi n ch y trên Google Colab ............................. 22 liệ ự ệ ạ (0)
      • 2.2.3 Thông tin kích thước bộ dữ liệu (27)
      • 2.2.4 Mô t ả trườ ng d u .................................................................................. 24 ữ liệ (29)
      • 2.2.5 Vẽ biểu đồ barplot thể hiện tỷ lệ số người nhiễm bệnh ở tỉnh và quốc gia (33)
      • 2.2.6 Vẽ biểu đồ kdeplot thể hiện tỉ lệ số ca mắc mới của dân số ở các thành phố (34)
      • 2.2.7 Vẽ biểu đồ lmplot thể hiện số ca hồi phục và số ca tử vong của các tỉnh (35)
      • 2.2.8 Vẽ biểu đồ boxplot thể hiện sự phân bổ của tổng số ca tử vong trên mỗi triệu người giữa cấp độ tỉnh và quốc gia (36)
  • CHƯƠNG 3: KẾT QUẢ VÀ THẢO LUẬN (38)
    • 3.1 Mô t k t qu phân tích d u ....................................................................... 33 ả ế ả ữ liệ (0)
      • 3.1.1 Biểu đồ cột dữ liệu trên là kết quả phân tích số ca nhiễm mới và tổng số (38)
      • 3.1.2 Bi ểu đồ ộ ữ c t d u này là k t qu phân tích s ca t vong liệ ế ả ố ử ở các địa điểm khác nhau. D ữ liệu đượ ổ chức t c thành m t c ộ ột “Sum of Total Deaths” (tổ ng (39)
      • 3.1.3 Biểu đồ cột dữ liệu này là kết quả phân tích tổng số dân cư của các khu vực (39)
      • 3.1.4 Biểu đồ tròn dữ liệu này là kết quả phân tích số ca hồi phục ở quốc gia và các tỉnh. Dữ liệu được tổ chức thành một cột “Sum of Total Recovered” (tổng số ca hồi phục) (41)
      • 3.1.5 Vẽ biểu đồ barplot thể hiện tỷ lệ số người nhiễm bệnh ở tỉnh và quốc gia (42)
      • 3.1.6 Vẽ biểu đồ kdeplot thể hiện tỉ lệ số ca mắc mới của dân số ở các thành phố (42)
      • 3.1.7 Vẽ biểu đồ lmplot thể hiện số ca hồi phục và số ca tử vong của các tỉnh (43)

Nội dung

Hoạt động sản xuất ở Indonesia bị gián đoạn nguồn cung nguyên liệu, với ước tính khoảng 20% đến 50% nguyên liệu thô cho các nhà máy của đất nước này có nguồn gốc từ Trung Quốc.Việc sử dụ

Lý do ch ọn đề 1 tài 2 M c tiêu ti u lu n 1ụểậ CHƯƠNG 1: CHỌN CHỦ ĐỀ VÀ THU THẬP DỮ LIỆU

T ng quan v v ổ ề ấn đề nghiên c u 3 ứ

Những năm gần đây, đại dịch COVID 19 đã gây ảnh hưởng nghiêm trọng đến - nhiều lĩnh vực, như sức khỏe, kinh tế, xã hội Việc hiểu rõ tình hình COVID-19 là chìa khóa để xây dựng các chiến lược phòng ngừa và đối phó hiệu quả, giảm thiểu tác động tiêu cực lên sức khỏe và xã hội Phân tích dữ liệu về COVID 19 giúp chúng ta hiểu rõ - hơn về sự lây lan của virus, đánh giá tác động của đại dịch đối với sức khỏe cộng đồng, và phát hiện ra các xu hướng có thể hỗ trợ trong việc đưa ra các quyết định quản lý đối phó Giúp chính phủ và các cơ quan y tế chuẩn bị và ứng phó hiệu quả hơn với dịch bệnh là một khía cạnh quan trọng của việc phân tích dữ liệu COVID 19 Đồng thời, - nghiên cứu số liệu về ảnh hưởng của dịch bệnh đối với kinh tế và xã hội tại Indonesia giúp đưa ra các giải pháp phòng ngừa và ngăn chặn sự tái phát của dịch bệnh Mô hình hóa số liệu về COVID 19 của Indonesia cũng mang lại cơ hội so sánh với các quốc gia - khác, từ đó rút ra bài học quan trọng về ảnh hưởng của dịch bệnh và giữ sự cảnh báo trước mối nguy hiểm tái phát

Các lý thuy t liên quan 3 ế

Số Ca Nhiễm (Confirmed Cases): Đây là số lượng người đã được xác nhận dương tính với virus SARS-CoV-2 thông qua xét nghiệm.

Số Ca Nhiễm Mới (New Cases): Số lượng ca nhiễm mới trong một khoảng thời gian cụ thể, thường được tính bằng cách lấy hiệu của số ca nhiễm mới so với ngày trước đó

Số Ca Tử Vong (Deaths): số lượng người đã qua đời do biến chủng COVID-19

Số Ca Hồi Phục (Recovered): Số lượng người đã phục hồi hoàn toàn và không còn triệu chứng hay khả năng lây truyền bệnh

Tỷ Lệ Tử Vong (Mortality Rate): Tỷ lệ giữa số ca tử vong và tổng số ca nhiễm, thường được tính theo phần trăm

Tỷ Lệ Hồi Phục (Recovery Rate): Tỷ lệ giữa số ca hồi phục và tổng số ca nhiễm, thường được tính theo phần trăm

Số Ca Nhiễm Ở Cộng Đồng (Community Transmission): Sự lây truyền của virus giữa cộng đồng mà không có nguồn gốc rõ ràng từ các ca nhập cảnh hay ca liên quan đến điểm dịch

Tốc Độ Lây Nhiễm (Transmission Rate): Số lượng người mà một người nhiễm bệnh có thể truyền nhiễm cho trong một khoảng thời gian nhất định

Khoảng Cách Xã Hội (Social Distancing): Biện pháp giảm tiếp xúc trực tiếp giữa các người dân nhằm giảm rủi ro lây nhiễm

Biện Pháp Phòng Ngừa (Preventive Measures): Các biện pháp như đeo khẩu trang, rửa tay thường xuyên, và tiêm vắc xin nhằm ngăn chặn sự lây nhiễm

Số Liệu Địa Lý (Geographical Data): Dữ liệu về vị trí địa lý của các ca nhiễm, tử vong, và hồi phục, giúp định rõ các vùng có nguy cơ cao

Dữ Liệu Thời Gian Thực (Real time Data): Dữ liệu được cập nhật ngay lập tức và liên - tục để phản ánh tình trạng thực tế của đại dịch.

Sơ lượ c các nghiên c ứu trướ c

Trong nghiên cứu của Đặng Nguyên Anh (2021), tác giả đã thực hiện một đánh giá về ảnh hưởng của đại dịch COVID 19 đến tình hình sức khỏe tinh thần dựa trên phân - tích kết quả của các nghiên cứu trên toàn cầu và đối chiếu với tình hình ở Việt Nam Kết quả đánh giá cho thấy những biến đổi dài hạn và nguy hiểm mà đại dịch COVID-19 có thể gây ra đối với tổn thương tâm lý và sức khỏe tinh thần của cộng đồng Do đó, tác giả nhấn mạnh tầm quan trọng của việc giảm thiểu tác động tiêu cực này và xác định cán bộ y tế là nhóm ưu tiên quan trọng để duy trì sức khỏe cộng đồng và xã hội Bài viết đề xuất một số giải pháp nhằm giảm thiểu tác động tiêu cực của đại dịch đối với sức khỏe tinh thần, đặc biệt là khi xã hội phải thích ứng với việc sống chung với COVID-19 trong bối cảnh bình thường mới Các giải pháp này có thể liên quan đến tăng cường hỗ trợ tâm lý, cung cấp thông tin chính xác và minh bạch, và xây dựng các chiến lược ổn định để giữ cho tâm trạng và tinh thần của người dân được duy trì trong thời kỳ khó khăn này.

Duccio Fanelli và Francesco Piazza (2020) đã tiến hành phân tích diễn biến của đại dịch COVID 19 ở Trung Quốc, Ý và Pháp trong thời gian từ 22/01 đến 15/03/2020 -

5 thông qua dữ liệu dịch bệnh có sẵn bởi Trung tâm Khoa học Hệ thống và Kỹ thuật tại đại học Johns Hopkins Bài nghiên cứu cho thấy tình hình dịch bệnh COVID 19 diễn - biến phức tạp ở cả 3 quốc gia Trung Quốc, Ý và Pháp với đỉnh điểm dịch bệnh ở Ý là

26000 người mắc vào thời điểm nghiên cứu Số ca nhiễm được tin là chỉ chiếm từ 10 đến 20% so với số người thực sự bị nhiễm bệnh, tỷ lệ tử vong hiển nhiên của COVID-

19 nằm giữa 4% và 8% ở Ý, trong khi nó trông thấp hơn đáng kể, giữa 1% và 3% ở Trung Quốc Nghiên cứu góp phần tăng khả năng nhận thức về tính nghiêm trọng của đại dịch COVID 19 và từ đó đưa ra các biện pháp thích hợp để chống lại dịch bệnh, ước - tính lượng máy thở cần thiết để hỗ trợ tình hình dịch bệnh là 2500.

Aranava Bhadral, Arimdam Mukherjeel và Kabita Sarkar (2021) đã điều tra tác động của mật độ dân số đến sự lây lan đại dịch COVID 19 và tỷ lệ tử vong liên quan - trong bối cảnh Ấn Độ Sau khi tiến hành phân tích, họ chỉ ra có mối liên hệ vừa phải giữa mức độ lây lan của COVID 19 và mật độ dân số Những người dân sống trong khu - vực có mật độ dân số cao, như trong các đô thị và thành phố lớn có khả năng tiếp xúc với người khác cao hơn, do đó dịch bệnh lây lan nhanh hơn trong những khu vực có mật độ dân số cao.

Jungsik Noh và Gaudenz Danuser (2021) đã phát triển một khung học máy để ước tính các khoảng thời gian của các trường hợp nhiễm COVID 19 mới thực tế và các ca - nhiễm hiện tại ở tất cả 50 tiểu bang của Hoa Kỳ và 50 quốc gia bị nhiễm bệnh nhiều nhất dựa trên các kết quả xét nghiệm và số ca tử vong được báo cáo Việc ước tính tỷ lệ thực tế của số người hiện đang nhiễm bệnh là rất quan trọng đối với bất kỳ định nghĩa nào về chính sách y tế công cộng, điều mà cho đến thời điểm này có thể đã bị sai lầm do phụ thuộc vào các trường hợp được xác nhận

Trong bài nghiên cứu của Aleksander Aristovnik, Damijana Keržiˇc, Dejan Ravšelj, Nina Tomaževiˇc và Lan Umek (2020) trình bày nghiên cứu toàn diện và quy mô lớn nhất cho đến nay về cách sinh viên nhận thức được tác động của làn sóng khủng hoảng COVID 19 đầu tiên vào đầu năm 2020 đối với các khía cạnh khác nhau trong - cuộc sống của họ sống ở cấp độ toàn cầu Với mẫu gồm 30.383 sinh viên từ 62 quốc gia, nghiên cứu cho thấy rằng trong bối cảnh toàn thế giới đóng cửa và chuyển sang học trực tuyến, sinh viên hài lòng nhất với sự hỗ trợ của đội ngũ giảng viên và quan hệ công chúng của trường đại học của họ Vẫn còn thiếu sót kỹ năng máy tính và nhận thức về

6 khối lượng công việc cao hơn đã ngăn cản họ nhận thức được nâng cao hiệu quả học tập trong môi trường giảng dạy mới Học sinh chủ yếu quan tâm về các vấn đề liên quan đến sự nghiệp và học tập nghề nghiệp trong tương lai của họ và cảm thấy buồn chán, lo lắng, chán nản Đại dịch đã dẫn đến việc áp dụng các hành vi vệ sinh cụ thể (ví dụ: đeo khẩu trang, rửa tay) và không khuyến khích một số hoạt động hàng ngày (ví dụ: rời khỏi nhà, bắt tay) Sinh viên cũng hài lòng hơn với vai trò của bệnh viện và trường đại học trong thời kỳ dịch bệnh so với chính phủ và ngân hàng Kết quả nghiên cứu cũng cho thấy sinh viên với những đặc điểm nhân khẩu xã hội nhất định (bán thời gian, cấp một, khoa học ứng dụng, trình độ thấp hơn mức sống, từ Châu Phi hoặc Châu Á) ít hài lòng hơn với công việc/cuộc sống học tập của họ trong cuộc khủng hoảng, trong khi sinh viên nữ, toàn thời gian, cấp một và sinh viên phải đối mặt với khó khăn tài chính các vấn đề nhìn chung bị ảnh hưởng nhiều hơn bởi đại dịch về đời sống tình cảm và cá nhân trường hợp Các yếu tố chính ảnh hưởng đến sự hài lòng của sinh viên với vai trò của trường đại học cũng là xác định Các nhà hoạch định chính sách và các tổ chức giáo dục đại học trên khắp thế giới có thể được hưởng lợi từ những điều này những phát hiện trong khi xây dựng các khuyến nghị chính sách và chiến lược để hỗ trợ sinh viên trong thời gian này và bất kỳ đại dịch nào trong tương lai.

Shaden A M Khalifa, Mahmoud M Swilam và cộng sự (2021) Nghiên cứu này thảo luận về tác động của Đại dịch COVID 19 trên các khía cạnh khác nhau của đời - sống bao gồm kinh tế, đời sống xã hội, y tế, giáo dục và môi trường Nghiên cứu chỉ ra, COVID-19 đã trở thành một đe dọa nghiêm trọng đối với sức khỏe toàn cầu, dẫn đến việc áp đặt phong tỏa rộng rãi và một cuộc chiến kéo dài chống lại sự lây lan của nó Xã hội đã rút ra bài học từ những đợt bùng phát virus trước như SARS và MERS, nhưng việc triển khai nhanh chóng các biện pháp ngăn chặn và tăng cường nhận thức từ phía cộng đồng thông qua các phương tiện truyền thông xã hội đã đóng vai trò quan trọng trong việc cứu sống Việc làm việc từ xa đã cho phép các chuyên gia đóng góp một cách đáng kể cho lĩnh vực khoa học và giáo dục Mặc dù đang đối mặt với khủng hoảng, môi trường đã hưởng lợi từ sự cách ly của con người, với khí hậu toàn cầu cải thiện đáng kể mang lại những gợi ý về cách giải quyết những thách thức môi trường trước đây được xem là không thể Một số cộng đồng đang giảm nhẹ các biện pháp phòng ngừa do ảnh hưởng tiêu cực đối với tâm lý, đặc biệt là đối với trẻ em, người già và những người có

7 thu nhập hạn chế Tuy nhiên, cần có sự kiên nhẫn và quyết định hợp lý để ngăn chặn sự tái phát của bệnh

Theo Singh, J., & Singh, J (2020), Tổ chức Y tế Thế giới (WHO) đã công bố Virus Corona cũng là gọi COVID 19 là một căn bệnh vào ngày 11 tháng 2 năm 2020 Đây là - một bệnh về đường hô hấp bệnh ảnh hưởng đến sức khỏe tổng thể của mỗi người Trường hợp đầu tiên của COVID -19 được báo cáo lần đầu tiên ở Trung Quốc vào tháng

12 năm 2019 WHO tuyên bố vi rút Corona mới là một bệnh đại dịch vào tháng 3 năm -

2020, có nghĩa là loại virus mới đang lây lan nhanh chóng trên khắp các quốc gia trên thế giới Các triệu chứng của loại virus này bao gồm sốt, ho, đau họng và khó khăn trong việc giao tiếp Con người là động vật xã hội và các mối quan hệ, tương tác xã hội là cần thiết cho sự tồn tại của anh ta Virus Corona mới và các biện pháp ngăn chặn đặt ra một thách thức đối với sự tương tác giữa các cá nhân và cộng đồng với các biện pháp giãn cách và cô lập xã hội, những mối quan hệ xã hội này trở nên nghiêm trọng bị ảnh hưởng

Từ sự tồn tại của con người, những kết nối xã hội, tương tác và các mối quan hệ đã trở thành một phần không thể thiếu trong cuộc sống của chúng ta Vì vậy, nếu thiếu vắng những điều đó kết nối, chắc chắn dẫn đến trạng thái căng thẳng của sự cô đơn, lo lắng, trầm cảm, rối loạn tâm thần, nguy cơ sức khỏe và nhiều vấn đề khác ảnh hưởng đến cuộc sống của cá nhân và tập thể xã hội nói chung Bài viết này là một bài đánh giá bài viết dựa trên thông tin thứ cấp được thu thập từ nhiều nguồn khác nhau chẳng hạn như các bài báo, báo, sách đã xuất bản và chưa xuất bản Báo cáo của các tổ chức Chính phủ, tổ chức phi chính phủ và Ủy ban Trong bài viết này, tác giả đã cố gắng phân tích tác động của Covid 19 tới cuộc sống của mỗi cá nhân nói chung.-

8 Đường link tải dữ liệu: https://www.kaggle.com/datasets/hendratno/covid19-indonesia/data

Sơ lược về bộ dữ liệu đã tải

Bộ dữ liệu “COVID-19 Indonesia Dataset” bao gồm các thống kê số liệu tình hình COVID-19 ở Indonesia như vùng, tổng số ca mắc, tổng số người chết, tổng số người hồi phục Từ đó có thể đánh giá được tác động tiêu cực của đại dịch COVID-19 đến Indonesia nói riêng và thể giới nói chung.

Bộ dữ liệu gồm 2119 dòng và 36 cột thông tin bao gồm:

• Location ISO Code (Mã vùng)

• New Cases (trường hợp mắc COVID-19 mới)

• New Deaths (Số người chết mới)

• New Recovered (Số người hồi phục mới)

• New Active Cases (Số ca nhiễm mới đang hoạt động)

• Total Cases (Tổng số trường hợp mắc COVID-19)

• Total Deaths (Tổng số người chết)

• Total Recovered (Tổng số người đã hồi phục)

• Total Active Cases (Tổng số ca nhiễm đang hoạt động)

• Location Level (cấp độ vùng địa lý)

• City or Regency (Thành phố hoặc quận/huyện)

2.1.3 S d ng Conditional Formatting ử ụ Điều kiện mã vùng là ID-JK và tổng số người số người mắc COVID 19 lớn hớn 30.-

Kết quả thu được những hàng có mã vùng là ID JK và số người mắc lớn hơn 30 được - tô màu đỏ.

15 Điều kiện tổng số người đã hồi phục lớn hơn 100

Kết quả thu được như sau:

16 Điều kiện mã vùng là IDN, tổng số ca mắc mới lớn hơn hoặc bằng 2 và tổng số người chết lớn hơn hoặc bằng 2.

Kết quả thu được như sau:

2.1.4.1 Biể đồu thống kê s m c m i tốca ắ ớ và ổng s m c COVID-19 ốca ắ

Qua biểu đồ trên ta có thể thấy Indonesia có số ca mắc mới và tổng số ca mắc cao nhất.

18 2.1.4.2 Biể đồ ổngu t s ố ngườ đã ồi h i phục theo Location Level

Hình 1: Biểu đồ Top 5 vùng có tổng số người chết lớn nhất

2.1.4.4 Biể đồ Top 10u vùng có dân s l n ố ớ nhất

2.1.5 Vi t Code VBA có vi c tìm ki m và highlight d u ế ệ ế ữliệ

2.1.5.1 Hàm tìm kiếm và highlight Location ISO Code

Khi người dùng nhập Location ISO Code cần tìm các ô cái Code cần tìm sẽ được tô màu như sau:

2.1.5.2 Hàm tìm kiếm và highlight Location Level

Khi người dùng nhập Location Level cần tìm thì ô Province và ô Country sẽ được tô màu như sau:

2.1.5.3 Hàm tìm kiếm d u và highlight Location ữliệ

Khi nhập Location vào ô tìm kiếm, các ô chứa Location cần tìm sẽ được tô màu sau hình bên dưới.

2.2 Phân tích dữ liệu sử dụng python và google colab

2.2.1 Dữ liệu data được chọn Đường link dẫn đến data: https://www.kaggle.com/datasets/hendratno/covid19- indonesia

2.2.2 K t n i d u ế ố ữliệ và thực hiện chạy trên Google Colab

Link google colab: https://colab.research.google.com/drive/1-

B_qDwtuzSqk9vYdDlHH4ePChQWLP6aC?usp=sharing

2.2.3 Thông tin kích thước bộ ữ d u liệ

Chạy các lệnh đọc file bằng pandas

• Pandas sẽ được đưa vào, sau đó được sử dụng làm công cụ đọc dữ liệu của file qua các lệnh như read, head

• Lệnh đọc dữ liệu sẽ được thực hiện, sau đó hiển thị 10 dòng đầu tiên tổng quan về dữ liệu bao gồm date,location, new cases, new deaths…

Tiếp theo là các thông tin liên quan đến kiểu dữ liệu và giá trị khác null, thông tin thống kê chi tiết của toàn bộ dữ liệu Trong đó, dữ liệu này có dung lượng 596.1+ KB và tất cả các cột bao gồm 2119 dòng dữ liệu khác null Trong đó, kiểu dữ liệu được sử dụng bao gồm object, int64 Hơn nữa, đọc dữ liệu này cũng cho biết các thống kê mô tả sơ bộ về dữ liệu bao gồm các con số thể hiện đầy đủ thông tin liên quan

Dữ liệu bao gồm 36 cột, trong đó có các thông tin liên quan đến số lượng tổng thể của đợt dịch covid19 Về tổng quan trường dữ liệu, ta có các yếu tố sau:

Phân tích dữ liệu sử dụng python và google colab

2.2.1 Dữ liệu data được chọn Đường link dẫn đến data: https://www.kaggle.com/datasets/hendratno/covid19- indonesia

2.2.2 K t n i d u ế ố ữliệ và thực hiện chạy trên Google Colab

Link google colab: https://colab.research.google.com/drive/1-

B_qDwtuzSqk9vYdDlHH4ePChQWLP6aC?usp=sharing

2.2.3 Thông tin kích thước bộ ữ d u liệ

Chạy các lệnh đọc file bằng pandas

• Pandas sẽ được đưa vào, sau đó được sử dụng làm công cụ đọc dữ liệu của file qua các lệnh như read, head

• Lệnh đọc dữ liệu sẽ được thực hiện, sau đó hiển thị 10 dòng đầu tiên tổng quan về dữ liệu bao gồm date,location, new cases, new deaths…

Tiếp theo là các thông tin liên quan đến kiểu dữ liệu và giá trị khác null, thông tin thống kê chi tiết của toàn bộ dữ liệu Trong đó, dữ liệu này có dung lượng 596.1+ KB và tất cả các cột bao gồm 2119 dòng dữ liệu khác null Trong đó, kiểu dữ liệu được sử dụng bao gồm object, int64 Hơn nữa, đọc dữ liệu này cũng cho biết các thống kê mô tả sơ bộ về dữ liệu bao gồm các con số thể hiện đầy đủ thông tin liên quan

Dữ liệu bao gồm 36 cột, trong đó có các thông tin liên quan đến số lượng tổng thể của đợt dịch covid19 Về tổng quan trường dữ liệu, ta có các yếu tố sau:

Mô tả cột Date: sau khi mô tả cột date cho ra kết quả 10 mốc thời gian, ở mỗi mốc thời gian sẽ diễn tả những ngày bị mắc covid19 Và dưới đây là dữ liệu thu thập được thể hiện ở dưới hình như sau:

Mô tả cột Total Cases: cột total cases trong bộ dữ liệu về covid 19 chứa thông tin về tổng số lượt mắc covit 19 tại 1 địa điểm cụ thể đây là 1 cột quan trọng để theo dõi và phân tích sự lây lan của virut trong 1 khu vực quốc gia, thông qua cột total cases này ta có thể thực hiện các phân tích và đưa ra những nhận định quan trọng như tổng số ca nhiễm như sau:

Giá trị '1' xuất hiện 167 lần

Giá trị '2' xuất hiện 116 lần

Giá trị '5' xuất hiện 54 lần

Giá trị '3' và '4' mỗi giá trị xuất hiện 51 lần

Giá trị cao nhất được hiển thị trong ảnh là '3288', và nó xuất hiện 1 lần Ngoài ra còn có các giá trị khác như '745', '768', '709', '1577' mỗi giá trị cũng xuất hiện 1 lần

Giá trị cao nhất được hiển thị trong ảnh là '3288', và nó xuất hiện 1 lần Ngoài ra còn có các giá trị khác như '745', '768', '709', '1577' mỗi giá trị cũng xuất hiện 1 lần

Mô tả cột Total Deaths: Total Deaths là tổng lượt người tử vong do covid 19 gây ra Đây là 1 thống kê quan trọng để đánh giá tác động của đại dịch này đến sức khỏe và cuộc sống của con người trên một quốc gia

Mô tả cột Total Recovered: Total Recovered ( hay còn gọi là tổng số người hồi phục) là số lượng người đã bình phục và hồi phục hoàn toàn sau khi mắc covid 19 Đây là một chỉ số quan trọng để đánh giá khả năng chống lại bệnh và đo lường hiệu quả của các biện pháp điều trị

Mô tả cột New Cases: Thông qua số liệu trong cột new cases được cập nhật hằng ngày và bao gồm số ca nhiễm mới được xác nhận trong ngày đó Đây có thể là số lượng ca nhiễm mới được xác định thông qua xét nghiệm chúng ta có thể đánh giá được mức độ lây lan của virus trong một khu vực cụ thể và theo dõi xu hướng tăng giảm của số ca nhiễm mới

Mô tả cột Location Level: cột location level thuộc kiểu dữ liệu số nguyên

2.2.5 Vẽ biểu đồ barplot thể hiện tỷ lệ số người nhiễm bệnh ở tỉnh và quốc gia

Hình 2: Biểu đồ biểu thị tỉ lệ số người nhiễm bệnh ở tỉnh và quốc gia

Qua biểu đồ ta thấy được cột màu xanh biểu thị số lượng nhiễm bệnh ở tỉnh thấp hơn so với quốc gia Cột màu cam biểu thị số lượng nhiễm bệnh tại quốc gia với số lượng lớn, xấp xỉ 6000 trường hợp Sai số của cột biểu diễn Quốc gia khá cao, điều này có thể nói lên sự biến động hoặc khác biệt lớn trong các ước lượng số lượng nhiễm bệnh ở cấp quốc gia.

2.2.6 Vẽ biểu đồ kdeplot thể hiện tỉ lệ số ca mắc mới của dân số ở các thành phố

Hình 3: Biểu đồ biểu thị tỉ lệ số ca mắc mới của dân số ở các thành phố

Từ biểu đồ này, ta có thể thấy được điều :

Có một sự tập trung rất cao của giá trị "New Cases" xung quanh giá trị 0 Điều này được thể hiện qua đỉnh cao của các đường KDE Phạm vi của "New Cases" xuất hiện trong biểu đồ là từ âm đến dương, với một số ít trường hợp ở phía bên trái của 0 (có thể đại diện cho dữ liệu sai lệch hoặc các trường hợp đặc biệt) Mức độ mỏng manh của các đường KDE cho các giá trị "Total Cities" cao hơn cho thấy sự phân phối lệch hoặc không đồng đều của "New Cases" khi so với các giá trị "Total Cities" thấp hơn

Mỗi màu đại diện cho một nhóm "Total Cities" riêng biệt, và số lượng các thành phố tăng lên không đồng nghĩa với việc có nhiều 'New Cases' hơn mà lại là mật độ thông tin giảm đi

2.2.7 Vẽ biểu đồ lmplot thể hiện số ca hồi phục và số ca tử vong của các tỉnh Indonesia

Hình 4: Biểu đồ thể hiện tỉ lệ số ca hồi phục và số ca tử vong của các tỉnh ở

Indonesia Các điểm dữ liệu được phân loại theo màu sắc dựa trên tỉnh, giúp phân biệt dữ liệu giữa các tỉnh Khoảng tin cậy được thể hiện bằng các vùng màu nhạt hơn, cho thấy mức độ chắc chắn về mối quan hệ thống kê giữa số ca hồi phục và số ca tử vong Một số tỉnh có số ca hồi phục và số ca tử vong cao, trong khi nhiều tỉnh khác lại thấp hơn rất

31 nhiều Có thể thấy mối quan hệ dường như tăng tính tuyến tính, tức là khi số ca hồi phục tăng thì số ca tử vong cũng tăng theo

2.2.8 Vẽ biểu đồ boxplot thể hiện sự phân bổ của tổng số ca tử vong trên mỗi triệu người giữa cấp độ tỉnh và quốc gia

Hình 5: Biểu đồ thể hiện sự phân bổ của tổng số ca tử vong trên mỗi triệu người giữa cấp độ tỉnh và quốc gia Đối với nhóm Province: Đường ngang ở giữa hộp (median) khá thấp, có thể cho thấy giá trị trung bình của tổng số ca tử vong trên mỗi triệu người ở cấp độ tỉnh thấp Hộp có vẻ hơi lệch về phía dưới, có nghĩa là nửa dưới của dữ liệu có phạm vi nhỏ hơn nửa trên Đối với nhóm Country: Phạm vi và sự phân tán của dữ liệu nhỏ hơn so với nhóm 'Province' Có ít giá trị ngoại lệ và chúng không cao như ở nhóm 'Province' Median cao hơn so với nhóm 'Province' cho thấy giá trị trung bình cao hơn Hộp có vẻ cân đối hơn, cho thấy sự phân bố dữ liệu đều hơn

Do đó biểu đồ cho thấy có sự khác biệt rõ ràng về phân phối tổng số ca tử vong trên mỗi triệu người giữa cấp độ tỉnh và quốc gia, với cấp độ tỉnh có sự biến động và giá trị ngoại lệ cao hơn đáng kể so với cấp độ quốc gia

2.2.9 Vẽ biểu đồ catplot so sánh phân phối của tổng số ca nhiễm giữa hai cấp độ địa lí: tỉnh và quốc gia

Hình 6: Biểu đồ so sánh phân phối của tổng số ca nhiễm giữa hai cấp độ địa lí: tỉnh và quốc gia

Ngày đăng: 16/04/2024, 16:30

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w