1. Trang chủ
  2. » Luận Văn - Báo Cáo

Cấu trúc rời rạc cho khmt (co1007) thống kê khảo sát kết quả covid 19 môn cấu trúc rời rạc

106 0 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Thống kê khảo sát kết quả Covid-19 môn Cấu trúc rời rạc
Tác giả Nguyễn Ngọc Lễ, Nguyễn Sỹ Thành, Vừ Nguyễn Đoan Thảo, Hà Thựy Dương, Nguyễn Hồ Nhật Hà, Phạm Anh Dũng, Phạm Đức Hào
Người hướng dẫn Huỳnh Tường Nguyên
Trường học Trường Đại Học Bách Khoa
Chuyên ngành Khoa học & Kỹ thuật Máy Tính
Thể loại Bài tập lớn
Năm xuất bản 2022
Thành phố Tp. Hồ Chí Minh
Định dạng
Số trang 106
Dung lượng 19,21 MB

Cấu trúc

  • 5.1 Phan i: Nhóm câu hỏi liên quan đến tổng quát dữ liệu (0)
    • 5.1.1 Tập mẫu thể hiện thu thập dữ liệu vào các năm nào (14)
    • 5.1.2 Số lượng đất nước và định danh của mỗi đất nước (hiển thị 10 đất nước đầu tiên) 14 (15)
    • 5.1.3 Số lượng châu lục trong tập mẫu ........ .. . c Q Q Q Q22 vŸ 14 (15)
    • 5.1.4 Số lượng dữ liệu thể hiện thu thập dữ liệu được trong từng châu lục và tổng số (16)
    • 5.1.5 Số lượng dữ liệu thể hiện thu thập dữ liệu được trong từng đất nước (hiển thị 10 dất nước cuối cùng) và tổng SỐ... ... TQ nu va 16 (17)
    • 5.1.6 Cho biết các châu lục nào có lượng dữ liệu thể hiện thu thập dữ liệu nhỏ nhất và, giá trị nhỏ nhat dé... LH ng ng ng và và và sa và 16 (17)
    • 5.1.7 Cho biết các châu lục nào có lượng dữ liệu thể hiện thu thập dữ liệu lớn nhất và, giá trị lớn nhất đó ......... . . c c Q Q Q Q Q Q n n v v và và và và v và 17 5.1.8. Cho biết các nước nào có lượng dữ liệu thể hiện thu thập dữ liệu nhỏ nhất và giá trinhé nhat do... aaặài HH [a(sa (18)
    • 5.1.9. Cho biết các nước nào có lượng dữ liệu thể hiện thu thập dữ liệu lớn nhất và giá (19)
    • 5.1.10 Cho biết các date nào có lượng dữ liệu thể hiện thu thập dữ liệu nhỏ nhất và giá trinhé nhat do... aaặài HH [a(sa (19)
    • 5.1.11 Cho biết các date nào có lượng dữ liệu thể hiện thu thập dữ liệu lớn nhất và giá (20)
    • 5.1.12 Cho biết số lượng dữ liệu thể hiện thu thập dữ liệu được theo date vA chau luc (0)
    • 5.1.13 Cho biết số lượng dữ liệu thể hiện thu thập dữ liệu được là lớn nhất theo date và, châu lỊC........... . . c c c Q c Q Q Q c n nu nà v.v lv và vi k v k v k và sàng 20 (21)
    • 5.1.14 Cho biết số lượng dữ liệu thể hiện thu thập dữ liệu được là nhỏ nhất theo date va châu lỊC........... . . c c c Q c Q Q Q c n nu nà v.v lv và vi k v k v k và sàng 20 (21)
    • 5.1.15 Với một date là k và châu lục t cho trước, hãy cho biết số lượng dữ liệu thể hiện (22)
    • 5.1.16 Có đất nước nào mà số lượng dữ liệu thể hiện thu thập dữ liệu được là bằng nhan không? Hãy cho biết các iso_ code của đất nước đó (22)
    • 5.1.17 Liệt kê iso_ code, tên đất nước mà chiều dài iso code lớn hơn3 (0)
  • 5.2 Phan ii: Nhóm câu hỏi liên quan đến mô tả thống kê cơ bản dữ liệu (0)
    • 5.2.1 Tính giá trị nhỏ nhất, lớn nhất............... va 23 (24)
    • 5.2.2 Tính tứ phân vị thứ nhất (Q1), thứ hai (Q2), thứ ba(Q3) (24)
    • 5.2.3 Tính giá trị trung bình (ÂVB) .... . cv và kg và 24 (25)
    • 5.2.4 Tính giá trị độ lệch chuẩn (St)... ng ng gà va 24 (25)
    • 5.2.5 Đờm xem cú bao nhiờu OMfẽ@TS........ . . c c Q Q Q Quỏn 25 (0)
    • 5.2.6 Lập bảng mô tả số liệu thống kê cho từng đất nước thuộc về nhóm (26)
    • 5.2.7 Vẽ biểu đồ boxplot hay còn được gọi là box-and-whisker cho nhiễm coronavirus (28)
  • 5.3. Phần ii: Nhóm câu hỏi liên quan đến dữ liệu thể hiện thu thập dữ liệu (29)
    • 5.3.1 Có bao nhiêu ngày có số lần dữ liệu không được báo cáo mới (29)
    • 5.3.2 Có bao nhiêu ngày có số ca nhiễm/ tử vong là thấp nhất được báo cáo mới (30)
    • 5.3.3. Có bao nhiêu ngày có số ca nhiễm/ tử vong là cao nhất được báo cáo mới (30)
    • 5.3.5 Cho biết số ngày ngắn nhất liên tiếp mà không có dữ liệu được báo cáo (32)
    • 5.3.6 Cho biết số ngày dài nhất liên tiếp mà không có dữ liệu được báo cáo (32)
    • 5.3.7 Cho biết số ngày ngắn nhất liên tiếp mà không có người nhiễm bệnh mới (33)
    • 5.3.8. Cho biết số ngày dài nhất liên tiếp mà không có người nhiễm bệnh mới (33)
  • 5.4 Phần iv: Nhóm câu hỏi liên quan đến trực quan dữ liệu (34)
    • 5.4.1 Vẽ biểu đỗ tần số tích lũy quốc gia cho các châu lục (0)
    • 5.4.2 Vẽ biểu đỗ tần số tương đối quốc gia cho các châu lục (0)
    • 5.4.3 Vẽ biểu đồ thể hiện nhiễm bệnh đã báo cáo của các quốc gia mà thuộc về nhóm (36)
  • trong 7 ngày cuối của năm cuối cùng.......... . Q2 35 5.4.4. Vẽ biểu đồ thể hiện tử vong đã báo cáo của các quốc gia mà thuộc về nhóm trong (0)
    • 5.4.5 Vẽ biểu đồ phổ đất nước xuất hiện outliers cho nhiễm bệnh (38)
    • 5.4.6 Vẽ biểu đồ phổ đất nước xuất hiện outliers cho tử vong (39)
    • 5.5 Phần v: Nhóm câu hỏi liên quan đến trực quan dữ liệu theo thời gian là tháng (40)
      • 5.5.1 Biéu đồ thể hiện thu thập dữ liệu nhiễm bệnh cho từng tháng (0)
      • 5.5.2 Biểu đỗ thể hiện thu thập dữ liệu tử vong cho từng tháng (0)
      • 5.5.3. Biểu đồ thể hiện thu thập dữ liệu gồm nhiễm bệnh và tử vong cho từng tháng (44)
      • 5.5.4 Biểu đỗ thể hiện thu thập dữ liệu nhiễm bệnh gồm 2 thang cuéi cia nadm (0)
      • 5.5.5 Biểu đồ thể hiện thu thập dữ liệu tử vong gồm 2 tháng cuối của năm (47)
      • 5.5.6 Biểu đồ thể hiện thu thập dữ liệu nhiễm bệnh và tử vong gồm 2 tháng cuối của năm. 47 (48)
      • 5.5.7 Biểu đồ thể hiện thu thập dữ liệu nhiễm bệnh tích lũy cho từng tháng (50)
      • 5.5.8. Biểu đồ thể hiện thu thập dữ liệu tử vong tích lũy cho từng tháng (52)
    • 5.6 Phan vi: Nhóm câu hổi liên quan đến trực quan dữ liệu theo trung bình 7 ngày gần nhất 53 (0)
      • 5.6.1 Biểu đỗ thể hiện thu thập dữ liệu nhiễm bệnh cho từng tháng (0)
      • 5.6.2 Biểu đỗ thể hiện thu thập dữ liệu nhiễm bệnh cho từng tháng (0)
      • 5.6.3 Biểu đồ thể hiện thu thập dữ liệu gồm nhiễm bệnh và tử vong cho từng tháng (0)
      • 5.6.4 Biểu đồ thể hiện thu thập dữ liệu nhiễm bệnh gồm 2 tháng cuốỗi của năm (61)
      • 5.6.5 Biểu đồ thể hiện thu thập dữ liệu tử vong gồm 2 tháng cuối của năm (62)
      • 5.6.6 Biểu đồ thể hiện thu thập dữ liệu gồm nhiễm bệnh và tử vong gồm 2 tháng cuối CỦã, HĂM. ... . Q0 nà cà vn lv ki k k k v k N k k k k k k KUa 62 (63)
      • 5.6.7 Biểu đồ thể hiện thu thập dữ liệu nhiễm bệnh tích lũy cho từng tháng (64)
      • 5.6.8. Biểu đồ thể hiện thu thập dữ liệu tử vong tích lũy cho từng tháng (66)
    • 5.7 Phan vii: Nhóm câu hỏi liên quan đến tất cả quốc gia theo thời gian là tháng (0)
      • 5.7.1 Biểu đồ thể hiện thu thập dữ liệu nhiễm bệnh theo thời gian là tháng của tất cả quéc gia NA ỶšMHIRAAT (68)
      • 5.7.2. Biểu đồ thể hiện thu thập dữ liệu tử vong theo thời gian là tháng của tất cả quốc (70)
  • BIA 69 5.7.3. Biểu đồ thể hiện thu thập dữ liệu nhiễm bệnh theo thời gian là 2 tháng cuối của, năm của tất cả qUỐc BÌa........ . . . c Q Q Q g Q ng ng ng gà ga và sa và 70 (0)
    • 5.7.4 Biểu đồ thể hiện thu thập đữ liệu tử vong theo thời gian là 2 tháng cuối của năm ửi ỏc 6Ă 2 .... . HH... A1 72 (0)
    • 5.7.5 Biểu đồ thể hiện thu thập dữ liệu nhiễm bệnh tương đối tích lũy theo thời gian là (74)
    • 5.7.6 Biểu đồ thể hiện thu thập dữ liệu tử vong tương đối tích lũy theo thời gian là 2 tháng cuối của năm cia tat ca quéc gia (75)
    • 5.8 Phần viii: Nhóm câu hồi liên quan đến tất cả quéc gia theo trung binh 7 ngay gan nhat . 75 (0)
      • 5.8.1 Biểu đồ thể hiện thu thập dữ liệu nhiễm bệnh theo thời gian là tháng của tất cả quốc gia theo trung bình 7 ngày gần nhất........... . co 76 (77)
      • 5.8.2 Biéu đồ thể hiện thu thập dữ liệu tử vong theo thời gian là tháng của tất cả quốc (0)
      • 5.8.4 Biểu đồ thể hiện thu thập dữ liệu tử vong theo thời gian là 2 tháng của năm của tất cả quốc gia theo trung bình 7 ngày gần nhất (81)
      • 5.8.5 Biểu đồ thể hiện thu thập dữ liệu nhiễm bệnh tích lũy theo thời gian là 2 tháng của năm của tất cả quốc gia theo trung bình 7 ngày gần nhất (82)
    • 5.9 Phần ix: Nhóm câu hỏi liên quan đến sự tương quan giữa nhiễm bệnh và tử vong (84)
      • 5.9.1 Vẽ biểu đồ thể hiện phần trăm giữa nhiễm bệnh tích lũy trên tổng nhiễm bệnh và phần trăm tử vong tích lũy trên tổng số tử vong cho từng quốc gia theo thời gian. Vẽ 2 đường trên cing biéu dé. 2 84 (85)
      • 5.9.2 Xét tuong quan trong méi thang: .. 2... va 87 (0)
      • 5.9.3 Xét tương quan trong mỗi tháng theo trung bình 7 ngày gan nhat (91)
    • 5.10 Phần x: Nhóm câu hồi riêng........... .c Q c Q g Q ng ng ng. và v2 va 95 (0)
      • 5.10.1 Câu 4: Với k là mốc bùng phát dịch, hãy xác định k và cho biết các khoảng thời (96)
      • 5.10.2 Câu 5: Với k là mốc bùng tử vong, hãy xác định k và cho biết các khoảng thời gian bùng phất......... ee 97 (98)
      • 5.10.3 Câu 6: Khoảng thời gian bùng phát nhiễm bệnh lớn nhất giữa các quốc gia có chồng lên nhau không, Cho biết khoảng thời gian giao nhan đó? (99)
      • 5.10.4 Cau 8: Thử dự đoán thời gian nào dịch sẽ giảm tối thiểu hay kết thúc ở các quốc (101)
  • SIAN 86 Biểu đồ phần trăm nhiễm bệnh tích lũy và phần trăm tử vong tích lũy của Chile theo thời (0)
  • SIAN 86 Tương quan giữa số ca nhiễm và số ca tử vong của Brazil vao thang 4,5,6,8 (0)

Nội dung

75 5.8.1 Biểu đồ thể hiện thu thập dữ liệu nhiễm bệnh theo thời gian là tháng của tất cả quốc gia theo trung bình 7 ngày gần nhất.... Biểu đồ thể hiện thu thập dữ liệu nhiễm bệnh theo t

Phan i: Nhóm câu hỏi liên quan đến tổng quát dữ liệu

Tập mẫu thể hiện thu thập dữ liệu vào các năm nào

1) Tạo 1 cột dữ liệu "year" chứa dữ liệu các năm tương ứng với đữ liệu trong cột "date"

2) Lọc ra các năm khác nhau trong cột "year"

#TAD COT DU LIEU "YEAR" covid_data$date % summarize(.,Observations=n())

#DEM TONG SO LUONG DU LIEU CUA CAC CHAU LUC covid_data.continent %>% summarize ( ,Count=n())

Két qua: continent Observations Africa

Asia Europe North America Oceania

Hình 6: Số lượng đữ liệu thu thập được trong từng châu lục

1 153316 Hinh 7: Tổng số lượng dữ liệu thu thập được của các châu lục Đề bài tập lớn môn Cấu trúc Rời rạc cho KHMT (C01007) - Niên khóa 2021-2022 Trang 15/105

Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học & Kỹ Thuật May Tính

Số lượng dữ liệu thể hiện thu thập dữ liệu được trong từng đất nước (hiển thị 10 dất nước cuối cùng) và tổng SỐ TQ nu va 16

1) Lọc ra các dữ liệu trong tập mẫu mà trong cột "contiment" khác rỗng: sử dụng lại biến

2) Đếm số lượng dữ liệu trong từng đất nước: Đếm số lần lặp lại của mỗi đất nước trong cét "location"

3) Đếm tổng số dữ liệu của các đất nước

#DEM SO LUONG DU LIEU TRONG TUNG DAT NUOC observations.of.each.location % group_by(location) %>% summarize(.,Observations=n()) wow ons

#IN RA 10 DAT NUDC CUDI CUNG s observations of.each.location 4%>% tail (10) ứ #DEM TONG SO LUONG DU LIEU THU THAP DUDC CUA CAC DAT NuOC

Observations vati Venezuela Vietnam wallis and Futuna

Y z we Hình 8: Số lượng đữ liệu thu thập được của 10 đất nước cuối cùng

1 153316 Hình 9: Tổng số lượng dữ liệu thu thập được của các đất nước

Cho biết các châu lục nào có lượng dữ liệu thể hiện thu thập dữ liệu nhỏ nhất và, giá trị nhỏ nhat dé LH ng ng ng và và và sa và 16

1) Tìm số lượng dữ liệu thủ thập được trong từng châu lục: sử dụng lại biến ""observa- tions.of.each.continent"

2) Tìm giá trị nhỏ nhất

3) In ra các châu lục có số lượng dữ liệu thu thập được ứng với giá trị nhỏ nhất vừa tìm được

#TIM GIA TRI NHO NHAT min observations.of.each.continent % summarize(.,Observations=n())

#TAD VONG LAP FOR DE IN RA ISO_CODE CUA CAC DAT NUDC CŨ CUNG SO LUONG DU LIEU for (i in min.observations.of.each.location:max observations of.each.location)f{ c newCaseQ3 + 1.5*(newCaseQ3 - newCaseQi))) newDeathOutlier = length(which(Ct$new_deaths < newDeathQ1i - 1.5*(newDeathQ3 - newDeathQi) | Ct$new_deaths > newDeathQ3 + 1.5*(newDeathQ3 - newDeathQ1))) cat(df[i, 1], "NEW CASES DUTLIERS:", newCaseDutlier ,"\n") cat(df[i, 1], “NEW DEATHS DUTLIERS:", newDeathDutlier,"\n")

Brazil NEW CASES OUTLIERS: 26 Brazil NEW DEATHS OUTLIERS: 42 Chile NEW CASES OUTLIERS: 38 Chile NEW DEATHS OUTLIERS: 28 Venezuela NEW CASES OUTLIERS: 15 Venezuela NEW DEATHS OUTLIERS: 21

Hinh 26: 96 céc Outlier ctia céc quéc gia duge xét

5.2.6 Lập bảng mô tả số liệu thống kê cho từng đất nước thuộc về nhóm

Dùng các kết quả đã tính được ở câu trước để lập bảng mô tả theo yêu cầm đề bài

5.2.6.2 Thực hiện bằng R: Đề bài tập lớn môn Cấu trúc Rời rạc cho KHMT (C01007) - Niên khóa 2021-2022 Trang 25/105

Po Trường Đại Học Bách Khoa Tp.Hồ Chí Minh

Khoa Khoa Học & Kỹ Thuật May Tính ¡ Tnfect = đata.frame(location=character(), wow Min = integer() ,

Qi=double(), Q2=double(), Q3=double(), Max=integer (), Avg=double(), Std=double(), Dutlier=integer ())

9 Death = data.frame(location=character(),

Min = integer() , Qi=double(), Q2=double(), Q3=double(), Max=integer (), Avg=double(), Std=double(), Outlier=integer ()) iy for (i in 1:3)¢

#LAY DU LIEU QUOC GIA CAN XU LY

The dataset contains quantile values for new cases and new deaths The first quartile (Q1) represents the 25th percentile, the median (Q2) represents the 50th percentile, and the third quartile (Q3) represents the 75th percentile These values provide insights into the distribution of new cases and new deaths, offering a concise summary of their central tendencies and spread.

Outliers are identified using interquartile range (IQR) For new cases, outliers are defined as values below the first quartile (Q1) minus 1.5 times the IQR or above the third quartile (Q3) plus 1.5 times the IQR Similarly, for new deaths, outliers are defined as values below Q1 minus 1.5 times the IQR or above Q3 plus 1.5 times the IQR This method effectively identifies extreme values in the data.

#TAD BANG MO TA SO LIEU THONG KE

Infect[nrow(Infect)+1, ] = c(df[i, 1],min(Ct$new_cases,na.rm = TRUE),newCaseQl, newCaseQ2 ,newCaseQ3 ,max(Ct$new_cases,na.rm = TRUE) ,newCaseAvg ,newCaseStd, newCaseDutlier)

Death [nrow(Death) +1, ] = c(€df[i, 1],min(Ct$new_deaths ,na.rm = TRUE) ,newDeathQ1, newDeathQ2 ,newDeathQ3 ,max(Ct$new_deaths ,na.rm = TRUE),newDeathAvg,newDeathStd, newDeathDutlier)

* location Min Qi Q2 Q3 Max Avg Std Outlier

3 Venezuela 0 245 590 1100.25 4418 721.120056497175 631370116971211 15 Hình 27: Đáng mô tả số liệu thông kê cho số ca nhiễm,

^ leeation Min Qi Q2 Q3 Max Avg Std Outlier

Hình 28: Đáng mô tá số liệu thông bê cho số ca tử ong Đề bài tập lớn môn Cấu trúc Rời rạc cho KHMT (C01007) - Niên khóa 2021-2022 Trang 26/105

Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học & Kỹ Thuật May Tính

5.2.7 Vẽ biểu đồ boxplot hay còn được gọi là box-and-whisker cho nhiém coronavirus 5.2.7.1 Phương pháp giải quyết:

Dùng hàm boxplot để thể hiện biểu đồ boxplot cho số ca nhiễm và số ca tử vong

5.2.7.2 Thực hiện bằng R: ¡ par(mfrow=c(2,3))

5 boxplot(Ct$new_cases, maini, 1])

10 boxplot(Ct$new_deaths, maini, 1])

Hình 29: Biéu dé boxplot cho s6 ca nhiém new cases 4000 3/00 2000 1000 °

Venezuela Đề bài tập lốn mén Cau trúc Rời rạc cho KHMT (C01007) - Niên khóa 2021-2022 Trang 27/105

Lập bảng mô tả số liệu thống kê cho từng đất nước thuộc về nhóm

Dùng các kết quả đã tính được ở câu trước để lập bảng mô tả theo yêu cầm đề bài

5.2.6.2 Thực hiện bằng R: Đề bài tập lớn môn Cấu trúc Rời rạc cho KHMT (C01007) - Niên khóa 2021-2022 Trang 25/105

Po Trường Đại Học Bách Khoa Tp.Hồ Chí Minh

Khoa Khoa Học & Kỹ Thuật May Tính ¡ Tnfect = đata.frame(location=character(), wow Min = integer() ,

Qi=double(), Q2=double(), Q3=double(), Max=integer (), Avg=double(), Std=double(), Dutlier=integer ())

9 Death = data.frame(location=character(),

Min = integer() , Qi=double(), Q2=double(), Q3=double(), Max=integer (), Avg=double(), Std=double(), Outlier=integer ()) iy for (i in 1:3)¢

#LAY DU LIEU QUOC GIA CAN XU LY

The quartiles for new cases are: Q1 = newCaseQ1, Q2 = newCaseQ2, Q3 = newCaseQ3 The quartiles for new deaths are: Q1 = newDeathQ1, Q2 = newDeathQ2, Q3 = newDeathQ3 These values represent the 25th, 50th, and 75th percentiles of the data, respectively.

#DEM CAC OUTLIERS newCaseDutlier = length(which(Ct$new_cases < newCaseQi - 1.5*(newCaseQ3 - newCaseQ1) | Ct$new_cases > newCaseQ3 + 1.5*(newCaseQ3 - newCaseQi))) newDeathOutlier = length(which(Ct$new_deaths < newDeathQ1i - 1.5*(newDeathQ3 - newDeathQi) | Ct$new_deaths > newDeathQ3 + 1.5*(newDeathQ3 - newDeathQ1)))

#TAD BANG MO TA SO LIEU THONG KE

Infect[nrow(Infect)+1, ] = c(df[i, 1],min(Ct$new_cases,na.rm = TRUE),newCaseQl, newCaseQ2 ,newCaseQ3 ,max(Ct$new_cases,na.rm = TRUE) ,newCaseAvg ,newCaseStd, newCaseDutlier)

Death [nrow(Death) +1, ] = c(€df[i, 1],min(Ct$new_deaths ,na.rm = TRUE) ,newDeathQ1, newDeathQ2 ,newDeathQ3 ,max(Ct$new_deaths ,na.rm = TRUE),newDeathAvg,newDeathStd, newDeathDutlier)

* location Min Qi Q2 Q3 Max Avg Std Outlier

3 Venezuela 0 245 590 1100.25 4418 721.120056497175 631370116971211 15 Hình 27: Đáng mô tả số liệu thông kê cho số ca nhiễm,

^ leeation Min Qi Q2 Q3 Max Avg Std Outlier

Hình 28: Đáng mô tá số liệu thông bê cho số ca tử ong Đề bài tập lớn môn Cấu trúc Rời rạc cho KHMT (C01007) - Niên khóa 2021-2022 Trang 26/105

Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học & Kỹ Thuật May Tính

Vẽ biểu đồ boxplot hay còn được gọi là box-and-whisker cho nhiễm coronavirus

Dùng hàm boxplot để thể hiện biểu đồ boxplot cho số ca nhiễm và số ca tử vong

5.2.7.2 Thực hiện bằng R: ¡ par(mfrow=c(2,3))

5 boxplot(Ct$new_cases, maini, 1])

10 boxplot(Ct$new_deaths, maini, 1])

Hình 29: Biéu dé boxplot cho s6 ca nhiém new cases 4000 3/00 2000 1000 °

Venezuela Đề bài tập lốn mén Cau trúc Rời rạc cho KHMT (C01007) - Niên khóa 2021-2022 Trang 27/105 t3

Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học & Kỹ Thuật May Tính

Hình 30: Điểu đồ bozplot cho số ca tử vong

Phần ii: Nhóm câu hỏi liên quan đến dữ liệu thể hiện thu thập dữ liệu

Có bao nhiêu ngày có số lần dữ liệu không được báo cáo mới

5.3.1.1 Phương pháp giải quyết: Để tính số ngày không được báo cáo mới của mỗi quốc gia được xét, ta tính riêng số ngày có ca nhiễm bằng 0 và số ngày không được báo cáo (NA) Cả hai đều có thé tinh thong qua ham which() co trong R, san đó ta cộng tổng hai giá trị lại để tìm ra được số ngày không được báo cáo mới

5.3.1.2 Thực hiện bằng R: for (i in 1:3)f

The number of days with zero new cases was determined by finding the length of the vector of new cases where the value was zero (zeroInfectCase).* Similarly, the number of days with missing new case data was determined by finding the length of the vector of new cases where the value was missing (naInfectCase).* The total number of days with no reported new cases (noInfectReport) was calculated as the sum of zeroInfectCase and naInfectCase.* The number of days with zero new deaths (zeroDeathCase) was also calculated by finding the length of the vector of new deaths where the value was zero.

Po Trường Đại Học Bách Khoa Tp.Hồ Chí Minh

Khoa Khoa Học & Kỹ Thuật May Tính naDeathCase = length(which(is.na(Ct$new_deaths)==TRUE) ) noDeathReport = zeroDeathCase + naDeathCase cat (df[i,1],"NUMBER OF DAYS NO NEW INFECT CASE REPORT:", noInfectReport ,"\n") cat (df[i,1],"NUMBER OF DAYS NO NEW DEATH CASE REPORT:", noDeathReport ,"\n")

Brazil NUMBER OF DAYS NO NEW INFECT CASE REPORT: 9 Brazil NUMBER OF DAYS NO NEW DEATH CASE REPORT: 22 Chile NUM OF DAYS NO NEW INFECT CASE REPORT: 14 Chile NUM OF DAYS NO NEW DEATH CASE REPORT: 33

Venezuela NUMBER OF DAYS NO NEW INFECT CASE REPORT:

Venezuela NUMBER OF DAYS NO NEW DEATH CASE REPORT:

Hình 31: $6 ngay khong có báo cáo mới

Có bao nhiêu ngày có số ca nhiễm/ tử vong là thấp nhất được báo cáo mới

Ta duyệt từng ngày và đếm số lần cập nhật mới giá trị ca nhiễm/ tử vong thấp nhất

5.3.2.2 Thực hiện bằng R: for (i in 1:3)f

When the number of new COVID-19 infections is at its lowest, the number of new COVID-19 deaths is also at its lowest This pattern is observed by looking at the minimum number of new infections and the minimum number of new deaths for each day The minimum number of new infections is found to be 0, and the minimum number of new deaths is found to be 1 These minimum values are reached on the same day.

+ if (is.na(ct[j, 3]) == FALSE){ if (đeathMIN > Ct[lj, 3]){ deathMIN = Ct[j, 3] minDeathUpdateCount = minDeathUpdateCount + 1 + +

} cat (df[i,1],"NUMBER OF TIMES MIN INFECT CASES UPDATE: ",minInfectUpdateCount ,"\n") cat(df[i,1],"NUMBER OF TIMES MIN DEATH CASES UPDATE:",minDeathUpdateCount ,"\n")

## Brazil NUMBER OF TIMES MIN INFECT CASES UPDATE

## Brazil NUMBER OF TIMES DEATH ¢ UPDATE: 2

## Chile NUMBER OF TIMES MIN INFECT ¢ S UPDATE: 2

## Chile NUMBER TIMES MIN DEATH UPDATE: 2

## Venezuela R OF TIMES MIN Ih T CASES UPDATE: 2

ER OF TIMES MIN DEATH CASES UPDATE: 2 Hình 32: Số lần tử uong/ nhiễm bệnh thấp nhất được báo cáo mới

Có bao nhiêu ngày có số ca nhiễm/ tử vong là cao nhất được báo cáo mới

Tiến hành đếm số lần giá trị lớn nhất được cập nhật khi duyệt qua từng ngày.

Po Trường Đại Học Bách Khoa Tp.Hồ Chí Minh

Khoa Khoa Học & Kỹ Thuật May Tính

#SO0 LAN CA NHIEM/ TU VONG CAD NHAT DUOC BAD CAO MOI maxInfectUpdateCount = 0 maxDeathUpdateCount = 0 infectMAX= -Inf deathMAX= -Inf for (j in 1:nrow(ct)){ if (is.na(ct[j, 2]) == FALSE){ if (infectMAX< Ct[j, 21){ infectMAX= Ct[j, 2] maxInfectUpdateCount = maxInfectUpdateCount + 1 + + if (is.na(ct[j, 3]) == FALSE){ if (đeathMAX< Ct[j, 3])f deathMAX= Ct[j, 3] maxDeathUpdateCount = maxDeathUpdateCount + 1 + +

} cat(df[i,1],"NUMBER OF TIMES MAX INFECT CASES UPDATE: ",maxInfectUpdateCount ,"\n") cat(df[i,1],"NUMBER OF TIMES MAX DEATH CASES UPDATE:",maxDeathUpdateCount ,"\n")

Brazil NUMBER OF TIMES MAX INFECT CASES UPDATE: 45 Brazil NUMBER OF TIMES MAX DEATH CA! UPDATE: 41 Chile NUMBER OF TIMES MAX INFECT CA‘ UPDATE: 30

Chile NUMBER OF TIMES MAX DEATH CASES UPDATE: 26 Venezuela NUMBER OF TIMES MAX INFECT CASES UPDATE: 39 Venezuela NUMBER OF TIMES MAX DEATH CASES UPDATE: 16

Hình 33: Số lần tử vong/ nhiễm bệnh cao nhất được báo cáo mmới

5.3.4 Thể hiện bằng bảng số liệu

Tạo bảng số liệu những ngày không được báo cáo mới từ những giá trị đã tìm được ở cân trước, đối với bảng số liệu được báo cáo mới, ta đơn giản lấy tổng số ngày trừ đi những ngày không được báo cáo mới

The noNewReport dataframe is updated with the latest data: the affiliation is added to the first column, and the number of new infections and deaths are added to the second and third columns, respectively The newReport dataframe is also updated with the number of new infections and deaths Finally, the two dataframes are concatenated and displayed as a table.

Két qua: Đề bài tập lốn mén Cau trúc Rời rạc cho KHMT (C01007) - Niên khóa 2021-2022 Trang 30/105

Trường Đại Học Bách Khoa Tp.Hồ Chí Minh

> Khoa Khoa Học & Kỹ Thuật May Tính noNewReport Filter Countries Infections Deaths

Hình 34: Đáng số liệu thể hiện những ngàu không có báo cáo mới newReport

3 Venezuela Hinh 35: Bang sé liéu thé hién nhitng ngay c6 béo céo mé

Cho biết số ngày ngắn nhất liên tiếp mà không có dữ liệu được báo cáo

Ta sử dụng hàm rle() để lọc ra những chuỗi ngày liên tiếp không có dữ liệu được báo cáo, từ đó tìm được số ngày ngắn nhất liên tiếp không có dữ liệu được báo cáo

5.3.5.2 Thực hiện bằng R: for (i in 1:3)f

#Min day no report temp=rle(is.na(Ct$new_death) ) tempp = temp$lengths [temp$values==TRUE] res = mnin(tempp ,na.rm=TRUE) if (res == Inf) res = 0 cat (df[i,1],"THE LEAST NUMBER OF DAYS IN A ROW WITHOUT DEATH CASE REPORT:",res) cat ("\n") temp=rle(is.na(Ct$new_cases) ) tempp = temp$lengths[temp$values==TRUE] res = min(tempp ,na.rm=TRUE) if (res == Inf) res = 0 cat (df[i,1],"THE LEAST NUMBER OF DAYS IN A ROW WITHDUT INFECT CASE REPORT:",res) cat ("\n")

In South America, the countries with the fewest consecutive days without reporting a COVID-19 death are: Brazil (20 days), Chile (28 days), and Venezuela (13 days) While for the fewest consecutive days without reporting a new COVID-19 case, the respective numbers are: Brazil (1 day), Chile (0 days), and Venezuela (0 days).

Cho biết số ngày dài nhất liên tiếp mà không có dữ liệu được báo cáo

Tương tự câu trên, ta sử dụng hầm rle() để lọc ra những chuỗi ngày liên tiếp không có dữ liệu được báo cáo, từ đó tìm được số ngày dài nhất liên tiếp không có dữ liệu được báo cáo Đề bài tập lớn môn Cấu trúc Rời rạc cho KHMT (C01007) - Niên khóa 2021-2022 Trang 31/105

, Trường Đại Học Bách Khoa Tp.Hồ Chí Minh

> Khoa Khoa Học & Kỹ Thuật May Tính

#Max day no report temp=rle(is.na(Ct$new_death) ) tempp = temp$lengths [temp$values==TRUE] res = max(tempp ,na.rm=TRUE) if (res == -Inf) res = 0 cat (df[i,1],"THE MOST NUMBER OF DAYS IN A ROW WITHOUT DEATH CASE REPORT: " cat ("\n") temp=rle(is.na(Ct$new_cases) ) tempp = temp$lengths[temp$values==TRUE] res = max(tempp,na.rm=TRUE) if (res == -Inf) res = 0 cat (df[i,1],"THE MOST NUMBER OF DAYS IN A ROW WITHOUT INFECT CASE REPORT: cat ("\n")

Brazil THE MOST NUMBER OF DAYS IN A ROW WITHOUT DEATH CASE REPORT:

Brazil THE MOST NUMBER OF DAYS IN A ROW WITHOUT INFECT CASE REPORT:

Chile THE MOST NUMBER OF DAYS IN A ROW WITHOUT DEATH CASE REPORT: 28 Chile THE MOST NUMBER OF DAYS IN A ROW WITHOUT INFECT CASE REPORT: 0 Venezuela THE MOST NUMBER OF DAYS IN A ROW WITHOUT DEATH CASE REPORT: 13 Venezuela THE MOST NUMBER OF DAYS IN A ROW WITHOUT INFECT CASE REPORT: 0 Hinh 37: 96 ngay liên tiếp dài nhất không có báo cáo

Cho biết số ngày ngắn nhất liên tiếp mà không có người nhiễm bệnh mới

Tương tự câu trên, ta sử dụng hàm rie() để lọc ra những chuỗi ngày liên tiếp không có ca nhiễm mới, từ đó tìm được số ngày ngắn nhất liên tiếp không có ca nhiễm mới

5.3.7.2 Thực hiện bằng R: for (i in 1:3)f

#Min day no new case temp=rle(Ct$new_cases == 0) tempp = temp$lengths [temp$values==TRUE] res = mnin(tempp ,na.rm=TRUE) if (res == Inf) res = 0 cat (df[i,1],"THE LEAST NUMBER OF DAYS IN A ROW WITHOUT NEW INFECT CASE:" cat ("\n")

Brazil THE LEAST NUMBER OF DAYS IN A ROW WITHOUT NEW INFECT CASE: 1 Chile THE LEAST NUMBER OF DAYS IN A ROW WITHOUT NEW INFECT CASE: 1 Venezuela THE LEAST NUMBER OF DAYS IN A ROW WITHOUT NEW INFECT CASE: 1 Hình 38: 96 ngay liên tiếp dài nhất không có ca nhiỄm mới

Cho biết số ngày dài nhất liên tiếp mà không có người nhiễm bệnh mới

Hàm rie() lọc các chuỗi ngày liên tiếp không có ca nhiễm mới, giúp tìm được số ngày dài nhất liên tiếp không có ca nhiễm mới.

Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học & Kỹ Thuật May Tính

4 #Max day no new case

5 temp=rle(Ct$new_cases == 0)

6 tempp = temp$lengths [temp$values==TRUE]

7 res = max(tempp ,na.rm=TRUE)

9 cat (df[i,1],"THE MOST NUMBER OF DAYS IN A ROW WITHOUT NEW INFECT CASE:",res)

Brazil THE MOST NUMBER OF DAYS IN A ROW WITHOUT NEW INFECT CASE: 3 Chile THE MOST NUMBER OF DAYS IN A ROW WITHOUT NEW INFECT CASE: 6 Venezuela THE MOST NUMBER OF DAYS IN A ROW WITHOUT NEW INFECT CASE: 1 Hinh 39: Số ngày liên tiếp ngắn thất không có ca nhiễm mới

Phần iv: Nhóm câu hỏi liên quan đến trực quan dữ liệu

Vẽ biểu đồ thể hiện nhiễm bệnh đã báo cáo của các quốc gia mà thuộc về nhóm

1) Tạo hàm xử lý dữ liệu: lọc dữ liện theo 7 ngày cuối cùng và quốc gia cần vẽ

2) Vẽ biểu đồ đường gồm 3 đường, mỗi đường tương tướng với một quốc gia cần vẽ theo 7 ngày cuối cùng

#Loc du lieu theo cac quoc gia can ve

2 linei=lLineil=subset (data-covid ,data-covid$location=="Brazil")

3 line2=subset (data-covid ,data-covid$location=="Chile")

4 line3=subset (data-covid,data-covid$location=="Venezuela")

#Loc du lieu theo 7 ngay cuoi cung

7 line2=tail(line2,7) s line3=tail(line3 ,7)

9 line=rbind(linel ,line2,line3)

#We bien đo duong graph Khoa Khoa Học & Kỹ Thuật May Tính

5 \ / | | —— Daily deaths a | \ Te || — 7-Day average deaths

Date Hỡnh 107: Số cứ tử uong mỗi ngàu trờn toàn thế giới

Quan sát biểu đồ trên, ngay thời điểm đầu tháng 4, số ca tử vong tăng đột biến, ứng với mốc bùng phát tử vong

Tại thời điểm cuối của dữ liệu gốc, số ca tử vong mỗi ngày vẫn còn ở mức cao (xấp xỉ 10,000 ca/ngày) Tuy nhiên, theo xu hướng và tốc độ giảm của số ca tử vong, có thể dự đoán mốc cuối sẽ rơi vào tháng 6/2022, giống với mốc cuối của khoảng bùng phát dịch Có thể tự tin khẳng định đỉnh tử vong vào tháng 1/2022 sẽ là đỉnh cuối cùng của đại dịch, dựa trên mức độ phủ vaccine và miễn dịch cộng động trên toàn thế giới

'Ta chia khoảng bùng phát tử vong lớn thành các khoảng con dựa theo các đỉnh tử vong, với mốc cuối của đỉnh này là mốc đầu của đỉnh kế tiếp:

Lần 7: Tháng 01/2022 - Tháng 06/2022 (Dự đoán)

5.10.3 Câu 6: Khoảng thời gian bùng phát nhiễm bệnh lớn nhất giữa các quốc gia có chồng lên nhau không, Cho biết khoảng thời gian giao nhau đó?

5.10.3.1 Phương pháp thực hiện: Ta vẽ biểu đồ số ca mắc mỗi ngày của ba quốc gia: Brazil, Chile, Venezuela Dita vào xu hướng biến thiên của ba đồ thị, ta có thể xác định được khoảng bùng phát của chúng có diễn ra cùng lúc hay không một cách trực quan

Tuy nhiên, do sự khác biệt lớn về dân số giữa ba quốc gia này nên nếu chỉ biểu diễn số ca mắc mới mỗi ngày thì rất khó thể hiện được xu hướng thực tế ở những nước có dân số ít Để khắc phục vấn đề này, người ta xem xét chỉ số tỷ lệ số ca mắc mới trên tổng số dân của nước tương ứng, tính theo công thức: new cases per 1M = new cases / population.

, Trường Đại Học Bách Khoa Tp.Hồ Chí Minh

> Khoa Khoa Học & Kỹ Thuật May Tính

5.10.3.2 Thực hiện bằng R: Sử dụng phương pháp trung bình động để lọc nhiễu dữ liệu

#XU LI SO LIEU covidData_X_6

Ngày đăng: 08/10/2024, 16:44

HÌNH ẢNH LIÊN QUAN

Hình  20:  Cóc  đất  nước  có  cùng  số  lượng  đữ  liệu  thu  thập  được  (Hình  ánh  1  phan  két  qué) - Cấu trúc rời rạc cho khmt (co1007) thống kê khảo sát kết quả covid 19 môn cấu trúc rời rạc
nh 20: Cóc đất nước có cùng số lượng đữ liệu thu thập được (Hình ánh 1 phan két qué) (Trang 23)
Hình  28:  Đáng  mô  tá  số  liệu  thông  bê  cho  số  ca  tử  ong - Cấu trúc rời rạc cho khmt (co1007) thống kê khảo sát kết quả covid 19 môn cấu trúc rời rạc
nh 28: Đáng mô tá số liệu thông bê cho số ca tử ong (Trang 27)
Hình  51:  Biểu  đồ  thu  thập  dữ  liệu  nhiễm  bệnh  uà  tử  uong  của  Brazil,  Chúc  uà  Venezuela  năm  2021 - Cấu trúc rời rạc cho khmt (co1007) thống kê khảo sát kết quả covid 19 môn cấu trúc rời rạc
nh 51: Biểu đồ thu thập dữ liệu nhiễm bệnh uà tử uong của Brazil, Chúc uà Venezuela năm 2021 (Trang 45)
Hình  66:  Biểu  đồ  thu  thập  dữ  liệu  nhiễm  bénh  va  tử  uong  của  Brazil,  Chile  va  Venezuela  ném  2020 - Cấu trúc rời rạc cho khmt (co1007) thống kê khảo sát kết quả covid 19 môn cấu trúc rời rạc
nh 66: Biểu đồ thu thập dữ liệu nhiễm bénh va tử uong của Brazil, Chile va Venezuela ném 2020 (Trang 60)
Hình  75:  Điểu  đồ  thu  thập  nhiém  bệnh  của  tốt  củ  quốc  gia  năm  2020 - Cấu trúc rời rạc cho khmt (co1007) thống kê khảo sát kết quả covid 19 môn cấu trúc rời rạc
nh 75: Điểu đồ thu thập nhiém bệnh của tốt củ quốc gia năm 2020 (Trang 69)
Hình  87:  Điểu  đồ  thu  thập  dữ  liệu  nhiễm  bệnh  của  tất - Cấu trúc rời rạc cho khmt (co1007) thống kê khảo sát kết quả covid 19 môn cấu trúc rời rạc
nh 87: Điểu đồ thu thập dữ liệu nhiễm bệnh của tất (Trang 78)
2)  Lần  lượt  gọi  hàm  để  vẽ  2  hình  tương  ứng  với  hai  năm  2020  và  2021. - Cấu trúc rời rạc cho khmt (co1007) thống kê khảo sát kết quả covid 19 môn cấu trúc rời rạc
2 Lần lượt gọi hàm để vẽ 2 hình tương ứng với hai năm 2020 và 2021 (Trang 81)
2)  Lần  lượt  gọi  hàm  để  vẽ  2  hình  tương  ứng  với  hai  năm  2020  và  2021. - Cấu trúc rời rạc cho khmt (co1007) thống kê khảo sát kết quả covid 19 môn cấu trúc rời rạc
2 Lần lượt gọi hàm để vẽ 2 hình tương ứng với hai năm 2020 và 2021 (Trang 82)
Hình  98:  Tương  quan  giữa  số  ca  nhiễm  tà  số  ca  tử  uong  của  Brazil  uào  tháng  4,  5,  6,  8 - Cấu trúc rời rạc cho khmt (co1007) thống kê khảo sát kết quả covid 19 môn cấu trúc rời rạc
nh 98: Tương quan giữa số ca nhiễm tà số ca tử uong của Brazil uào tháng 4, 5, 6, 8 (Trang 89)
Hình  102:  Tương  quan  giữa  số  ca  nhié - Cấu trúc rời rạc cho khmt (co1007) thống kê khảo sát kết quả covid 19 môn cấu trúc rời rạc
nh 102: Tương quan giữa số ca nhié (Trang 94)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w