CẤU TRÚC RỜI RẠC CHO KHMT (CO1007) thống kê khảo sát kết quả covid 19 môn cấu trúc rời rạc

84 6 0
CẤU TRÚC RỜI RẠC CHO KHMT (CO1007)  thống kê khảo sát kết quả covid 19 môn cấu trúc rời rạc

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

lOMoARcPSD|11572185 ẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ẠI HỌC BÁCH KHOA KHOA KHOA HỌC & KỸ THUẬT MÁY TÍNH CẤU TRÚC RỜI RẠC CHO KHMT (CO1007) Thống kê khảo sát kết Covid-19 môn Cấu trúc rời rạc GVHD : Huỳnh Tường Nguyên Nguyễn Ngọc Lễ SV thực : Nguyễn Hoài Khang Hà Văn Châu Vũ Ngọc Thuận ỗ Nguyễn An Huy Dương Trọng Khôi Tp Hồ Chí Minh, Tháng 04/2022 - 2111453 2110054 2112394 2110193 2113786 lOMoARcPSD|11572185 Mục lục ộng nghiên cứu Mục tiêu 3 Cơ sở lý thuyết 3.1 3.2 3.3 3.4 3.5 3.6 3.7 Trung bình cộng (giá trị kì vọng) 3.1.1 ịnh nghĩa 3.1.2 Ý nghĩa Tứ phân vị 3.2.1 ịnh nghĩa 3.2.2 Phân loại 3.2.3 Ý nghĩa 3.2.4 Cách thức xác ịnh Phương sai - ộ lệch chuẩn 3.3.1 ịnh nghĩa 3.3.2 Ý nghĩa Khoảng tứ phân vị 3.4.1 ịnh nghĩa 3.4.2 Ý nghĩa Outlier 3.5.1 ịnh nghĩa 3.5.2 Ý nghĩa Biểu ồ hộp (Box Plot) 3.6.1 ịnh nghĩa 3.6.2 Các thành phần 3.6.3 Ý nghĩa Tần số tích lũy - Biểu ồ tích lũy 3.7.1 ịnh nghĩa 3.7.2 Thiết lập bảng tần số tích lũy lOMoARcPSD|11572185 Trường ại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học & Kỹ Thuật Máy Tính 3.7.3 3.8 3.9 Ý nghĩa ường trung bình ộng 3.8.1 ịnh nghĩa 3.8.2 Tính tốn giá trị trung bình ộng ơn giản 3.8.3 Ý nghĩa Hệ số tương quan 3.9.1 Hệ số tương quan Pearson 3.9.2 Hồi quy tuyến tính, phương pháp bình phương cực tiểu Phân tích liệu 11 4.1 Tập liệu mẫu 11 4.2 Tiền xử lí 11 4.2.1 Cài ặt packages (gói) source file chứa hàm tính tốn cần thiết 11 4.2.2 ọc liệu từ file vào dataframe (khung liệu) 11 4.2.3 Kiểm tra cấu trúc tập liệu mẫu 12 Chuẩn hóa liệu 12 4.3.1 Chuẩn hóa kiểu liệu thuộc tính date (ngày-giờ) 12 4.3.2 Xử lí giá trị âm new_cases new_deaths 12 4.3.3 Lọc liệu quốc gia 13 4.4 Dữ liệu ược phân công riêng 13 4.5 Kết phân tích 13 4.3 Kết luận 82 Tài liệu 82 Bài tập lớn môn Cấu trúc Rời rạc cho KHMT (CO1007) - Niên khóa 2021-2022 Trang 2/83 lOMoARcPSD|11572185 Trường ại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học & Kỹ Thuật Máy Tính ộng nghiên cứu Bệnh Corona virus gây gọi COVID-19 ã tạo tác ộng tiêu cực ến ời sống cư dân thề giới Các ợt bùng phát COVID19 hay biến thể virus ã mang ến thách thức chưa có ược dự báo có tác ộng áng kể ến phát triển kinh tế Nhiều thông tin, tin tức tình hình dịch bệnh liệu COVID-19 ược phổ biến rộng rải ời sống hay internet ể giúp cho người quan sát, phân tích, nghiên cứu ươc cập nhật hàng ngày Phân tích & thống kê liệu COVID19 giúp cho ta thấy ược số ca nhiễm bệnh, tử vong quốc gia, so sánh tình trạng quốc gia khu vực hay diễn biến dịch giới Từ số liệu ược báo cáo mơi muốn biết ca nhiễm bệnh có xu hướng tăng lên hay giảm xuống quy mô ợt bùng phát quốc gia Dữ liệu dùng cho tập lớn có tham khào từ: https://github.com/owid/covid-19-data/blob/master/public/data/README.md Mục tiêu Trong tập lớn này, bắt ầu với toán thống kê ơn giản từ liệu ược cung cấp Qua ó, tìm số thú vị, có ý nghĩa ối với liệu thực tế từ tình hình dịch corona Những kết tìm bước khởi ầu cho việc khai phá nguồn liệu hệ thống sau này, nhằm ạt tới mục tiêu nâng cao kỹ lập trình, kỹ giải vấn ề cho người học, kỹ làm việc nhóm hướng tới mục tiêu cao am mê làm việc, học tập nghiên cứu Cơ sở lý thuyết Trong thống kê, liệu mà ta làm việc vô lớn chß nhìn vào liệu nói chung khó ể rút ược ý nghĩa từ số ó Vì vậy, người ta thường tính tốn số giá trị ể khái quát ược liệu Ta tìm hiểu vài giá trị có ý nghĩa ối với thống kê 3.1 3.1.1 Trung bình cộng (giá trị kì vọng) ịnh nghĩa 3.1.2 Trung bình cộng (hay giá trị trung bình, giá trị kì vọng ) khái niệm vô gần gũi ối với khoa học ời sống hàng ngày Giả sử ta có tập D gồm k giá trị x1 , x2 , , xk : D = {x1 , x2 , , xk } Khi ó, trung bình cộng D là: k xi M ean(D)= i=0 (1) k Bài tập lớn môn Cấu trúc Rời rạc cho KHMT (CO1007) - Niên khóa 2021-2022 Ý nghĩa • Trong phân tích liệu: giúp ta hình dùng ược iểm trung tâm tập giá trị • Trong phân tích tình hình dịch Covid : giá trị kì vọng ược xem ại diện cho số lượng ca nhiễm tử vong quốc gia khoảng thời gian cụ thể Từ ó ánh giá mức ộ nghiêm trọng, tình hình dịch Covid, so sánh khách quan tình hình dịch quốc gia, châu lục Trang 3/83 lOMoARcPSD|11572185 Trường ại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học & Kỹ Thuật Máy Tính 3.2 3.2.1 Tứ phân vị ịnh nghĩa 3.2.3 Trong thống kê mô tả, tứ phân vị loại tập lượng tử chia số lượng iểm liệu thành bốn phần có kích thước nhỏ Dữ liệu phải ược xếp theo thứ tự từ nhỏ ến lớn ể tính tốn tứ phân vị 3.2.2 Phân loại Có tứ phân vị chính, ó là: • Tứ phân vị thứ (Q1 ): số giữa số nhỏ (minimun) số trung vị (median) tập liệu Nó cịn ược gọi phần tư thực nghiệm thấp thứ 25, 25% liệu nằm iểm Ý nghĩa • Trong tính tốn thống kê: ba tứ phân vị chia tập hợp liệu (ã xếp theo trật tự từ bé ến lớn) thành bốn phần có số lượng quan sát ều Nó cung cấp thông tin trung tâm phân tán liệu Tứ phân vị thứ thứ ba cung cấp thông tin mức ộ chênh lệch lớn liệu tập liệu có bị lệch phía hay khơng • Trong phân tích tình hình dịch Covid : tứ phân vị thứ hai (Q2 hay trung vị) ược sử dụng ể thay cho giá trị kì vọng thành trung tâm tập liệu, trường hợp số liệu ược báo cáo có phân tán cao (ộ lệch chuẩn lớn) ể ánh giá trình hình dịch bệnh • Tứ phân vị thứ hai (Q2 ): giá trị trung vị tập liệu; ó 50% liệu nằm iểm • Tứ phân vị thứ ba (Q3 ): giá trị giữa giá trị trung vị (median) số lớn (maximun) tập liệu Nó ược gọi phần tư thực nghiệm thứ 75, 75% liệu nằm iểm 3.2.4 Hình 3.1 Tứ phân vị Cách thức xác ịnh Có nhiều quy chuẩn, phương thức ể tính tứ phân vị, phương thức cho kết khác nhau, chúng ều ược công nhận úng Một cách thức tính tốn tứ phân vị sau: giả sử có tập D gồm k giá trị ã ượ xếp: D = {x1 , x2 , , xk } • Tính tứ phân vi thứ hai: Nếu k lẻ thì: Q2 (D) = M edian(D) = x k−1 Nếu k chẵn thì: Q2 (D) = M edian(D) = (x k + x k +1 ) 2 • Tính tứ phân vị thứ thứ ba: Tìm trung vị (tứ phân vị thứ hai Q2 ) Nếu k lẻ loại bỏ trung vị khoải tập liệu Chia tập liệu lại hai phần Nếu k chẵn chia tập liệu gốc hai phần Tứ phân vị thứ Q1 trung vị phần liệu có giá trị thấp Tứ phân vị thứ ba Q3 trung vị phần liệu có giá trị cao Sử dụng kí hiệu tốn học, ta viết: Q1 (D)=M edian({x|x < M edian(D)}) (2) Q3 (D)=M edian({x|x > M edian(D)}) (3) Bài tập lớn môn Cấu trúc Rời rạc cho KHMT (CO1007) - Niên khóa 2021-2022 Trang 4/83 lOMoARcPSD|11572185 Trường ại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học & Kỹ Thuật Máy Tính Ví dụ 1: Cho tập ã ược xếp 6, 7, 15, 36, 39, 40, 41, 42, 43, 47, 49; có k = 11 Ví dụ 2: Cho tập ã ược xếp 7, 15, 36, 39, 40, 41; có k = • Tính tứ phân vị thứ 2: Q2 = x6 = 40 • Chia tập liệu hai phần sau ã loại trung vị + D1 = {6, 7, 15, 36, 39} Q1 = 15 + D3 = {41, 42, 43, 47, 49} Q3 = 43 3.3 3.3.1 • Tính tứ phân vị thứ 2: Q2 = x3 +x4 = 37.5 • Chia tập liệu hai phần nhau: + D1 = {7, 15, 36} Q1 = 15 + D3 = {39, 40, 41} Q3 = 40 Phương sai - ộ lệch chuẩn ịnh nghĩa Giá trị trung bình cộng cho ta biết ược giá trị tập liệu phân bố quanh iểm trung tâm nào, phương sai ộ lệch chuẩn cho ta biết ược giá trị ó phân bố quanh iểm trung tâm Phương sai ược ịnh nghĩa trung bình bình phương khoảng cách iểm liệu tới iểm trung bình (giá trị kỳ vọng- trung bình cộng) i=k V (D) = i=0 (xi − M ean(D))2 k Hình 3.1 Tập liệu có phương sai nhỏ, các iểm ộ lệch chuẩn ược ịnh nghĩa bậc hai liệu phân bố gần giá trị kì vọng (mean) nên dùng giá phương sai trị kì vọng ể mơ tả (ại diện) cho trung tâm tập liệu Std(D) = V (D) 3.3.2 Ý nghĩa • Trong tính tốn thống kê : phương sai lớn giá trị có xu hướng phân bố xa quanh iểm kì vọng, giá trị kì vọng mơ tả xác iểm trung tâm Ngược lai, phương sai nhỏ iểm liệu phân bố gần iểm kì vọng, giá trị kì vọng mơ tả xác iểm trung tâm tập liệu Hình 3.2 Tập liệu có phương sai lớn, các iểm liệu phân bố xa giá trị kì vọng nên dùng trung vị • Trong phân tích tình hình dịch bệnh: phương sai lớn, nên dùng trung vị (Q2 ) ể làm (median) ể mô tả (ại diện) cho trung tâm tập liệu iểm trung tâm, từ ó ánh giá xác tình hình dịch bệnh 3.4 Khoảng tứ phân vị Bài tập lớn môn Cấu trúc Rời rạc cho KHMT (CO1007) - Niên khóa 2021-2022 Trang 5/83 lOMoARcPSD|11572185 Trường ại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học & Kỹ Thuật Máy Tính 3.4.1 ịnh nghĩa 3.4.2 Ý nghĩa Khoảng tứ phân vị tập liệu ược ịnh Khoảng tứ phân vị khoảng chứa 50% giá nghĩa trị với trung vị tập liệu giá trị trung tâm IQR(D) = Q3 (D) − Q1 (D) 3.5 3.5.1 Outlier ịnh nghĩa 3.5.2 • ối với thống kê liệu: nhiều tham số thống kê giá trị trung bình, tương quan thống kê dựa giá trị ều nhạy cảm với giá trị ngoại lệ Vì thước o ộ tin cậy kết thống kê Với IQR khoảng tứ phân vị Outlier giá trị nằm oạn [Q1 − 1.5 ∗ IQR; Q3 + 1.5 ∗ IQR] Outlier iểm liệu (data point) có khác biệt áng kể so với liệu khác Outliers kết thay ổi vị trí (trung bình) quy mơ (sự thay ổi) q trình mà ta quan tâm Outliers chứng quần thể mẫu có phân bố khơng bình thường 3.6 3.6.1 Ý nghĩa • ối với phân tích tình hình Covid : Outliers thước o ộ tin cậy giá trị kì vọng dùng ể ánh giá tình hình dịch bệnh khu vực ịnh Biểu ồ hộp (Box Plot) ịnh nghĩa Trong thống kê mơ tả, biểu ồ hộp hay biểu ồ hình hộp (box plot) phương pháp ể thể ồ thị nhóm liệu số tính theo vùng, ộ lan truyền ộ lệch thông qua tứ phân vị chúng Ngồi phần biểu ồ, có ường kéo dài từ cho biết thay ổi bên tứ phân vị thứ thứ ba, ó boxplot cịn ược gọi box-and-whisker 3.6.2 Các thành phần Tùy thuộc theo yêu cầu liệu mà thành phần hình dạng biểu ồ hộp khác Nhung nhìn chung ều có: • Tứ phân vị thứ (Q1 ) • Tứ phân vị thứ ba (Q3 ) • Tứ phân vị tứ hai (Q2 ) - trung vị • Khoảng tứ phân vị (IQR) • Outlier: Có thể ược loại bỏ thấy cần thiết • Giá trị lớn (Max) giá trị nhỏ (Min) Hình 3.3 Các thành phần tạo nên biểu ồ hộp • Ngồi cịn có: giá trị kì vọng, Bài tập lớn mơn Cấu trúc Rời rạc cho KHMT (CO1007) - Niên khóa 2021-2022 Trang 6/83 lOMoARcPSD|11572185 Trường ại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học & Kỹ Thuật Máy Tính 3.6.3 Ý nghĩa - Cấu tạo ơn giản, cho phép nhà thống kê thực kiểm tra ồ họa nhanh chóng nhiều tập liệu - Dùng ể so sánh với hàm mật ộ xác suất (biểu ồ lý thuyết) cho phân phối N(0, σ ) chuẩn quan sát trực tiếp ặc iểm chúng - Giá trị kì vọng gần trung vị (Q2 ) ại diện tốt cho trung tâm tập liệu, phương sai tập liệu nhỏ ngược lại - Trung vị (Q2 ) lệch phía tập giá trị tập giá trị ó có số lần xuất lớn tập liệu mẫu 3.7 3.7.1 Hình 3.4 Biểu ồ hộp hàm mật ộ xác suất phân phối N(0, σ ) Tần số tích lũy - Biểu ồ tích lũy ịnh nghĩa Trong thống kê, tần số khoảng lớp thứ ược thêm vào tần số lớp thứ hai, tổng ược thêm vào lớp thứ ba thế, tần số thu ược theo cách ược gọi tần số tích lũy Một bảng hiển thị tần số tích lũy ược phân phối lớp khác ược gọi bảng phân phối tần số tích lũy bảng tần suất tích lũy Biểu ồ tần số tích lũy (cumulative frequency plots) biểu thị thơng tin dạng tích lũy Nó thể số lượng hay tß lệ quan sát nhỏ giá trị cụ thể 3.7.2 Thiết lập bảng tần số tích lũy - Bước : Tính tốn thiết lập bảng tần số thông thường; - Bước : Phân hoạch ộ dài khoảng giá trị tần số thành khoảng cho phù hợp; - Bước : Tìm số lượng tần số cho khoảng; - Bước : Tính tốn tần số tích lũy bằn cách cộng dồn số lượng tần số tần số - Bước : Từ bảng tần số vẽ biểu ồ tần số tích lũy 3.7.3 Ý nghĩa - Tần suất tích lũy ược sử dụng ể biết số lượng quan sát nằm (hoặc thấp hơn) tần số cụ thể tập liệu ịnh - Các cột biểu ồ ít, chiều cao cột gần số lượng quan sát gần Bài tập lớn môn Cấu trúc Rời rạc cho KHMT (CO1007) - Niên khóa 2021-2022 Trang 7/83 lOMoARcPSD|11572185 Trường ại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học & Kỹ Thuật Máy Tính Hình 3.5 Biểu ồ tần số bình thường 3.8 3.8.1 Hình 3.6 Biểu ồ tần số tích lũy tương ứng ường trung bình ộng ịnh nghĩa Trong thống kê, ường trung bình ộng phép tính ược sử dụng ể phân tích iểm liệu cách tạo loạt giá trị trung bình tập khác tập liệu ầy ủ 3.8.2 Tính tốn giá trị trung bình ộng ơn giản Giá trị trung bình ộng ơn giản (SMD) giá trị trung bình khơng trọng số k liệu trước ó Hình 3.7 Ứng dụng ường trung bình ộng việc làm "mịn" liệu dự oán biến ộng i=n pi SM Dk = i=n−k+1 k (4) 3.8.3 ặc iểm: với k nhỏ ộ nhạy ường trung bình MA cao phụ thuộc vào liệu, khó làm mịn ường biểu ồ khó dự ốn chiều biến thiên Ý nghĩa • Làm "mịn" biểu ồ ường, làm phẳng biến ộng ngắn hạn,lọc nhiễu số liệu; • Xác ịnh xu hướng liệu thời gian dài hạn; • Dữ oán số lượng nhỏ số liệu bị khơng ược báo cáo thường xun • Trong việc phân tích tình hình dịch Covid: ưa liệu số ca nhiễm/ tử vong gần với giá trị xác dai sai sót nhập liệu khơng ược báo cáo thường xun, dự ốn tình hình phát triển dịch bệnh thời gian tới Bài tập lớn môn Cấu trúc Rời rạc cho KHMT (CO1007) - Niên khóa 2021-2022 Trang 8/83 lOMoARcPSD|11572185 Trường ại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học & Kỹ Thuật Máy Tính 3.9 3.9.1 Hệ số tương quan Hệ số tương quan Pearson Hệ số tương quan Pearson (Pearson correlation coefficient, kí hiệu r ) o lường mức ộ tương quan tuyến tính hai biến Về nguyên tắc, tương quan Pearson tìm ường thẳng phù hợp với mối quan hệ tuyến tính biến Xét tập iểm giá trị P chứa n iểm (xi , yi ), hệ số tương quan Pearson ược tính bằng: n rxy = i=1 (xi − x ¯)(yi − y¯) n n i=1 (xi − x ¯ )2 i=1 (yi − y¯)2 Trong ó, x ¯ y¯ giá trị trung bình tập giá trị xi yi , σx σy ộ lệch chuẩn tập giá trị xi yi Hệ số tương quan Pearson (r ) nhận giá trị từ +1 ến -1, cho biết mức ộ tương quan hai biến: • Với r = 0, hai biến có khơng có tương quan; r =1 r = -1, hai biến có tương quan chặt chẽ • Với -1 < r < 0, hai biến có mối quan hệ tương quan nghịch, với < r < Hai biến có mối quan hệ tương quan thuận; • Với r tiến gần ến -1, hai biến có mối quan hệ tương quan chặt chẽ Ngược lại, hai biến có mối quan hệ tương quan Hình 3.8 Gía trị hệ số pearson vè tương quan hai biến số tiến gần 3.9.2 Hồi quy tuyến tính, phương pháp bình phương cực tiểu Hồi quy tuyến tính tốn ược phát biểu sau: Bài toán: Cho tập iểm liệu P gồm phần tử có dạng (xi , yi ) Tìm ường thẳng i qua (hoặc gần i qua) tất iểm Có nhiều phương pháp ể hồi quy tuyến tính: dùng phân tích thành phần (PCA), phương pháp bình phương cực tiểu, Ở mục tìm hiểu phương pháp ơn giản bình phương cực tiểu Giả sử ta có tập liệu P với n iểm liệu mơ hình tuyến tính F(x) = w0 + w1 x • Tại iểm xi ta ký hiệu yˆi = F(xi ) n • Ta xét hàm số L(F) = i=1 (ˆ yi − yi )2 làm thước o ộ xác cho mơ hình tuyến tính F Bài tập lớn môn Cấu trúc Rời rạc cho KHMT (CO1007) - Niên khóa 2021-2022 Trang 9/83 lOMoARcPSD|11572185 Trường ại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học & Kỹ Thuật Máy Tính Biểu ồ ường tử vong (kết mục viii.2): Năm 2020: Năm 2021: Năm 2022: Nhận xét: - Ta rút nhận xét tương tự số ca nhiễm trung bình ngày gần - Có thể tham khảo số liệu thực tế số ca nhiễm tử vong thời iểm viết báo cáo phần Phụ lục ể ối chiếu với nhận xét.) 3) Biểu ồ thể thu thập liệu nhiễm bệnh theo thời gian tháng năm tất quốc giaị theo trung bình ngày gần Thực vẽ biểu ồ hàm plot.line () liệu danh sách SUM.LAST.MONTH.DATA thể thu thập nhiễm bệnh theo ngày gần ma_new_cases cho hai tháng cuối tất quốc gia print ( SUM LAST MONTH DATA % >% lapply ( plot line , x = ' day ' , y = ' ma _ new _ cases ' , group = ' month ') ) Biểu ồ ường nhiễm bệnh: Năm 2020: Năm 2021: Nhận xét: ường trung bình ngày gần hai tháng cuối năm cho ta dự oán số ca nhiễm ầu năm sau: ối với năm 2020, vào ngày cuối tháng 12 (ường màu xanh), số ca nhiễm có xu hướng i lên Nên số ca nhiễm ầu năm 2021 tăng mạnh iều tương tự xay ối với cuối năm 2021 - ầu năm 2022 Bài tập lớn môn Cấu trúc Rời rạc cho KHMT (CO1007) - Niên khóa 2021-2022 Downloaded by út bé (beut22834@gmail.com) Trang 69/83 lOMoARcPSD|11572185 Trường ại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học & Kỹ Thuật Máy Tính 4) Biểu ồ thể thu thập liệu tử vong theo thời gian tháng năm tất quốc gia theo trung bình ngày gần Thực vẽ biểu ồ ường plot.line () liệu danh sách SUM.LAST.MONTH.DATA thể thu thập tử vong theo ngày gần ma_new_deaths cho hai tháng cuối tất quốc gia print ( SUM LAST MONTH DATA % >% lapply ( plot line , x = ' day ' ,y = ' new _ deaths ' , group = ' month ') ) Biểu ồ ường tử vong: Năm 2020: Năm 2021: Nhận xét: Ta rút nhận xét tương tự ối với số ca tử vong số ca nhiễm mơi Tuy nhiên, vào hai tháng cuối năm 2021, số ca tử vong có xu hướng i xướng, dự báo số ca tử vong ầu năm 2022 giảm Có thể kiểm chứng nhận xét dựa vào liệu cuối phần Phụ lục 5) Biểu ồ thể thu thập liệu nhiễm bệnh tích lũy theo thời gian tháng cuối năm tất quốc gia theo trung bình ngày gần Thực vẽ biểu ồ ường nhiễm bệnh tích lũy theo ngày gần ma_new_cases cumsum.rel.line() liệu danh sách SUM.LAST.MONTH.DATA cho hai tháng cuối tất quốc gia print ( SUM LAST MONTH DATA % >% lapply ( cumsum line , x = ' day ' ,y = ' ma _ new _ cases ' , group = ' month ') ) Biểu ồ nhiễm bệnh tích lũy năm 2020: Biểu ồ nhiễm bệnh tích lũy năm 2021: 6) Biểu ồ thể thu thập liệu tử vong tích lũy theo thời gian tháng cuối năm tất quốc gia theo trung bình ngày gần Thực vẽ biểu ồ ường tử vong tích lũy theo ngày gần ma_new_deaths cumsum.rel.line() liệu danh sách SUM.LAST.MONTH.DATA cho hai tháng cuối tất quốc gia print ( SUM LAST MONTH DATA % >% lapply ( cumsum line , x = ' day ' ,y = ' ma _ new _ deaths ' , group = ' month ') ) Bài tập lớn môn Cấu trúc Rời rạc cho KHMT (CO1007) - Niên khóa 2021-2022 Downloaded by út bé (beut22834@gmail.com) Trang 70/83 lOMoARcPSD|11572185 Trường ại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học & Kỹ Thuật Máy Tính Biểu ồ tử vong tích lũy năm 2020: Biểu ồ tử vong tích lũy năm 2021: ix) Nhóm câu hỏi liên quan ến tương quan nhiễm bệnh tử vong 1) Vẽ biểu ồ thể phần trăm nhiễm bệnh tích lũy tổng nhiễm bệnh phần trăm tử vong tích lũy tổng số tử vong cho quốc gia theo thời gian Vẽ ường biểu ồ • Xây dựng hàm vẽ biểu ồ : cumsum.rel.line.2(data, x, y1, y2): Vẽ biểu ồ ường tích lũy tương ối với hai thuộc tính Hàm ược xây dựng dựa cusum.line() ã ược xây dựng mục vi cumsum rel line

Ngày đăng: 09/07/2022, 09:35

Hình ảnh liên quan

• Trong phân tích tình hình dịch Covid: tứ - CẤU TRÚC RỜI RẠC CHO KHMT (CO1007)  thống kê khảo sát kết quả covid 19 môn cấu trúc rời rạc

rong.

phân tích tình hình dịch Covid: tứ Xem tại trang 5 của tài liệu.
• Trong phân tích tình hình dịch bệnh: khi - CẤU TRÚC RỜI RẠC CHO KHMT (CO1007)  thống kê khảo sát kết quả covid 19 môn cấu trúc rời rạc

rong.

phân tích tình hình dịch bệnh: khi Xem tại trang 6 của tài liệu.
Hình 3.1. Tập dữ liệu có phương sai nhỏ, các các iểm dữ liệu phân bố gần giá trị kì vọng (mean) nên dùng giá trị kì vọng ể mô tả (ại diện) cho trung tâm tập dữ liệu. - CẤU TRÚC RỜI RẠC CHO KHMT (CO1007)  thống kê khảo sát kết quả covid 19 môn cấu trúc rời rạc

Hình 3.1..

Tập dữ liệu có phương sai nhỏ, các các iểm dữ liệu phân bố gần giá trị kì vọng (mean) nên dùng giá trị kì vọng ể mô tả (ại diện) cho trung tâm tập dữ liệu Xem tại trang 6 của tài liệu.
• ối với phân tích tình hình Covid: Outliers - CẤU TRÚC RỜI RẠC CHO KHMT (CO1007)  thống kê khảo sát kết quả covid 19 môn cấu trúc rời rạc

i.

với phân tích tình hình Covid: Outliers Xem tại trang 7 của tài liệu.
liệu mẫu. Hình 3.4. Biể uồ hộp và hàm mật ộ xác suất phân phối N(0, σ 2) - CẤU TRÚC RỜI RẠC CHO KHMT (CO1007)  thống kê khảo sát kết quả covid 19 môn cấu trúc rời rạc

li.

ệu mẫu. Hình 3.4. Biể uồ hộp và hàm mật ộ xác suất phân phối N(0, σ 2) Xem tại trang 8 của tài liệu.
Hình 3.5. Biể uồ tần số bình thường. Hình 3.6. Biể uồ tần số tích lũy tương ứng. 3.8 ường trung bình ộng - CẤU TRÚC RỜI RẠC CHO KHMT (CO1007)  thống kê khảo sát kết quả covid 19 môn cấu trúc rời rạc

Hình 3.5..

Biể uồ tần số bình thường. Hình 3.6. Biể uồ tần số tích lũy tương ứng. 3.8 ường trung bình ộng Xem tại trang 9 của tài liệu.
Hình 3.7. Ứng dụng của ường trung bình ộng trong - CẤU TRÚC RỜI RẠC CHO KHMT (CO1007)  thống kê khảo sát kết quả covid 19 môn cấu trúc rời rạc

Hình 3.7..

Ứng dụng của ường trung bình ộng trong Xem tại trang 9 của tài liệu.
tiến gần về Hình 3.8. giữa hai biến số Gía trị của hệ số pearson vè sự tương quan - CẤU TRÚC RỜI RẠC CHO KHMT (CO1007)  thống kê khảo sát kết quả covid 19 môn cấu trúc rời rạc

ti.

ến gần về Hình 3.8. giữa hai biến số Gía trị của hệ số pearson vè sự tương quan Xem tại trang 10 của tài liệu.
Giả sử ta có tập dữ liệ uP vớ in iểm dữ liệu và một mô hình tuyến tính F(x )= w0 + w1 x - CẤU TRÚC RỜI RẠC CHO KHMT (CO1007)  thống kê khảo sát kết quả covid 19 môn cấu trúc rời rạc

i.

ả sử ta có tập dữ liệ uP vớ in iểm dữ liệu và một mô hình tuyến tính F(x )= w0 + w1 x Xem tại trang 10 của tài liệu.
iều này không phải lúc nào cũng khả thi, ta sẽ tìm mô hình F mà hà mL ạt giá trị cực tiểu - CẤU TRÚC RỜI RẠC CHO KHMT (CO1007)  thống kê khảo sát kết quả covid 19 môn cấu trúc rời rạc

i.

ều này không phải lúc nào cũng khả thi, ta sẽ tìm mô hình F mà hà mL ạt giá trị cực tiểu Xem tại trang 11 của tài liệu.
1 X Ty vT - CẤU TRÚC RỜI RẠC CHO KHMT (CO1007)  thống kê khảo sát kết quả covid 19 môn cấu trúc rời rạc

1.

X Ty vT Xem tại trang 11 của tài liệu.
Kết quả hiển thị trên màn hình như sau: 'data.frame': 163090 obs. of 6 variables: - CẤU TRÚC RỜI RẠC CHO KHMT (CO1007)  thống kê khảo sát kết quả covid 19 môn cấu trúc rời rạc

t.

quả hiển thị trên màn hình như sau: 'data.frame': 163090 obs. of 6 variables: Xem tại trang 13 của tài liệu.
4.3 Chuẩn hóa dữ liệu - CẤU TRÚC RỜI RẠC CHO KHMT (CO1007)  thống kê khảo sát kết quả covid 19 môn cấu trúc rời rạc

4.3.

Chuẩn hóa dữ liệu Xem tại trang 13 của tài liệu.
Kết quả hiển thị trên màn hình: &gt; year - CẤU TRÚC RỜI RẠC CHO KHMT (CO1007)  thống kê khảo sát kết quả covid 19 môn cấu trúc rời rạc

t.

quả hiển thị trên màn hình: &gt; year Xem tại trang 15 của tài liệu.
Kết quả hiển thị trên màn hình như sau: location Observations - CẤU TRÚC RỜI RẠC CHO KHMT (CO1007)  thống kê khảo sát kết quả covid 19 môn cấu trúc rời rạc

t.

quả hiển thị trên màn hình như sau: location Observations Xem tại trang 18 của tài liệu.
Kết quả hiển thị trên màn hình như sau: date continent Observations 2020-01-01 North America1 2020-01-01 South America1 2020-01-02 North America1 2020-01-02 South America1 2020-01-03 North America1 - CẤU TRÚC RỜI RẠC CHO KHMT (CO1007)  thống kê khảo sát kết quả covid 19 môn cấu trúc rời rạc

t.

quả hiển thị trên màn hình như sau: date continent Observations 2020-01-01 North America1 2020-01-01 South America1 2020-01-02 North America1 2020-01-02 South America1 2020-01-03 North America1 Xem tại trang 19 của tài liệu.
Kết hiển thị trên màn hình như sau: iso_codeCountry OWID_CYN Northern Cyprus OWID_KOSKosovo - CẤU TRÚC RỜI RẠC CHO KHMT (CO1007)  thống kê khảo sát kết quả covid 19 môn cấu trúc rời rạc

t.

hiển thị trên màn hình như sau: iso_codeCountry OWID_CYN Northern Cyprus OWID_KOSKosovo Xem tại trang 20 của tài liệu.
Kết quả hiển thị trên màn hình: - CẤU TRÚC RỜI RẠC CHO KHMT (CO1007)  thống kê khảo sát kết quả covid 19 môn cấu trúc rời rạc

t.

quả hiển thị trên màn hình: Xem tại trang 22 của tài liệu.
màn hình: - CẤU TRÚC RỜI RẠC CHO KHMT (CO1007)  thống kê khảo sát kết quả covid 19 môn cấu trúc rời rạc

m.

àn hình: Xem tại trang 23 của tài liệu.
Kết quả hiển thị trên màn hình như sau: - CẤU TRÚC RỜI RẠC CHO KHMT (CO1007)  thống kê khảo sát kết quả covid 19 môn cấu trúc rời rạc

t.

quả hiển thị trên màn hình như sau: Xem tại trang 24 của tài liệu.
Kết quả hiển thị trên màn hình như sau: - CẤU TRÚC RỜI RẠC CHO KHMT (CO1007)  thống kê khảo sát kết quả covid 19 môn cấu trúc rời rạc

t.

quả hiển thị trên màn hình như sau: Xem tại trang 24 của tài liệu.
Quan sát các biể uồ cho ta hình dung một các trực quan về các gái trị ặc trưng trong mô tả thống kê, cũng như ưa ra một số nhận xét ban ầu về tình hình dịch bệnh Covid, kiểm tra những nhận xét về dữ liệu ở các câu hỏi trước. - CẤU TRÚC RỜI RẠC CHO KHMT (CO1007)  thống kê khảo sát kết quả covid 19 môn cấu trúc rời rạc

uan.

sát các biể uồ cho ta hình dung một các trực quan về các gái trị ặc trưng trong mô tả thống kê, cũng như ưa ra một số nhận xét ban ầu về tình hình dịch bệnh Covid, kiểm tra những nhận xét về dữ liệu ở các câu hỏi trước Xem tại trang 25 của tài liệu.
Kết quả hiển thị trên màn hình như sau: location Infections Deaths Australia28402 New Caledonia506643 New Zealand159682 - CẤU TRÚC RỜI RẠC CHO KHMT (CO1007)  thống kê khảo sát kết quả covid 19 môn cấu trúc rời rạc

t.

quả hiển thị trên màn hình như sau: location Infections Deaths Australia28402 New Caledonia506643 New Zealand159682 Xem tại trang 26 của tài liệu.
Kết quả hiển thị trên màn hình như sau: - CẤU TRÚC RỜI RẠC CHO KHMT (CO1007)  thống kê khảo sát kết quả covid 19 môn cấu trúc rời rạc

t.

quả hiển thị trên màn hình như sau: Xem tại trang 27 của tài liệu.
4) Thể hiện bảng số liệu - CẤU TRÚC RỜI RẠC CHO KHMT (CO1007)  thống kê khảo sát kết quả covid 19 môn cấu trúc rời rạc

4.

Thể hiện bảng số liệu Xem tại trang 27 của tài liệu.
Kết quả hiển thị trên màn hình như sau: location Infections Deaths Australia035 New Caledonia1540 New Zealand030 - CẤU TRÚC RỜI RẠC CHO KHMT (CO1007)  thống kê khảo sát kết quả covid 19 môn cấu trúc rời rạc

t.

quả hiển thị trên màn hình như sau: location Infections Deaths Australia035 New Caledonia1540 New Zealand030 Xem tại trang 28 của tài liệu.
Ngoài ra, ta có thể tính toán mô hình tuyến tín hi qua chính xác nhất các iểm tọa ộ (new_cases, new_deaths ) tương ứng với mỗi ngày như sau: - CẤU TRÚC RỜI RẠC CHO KHMT (CO1007)  thống kê khảo sát kết quả covid 19 môn cấu trúc rời rạc

go.

ài ra, ta có thể tính toán mô hình tuyến tín hi qua chính xác nhất các iểm tọa ộ (new_cases, new_deaths ) tương ứng với mỗi ngày như sau: Xem tại trang 74 của tài liệu.
Phụ lục 1: Tình hình dịch Covid-19 trên toàn thế giới cuối 2021- ầu 2022 - CẤU TRÚC RỜI RẠC CHO KHMT (CO1007)  thống kê khảo sát kết quả covid 19 môn cấu trúc rời rạc

h.

ụ lục 1: Tình hình dịch Covid-19 trên toàn thế giới cuối 2021- ầu 2022 Xem tại trang 83 của tài liệu.
hợp các chủ ề, các chức năng ể căn chßnh cá cô và sắp xếp chúng thành các hình ghép phức tạp. - CẤU TRÚC RỜI RẠC CHO KHMT (CO1007)  thống kê khảo sát kết quả covid 19 môn cấu trúc rời rạc

h.

ợp các chủ ề, các chức năng ể căn chßnh cá cô và sắp xếp chúng thành các hình ghép phức tạp Xem tại trang 84 của tài liệu.

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan