Việc nghiên cứu tìm ra các yếu tố có khả năng gây ra nhiễm bệnh cho người dân như thời tiết, độ tuổi, giới tính… dựa trên ba bộ dữ liệu thống kê, từ đó giúp mọi người thấy được tầm quan
GIỚI THIỆU
Giới thiệu đề tài
Trong bối cảnh dịch bệnh COVID-19 lan rộng ra 222 quốc gia, khoảng 10% bệnh nhân gặp phải triệu chứng kéo dài hơn 12 tuần, dẫn đến suy giảm chất lượng cuộc sống Nghiên cứu cho thấy có đến 55 tác động kéo dài của COVID-19, với các triệu chứng phổ biến như khó thở, đau đầu, ho, mệt mỏi và suy giảm nhận thức Đáng chú ý, có bằng chứng cho thấy một số bệnh nhân COVID-19 có thể bị tổn thương nội tạng.
Tác động lâu dài của COVID-19 có thể ảnh hưởng đến mọi lứa tuổi và giới tính, với các triệu chứng ban đầu có thể khác nhau Nghiên cứu các yếu tố nguy cơ nhiễm bệnh như thời tiết, độ tuổi và giới tính dựa trên ba bộ dữ liệu thống kê giúp nâng cao nhận thức về tầm quan trọng của việc phòng chống dịch bệnh, theo khuyến cáo của Nhà Nước.
Tổng quan tình hình nghiên cứu
Nghiên cứu kỹ thuật phân tích dữ liệu với mô hình Hồi quy tuyến tính và Hồi quy logistic, cùng với việc trực quan hóa dữ liệu trong ngôn ngữ R, nhằm đánh giá và xác định các yếu tố gây nhiễm bệnh Covid-19 Đối tượng nghiên cứu tập trung vào dịch bệnh viêm đường hô hấp cấp do virus Corona, diễn biến phức tạp từ khi bắt đầu bùng phát vào năm 2019 đến nay.
Phân tích dựa trên dữ liệu thống kê công khai về dịch bệnh Covid-19 nhằm xác định ảnh hưởng của các yếu tố như độ tuổi, giới tính và điều kiện thời tiết đối với khả năng nhiễm bệnh của con người.
Trong nghiên cứu, tôi đã xác định các khía cạnh quan trọng liên quan đến đối tượng, bao gồm bệnh nhân nhiễm bệnh, địa điểm nhiễm, số ca tử vong, bệnh nhân phục hồi, độ tuổi mắc bệnh và giới tính.
Chúng tôi thu thập bộ dữ liệu thống kê dịch bệnh Covid-19 từ các nguồn uy tín như cổng thông tin Kaggle và dữ liệu từ Tổ chức Y tế Thế giới (WHO).
Sử dụng mô hình hồi quy tuyến tính và hồi quy Logistic để phân tích các chỉ số thống kê và biểu đồ, được thực hiện bằng ngôn ngữ lập trình R trên ứng dụng RStudio.
Bố cục luận văn
Bài luận văn gồm có 03 chương, ở mỗi chương sẽ có các nội dung khác nhau
Chương đầu tiên sẽ giới thiệu đề tài nghiên cứu, tóm tắt nội dung chính, nêu rõ mục tiêu và phương pháp nghiên cứu được áp dụng.
Chương hai sẽ trình bày cơ sở lý thuyết cho nghiên cứu, bao gồm các khái niệm liên quan đến thuật toán hồi quy tuyến tính (Linear Regression) và hệ số tương quan Ngoài ra, chương này cũng sẽ giới thiệu mô hình nghiên cứu được áp dụng.
Chương cuối cùng sẽ trình bày về kết quả đã hoàn thành và kết luận, đánh giá về nghiên cứu, nêu ra những ưu – nhược điểm
CƠ SỞ LÝ THUYẾT
Ngôn ngữ R
R là một ngôn ngữ lập trình thống kê phổ biến, ngày càng trở thành công cụ chính trong phân tích dữ liệu và kỹ thuật phân tích hiện đại Khác với các phần mềm thương mại thường sử dụng menu, R sử dụng các package và lệnh (hàm) để thực hiện phân tích Các package được phát triển để thực hiện các mô hình phân tích cụ thể, mỗi package chứa nhiều hàm, và mỗi hàm được viết theo cú pháp đặc biệt.
Vì vậy, người dùng ngôn ngữ R cần phải làm quen với các lệnh và các cú pháp liên quan đến những package cần dùng
Là một dãy những phần tử có cùng một kiểu dữ liệu, để tạo được vector ta sử dụng hàm c()
Các phần tử trong vector được đánh số bắt đầu từ 1, và để truy cập vào phần tử thứ i, ta sử dụng cú pháp: ten_vector[i] Ngoài ra, vector còn hỗ trợ một số hàm hữu ích như hàm length() để lấy chiều dài của vector và hàm sort() để sắp xếp các phần tử trong vector.
Dataframe là một đối tượng phổ biến trong R, được sử dụng để lưu trữ dữ liệu với các cột có tên gọi và kiểu dữ liệu khác nhau.
Trong dataframe, có một số hàm quan trọng như hàm dim() để xem số trục, hàm names() để kiểm tra tên các biến, hàm summary() để lấy thông tin thống kê, và hàm mean() để tính giá trị trung bình.
2.1.4 Trực quan hóa dữ liệu Được dùng để biểu diễn đồ họa cho thông tin và dữ liệu Nó giúp dễ dàng rút ra các quy luật, mối tương quan giữa các dữ liệu, dễ dàng hiểu ý nghĩa dữ liệu để đưa ra các quyết định
Trực quan hóa dữ liệu có ý nghĩa đặc biệt đối với loại dữ liệu lớn
Bài viết này giới thiệu một số hàm quan trọng trong R, bao gồm hàm plot() để vẽ các điểm trên mặt phẳng tọa độ, hàm pie() dùng để tạo biểu đồ tròn, và hàm barplot() cho phép vẽ biểu đồ thanh theo chiều dọc hoặc chiều ngang.
Mô hình hồi quy tuyến tính (Linear Regression Model)
Mô hình hồi quy tuyến tính (Linear Regression) là một trong những phương pháp phân tích dữ liệu phổ biến nhất trong thống kê Nó là nền tảng cho nhiều mô hình hồi quy khác nhau, bao gồm hồi quy Logistic, hồi quy Poisson và hồi quy nhị thức.
Hồi quy tuyến tính là thuật toán học có giám sát, dùng để dự đoán biến phụ thuộc liên tục (Y) dựa trên các biến độc lập (X) Trong mô hình này, biến phụ thuộc luôn là liên tục, trong khi các biến độc lập có thể là liên tục hoặc rời rạc.
Cụ thể, trong mô hình hồi quy tuyến tính sẽ có hai mô hình đó là mô hình đơn biến và mô hình đa biến
2.2.1 Mô hình hồi quy tuyến tính đơn biến
Mô hình hồi quy tuyến tính đơn biến phát biểu rằng:
Trong phương trình hồi quy tuyến tính 𝑦 = 𝛼 + 𝛽𝑥 𝑖 + 𝜀 𝑖, α đại diện cho giá trị chặn khi x i = 0, trong khi β thể hiện độ dốc của đường hồi quy Các thông số α, β và phương sai σ 2 được ước tính từ dữ liệu, với ε i là biến ngẫu nhiên tuân theo phân phối chuẩn có trung bình 0 Phương pháp bình phương nhỏ nhất được sử dụng để tìm giá trị của α và β, nhằm tối thiểu hóa sai số trong mô hình.
(2) Ước số cho α và β đáp ứng điều kiện đó là:
∑ 𝑛 𝑖=1 (𝑥 𝑖 −𝑥̅) 2 (3) 𝛼̂ = 𝑦̅ − 𝛽̂𝑥̅ (4) Trong phân tích hồi quy tuyến tính, thông thường muốn biết hệ số β = 0 hay β # 0
Nếu β bằng 0, thì cũng có nghĩa là không có mối liên hệ gì giữa x và y; nếu β khác với
0, đây là bằng chứng để phát biểu rằng x và y có liên quan nhau Để kiểm định giả thiết β = 0 chúng ta dùng xét nghiệm t dưới đây:
𝑆𝐸(𝛽̂) có nghĩa là sai số chuẩn của ước số 𝛽̂
Ví dụ về mô hình hồi quy tuyến tính đơn biến:
Hình 2.1: Ví dụ về mô hình hồi quy tuyến tính đơn biến
Mô hình hồi quy tuyến tính đơn biến trong nghiên cứu này được sử dụng để đo lường độ cholesterol trong máu của 18 nam giới Tỉ trọng cơ thể của từng đối tượng được tính bằng chỉ số BMI, được xác định bằng cách chia trọng lượng (kg) cho chiều cao bình phương (m²).
Kết quả phân tích cho thấy các tham số 𝛼̂ = 1.0892 và 𝛽̂ = 0.0578 Điều này cho phép ước tính mức độ cholesterol cho bất kỳ độ tuổi nào trong khoảng mẫu thông qua một phương trình tuyến tính.
𝑦̂ = 1.0892 + 0.0578 × 𝑎𝑔𝑒 (6) 𝑖 Phương trình này có nghĩa rằng khi độ tuổi tăng 1 năm thì độ cholesterol tăng khoảng 0.0578 mmol/L
2.2.2 Mô hình hồi quy tuyến tính đa biến
Mô hình hồi quy tuyến tính đa biến là sự phát triển từ mô hình hồi quy tuyến tính đơn biến, cho phép mở rộng từ một biến thành nhiều biến trong một phương trình Phương trình tổng quát của mô hình này được xác định như sau:
𝑦 𝑖 = 𝛼 + 𝛽 1 𝑥 1𝑖 + 𝛽 2 𝑥 2𝑖 + ⋯ + 𝛽 𝑘 𝑥 𝑘𝑖 + 𝜀 𝑖 (7) Xét phương trình (7), ta có biến x (x 1 , x 2 ,…x k ) và mỗi biến sẽ có một thông số βj (j =
1, 2,…, k) cần được ước tính Vậy nên mô hình trên được gọi là mô hình hồi quy tuyến tính đa biến
Phương pháp ước tính β j chủ yếu sử dụng kỹ thuật bình phương nhỏ nhất Trong đó, phương trình (8) được xem là ước tính của yi, và phương pháp bình phương nhỏ nhất tìm kiếm các giá trị 𝛼̂ 1, 𝛽̂ 1, 𝛽̂ 2,⋯ , 𝛽̂ 𝑘 nhằm tối thiểu hóa giá trị của (8).
Phương pháp bình phương nhỏ nhất giải vector β bằng phương trình sau đây:
Ví dụ về mô hình hồi quy tuyến tính đa biến:
Hình 2.2: Ví dụ về mô hình hồi quy tuyến tính đa biến
Kết quả phân tích cho thấy ước số 𝛼̂ = 0.455, 𝛽̂ 1 = 0.054 và 𝛽̂ 2 = 0.033 Điều này cho phép chúng ta xây dựng phương trình ước đoán nồng độ cholesterol dựa trên độ tuổi và chỉ số khối cơ thể (BMI).
Cholesterol có thể được tính bằng công thức: Cholesterol = 0.455 + 0.054(độ tuổi) + 0.033(BMI) Theo đó, mỗi năm tuổi tăng thêm, mức cholesterol sẽ tăng 0.054 mg/L, và mỗi 1 kg/m² tăng BMI sẽ dẫn đến mức cholesterol tăng 0.033 mg/L Công thức này mô tả khoảng 88.2% (R² = 0.8815) sự biến động của cholesterol giữa các cá nhân.
Hệ số tương quan tuyến tính
Chỉ số thống kê này được sử dụng để đo lường mức độ quan hệ tuyến tính giữa hai biến mà không phân biệt biến nào phụ thuộc vào biến nào Nó phản ánh sức mạnh và độ yếu của mối quan hệ giữa hai biến.
Hệ số tương quan nằm trong khoảng từ -1 đến 1, cho biết mối quan hệ giữa hai biến Nếu hệ số bằng 0, hai biến không có tương quan tuyến tính Hệ số bằng 1 hoặc -1 cho thấy mối tương quan tuyến tính tuyệt đối Hệ số tương quan âm (bé hơn 0) nghĩa là khi biến x tăng, biến y giảm và ngược lại, trong khi hệ số tương quan dương (lớn hơn 0) cho thấy khi biến x tăng, biến y cũng tăng.
Hệ số tương quan chỉ có ý nghĩa khi và chỉ khi mức ý nghĩa quan sát nhỏ hơn mức ý nghĩa α = 5%
Hệ số tương quan gồm có hệ số tương quan Pearson, hệ số tương quan Spearman, hệ số tương quan Kendall
2.3.1 Hệ số tương quan Pearson
Hệ số tương quan Pearson (Pearson correlation coefficient, ký hiệu: r) là một chỉ số thống kê dùng để kiểm tra và đo lường mối quan hệ giữa các biến phụ thuộc và các biến liên tục.
Công thức tính hệ số tương quan Pearson được tính như sau:
√𝛴(𝑥−𝑥̅) 2 (𝑦−𝑦̅) 2 (11) Trong R để tính hệ số trên thì sẽ sử dụng hàm: cor.test(x, y) (12)
2.3.2 Hệ số tương quan Spearman ρ
Hệ số tương quan Spearman được áp dụng khi biến x và y không tuân theo phân phối chuẩn Phương pháp này bao gồm việc chuyển đổi hai biến x và y thành các biến thứ bậc, sau đó đánh giá mức độ tương quan giữa hai dãy số đã được xếp hạng.
Công thức tính hệ số tương quan Spearman được tính như sau:
D là hiệu của hạng hai biến trong R, sử dụng phương thức sau: cor.test(x, y, method = “spearman”) (14)
2.3.3 Hệ số tương quan Kendall τ Đây là phương pháp phân tích phi tham số dùng để ước tính bằng cách tìm các cặp số (x,y) Một cặp (x,y) song hành định nghĩa đó là có hiệu số hay độ khác biệt trên trục hoành có cùng dấu hiệu (âm hoặc dương) với hiệu ở trên trục tung Nếu hai biến số x và y không có liên hệ với nhau thì kết luận số cặp song hành bằng hay có tương đương với số cặp không song hành
Sử dụng phương thức (15) để tính hệ số trong R: cor.test(x, y, method=“kendall”) (15)
Trong nghiên cứu này sẽ sử dụng hệ số tương quan tuyến tính Pearson để thực hiện các tính toán đo lường về mối quan hệ tương quan
Mô hình hồi quy Logistic (Logistic Regression)
Hồi quy logistic được sử dụng để dự đoán mối quan hệ giữa các biến độc lập và biến phụ thuộc Trong mô hình này, biến phụ thuộc không liên tục và có tính chất đo lường dưới dạng giá trị rời rạc, thường là nhị phân như: không/có, phục hồi/không phục hồi, tử vong/không tử vong.
Logistic Regression là cách tiếp cận thống kê nhằm xác định mối liên quan giữa biến phụ thuộc rời rạc y với các biến độc lập x
Phương trình hồi quy logistic có công thức như sau:
𝑦 = 𝑙𝑜𝑔𝑖𝑠𝑡𝑖𝑐_𝑓𝑢𝑛𝑐(𝛼𝑥 + 𝛽) (16) Hàm logistic được sử dụng phổ biến nhất đó chính là hàm sigmoid:
Trong mô hình logistic, biến phụ thuộc y chỉ có hai trạng thái là 0 hoặc 1 Để chuyển đổi biến này thành biến liên tục, cần tính toán xác suất của hai trạng thái này.
Phương pháp dựa trên xác suất của hàm logistic và một ngưỡng thuộc đoạn [0, 1] được gọi là dự đoán dữ liệu mới
Hình 2.3: Hàm Sigmoid trong Logistic Regression
Nhìn vào hình 2.3, ta thấy hàm Sigmoid được thể hiện dưới dạng là một dạng hình cong dưới dạng chữ “s” và tăng dần
Giới thiệu mô hình
Mô hình hồi quy tuyến tính và hồi quy logistic sử dụng ngôn ngữ R để phân tích dữ liệu thô từ file Excel liên quan đến dịch bệnh do virus corona Qua việc áp dụng các mô hình này, chúng ta có thể đánh giá và nhận xét về mối liên hệ giữa các biến trong nghiên cứu dịch tễ học.
Bên cạnh việc trình bày các mô hình, bài viết cũng sẽ cung cấp các biểu đồ so sánh giá trị quan trọng như tổng số ca nhiễm bệnh, tổng số ca tử vong và đồ thị sigmoid để minh họa rõ hơn về tình hình dịch bệnh.
KẾT QUẢ THỰC NGHIỆM VÀ KẾT LUẬN
Bộ dữ liệu
Bộ dữ liệu nghiên cứu về dịch bệnh Covid-19 được tìm kiếm và tổng hợp trên trang tìm kiếm Kaggle, Open Development Mekong và WHO
Dữ liệu áp dụng cho đề tài nghiên cứu gồm 03 bộ có ý nghĩa khác nhau, cụ thể là:
Bộ dữ liệu “Covid19 in World Countries-Latest Data” cung cấp thông tin quan trọng về số người hồi phục, số người tử vong và tổng số ca nhiễm Covid-19 tại các quốc gia trên thế giới tính đến ngày 20 tháng 03 năm 2022 Bộ dữ liệu này gồm 10 giá trị, giúp người đọc nắm bắt tình hình dịch bệnh một cách nhanh chóng và chính xác.
• Country - Tên các quốc gia trên thế giới
• Total Cases - Tổng số ca Covid-19
• Total Deaths - Tổng số người chết
• Total Recovered - Tổng số trường hợp đã phục hồi
• Active Cases - Tổng số trường hợp đang hoạt động
• Total Cases/1 mil population- Tổng số ca trên 1 triệu dân số
• Death/1 mil population - Tổng số người chết trên 1 triệu dân số
• Total Tests - Tổng số thử nghiệm Covid đã thực hiện
• Tests/1 mil population - Kiểm tra đối chứng được thực hiện trên 1 triệu dân số
• Population - Dân số cả nước
Total Cases, Total Deaths, Total Recovered, Total Tests và Population là năm dữ liệu dùng phân tích tại bộ này
Bộ dữ liệu thứ hai trong nghiên cứu mang tên “EN-Details information of infected cases by COVID-19 in Vietnam”, cung cấp thông tin chi tiết về các trường hợp nhiễm COVID-19 tại Việt Nam, được cập nhật đến ngày 06/07/2021 Dữ liệu này bao gồm 07 giá trị cụ thể, giúp người dùng nắm bắt tình hình dịch bệnh một cách rõ ràng và kịp thời.
• ID: Số thứ tự các ca nhiễm bệnh
• Patient code: Mã số bệnh nhân nhiễm bệnh
• Age: Tuổi của bệnh nhân
• Sex: Giới tính bệnh nhân
• Provincial confirmation: Là ghi nhận ca mắc bệnh do tỉnh xác nhận thông tin bệnh nhân cung cấp
• Status: Tình trạng của bệnh nhân, gồm có những tình trạng như Recovered (Phục hồi), Death (Tử vong), Being treated (Đang điều trị)
• Nationality: Quốc tịch của bệnh nhân nhiễm bệnh
Age, Status, Sex được sử dụng để phân tích tại bộ dữ liệu này
Bộ dữ liệu tự tổng hợp thứ 3 ghi nhận tổng số ca nhiễm bệnh và tổng số ca tử vong tại 63 tỉnh thành của Việt Nam, được cập nhật vào ngày 22/04/2022 Bộ dữ liệu này bao gồm 05 giá trị quan trọng.
• Stt: số thứ tự tỉnh thành
• Tinh/Thanh pho: Tên tỉnh hoặc thành phố ở Việt Nam
• Tong so ca nhiem: Ghi nhận tổng số ca nhiễm bệnh ở từng tỉnh tại Việt Nam
• Tong so ca tu vong: Ghi nhận tổng số ca tử vong ở từng tỉnh tại Việt Nam
• Tu vong: Là cột giá trị được quy đổi về hai giá trị nhị phân (1: tử vong, 0: không tử vong) của các tỉnh
Tinh/Thanh pho, Tong so ca nhiem, Tong so ca tu vong, Tu vong là các dữ liệu được dùng để phân tích khi sử dụng.
Kết quả thực nghiệm
3.2.1 Bộ dữ liệu “Covid-19 in World Countries-Latest Data”
Hình 3.1: Hệ số tương quan giữa tất cả các biến
Biểu đồ 3.1 minh họa hệ số tương quan giữa tất cả các biến trong dữ liệu, cho thấy mức độ liên hệ giữa các đại lượng Các chỉ số trong biểu đồ giúp chúng ta hiểu rõ hơn về mối quan hệ này.
Hình 3.2: Hệ số tương quan giữa các biến xem xét
Based on the analysis of Chart 3.1, we identify four closely related metrics: Total Cases, Total Deaths, Total Recovered, and Population.
Hình 3.3: Đánh giá các biến ở mức độ tin cậy 95%
Trong quá trình đánh giá các biến trong mô hình, kết quả từ relaimp cho thấy có hai nhóm chính: nhóm đầu tiên phân tách chỉ số R² cho từng biến tiên lượng và hệ số hồi quy với các điều kiện khác nhau Cụ thể, khi không điều chỉnh (1X), điều chỉnh một biến (2Xs) và điều chỉnh hai biến (3Xs), kết quả cho thấy tổng số người phục hồi có mức độ ảnh hưởng cao nhất, chiếm 50.92%, trong khi tổng số người tử vong chiếm 40.50%.
Dựa trên các chỉ thị số trong hình 3.3, chúng ta đã chọn lọc được ba biến: Total.Deaths, Total.Recovered và Population Trong đó, biến Total.Recovered chiếm 50.92% và biến Total.Deaths chiếm 40.50% trên tổng số 97.82% Do đó, hai biến chính được sử dụng trong nghiên cứu là Total.Deaths và Total.Recovered.
Hình 3.4: Biểu đồ thể hiện số ca tử vong của Việt Nam, Lào, Campuchia
Việt Nam đang dẫn đầu về số ca tử vong trong ba quốc gia Việt Nam, Lào và Campuchia, theo biểu đồ thống kê mới nhất Mặc dù có mật độ dân số cao nhất, nhưng số ca tử vong hiện tại là một tín hiệu cảnh báo nghiêm trọng về tình hình dịch bệnh lây lan trong nước Do đó, việc khắc phục tình trạng này là vô cùng cấp bách, với mục tiêu tăng dân số nhưng giảm tỷ lệ tử vong.
Hình 3.5: Mô hình tuyến tính bằng Bayesian Model Average (BMA)
Kết quả cho thấy có bốn mô hình khả quan, trong đó mô hình gợi ý tốt nhất dựa trên xác suất hậu định và BIC lần lượt là mô hình 1, 2, 3 và 4.
Nhìn vào số liệu của mô hình 1, gồm có 3 yếu tố: Total.Cases, Total.Test và Population Mô hình này giải thích khoảng 89.2% (r 2 = 0.892) Mô hình này có xác
26 suất hậu định cao nhất (chiếm 49%) phương sai của mật độ dân số và BIC thấp nhất
Từ đó cho thấy mô hình này tối ưu
Mô hình 2, gồm có 4 yếu tố Total.Cases, Total.Recovered, Total.Test và Population
Mô hình này giải thích 89.4% phương sai của mật độ dân số (r² = 0.894) và có xác suất hậu định cao thứ hai, chiếm 28.7% Điều này cho thấy mô hình này là một lựa chọn tối ưu với chỉ số BIC thấp thứ hai.
Mô hình 3 và mô hình 4 được giải thích tương tự như mô hình 1 và mô hình 2 Tuy nhiên, để phân tích sự khác biệt về mật độ dân số giữa các quốc gia trong thời gian dịch bệnh, chúng ta nên ưu tiên chọn mô hình 1 hoặc mô hình 2.
Hình 3.6: Biểu đồ thể hiện mô hình tuyến tính bằng Bayesian Model Average (BMA)
Biểu đồ này thể hiện cho mô hình tuyến tính vừa giải thích ở trên
Bằng cách phân tích bộ dữ liệu này, chúng ta có thể so sánh tỷ lệ tử vong giữa Việt Nam, Lào và Campuchia, từ đó đánh giá mức độ nghiêm trọng của dịch bệnh Mô hình BMA cung cấp công cụ hữu ích để giải thích sự khác biệt về mật độ dân số trong thời kỳ dịch bệnh hiện tại.
3.2.2 Bộ dữ liệu “EN-Details information of infected cases by COVID-19 in Vietnam”
Hình 3.7: Thông tin tổng số bệnh nhân và tuổi nhiễm bệnh
Dựa trên thông tin thống kê từ hình 3.7, tổng số bệnh nhân nhiễm bệnh là 15.689 trong số 19.933 bệnh nhân được ghi nhận Thống kê này cung cấp cái nhìn tổng quan về độ tuổi và tỷ lệ nhiễm bệnh trong bộ dữ liệu.
Sử dụng câu lệnh SQL để lọc các giá trị có tuổi bằng 0, vì những giá trị này không có ý nghĩa do không được cập nhật kịp thời tại thời điểm sử dụng dữ liệu.
In the dataset "EN-Details information of infected cases by COVID-19 in Vietnam," we select the Age column and apply the condition Age > 0 This command filters the data to include only patients aged 1 and older, as demonstrated in the code above.
Hình 3.8: Thông tin thống kê về độ tuổi nhiễm
Sau khi phân tích thông tin từ hình 3.7, chúng tôi đã tiến hành truy xuất số liệu thống kê về độ tuổi nhiễm bệnh Kết quả cho thấy độ tuổi nhỏ nhất của các trường hợp nhiễm bệnh là
Đối tượng nghiên cứu có độ tuổi từ 1 đến 99 tuổi, với độ tuổi trung bình nhiễm bệnh là 32,66 tuổi Cứ 25% trong số này có độ tuổi nhiễm bệnh bằng hoặc nhỏ hơn 23 tuổi.
Tại độ tuổi 23, giá trị 3rdQu = 41 cho thấy rằng 75% đối tượng nghiên cứu mắc bệnh ở độ tuổi bằng hoặc nhỏ hơn 41 Trong khi đó, số trung vị (mean = 32.66) chỉ ra rằng 50% đối tượng nghiên cứu có độ tuổi mắc bệnh là 32.66 tuổi trở xuống hoặc 32.66 tuổi trở lên.
Hình 3.9: Thông tin tổng số bệnh nhân là nam giới nhiễm bệnh
Kết luận
Quá trình thực hiện khóa luận đã mang lại cho em nhiều cơ hội học hỏi và phát triển, đặc biệt trong lĩnh vực ngôn ngữ lập trình Em đã nâng cao kỹ năng lập trình, cũng như cải thiện các kỹ năng mềm như viết báo cáo và tìm hiểu tài liệu hiệu quả.
Tôi đã sử dụng ngôn ngữ R để phân tích các con số thô trong bộ dữ liệu, chuyển đổi chúng thành biểu đồ trực quan và tính toán các hệ số tương quan Ngoài ra, tôi cũng áp dụng SQL để trích xuất số liệu phục vụ cho quá trình phân tích.
Kết quả đạt được của nghiên cứu
Sau khi hoàn thành nghiêm túc đề tài, tôi đã tích lũy được nhiều kiến thức về ngôn ngữ R cùng với các thuật toán trong mô hình hồi quy tuyến tính và logistic Nhờ đó, tôi đã áp dụng phân tích dữ liệu trên ứng dụng RStudio và hoàn thiện báo cáo này.
Dựa trên các mô hình phân tích trong RStudio, tôi đã áp dụng kiến thức và hiểu biết của mình để thực hiện đánh giá các thông số một cách thực tế và có giá trị.
Ưu và khuyết điểm của nghiên cứu
Bài nghiên cứu này nổi bật với việc cung cấp dữ liệu cụ thể sau quá trình phân tích, giúp người đọc cảm thấy an tâm và tin tưởng Thông tin được trình bày không chỉ hữu ích mà còn mang lại giá trị thực tiễn, tạo cảm giác tích cực cho độc giả.
Tuy nhiên, vì lý do thu thập bộ dữ liệu nên vẫn còn một số vấn đề chưa thể đề cập chuyên sâu được