Bộ dữ liệu “EN-Details information of infected cases by COVID-19

Một phần của tài liệu Nghiên cứu sự Ảnh hưởng dịch bệnh covid 19 dựa trên các kỹ thuật phân tích dữ liệu (Trang 26 - 29)

CHƯƠNG III: KẾT QUẢ THỰC NGHIỆM VÀ KẾT LUẬN

3.2 Kết quả thực nghiệm

3.2.2 Bộ dữ liệu “EN-Details information of infected cases by COVID-19

Hình 3.7: Thông tin tổng số bệnh nhân và tuổi nhiễm bệnh

Nhìn vào thông tin thống kê ở hình 3.7 về tổng số bệnh nhân và tuổi nhiễm bệnh, ta thấy rằng có 15.689 / 19.933 bệnh nhân nhiễm bệnh dựa trên bộ dữ liệu này. Ta sử

27 dụng câu lệnh SQL để lọc ra các giá trị có tuổi bằng 0, bởi các giá trị này không có ý nghĩa (vì không được cập nhật kịp thời độ tuổi tại thời điểm sử dụng dữ liệu).

Ta chọn cột Age có trong data3 (bộ dữ liệu EN-Details information of infected cases by COVID-19 in Vietnam) và sử dụng điều kiện Age > 0, với câu lệnh này chỉ lấy các bệnh nhân có độ tuổi bắt đầu từ 1 trở lên như đoạn code trên.

Hình 3.8: Thông tin thống kê về độ tuổi nhiễm

Sau khi lọc được các thông tin ở hình 3.7, tiến hành truy xuất thông tin thống kê về độ tuổi nhiễm bệnh. Nhìn vào các thông số, ta thấy rằng: độ tuổi nhỏ nhất nhiễm bệnh là 1 tuổi, cao nhất là 99 tuổi; độ tuổi trung bình nhiễm bệnh là 32.66 tuổi. 1st Qu. = 23 có nghĩa rằng cứ 25% đối tượng nghiên cứu có độ tuổi nhiễm bệnh bằng hoặc nhỏ hơn 23 tuổi; 3rdQu. = 41 có nghĩa rằng 75% đối tượng nghiên cứu có độ tuổi nhiễm bệnh bằng hoặc nhỏ hơn 41 tuổi. Số trung vị (mean = 32.66) có nghĩa là 50% đối tượng nghiên cứu có độ tuổi nhiễm bệnh là 32.66 tuổi trở xuống hay 32.66 tuổi trở lên.

Hình 3.9: Thông tin tổng số bệnh nhân là nam giới nhiễm bệnh

Dựa vào dữ liệu gốc (data3), tiến hành dùng câu lệnh SQL để xuất ra hai trường về tổng số ca nhiễm bệnh là nam giới và mã bệnh nhân. Theo thông tin được trích xuất ở trên, ta thấy có 1.453 bệnh nhân là nam (đã được cập nhật giới tính, loại bỏ các giá trị

“Not defined” và “NA”).

Ta dùng câu lệnh SQL truy xuất vào dữ liệu data3 và chọn cột Patient với điều kiện chỉ lấy giới tính là nam (0).

Hình 3.10: Thông tin tổng số bệnh nhân là nữ giới nhiễm bệnh

Dựa vào dữ liệu gốc (data3), tiến hành dùng câu lệnh SQL để xuất ra hai trường về tổng số ca nhiễm bệnh là nữ giới và mã bệnh nhân. Theo thông tin được trích xuất ở

28 trên, ta thấy có 1.320 bệnh nhân là nữ (đã được cập nhật giới tính, loại bỏ các giá trị

“Not defined” và “NA”).

Ta dùng câu lệnh SQL truy xuất vào dữ liệu data3 và chọn cột Patient với điều kiện chỉ lấy giới tính là nữ (1).

Hình 3.11: Thông tin số ca nhiễm bệnh và trung bình số ca nhiễm bệnh ứng với độ tuổi

Hình 3.11 miêu tả thông số giữa độ tuổi và ca nhiễm bệnh của dữ liệu này. Chẳng hạn như, thông qua dữ liệu, ta thấy rằng ứng với 1 tuổi sẽ có 156 bệnh nhân nhiễm bệnh, 20 tuổi có 422 bệnh nhân nhiễm bệnh, 40 tuổi có 271 bệnh nhân nhiễm bệnh,… Bên cạnh đó, ta tính được trung bình ca nhiễm bệnh tuổi nằm trong khoảng [1, 99] là 161 ca nhiễm bệnh.

Hình 3.12: Đồ thị sigmoid giữa tuổi và trạng thái nhiễm bệnh

Từ các thông số ở hình 3.11 trên, tiến hành gắn các giá trị nhị phân ứng với các độ tuổi. Nếu độ tuổi có giá trị thấp hơn 161 sẽ gắn với 1 (khả năng nhiễm bệnh thấp), cao hơn hoặc bằng 161 sẽ gắng với 0 (khả năng nhiễm bệnh cao).

29 Ta dùng vector để gán các giá 0 và 1 lần lượt từ 1 đến 99 tuổi ứng với số ca nhiễm so sánh với trung bình ca nhiễm đã nói như đoạn code trên.

Nhìn vào đồ thị, ta có thể thấy rằng, khả năng nhiễm bệnh thấp sẽ giao động từ [1, 17]

48, và [50, 99] tuổi, độ tuổi bị nhiễm bệnh cao nhất sẽ là [18; 48]. Đồ thị sigmoid này có dạng một đường cong và xác suất nhiễm bệnh cao tăng dần theo độ tuổi (18 đến 48 tuổi).

Qua dữ liệu này, ta có thể kết luận được rằng dù ở mọi lứa tuổi hay giới tính nào cũng có khả năng nhiễm bệnh. Đặc biệt là độ tuổi trong khoảng [15, 61] có khả năng nhiễm bệnh cao. Vì đặc tính của loại virus này rất nguy hiểm, khi nhiễm bệnh, đặc biệt là bệnh nhân lớn tuổi có bệnh nền cần hết sức lưu ý. Không chỉ là bệnh nhân lớn tuổi và có bệnh nền, những bệnh nhân khác không được chủ quan, vì tốc độ diễn biến của Covid khá nhanh và phức tạp. Nêu cao tinh thần phòng chống lây nhiễm giữa người với người bằng việc thực hiện “5K” và tiêm ngừa vaccin đầy đủ.

Một phần của tài liệu Nghiên cứu sự Ảnh hưởng dịch bệnh covid 19 dựa trên các kỹ thuật phân tích dữ liệu (Trang 26 - 29)

Tải bản đầy đủ (PDF)

(56 trang)