trực quan hóa dữ liệu và khai phá dữ liệu dịch bệnh covid 19 bằng học máy

Bên cạnh các nghiên cứu chuyên sâu về mặt y học, việc nghiên cứu về các đặc điểm của bệnh như cách thức lây lan, các yếu tố ảnh hưởng đến dịch bệnh cũng được các nhà khoa học rất quan tâ

Trang 1

ỦY BAN NHÂN DÂN TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT

Trang 2

ỦY BAN NHÂN DÂN TỈNH BÌNH DƯƠNG

TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT

Trang 3

i

LỜI CAM ĐOAN

Tôi tên Phùng Duy Tươi xin cam đoan: Đề tài “Trực quan hóa dữ liệu và Khai phá dữ liệu dịch bệnh (COVID-19) bằng học máy” là công trình nghiên cứu của riêng tôi và được sự hướng dẫn khoa học của TS Giang Minh Đức Các nội dung nghiên cứu, kết quả trong đề tài này là trung thực và chưa công bố dưới bất

kỳ hình thức nào trước đây

Những số liệu trong các bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá được chính tác giả thu thập từ các nguồn khác nhau có ghi rõ trong phần tài liệu tham khảo

Ngoài ra, trong báo cáo còn sử dụng một số nhận xét, đánh giá cũng như số liệu của các tác giả khác, cơ quan tổ chức khác đều có trích dẫn và chú thích nguồn gốc

Nếu phát hiện có bất kỳ sự gian lận nào tôi xin hoàn toàn chịu trách nhiệm

về nội dung báo cáo của mình Trường Đại học Thủ Dầu Một không liên quan đến những vi phạm tác quyền, bản quyền do tôi gây ra trong quá trình thực hiện (nếu có)

Bình Dương, ngày 09 tháng 12 năm 2023

Người thực hiện

Phùng Duy Tươi

Trang 4

ii

LỜI CẢM ƠN

Đầu tiên, tôi xin bày tỏ lòng biết ơn chân thành đến thầy TS Giang Minh Đức Thầy đã tận tình hướng dẫn, truyền đạt kiến thức, động viên, khuyến khích

và hỗ trợ tôi rất nhiều để tôi có thể hoàn thành được luận văn này

Tôi xin bày tỏ lòng biết ơn đến với quý thầy giáo, cô giáo của Viện Kỹ thuật

- Công nghệ, Viện Đào tạo sau Đại học – Trường đại học Thủ Dầu Một, đặc biệt

là thầy TS Hoàng Mạnh Hà, các thầy cô đã trang bị cho tôi những kiến thức nền tảng quan trọng và đã có những sự hỗ trợ tận tình, động viên kịp thời đối với tôi trong suốt quá trình học và quá trình hoàn thành luận văn này

Mặc dù đã cố gắng, nhưng chắc chắn luận văn cũng không tránh khỏi những thiếu sót Tôi rất mong nhận được những ý kiến đóng góp của thầy cô để tôi có thể hoàn thiện đề tài của mình

Cuối cùng, tôi xin cảm ơn gia đình, những người thân, bạn bè, đồng nghiệp

đã động viên, tạo điều kiện để tôi có thể hoàn thành luận văn này

Xin trân trọng cảm ơn

Bình Dương, ngày 09 tháng 12 năm 2023

Học viên thực hiện đề tài

Phùng Duy Tươi

Trang 5

iii

TÓM TẮT ĐỀ TÀI

Dịch bệnh COVID-19 bùng phát từ cuối năm 2019 đã gây ra rất nhiều khó khăn cho tất cả các nước trên thế giới Dịch bệnh đã làm hàng trăm triệu người mắc bệnh, đã cướp đi sinh mạng của hàng triệu người và ảnh hưởng đến sinh kế của rất nhiều người khác Vì vậy, việc nghiên cứu về dịch bệnh này đã được tất cả các hãng dược, các bệnh viện và các cơ quan nghiên cứu tiến hành nhằm tìm ra cách chữa trị và phòng ngừa hiệu quả nhất Bên cạnh các nghiên cứu chuyên sâu

về mặt y học, việc nghiên cứu về các đặc điểm của bệnh như cách thức lây lan, các yếu tố ảnh hưởng đến dịch bệnh cũng được các nhà khoa học rất quan tâm nhằm

đề xuất các mô hình dự báo hiệu quả, qua đó góp phần hỗ trợ chính phủ các nước đưa ra các biện pháp giúp hạn chế và chặn đứng sự lây lan của dịch bệnh

Mặc dù sự lây lan của dịch bệnh nói chung, COVID-19 nói riêng rất khó dự đoán vì phụ thuộc rất nhiều yếu tố như từ bản chất của từng loại virus, vi khuẩn gây bệnh, các yếu tố tự nhiên như vị trí địa lý, khí hậu, các mùa trong năm… đến các yếu tố do con người như môi trường tiếp xúc, tình trạng sức khỏe, các biện pháp quản lý hành chính của chính phủ các nước Tuy nhiên, việc nghiên cứu các

dữ liệu về dịch bệnh này chắc chắn sẽ đem lại nhiều lợi ích như tạo được công cụ, những thuật toán hiệu quả để giúp dự báo, đối phó với các dịch bệnh tương tự trong tương lai

Trong phạm vi nghiên cứu của đề tài, tôi sử dụng các phương pháp trực quan hóa dữ liệu để thực hiện khai phá dữ liệu dịch bệnh COVID-19 (được công khai trên internet) bằng học máy, đồng thời đề xuất mô hình dự báo hiệu quả dựa trên mạng nơ-ron bộ nhớ dài-ngắn hạn (LSTM) sử dụng dữ liệu chuỗi thời gian đơn biến để dự báo sự lây lan của dịch bệnh, tập trung chủ yếu vào các nước thuộc khu vực ASEAN

Trang 6

iv

MỤC LỤC

Trang

LỜI CAM ĐOAN i

LỜI CẢM ƠN ii

TÓM TẮT ĐỀ TÀI iii

MỤC LỤC iv

DANH MỤC HÌNH ẢNH, BIỂU ĐỒ vi

DANH MỤC BẢNG viii

DANH MỤC CÁC TỪ VIẾT TẮT ix

MỞ ĐẦU 1

1 Lý do chọn đề tài 1

2 Mục tiêu nghiên cứu 1

2.1 Mục tiêu chung 1

2.2 Mục tiêu cụ thể 1

3 Đối tượng và phạm vi nghiên cứu 2

3.1 Đối tượng nghiên cứu 2

3.2 Phạm vi nghiên cứu 2

4 Phương pháp nghiên cứu 2

5 Đóng góp của đề tài 3

6 Kết cấu luận văn 3

Chương 1 CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN 4

1.1 Tổng quan về các dịch bệnh COVID-19 4

1.2 Tổng quan về Trực quan hóa dữ liệu 6

1.2.1 Khái niệm trực quan hóa dữ liệu 6

1.2.2 Sự cần thiết của trực quan hóa dữ liệu 6

1.2.3 Các giai đoạn trực quan hóa dữ liệu trong Học máy 6

Trang 7

v

1.3 Tổng quan về khai phá dữ liệu 7

1.3.1 Khái niệm 8

1.3.2 Các giai đoạn trong khai phá dữ liệu 8

1.3.3 Các phương pháp khai phá dữ liệu 8

1.3.4 Một số lĩnh vực áp dụng khai phá dữ liệu 10

1.4 Tổng quan về chuỗi thời gian (time series) 10

1.5 Thuật toán học máy Polynomial Regression 10

1.6 Tổng quan về Mạng nơ-ron nhân tạo ANN 11

1.7 Tổng quan về Mạng nơ-ron hồi quy RNN 12

1.8 Mạng bộ nhớ dài-ngắn hạn LSTM (Long Short-Term Memory) 13

1.9 Một số phương pháp đánh giá mô hình sử dụng trong luận văn 14

1.10 Các nghiên cứu liên quan 16

Chương 2 MÔ HÌNH ĐỀ XUẤT TRỰC QUAN HÓA VÀ KHAI PHÁ DỮ LIỆU DỊCH BỆNH (COVID-19) 18

2.1 Mô hình đề xuất 18

2.2 Nguồn dữ liệu 21

Chương 3 THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 22

3.1 Trực quan hóa dữ liệu 22

3.1.1 Đánh giá tổng quan về dữ liệu 22

3.1.2 Rút trích thông tin trong tập dữ liệu 24

3.2 Thực nghiệm, đánh giá và chọn mô hình phù hợp 27

3.2.1 Dự đoán số ca tử vong và Số ca nhiễm mới bằng học máy 29

3.2.2 Dự đoán Số ca tử vong và Số ca nhiễm hàng ngày bằng học sâu 32

3.2.3 Mô hình LSTM được đề xuất 34

KẾT LUẬN 38

TÀI LIỆU THAM KHẢO 40

Trang 8

vi

DANH MỤC HÌNH ẢNH, BIỂU ĐỒ

Trang

Hình 1.1: Cấu trúc của một mạng Nơ-ron nhân tạo (ANN) [17] 11

Hình 1.2: (a) Mô hình mạng nơ-ron hồi quy RNN; (b) Các dạng kết nối cơ bản của RNN [17] 12

Hình 1.3: Cấu trúc cơ bản của một tế bào LSTM [18] 13

Hình 1.4: Sơ đồ kết nối của một mạng LSTM cơ bản [17] 14

Hình 2.1: Mô hình dự báo mức độ lây lan của dịch bệnh COVID-19 18

Hình 3.1: Mức độ hoàn thiện của bộ dữ liệu thu thập được 23

Hình 3.2: Mức độ hoàn thiện của bộ dữ liệu sau khi xử lý 23

Hình 3.3: Số liệu COVID-19 toàn khối (a) Tỷ lệ tử vong trên tổng ca nhiễm (b) 24

Hình 3.4: Tổng số ca nhiễm của các nước trong khối 24

Hình 3.5: Tổng số ca tử vong của các nước trong khối ASEAN 25

Hình 3.6: Số lượng vắc xin sử dụng trong khối ASEAN 25

Hình 3.7: Số lượng vắc xin sử dụng trên 100 dân 26

Hình 3.8: Số lượng vắc xin sử dụng trên 100 dân trong khu vực ASEAN 26

Hình 3.9: Diễn tiến dịch bệnh COVID-19 theo thời gian 27

Hình 3.10: Phân phối dữ liệu trong các trường cần xét 28

Hình 3.11: Biểu đồ nhiệt thể hiện tương quan giữa các cột 29

Hình 3.12: Dự đoán Số ca tử vong hàng ngày bằng hồi quy đa thức bậc 2 30

Hình 3.13: Dự đoán Số ca tử vong hàng ngày bằng hồi quy đa thức bậc 3 31

Hình 3.14: Dự đoán Số ca nhiễm hàng ngày bằng hồi quy đa thức bậc 2 31

Hình 3.15: Dự đoán Số ca nhiễm hàng ngày bằng hồi quy đa thức bậc 3 32

Hình 3.16: Tổng số ca tử vong theo ngày của các nước trong khối 32

Trang 9

vii

Hình 3.17: Tổng số ca nhiễm mới theo ngày của các nước trong khối 33Hình 3.18: Dự báo số ca tử vong mới trong 2 tuần bằng LSTM 35Hình 3.19: Dự báo số ca nhiễm hàng ngày với thực tế bằng LSTM 36

Trang 10

viii

DANH MỤC BẢNG

Trang

Bảng 3.1 Mô tả thống kê dữ liệu 28

Bảng 3.2 Mẫu dữ liệu chuỗi thời gian theo định dạng input/output 34

Bảng 3.3 Các tham số sử dụng trong mô hình đề xuất 35

Bảng 3.4 Kết quả đánh giá các mô hình 36

Trang 12

x

Trang 13

Kể từ khi bùng phát, thông tin về dịch bệnh liên tục được cập nhật đã làm phong phú nguồn dữ liệu và thúc đẩy nhu cầu về khai thác các thông tin, xây dựng được những công cụ hiệu quả để có thể dự báo về sự lây lan của dịch bệnh này Vì vậy, đề tài “Trực quan hóa dữ liệu và Khai phá dữ liệu dịch bệnh (COVID-19) bằng Học máy” được thực hiện nhằm nghiên cứu cách thức tiếp cận, khai phá các

dữ liệu liên quan đến dịch bệnh nói chung, bệnh COVID-19 nói riêng Kết quả nghiên cứu nhằm tạo ra các công cụ hiệu quả, có thể ứng dụng vào thực tế dự báo

sự lây lan của các dịch bệnh bùng phát trong tương lai bằng cách khai thác các nguồn dữ liệu về dịch bệnh

Hướng tiếp cận của đề tài là ứng dụng các phương pháp học máy và các phương pháp trực quan hóa dữ liệu để khai phá dữ liệu về dịch bệnh COVID-19, được cung cấp rộng rãi trên internet, nhằm tìm hiểu các yếu tố ảnh hưởng đến số

ca mắc bệnh và số ca tử vong của các nước thuộc khu vực ASEAN

2 Mục tiêu nghiên cứu

Trang 14

3 Đối tượng và phạm vi nghiên cứu

3.1 Đối tượng nghiên cứu

- Nghiên cứu áp dụng các mô hình học máy, các phương pháp, công cụ hỗ trợ trực quan hóa dữ liệu để khai phá tập dữ liệu về dịch bệnh COVID-19 được công khai trên internet

- Nghiên cứu các yếu tố ảnh hưởng đến dịch bệnh COVID -19

- Nghiên cứu các mô hình hiệu quả để dự báo về dịch bệnh COVID-19

3.2 Phạm vi nghiên cứu

- Nghiên cứu các công cụ học máy hỗ trợ trực quan hóa dữ liệu để xử lý dữ liệu, trình bày các kết quả nghiên cứu

- Nghiên cứu các mô hình học máy như Polynomial Regression, LSTM…

để áp dụng khai phá dữ liệu về dịch bệnh COVID-19

- Xây dựng các mô hình hồi quy sử dụng LSTM để dự báo sự lây lan của dịch bệnh COVID-19 dựa trên số ca nhiễm và số ca tử vong hàng ngày tại các nước thuộc khối ASEAN

4 Phương pháp nghiên cứu

- Phương pháp nghiên cứu chủ yếu trong luận văn là nghiên cứu lý thuyết kết hợp với thực nghiệm để đánh giá các kết quả

- Tổng quan các nghiên cứu liên quan, so sánh và đánh giá các ưu điểm và khuyết điểm của các giải pháp để rút ra các kinh nghiệm hỗ trợ thực hiện luận văn

Trang 15

- Xây dựng được các mô hình học máy, học sâu để tiến hành dự báo sự lây lan của dịch bệnh dựa trên số ca tử vong và số ca nhiễm mới hàng ngày Kết quả cho thấy các mô hình hồi quy sử dụng mạng nơ-ron LSTM rất có triển vọng trong việc dự báo về sự lây lan của dịch bệnh COVID-19

- Những kết quả, những kinh nghiệm xử lý dữ liệu thu được trong quá trình thực hiện luận văn này có thể được áp dụng để dự báo cho các dịch bệnh khác xảy

ra trong tương lai

6 Kết cấu luận văn

Ngoài phần mở đầu, kết luận và tài liệu tham khảo, luận văn có kết cấu gồm

03 chương như sau:

Chương 1 CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN Khái quát các lý thuyết quan trọng và những nghiên cứu liên quan được áp dụng trong luận văn

Chương 2 MÔ HÌNH ĐỀ XUẤT TRỰC QUAN HÓA VÀ KHAI PHÁ DỮ LIỆU DỊCH BỆNH (COVID-19)

Đề xuất lưu đồ xử lý để giải quyết bài toán khai phá dữ liệu dịch bệnh và đề xuất mô hình hiệu quả dự báo sự lây lan của dịch bệnh COVID-19 tại các nước ASEAN

Chương 3 THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ

- Thực nghiệm với dữ liệu dịch bệnh thực tế

- Đánh giá và so sánh hiệu quả của các mô hình

Trang 16

4

Chương 1 CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN

Trong chương này, tôi sẽ trình bày tổng quan về dịch bệnh COVID-19, lý thuyết tổng quan về chuỗi thời gian, một số thuật toán hồi quy trong học máy, mạng nơ-ron nhân tạo ANN, mạng nơ-ron hồi quy RNN và bộ nhớ dài-ngắn hạn LSTM Ngoài ra, tôi còn trình bày một số nghiên cứu liên quan về những phương pháp dự báo gần với đề tài của tôi

1.1 Tổng quan về các dịch bệnh COVID-19

Virus Corona là họ gồm nhiều loại virus được đặt tên dựa theo đặc điểm cơ thể chúng có dạng hình cầu, với những chiếc gai bao xung quanh trông như chiếc vương miện, chúng có khả năng gây ra bệnh tật cho con người Đợt bùng phát dịch bệnh đầu tiên do họ virus này gây ra là Hội chứng hô hấp cấp tính nặng (SARS) xảy ra khoảng thời gian từ năm 2002-2004, và đợt dịch lớn thứ hai là Hội chứng

hô hấp Trung Đông (MERS) xảy ra năm 2012 tại Ả Rập Xê Út Sự bùng phát của dịch bệnh COVID-19 được phát hiện lần đầu tiên khi điều tra ổ dịch bắt nguồn từ khu chợ lớn chuyên bán hải sản và động vật tại thành phố Vũ Hán, tỉnh Hồ Bắc, Trung Quốc vào cuối tháng 12 năm 2019 [1]

COVID-19 (từ tiếng Anh là coronavirus disease 2019 - bệnh virus corona 2019) là một bệnh đường hô hấp cấp tính truyền nhiễm gây ra bởi chủng virus SARS-CoV-2 và các biến thể của nó Đây là một chủng mới của họ virus corona

mà con người trước đó chưa từng biết tới Virus gây viêm đường hô hấp cấp ở người và cho thấy có sự lây lan từ người sang người Kể từ khi được phát hiện, dịch bệnh đã nhanh chóng lan rộng ra trên phạm vi toàn cầu Vào ngày 11 tháng

03 năm 2020, Tổ chức y tế thế giới (WHO) đã tuyên bố COVID-19 là một đại dịch

do sự lây truyền nhanh chóng từ người sang người [2], và tính đến ngày 28 tháng

09 năm 2022, toàn cầu đã có hơn 612 triệu ca nhiễm, trong đó hơn 6,54 triệu ca tử vong Ba nước có số ca mắc cao nhất thế giới là Mỹ (94,8 triệu ca mắc; 1,05 triệu

ca tử vong); Ấn Độ (44,5 triệu ca mắc; 528,5 nghìn ca tử vong) và Brazil (34,6 triệu ca mắc, 685,8 nghìn ca tử vong) [3]

Trang 17

5

Khi dịch bệnh bắt đầu bùng phát, cách đánh giá là rất quan trọng để nhanh chóng thực hiện các bước nhằm ngăn chặn dịch bệnh lây lan Mỗi dịch bệnh ở một tỉnh thành, quốc gia thường phát triển với tốc độ khác nhau theo thời gian Điều này là do những yếu tố như thay đổi theo mùa, đặc điểm địa lý và cách vi-rút biến đổi theo thời gian Trên toàn thế giới, COVID-19 đã gây ra mối đe dọa nghiêm trọng và ảnh hưởng đến cuộc sống của nhiều người Loại vi-rút này đã biến đổi liên tục, sinh ra nhiều biến chủng mới đã gây rất nhiều khó khăn cho các nước trong công tác phòng, chống dịch

Từ khi dịch bệnh COVID-19 bùng phát, chính phủ các nước đã thực hiện nhiều biện pháp nghiêm ngặt như cách ly, giãn cách xã hội, phong tỏa, truy vết và đặc biệt là tăng cường tiêm chủng vắc xin nhằm chặn đứng sự lây lan của virus đem lại cuộc sống bình thường cho người dân Cùng với đó, cũng đã có các nghiên cứu sử dụng học máy và học sâu để mô hình hóa và dự báo về dịch bệnh COVID-

19 nhằm giúp chính phủ các nước đưa ra các biện pháp hiệu quả trong việc đối phó với dịch bệnh này

Ngày nay, trí tuệ nhân tạo và học máy được ứng dụng rất rộng rãi trong doanh nghiệp và trong cuộc sống Học sâu là một phần của học máy tạo ra hiệu suất phù hợp và hoàn toàn vượt trội so các phương pháp học máy cổ điển, đặc biệt khi quy mô dữ liệu tăng lên rất lớn Trong đó, mạng nơ-ron nhân tạo (ANN) đã gây được sự chú ý sau thành công của việc ứng dụng học sâu trong phân loại ảnh với mạng nơ-ron tích chập CNN [7] Ngoài ra, để dự đoán hoặc dự báo các dữ liệu chuỗi thời gian, các nhà nghiên cứu sử dụng mạng nơ-ron hồi quy (RNN), đặc biệt

là mạng bộ nhớ dài-ngắn hạn (LSTM), đã đem lại kết quả dự đoán chính xác hơn

so với các phương pháp thống kê thông thường vì RNN đã giải quyết được các hạn chế của ANN trong vấn đề dự đoán các phụ thuộc xa đối với các dữ liệu chuỗi thời gian [8] Mặc dù LSTM trước đây đã được sử dụng rộng rãi để dự báo các dữ liệu chuỗi thời gian như dự báo giá cổ phiếu, dự báo thời tiết và dự báo tiêu dùng, nhưng đối với các dự báo về dịch bệnh COVID-19 vẫn chưa nhiều Hơn nữa, các nghiên cứu này chỉ mới khảo sát dịch bệnh COVID-19 trên các yếu tố như tổng số

Trang 18

6

ca mắc, tổng số ca tử vong và tổng số ca phục hồi mà chưa xem xét đến yếu tố vắc xin tác động đến dịch bệnh [5] [6]

Nghiên cứu này hướng đến việc sử dụng mạng nơ-ron LSTM để phân tích,

xử lý đối với dữ liệu chuỗi thời gian về dịch bệnh COVID-19, bộ dữ liệu này được công khai trên internet, tập trung chủ yếu vào số trường hợp nhiễm bệnh được ghi nhận và số ca tử vong hàng ngày tại các quốc gia Đông Nam Á gồm 10 nước: Brunei, Campuchia, Indonesia, Lào, Malaysia, Myanmar, Philippines, Singapore, Thái Lan và Việt Nam [4]

1.2 Tổng quan về Trực quan hóa dữ liệu

1.2.1 Khái niệm trực quan hóa dữ liệu

Trực quan hóa dữ liệu là việc mô tả dữ liệu một cách đơn giản nhất dưới dạng các hình ảnh trực quan như bảng biểu, biểu đồ, đồ thị Trực quan hóa dữ liệu trước hết phải truyền tải chính xác dữ liệu, đồng thời dữ liệu phải được trình bày một cách thẩm mỹ Tính thẩm mỹ, theo [13], nghĩa là tất cả trực quan hóa dữ liệu đều ánh xạ các giá trị dữ liệu thành các đặc điểm có thể định lượng được trên

đồ họa kết quả

1.2.2 Sự cần thiết của trực quan hóa dữ liệu

- Các nghiên cứu khoa học chỉ ra rằng con người phản ứng với hình ảnh tốt hơn rất nhiều so với các dạng trình bày khác như con số, ký hiệu, chữ viết…

- Một biểu đồ đơn giản cũng có thể diễn đạt thay thế cho rất nhiều dữ liệu

- Biểu diễn dữ liệu bằng hình ảnh giúp người xem dễ dàng nhận biết được

xu hướng, sự phân bố, sự tương quan giữa các đặc trưng của dữ liệu

- Một biểu đồ tốt có thể giúp một người không cần có kiến thức chuyên môn cũng có thể nắm bắt được những yếu tố cơ bản nhất của dữ liệu [14]

1.2.3 Các giai đoạn trực quan hóa dữ liệu trong Học máy

- Giai đoạn tiền xử lý dữ liệu: Trực quan hóa dữ liệu là một bước quan

trọng trong giai đoạn tiền xử lý dữ liệu để xây dựng mô hình học máy hiệu quả

Trang 19

7

Giai đoạn này, việc mô hình hóa dữ liệu giúp cung cấp những hiểu biết cơ bản về

dữ liệu đầu vào như sự phân bố, sự thiếu khuyết, những ngoại lệ, độ nhiễu…

- Giai đoạn trích chọn đặc trưng: Giai đoạn ngày, trực quan hóa dữ liệu

thường kết hợp với các thuật toán ranking/selection feature để đưa ra các biểu đồ, các bảng score đánh giá, so so sánh cho từng feature từ đó có thể tính toán được

sự phù hợp của feature đối với thuật toán, số lượng feature tối ưu…

- Giai đoạn đánh giá mô hình: Đây là giai đoạn mà việc mô hình hóa dữ

liệu được sử dụng nhiều nhất giúp thể hiện kết quả của mô hình học máy, so sánh kết quả giữa các mô hình học máy với nhau, kết quả của quá trình tinh chỉnh tham số Đặc biệt, việc mô hình hóa dữ liệu trong giai đoạn này còn phục vụ cho quá trình xây dựng các tài liệu kinh doanh, maketing cho sản phẩm

1.3 Tổng quan về khai phá dữ liệu

Nhờ sự phát triển mạnh mẽ của khoa học kỹ thuật, công nghệ thông tin và internet, đặc biệt là sự phổ biến của các thiết bị cá nhân như điện thoại thông minh, máy tính… đã giúp con người dễ dàng tiếp cận với thông tin một cách nhanh chóng, làm thay đổi mọi khía cạnh của cuộc sống, biến xã hội dần trở thành xã hội thông tin Đi cùng với điều đó là lượng dữ liệu được lưu trữ trên toàn cầu đã tăng lên rất nhiều kể từ năm 1980 và đến 2007, 94% trong số đó được lưu trữ dưới dạng

kỹ thuật số [20] Thế giới ngày nay ngập tràn trong dữ liệu, chúng đến từ nhiều nguồn khác nhau có thể kể đến như:

- Dữ liệu trên các trang mạng xã hội, các bài báo: dữ liệu bình luận, các bài đăng, các lượt tương tác, thói quen, hành vi sử dụng của người dùng…

- Dữ liệu đến từ các cảm biến: dữ liệu đo lường, giám sát của các hệ thống quan trắc, hệ thống an ninh, giám sát hành trình…

- Dữ liệu đến từ các thiết bị cá nhân như điện thoại di động, các máy tính cá nhân…

Các nguồn dữ liệu này nếu biết khai thác, xử lý sẽ mang lại rất nhiều thông tin quý giá có thể giúp ích trong nhiều lĩnh vực

Trang 20

8

1.3.1 Khái niệm

Khai phá dữ liệu (Data mining), hay khai thác dữ liệu, là một quá trình liên quan đến xử lý dữ liệu, phân tích, đánh giá và trích xuất các thông tin chi tiết từ dữ liệu bằng cách sử dụng các phương pháp thống kê và thuật toán máy tính khác nhau Đây là lĩnh vực liên quan đến nhiều ngành khoa học như Toán học, Thống

kê và Khoa học máy tính

1.3.2 Các giai đoạn trong khai phá dữ liệu

Khai phá dữ liệu là một bước của quá trình khai thác tri thức (Knowledge Discovery Process), bao gồm: [16]

- Xác định mục tiêu Data mining: Xác định được câu hỏi chính cần được

trả lời khi thực hiện khai phá dữ liệu

- Chuẩn bị dữ liệu (Data preparation): Bước này bao gồm các quá trình

làm sạch dữ liệu (data cleaning), tích hợp dữ liệu (data integration), chọn dữ liệu (data selection), biến đổi dữ liệu (data transformation), lưu trữ dữ liệu (data storing)

- Khai thác dữ liệu (Data mining): xác định nhiệm vụ khai thác dữ liệu và

lựa chọn kỹ thuật khai thác dữ liệu Nên bắt đầu giai đoạn này bằng việc trực quan hóa dữ liệu để giúp ta có cái nhìn đa chiều, nhận ra xu hướng ẩn trong dữ liệu Kết quả cho ta một nguồn tri thức thô

- Đánh giá (Evaluation): dựa trên một số tiêu chí tiến hành kiểm tra và lọc

nguồn tri thức thu được

- Triển khai (Deployment): ngày nay, nhờ vào sự xuất hiện của các công

cụ và dịch vụ khai phá dữ liệu được cung cấp bởi các công ty công nghệ, việc triển khai các kết quả sau quá trình khai phá dữ liệu trở nên dễ dàng Điều này cũng giúp cho các doanh nghiệp và tổ chức nhỏ hơn có thể sử dụng các công cụ và kỹ thuật khai phá dữ liệu mà không cần sự giải quyết kỹ thuật cao

1.3.3 Các phương pháp khai phá dữ liệu

Có nhiều kỹ thuật khai phá dữ liệu khác nhau có thể kể đến như: [15]

Trang 21

9

- Phân tích phân loại (Classification Analysis): Là phương pháp dự báo,

cho phép phân loại một đối tượng vào một hoặc một số lớp cho trước

- Phân tích hồi quy (Regression Analysis): Kỹ thuật này được dùng để

xác định và phân tích mối quan hệ giữa các biến Nó giúp ta hiểu được giá trị đặc trưng của sự thay đổi ở các biến phụ thuộc

- Luật kết hợp (Association Rule): Kỹ thuật Association Rule Learning

trong khai phá dữ liệu giúp xác định mối quan hệ giữa các biến khác nhau trong

bộ dữ liệu Ngoài ra, nó còn được sử dụng làm bật lên những giá trị ẩn trong dữ liệu Kỹ thuật này rất hữu ích trong việc kiểm tra và dự đoán hành vi và thường áp dụng trong ngành bán lẻ để phân tích giỏ hàng của các khách hàng tiềm năng

- Kỹ thuật phân tích bất thường (Anomaly or Outlier Detection): Kỹ

thuật này dùng quan sát các mục dữ liệu trong bộ dữ liệu để tìm ra các dữ liệu bất thường Các bất thường này có thể đề cập đến độ lệch, sự khác thường, nhiễu và ngoại lệ Kỹ thuật này thường ứng dụng trong phân tích an ninh hoặc theo dõi sức khoẻ

- Phân nhóm, phân cụm (Clustering): Kỹ thuật này sẽ nhóm các đối tượng

dữ liệu có đặc tính giống nhau sẽ được nằm chung cụm Người ta tìm cách xác định một tập hợp hữu hạn các cụm để mô tả dữ liệu Kỹ thuật này thường được dùng để tạo hồ sơ khách hàng, hay phân khúc khách hàng

- Tổng hợp (Summarization): Một nhiệm vụ mô tả bổ sung liên quan đến

phương pháp cho việc tìm kiếm một mô tả nhỏ gọn cho một bộ (hoặc tập hợp con) của dữ liệu

- Mô hình ràng buộc (Dependency modeling): Tìm mô hình cục bộ mô tả

các phụ thuộc đáng kể giữa các biến hoặc giữa các giá trị của một tính năng trong tập dữ liệu hoặc trong một phần của tập dữ liệu

- Dò tìm biến đổi và độ lệch (Change and Deviation Detection): Khám

phá những thay đổi quan trọng nhất trong bộ dữ liệu

Như vậy, có nhiều thuật toán khác nhau có thể sử dụng để phân tích, rút trích thông tin trong khai phá dữ liệu, tùy vào mục đích và dữ liệu cụ thể mà chúng

ta sẽ chọn thuật toán phù hợp để sử dụng

Trang 22

10

1.3.4 Một số lĩnh vực áp dụng khai phá dữ liệu

Khai phá dữ liệu ngày nay được áp dụng rộng rãi trong nhiều lĩnh vực khác nhau, có thể kể đến như: Marketing, tài chính, kế toán, y tế, nghiên cứu thị trường,

an ninh, công nghệ thông tin…

1.4 Tổng quan về chuỗi thời gian (time series)

Dự báo chuỗi thời gian là một lớp mô hình quan trọng trong thống kê, kinh

tế lượng và học máy (machine learning) Ta gọi lớp mô hình này là chuỗi thời gian (time series) vì mô hình được áp dụng trên các chuỗi đặc thù có yếu tố thời gian Một mô hình chuỗi thời gian thường dự báo dựa trên giả định rằng các quy luật trong quá khứ sẽ lặp lại ở tương lai Do đó, xây dựng mô hình chuỗi thời gian là chúng ta đang mô hình hóa mối quan hệ trong quá khứ giữa biến độc lập (biến đầu vào) và biến phụ thuộc (biến mục tiêu) Dựa vào mối quan hệ này để dự đoán giá trị trong tương lai của biến phụ thuộc

Do dữ liệu chịu ảnh hưởng bởi tính chất thời gian nên chuỗi thời gian thường xuất hiện những qui luật đặc trưng như: yếu tố chu kỳ, mùa và yếu tố xu hướng Đây là những đặc trưng thường thấy và xuất hiện ở hầu hết các chuỗi thời gian Đối với dữ liệu về dịch bệnh COVID-19 có đầy đủ những tính chất của chuỗi thời gian

1.5 Thuật toán học máy Polynomial Regression

Polynomial Regression là thuật toán hồi quy đa thức, giống như thuật toán hồi quy tuyến tính (Linear Regression), sử dụng mối quan hệ giữa các biến độc lập

x và biến phụ thuộc y được biểu diễn dưới dạng đa thức bậc n, để tìm cách tốt nhất

vẽ một đường qua các điểm dữ liệu sao cho tối ưu và phù hợp nhất Polynomial Regression thường được dùng cho các bài toán về dự đoán, dự báo (prediction)

Trong trường hợp các điểm dữ liệu không phù hợp với hồi quy tuyến tính Linear Regression, như các điểm không phân bố dưới dạng đường thẳng, các điểm phân bố, phân tán dưới dạng đường cong… do đó thuật toán hồi quy tuyến tính

Trang 23

11

không phù hợp vì vậy ta phải cần sử dụng Polynomial Regression để tối ưu hơn [19]

1.6 Tổng quan về Mạng nơ-ron nhân tạo ANN

Mạng Nơ-ron nhân tạo (Artificial Neural Network - ANN) là mô hình xử lý thông tin được mô phỏng dựa trên hoạt động của hệ thống thần kinh sinh học, bao gồm số lượng lớn các Nơ-ron được gắn kết để xử lý thông tin ANN giống như bộ não con người, được học bởi kinh nghiệm (thông qua huấn luyện), có khả năng lưu giữ những kinh nghiệm hiểu biết (tri thức) và sử dụng những tri thức đó trong việc

dự đoán các dữ liệu chưa biết

Kiến trúc chung của một mạng nơ-ron nhân tạo (ANN) gồm 3 thành phần là: Input Layer, Hidden Layer và Output Layer Trong đó, lớp ẩn (Hidden Layer) gồm các Nơ-ron nhận dữ liệu input từ các Nơ-ron ở lớp (Layer) trước đó và chuyển đổi các input này cho các lớp xử lý tiếp theo Trong một ANN có thể có nhiều lớp

ẩn Cấu trúc chung của một mạng ANN như minh họa trong hình 1.1

Hình 1.1: Cấu trúc của một mạng Nơ-ron nhân tạo (ANN) [17]

Hạn chế của mạng ANN truyền thống là đầu vào và đầu ra độc lập với nhau

Do vậy mạng ANN truyền thống không thích hợp với các bài toán dạng chuỗi như

mô tả, hoàn thành câu…

Trang 24

12

1.7 Tổng quan về Mạng nơ-ron hồi quy RNN

Để giải quyết các hạn chế của mạng ANN truyền thống, người ta đưa ra mô hình Mạng nơ-ron hồi quy (Recurrent Neural Network – RNN) bằng cách sử dụng một bộ nhớ để lưu lại thông tin từ những bước tính toán xử lý trước để dựa vào nó

có thể đưa ra dự đoán chính xác nhất cho bước dự đoán hiện tại Mô hình mạng RNN được minh họa như trong hình 1.2(a) và 1.2(b) là các dạng kết nối cơ bản của mạng RNN

có khả năng kết nối các thông tin trước đó để dự đoán hiện tại

Các mạng RNN có rất nhiều ứng dụng nổi bật như: nhận diện giọng nói (speech recognition), các mô hình ngôn ngữ, mô hình dịch thuật, chú thích hình ảnh, đặc biệt trong lĩnh vực xử lý ngôn ngữ tự nhiên (Natural Language Processing – NLP) Nhưng RNN vẫn có nhược điểm là không hiệu quả đối với các phụ thuộc

xa, nghĩa là đối với các dữ liệu dạng chuỗi dài thì RNN không thể nhớ được [17]

Trang 25

13

1.8 Mạng bộ nhớ dài-ngắn hạn LSTM (Long Short-Term Memory)

Mạng LSTM là một kiến trúc đặc biệt của RNN có khả năng học được sự phụ thuộc trong dài hạn (long-term dependencies), được giới thiệu bởi Hochreiter

& Schmidhuber (1997)[8] Kiến trúc này đã được phổ biến, cải tiến rất nhiều và được sử dụng rộng rãi cho tới ngày nay LSTM đã tỏ ra khắc phục được rất nhiều những hạn chế của RNN trước đây về triệt tiêu đạo hàm Tuy nhiên, cấu trúc của chúng có phần phức tạp hơn mặc dù vẫn giữ được tư tưởng chính của RNN là sự sao chép các kiến trúc theo dạng chuỗi Hình 1.3 bên dưới minh họa cấu trúc cơ bản của một tế bào LSTM

Hình 1.3: Cấu trúc cơ bản của một tế bào LSTM [18]

Khác với RNN, LSTM có tầng cổng quên Đầu vào của cổng quên này

là C(t-1) và ngõ ra C(t) cho ra một giá trị trong khoảng [0, 1] (0 quên hết, 1 là nhớ hết, còn lại là nhớ 1 phần) thông qua hàm sigmoid Một tế bào LSTM gồm có 3 cổng tương ứng với 3 tầng đó là tầng cổng quên (forget gate layer), tầng cổng vào (input gate layer) và tầng cổng ra (output gate layer) LSTM có thể học cách nối các khoảng phụ thuộc trên 1000 bước, ngay cả trong trường hợp bị nhiễu hoặc các chuỗi thời gian đầu vào ngắn [8] Sơ đồ kết nối của một mạng LSTM được mô tả như hình 1.4

Trang 26

14

Hình 1.4: Sơ đồ kết nối của một mạng LSTM cơ bản [17]

1.9 Một số phương pháp đánh giá mô hình sử dụng trong luận văn

Trong quá trình xây dựng các mô hình dự đoán, để lựa chọn được những

mô hình phù hợp với bài toán, người ta thường sử dụng các thước đo (hay độ đo)

để đánh giá mức độ chính xác của các mô hình Tùy vào yêu cầu bài toán, tính chất của mô hình (như mô hình phân loại classification, mô hình hồi quy regression,

mô hình xếp hạng ranking…) mà người ta lựa chọn các độ đo phù hợp Một số độ

đo thường sử dụng để đánh giá các mô hình hồi quy được liệt kê từ 1) đến 5) với y là giá trị thực tế, ŷ là giá trị dự đoán, ȳ là giá trị trung bình của biến/đặc trưng:

(1 MAE (Mean Absolute Error) Sai số tuyệt đối trung bình – một số liệu

thể hiện sự khác biệt giữa giá trị thực tế và giá trị dự đoán của mô hình Giá trị trả

về cho biết chênh lệch trung bình giữa giá trị mong đợi và giá trị thực tế Giá trị thấp hơn là nói chung được coi là tốt hơn

𝑀𝐴𝐸 = 1

𝑛∑𝑛 |𝑦 − ŷ|

- MAPE (Mean Absolute Percentage Error) Sai số phần trăm tuyệt đối

trung bình (MAPE) là tỷ lệ phần trăm tương đương với sai số tuyệt đối trung bình (MAE) Sai số phần trăm tuyệt đối trung bình đo lường mức độ sai số trung bình

do một mô hình tạo ra hoặc mức độ sai lệch trung bình của các dự đoán

Trang 27

15

- MSE (Mean Squared Error) Sai số bình phương trung bình – được định

nghĩa là trung bình tổng bình phương sai số giữa đầu ra dự đoán và kết quả thực

tế MSE càng nhỏ thì độ chính xác càng cao

𝑀𝑆𝐸 = 1

𝑛∑𝑛 (𝑦𝑖− ŷ𝑖)2

- RMSE (Root Mean Squared Error) Sai số bình phương trung bình gốc,

là dạng mở rộng của MSE, dùng đo sự khác biệt giữa giá trị thực tế và giá trị dự đoán

𝑅𝑀𝑆𝐸 = √1

𝑛∑𝑛 (𝑦𝑖− ŷ𝑖)2

- R2 (R Squared) là một tham số thống kê để xác định mức độ biến đổi

trong dữ liệu được mô tả bởi mô hình R2 thường được sử dụng như một phương pháp đánh giá hiệu suất của mô hình Các giá trị nằm trong khoảng [0,1], giá trị càng cao càng tốt hơn

𝑅2 = 1 − ∑𝑛𝑖=1(𝑦𝑖 −ŷ𝑖)2

Ngoài ra, các mô hình sử dụng học máy và học sâu còn sử dụng các độ đo khác liệt kê từ (1-6) đến (1-9) như Accuracy (sự chính xác), Precission (độ chính xác), Recall , F-score thường sử dụng để đánh giá các mô hình trong các bài toán phân lớp

Trang 28

16

1.10 Các nghiên cứu liên quan

Dịch bệnh COVID-19 đã ảnh hưởng nặng nề đến toàn bộ người dân trên thế giới, trong đó khu vực ASEAN cũng không ngoại lệ Tính đến ngày 28/09/2022, theo số liệu từ [12], tổng số trường hợp nhiễm bệnh được xác nhận của 10 nước trong khu vực hơn 34,4 triệu ca, trong đó hơn 358,2 nghìn ca tử vong

Kể từ khi dịch bệnh COVID-19 bùng phát, đã có nhiều nghiên cứu được đưa ra để hỗ trợ xác định bệnh nhân và dự báo về dịch bệnh Có nhiều nghiên cứu

đã thực hiện mô phỏng thông minh bằng cách sử dụng trí tuệ nhân tạo để thực thi

mô hình đã được chuẩn bị sẵn để dự đoán xem liệu một bệnh nhân có bị mắc COVID-19 hay không bằng cách xem xét phim X-quang ngực của họ hay các phim chụp CT Trong [9], các nhà nghiên cứu đề xuất phương pháp tiếp cận dựa trên học sâu bằng cách sử dụng mạng nơ-ron tích chập để phân tích hình ảnh X-quang ngực thu được từ bệnh nhân COVID-19 và họ đã thành công trong việc dự đoán bệnh nhân COVID-19 một cách tự động với mô hình được huấn luyện bằng ResNet50 cho kết quả phân loại cao nhất đạt 99,7% Còn trong [10], các nhà nghiên cứu đã trình bày một phương pháp mới có thể sàng lọc COVID-19 hoàn toàn tự động bằng công nghệ học sâu Họ đã chứng minh rằng các mô hình có cơ chế chú

ý đến các vị trí có thể phân loại chính xác COVID-19 khi chụp CT phổi với tỷ lệ chính xác tổng thể là 86,7% Trong [11], Gozes và cộng sự đã thành công trong việc sử dụng học sâu để phân tích các phim chụp CT qua đó nhận dạng được các nhận bệnh nhân nhiễm virus corona bằng cách sử dụng tập dữ liệu phim chụp CT

từ 157 bệnh nhân không quen biết đến từ Trung Quốc và Hoa Kỳ Phương pháp đề xuất của họ là kiểm tra các phim CT trên hai mức độ nhất định gồm hai phân hệ: phân hệ A và B Phân hệ A khảo sát dưới dạng 3D và phân hệ B thực hiện dò tìm dưới dạng 2D đối với từng phần của đầu ra để tìm kiếm và nhận dạng các tổn thương kính mờ - một biểu hiện lâm sàng đặc trưng khi bị nhiễm SARS-CoV-2 với độ nhạy 98,2%, độ đặc hiệu 92,2%

Bên cạnh các nghiên cứu có tính chất chuyên sâu - đòi hỏi phải có kiến thức chuyên gia trong lĩnh vực y học, cũng có nhiều nghiên cứu về dịch bệnh COVID-

19 chỉ dựa trên các yếu tố như sự phát tán, sự ảnh hưởng của nhiệt độ tác động đến

Trang 29

17

sự lây lan của Virus Trong [5], các tác giả sử dụng mô hình học máy SVR để đưa

ra mô hình dự báo dựa trên các trường hợp mắc bệnh, số ca phục hồi và số ca tử vong với độ chính xác khác nhau tùy theo khu vực Ngoài ra, bài báo cũng khẳng định có sự liên hệ giữa điều kiện thời tiết với sự bùng phát của dịch bệnh Trong [6], tác giả sử dụng phương pháp học sâu là mạng nơ-ron bộ nhớ dài-ngắn hạn (LSTM) để đưa ra mô hình dự báo dịch bệnh khảo sát trên tổng số ca mắc Bài báo

đã cho thấy phương pháp học sâu, cụ thể là LSTM, rất có tiềm năng trong việc xây dựng các mô hình dự báo dịch bệnh COVID-19

Nhìn chung, các nghiên cứu này phần lớn chỉ mới khảo sát trên các yếu tố như số ca mắc, số tử vong và phục hồi chứ chưa có khảo sát về mức độ ảnh hưởng của việc tiêm vắc xin đối với dịch bệnh Phần lớn vì các bài báo này xuất hiện rất sớm khi thế giới vẫn chưa bào chế được vắc xin để tiêm ngừa COVID-19 Hơn nữa, chưa có các nghiên cứu sử dụng mô hình học sâu để nghiên cứu về ảnh hưởng của COVID-19 ở phạm vi các nước Đông Nam Á Tuy nhiên, các nghiên cứu này

đã cung cấp những kiến thức, những thông tin rất quan trọng hỗ trợ tôi rất nhiều trong việc thực hiện đề tài nghiên cứu của mình

Trang 30

18

Chương 2 MÔ HÌNH ĐỀ XUẤT TRỰC QUAN HÓA VÀ KHAI PHÁ DỮ

LIỆU DỊCH BỆNH (COVID-19) 2.1 Mô hình đề xuất

Trong luận văn này, tôi đề xuất mô hình học sâu LSTM với chuỗi dữ liệu thời gian đơn biến để dự báo mức độ lây lan của dịch bệnh COVID-19, dựa trên tiêu chí số ca nhiễm bệnh và số ca tử vong hàng ngày Lưu đồ xử lý cho mô hình

đề xuất được minh hoạ trong hình 2.1 như sau:

Hình 2.1: Mô hình dự báo mức độ lây lan của dịch bệnh COVID-19

Tập dữ liệu:

Dữ liệu chuỗi thời gian về COVID-19 và dữ liệu về vắc xin được tải xuống

từ trang Our World in Data Đây là các số liệu được trang web tổng hợp từ nguồn của đại học Johns Hopkins (JHU)[12] Dữ liệu chuỗi thời gian về tổng số ca nhiễm,

Tiêu đề	Trực quan hóa dữ liệu và khai phá dữ liệu dịch bệnh (COVID-19) bằng học máy
Tác giả	Phùng Duy Tươi
Người hướng dẫn	TS. Giang Minh Đức
Trường học	Trường Đại học Thủ Dầu Một
Chuyên ngành	Hệ Thống Thông Tin
Thể loại	Luận Văn Thạc Sĩ
Năm xuất bản	2023
Thành phố	Bình Dương

Định dạng
Số trang	61
Dung lượng	2,47 MB