Khóa luận tốt nghiệp Hệ thống thông tin: Xây dựng mô hình dự báo số lượng ca nhiễm và thời điểm bùng phát bệnh nhiệt đới bị lãng quên

Với sự phát triển của công nghệ thôngtin, cũng như những vấn đề còn tồn đọng trong các nghiên cứu về khai thác và xử lý dữ liệu dịch bệnh mà sinh viên khảo sát được, tiến hành áp dụng cả

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH TRUONG DAI HOC CONG NGHE THONG TIN

KHOA HE THONG THONG TIN

TRINH THỊ THANH TRÚC - 19521059

KHÓA LUẬN TÓT NGHIỆP

XÂY DỰNG MÔ HÌNH DỰ BÁO SÓ LƯỢNG CA

NHIEM VÀ THỜI DIEM BÙNG PHÁT BỆNH

NHIỆT ĐỚI BỊ LÃNG QUÊN

CONSTRUCT THE PREDICTION MODEL FOR NEGLECTED TROPICAL DISEASE INCIDENCE AND

OUTBREAKS

KỸ SƯ NGÀNH HỆ THÓNG THÔNG TIN

GIẢNG VIÊN HƯỚNG DÂN

ThS DO DUY THANH

TP HÒ CHÍ MINH, 2023

Trang 2

LỜI CẢM ƠNLời đầu tiên em xin chân thành cảm on Thầy ThS Đỗ Duy Thanh Trong

quá trình hoàn thành khoá luận tốt nghiệp, em đã nhận được rất nhiều sự quantâm và chi day tận tâm và vô cùng nhiệt huyết của quý Thay Thay đã thangthan chỉ rõ ra những lỗi sai, những điểm yếu mà bản thân em cần cải thiệnkhông chỉ cho mỗi nội dung khoá luận tốt nghiệp mà còn tiễn xa hơn trên conđường nghiên cứu khoa học sắp tới Được học tập và làm việc cùng Thầy giúp

em không chỉ cải thiện và củng cố hơn kiến thức nên tảng trong lĩnh vực chuyên

môn, mà còn giúp em có tính kỷ luật hơn trong nghiên cứu, cải thiện được kỹ

năng quản lý thời gian cũng như nâng cao khả năng trình bày, báo cáo kết quảgiúp kết quả nghiên cứu cải thiện hơn

Em vô cùng cảm ơn nhóm nghiên cứu FTISU, đã cho em cơ hội được

tham gia, học tập và đồng hành cùng nhóm trong suốt khoảng thời gian em

thực hiện khoá luận.

Đề có đủ tự tin bắt đầu thực hiện đề tài, em chân thành cảm ơn quý Thầy

Cô khoa Hệ thống Thông tin — Trường đại học Công nghệ Thông tin đã tận tâm

truyền đạt cho em kiến thức cơ sở cũng như kiến thức chuyên ngành, giúp em

có đủ cơ sở dé có thé hoàn thành khoá luận tốt nghiệp cho đến thời điểm hiện

tại.

Lời sau cùng, em rất cảm ơn quý Thầy Cô phản biện đã xem qua khoáluận tốt nghiệp của em và chỉ ra các điểm còn thiếu sót, cần cải thiện trong đề

tài Từ cơ sở đó em có thể hoàn thiện lại đề tại cũng như phát triển hơn trong

hướng nghiên cứu tương lai.

TP Hô Chí Minh, ngày tháng năm 2023

Sinh viên thực hiện

Trịnh Thị Thanh Trúc

Trang 3

MỤC LỤC

Chương 1 TONG QUAN DE TÀII -52- 252 2E22EE2EE2EE2E2E2EE2EEeEkrrei 3

1.1 Dong lực nghiÊn CỨU: - - SG 223321 13211351151 1151111111511 E1 E1 Exre 31⁄2 - Phát biểu bài toán: :-ccccrEtrtrtrtirrttrirrtrrirrrrirrrriree 4

A002 — 5

1.4 Mục tiêu để tài: che 51.5 Di tượng và Phạm vi nghiên cứu: 2-2+2z+cx+zx+zxzxzzssrxeex 6

1.6 Dong góp nghiên CỨU - S2 1S v2 SH HH TH HH rệt 6

Chương 2 CƠ SỞ LÝ THUYÊT -©22©52+E£+EESEE+EEtEEZEEzEkerkrred 8

2.1 Nghiên cứu liên quant oo eee ecceceeseeseeeseeeeeeseeeeseeeseenseenseeeeeeseeeteas 8

2.1.1 Các nghiên CỨUu true: cece eeccecceesseeseeeseeneeeeeeseeeseeeseeeseeseeeneeeseenes 82.1.2 Lý thuyết về bùng nỗ dich bénhh oo es eseseseeseeseeeeeeeees 12

2.2 Phương phap thực nghiệm - 5 22 332333 SseEereersreererse 15

2.2.1 Kỹ thuật dự báo: - cà S21 S2 SH vn rry 15

2.2.2 Cac thuật toán máy HOC? +25 32213 *3E£eEExeeereeeererss 16

2.2.2.1 Linear Models: 5c SSx Si eirrrirriret 16

2.2.2.2 K-Nearest NeIghbOrS: SĂ St n St snirirrirerrree 18

2.2.2.3 Bayesian NetwOrkS: - ng tre 18 2.2.2.4 Decision TT€€: TH SH TT HH HH hy 20 2.2.2.5 Ensemble learnIng: - +: + ss + + skEserrserrerrreree 21 2.2.2.6 Support vector Machine? ccccccsceseesscesecesecesscesseeseesseesees 23

2.2.3 Cac thuật toán học Sar iceccscccccccessssceseccesesssseseeesesesseeeeenes 24

2.2.3.1 Neural Networks: <1 xxx xxx kkkkkee 24

Trang 4

3.2 Xử lý chuỗi dừng :c222t22EE221E2121212121211 211 xe 42

3.3 Chuẩn hoá dữ liệu ¿- 2 ++2E+2E2E2EE221221221211211221 22c crkv 433.4 Chia dit liệu -+2.22E2EE22112712212211211211.1211 1E xe 43

3.4.1 Chia mẫu học giám sát - ¿2 S2 2+E+E+Ec£+terrrersrree 43

3.4.1 Thống kê dit iQue cecccsccscesesecsessessessesecstssessessesseatsseesesneeees 44Chương 4 THỰC NGHIEM VÀ DANH GIÁ -©-2222+z<+cs+zxerse+ 47

4.1 Độ đo đánh BgIã 2 0 2Q Q v11 HH HH HH key 48

An oo i eee Ẩ 48

4.1.2 S€HSIẨIV€: Q TQ Hnn TH Tnhh gen 48 4.1.3 — PLECISION! ooceecececccccccessccceesscceeesseecesssecceesseccessseesesseteceneecesteeesens 49 4.1.4 Specificity: ccc cccccccsccsecsseeseceseceseceecesecesecseesseeeseeeeseeseessseeees 494.2 Kết quả thực nghiệm theo độ do w.ccccecscsccsesesesessessessssseseesessessesseaee 494.3 Phân tích kết quả -:- 5222k EE E2 12E21711121121111 11111 xe 544.4 Cải tiến kết quả: -Sc s2 T212 2211121101212 111k 71

Chương 5 KẾT QUÁ ĐẠT DUGC VÀ HƯỚNG PHÁT TRIEN 76

51 Kết Ua Mat QUOC 111 76

5.2 Hướng phat triển - - St St 2E 2121221271211 11111 te 77

Trang 5

DANH MỤC HÌNH

Hình 1-1: Phát biểu bài toán với -.-: ¿- 2+ ©2+2x22x+2EE+2EEEeEExrrrxrerkrerkrerree 4

Hình 2-1: Minh hoa tác dung kernel [20] - 5-5553 *+skxseerserseerserrses 24 Hình 2-2: Minh hoạ một mô hình mang nơ T0I s55 55532 *‡++>+ssx++ 27

Hình 2-3: Minh hoạ mô hình nơ ron với các giá tri trọng sô, bias và đặc trưng dau vào được đưa VảO mạng - c1 1121221121119 1111 11111111 111111 T1 H1 H1 ng gr rr 28Hình 2-4: Minh hoạ mô hình nơ ron được tính toán hai đơn vị xử lý trong lớp an

Hình 2-6: Minh hoa mô hình no ron với các giá tri được tính toán hoàn chỉnh 30 Hình 2-7: Minh hoạ một mô hình mạng no ron tích chap - - 32

Hình 2-8: Minh hoa mô hình nơ ron tích chập với các gia tri trọng số, bias và đặc

trưng đầu vào được đưa vào mạng - +: + +2 2E12EE£EEEEEEEEEE2ExEEkerkerreee 32

Hình 2-9: Minh hoạ mạng nơ ron tích chập với các giá trị của lớp tích chập đầu

Hình 2-12: Minh hoạ một mô hình mạng no ron hồi quy -5- 252 35

Hình 2-13: Minh hoa mô hình thần kinh hồi quy với các giá trị trọng số, bias và

đặc trưng đầu vào được đưa vào ¡n0 -: ÃÄä 36

Hình 2-14: Minh hoạ mạng thần kinh hồi quy với hai giá trị ht tính toán được trong01.81080091): 0 37Hình 2-15: Minh hoạ mạng thần kinh hồi quy với giá trị được tính toán hoàn chỉnh

¬— 37

Hình 2-16: Minh hoạ kiến trúc LSTM : ©ccccc2ccvvtttrxvrrrrrrrrrrrrrrrreg 38

Hình 3-1: Luồng xử lý đữ liệu - 2¿©+222+2Et2EE£EE2SEECEEEEEESEErrkrrrkrrkee 41

Trang 6

Hình 3-2: Minh hoạ các mẫu dữ liệu được chia theo bước thời gian được xác định

Hình 4-1: Minh hoạ quy trình thực nghiệm - - 5 55 2+ + seseeeseesesrrs 48

Hình 4-2: Biểu đồ so sánh độ chính xác (Accuracy) của các thuật toán trên các pháthiện bùng nổ dịch bệnh Tiêu Chảyy ¿2-2522 22 E£2E£EE£EE2EE2E£EerEerxerssrxee 50Hình 4-3: Biểu đồ so sánh độ chum (Precision) của các thuật toán trên các pháthiện bùng nỗ dịch bệnh Tiêu Chảyy 2- ¿222 522EE+2E++EE+2E+vzx++zxezzxeex 50Hình 4-4: Biểu đồ so sánh độ nhạy (Sensitive) của các thuật toán trên các phát hiệnbùng né dịch bệnh Tiêu Chảy 2- 2-52 2 +SSE9EE2EE2E2EEEEEEEEEEEEEEEEEerkerkerree 51

Hình 4-5: Biểu đồ so sánh độ đặc hiệu (Specificity) của các thuật toán trên các phat

hiện bùng nỗ dịch bệnh Tiêu Chảyy - 22-2222 S222E+2E++EE2EEvzx+zrxezzeees 51Hình 4-6: Biểu đồ so sánh độ chính xác (Accuracy) của các thuật toán trên các phathiện bùng né dịch bệnh Sốt Xuất Ji, 8e ` 52Hình 4-7: Biểu đồ so sánh độ chụm (Precision) của các thuật toán trên các pháthiện bùng nỗ dịch bệnh Tiêu Chảyy - 22 22222E++EE+2E£+EE+2E++zx+zrxezzeeex 52Hình 4-8: Biểu đồ so sánh độ nhạy (Sensitive) của các thuật toán trên các phát hiệnbùng nổ dịch bệnh Tiêu Chảy - 2 25252 SSE9EE2E22E22EEEEEEEEEEEEEEEEerkerkerkee 53Hình 4-9: Biểu đồ so sánh độ đặc hiệu (Specificity) của các thuật toán trên các pháthiện bùng nỗ dịch bệnh Tiêu Chảyy - 2-22 2¿©2222E22EE+2E++EE2EEvzE++zxezzeeex 53Hình 4-10: Dự báo bùng nỗ Tiêu Chay cho Cao Bang của thuật toán hồi quy

I0.v0007101 58

Hình 4-11: Dự báo bùng né Tiêu Chay va hồi quy ca nhiễm cho Cao Bang của

thuật toán RIdgelR€ØT€SSOT - - - c 1 1121111211119 11 1911111111181 1181 1H ng ng 59

Hình 4-12: Dự báo bùng nổ Tiêu Chay cho Cao Băng của thuật toán phân lớp

Trang 7

Hình 4-15: Dự đoán bùng nổ của thuật toán phân lớp DecisionTreeRegressor tại

tinh Dién Bin oo 1 61

Hình 4-16: Dự đoán bùng nổ của thuật toán phân lớp SVM sử dung kernel Poly tại 08000 62

Hình 4-17: Dự đoán bùng nổ của thuật toán phân lớp Decision Tree tại tỉnh Lào 9 .d - 62

Hình 4-18: Dự báo bùng nỗ Tiêu Chay và hồi quy ca nhiễm cho Đắk Lắk của thuật toán SGIR€BT€SSOT G011 v1 v1 1H 111111111 11H ng nEHnEHtnEHvnkt 63 Hình 4-19: Dự báo bùng né của thuật toán hồi quy LSTM-ATT|4] 63

Hình 4-20: Dự đoán bùng né của thuật toán phân lớp SVMPoly - 63

Hình 4-21: Dự đoán bùng nổ của thuật toán phân lớp CNN - 64

Hình 4-22: Dự đoán bùng né của thuật toán phân lớp SGDClassifier 64

Hình 4-23: Dự đoán bùng nỗ của thuật toán phân lớp SVMPoly - 64

Hình 4-24: Một số trường hợp mô hình học sâu dự báo rất tốt bùng nỗ Sốt Xuất Hình 4-25: Một số trường hợp mô hình học sâu dự báo rất tệ khi đưa ra hàng loạt các dự báo bùng nô sai lầm đối với dịch bệnh Sốt Xuất Huyết " 68 Hình 4-26: Một số trường hợp mô hình học sâu dự báo rất tệ khi không đưa ra được bat kỳ dự báo bùng nô nào đối với dịch bệnh Sốt Xuất Huyết 69

Hình 4-27: Dự đoán bùng né của thuật toán phân lớp SVMPoly - 70

Hình 4-28: Dự đoán bùng né của thuật toán phân lớp Decision Tree 70

Hình 4-29: Dự báo của 3 mô hình tốt nhất SVMPoly, DecisionTree, XGBoot trên 6 tinh sau khi áp dung tập luật dé loại bỏ các điểm dự báo giả (vùng màu đỏ) 74

Trang 9

DANH MỤC TU VIET TAT

STT | Thuật ngữ Mô tả

1 ATT Attention mechanism — Co chế chú ý

2 CNN Convolutional neural network — Mang no ron tich chap

3 CNTT Công nghệ thông tin

4 LSTM Long short-term memory — Mạng bộ nhớ dai ngăn han

5 NTDs Neglected Tropical Diseases — Bệnh nhiệt đới lãng quên

6 SGD Thuật toán Stochastic gradient descent

Trang 10

TOM TAT KHÓA LUẬN

Việt Nam là quốc gia bị ảnh hưởng nặng nề bởi biến đổi khí hậu và có nguy

cơ cao chiu bùng nỗ hàng loạt các loại bệnh nhiệt đới bị lãng quên, như: Sốt Xuất

Huyết, Tiêu Chay, Cảm cúm, Bệnh dai, Những loại bệnh này có thé dé dàng điềutri với sự phát triển của y học hiện nay, tuy nhiên, việc chủ quan trọng khâu nhận

biết sớm và điều trị là rất nguy hiểm và có thể dẫn đến tử vong ngay cả trong điều

kiện y học phát triển mạnh mẽ như hiện nay Với sự phát triển của công nghệ thôngtin, cũng như những vấn đề còn tồn đọng trong các nghiên cứu về khai thác và xử

lý dữ liệu dịch bệnh mà sinh viên khảo sát được, tiến hành áp dụng cả hai hướngtiếp cận học máy là Phân lớp và Hồi quy trên miền đữ liệu chuỗi thời gian chonhiệm vụ phát hiện bùng né dịch bệnh trong khu vực Thực nghiệm được triển khaitrên các mô hình máy học thong kê va mô hình hoc sâu với mục tiêu so sánh hiệuquả của hai cách tiếp cận qua các mô hình thực nghiệm Kết quả sau cùng, với sựhạn chế của dữ liệu, Phân lớp chuỗi thời gian bằng các mô hình máy học thống kê

có khả năng tập trung vào các điểm bùng nô ngay từ dau, cho ra kết quả khả quanhơn ngay cả miền đữ liệu có tính bất ôn cao như dịch bệnh Tiêu Chay (SVM vớikernel Poly, SGD, Decision Tree) Trong khi đó, chịu những hạn chế chung về số

lượng đữ liệu được huấn luyện, nhưng nếu dé liệu có tính mùa vụ mạnh mẽ như

dịch bệnh Sốt Xuất Huyết, các mô hình Hồi quy ca nhiễm với mô hình học sâu sẽ

có khả năng đưa ra các dự báo ca nhiễm có tính chính xác cao, sau cùng việc tính

toán các điểm bùng nỗ cũng được đưa ra đúng như kỳ vọng hơn (CNN, LSTM,LSTM-ATT, Transformer, MLP) Tuy nhiên, nhược điểm về thiếu thốn dữ liệukhiến các mô hình học sâu chưa thé khai thác tối đa sức mạnh, đưa ra được cấutrúc tối ưu nhất cho đữ liệu, vì thế , với những ving dit liệu có sự đột biến vượt

ngoài tinh mùa vụ thường có trong miễn dit liệu thì các mô hình Hồi quy máy họcvẫn đảm nhiệm tốt hơn (AdaBoost, CatBoost, Extra Trees, SGD, Decision Tree,

XGBoost) Sau cùng, một tiép cận hướng khai thác dir liệu được giới thiệu va ápdụng cho dự báo phát hiện bùng nổ Tiêu Chay giúp loại bỏ được 10% đến 40%

Trang 11

các dự báo giả được ghi nhận Hướng cải thiện và phát triển trong tương lai cũng

đã được đê cập trong các phân sau của khoá luận.

Bao cáo gôm 5 chương với các nội dung như sau:

— Chương 1: Tổng quan đề tài Giới thiệu về nội dung đề tài bao gồm

động lực nghiên cứu, phát biểu bài toán, thách thức, mục tiêu, phạm vi —đối tượng nghiên cứu, và những đóng góp chính trong nghiên cứu

— Chương 2: Cơ sở lý thuyết Trình bày tổng quan về các lý thuyết cơ sở

trong dịch bệnh với bệnh nhiệt đới bị lãng quên, phương pháp xác địnhbùng nỗ dịch bệnh Trình bày các khảo sát về hướng tiếp cận dự báo vaphát hiện bùng né dịch bệnh trong khu vực từ các công trình đi trước

— Chương 3: Phương pháp thực nghiệm Trình bày về các khái niệm về

dự báo hồi quy và dự báo phân lớp Trình bày các thuật toán máy họcthong kê truyền thống và các thuật toán học sâu tiên tiến

— Chương 4: Xử lý dữ liệu Trình bày quy trình tiền xử lý dữ liệu với các

phương pháp xử ly dit liệu cơ bản và xử lý dit liệu chuỗi thời gian.

— _ Chương 5: Thực nghiệm và đánh gia Trình bày quy trình xử lý dữ liệu

và thực nghiệm Trình bày các thông số chi tiết cho quá trình thựcnghiệm Trình bày các phương pháp đánh giá Báo cáo kết quả thựcnghiệm và phân tích kết quả

— _ Chương 6: Kết luận và hướng phát triển Tổng kết các kết quả chính

đã đạt được trong đề tài và hướng phát triển của đề tài trong tương lai

Trang 12

Chuong 1 TONG QUAN DE TÀI

1.1 Động lực nghiên cứu:

Việt Nam là quốc gia nằm hoàn toàn trong vành đai khí hậu nhiệt đới Màđây lại là vùng có nguy cơ cao chịu sự bùng né của hàng loạt các loại bệnh lý liên

quan đến khí hậu và điều kiện sống, có thể ké đến như: Sốt Xuất Huyết, Tiêu Chảy,

Cảm cúm, Bệnh dại, Những loại bệnh nêu trên được WHO chính thức đưa vào

danh sách cảnh báo “Các loại bệnh nhiệt đới bị lãng quên” - NTDs (NeglectedTropical Diseases)[41] Sở di quy về cùng một nhóm bệnh nhiệt đới bị lãng quên

là vì những loại bệnh này có thể dễ dàng điều trị với sự phát triển của y học hiệnđại Tuy nhiên, xét về nguy cơ bùng nỗ, việc chủ quan trọng khâu nhận biết sớm

và điều trị là rất nguy hiểm và có thể dẫn đến tử vong ngay cả trong điều kiện yhọc phát triển mạnh mẽ như hiện nay

Dac biét, trong thoi buổi biến đôi khí hậu toàn cầu, các hiện tượng thời tiết

cực đoan ngày càng khó đoán, mà Việt Nam là một trong các quốc gia bị ảnhhưởng nặng nè nhất bởi biến đôi khí hậu [17], thì nguy cơ tiềm ấn cho sự bùng

phat của loại bệnh nhiệt đới này càng dé phát sinh hơn và có thé phát sinh tại bat

kỳ thời điểm nào [41] Do đó nhu cầu về phát triển một hệ thống có khả năng dự

báo và phát hiện nguy cơ bùng phát các căn bệnh nhiệt đới này, hiện nay, là rất cấp

thiệt tại Việt Nam.

Với sự phát triển mạnh mẽ của CNTT, các thuật toán máy học đã và đangchứng minh được sức mạnh rất lớn của chúng qua nhiêu lĩnh vực như kinh tế, giáodục và cả y tế Nhiều công trình trong nước lẫn quốc tế đã được công bồ [10]-[24],

tuy nhiên chưa có nghiên cứu nào áp dụng và đánh giá cả 2 hướng tiếp cận máy

học là Phân lớp và Hồi quy chuỗi thời gian cho nhiệm phát hiện bùng nổ dịch bệnhthông qua các đặc trưng về thời tiết và khí hậu trên các vùng địa lý tại Việt Nam

Những cơ hội và hiện trạng vừa đề cập ở trên chính là động lực thúc đây sinh

viên thực hiện đề tài “Xây dựng mô hình dự báo số lượng ca nhiễm và thời điểm

bùng phát bệnh nhiệt đới bị lãng quên” này.

Trang 13

1.2 Phát biểu bài toán:

— Đầu vào: Dữ liệu về các đặc trưng khí hậu Việt Nam bao gồm các yếu

tố về độ âm, lượng bốc hơi, lượng mưa, nhiệt độ, sé gid nang và tỷ lỆ camắc bệnh nhiệt đới trên từng địa phương của Việt Nam

— Xử lý: Nhiệm vụ được thực hiện được chia làm hai hướng tiếp cận:

+ Xây dựng mô hình hồi quy dự báo ca nhiễm trên từng tỉnh Từ giá

trị ca nhiễm được dự báo, tính toán và xác định các điểm bùng nôdịch bệnh trong phạm vi tỉnh đang xét.

+ Tính toán và xác định các điểm bùng nổ dịch bệnh Xây dựng mô

hình phân lớp dự báo bùng nổ cho từng thời điểm trên từng tỉnh

— Pau ra: Điểm bùng nổ dịch bệnh cho từng thời điểm trên từng tinh

= 2 ⁄⁄⁄⁄⁄4 : Huấn luyénva igs"

2 Tinh toá 4 ` sử dụng mô hình 5? £#

inh toán ⁄ dự báo bùng phát |„Š

3 trên từng tinh trên từng tỉnh

Hình 1-1; Phát biểu bài toán với Đầu vào (Input), Các bước xử lý, Đầu ra

(Output) của hai hướng tiép cận a và b

Trang 14

Van đề về mắt cân bang dữ liệu: Do tính chất của bài toán phát hiện bùng

no dịch bệnh mà tỷ lệ số thang bùng né so với số tháng 6n định có sự chênh

lệch rất cao Dẫn đến mô hình học sau cùng mặc dù có độ chính xác khácao, tuy nhiên dự đoán hầu hết nghiêng về các tháng không bùng nổ, làmthiếu ý nghĩa ban đầu của việc xây dụng một mô hình dự báo bùng né dịchbệnh.

Đánh giá tính chính xác của mô hình trong ngữ cảnh hiện tại trở nên khắtkhe hơn trên cơ sở các tháng bùng nô dịch bệnh bị mô hình dự báo bỏ sót

là rất nguy hiểm trong thực tế Trong khi đó việc dự báo giả cũng gây tônhại rất lớn trong công tác chuẩn bị đối phó với dịch bệnh khi áp dụng trênthực tế

Mục tiêu đề tài:

Hiểu được kiến thức cơ bản về các căn bệnh nhiệt đới, các thống kê về

nguyên nhân và mức độ nguy hiểm của loại bệnh này, cách xác định điểmbùng phat dịch bệnh trong phạm vi nghiên cứu.

Có được kiến thức tổng quan đến chỉ tiết cho các thuật toán máy học

hướng thống kê truyền thống và hướng học sâu

Có được kiến thức chuỗi thời gian và các kỹ thuật tiền xử lý đữ liệu

Xử lý và xây dựng các mẫu dit liệu có thé huấn luyện từ một bộ đữ liệu

về các đặc trưng khí hậu, tỷ lệ ca nhiễm bệnh nhiệt đới và điểm bùng

phát dịch bệnh theo thời gian trên từng vùng địa lý tại Việt Nam.

Trang 15

1.6.

Cài đặt và thực nghiệm được thuật toán dự báo hồi quy và phân lớp trên

bộ dữ liệu được xây dựng.

Phân tích, đánh giá và tổng hợp được kết quả nghiên cứu vào báo cáo

Đối tượng và Phạm vi nghiên cứu:

Đối tượng nghiên cứu: Bệnh Sốt Xuất Huyết, Tiêu Chảy Trên các tỉnhthành tại Việt Nam từ 1997 — 2016.

Phạm vi nghiên cứu:

+ Nghiên cứu và khảo sát các công trình đã được công bô vé cách các

đặc trưng cũng như phương pháp được chọn đề dự báo và phát hiện

được nguy cơ bùng phát bệnh nhiệt đới bị lãng quên.

Nghiên cứu các đặc trưng khí hậu có khả năng ảnh hưởng đến sự

bùng phát bệnh nhiệt đới và xây dựng bộ dữ liệu tương ứng.

Nghiên cứu phương pháp xác định bùng nô dich bệnh

Nghiên cứu phương pháp dự báo hồi quy và phân lớp

Nghiên cứu mô hình máy học dự báo chuỗi thời gian theo hướng

thống kê (Random Forest, K-Nearest Neighbors, Decision Tree,

Extra Trees, Multi-layer Perceptron, Adaptive Boosting, SVM, XGBoost, Ridge, SGD, GaussianNB, MultinomialNB,

BernoulliNB, ComplementNB, Deep Belief Networks, LightGBM, CatBoost).

Nghiên cứu mô hình may hoc dự báo chuỗi thời gian theo hướng tiếp

cận học sâu (LSTM, LSTM-ATT, CNN, Transformer)

Thực nghiệm các phương pháp đã được khảo sát trên hai hướng tiếp

cận Tiên hành đánh giá va so sánh kêt quả.

Đóng góp nghiên cứu

Giới thiệu về các phương pháp tiếp cận dự đoán và phát hiện bùng nỗ

dịch bệnh trong khu vực cho các loại bệnh nhiệt đới lãng quên — loại dịch

Trang 16

bệnh thường bị chủ quan bỏ qua nhưng lại có mức độ ảnh hưởng cực kỳ

cao đến xã hội loài người khi bùng phát trên diện rộng

Giới thiệu về các đặc trưng khí hậu có mức độ ảnh hưởng cao đến tình

trạng bùng phát dịch bệnh — cơ sở cho mô hình dự báo được xây dựng.

Trình bày các thuật toán hồi quy, phân lớp từ máy học thống kê truyền

thống đến học sâu tiên tiến hiện nay

Thực nghiệm, huấn luyện phương pháp trên bộ dit liệu được xây dung

và so sánh hiệu quả của 2 hướng tiếp cận: Dự báo hồi quy ca nhiễm sau

đó tính toán điểm bùng phát và Dự báo phân lớp bùng phát ngay từ cácđiểm bùng phát được tính toán từ các ca nhiễm quan sát được Theo hiểu

biết hiện tại, đây là đề tài đầu tiên khảo sát và so sánh đồng thời tính hiệu

quả của hai hướng tiếp cận này trên miền đữ liệu dịch bệnh tại Việt Nam

Trang 17

Chương 2 CƠ SỞ LÝ THUYET

2.1 Nghiên cứu liên quan:

2.1.1 Các nghiên cứu trước:

Năm 2022, Do, T D và cộng sự [15] nghiên cứu về dự đoán ca nhiễm Tiêu

Chay trên 6 tinh tại Việt Nam (Điện Biên, Thái Bình, Lào Cai, Kon Tum, Cao Bằng,

Dak Lắk) sử dung 12 đặc trưng về khí hậu bao gồm các đặc trưng về lượng mưa,nhiệt độ, độ 4m, số giờ năng trên địa phương được xét Tác giả tiếp cận bài toántheo hướng dự báo hồi quy số lượng ca nhiễm Tiêu Chảy trong tương lai ngắn hạn

— trong 1 tháng liền kề, và dự đoán trong tương lai đài hạn — trong 2 đến 3 tháng

sau, để đánh giá mức độ đúng đắn của mô hình theo thời gian Quy trình thực

nghiệm lần lượt với các bước: (1) Xử lý giá trị thiếu với kỹ thuật quy nạp, tính toán

tỷ lệ ca nhiễm trên dân số dé phù hợp với ngữ nghĩa bài toán, chuẩn hoá đữ liệu;(2) Xử lý và trích chọn đặc trưng hữu ích; (3) Tối ưu hoá các siêu tham số vớiOptuna; (4) Huấn luyện và đánh giá Thực nghiệm cho thấy mô hình LSTM sửdụng cơ chế Attention cho ra kết quả đự đoán tốt nhất so sánh với các mô trình

máy học khác như SARIMA hay các mô hình học sâu khác như CNN, LSTM, Transformer, Công trình cũng nhận định các dự đoán với thời gian càng dài hạn

thì mức độ chính xác cũng giảm đi đáng kê Tuy nhiên LSTM với cơ chế Attentionvan thê hiện tốt nhất khi 3 trên 6 tinh cho ra kết quả đánh giá trên độ đo RMSE làthấp nhất

Năm 2022, nhóm tác giả Nguyen, V H [38] thực hiện công trình nghiên cứu

về bệnh Sốt Xuất Huyết trên 20 tỉnh trải khắp ba miền Bắc — Trung — Nam tại Việt

Nam Nghiên cứu phát triển mô hình hồi quy dự đoán ca nhiễm sốt xuất huyết trêncác đặc trưng về khí tượng Mục tiêu là để cung cấp thông tin kịp thời cho các ứng

phó bởi ban y tế công cộng nhăm ngăn chặn bùng phát dịch trong bối cảnh biếnđổi khí hậu ngày càng khắc nghiệt trong tương lai Phương pháp tiếp cận của nhómtác giả là các thuật toán học sâu bao gồm CNN, Transformer, LSTM và LSTM với

cơ chế Attention, đồng thời so sánh hiệu quả với các thuật toán máy học truyền

Trang 18

thống như Hồi quy Poisson, XGBoost, SVR (Support Vector Regression) vàSARIMA So sánh với các giải thuật cho thấy, kết quả của mô hình LSTM sử dụng

cơ chế Attention có sai số RMSEs thấp nhất trên hầu hết các tỉnh được đánh giá,

tiếp theo đó là LSTM, CNN và cuối cùng là Transformer Điểm chú ý của nghiêncứu nay là có thực hiện pha phân tích và phát hiện bùng nỗ dịch dựa trên kết qua

hồi quy ca nhiễm dự đoán Cụ thể, sau khi có được kết quả dự đoán ca nhiễm của

từng tỉnh, tác giả tiễn hành tính toán ngưỡng bùng né dịch bệnh của tháng đó Nếugiá trị ca nhiễm dự đoán vượt ngoài ngưỡng bùng né thì tháng đó sẽ được cho làtháng có bùng nỗ dịch bệnh Sốt Xuất Huyết, còn lại sẽ là tháng 6n định Nhờ độchính xác trong dự đoán ca nhiễm tốt nhất, LSTM với cơ chế Attention được sử

dụng cho pha phát hiện bùng nổ trong nghiên cứu này Kết qua cho thấy, nhìn

chung phương pháp tiếp cận này có thê có khả năng dự báo được các tháng có dịchvới tỷ lệ báo động giả tương đối thấp

Trong bài báo [30], tác giả Mai, T.S giới thiệu một framework mới gọi làProximity Time Ensemble dé du doan bung nô bệnh Sét Xuất Huyết trên nhiều địaphương với khoảng thời gian dài hạn trong tương lai Nghiên cứu phân tích các sựkiện bùng nô dịch dựa trên tac động của các đặc trưng khí hậu tại thời điểm và tỉnhđang xét.

PT- Ensem bao gồm 6 thành phan chính: (1) Một framework xác suất

event-to-event để nghiên cứu mối liên quan giữa các đặc trưng khí hậu và sự kiện bùng nỗdịch bệnh Sốt Xuất Huyết trong thời điểm tương ứng; (2) Biéu đồ tiệm cận dé kết

nối các tỉnh thành có liên quan; (3) Áp dụng ensemble hàng loạt các giải thuật máyhọc dé dự đoán bùng né trong t time steps trong tương lai sử dụng các sự kiện khí

hậu như một dạng đặc trưng input đầu vào; (4) Sơ đồ tông hợp dữ liệu thông qua

các tinh lân cận dé làm phong phú thêm cho dữ liệu đào tao; (5) Bước lan truyềnvùng lân cận nhằm lan truyền kết quả dự đoán giữa các tỉnh tương tự thông quabiểu đồ vùng lân cận cho đến khi đạt được thỏa thuận tối đa giữa các tỉnh; (6) Một

lan truyền theo time-step dé truyền kết quả thông qua các bước thời gian dự đoán

khác nhau ở mỗi tỉnh.

Trang 19

Kết quả cho thấy khi sử dụng PTEnsemple cho ra kết quả dự đoán cải thiện kếtqua đáng ké trên các phương pháp máy học như XGBoost, LightGBM và CatBoost

so sánh với các hướng tiếp cận học sâu tiên tiến hiện tại như LSTM-ATT, LSTM,

CNN và Transformer cho cả tiêu chí về độ chính xác lẫn thời gian xử lý.

Điểm đáng chú ý của hướng tiếp cận trong công trình nghiên cứu này là tậptrung vào phát hiện sự kiện bùng nỗ hoặc không bùng nổ ngay từ dau, thay vì dự

báo ca nhiễm làm bước cơ sở như nghiên cứu trước Mặc khác, các đặc trưng khí

hậu làm đầu vào của mô hình cũng được rời rạc hoá thành các giá trị tương ứngvới thấp hơn ngưỡng 6n định trung bình, chạm ngưỡng 6n định trung bình và vượtngưỡng én định trung bình Việc xử ly dữ liệu trên được thực hiện với ý tưởngchung là một đợt bùng phát dịch bệnh ở một tỉnh có mối liên hệ với các sự kiệnbiến đồi khí hậu quan trọng ở tỉnh đó hơn là những giá trị nhiễu loạn khí hậu nhỏ

Ngoài ra còn có các nghiên cứu khác cũng đã khăng định sự tác động nhất địnhgiữa các yếu tố khí hậu trên số lượng ca nhiễm bệnh Nhiệt Đới tại các vùng địaphương Cu thé, nghiên cứu [13] năm 2015 của nhóm tác giả Phung, D và cộng

sự nghiên cứu mối liên hệ giữa bệnh Tiêu Chảy trên các yếu tố khí tượng và thờigian tại vùng đồng bằng Mê Kông Việt Nam Mô hình thực nghiệm chỉ ra đỉnhđiểm của các ca mắc bệnh này cao nhất từ trong giai đoạn tháng 8 — 10 hang năm.Mực nước tai địa phương tăng Iem sau | tuần có liên quan đến ty lệ tăng nhẹ của

các ca mắc Tiêu Chay (0,07%) Mặc khác, nhiệt độ tăng 1 độ C sau 2 đến 4 tuần

có nguy cơ khiến bệnh Tiêu Chảy tăng 1,5% đến 1,1% tương ứng Tiếp đó, năm

2017 [11] nhóm tác giả Phung, D nghiên cứu xem xét mối tương quan giữa lượngmưa và số lượng các ca nhập viện do các bệnh về đường ruột tại Việt Nam Kết

quả phân tích cho thấy số lượng ca mắc bệnh đường ruột đã tăng từ 7,3% đến 1,3%sau một đợt mưa lớn được xác định lần lượt sau 0 đến 21 ngày Tuy nhiên, tồn tại

một giai đoạn mà ca bệnh đường ruột tăng đáng kể trong khoảng ngày thứ 4 đếnngày thứ 6 (lần lượt là 13,5%, 13,3%, 12,9%) Nghiên cứu của Thompson, C N

[7], sử dung mô hình hồi quy Poisson với đầu vào là các đặc trưng khí hậu trên

từng quận tại thành phố Hồ Chí Minh, dau ra là ty lệ mắc bệnh Tiêu Chay hang

10

Trang 20

tháng tương ứng trên quân đó Nghiên cứu chỉ ra ảnh hưởng tích cực giữa lượng

lụt với mức độ tăng đáng ké của các ca Tiêu Chay trong một số quận nhất định.Trong khi đó, độ âm tại địa phương tăng lại có tỷ lệ nghịch với lượng ca Tiêu Chảy

mặc phải trên hau het các các quận được báo cáo tại thành phô.

Mặt khác, đối với bệnh sốt xuất huyết, công trình [21] cũng đã có đề cập đến

tỷ lệ mắc bệnh Sốt Xuất Huyết tăng thường thấy trong giai đoạn từ tháng 5 đến

tháng 12 tại mùa mưa của mỗi tỉnh Trong đó, tại Hà Nội, Khanh Hoa các mô hình

hồi quy của nhóm tác giả cho thay cứ 1 độ C tăng sẽ tương ứng với 13% - 17% tỷ

lệ ca mắc Sốt Xuất Huyết tăng mạnh tại các nơi này Tại An Giang nhận tỷ lệ ca

mắc Sốt Xuất Huyết tăng trong khoảng 30% và 22% cho lượng mưa tăng 100mm

khi xét trong tháng trước đó và khi xét ngay tháng hiện tại Nghiên cứu [12] sử

dung ba mô hình hồi quy lần lượt là SMR, SARIMA và PDLM dé phân tích mối

tương quan giữa các yếu tô khí hậu và tỷ lệ mắc Sốt Xuất Huyết tại thành phó Can

Thơ Kết quả chỉ ra rằng nhiệt độ và độ âm có liên quan đáng kể với những thayđổi về tỷ lệ mắc bệnh Sốt Xuất Huyết: tương quan nghịch giữa tỷ lệ ca mắc Sốt

Xuất Huyết ghi nhận được với mức độ tăng của nhiệt độ tối thiểu tại địa phương;

tương quan thuận cùng tăng giữa số lượng ca nhiễm với độ âm tối thiểu Nghiêncứu [36] tập trung phân tích sự ảnh hưởng của các yếu tô khí hậu đến bệnh Sốt

Xuất Huyết trong thành phố Hà Nội: Khi nhiệt độ giảm và theo sau những tháng

có mưa trong khoảng thời gian từ tháng 6 đến tháng 11, lượng ca nhiễm Sốt XuấtHuyết được ghi nhận tăng; Các ca nhiễm cũng được ghi nhận tăng sau một tháng

kế từ khi lượng mưa được ghi nhận tăng chạm mức 188,1mm; Mối tương quantương đối thuận giữa mức độ bốc hơi và các ca nhiễm được ghi nhận; Độ am trungbình va lượng ca nhiễm có mối tương quan tương đối nghịch; Tổng số giờ nắng

tăng được ghi nhận có tương quan thuận với số lượng ca Sốt Xuất Huyết trong địa

phương.

11

Trang 21

chí nhằm xác định mức độ ô dịch được xác định dựa trên thay đôi về thông số trên

kênh đặc hữu này Từng thông số khác nhau sẽ tạo nên các định nghĩa về xác địnhngưỡng bùng nỗ và mức độ nguy hiểm từng 6 dịch khác nhau Có năm phương

pháp chính được sử dụng dé tính kênh đặc hữu lần lượt là: trung bình gần kề (recent

mean), trung bình theo tháng (monthly mean), trung bình động (moving mean),

trung bình tích lũy (cumulative mean) và ngưỡng tỷ lệ ca nhiễm cô định (fixedincidence threshold) Các xác định được trình bay cụ thé như sau [31]:

- Recent mean:

o Các quốc gia từng sử dụng ngưỡng nay trong các nghiên cứu về xác

định 6 dịch bao gồm: Hoa Kỳ đối với các bệnh về đường hô hap [27].Indonesia đối với các bệnh về Sốt Xuất Huyết [33]

o Trường hợp sử dụng: Sử dụng khi số liệu ca nhiễm theo thời gian Ít

có tính thời vụ hoặc khi lượng data quan sát bị hạn chế

o_ Phương pháp tính toán: Giá trị trung bình tông thé của một tập hop

Trang 22

Với cửa số trượt được định nghĩa thông qua hai giá trị t — số lượngđơn vi thời gian dùng dé tính trung bình và g — khoảng cách từ thờiđiểm hiện tại đến mốc thời gian gần nhất sử dụng dé tính trung bình,

k là số lần độ lệch chuân ø mà tông của nó với giá trị trung bình øtạo nên ngưỡng dịch bệnh chấp nhận được trong ngữ nghĩa đang xét

- Monthly mean:

định 6 dich bao gom: Colombia, Dominican Republic, Peru va ViétNam cho bénh Sét Xuat Huyét [33]

o Trường hợp sử dung: Sử dụng khi số liệu ca nhiễm được ghi nhận

có tính chu kỳ nhất quán theo mùa vụ

o Phương pháp tính toán: Gia tri trung bình của các thang tương ứng

với tháng đang xét trong tập dữ liệu co sở [8].

Với t là số năm gần nhất sử dụng dé tính trung bình các tháng tương

ứng với tháng đang xét, k là số lần độ lệch chuẩn ø mà tong của nó

với gia tri trung bình tạo nên ngưỡng dịch bệnh chấp nhận được

trong ngữ nghĩa đang xét.

- Moving mean:

o Các quôc gia từng sử dung ngưỡng này trong các nghiên cứu về xác

định 6 dich bao gồm: Brazil, Malaysia và Trung Quốc cho bệnh Sét

13

Trang 23

Xuất Huyết [33][22] Hoa Kỳ cho các bệnh liên quan tới đường hôhấp [23].

o Trường hợp sử dụng: Sử dụng khi số liệu ca nhiễm được ghi nhận

có chu kỳ theo mùa, tuy nhiên có xu hướng dịch chuyên dần theo

từng năm.

o Phương pháp tính toán: Giá tri trung bình động của các tháng tương

ứng với tháng đang xét trong tập dữ liệu cơ sở Trung bình độngđược xét là trung bình động 3, nghĩa là lẫy trung bình giá trị của cảtháng liền trước, liền sau và chính giá trị của tháng đang xét [8]

trong ngữ nghĩa đang xét.

- Cumulative mean:

định ô dịch bao gồm: Hoa Kỳ cho bệnh về đường ruột bởi khuẩn

Salmonella [27] Thailand đối với bệnh Sốt Xuất Huyết [8] Và Úcvới dịch sốt viêm não do virus lây truyền từ muỗi [5]

o Trường hợp sử dung: Sử dụng khi các bùng nổ về ca nhiễm được ghi

nhận một cách rời rạc trong năm.

o Phương pháp tính toán: tích lũy của từng trung bình tháng tương ứng

với các tháng trong năm [27].

14

Trang 24

Với k là số lần độ lệch chuẩn ø mà tổng của nó với giá trị trung bình

u tạo nên ngưỡng dịch bệnh chấp nhận được trong ngữ nghĩa đang

Các quốc gia từng sử dụng ngưỡng này trong các nghiên cứu về xác

định 6 dịch bao gồm: Puerto Rico và Brazil đối với bệnh Sốt Xuất

dau ra y (output), từ đó, sử dung một thuật toán tim ra được hàm (mô hình) có khả

năng ánh xạ đữ liệu đầu vào (x) cho ra một giá trị đầu ra (y) phù hợp nhất dựa trêncác quy luật, xu hướng của bộ dữ liệu đã được học trước đó Nói cách khác, học

15

Trang 25

có giám sát yêu cầu dữ liệu sử dụng trong quá trình huấn luyện thuật toán phảiđược gán nhãn trước Mục tiêu là sau quá trình huấn luyện ta thu được mô hình có

khả năng đưa ra được các dự đoán y trên một bộ đặc trưng x có sẵn Học có giám

sát có thể chia làm hai nhóm chính là: Hồi quy và Phân lớp

Nhiệm vụ của Hồi quy là dự báo các giá trị đầu ra liên tục Ví dụ: Sử dụng cácđặc trưng khí hậu hiện tại để dự đoán đầu ra là tỷ lệ ca nhiễm trong tương lai Ởđây tỷ lệ ca nhiễm được dự đoán có thé là một số thực bat kỳ tương ứng với sỐ tỷ

lệ ca nhiễm mà mô hình dự đoán được cho thời điểm đang xét (ở ngữ cảnh hiệntại, số thực được dự đoán phải lớn hơn 0)

Nhiệm vụ của Phân lớp là dự báo các giá trị đầu ra rời rạc Ví dụ: Sử dụng cácđặc trưng khí hậu hiện tại dé dự đoán tháng trong tương lai là có bùng nô dịch bệnhhay không Ở đây kết quả dự đoán bùng né được phân thành hai lớp là Có bùng nỗdịch bệnh hoặc Không bùng nô dich bệnh Tuy vào cách quy định mà ta cũng cóthé chuẩn hoá hai lớp này thành con số cụ thé như 0 và 1, dé thuận tiện trong quátrình tính toán và huan luyện mô hình

2.2.2 Các thuật toán máy học:

Trong đó, X là biến độc lập còn Y là biến phụ thuộc Độ dốc và hệ số chặn của

mô hình được thé hiện qua hai giá trị lần lượt là a và b.

Hồi quy Ridge (Ridge regression) là một loại mô hình tuyến tính có hiệu chỉnh

Mô hình Ridge được sử dụng trong trường hợp dữ liệu bị hiện tượng đa cộng tuyến

Đa cộng tuyến là hiện tượng mà trong mô hình hồi quy xuất hiện mối quan hệtuyến tính giữa các biến độc lập — điều vi phạm một trong bảy giả định của ước

16

Trang 26

lượng OLS1 Việc da cộng tuyến xảy ra trong quá trình ước lượng OLS cho các

hệ số hồi quy sẽ khiến mô hình sau cùng trở nên không chính xác và không đáng

tin cậy Hồi quy Ridge sử dụng phương pháp chính quy hoá L2 (regularization),

cụ thé cộng thêm một thành phần điều chuẩn với một hệ số lambda A vào hàm matmát Hệ số Â có tác dụng điều chỉnh độ lớn của thành phần điều chuẩn tác độnglên hàm mat mát Công thức tông quát được trình bày như sau:

- Acang nhỏ, thành phần điều chuan trở nên ít quan trọng, nói cách khác mức

độ kiểm soát hiện tượng overfitting của mô hình càng it

- Acang lớn, thành phan điều chỉnh đóng góp cho quá trình ước lượng nhiều

hơn, nghĩa là mức độ kiêm soát hiện tượng overfitting của mô hình cũngnhiều hơn

Về xu hướng, khi tăng dần hệ số 2 thì hồi quy Ridge sẽ càng thu hẹp hệ số ướclượng của mô hình.

Phân lớp với Ridge được thực hiện khi biến phụ thuộc của tập dữ liệu quan sát

được rời rac hoá Huấn luyện mô hình phân lớp Ridge không sử dụng ham losscross-entropy như Hỏi quy logistic mà sử dụng trung bình bình phương (mean

square) và chính quy hoá L2 làm thành phần điều chỉnh như đã đề cập ở trên Việcphân lớp với Ridge được thực hiện theo cơ chế phân lớp nhị phân hoặc theo cơ chếmột với tất cả (one-versus-all) nếu bài toán phân lớp cần giải quyết có nhiều hơn

hai lớp.

| Bay gia dinh OLS lần lượt là: (1) Hồi quy là tuyến tinh trong các hệ số và phan : sai SỐ; (2) Trung bình

tổng thé của sai số bang 0; (3) Các biến độc lập không tương quan với phần sai số; (4) Phần lỗi trong các

quan sát không có môi tương quan với nhau; (5) Phần sai sô có phương sai không đổi; (6) Các biến độc

lập không có mối quan hệ tương quan với nhau; (7) Sai số tuân theo phân phối chuẩn.

17

Trang 27

2.2.2.2 K-Nearest Neighbors:

Thuật toán k-láng giềng gần nhất (K-Nearest Neighbors KNN), là một thuậttoán phân loại học có giám sát, phi tham số, sử dụng khoảng cách gần dé phân lớpcác điểm dit liệu riêng lẻ vào các nhóm phù hợp Nhãn của một điểm dữ liệu bat

kỳ được chỉ định dựa trên cơ sở nhãn chiếm đa số trên k điểm dữ liệu xung quanh

điểm đang xét Việc xác định k điểm gần nhất xung quanh điểm đang xét dựa trên

các độ đo khoảng cách Một số độ đo khoảng cách phô biến được trình bay như

- Khoang cach Manhattan: khi p = | trong Minkowski:

- Khoang cach Euclidean: khi p = 2 trong Minkowski:

Mặt khác, vì mau số x là không phụ thuộc vào c cho nên công thức trên có thé

đơn giản phân mâu sô như sau:

c = arg max p(x|c)p(c)

Cc

18

Trang 28

Trong đó, thành phần p(x|c) được hiểu là phân phối của các điểm dữ liệu tronglớp c thường rất khó tính toán vì x được thể hiện bằng một biến ngẫu nhiên, vì vậycần rất nhiều quan sát mới có thé xây dựng được phân phối nay Dé đơn giản,Naive Bayes thường giả định thành phan của biến ngẫu nhiên x là độc lập vớinhau Tức phân phối của p(x|c) được trình bày như sau:

c

Trong đó, N,; là số mau mà diém dit liệu x với đặc trưng x; thuộc về lớp c,

N, số lượng đặc trưng của các điểm dữ liệu từng thuộc về lớp c Tuy nhiên,với một đặc trưng chưa từng xuất hiện trong lớp c thì biểu thức trên sẽ bằng

0 Vì vậy thông thường sẽ áp dụng kỹ thuật Laplace để giải quyết vấn đềnày như sau:

Noi + a

p(xlc) —N, + da

Với ø là một số dương, thường bằng 1, dé tránh trường hợp tử số bằng 0

19

Trang 29

- Phan phối Bernoulli:

pŒ¡|c) = pŒ|c)x¡ + (1 — pữ|y))(1 — x)

Ngoài ra, ta có biến thể ComplementNB thực hiện thuật toán ComplementNaive Bayes (CNB) CNB là phiên bản được đề xuất cho các tập đữ liệu mat cân

bằng Cụ thé, CNB sử dụng số liệu thống kê từ phần bù của mỗi lớp dé tính trong

sô của mô hình Quy trình tính các trọng sô như sau:

j= Ai + Diy jac dij

Cuối cùng, lớp của một điểm dit liệu £ đánh giá bat kỳ được tính toán như sau:

Ê =arg min) tiWei

&

i

2.2.2.4 Decision Tree:

Decision Tree — cây quyết định là một dang mô hình học giám sát không tham

số Mô hình được xây dựng với mục tiêu dự đoán các giá trị từ bộ đặc trưng mớinhờ vào các quy luật quyết định được định nghĩa từ các bộ đặc trưng và nhãn tương

ứng trước đó Một cách trực quan hoá, cây quyết định có cấu trúc phân cấp với nút

gốc, nút trung gian, nút lá và các nhánh, trong đó: Nút gốc và nút trung gian tượngtrưng cho giá tri của các đặc trưng của một mẫu; nhánh xuất phát từ một nút là luật

quyết định khi một gia trị từ đặc trưng của nút được đưa ra; lá là các giá trị nhãn

sau cùng mà mô hình được kỳ vọng đưa ra khi duyệt một bộ mẫu với các đặc trưng

theo điều kiện của cây từ trên xuống dưới Việc tạo một quy luật điều khiển dựa

trên giá trị của đặc trưng được hình thành từ các thuật toán phổ biến như: ID3,

20

Trang 30

CART, Chi-Square và Độ suy giảm của phương sai Mỗi một nút được chọn sẽ

dựa trên tiêu chí về lượng thông tin đạt được sau khi dữ liệu được phân tách với

quy luật trên nút đó Nút càng gần gốc thì có mức độ thông tin đạt được càng cao,

đồng nghĩa với việc điều kiện của nút đó phân tách sẽ độc lập được nhiều mẫu dữliệu vào một lớp nhất

Random Forest — Rừng ngẫu nhiên là thuật toán kết hợp từ thuật toán cây quyếtđịnh Cụ thé từ tập dữ liệu huấn luyện, một số lượng nhất định các mô hình câyquyết định được xây dựng Từng phần dữ liệu của các mô hình cây quyết địnhđược xây dựng sẽ là những phan dit liệu khác nhau được lấy từ bộ dữ liệu gốc bang

kỹ thuật Bootstrapping Do đó, kết quả của các cây quyết định được xây dựng sẽkhác nhau Mô hình rừng quyết định lúc này sẽ tông hợp kết quả từ các cây quyếtđịnh theo cơ chế phiếu bầu — đối với bài toán phân lớp, và tong hợp bang cách

trung bình kết quả - đối với bài toán hồi quy

Extra Trees là thuật toán tương tự như Random Forest với ý tưởng tổng hopkết quả từ nhiều Cây quyết định được xây dựng Điểm khác biệt chính của Extra

Tree so với Random Forest là tính ngẫu nhiên trong quá trình lựa chọn các điểm

phân tách thay vì tối ưu hoá từng giai đoạn như Random Forest Đặc điểm nàygiúp tốc độ xử lý của thuật toán Extra Tree cũng nhanh hơn rất nhiều

2.2.2.5 Ensemble learning:

Ensemble learning là một phương pháp cải thiện kết qua dự đoán bang cách kếthợp nhiều mô hình đơn lẻ lại với nhau Ensemble learning phô biến với hai cáchtiếp cận là Bagging và Boosting Trong đó, các mô hình bagging được huấn luyệnmột cách song song với kỳ vọng tổng hợp các mô hình con độc lập sẽ đưa ra kếtquả dự đoán tốt hơn Tuy nhiên, nhược điểm của việc học riêng lẽ là không thể

kiểm soát được hướng cải thiện của một mô hình con và đôi khi các mô hình đều

học ra cùng một kết quả tệ duy nhất Từ nhược điểm trên, Boosting được xây dựngvới ý tưởng kỳ vọng các mô hình yếu có thé hỗ trợ và học tập lẫn nhau một cách

21

Trang 31

tuân tự, nghĩa là, các mô hình sau sẽ cô găng học đê hạn chê độ lỗi từ các mô hình trước.

Adaptive Boosting (AdaBoost) được thực hiện với ý tưởng cập nhật lai trọng

số cho các điểm đữ liệu sau mỗi lần lặp với mục tiêu giúp mô hình tập trung hơnvào các điểm di liệu quan trong, từ đó giảm mức độ sai lệch (giá trị hàm Loss) của

mô hình Các bước thực hiện lần lượt như sau:

(1) Khởi tạo trong số cho từng input x: wi = mí €{1,2, n} > 3; wj¿ = 1

Gradient boosting có một cách tiếp cận khác với AdaBoost Cụ thé, thay vì cố

gang tối ưu mô hình sau sao cho giảm thiểu sai số đi đến điểm mục tiêu, thi

Gradient Boosting cô gang xây dựng mô hình sau sao cho khớp nhất với phần dư

từ mô hình trước Từ đó, mô hình sẽ được đưa vào phần dự báo chính dé cập nhậtdần phần dư sao cho khớp nhất với điểm mục tiêu Việc cập nhật trọng số cho các

điểm di liệu cũng tương tự như AdaBoost tuy nhiên sử dung Gradient Descent

22

Trang 32

tương tự như cập nhật trọng số trong mạng thần kinh nhân tạo (Neural Network).

Mô hình cơ sở được sử dụng trong quá trình Boosting thông thường là Cây quyết

định bởi các thuật toán dạng cây là những thuật toán xử lý tốt cho đữ liệu dạng có

cau trúc và trên thực tế cũng giúp cho quá trình ensemble được cải thiện rõ nétnhất Một số biến thể nổi bật của Gradient boosting có thể được liệt kê làLightGBM, XGBoost và CatBoost.

2.2.2.6 Support vector machine:

Thuật toán SVM được sử dung cho bai toán phân lớp với mục tiêu tim ra một

siêu phăng phân hoạch tối ưu sao cho các điểm đữ liệu được chia thành hai phần

mà ở đó các điểm cùng một lớp sẽ nằm về cùng một phía với siêu phẳng nay

Thuật toán SVM được thực hiện như sau: Cho các cặp điểm đữ liệu

(X1, 1), (X¿,y;), , (Ýn, Yn) với vector X¡e IR# thể hiện đầu vào của một điểm dữ

liệu và y; là nhãn của một diém đữ liệu, y;e{—1,1}, d là số chiều (đặc trưng) của

dữ liệu và n là số điểm dữ liệu Một siêu phăng tối ưu phân chia tập dữ liệu này là

siêu phang có thé tách rời dữ liệu thành hai phía với lề (margin) (khoảng cách từđiểm di liệu gần nhất của mỗi lớp tới siêu phăng) lớn nhất

Margin được tinh theo công thức sau:

= arg max min y„(wTx„ +b } gma wit tin Yn(W' Xp, + b)

Tuy nhién trén thuc tế, các điểm dữ liệu có thé co cum ở một không gian màkhông thé nào tìm ra được một siêu phăng đề phân tách các điểm dữ liệu thành các

lớp riêng biệt Lúc này ta dùng kernel — một dạng hàm số dé biến đổi không gian

dữ liệu ban đầu, sang một không gian đữ liệu mới khả thi hơn cho thuật toán SVM

23

Trang 33

Một số kernel phô biến được định nghĩa như sau:

Hình 2-1: Minh hoạ tác dụng kernel [20]

Kernel Linear:

Kiger) — x' 2

Kernel Poly:

k(x,z) = (r +yxTz)3

Trong đó, d là bậc của đa thức.

Kernel RBF (Radial Basic Function):

k(,z)=,y>0

2.2.3 Các thuật toán học sâu:

2.2.3.1 Neural Networks:

Decision surface

Mạng thần kinh là một mô hình tính toán lấy cảm hứng từ mạng lưới thần kinh

sinh học Mạng thân kinh được câu tạo bởi các đơn vị nơ ron được gọi là các

perception Một perception có thể nhận nhiều đầu vào Tuy nhiên chỉ cho ra một

giá trị đầu ra duy nhất Với mỗi đầu ra bất kỳ của một perceptron sẽ được đi qua

một hàm kích hoạt dé biến đổi giá trị đầu ra sao cho phù hợp với ngữ nghĩa bài

toán.

24

Trang 34

Mang perceptron đa lớp (Multi-layer perceptron - MLP) là mô hình với các

lớp, trong đó các perceptron trong lớp hiện tại được kết nối day đủ từ các

perception của lớp trước đó Mỗi một mô hình có một lớp input, lớp output, và một

hay nhiều các lớp trung gian gọi là các lớp an Số lượng layer của một mô hìnhMLP được tinh bang số lượng lớp ân và một lớp output Input không được tính làmột layer Trong mô hình MLP các don vi perceptron trong một Layer được gọi là các units hay các nodes.

Như đã đề cập trước đó, các node ở lớp sau sẽ được kết nói đầy đủ với các node

ở lớp trước đó Các kết nối sẽ có một trọng số riêng biệt Giá trị của từng node

trước đó được tích với trọng số dé đưa đến node của layer kế tiếp Gia tri của một

node trong một Layer bất kỳ sẽ bằng tông của tích tất cả giá trị với trọng số củacác node từ layer trước đó, đi qua một hàm kích hoạt cụ thể nào đó Công thứctổng quát được trình bày như sau:

Oy Œ~1)T (1-1 œ@)

a; f (w; a1) + by ˆ)

Trong đó, a là giá trị cua node với | là layer mà node đó thuộc vê và i là vi trí

của node trong layer đó, w là trọng sô cua node tham gia kết nôi với node thuộc layer kê tiép và b là hệ sô bias của một node.

Khi mạng neuron nhân tạo bao gồm một số lượng lớn các phần xử lý kết nốivới nhau theo nhiều lớp sẽ phát triển thành một mạng nơ ron học sâu — Deep NeuralNetwork (DNN) Cấu trúc mục mang nơ ron cơ bản bao gồm 3 phan [3]:

- Pau vào-— Input: Hoạt động như một cach để đưa các thông tin đầu vào vào

mạng lưới xử lý.

-_ Lớp ân- Hidden layer: Hoạt động bang cách biến đổi thông tin đầu vào với

trọng số liên kết tương ứng, sau đó đi qua một hàm kích hoạt Khi lớp an

lớn hon hai, mang nơ ron lúc này sé là một mạng học sâu.

- Pau ra— Output: Thông qua các lớp ân trước đó, trạng thái đầu ra sẽ được

xác định tuỳ vào đầu vào các trọng số liên kết, đi đến đơn vị đầu ra tương

ứng.

25

Trang 35

Trang thái của dau ra và các đơn vi ân trong mạng nơ ron nhân tao còn được

xác định bởi hàm kích hoạt Hàm kích hoạt giúp cau trúc và các trạng thái đầu racủa mạng nơ ron trở nên đa dạng hơn, phù hợp hơn với nhiêu nhiệm vụ thực têtrong đời sống Hàm kích hoạt cơ bản thuộc vào 3 nhóm chính:

Tuyến tính (Linear Function) hay Nhận dạng (Identity): Trạng thái đầu ra

sẽ tương ứng với đầu vào mà đơn vị tính toán nhận được Nói cách khác

đơn vị tính toán sẽ giữ nguyên giá trị tổng của tất cả các tích giữa đầu vào

và trọng số liên kết đến đơn vị tính toán đó Sử dụng hàm kích hoạt tuyếntính khiến lan truyền ngược trong quá trình huấn luyện mô hình trở nên vôich vì đặc trưng đầu vào lúc này không có bat kỳ tác động nào vào đạo hàm.Mặt khác, kết nối hàng loạt lớp 4n tuyến tính cũng là vô nghĩa vì đầu ra saucùng cũng tương đương với đầu ra tuyến tính của lớp đầu tiên

Phi tuyến tính (Non-linear Function): Trạng thái đầu ra bang tổng của tat cảtích đầu vào và trọng số liên kết, đi qua một hàm phi tuyến và biến đổi thànhgiá trị tương ứng Hàm phi tuyến có hai nhóm cơ bản: (1) Trạng thái đầu ra

sẽ được giới hạn trong một phạm vi giá trị nhất định, (2) Trạng thái đầu ra

bị giới hạn một phần hoặc không bị giới hạn, có thể tiến tới vô cực âm hoặc

vô cực dương Tiêu biểu ở nhóm hàm kích hoạt này có thể kể đến làSigmoid, Tanh, ReLU, Leaky, ReLU, ELU.

Hàm bước (Step Function): Loại hàm kích hoạt này sẽ quy đầu ra thành hai

trạng thái duy nhất là Có kích hoạt hoặc Không kích hoạt (Thường đượcchuẩn hoá thành giá trị 0 và 1 dé thuận tiện cho quá trình tính toán) Việc

kích hoạt giá trị đầu ra sẽ dựa vào một ngưỡng tương ứng nào đó, mà nếuđầu vào vượt ngưỡng thì trạng thái đầu ra sẽ là kích hoạt, ngược lại sẽ là

không kích hoạt.

Một mô hình mạng nơ ron cơ bản có thê được mô tả cụ thê như sau:

26

Trang 36

Hình 2-2: Minh hoạ một mô hình mạng nơ ron với đầu vào bao gồm 6 đặc trưng(xanh dương), hai lớp ân (trắng), lớp đầu ra với một đầu ra duy nhất (xanh lá),với wj lần lượt là trọng số kết nối giữa đơn vị tính toán của lớp j đến đơn vị tính

toán trong lớp kế tiếp, bj là giá trị bias của một đơn vị tính toán trong lớp j

Giả sử ta có một mạng thần kinh với cấu trúc như Hình 2-2, trong đó trọng số

va bias được khởi tạo ngau nhiên với một mâu dữ liệu như sau:

Trang 37

04 05

02 02 03

Hình 2-3: Minh hoa mô hình no ron với các giá tri trọng số, bias và đặc trưng đầu

vào được đưa vào mạng

Đầu ra của một đơn vi tính toán trong mạng thần kinh tích chập được tông quát

hoá bằng công thức sau:

Output = Activation(x *w +b)

Trong đó, x là gia tri đặc trưng đầu vào hoặc đầu ra của đơn vị tính toán trước

đó, w là trọng số kết nối và b là giá tri bias của đơn vi tính toán hiện tại Gia sử

hàm kích hoạt được chọn là ReLU, giá tri của hai đơn vi tính toán trong lớp đầu

tính toán được trình bày như sau:

Trang 38

Cuối cùng, đầu ra cũng được tính toán với ý tưởng tương tự nhưng sẽ không sử

dụng hàm kích hoạt như sau:

29

Trang 39

thiết kế cho nhiệm vụ phân tích ảnh Đầu vào là một ma trận chứa thông tin thô

của ảnh, sau đó hàng loạt các bộ lọc sẽ được di qua anh dé bắt được các vùng, khía

cạnh, các đặc trưng quan trọng trong ảnh, từ đó đầu ra của của mạng có thể phânbiệt được ảnh vào các lớp phù hợp với bài toán đặt ra ban đầu Yêu cầu về tiền xử

lý trong mạng tích chập thấp hơn nhiều so với các thuật toán phân lớp ảnh khác.

Trong khi những phương pháp truyền thống khác buộc phải thiết kế các bộ lọc một

cách thủ công, thì CNN có khả năng học các bộ lọc rút trích đặc trưng ảnh này.

Mạng thần tích chập được đánh giá là một trong những mạng học sâu phô biến

và tiên tiên hiện nay Mạng được câu tạo từ các thành phân sau:

- Lop tích chập (Convolution Layer — Conv): Mục tiêu của lop Conv là trích

xuất các đặc trưng cấp cao từ thông tin thô đầu vào băng các bộ lọc(filter/kernel) Mạng than kinh tích chập không chỉ giới hạn ở một lớp tíchchập Thông thường, lớp tích chập đầu tiên chịu trách nhiệm nắm bắt các

30

Trang 40

đặc trưng cấp thấp như góc cạnh, màu sắc, hướng gradient, v.v Với nhữnglớp được thêm vao sau, kiến trúc sẽ được thiết kế để đáp ứng việc thu thập

dần các đặc trưng cấp cao hơn Nhờ đó, mà mạng có thê học được những

thông tin, những hiểu biết sâu về mặt ngữ nghĩa như cách con người có thêhiểu

- Lớp gdp (Pooling Layer - Pool): Tang pooling (POOL) là một phép

downsampling (downsampling là việc giảm tan số lay mau), thường được

sử dụng sau tầng tích chập, giúp tăng tính bất biến không gian, làm giảm

tính toán và thời gian huấn luyện nhưng vẫn giữ được các đặc trưng quan

trọng Có nhiều loại pooling như: Sum pooling, L2 pooling, Max pooling

và Average pooling Trong đó, Max pooling và Average pooling là những

dang pooling phô biến nhất

- Lớp kết nói day đủ (Fully Connected Layer - FC): Tầng kết nói đầy đủ nhận

đầu vảo là dữ liệu đã được làm phẳng, mà trong đó tất cả các nơ ron trong

lớp hiện tại sẽ được kết nối với tất cả các nơ ron trong lớp trước đó Trong

mô hình mạng tích chập, sau khi trích xuất đặc trưng, cần thiết qua các lớptích chap và lớp gop dữ liệu sẽ được đưa ra lớp kết nối đầy đủ dé đưa ra kết

quả cuối cùng phi hợp với bài toán bài đầu đặt ra

Với tính năng ưu việc trong trích xuất và xử lý thông tin, mạng thần kinh tíchchập cũng có thé được sử dụng dé phân tích các miền dữ liệu khác như là văn bản

hoặc dữ liệu số dạng chuỗi thời gian Đối với dang dt liệu hình ảnh, bộ lọc được

sử dụng là một lưới 2 chiều, trong khi đó, lưới 1 chiều thường được sử dụng cho

dạng dữ liệu như văn bản hoặc chuỗi thời gian.

Một mô hình mạng tích chập cơ bản có thé được mô tả cụ thể như sau:

31

Tiêu đề	Xây dựng mô hình dự báo số lượng ca nhiễm và thời điểm bùng phát bệnh nhiệt đới bị lãng quên
Tác giả	Trịnh Thị Thanh Trúc
Người hướng dẫn	ThS. Đỗ Duy Thanh
Trường học	Đại học Quốc gia TP. Hồ Chí Minh
Chuyên ngành	Hệ thống thông tin
Thể loại	Khóa luận tốt nghiệp
Năm xuất bản	2023
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	113
Dung lượng	73,56 MB