Với sự phát triển của công nghệ thôngtin, cũng như những vấn đề còn tồn đọng trong các nghiên cứu về khai thác và xử lý dữ liệu dịch bệnh mà sinh viên khảo sát được, tiến hành áp dụng cả
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH TRUONG DAI HOC CONG NGHE THONG TIN
KHOA HE THONG THONG TIN
TRINH THỊ THANH TRÚC - 19521059
KHÓA LUẬN TÓT NGHIỆP
XÂY DỰNG MÔ HÌNH DỰ BÁO SÓ LƯỢNG CA
NHIEM VÀ THỜI DIEM BÙNG PHÁT BỆNH
NHIỆT ĐỚI BỊ LÃNG QUÊN
CONSTRUCT THE PREDICTION MODEL FOR NEGLECTED TROPICAL DISEASE INCIDENCE AND
OUTBREAKS
KỸ SƯ NGÀNH HỆ THÓNG THÔNG TIN
GIẢNG VIÊN HƯỚNG DÂN
ThS DO DUY THANH
TP HÒ CHÍ MINH, 2023
Trang 2LỜI CẢM ƠNLời đầu tiên em xin chân thành cảm on Thầy ThS Đỗ Duy Thanh Trong
quá trình hoàn thành khoá luận tốt nghiệp, em đã nhận được rất nhiều sự quantâm và chi day tận tâm và vô cùng nhiệt huyết của quý Thay Thay đã thangthan chỉ rõ ra những lỗi sai, những điểm yếu mà bản thân em cần cải thiệnkhông chỉ cho mỗi nội dung khoá luận tốt nghiệp mà còn tiễn xa hơn trên conđường nghiên cứu khoa học sắp tới Được học tập và làm việc cùng Thầy giúp
em không chỉ cải thiện và củng cố hơn kiến thức nên tảng trong lĩnh vực chuyên
môn, mà còn giúp em có tính kỷ luật hơn trong nghiên cứu, cải thiện được kỹ
năng quản lý thời gian cũng như nâng cao khả năng trình bày, báo cáo kết quảgiúp kết quả nghiên cứu cải thiện hơn
Em vô cùng cảm ơn nhóm nghiên cứu FTISU, đã cho em cơ hội được
tham gia, học tập và đồng hành cùng nhóm trong suốt khoảng thời gian em
thực hiện khoá luận.
Đề có đủ tự tin bắt đầu thực hiện đề tài, em chân thành cảm ơn quý Thầy
Cô khoa Hệ thống Thông tin — Trường đại học Công nghệ Thông tin đã tận tâm
truyền đạt cho em kiến thức cơ sở cũng như kiến thức chuyên ngành, giúp em
có đủ cơ sở dé có thé hoàn thành khoá luận tốt nghiệp cho đến thời điểm hiện
tại.
Lời sau cùng, em rất cảm ơn quý Thầy Cô phản biện đã xem qua khoáluận tốt nghiệp của em và chỉ ra các điểm còn thiếu sót, cần cải thiện trong đề
tài Từ cơ sở đó em có thể hoàn thiện lại đề tại cũng như phát triển hơn trong
hướng nghiên cứu tương lai.
TP Hô Chí Minh, ngày tháng năm 2023
Sinh viên thực hiện
Trịnh Thị Thanh Trúc
Trang 3MỤC LỤC
Chương 1 TONG QUAN DE TÀII -52- 252 2E22EE2EE2EE2E2E2EE2EEeEkrrei 3
1.1 Dong lực nghiÊn CỨU: - - SG 223321 13211351151 1151111111511 E1 E1 Exre 31⁄2 - Phát biểu bài toán: :-ccccrEtrtrtrtirrttrirrtrrirrrrirrrriree 4
A002 — 5
1.4 Mục tiêu để tài: che 51.5 Di tượng và Phạm vi nghiên cứu: 2-2+2z+cx+zx+zxzxzzssrxeex 6
1.6 Dong góp nghiên CỨU - S2 1S v2 SH HH TH HH rệt 6
Chương 2 CƠ SỞ LÝ THUYÊT -©22©52+E£+EESEE+EEtEEZEEzEkerkrred 8
2.1 Nghiên cứu liên quant oo eee ecceceeseeseeeseeeeeeseeeeseeeseenseenseeeeeeseeeteas 8
2.1.1 Các nghiên CỨUu true: cece eeccecceesseeseeeseeneeeeeeseeeseeeseeeseeseeeneeeseenes 82.1.2 Lý thuyết về bùng nỗ dich bénhh oo es eseseseeseeseeeeeeeees 12
2.2 Phương phap thực nghiệm - 5 22 332333 SseEereersreererse 15
2.2.1 Kỹ thuật dự báo: - cà S21 S2 SH vn rry 15
2.2.2 Cac thuật toán máy HOC? +25 32213 *3E£eEExeeereeeererss 16
2.2.2.1 Linear Models: 5c SSx Si eirrrirriret 16
2.2.2.2 K-Nearest NeIghbOrS: SĂ St n St snirirrirerrree 18
2.2.2.3 Bayesian NetwOrkS: - ng tre 18 2.2.2.4 Decision TT€€: TH SH TT HH HH hy 20 2.2.2.5 Ensemble learnIng: - +: + ss + + skEserrserrerrreree 21 2.2.2.6 Support vector Machine? ccccccsceseesscesecesecesscesseeseesseesees 23
2.2.3 Cac thuật toán học Sar iceccscccccccessssceseccesesssseseeesesesseeeeenes 24
2.2.3.1 Neural Networks: <1 xxx xxx kkkkkee 24
Trang 43.2 Xử lý chuỗi dừng :c222t22EE221E2121212121211 211 xe 42
3.3 Chuẩn hoá dữ liệu ¿- 2 ++2E+2E2E2EE221221221211211221 22c crkv 433.4 Chia dit liệu -+2.22E2EE22112712212211211211.1211 1E xe 43
3.4.1 Chia mẫu học giám sát - ¿2 S2 2+E+E+Ec£+terrrersrree 43
3.4.1 Thống kê dit iQue cecccsccscesesecsessessessesecstssessessesseatsseesesneeees 44Chương 4 THỰC NGHIEM VÀ DANH GIÁ -©-2222+z<+cs+zxerse+ 47
4.1 Độ đo đánh BgIã 2 0 2Q Q v11 HH HH HH key 48
An oo i eee Ẩ 48
4.1.2 S€HSIẨIV€: Q TQ Hnn TH Tnhh gen 48 4.1.3 — PLECISION! ooceecececccccccessccceesscceeesseecesssecceesseccessseesesseteceneecesteeesens 49 4.1.4 Specificity: ccc cccccccsccsecsseeseceseceseceecesecesecseesseeeseeeeseeseessseeees 494.2 Kết quả thực nghiệm theo độ do w.ccccecscsccsesesesessessessssseseesessessesseaee 494.3 Phân tích kết quả -:- 5222k EE E2 12E21711121121111 11111 xe 544.4 Cải tiến kết quả: -Sc s2 T212 2211121101212 111k 71
Chương 5 KẾT QUÁ ĐẠT DUGC VÀ HƯỚNG PHÁT TRIEN 76
51 Kết Ua Mat QUOC 111 76
5.2 Hướng phat triển - - St St 2E 2121221271211 11111 te 77
Trang 5DANH MỤC HÌNH
Hình 1-1: Phát biểu bài toán với -.-: ¿- 2+ ©2+2x22x+2EE+2EEEeEExrrrxrerkrerkrerree 4
Hình 2-1: Minh hoa tác dung kernel [20] - 5-5553 *+skxseerserseerserrses 24 Hình 2-2: Minh hoạ một mô hình mang nơ T0I s55 55532 *‡++>+ssx++ 27
Hình 2-3: Minh hoạ mô hình nơ ron với các giá tri trọng sô, bias và đặc trưng dau vào được đưa VảO mạng - c1 1121221121119 1111 11111111 111111 T1 H1 H1 ng gr rr 28Hình 2-4: Minh hoạ mô hình nơ ron được tính toán hai đơn vị xử lý trong lớp an
Hình 2-6: Minh hoa mô hình no ron với các giá tri được tính toán hoàn chỉnh 30 Hình 2-7: Minh hoạ một mô hình mạng no ron tích chap - - 32
Hình 2-8: Minh hoa mô hình nơ ron tích chập với các gia tri trọng số, bias và đặc
trưng đầu vào được đưa vào mạng - +: + +2 2E12EE£EEEEEEEEEE2ExEEkerkerreee 32
Hình 2-9: Minh hoạ mạng nơ ron tích chập với các giá trị của lớp tích chập đầu
Hình 2-12: Minh hoạ một mô hình mạng no ron hồi quy -5- 252 35
Hình 2-13: Minh hoa mô hình thần kinh hồi quy với các giá trị trọng số, bias và
đặc trưng đầu vào được đưa vào ¡n0 -: ÃÄä 36
Hình 2-14: Minh hoạ mạng thần kinh hồi quy với hai giá trị ht tính toán được trong01.81080091): 0 37Hình 2-15: Minh hoạ mạng thần kinh hồi quy với giá trị được tính toán hoàn chỉnh
¬— 37
Hình 2-16: Minh hoạ kiến trúc LSTM : ©ccccc2ccvvtttrxvrrrrrrrrrrrrrrrreg 38
Hình 3-1: Luồng xử lý đữ liệu - 2¿©+222+2Et2EE£EE2SEECEEEEEESEErrkrrrkrrkee 41
Trang 6Hình 3-2: Minh hoạ các mẫu dữ liệu được chia theo bước thời gian được xác định
Hình 4-1: Minh hoạ quy trình thực nghiệm - - 5 55 2+ + seseeeseesesrrs 48
Hình 4-2: Biểu đồ so sánh độ chính xác (Accuracy) của các thuật toán trên các pháthiện bùng nổ dịch bệnh Tiêu Chảyy ¿2-2522 22 E£2E£EE£EE2EE2E£EerEerxerssrxee 50Hình 4-3: Biểu đồ so sánh độ chum (Precision) của các thuật toán trên các pháthiện bùng nỗ dịch bệnh Tiêu Chảyy 2- ¿222 522EE+2E++EE+2E+vzx++zxezzxeex 50Hình 4-4: Biểu đồ so sánh độ nhạy (Sensitive) của các thuật toán trên các phát hiệnbùng né dịch bệnh Tiêu Chảy 2- 2-52 2 +SSE9EE2EE2E2EEEEEEEEEEEEEEEEEerkerkerree 51
Hình 4-5: Biểu đồ so sánh độ đặc hiệu (Specificity) của các thuật toán trên các phat
hiện bùng nỗ dịch bệnh Tiêu Chảyy - 22-2222 S222E+2E++EE2EEvzx+zrxezzeees 51Hình 4-6: Biểu đồ so sánh độ chính xác (Accuracy) của các thuật toán trên các phathiện bùng né dịch bệnh Sốt Xuất Ji, 8e ` 52Hình 4-7: Biểu đồ so sánh độ chụm (Precision) của các thuật toán trên các pháthiện bùng nỗ dịch bệnh Tiêu Chảyy - 22 22222E++EE+2E£+EE+2E++zx+zrxezzeeex 52Hình 4-8: Biểu đồ so sánh độ nhạy (Sensitive) của các thuật toán trên các phát hiệnbùng nổ dịch bệnh Tiêu Chảy - 2 25252 SSE9EE2E22E22EEEEEEEEEEEEEEEEerkerkerkee 53Hình 4-9: Biểu đồ so sánh độ đặc hiệu (Specificity) của các thuật toán trên các pháthiện bùng nỗ dịch bệnh Tiêu Chảyy - 2-22 2¿©2222E22EE+2E++EE2EEvzE++zxezzeeex 53Hình 4-10: Dự báo bùng nỗ Tiêu Chay cho Cao Bang của thuật toán hồi quy
I0.v0007101 58
Hình 4-11: Dự báo bùng né Tiêu Chay va hồi quy ca nhiễm cho Cao Bang của
thuật toán RIdgelR€ØT€SSOT - - - c 1 1121111211119 11 1911111111181 1181 1H ng ng 59
Hình 4-12: Dự báo bùng nổ Tiêu Chay cho Cao Băng của thuật toán phân lớp
Trang 7Hình 4-15: Dự đoán bùng nổ của thuật toán phân lớp DecisionTreeRegressor tại
tinh Dién Bin oo 1 61
Hình 4-16: Dự đoán bùng nổ của thuật toán phân lớp SVM sử dung kernel Poly tại 08000 62
Hình 4-17: Dự đoán bùng nổ của thuật toán phân lớp Decision Tree tại tỉnh Lào 9 .d - 62
Hình 4-18: Dự báo bùng nỗ Tiêu Chay và hồi quy ca nhiễm cho Đắk Lắk của thuật toán SGIR€BT€SSOT G011 v1 v1 1H 111111111 11H ng nEHnEHtnEHvnkt 63 Hình 4-19: Dự báo bùng né của thuật toán hồi quy LSTM-ATT|4] 63
Hình 4-20: Dự đoán bùng né của thuật toán phân lớp SVMPoly - 63
Hình 4-21: Dự đoán bùng nổ của thuật toán phân lớp CNN - 64
Hình 4-22: Dự đoán bùng né của thuật toán phân lớp SGDClassifier 64
Hình 4-23: Dự đoán bùng nỗ của thuật toán phân lớp SVMPoly - 64
Hình 4-24: Một số trường hợp mô hình học sâu dự báo rất tốt bùng nỗ Sốt Xuất Hình 4-25: Một số trường hợp mô hình học sâu dự báo rất tệ khi đưa ra hàng loạt các dự báo bùng nô sai lầm đối với dịch bệnh Sốt Xuất Huyết " 68 Hình 4-26: Một số trường hợp mô hình học sâu dự báo rất tệ khi không đưa ra được bat kỳ dự báo bùng nô nào đối với dịch bệnh Sốt Xuất Huyết 69
Hình 4-27: Dự đoán bùng né của thuật toán phân lớp SVMPoly - 70
Hình 4-28: Dự đoán bùng né của thuật toán phân lớp Decision Tree 70
Hình 4-29: Dự báo của 3 mô hình tốt nhất SVMPoly, DecisionTree, XGBoot trên 6 tinh sau khi áp dung tập luật dé loại bỏ các điểm dự báo giả (vùng màu đỏ) 74
Trang 9DANH MỤC TU VIET TAT
STT | Thuật ngữ Mô tả
1 ATT Attention mechanism — Co chế chú ý
2 CNN Convolutional neural network — Mang no ron tich chap
3 CNTT Công nghệ thông tin
4 LSTM Long short-term memory — Mạng bộ nhớ dai ngăn han
5 NTDs Neglected Tropical Diseases — Bệnh nhiệt đới lãng quên
6 SGD Thuật toán Stochastic gradient descent
Trang 10TOM TAT KHÓA LUẬN
Việt Nam là quốc gia bị ảnh hưởng nặng nề bởi biến đổi khí hậu và có nguy
cơ cao chiu bùng nỗ hàng loạt các loại bệnh nhiệt đới bị lãng quên, như: Sốt Xuất
Huyết, Tiêu Chay, Cảm cúm, Bệnh dai, Những loại bệnh này có thé dé dàng điềutri với sự phát triển của y học hiện nay, tuy nhiên, việc chủ quan trọng khâu nhận
biết sớm và điều trị là rất nguy hiểm và có thể dẫn đến tử vong ngay cả trong điều
kiện y học phát triển mạnh mẽ như hiện nay Với sự phát triển của công nghệ thôngtin, cũng như những vấn đề còn tồn đọng trong các nghiên cứu về khai thác và xử
lý dữ liệu dịch bệnh mà sinh viên khảo sát được, tiến hành áp dụng cả hai hướngtiếp cận học máy là Phân lớp và Hồi quy trên miền đữ liệu chuỗi thời gian chonhiệm vụ phát hiện bùng né dịch bệnh trong khu vực Thực nghiệm được triển khaitrên các mô hình máy học thong kê va mô hình hoc sâu với mục tiêu so sánh hiệuquả của hai cách tiếp cận qua các mô hình thực nghiệm Kết quả sau cùng, với sựhạn chế của dữ liệu, Phân lớp chuỗi thời gian bằng các mô hình máy học thống kê
có khả năng tập trung vào các điểm bùng nô ngay từ dau, cho ra kết quả khả quanhơn ngay cả miền đữ liệu có tính bất ôn cao như dịch bệnh Tiêu Chay (SVM vớikernel Poly, SGD, Decision Tree) Trong khi đó, chịu những hạn chế chung về số
lượng đữ liệu được huấn luyện, nhưng nếu dé liệu có tính mùa vụ mạnh mẽ như
dịch bệnh Sốt Xuất Huyết, các mô hình Hồi quy ca nhiễm với mô hình học sâu sẽ
có khả năng đưa ra các dự báo ca nhiễm có tính chính xác cao, sau cùng việc tính
toán các điểm bùng nỗ cũng được đưa ra đúng như kỳ vọng hơn (CNN, LSTM,LSTM-ATT, Transformer, MLP) Tuy nhiên, nhược điểm về thiếu thốn dữ liệukhiến các mô hình học sâu chưa thé khai thác tối đa sức mạnh, đưa ra được cấutrúc tối ưu nhất cho đữ liệu, vì thế , với những ving dit liệu có sự đột biến vượt
ngoài tinh mùa vụ thường có trong miễn dit liệu thì các mô hình Hồi quy máy họcvẫn đảm nhiệm tốt hơn (AdaBoost, CatBoost, Extra Trees, SGD, Decision Tree,
XGBoost) Sau cùng, một tiép cận hướng khai thác dir liệu được giới thiệu va ápdụng cho dự báo phát hiện bùng nổ Tiêu Chay giúp loại bỏ được 10% đến 40%
Trang 11các dự báo giả được ghi nhận Hướng cải thiện và phát triển trong tương lai cũng
đã được đê cập trong các phân sau của khoá luận.
Bao cáo gôm 5 chương với các nội dung như sau:
— Chương 1: Tổng quan đề tài Giới thiệu về nội dung đề tài bao gồm
động lực nghiên cứu, phát biểu bài toán, thách thức, mục tiêu, phạm vi —đối tượng nghiên cứu, và những đóng góp chính trong nghiên cứu
— Chương 2: Cơ sở lý thuyết Trình bày tổng quan về các lý thuyết cơ sở
trong dịch bệnh với bệnh nhiệt đới bị lãng quên, phương pháp xác địnhbùng nỗ dịch bệnh Trình bày các khảo sát về hướng tiếp cận dự báo vaphát hiện bùng né dịch bệnh trong khu vực từ các công trình đi trước
— Chương 3: Phương pháp thực nghiệm Trình bày về các khái niệm về
dự báo hồi quy và dự báo phân lớp Trình bày các thuật toán máy họcthong kê truyền thống và các thuật toán học sâu tiên tiến
— Chương 4: Xử lý dữ liệu Trình bày quy trình tiền xử lý dữ liệu với các
phương pháp xử ly dit liệu cơ bản và xử lý dit liệu chuỗi thời gian.
— _ Chương 5: Thực nghiệm và đánh gia Trình bày quy trình xử lý dữ liệu
và thực nghiệm Trình bày các thông số chi tiết cho quá trình thựcnghiệm Trình bày các phương pháp đánh giá Báo cáo kết quả thựcnghiệm và phân tích kết quả
— _ Chương 6: Kết luận và hướng phát triển Tổng kết các kết quả chính
đã đạt được trong đề tài và hướng phát triển của đề tài trong tương lai
Trang 12Chuong 1 TONG QUAN DE TÀI
1.1 Động lực nghiên cứu:
Việt Nam là quốc gia nằm hoàn toàn trong vành đai khí hậu nhiệt đới Màđây lại là vùng có nguy cơ cao chịu sự bùng né của hàng loạt các loại bệnh lý liên
quan đến khí hậu và điều kiện sống, có thể ké đến như: Sốt Xuất Huyết, Tiêu Chảy,
Cảm cúm, Bệnh dại, Những loại bệnh nêu trên được WHO chính thức đưa vào
danh sách cảnh báo “Các loại bệnh nhiệt đới bị lãng quên” - NTDs (NeglectedTropical Diseases)[41] Sở di quy về cùng một nhóm bệnh nhiệt đới bị lãng quên
là vì những loại bệnh này có thể dễ dàng điều trị với sự phát triển của y học hiệnđại Tuy nhiên, xét về nguy cơ bùng nỗ, việc chủ quan trọng khâu nhận biết sớm
và điều trị là rất nguy hiểm và có thể dẫn đến tử vong ngay cả trong điều kiện yhọc phát triển mạnh mẽ như hiện nay
Dac biét, trong thoi buổi biến đôi khí hậu toàn cầu, các hiện tượng thời tiết
cực đoan ngày càng khó đoán, mà Việt Nam là một trong các quốc gia bị ảnhhưởng nặng nè nhất bởi biến đôi khí hậu [17], thì nguy cơ tiềm ấn cho sự bùng
phat của loại bệnh nhiệt đới này càng dé phát sinh hơn và có thé phát sinh tại bat
kỳ thời điểm nào [41] Do đó nhu cầu về phát triển một hệ thống có khả năng dự
báo và phát hiện nguy cơ bùng phát các căn bệnh nhiệt đới này, hiện nay, là rất cấp
thiệt tại Việt Nam.
Với sự phát triển mạnh mẽ của CNTT, các thuật toán máy học đã và đangchứng minh được sức mạnh rất lớn của chúng qua nhiêu lĩnh vực như kinh tế, giáodục và cả y tế Nhiều công trình trong nước lẫn quốc tế đã được công bồ [10]-[24],
tuy nhiên chưa có nghiên cứu nào áp dụng và đánh giá cả 2 hướng tiếp cận máy
học là Phân lớp và Hồi quy chuỗi thời gian cho nhiệm phát hiện bùng nổ dịch bệnhthông qua các đặc trưng về thời tiết và khí hậu trên các vùng địa lý tại Việt Nam
Những cơ hội và hiện trạng vừa đề cập ở trên chính là động lực thúc đây sinh
viên thực hiện đề tài “Xây dựng mô hình dự báo số lượng ca nhiễm và thời điểm
bùng phát bệnh nhiệt đới bị lãng quên” này.
Trang 131.2 Phát biểu bài toán:
— Đầu vào: Dữ liệu về các đặc trưng khí hậu Việt Nam bao gồm các yếu
tố về độ âm, lượng bốc hơi, lượng mưa, nhiệt độ, sé gid nang và tỷ lỆ camắc bệnh nhiệt đới trên từng địa phương của Việt Nam
— Xử lý: Nhiệm vụ được thực hiện được chia làm hai hướng tiếp cận:
+ Xây dựng mô hình hồi quy dự báo ca nhiễm trên từng tỉnh Từ giá
trị ca nhiễm được dự báo, tính toán và xác định các điểm bùng nôdịch bệnh trong phạm vi tỉnh đang xét.
+ Tính toán và xác định các điểm bùng nổ dịch bệnh Xây dựng mô
hình phân lớp dự báo bùng nổ cho từng thời điểm trên từng tỉnh
— Pau ra: Điểm bùng nổ dịch bệnh cho từng thời điểm trên từng tinh
= 2 ⁄⁄⁄⁄⁄4 : Huấn luyénva igs"
2 Tinh toá 4 ` sử dụng mô hình 5? £#
inh toán ⁄ dự báo bùng phát |„Š
3 trên từng tinh trên từng tỉnh
Hình 1-1; Phát biểu bài toán với Đầu vào (Input), Các bước xử lý, Đầu ra
(Output) của hai hướng tiép cận a và b
Trang 14Van đề về mắt cân bang dữ liệu: Do tính chất của bài toán phát hiện bùng
no dịch bệnh mà tỷ lệ số thang bùng né so với số tháng 6n định có sự chênh
lệch rất cao Dẫn đến mô hình học sau cùng mặc dù có độ chính xác khácao, tuy nhiên dự đoán hầu hết nghiêng về các tháng không bùng nổ, làmthiếu ý nghĩa ban đầu của việc xây dụng một mô hình dự báo bùng né dịchbệnh.
Đánh giá tính chính xác của mô hình trong ngữ cảnh hiện tại trở nên khắtkhe hơn trên cơ sở các tháng bùng nô dịch bệnh bị mô hình dự báo bỏ sót
là rất nguy hiểm trong thực tế Trong khi đó việc dự báo giả cũng gây tônhại rất lớn trong công tác chuẩn bị đối phó với dịch bệnh khi áp dụng trênthực tế
Mục tiêu đề tài:
Hiểu được kiến thức cơ bản về các căn bệnh nhiệt đới, các thống kê về
nguyên nhân và mức độ nguy hiểm của loại bệnh này, cách xác định điểmbùng phat dịch bệnh trong phạm vi nghiên cứu.
Có được kiến thức tổng quan đến chỉ tiết cho các thuật toán máy học
hướng thống kê truyền thống và hướng học sâu
Có được kiến thức chuỗi thời gian và các kỹ thuật tiền xử lý đữ liệu
Xử lý và xây dựng các mẫu dit liệu có thé huấn luyện từ một bộ đữ liệu
về các đặc trưng khí hậu, tỷ lệ ca nhiễm bệnh nhiệt đới và điểm bùng
phát dịch bệnh theo thời gian trên từng vùng địa lý tại Việt Nam.
Trang 151.6.
Cài đặt và thực nghiệm được thuật toán dự báo hồi quy và phân lớp trên
bộ dữ liệu được xây dựng.
Phân tích, đánh giá và tổng hợp được kết quả nghiên cứu vào báo cáo
Đối tượng và Phạm vi nghiên cứu:
Đối tượng nghiên cứu: Bệnh Sốt Xuất Huyết, Tiêu Chảy Trên các tỉnhthành tại Việt Nam từ 1997 — 2016.
Phạm vi nghiên cứu:
+ Nghiên cứu và khảo sát các công trình đã được công bô vé cách các
đặc trưng cũng như phương pháp được chọn đề dự báo và phát hiện
được nguy cơ bùng phát bệnh nhiệt đới bị lãng quên.
Nghiên cứu các đặc trưng khí hậu có khả năng ảnh hưởng đến sự
bùng phát bệnh nhiệt đới và xây dựng bộ dữ liệu tương ứng.
Nghiên cứu phương pháp xác định bùng nô dich bệnh
Nghiên cứu phương pháp dự báo hồi quy và phân lớp
Nghiên cứu mô hình máy học dự báo chuỗi thời gian theo hướng
thống kê (Random Forest, K-Nearest Neighbors, Decision Tree,
Extra Trees, Multi-layer Perceptron, Adaptive Boosting, SVM, XGBoost, Ridge, SGD, GaussianNB, MultinomialNB,
BernoulliNB, ComplementNB, Deep Belief Networks, LightGBM, CatBoost).
Nghiên cứu mô hình may hoc dự báo chuỗi thời gian theo hướng tiếp
cận học sâu (LSTM, LSTM-ATT, CNN, Transformer)
Thực nghiệm các phương pháp đã được khảo sát trên hai hướng tiếp
cận Tiên hành đánh giá va so sánh kêt quả.
Đóng góp nghiên cứu
Giới thiệu về các phương pháp tiếp cận dự đoán và phát hiện bùng nỗ
dịch bệnh trong khu vực cho các loại bệnh nhiệt đới lãng quên — loại dịch
Trang 16bệnh thường bị chủ quan bỏ qua nhưng lại có mức độ ảnh hưởng cực kỳ
cao đến xã hội loài người khi bùng phát trên diện rộng
Giới thiệu về các đặc trưng khí hậu có mức độ ảnh hưởng cao đến tình
trạng bùng phát dịch bệnh — cơ sở cho mô hình dự báo được xây dựng.
Trình bày các thuật toán hồi quy, phân lớp từ máy học thống kê truyền
thống đến học sâu tiên tiến hiện nay
Thực nghiệm, huấn luyện phương pháp trên bộ dit liệu được xây dung
và so sánh hiệu quả của 2 hướng tiếp cận: Dự báo hồi quy ca nhiễm sau
đó tính toán điểm bùng phát và Dự báo phân lớp bùng phát ngay từ cácđiểm bùng phát được tính toán từ các ca nhiễm quan sát được Theo hiểu
biết hiện tại, đây là đề tài đầu tiên khảo sát và so sánh đồng thời tính hiệu
quả của hai hướng tiếp cận này trên miền đữ liệu dịch bệnh tại Việt Nam
Trang 17Chương 2 CƠ SỞ LÝ THUYET
2.1 Nghiên cứu liên quan:
2.1.1 Các nghiên cứu trước:
Năm 2022, Do, T D và cộng sự [15] nghiên cứu về dự đoán ca nhiễm Tiêu
Chay trên 6 tinh tại Việt Nam (Điện Biên, Thái Bình, Lào Cai, Kon Tum, Cao Bằng,
Dak Lắk) sử dung 12 đặc trưng về khí hậu bao gồm các đặc trưng về lượng mưa,nhiệt độ, độ 4m, số giờ năng trên địa phương được xét Tác giả tiếp cận bài toántheo hướng dự báo hồi quy số lượng ca nhiễm Tiêu Chảy trong tương lai ngắn hạn
— trong 1 tháng liền kề, và dự đoán trong tương lai đài hạn — trong 2 đến 3 tháng
sau, để đánh giá mức độ đúng đắn của mô hình theo thời gian Quy trình thực
nghiệm lần lượt với các bước: (1) Xử lý giá trị thiếu với kỹ thuật quy nạp, tính toán
tỷ lệ ca nhiễm trên dân số dé phù hợp với ngữ nghĩa bài toán, chuẩn hoá đữ liệu;(2) Xử lý và trích chọn đặc trưng hữu ích; (3) Tối ưu hoá các siêu tham số vớiOptuna; (4) Huấn luyện và đánh giá Thực nghiệm cho thấy mô hình LSTM sửdụng cơ chế Attention cho ra kết quả đự đoán tốt nhất so sánh với các mô trình
máy học khác như SARIMA hay các mô hình học sâu khác như CNN, LSTM, Transformer, Công trình cũng nhận định các dự đoán với thời gian càng dài hạn
thì mức độ chính xác cũng giảm đi đáng kê Tuy nhiên LSTM với cơ chế Attentionvan thê hiện tốt nhất khi 3 trên 6 tinh cho ra kết quả đánh giá trên độ đo RMSE làthấp nhất
Năm 2022, nhóm tác giả Nguyen, V H [38] thực hiện công trình nghiên cứu
về bệnh Sốt Xuất Huyết trên 20 tỉnh trải khắp ba miền Bắc — Trung — Nam tại Việt
Nam Nghiên cứu phát triển mô hình hồi quy dự đoán ca nhiễm sốt xuất huyết trêncác đặc trưng về khí tượng Mục tiêu là để cung cấp thông tin kịp thời cho các ứng
phó bởi ban y tế công cộng nhăm ngăn chặn bùng phát dịch trong bối cảnh biếnđổi khí hậu ngày càng khắc nghiệt trong tương lai Phương pháp tiếp cận của nhómtác giả là các thuật toán học sâu bao gồm CNN, Transformer, LSTM và LSTM với
cơ chế Attention, đồng thời so sánh hiệu quả với các thuật toán máy học truyền
Trang 18thống như Hồi quy Poisson, XGBoost, SVR (Support Vector Regression) vàSARIMA So sánh với các giải thuật cho thấy, kết quả của mô hình LSTM sử dụng
cơ chế Attention có sai số RMSEs thấp nhất trên hầu hết các tỉnh được đánh giá,
tiếp theo đó là LSTM, CNN và cuối cùng là Transformer Điểm chú ý của nghiêncứu nay là có thực hiện pha phân tích và phát hiện bùng nỗ dịch dựa trên kết qua
hồi quy ca nhiễm dự đoán Cụ thể, sau khi có được kết quả dự đoán ca nhiễm của
từng tỉnh, tác giả tiễn hành tính toán ngưỡng bùng né dịch bệnh của tháng đó Nếugiá trị ca nhiễm dự đoán vượt ngoài ngưỡng bùng né thì tháng đó sẽ được cho làtháng có bùng nỗ dịch bệnh Sốt Xuất Huyết, còn lại sẽ là tháng 6n định Nhờ độchính xác trong dự đoán ca nhiễm tốt nhất, LSTM với cơ chế Attention được sử
dụng cho pha phát hiện bùng nổ trong nghiên cứu này Kết qua cho thấy, nhìn
chung phương pháp tiếp cận này có thê có khả năng dự báo được các tháng có dịchvới tỷ lệ báo động giả tương đối thấp
Trong bài báo [30], tác giả Mai, T.S giới thiệu một framework mới gọi làProximity Time Ensemble dé du doan bung nô bệnh Sét Xuất Huyết trên nhiều địaphương với khoảng thời gian dài hạn trong tương lai Nghiên cứu phân tích các sựkiện bùng nô dịch dựa trên tac động của các đặc trưng khí hậu tại thời điểm và tỉnhđang xét.
PT- Ensem bao gồm 6 thành phan chính: (1) Một framework xác suất
event-to-event để nghiên cứu mối liên quan giữa các đặc trưng khí hậu và sự kiện bùng nỗdịch bệnh Sốt Xuất Huyết trong thời điểm tương ứng; (2) Biéu đồ tiệm cận dé kết
nối các tỉnh thành có liên quan; (3) Áp dụng ensemble hàng loạt các giải thuật máyhọc dé dự đoán bùng né trong t time steps trong tương lai sử dụng các sự kiện khí
hậu như một dạng đặc trưng input đầu vào; (4) Sơ đồ tông hợp dữ liệu thông qua
các tinh lân cận dé làm phong phú thêm cho dữ liệu đào tao; (5) Bước lan truyềnvùng lân cận nhằm lan truyền kết quả dự đoán giữa các tỉnh tương tự thông quabiểu đồ vùng lân cận cho đến khi đạt được thỏa thuận tối đa giữa các tỉnh; (6) Một
lan truyền theo time-step dé truyền kết quả thông qua các bước thời gian dự đoán
khác nhau ở mỗi tỉnh.
Trang 19Kết quả cho thấy khi sử dụng PTEnsemple cho ra kết quả dự đoán cải thiện kếtqua đáng ké trên các phương pháp máy học như XGBoost, LightGBM và CatBoost
so sánh với các hướng tiếp cận học sâu tiên tiến hiện tại như LSTM-ATT, LSTM,
CNN và Transformer cho cả tiêu chí về độ chính xác lẫn thời gian xử lý.
Điểm đáng chú ý của hướng tiếp cận trong công trình nghiên cứu này là tậptrung vào phát hiện sự kiện bùng nỗ hoặc không bùng nổ ngay từ dau, thay vì dự
báo ca nhiễm làm bước cơ sở như nghiên cứu trước Mặc khác, các đặc trưng khí
hậu làm đầu vào của mô hình cũng được rời rạc hoá thành các giá trị tương ứngvới thấp hơn ngưỡng 6n định trung bình, chạm ngưỡng 6n định trung bình và vượtngưỡng én định trung bình Việc xử ly dữ liệu trên được thực hiện với ý tưởngchung là một đợt bùng phát dịch bệnh ở một tỉnh có mối liên hệ với các sự kiệnbiến đồi khí hậu quan trọng ở tỉnh đó hơn là những giá trị nhiễu loạn khí hậu nhỏ
Ngoài ra còn có các nghiên cứu khác cũng đã khăng định sự tác động nhất địnhgiữa các yếu tố khí hậu trên số lượng ca nhiễm bệnh Nhiệt Đới tại các vùng địaphương Cu thé, nghiên cứu [13] năm 2015 của nhóm tác giả Phung, D và cộng
sự nghiên cứu mối liên hệ giữa bệnh Tiêu Chảy trên các yếu tố khí tượng và thờigian tại vùng đồng bằng Mê Kông Việt Nam Mô hình thực nghiệm chỉ ra đỉnhđiểm của các ca mắc bệnh này cao nhất từ trong giai đoạn tháng 8 — 10 hang năm.Mực nước tai địa phương tăng Iem sau | tuần có liên quan đến ty lệ tăng nhẹ của
các ca mắc Tiêu Chay (0,07%) Mặc khác, nhiệt độ tăng 1 độ C sau 2 đến 4 tuần
có nguy cơ khiến bệnh Tiêu Chảy tăng 1,5% đến 1,1% tương ứng Tiếp đó, năm
2017 [11] nhóm tác giả Phung, D nghiên cứu xem xét mối tương quan giữa lượngmưa và số lượng các ca nhập viện do các bệnh về đường ruột tại Việt Nam Kết
quả phân tích cho thấy số lượng ca mắc bệnh đường ruột đã tăng từ 7,3% đến 1,3%sau một đợt mưa lớn được xác định lần lượt sau 0 đến 21 ngày Tuy nhiên, tồn tại
một giai đoạn mà ca bệnh đường ruột tăng đáng kể trong khoảng ngày thứ 4 đếnngày thứ 6 (lần lượt là 13,5%, 13,3%, 12,9%) Nghiên cứu của Thompson, C N
[7], sử dung mô hình hồi quy Poisson với đầu vào là các đặc trưng khí hậu trên
từng quận tại thành phố Hồ Chí Minh, dau ra là ty lệ mắc bệnh Tiêu Chay hang
10
Trang 20tháng tương ứng trên quân đó Nghiên cứu chỉ ra ảnh hưởng tích cực giữa lượng
lụt với mức độ tăng đáng ké của các ca Tiêu Chay trong một số quận nhất định.Trong khi đó, độ âm tại địa phương tăng lại có tỷ lệ nghịch với lượng ca Tiêu Chảy
mặc phải trên hau het các các quận được báo cáo tại thành phô.
Mặt khác, đối với bệnh sốt xuất huyết, công trình [21] cũng đã có đề cập đến
tỷ lệ mắc bệnh Sốt Xuất Huyết tăng thường thấy trong giai đoạn từ tháng 5 đến
tháng 12 tại mùa mưa của mỗi tỉnh Trong đó, tại Hà Nội, Khanh Hoa các mô hình
hồi quy của nhóm tác giả cho thay cứ 1 độ C tăng sẽ tương ứng với 13% - 17% tỷ
lệ ca mắc Sốt Xuất Huyết tăng mạnh tại các nơi này Tại An Giang nhận tỷ lệ ca
mắc Sốt Xuất Huyết tăng trong khoảng 30% và 22% cho lượng mưa tăng 100mm
khi xét trong tháng trước đó và khi xét ngay tháng hiện tại Nghiên cứu [12] sử
dung ba mô hình hồi quy lần lượt là SMR, SARIMA và PDLM dé phân tích mối
tương quan giữa các yếu tô khí hậu và tỷ lệ mắc Sốt Xuất Huyết tại thành phó Can
Thơ Kết quả chỉ ra rằng nhiệt độ và độ âm có liên quan đáng kể với những thayđổi về tỷ lệ mắc bệnh Sốt Xuất Huyết: tương quan nghịch giữa tỷ lệ ca mắc Sốt
Xuất Huyết ghi nhận được với mức độ tăng của nhiệt độ tối thiểu tại địa phương;
tương quan thuận cùng tăng giữa số lượng ca nhiễm với độ âm tối thiểu Nghiêncứu [36] tập trung phân tích sự ảnh hưởng của các yếu tô khí hậu đến bệnh Sốt
Xuất Huyết trong thành phố Hà Nội: Khi nhiệt độ giảm và theo sau những tháng
có mưa trong khoảng thời gian từ tháng 6 đến tháng 11, lượng ca nhiễm Sốt XuấtHuyết được ghi nhận tăng; Các ca nhiễm cũng được ghi nhận tăng sau một tháng
kế từ khi lượng mưa được ghi nhận tăng chạm mức 188,1mm; Mối tương quantương đối thuận giữa mức độ bốc hơi và các ca nhiễm được ghi nhận; Độ am trungbình va lượng ca nhiễm có mối tương quan tương đối nghịch; Tổng số giờ nắng
tăng được ghi nhận có tương quan thuận với số lượng ca Sốt Xuất Huyết trong địa
phương.
11
Trang 21chí nhằm xác định mức độ ô dịch được xác định dựa trên thay đôi về thông số trên
kênh đặc hữu này Từng thông số khác nhau sẽ tạo nên các định nghĩa về xác địnhngưỡng bùng nỗ và mức độ nguy hiểm từng 6 dịch khác nhau Có năm phương
pháp chính được sử dụng dé tính kênh đặc hữu lần lượt là: trung bình gần kề (recent
mean), trung bình theo tháng (monthly mean), trung bình động (moving mean),
trung bình tích lũy (cumulative mean) và ngưỡng tỷ lệ ca nhiễm cô định (fixedincidence threshold) Các xác định được trình bay cụ thé như sau [31]:
- Recent mean:
o Các quốc gia từng sử dụng ngưỡng nay trong các nghiên cứu về xác
định 6 dịch bao gồm: Hoa Kỳ đối với các bệnh về đường hô hap [27].Indonesia đối với các bệnh về Sốt Xuất Huyết [33]
o Trường hợp sử dụng: Sử dụng khi số liệu ca nhiễm theo thời gian Ít
có tính thời vụ hoặc khi lượng data quan sát bị hạn chế
o_ Phương pháp tính toán: Giá trị trung bình tông thé của một tập hop
Trang 22Với cửa số trượt được định nghĩa thông qua hai giá trị t — số lượngđơn vi thời gian dùng dé tính trung bình và g — khoảng cách từ thờiđiểm hiện tại đến mốc thời gian gần nhất sử dụng dé tính trung bình,
k là số lần độ lệch chuân ø mà tông của nó với giá trị trung bình øtạo nên ngưỡng dịch bệnh chấp nhận được trong ngữ nghĩa đang xét
- Monthly mean:
o Các quốc gia từng sử dụng ngưỡng nay trong các nghiên cứu về xác
định 6 dich bao gom: Colombia, Dominican Republic, Peru va ViétNam cho bénh Sét Xuat Huyét [33]
o Trường hợp sử dung: Sử dụng khi số liệu ca nhiễm được ghi nhận
có tính chu kỳ nhất quán theo mùa vụ
o Phương pháp tính toán: Gia tri trung bình của các thang tương ứng
với tháng đang xét trong tập dữ liệu co sở [8].
Với t là số năm gần nhất sử dụng dé tính trung bình các tháng tương
ứng với tháng đang xét, k là số lần độ lệch chuẩn ø mà tong của nó
với gia tri trung bình tạo nên ngưỡng dịch bệnh chấp nhận được
trong ngữ nghĩa đang xét.
- Moving mean:
o Các quôc gia từng sử dung ngưỡng này trong các nghiên cứu về xác
định 6 dich bao gồm: Brazil, Malaysia và Trung Quốc cho bệnh Sét
13
Trang 23Xuất Huyết [33][22] Hoa Kỳ cho các bệnh liên quan tới đường hôhấp [23].
o Trường hợp sử dụng: Sử dụng khi số liệu ca nhiễm được ghi nhận
có chu kỳ theo mùa, tuy nhiên có xu hướng dịch chuyên dần theo
từng năm.
o Phương pháp tính toán: Giá tri trung bình động của các tháng tương
ứng với tháng đang xét trong tập dữ liệu cơ sở Trung bình độngđược xét là trung bình động 3, nghĩa là lẫy trung bình giá trị của cảtháng liền trước, liền sau và chính giá trị của tháng đang xét [8]
trong ngữ nghĩa đang xét.
- Cumulative mean:
o Các quốc gia từng sử dụng ngưỡng nay trong các nghiên cứu về xác
định ô dịch bao gồm: Hoa Kỳ cho bệnh về đường ruột bởi khuẩn
Salmonella [27] Thailand đối với bệnh Sốt Xuất Huyết [8] Và Úcvới dịch sốt viêm não do virus lây truyền từ muỗi [5]
o Trường hợp sử dung: Sử dụng khi các bùng nổ về ca nhiễm được ghi
nhận một cách rời rạc trong năm.
o Phương pháp tính toán: tích lũy của từng trung bình tháng tương ứng
với các tháng trong năm [27].
14
Trang 24Với k là số lần độ lệch chuẩn ø mà tổng của nó với giá trị trung bình
u tạo nên ngưỡng dịch bệnh chấp nhận được trong ngữ nghĩa đang
Các quốc gia từng sử dụng ngưỡng này trong các nghiên cứu về xác
định 6 dịch bao gồm: Puerto Rico và Brazil đối với bệnh Sốt Xuất
dau ra y (output), từ đó, sử dung một thuật toán tim ra được hàm (mô hình) có khả
năng ánh xạ đữ liệu đầu vào (x) cho ra một giá trị đầu ra (y) phù hợp nhất dựa trêncác quy luật, xu hướng của bộ dữ liệu đã được học trước đó Nói cách khác, học
15
Trang 25có giám sát yêu cầu dữ liệu sử dụng trong quá trình huấn luyện thuật toán phảiđược gán nhãn trước Mục tiêu là sau quá trình huấn luyện ta thu được mô hình có
khả năng đưa ra được các dự đoán y trên một bộ đặc trưng x có sẵn Học có giám
sát có thể chia làm hai nhóm chính là: Hồi quy và Phân lớp
Nhiệm vụ của Hồi quy là dự báo các giá trị đầu ra liên tục Ví dụ: Sử dụng cácđặc trưng khí hậu hiện tại để dự đoán đầu ra là tỷ lệ ca nhiễm trong tương lai Ởđây tỷ lệ ca nhiễm được dự đoán có thé là một số thực bat kỳ tương ứng với sỐ tỷ
lệ ca nhiễm mà mô hình dự đoán được cho thời điểm đang xét (ở ngữ cảnh hiệntại, số thực được dự đoán phải lớn hơn 0)
Nhiệm vụ của Phân lớp là dự báo các giá trị đầu ra rời rạc Ví dụ: Sử dụng cácđặc trưng khí hậu hiện tại dé dự đoán tháng trong tương lai là có bùng nô dịch bệnhhay không Ở đây kết quả dự đoán bùng né được phân thành hai lớp là Có bùng nỗdịch bệnh hoặc Không bùng nô dich bệnh Tuy vào cách quy định mà ta cũng cóthé chuẩn hoá hai lớp này thành con số cụ thé như 0 và 1, dé thuận tiện trong quátrình tính toán và huan luyện mô hình
2.2.2 Các thuật toán máy học:
Trong đó, X là biến độc lập còn Y là biến phụ thuộc Độ dốc và hệ số chặn của
mô hình được thé hiện qua hai giá trị lần lượt là a và b.
Hồi quy Ridge (Ridge regression) là một loại mô hình tuyến tính có hiệu chỉnh
Mô hình Ridge được sử dụng trong trường hợp dữ liệu bị hiện tượng đa cộng tuyến
Đa cộng tuyến là hiện tượng mà trong mô hình hồi quy xuất hiện mối quan hệtuyến tính giữa các biến độc lập — điều vi phạm một trong bảy giả định của ước
16
Trang 26lượng OLS1 Việc da cộng tuyến xảy ra trong quá trình ước lượng OLS cho các
hệ số hồi quy sẽ khiến mô hình sau cùng trở nên không chính xác và không đáng
tin cậy Hồi quy Ridge sử dụng phương pháp chính quy hoá L2 (regularization),
cụ thé cộng thêm một thành phần điều chuẩn với một hệ số lambda A vào hàm matmát Hệ số Â có tác dụng điều chỉnh độ lớn của thành phần điều chuẩn tác độnglên hàm mat mát Công thức tông quát được trình bày như sau:
- Acang nhỏ, thành phần điều chuan trở nên ít quan trọng, nói cách khác mức
độ kiểm soát hiện tượng overfitting của mô hình càng it
- Acang lớn, thành phan điều chỉnh đóng góp cho quá trình ước lượng nhiều
hơn, nghĩa là mức độ kiêm soát hiện tượng overfitting của mô hình cũngnhiều hơn
Về xu hướng, khi tăng dần hệ số 2 thì hồi quy Ridge sẽ càng thu hẹp hệ số ướclượng của mô hình.
Phân lớp với Ridge được thực hiện khi biến phụ thuộc của tập dữ liệu quan sát
được rời rac hoá Huấn luyện mô hình phân lớp Ridge không sử dụng ham losscross-entropy như Hỏi quy logistic mà sử dụng trung bình bình phương (mean
square) và chính quy hoá L2 làm thành phần điều chỉnh như đã đề cập ở trên Việcphân lớp với Ridge được thực hiện theo cơ chế phân lớp nhị phân hoặc theo cơ chếmột với tất cả (one-versus-all) nếu bài toán phân lớp cần giải quyết có nhiều hơn
hai lớp.
| Bay gia dinh OLS lần lượt là: (1) Hồi quy là tuyến tinh trong các hệ số và phan : sai SỐ; (2) Trung bình
tổng thé của sai số bang 0; (3) Các biến độc lập không tương quan với phần sai số; (4) Phần lỗi trong các
quan sát không có môi tương quan với nhau; (5) Phần sai sô có phương sai không đổi; (6) Các biến độc
lập không có mối quan hệ tương quan với nhau; (7) Sai số tuân theo phân phối chuẩn.
17
Trang 272.2.2.2 K-Nearest Neighbors:
Thuật toán k-láng giềng gần nhất (K-Nearest Neighbors KNN), là một thuậttoán phân loại học có giám sát, phi tham số, sử dụng khoảng cách gần dé phân lớpcác điểm dit liệu riêng lẻ vào các nhóm phù hợp Nhãn của một điểm dữ liệu bat
kỳ được chỉ định dựa trên cơ sở nhãn chiếm đa số trên k điểm dữ liệu xung quanh
điểm đang xét Việc xác định k điểm gần nhất xung quanh điểm đang xét dựa trên
các độ đo khoảng cách Một số độ đo khoảng cách phô biến được trình bay như
- Khoang cach Manhattan: khi p = | trong Minkowski:
- Khoang cach Euclidean: khi p = 2 trong Minkowski:
Mặt khác, vì mau số x là không phụ thuộc vào c cho nên công thức trên có thé
đơn giản phân mâu sô như sau:
c = arg max p(x|c)p(c)
Cc
18
Trang 28Trong đó, thành phần p(x|c) được hiểu là phân phối của các điểm dữ liệu tronglớp c thường rất khó tính toán vì x được thể hiện bằng một biến ngẫu nhiên, vì vậycần rất nhiều quan sát mới có thé xây dựng được phân phối nay Dé đơn giản,Naive Bayes thường giả định thành phan của biến ngẫu nhiên x là độc lập vớinhau Tức phân phối của p(x|c) được trình bày như sau:
c
Trong đó, N,; là số mau mà diém dit liệu x với đặc trưng x; thuộc về lớp c,
N, số lượng đặc trưng của các điểm dữ liệu từng thuộc về lớp c Tuy nhiên,với một đặc trưng chưa từng xuất hiện trong lớp c thì biểu thức trên sẽ bằng
0 Vì vậy thông thường sẽ áp dụng kỹ thuật Laplace để giải quyết vấn đềnày như sau:
Noi + a
p(xlc) —N, + da
Với ø là một số dương, thường bằng 1, dé tránh trường hợp tử số bằng 0
19
Trang 29- Phan phối Bernoulli:
pŒ¡|c) = pŒ|c)x¡ + (1 — pữ|y))(1 — x)
Ngoài ra, ta có biến thể ComplementNB thực hiện thuật toán ComplementNaive Bayes (CNB) CNB là phiên bản được đề xuất cho các tập đữ liệu mat cân
bằng Cụ thé, CNB sử dụng số liệu thống kê từ phần bù của mỗi lớp dé tính trong
sô của mô hình Quy trình tính các trọng sô như sau:
j= Ai + Diy jac dij
Cuối cùng, lớp của một điểm dit liệu £ đánh giá bat kỳ được tính toán như sau:
Ê =arg min) tiWei
&
i
2.2.2.4 Decision Tree:
Decision Tree — cây quyết định là một dang mô hình học giám sát không tham
số Mô hình được xây dựng với mục tiêu dự đoán các giá trị từ bộ đặc trưng mớinhờ vào các quy luật quyết định được định nghĩa từ các bộ đặc trưng và nhãn tương
ứng trước đó Một cách trực quan hoá, cây quyết định có cấu trúc phân cấp với nút
gốc, nút trung gian, nút lá và các nhánh, trong đó: Nút gốc và nút trung gian tượngtrưng cho giá tri của các đặc trưng của một mẫu; nhánh xuất phát từ một nút là luật
quyết định khi một gia trị từ đặc trưng của nút được đưa ra; lá là các giá trị nhãn
sau cùng mà mô hình được kỳ vọng đưa ra khi duyệt một bộ mẫu với các đặc trưng
theo điều kiện của cây từ trên xuống dưới Việc tạo một quy luật điều khiển dựa
trên giá trị của đặc trưng được hình thành từ các thuật toán phổ biến như: ID3,
20
Trang 30CART, Chi-Square và Độ suy giảm của phương sai Mỗi một nút được chọn sẽ
dựa trên tiêu chí về lượng thông tin đạt được sau khi dữ liệu được phân tách với
quy luật trên nút đó Nút càng gần gốc thì có mức độ thông tin đạt được càng cao,
đồng nghĩa với việc điều kiện của nút đó phân tách sẽ độc lập được nhiều mẫu dữliệu vào một lớp nhất
Random Forest — Rừng ngẫu nhiên là thuật toán kết hợp từ thuật toán cây quyếtđịnh Cụ thé từ tập dữ liệu huấn luyện, một số lượng nhất định các mô hình câyquyết định được xây dựng Từng phần dữ liệu của các mô hình cây quyết địnhđược xây dựng sẽ là những phan dit liệu khác nhau được lấy từ bộ dữ liệu gốc bang
kỹ thuật Bootstrapping Do đó, kết quả của các cây quyết định được xây dựng sẽkhác nhau Mô hình rừng quyết định lúc này sẽ tông hợp kết quả từ các cây quyếtđịnh theo cơ chế phiếu bầu — đối với bài toán phân lớp, và tong hợp bang cách
trung bình kết quả - đối với bài toán hồi quy
Extra Trees là thuật toán tương tự như Random Forest với ý tưởng tổng hopkết quả từ nhiều Cây quyết định được xây dựng Điểm khác biệt chính của Extra
Tree so với Random Forest là tính ngẫu nhiên trong quá trình lựa chọn các điểm
phân tách thay vì tối ưu hoá từng giai đoạn như Random Forest Đặc điểm nàygiúp tốc độ xử lý của thuật toán Extra Tree cũng nhanh hơn rất nhiều
2.2.2.5 Ensemble learning:
Ensemble learning là một phương pháp cải thiện kết qua dự đoán bang cách kếthợp nhiều mô hình đơn lẻ lại với nhau Ensemble learning phô biến với hai cáchtiếp cận là Bagging và Boosting Trong đó, các mô hình bagging được huấn luyệnmột cách song song với kỳ vọng tổng hợp các mô hình con độc lập sẽ đưa ra kếtquả dự đoán tốt hơn Tuy nhiên, nhược điểm của việc học riêng lẽ là không thể
kiểm soát được hướng cải thiện của một mô hình con và đôi khi các mô hình đều
học ra cùng một kết quả tệ duy nhất Từ nhược điểm trên, Boosting được xây dựngvới ý tưởng kỳ vọng các mô hình yếu có thé hỗ trợ và học tập lẫn nhau một cách
21
Trang 31tuân tự, nghĩa là, các mô hình sau sẽ cô găng học đê hạn chê độ lỗi từ các mô hình trước.
Adaptive Boosting (AdaBoost) được thực hiện với ý tưởng cập nhật lai trọng
số cho các điểm đữ liệu sau mỗi lần lặp với mục tiêu giúp mô hình tập trung hơnvào các điểm di liệu quan trong, từ đó giảm mức độ sai lệch (giá trị hàm Loss) của
mô hình Các bước thực hiện lần lượt như sau:
(1) Khởi tạo trong số cho từng input x: wi = mí €{1,2, n} > 3; wj¿ = 1
Gradient boosting có một cách tiếp cận khác với AdaBoost Cụ thé, thay vì cố
gang tối ưu mô hình sau sao cho giảm thiểu sai số đi đến điểm mục tiêu, thi
Gradient Boosting cô gang xây dựng mô hình sau sao cho khớp nhất với phần dư
từ mô hình trước Từ đó, mô hình sẽ được đưa vào phần dự báo chính dé cập nhậtdần phần dư sao cho khớp nhất với điểm mục tiêu Việc cập nhật trọng số cho các
điểm di liệu cũng tương tự như AdaBoost tuy nhiên sử dung Gradient Descent
22
Trang 32tương tự như cập nhật trọng số trong mạng thần kinh nhân tạo (Neural Network).
Mô hình cơ sở được sử dụng trong quá trình Boosting thông thường là Cây quyết
định bởi các thuật toán dạng cây là những thuật toán xử lý tốt cho đữ liệu dạng có
cau trúc và trên thực tế cũng giúp cho quá trình ensemble được cải thiện rõ nétnhất Một số biến thể nổi bật của Gradient boosting có thể được liệt kê làLightGBM, XGBoost và CatBoost.
2.2.2.6 Support vector machine:
Thuật toán SVM được sử dung cho bai toán phân lớp với mục tiêu tim ra một
siêu phăng phân hoạch tối ưu sao cho các điểm đữ liệu được chia thành hai phần
mà ở đó các điểm cùng một lớp sẽ nằm về cùng một phía với siêu phẳng nay
Thuật toán SVM được thực hiện như sau: Cho các cặp điểm đữ liệu
(X1, 1), (X¿,y;), , (Ýn, Yn) với vector X¡e IR# thể hiện đầu vào của một điểm dữ
liệu và y; là nhãn của một diém đữ liệu, y;e{—1,1}, d là số chiều (đặc trưng) của
dữ liệu và n là số điểm dữ liệu Một siêu phăng tối ưu phân chia tập dữ liệu này là
siêu phang có thé tách rời dữ liệu thành hai phía với lề (margin) (khoảng cách từđiểm di liệu gần nhất của mỗi lớp tới siêu phăng) lớn nhất
Margin được tinh theo công thức sau:
= arg max min y„(wTx„ +b } gma wit tin Yn(W' Xp, + b)
Tuy nhién trén thuc tế, các điểm dữ liệu có thé co cum ở một không gian màkhông thé nào tìm ra được một siêu phăng đề phân tách các điểm dữ liệu thành các
lớp riêng biệt Lúc này ta dùng kernel — một dạng hàm số dé biến đổi không gian
dữ liệu ban đầu, sang một không gian đữ liệu mới khả thi hơn cho thuật toán SVM
23
Trang 33Một số kernel phô biến được định nghĩa như sau:
Hình 2-1: Minh hoạ tác dụng kernel [20]
Kernel Linear:
Kiger) — x' 2
Kernel Poly:
k(x,z) = (r +yxTz)3
Trong đó, d là bậc của đa thức.
Kernel RBF (Radial Basic Function):
k(,z)=,y>0
2.2.3 Các thuật toán học sâu:
2.2.3.1 Neural Networks:
Decision surface
Mạng thần kinh là một mô hình tính toán lấy cảm hứng từ mạng lưới thần kinh
sinh học Mạng thân kinh được câu tạo bởi các đơn vị nơ ron được gọi là các
perception Một perception có thể nhận nhiều đầu vào Tuy nhiên chỉ cho ra một
giá trị đầu ra duy nhất Với mỗi đầu ra bất kỳ của một perceptron sẽ được đi qua
một hàm kích hoạt dé biến đổi giá trị đầu ra sao cho phù hợp với ngữ nghĩa bài
toán.
24
Trang 34Mang perceptron đa lớp (Multi-layer perceptron - MLP) là mô hình với các
lớp, trong đó các perceptron trong lớp hiện tại được kết nối day đủ từ các
perception của lớp trước đó Mỗi một mô hình có một lớp input, lớp output, và một
hay nhiều các lớp trung gian gọi là các lớp an Số lượng layer của một mô hìnhMLP được tinh bang số lượng lớp ân và một lớp output Input không được tính làmột layer Trong mô hình MLP các don vi perceptron trong một Layer được gọi là các units hay các nodes.
Như đã đề cập trước đó, các node ở lớp sau sẽ được kết nói đầy đủ với các node
ở lớp trước đó Các kết nối sẽ có một trọng số riêng biệt Giá trị của từng node
trước đó được tích với trọng số dé đưa đến node của layer kế tiếp Gia tri của một
node trong một Layer bất kỳ sẽ bằng tông của tích tất cả giá trị với trọng số củacác node từ layer trước đó, đi qua một hàm kích hoạt cụ thể nào đó Công thứctổng quát được trình bày như sau:
Oy Œ~1)T (1-1 œ@)
a; f (w; a1) + by ˆ)
Trong đó, a là giá trị cua node với | là layer mà node đó thuộc vê và i là vi trí
của node trong layer đó, w là trọng sô cua node tham gia kết nôi với node thuộc layer kê tiép và b là hệ sô bias của một node.
Khi mạng neuron nhân tạo bao gồm một số lượng lớn các phần xử lý kết nốivới nhau theo nhiều lớp sẽ phát triển thành một mạng nơ ron học sâu — Deep NeuralNetwork (DNN) Cấu trúc mục mang nơ ron cơ bản bao gồm 3 phan [3]:
- Pau vào-— Input: Hoạt động như một cach để đưa các thông tin đầu vào vào
mạng lưới xử lý.
-_ Lớp ân- Hidden layer: Hoạt động bang cách biến đổi thông tin đầu vào với
trọng số liên kết tương ứng, sau đó đi qua một hàm kích hoạt Khi lớp an
lớn hon hai, mang nơ ron lúc này sé là một mạng học sâu.
- Pau ra— Output: Thông qua các lớp ân trước đó, trạng thái đầu ra sẽ được
xác định tuỳ vào đầu vào các trọng số liên kết, đi đến đơn vị đầu ra tương
ứng.
25
Trang 35Trang thái của dau ra và các đơn vi ân trong mạng nơ ron nhân tao còn được
xác định bởi hàm kích hoạt Hàm kích hoạt giúp cau trúc và các trạng thái đầu racủa mạng nơ ron trở nên đa dạng hơn, phù hợp hơn với nhiêu nhiệm vụ thực têtrong đời sống Hàm kích hoạt cơ bản thuộc vào 3 nhóm chính:
Tuyến tính (Linear Function) hay Nhận dạng (Identity): Trạng thái đầu ra
sẽ tương ứng với đầu vào mà đơn vị tính toán nhận được Nói cách khác
đơn vị tính toán sẽ giữ nguyên giá trị tổng của tất cả các tích giữa đầu vào
và trọng số liên kết đến đơn vị tính toán đó Sử dụng hàm kích hoạt tuyếntính khiến lan truyền ngược trong quá trình huấn luyện mô hình trở nên vôich vì đặc trưng đầu vào lúc này không có bat kỳ tác động nào vào đạo hàm.Mặt khác, kết nối hàng loạt lớp 4n tuyến tính cũng là vô nghĩa vì đầu ra saucùng cũng tương đương với đầu ra tuyến tính của lớp đầu tiên
Phi tuyến tính (Non-linear Function): Trạng thái đầu ra bang tổng của tat cảtích đầu vào và trọng số liên kết, đi qua một hàm phi tuyến và biến đổi thànhgiá trị tương ứng Hàm phi tuyến có hai nhóm cơ bản: (1) Trạng thái đầu ra
sẽ được giới hạn trong một phạm vi giá trị nhất định, (2) Trạng thái đầu ra
bị giới hạn một phần hoặc không bị giới hạn, có thể tiến tới vô cực âm hoặc
vô cực dương Tiêu biểu ở nhóm hàm kích hoạt này có thể kể đến làSigmoid, Tanh, ReLU, Leaky, ReLU, ELU.
Hàm bước (Step Function): Loại hàm kích hoạt này sẽ quy đầu ra thành hai
trạng thái duy nhất là Có kích hoạt hoặc Không kích hoạt (Thường đượcchuẩn hoá thành giá trị 0 và 1 dé thuận tiện cho quá trình tính toán) Việc
kích hoạt giá trị đầu ra sẽ dựa vào một ngưỡng tương ứng nào đó, mà nếuđầu vào vượt ngưỡng thì trạng thái đầu ra sẽ là kích hoạt, ngược lại sẽ là
không kích hoạt.
Một mô hình mạng nơ ron cơ bản có thê được mô tả cụ thê như sau:
26
Trang 36Hình 2-2: Minh hoạ một mô hình mạng nơ ron với đầu vào bao gồm 6 đặc trưng(xanh dương), hai lớp ân (trắng), lớp đầu ra với một đầu ra duy nhất (xanh lá),với wj lần lượt là trọng số kết nối giữa đơn vị tính toán của lớp j đến đơn vị tính
toán trong lớp kế tiếp, bj là giá trị bias của một đơn vị tính toán trong lớp j
Giả sử ta có một mạng thần kinh với cấu trúc như Hình 2-2, trong đó trọng số
va bias được khởi tạo ngau nhiên với một mâu dữ liệu như sau:
Trang 3704 05
02 02 03
Hình 2-3: Minh hoa mô hình no ron với các giá tri trọng số, bias và đặc trưng đầu
vào được đưa vào mạng
Đầu ra của một đơn vi tính toán trong mạng thần kinh tích chập được tông quát
hoá bằng công thức sau:
Output = Activation(x *w +b)
Trong đó, x là gia tri đặc trưng đầu vào hoặc đầu ra của đơn vị tính toán trước
đó, w là trọng số kết nối và b là giá tri bias của đơn vi tính toán hiện tại Gia sử
hàm kích hoạt được chọn là ReLU, giá tri của hai đơn vi tính toán trong lớp đầu
tính toán được trình bày như sau:
Trang 38Cuối cùng, đầu ra cũng được tính toán với ý tưởng tương tự nhưng sẽ không sử
dụng hàm kích hoạt như sau:
29
Trang 39thiết kế cho nhiệm vụ phân tích ảnh Đầu vào là một ma trận chứa thông tin thô
của ảnh, sau đó hàng loạt các bộ lọc sẽ được di qua anh dé bắt được các vùng, khía
cạnh, các đặc trưng quan trọng trong ảnh, từ đó đầu ra của của mạng có thể phânbiệt được ảnh vào các lớp phù hợp với bài toán đặt ra ban đầu Yêu cầu về tiền xử
lý trong mạng tích chập thấp hơn nhiều so với các thuật toán phân lớp ảnh khác.
Trong khi những phương pháp truyền thống khác buộc phải thiết kế các bộ lọc một
cách thủ công, thì CNN có khả năng học các bộ lọc rút trích đặc trưng ảnh này.
Mạng thần tích chập được đánh giá là một trong những mạng học sâu phô biến
và tiên tiên hiện nay Mạng được câu tạo từ các thành phân sau:
- Lop tích chập (Convolution Layer — Conv): Mục tiêu của lop Conv là trích
xuất các đặc trưng cấp cao từ thông tin thô đầu vào băng các bộ lọc(filter/kernel) Mạng than kinh tích chập không chỉ giới hạn ở một lớp tíchchập Thông thường, lớp tích chập đầu tiên chịu trách nhiệm nắm bắt các
30
Trang 40đặc trưng cấp thấp như góc cạnh, màu sắc, hướng gradient, v.v Với nhữnglớp được thêm vao sau, kiến trúc sẽ được thiết kế để đáp ứng việc thu thập
dần các đặc trưng cấp cao hơn Nhờ đó, mà mạng có thê học được những
thông tin, những hiểu biết sâu về mặt ngữ nghĩa như cách con người có thêhiểu
- Lớp gdp (Pooling Layer - Pool): Tang pooling (POOL) là một phép
downsampling (downsampling là việc giảm tan số lay mau), thường được
sử dụng sau tầng tích chập, giúp tăng tính bất biến không gian, làm giảm
tính toán và thời gian huấn luyện nhưng vẫn giữ được các đặc trưng quan
trọng Có nhiều loại pooling như: Sum pooling, L2 pooling, Max pooling
và Average pooling Trong đó, Max pooling và Average pooling là những
dang pooling phô biến nhất
- Lớp kết nói day đủ (Fully Connected Layer - FC): Tầng kết nói đầy đủ nhận
đầu vảo là dữ liệu đã được làm phẳng, mà trong đó tất cả các nơ ron trong
lớp hiện tại sẽ được kết nối với tất cả các nơ ron trong lớp trước đó Trong
mô hình mạng tích chập, sau khi trích xuất đặc trưng, cần thiết qua các lớptích chap và lớp gop dữ liệu sẽ được đưa ra lớp kết nối đầy đủ dé đưa ra kết
quả cuối cùng phi hợp với bài toán bài đầu đặt ra
Với tính năng ưu việc trong trích xuất và xử lý thông tin, mạng thần kinh tíchchập cũng có thé được sử dụng dé phân tích các miền dữ liệu khác như là văn bản
hoặc dữ liệu số dạng chuỗi thời gian Đối với dang dt liệu hình ảnh, bộ lọc được
sử dụng là một lưới 2 chiều, trong khi đó, lưới 1 chiều thường được sử dụng cho
dạng dữ liệu như văn bản hoặc chuỗi thời gian.
Một mô hình mạng tích chập cơ bản có thé được mô tả cụ thể như sau:
31