CHUYEN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ &LOI CAM KET Tôi xin cam đoan dé tài chuyên đề thực tap “Ứng dung phương pháp Hoc máyvào dự báo khả năng mắc bệnh tim” là công trình nghiên
Trang 1KHOA TOAN KINH TE
CHUYEN DE THUC TAP CHUYEN NGANH: TOAN KINH TE
DE TAI: Ứng dụng phương pháp Hoc máy vào dự báo
khả năng mắc bệnh tim
Họ và tên sinh viên : | Nguyễn Thị Hương Giang
Mã sinh viên ;| 11191443
Lớp chuyên ngành : | Toán Kinh tế 61
Giảng viên hướng dẫn | : | ThS Nguyễn Thị Liên
HÀ NỘI - 4/2023
Trang 2TRUONG ĐẠI HỌC KINH TE QUOC DAN
KHOA TOAN KINH TE
CHUYEN DE THUC TAP CHUYEN NGANH: TOAN KINH TE
DE TAI: Ứng dụng phương pháp Hoc máy vào dự báo
khả năng mac bệnh tim
Họ và tên sinh viên : | Nguyễn Thị Hương Giang
Mã sinh viên ;| 11191443
Lớp chuyên ngành : | Toán Kinh tế 61
Giảng viên hướng dẫn | : | ThS Nguyễn Thị Liên
HÀ NỘI - 4/2023
Trang 3CHUYEN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ &)
LOI CAM KET
Tôi xin cam đoan dé tài chuyên đề thực tap “Ứng dung phương pháp Hoc máyvào dự báo khả năng mắc bệnh tim” là công trình nghiên cứu của tôi sau một quá trìnhnghiên cứu, tìm hiểu và phân tích Các nội dung nghiên cứu, kết quả là trí tuệ của tôi dựatrên những cơ sở thực tế và các bài nghiên cứu đáng tin cậy trước đây
Bài viet sử dụng nhận xét, sô liệu và kêt quả nghiên cứu khác đêu được tôi trích
dẫn và chú thích nguồn gốc
Nếu phát hiện bat cứ gian lận nào, tôi xin hoàn toàn chịu mọi trách nhiệm
Hà Nội, tháng 4 năm 2023
Sinh viên
Nguyễn Thị Hương Giang
11191443 - Nguyễn Thi Hương Giang — Toán Kinh tế 61 ||
Trang 4CHUYEN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ &)
LOI CAM ON
Trước tiên với tinh cảm sâu sắc và chân thành nhất, cho phép em được bày tỏ lòngbiết ơn đến tất cả các cá nhân và tô chức đã tạo điều kiện hỗ trợ, giúp đỡ em trong suốtquá trình học tập và nghiên cứu đề tài này Trong suốt thời gian từ khi bắt đầu học tậptại trường Đại học Kinh tế Quốc dân đến nay, em đã nhận được rất nhiều sự quan tâm,
giúp đỡ của quý thầy cô và bạn bè.
Với lòng biết ơn sâu sắc nhất, em xin gửi đến quý thầy cô khoa Toán Kinh tế đãtruyền đạt vốn kiến thức quý báu cho chúng em trong suốt thời gian học tập tại trường.Nhờ có những sự hướng dẫn, dạy bảo của các thầy cô nên đề tài nghiên cứu của em mới
có thê hoàn thiện tốt đẹp
Một lần nữa, em xin chân thành cảm ơn cô Nguyễn Thị Liên — người đã trực tiếpgiúp đỡ, quan tâm, hướng dẫn em hoàn thành tốt bài báo cáo này trong thời gian qua
Chuyên đề thực tập với bước đầu đi vào thực tế của em còn hạn chế và còn nhiều
bỡ ngỡ nên không tránh khỏi những thiếu sót, em rất mong nhận được những ý kiến đónggóp quý báu của quý thầy cô để kiến thức của em trong lĩnh vực này được hoàn thiện
hơn đông thời có điêu kiện bô sung, nâng cao ý thức của minh.
Em xin chân thành cảm ơn!
11191443 - Nguyễn Thi Hương Giang — Toán Kinh tế 61 ||
Trang 5CHUYEN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ &)
Mule tau nghién CUU 0t TT Ú 3
Đối tượng nghiên cứu và Phạm vi nghiên CU c.csccssssesssseessoseessssessssesssssessssesesssesssseeeessecssseeeess 4
Phuong phap nghién CUU DA 88Ẻ.e ễ 4
Kết cấu chuyên 46 cceecccccccssesssssesssseessssesssseessssessssesesssscessvsssssessssvessssessssesssssessssesssssessssecssseesesseeeess 4
Chương 1: CƠ SỞ LÝ LUẬN VA TONG QUAN NGHIÊN CỨU -2- ¿©2552 5
1.1 Một số khái niệm 2-©22©+E£2EEESEEE2EEE22112711271121112711 711211 E1 Eeerree 5
1.1.1 Cấu tạo hệ tim mạch -:- + St+E+EtSE+EEE2ESEE+ESEEEEEEEEESEEEESEEEESEEEEEEEEEEESEEEkrrrrksree 5 1.1.2 Định nghĩa về bệnh tim - 2-2 2 SE++E+2EE2EE2EESEEEEEEEEEEEEEEEEEEEEEEEEErErrrrrrrex 5
1.2 CO lì .: 9
1.2.1 Cae ii na 9
1.2.2 Các yếu tố nguy cơ của bệnh tim mạch .2-2¿©+2++2+++2zx+2zx++tzzvzzxezex 10
1.23 Thực trạng chan đoán bệnh tim mach - ¿5-52 SE+ESEE+ESEE2ESEEEEEEEEE2EEEEEtEErkree 13 1.3 Tổng quan nghiên cứu -+£+2+++2E+++EEEE+tEEEEEEEEEEEEEEE22112711222212 221 re 15
1.3.1 Trí tuệ nhân tạo và ứng dụng trong y hỌC - - 5 + s + *+vstEsrerererreesrrree 15 1.3.2 Các nghiên cứu liên QUa1 «1112112112119 1 vn HH nh nh nh nà nưệp 17
1.4 Khoảng trống nghiên cứu 2- 2=+E£+2EE+2EEEEEEEEEEEEEEEE271E2711711.71E 1x xe 20 Chương 2: PHƯƠNG PHÁP NGHIÊN CỨU -.2- 2: ©22++2+++2E++2Ex++EE+zzxzrxeersrcee 21
2.1.1 Các loại học máy - 111 TH TH 1111 1 TH TH TH TH TH TH TH 22
11191443 - Nguyễn Thi Hương Giang — Toán Kinh tế 61 ||
Trang 6CHUYEN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ &)
2.1.2 Một số phương pháp học máy có thé sử dụng dé dự báo kha năng mắc bệnh tim 23 2.2 Phuong pháp Hồi quy Logistic (Logistic Regression), -¿c5z5csc2csscczs 26
2.2.1 Giới thiệu về mô hình -2222+v2+++ttEEEEEExrrrrEEEErrrrirrrrriiirrrie 26
2.2.2 Thuật toán hồi quy Logistic nhị thức + 2+2+++Ex+EEeEEe£EzEEEEEzExerkerxerxee 27 2.2.3 Ưu điểm và nhược điểm -:-25++22xv2E xtttEErtrtrtttrrttrtrrrrriirrrrirrerieg 32
2.3 Random Forest ố e 34
2.3.1 Giới thiệu về mô hình 2 +¿©2++2+++EEt2EEEEEEEEESEEEEEEEEECEEEEEEerkrrrrrrkee 34
2.3.2 Mô tả thuật toán Rừng ngẫu nhiên ¿5-55-5652 2E 2E2EEEEeEEeEkrrrrrrkee 38
2.3.3 Ưu điểm và Nhược điểm ccccccttttttrtrtrrrrrttrrirrrrirrrrirrrrre 38
2.4 An ¬a nắn 40
2.4.1 Giới thiệu về phương phap ceccecccccccsessessessessesssessessessessessessusssessessessessessecsseese 40 2.4.2 Ưu điểm và nhược điểm -cc 2cstc2ctvttttEttttrktrrrttrrrrrtrrrrrrrrrirrrrrre 42
2.5 Support Vector Machine (SM) Ăn HH TH HT HH TH HT Hiệp 44
2.5.1 Giới thiệu về thuật toán ¿- 2: + ©2++2E22EE22122112212112711211211211211 21c cre 44 2.5.2 Ưu điểm và Nhược điểm -2c+-+c2vvtthEkttttrrrtrHrrrrrerrre 46
2.6 Cac tiêu chí đánh giá hiệu suất mô hình -¿-2£++£££E+++2£E++tEEE+zrrkerrrrerrres 46 Chương 3: KET QUA NGHIÊN CỨU VÀ THẢO LUẬN - 2-2 ++£x+Ezrxesrxerrs 51
3.1 Nguén dit QU ocecceeccceccsescssesssecsssessseesssesssesssesssecsseesasesssesssssessesssvesssesssecsssessseessseessesesseess 51 3.2 _ Phân tích thống kê mô ta eeccceccccccsesssessssessseesssessseesssesssesssseessessssesssesesecssseesseesssessseeeseeess 54
3.3 Phân tích Khám phá Dữ liệu (EDA - Exploratory Data Analysis) - -‹- 56
3.3.1 Một số đặc điểm nhân khâu hoc sseeessscssssseeeeeecesssssseeeeeessssnneeeeeeessssnmeeeeeeetee 56 3.3.2 Về các thói quen hằng ngày - 2© s©E22EE2EEEEE2E1211711271211112 21121 E1 crk 58 3.3.3 Tiền sử các bệnh khác ¿222tr t2 59
3.4 Kết quả ước LON eee eecceecceessescssessseesssesssecsssessseesssecssecsseesssecssessssecssecsssessssessseesseesseessseess 64
11191443 — Nguyén Thi Huong Giang — Toan Kinh té 61 ||
Trang 7CHUYEN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ &)
3.4.1 Hồi quy Logistic c.ccecccccecsessessssssessecsessessessussssssessessessessussussssssessessessessessseeseeseeseeses 64
3.4.2 Mô hình Random FOT€SK - - ¿+ 2E 22 3221832218831 8 E18 E211 211 211 21 crree 66
SN 0.7 69 3.4.4 À“ 70
3.4.5 So sánh kết quả các mô hình - 2-25 +E+E££E££EE2EE£EE£EEEEEEEEEEEEEEEEEEerkrrkrrvee 71
Trang 8CHUYEN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ &)
DANH MUC BANG BIEU
Bang 1.1 Phân độ suy tim theo chức năng của NYHA ce eeceeceesceeseeeceeeeeeeceeseeeeenseeeeeeeees 8 Bang 2.1 Confusion Matrix 0 dd 47
Bang 3.1 Mô tả các biến định đanh được sử dụng trong dữ liệu - 5555 <++xs+cxserss 55 Bang 3.2 Mô tả các biến định lượng được sử dụng trong dữ liệu - ++++++sx+ss2 55
Bang 3.3 Các thu viện được sử dụng đề xây dựng mô hình - -¿- 5 +5 «+s+sexsexsersxes 63 Bảng 3.4 10 thuộc tinh quan trọng nhất của mô hình Logistic -¿ 2 sz2ss+sz+c+2 65 Bảng 3.5 Bang tóm tắt kết qua dự báo của mô hình Logistic trên tập thử nghiệm 66
Bảng 3.6 Tóm tắt kết quả mô hình Rừng ngẫu nhiên trên tập đào tạo -s 67
Bảng 3.7 Tom tắt kết quả mô hình Rừng ngẫu nhiên trên tập thử nghiệm 69 Bảng 3.8 Tóm tắt kết quả mô hình Naive Bayes trên tập thử nghiệm - - 70
Bang 3.9 Mô hình SVM trên tập đào tạO tk HH T TH TH HH HH TH nếp 70
Bang 3.10 Tóm tắt kết quả mô hình SVM trên tập thử nghiệm 2 2 2 s52 71
Bang 3.11 Bảng đánh giá các phương pháp dự báo - 5 + 55 + S+*+Estseekrsirerrerrrrke 71
Bảng A.1 Bảng mô tả chỉ tiết thông tin các biến trong tập dit liệu . -: 82
11191443 — Nguyén Thi Huong Giang — Toan Kinh té 61 ||
Trang 9CHUYEN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ &)
DANH MUC HINH VE
Hình 2.1 Minh họa đồ thi hàm số Logistic c ceccscscssessesssessessessessecsecssessessessessecsessesuesseeseeses 29 Hình 2.2 Mối liên hệ giữa P và OddS - 2-22 + ©+£©E2EE£EEEEEE2EEE211E71122171122121 21 crk 30 Hình 2.3 Minh họa thuật toán cây quyết định +: ¿+ £+EE£+EE+£EE£EE£+EEtEEESEErrrxrrrerred 36
Hình 2.4 Mô tả thuật toán Rừng ngẫu nhiên - 2-55 2S SE£EE‡E2EEEEEEEEEEEEEEEEEEEErrrree 37
Hinh 2.5 M6 ta thuat toa SVM 0 45
Hình 3.1 Minh họa cơ cấu quan sát theo giới tính của nhóm bị bệnh tim và nhóm không bị bệnh
0 56
Hinh 3.2 Xép hạng độ tuổi theo số lượng của bệnh nhân mặc bệnh tim :+cs+cccs 57
Hinh 3.3 Minh hoa co cau quan sat theo tinh trang hut thuốc của nhóm bị bệnh tim và nhóm
Hình 3.6 Minh họa cơ cau quan sat theo tiền sử bệnh tiểu đường của nhóm bị bệnh tim và nhóm
khong bi bénh tim eee 5 , 61
Hinh 3.7 Minh hoa co cau quan sat theo tiền sử bệnh hen suyén của nhóm bị bệnh tim và nhóm
khOng bi Doth th 01107007 3334 62
Hình 3.8 Minh họa cơ cấu quan sát theo tiền sử bệnh thận mạn của nhóm bị bệnh tim và nhóm
khong bi bénh tim :ẻ:adadađadđa ÔỎ 63
Hình 3.9 Mức quan trong cua các biến dự báo rừng ngẫu nhiên trên tập đảo tạo 68
Hình B.1 Kiếm tra kết quả mô hình Logistic trên tập thử nghiệm - 2-5-5252 82 Hình B.2 Kiếm tra kết quả mô hình Random Forest trên tập thử nghiệm - 83 Hình B.3 Kiếm tra kết quả mô hình Naive Bayes trên tập thử nghiệm - 83 Hình B.4 Kiếm tra kết quả mô hình SVM trên tập thử nghiệm 2 +¿©z£sz+c+2 84
11191443 - Nguyễn Thi Hương Giang — Toán Kinh tế 61 ||
Trang 10CHUYÊN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ Sử
MỞ ĐẦU
Lý do chọn đề tài
Hệ tim mạch là hệ cơ quan quan trọng của cơ thể con người Trái tim thực hiệnnhiệm vụ bơm máu vào động mạch và nhận máu từ tĩnh mạch Hệ thống mạch đóng vaitrò là đường di của máu, giúp máu tuần hoàn trong toàn cơ thé Từ các chức năng trên,
có thể thấy hệ thống tim mạch đảm nhận vai trò vận chuyên các chất theo đường tuầnhoàn đi khắp cơ thể nhằm duy trì sự sống, ngoài ra hệ tim mạch còn đảm nhận các chức
năng khác như bảo vệ và duy trì cân băng các yêu tô bên trong cơ thê.
Do đảm nhận chức năng quan trọng như vậy, các bệnh lý liên quan đến tim mạchảnh hưởng rất lớn đến đời sống sức khỏe của bệnh nhân và tạo ra gánh nặng rất lớn chotoàn xã hội Trong một nghiên cứu về gánh nặng bệnh tật toàn cầu và các yếu tố nguy
cơ tim mạch trong 30 năm qua, tử vong do tim mach vẫn chiếm tỷ lệ cao nhất, đứng đầu
các nguyên nhân gây tử vong va ngày càng bỏ xa các nguyên nhân gây tử vong khác Cứ
mỗi 2 giây sẽ có một người chết vì bệnh tim mạch, cứ mỗi 5 giây sẽ có một người bịnhồi máu cơ tim Đặc biệt, gánh nặng tử vong do bệnh tim mach gia tăng nhanh chóng
ở các nước dang phát triển hoặc các nước có thu nhập trung bình - thấp, tỷ lệ tử vonggiảm ở các nước phát triển nhưng tổng số không giảm do sự tích lũy tuổi và tổng số camắc bệnh Gánh nặng bệnh ly tim mach đang ngày càng gia tăng, dé lại những hậu quanặng nề cho mỗi cá nhân, gia đình và xã hội Nếu không cướp đi sinh mạng của ngườibệnh thì cũng làm giảm chất lượng cuộc sống, dé lại di chứng tàn phế, mat khả năng laođộng Ngoài ra, còn tạo áp lực về tài chính, chi phí điều trị tốn kém, lâu đài, sẽ ảnh hưởng
tiêu cực đên tinh thân của bệnh nhân và người thân.
Theo WHO, bệnh tim mạch thuộc nhóm bệnh không lây nhiễm nhưng lại là một
trong những nguyên nhân hang dau gây tử vong và tàn phế trên toàn Thế giới, với ty lệgia tăng ngày càng nhanh chóng, nhiều hơn cả bệnh lý ung thư, đù ở các nước đã hayđang phát triển Ước tính có 17,9 triệu người tử vong do bệnh tim mạch vào năm 2019,
11191443 — Nguyễn Thị Hương Giang - Toán Kinh tế 61 || 1
Trang 11CHUYÊN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ Sử
chiếm 32% tổng số ca tử vong trên toàn cầu Trong đó, hơn 75% số ca tử vong do bệnh
tim mạch xảy ra ở các nước thu nhập trung bình hoặc thấp Một nghiên cứu tại Mỹ vào
năm 2016 của S Nelson và L Whitsel dự báo rằng đến năm 2035 sẽ có ít nhất 132 triệu
người Mỹ mắc ít nhất một bệnh tim mạch và chi phí mà xã hội phải chi trả dé điều trịbệnh tim mạch vào năm 2035 là 368 tỷ đô la Tại Việt Nam, theo thông kê của WHO, sỐ
người tử vong do bệnh tim mạch vào năm 2016 là 170 nghìn người, chiếm 31% số ca tửvong trong cùng năm đó Theo thống kê của Bộ Y tế, tại Việt Nam, mỗi năm có khoảng
200 nghìn người tử vong vì bệnh tim mạch, chiếm 33% và cũng là nguyên nhân gây tửvong hàng đầu, gấp 20 lần số tử vong đo ung thư và gấp 10 lần số tử vong vì tai nạn giaothông Điều đáng nói là trong giai đoạn đầu bệnh tim mạch tiến triển âm thầm, thườngkhông có triệu chứng hoặc chỉ thoáng qua, làm bệnh nhân không đề ý, cho đến khi xuấthiện dấu hiệu rõ ràng thì đã vào giai đoạn nặng, dẫn tới kết quả điều trị không như mong
muốn, tốn kém mà hậu quả vẫn nặng nề, dé lại di chứng, ảnh hưởng đến chất lượng cuộc
song Với tinh chất như trên, việc chân đoán nhanh chóng và chính xác bệnh tim mạch
trở nên quan trọng nhằm sớm đưa ra hướng chữa trị và giảm tỷ lệ tử vong cho bệnh nhân
Hiện nay, thực trạng chân đoán bệnh tim mạch vẫn còn nhiều khó khăn như: bệnhnhân thường đến bệnh viện khi bệnh đã tiến triển vào giai đoạn nặng, đã xuất hiện cáctriệu chứng nặng; việc phân tích các dấu hiệu nhằm chân đoán bệnh phải được tiến hànhbởi các chuyên gia có kiến thức và kinh nghiệm, việc chân đoán tốn thời gian, đồng thời
số lượng bệnh nhân lớn vượt quá khả năng xử lý của đội ngũ y tế và điều kiện cơ sở vậtchat của nhưng cơ sở y tế địa phương còn gây khó khăn trong việc chan đoán và sanglọc bệnh nhân bị bệnh tim mạch Những khó khăn này có thé khiến việc chan đoán trởnên khó khăn và chậm trễ, điều này làm ảnh hưởng đến việc đưa ra hướng điều trị kịpthời cho bệnh nhân Vì vậy, việc đưa ra một phương pháp chân đoán một cách chính xác
và nhanh chóng cho những người bị bệnh tim mạch là điều cần thiết Việc ứng dụng trítuệ nhân tạo dé phục vụ chan đoán bệnh tim mạch được xem là giải pháp cho vấn đềtrên, trên cơ sở kết hợp khả năng phân tích nhanh chóng từ máy tính và kiến thức y học
11191443 — Nguyễn Thị Hương Giang - Toán Kinh tế 61 || 2
Trang 12CHUYÊN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ Sử
cùng với tư duy con người để phát triển một mô hình dự đoán bệnh tim mạch chính xác,
nhanh chóng dựa vào những dữ liệu thu thập được.
Trong những năm gần đây, với sự phát triển nhanh chóng của công nghệ, việc ápdụng trí tuệ nhân tạo nhằm phục vụ các lĩnh vực trong đời sống nói riêng va y học nóichung đang ngày càng được chú ý và đây mạnh nghiên cứu nhờ vào những ưu điểm củalĩnh vực này Việc ứng dụng trí tuệ nhân tạo vào chan đoán bệnh lý tim mạch có thé chochúng ta một phương pháp chân đoán nhanh và chính xác, góp phần hỗ trợ nhân viên y
tế trong việc đưa ra quyết định điều trị và chăm sóc sức khỏe cho bệnh nhân, đồng thời
hạn chế các sai sót trong chân đoán Một ưu điểm khác của việc ứng dụng trí tuệ nhântạo phục vụ chan đoán là máy tính có thé tiép can va xu ly duoc nguén thông tin y khoakhông 16 mà con người không thé xử lý hết được, điều này cho phép đưa ra được chanđoán chính xác và cập nhật nhất dựa trên nguồn dữ liệu y khoa mà máy tính được tiếpcận và xử lý Nhờ những ưu điểm trên, ứng dụng trí tuệ nhân tạo trong chan đoán bệnh
tim mạch là một hướng tiếp cận rất có tiềm năng Các nghiên cứu về chủ đề này sẽ mang
lại giá trị rất lớn trong việc phục vụ chân đoán các bệnh ly tim mạch Tuy nhiên, một vấn
dé lớn được đặt ra là làm thé nao dé xác định được dự đoán ma máy tính đưa ra là chínhxác hay chưa và có thê tin tưởng dé áp dụng vào lĩnh vực y khoa hay không Đó là lý do
em quyết định lựa chọn nghiên cứu đề tài “Ứng dụng phương pháp Học máy vào dự
báo kha năng mac bệnh tim”.
Mục tiêu nghiên cứu
Chuyên đề dự báo khả năng mắc bệnh tim dựa trên dữ liệu khảo sát tình trạng sứckhỏe, tìm hiểu các yếu tố quan trong trong việc dự báo khả năng mắc bệnh bằng cách sửdụng một số phương pháp Học máy Từ đó so sánh, tổng hợp tìm ra mô hình phù hợpnhất cho việc dự báo khả năng mắc bệnh tim, góp phan giảm thiểu gánh nặng bệnh ly
tim mach Vi thê các câu hỏi nghiên cứu chính của chuyên dé nay là:
Câu hỏi nghiên cứu 1: Những nhóm người nào có khả năng mắc bệnh tim cao?
11191443 — Nguyễn Thị Hương Giang - Toán Kinh tế 61 || 3
Trang 13CHUYÊN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ Sử
Câu hỏi nghiên cứu 2: Những dau hiệu nào giúp phân loại tot về bệnh tim?
Câu hỏi nghiên cứu 3: Mô hình nào đưa ra kết quả dự báo tốt nhất?
Đối tượng nghiên cứu và Phạm vi nghiên cứu
Đối tượng nghiên cứu: Chuyên đề sử dụng dữ liệu khảo sát hàng năm về bệnh timnăm 2020 của Trung tâm Kiểm soát và Phòng ngừa Dịch bệnh Hoa Kỳ (CDC) để tìm ra
các chỉ sô chính vê bệnh tim và đưa ra các dự báo.
Phạm vi nghiên cứu: Dự bao kha năng mắc bệnh tim dựa trên dữ liệu khảo sát.
Phương pháp nghiên cứu
Phân tích định tính: Nghiên cứu tổng quan các lý thuyết, nghiên cứu trước đó,thống kê mô ta dữ liệu
Phân tích định lượng: Sử dụng kỹ thuật Random Undersampling dé cân bang dit
liệu, kết hợp các phương pháp hồi quy Kinh tế lượng (Logistic) và Machine Learningtrong phân tích với số liệu thu thập được dé tiến hành dự báo về khả năng mắc bệnh tim
CHƯƠNG 3: KET QUÁ NGHIÊN CUU VÀ THẢO LUẬN
11191443 — Nguyễn Thi Hương Giang - Toán Kinh tế 61 || 4
Trang 14CHUYÊN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ Sử
Chương 1: CƠ SỞ LÝ LUẬN VÀ TỎNG QUAN NGHIÊN CỨU
Chương này trình bày khái niệm cơ bản về bệnh tim và những điều liên quan, tómtắt các nghiên cứu trong và ngoài nước trước đó về đề tài này, chỉ ra những khoảng trốngnghiên cứu, đưa ra cơ sở lý luận về những yếu tố có khả năng tác động đến nguy co mắcbệnh tim, từ đó đề xuất các kỹ thuật dự báo phù hợp
1.1 Một số khái niệm
1.1.1 Cau tạo hệ tim mạch
Hệ thống tim mạch gồm có tim và hệ mạch máu Đảm nhiệm 3 chức năng chính
bao gồm: vận chuyên oxi, chất dinh dưỡng, hormone và các enzyme di nuôi cơ thể, vậnchuyền chat thải đến các co quan dé đào thải ra ngoài cơ thé; chức năng bảo vệ: các tế
bào miễn dịch và các kháng thể được máu vận chuyển đi khắp cơ thể có nhiệm vụ bảo
vệ cơ thê đôi với các yêu tô từ bên ngoài; điêu chỉnh nhiệt độ, pH cơ thê.
Trái tim là một khối cơ năm ở giữa 2 lá phổi và trung thất trước với mom tim năm
lệch về phía bên trái Có chức năng hút máu từ tĩnh mạch phổi và tĩnh mach chủ, bơm
máu và dộng mạch phối và động mạch chủ Trái tim có 4 buông, 2 tâm nhĩ ở trên và 2
tâm thất ở dưới Buéng nhĩ có thành mong, làm nhiệm vu chứa máu được hut về từ tĩnhmạch phổi va tinh mach chủ, 2 tâm nhĩ được ngăn cách nhau bởi vách ngăn liên nhĩ.Buông thất có thành dày hơn, có nhiệm vụ cung cấp lực đây để bơm máu từ tim vàomạch máu, 2 tâm thất được ngăn cách với nhau bởi vách liên thất Hệ thống van tim baogồm các van ngăn cách giữa nhĩ - thất và giữa thất - động mạch Các van tim có nhiệm
vụ điều hướng cho dòng máu chảy trong tim, cho máu chảy một chiều và ngăn máu chảytheo chiều ngược lại
1.1.2 Định nghĩa về bệnh tim
11191443 — Nguyễn Thi Hương Giang - Toán Kinh tế 61 || 5
Trang 15CHUYÊN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ Sử
Theo Tổ chức Y tế Thế giới WHO, thuật ngữ “bệnh tim mạch” có thể được sửdụng dé mô ta bat kỳ rối loan của hệ thống tim mach (trái tim và các mạch máu) do bamsinh hoặc mắc phải, có ảnh hưởng đến hoạt động bình thường của tim
Các loại bệnh tim chủ yếu
> Bệnh mạch vành
Bệnh mạch vành, hay còn gọi là bệnh tim thiếu máu cục bộ là thuật ngữ dùng déchỉ tình trạng thiếu máu của cơ tim Biéu hiện của bệnh tim thiếu máu cục bộ là các cơnđau thắt ngực (ôn định hoặc không ồn định), nhồi máu cơ tim hoặc ngưng tim đột ngột
do thiếu máu Tình trạng này gây ra do sự hẹp hoặc tắc lòng động mạch vành, ảnh hưởngđến sự cung cấp máu cho cơ tim Nguyên nhân chính dẫn đến tình trạng hẹp mạch vành
là do tình trạng xơ vữa động mạch Ngoài ra, sự hẹp tắc lòng mạch có thê gây ra bởi các
yếu tố khác như: bệnh cơ tim phì đại, các khiếm khuyết bam sinh, chan thuong,
> Bệnh tim bẩm sinh
Bệnh tim bam sinh là những di tật của cơ tim, van tim, buồng tim xảy ra ngay từ
lúc còn trong bảo thai và tồn tại sau sinh Lúc này, một vài cấu trúc tim sẽ bị khiếm
khuyết dẫn đến các hoạt động và chức năng của tim bị ảnh hưởng Bệnh lý tim machbam sinh là di tật phố biến nhất, và là nguyên nhân hàng đầu gây tử vong trong số nhữngtrường hợp di tật bam sinh ở trẻ nhỏ
> Bệnh van tim
Bệnh van tim là tình trạng có thể xuất hiện ngay từ khi mới sinh (bẩm sinh) hoặcxảy ra ở người trưởng thành do nhiều nguyên nhân khác nhau, chăng hạn như tình trạngnhiễm trùng và các bệnh tim mạch khác Các van tim (gồm van 2 lá, van 3 lá, van động
mạch phôi và van động mạch chủ) nằm ở lối ra của 4 buồng tim, có nhiệm vụ duy trì
dòng máu một chiều qua tim Bốn van tim đảm bảo rằng máu luôn chảy tự đo theo hướng
11191443 — Nguyễn Thi Hương Giang - Toán Kinh tế 61 || 6
Trang 16CHUYÊN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ Sử
thuận và không rò rỉ theo chiều ngược lại Mỗi van tim có các cánh (lá van) mở và đóng một lần trong mỗi nhịp tim Nếu một hoặc nhiều van không mở/đóng đúng cách, dòng
máu qua tim đến cơ thể sẽ bị gián đoạn, gây ra bệnh lý van tim.
> Bệnh mach máu ngoại vi
Bệnh mach máu ngoại vi (PVD) là một rỗi loạn tuần hoàn máu khiến các machmáu bên ngoài tim bị thu hẹp, tắc nghẽn hoặc co thắt Mach máu ton thương có thé xảy
ra ở động mạch hoặc tĩnh mạch của người bệnh PVD thường gây ra triệu chứng thiếumáu hoặc tắc nghẽn ở đầu chi dẫn đến triệu chứng đau và mệt mỏi, thường ở chân, vàđặc biệt là khi tập thé dục Cơn đau thường cai thiện khi nghỉ ngơi Các biến chứng dobệnh mạch máu ngoại vi khi không được chan đoán và điều trị có thé nghiêm trọng vàthậm chí đe dọa tính mạng Lưu lượng máu hạn chế của động mạch ngoại biên có thé là
dấu hiệu cảnh báo các dạng bệnh mạch máu khác Khi chúng bị tắc nghẽn, nó có thể dẫn đến hoại tử chi, đau tim, đột quy hoặc tử vong.
> Bệnh thấp tim
Thấp tim là bệnh lý viêm tự miễn, xuất hiện sau khi bị nhiễm khuẩn đường họngmiệng đo liên cầu khuẩn beta tan huyết nhóm A Trong vòng 2 - 3 tuần sau khi nhiễmliên cầu vùng hầu họng, nếu không được điều trị đầy đủ và đúng cách, bệnh có thể tiếntriển thành thấp tim Bệnh thấp tim phổ biến ở trẻ 5 - 15 tudi, ty lệ mắc bệnh ở nam nữ
là ngang nhau Bệnh có thé gây ra những biến chứng nặng nè ở tim, khớp, não và da Ởtim, thấp tim có thé dé lại những hậu quả kéo dài như viêm tim, dày dính van tim, lâungày dẫn tới tốn thương van tim, rối loạn nhịp tim, suy tim, đột quy hay thậm chí tửvong.
> Rối loạn nhịp tim
Rối loạn nhịp tim là tình trang bất thường về mặt điện học của tim, có thé là bat
thường về việc tạo nhịp hoặc bất thường về mặt dẫn truyền điện học trong buông tim và
11191443 — Nguyễn Thị Hương Giang - Toán Kinh tế 61 || 7
Trang 17CHUYÊN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ Sử
biểu hiện trên lâm sang là: Nhịp quá nhanh (tan số > 100 lần/ phút) hoặc quá chậm (tan
số < 60 lần/phút), không đều hoặc lúc nhanh lúc chậm, Rối loạn nhịp tim có thể không
có triệu chứng hoặc chỉ gây ra các triệu chứng như: Cảm giác hồi hộp, đánh trống ngực,
cảm giác tim đập nhanh hoặc không đều, Tuy nhiên, nhiều trường hợp rối loạn nhịptim có thé de doa tinh mạng của người bệnh và khiến người bệnh phải nhập viện trongtình trạng cấp cứu
> Suy tim
Suy tim là trạng thái bệnh lý đồng thời cũng là biến chứng cuối cùng của các bệnhtim mạch Suy tim là tình trạng tim bị suy yếu do các tốn thương thực thé hay các rốiloạn chức năng tim khiến cho tâm thất không có đủ khả năng tiếp nhận máu hoặc tốngmáu Đây được biết đến là một hội chứng lâm sàng phức tạp Hệ thống tim mạch của
bệnh nhân không thé cung cấp đủ máu cho các tế bào khiến người bệnh mệt mỏi và khó thở, một số người bị ho Các hoạt động hàng ngày như đi bộ, leo cầu thang hoặc mang
vác d6 có thé trở nên khó khăn hơn Khi bệnh nhân gắng sức, có thé xuất hiện tình trạng
ứ dich dẫn đến sung huyết phổi và phù ngoại vi.
Phân độ suy tim theo chức năng của Hội Tìm mạch New York (NYHA) được sử dụng dựa vào triệu chứng cơ năng và khả năng găng sức:
Không hạn chế - Vận động thé lực thông thường không gây mệt, khó thở hay hồi hộp.
Hạn chế nhẹ vận động thé lực Bệnh nhân khỏe khi nghỉ ngơi; vận động thê lực thông
thường dẫn đến mệt, hồi hộp, khó thở hay đau ngực.
Hạn chế chiều vận động thê lực Mặc dù bệnh nhân khỏe khi nghỉ ngơi nhưng chỉ cần
vận động nhẹ đã có triệu chứng cơ năng.
Không vận động thé lực nào không gây khó chịu triệu chứng cơ năng của suy tim xảy
ra ngay khi nghỉ ngơi, chỉ một vận động thể lực nhẹ cũng làm triệu chứng cơ năng gia
tăng.
Bang 1.1 Phan độ suy tim theo chức nang của NYHA
11191443 — Nguyễn Thi Huong Giang — Toán Kinh tế 61 || 8
Trang 18CHUYÊN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ Sử
1⁄2 Cơ sở lý luận
Trong phân nay, bài việt sẽ dé cập đên các yêu tô ảnh hưởng đên việc dự báo nguy cơ
mac bệnh tim
1.2.1 Các triệu chứng
Bệnh tim thường diễn tiến âm thầm, các trường hợp bệnh nhẹ thường không có
triệu chứng hoặc những triệu chứng không biểu hiện rõ ràng Khi các bất thường bắt đầu
ảnh hưởng đến hoạt động của tim hay các co quan khác thì các triệu chứng mới dan trởnên rõ rệt hơn Tùy vào bệnh lý người bệnh mắc phải và mức độ bệnh mà các triệu chứng
cũng biểu hiện đa dạng, thường gặp nhất là:
Khó thở
Các van đề tim mạch như hẹp van động mạch phổi, suy tim, có thể khiến cho lượngmáu giàu oxy giảm Người bệnh thường xuyên cảm thấy khó thở như có vật gì đè lênngực Triệu chứng này càng rõ rệt hơn khi bệnh nhân hoạt động gắng sức hoặc nămxuống Đặc biệt có thê nghiêm trọng hơn vào ban đêm, khi bệnh nhân đang ngủ Vì khi
đó tim có thé đột ngột bị giảm khả năng co bóp, quá trình bơm máu từ tim đến phổi bigián đoạn gây khó thở Nhiều trường hợp bệnh nhân gặp tình trạng này ngay cả khikhông gắng sức Thậm chí gặp khó khăn trong việc kiểm soát hơi thở ngay khi chỉ mới
hít thở sâu.
Tức ngực
Đây là triệu chứng bệnh tim mạch thường gặp nhất, đặc biệt là ở các bệnh nhân mắcbệnh mạch vành Các chuyên gia tim mạch cho biết, khoảng 90% cơn đau ngực là dobệnh mạch vành Bởi khi đó tế bào cơ tim không được nhận đủ oxy vì lượng máu tới tim
bị giảm Người bệnh có thể cảm giác bị đè nặng ở ngực, đau nhói ngực hay đau thắt ngực
ở phan dưới xương ức Cảm giác đau thường theo cơn, mỗi lần kéo dai từ vài đến vài
11191443 — Nguyễn Thi Hương Giang - Toán Kinh tế 61 || 9
Trang 19CHUYÊN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ Sử
chục phút Có khi cảm giác đau giảm dần khi nghỉ hơi hoặc dùng thuốc Nhưng cũng có
những trường hợp cơn đau kéo dài liên tục trên 20 phút, dùng thuốc hay nghỉ ngơi cũng không đỡ Đây có thé là triệu chứng cảnh báo một cơn nhồi máu cơ tim đang tới, người bệnh cần đi cấp cứu ngay đề được xử trí kịp thời.
Hiện tượng phù
Hiện tượng suy tim xuất hiện cùng lúc với hiện tượng phù, cơ thể có dấu hiệu tích nước
Nếu thấy khi ngủ dậy mặt bị căng phù, mí mắt nặng, hoặc điển hình phù ban chân vào
thời điểm nhất định trong ngày cảm thấy đi dép chật , tất cả đều cho thay những triệuchứng của suy tim Khi lượng mau ra khỏi tim chậm, mau trở về tim qua tĩnh mạch bị ứlại, khiến dịch tích tụ tại các mô Thận không thể đào thải muối và nước cũng gây giữ
nước trong các mô làm bệnh nhân bị phù.
1.2.2 Các yếu tố nguy cơ của bệnh tim mạch
Các yếu tố nguy cơ của bệnh tim mạch rất đa dạng và phức tạp, các yếu té này
bao gôm:
Yêu tô di truyền
Việc kết luận yếu tố di truyền dẫn đến các căn bệnh về tim mạch là hoàn toàn có
cơ sở Sự bất thường về cấu trúc và số lượng nhiễm sắc thé khiến thế hệ đầu bị bệnh timmạch Từ đó sẽ di truyền cho thế hệ con cháu về sau Do đó, người bình thường có ông
bà, bố mẹ bị mắc bệnh tim hoặc các chứng bệnh có liên quan tới tim mạch (nam trước
55 tudi và nữ trước 65 tuôi) sẽ có khả năng bị các bệnh về tim mạch cao hơn người khác
đến 60% Các rối loạn về di truyền bao gồm các bất thường về cấu trúc và số lượngnhiễm sắc thé đều có thé gây ra các dị dạng ở hệ thống tim mạch Một số đột biến ditruyền thậm chí có thê biển hiện bệnh ngay từ khi còn trong giai đoạn bào thai Điều nàycũng là một lý do khiến một số người mắc bệnh tim mạch sớm hon so với độ tuổi nguy
cơ thông thường (từ 55 tuổi trở lên)
11191443 — Nguyễn Thị Hương Giang — Toán Kinh tế 61 || 10
Trang 20CHUYÊN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ Sử
Các yêu tô có thê kiêm soát
> Béo phì và thừa cân
Việc thừa cân sẽ góp phần gia tăng tổng mức cholesterol trong máu, đồng thờimang đến nguy cơ huyết áp cao và bệnh mạch vành Nếu ở cấp độ béo phì, lượngcholesterol sẽ tăng vọt, huyết áp đặc biệt cao và kéo theo bệnh tiểu đường Trong nhiềutrường hợp, chứng béo phì chịu trách nhiệm cho hầu hết các bệnh tật liên đới, trong đó
da phan là bệnh tim mạch Có thé nói béo phì là một yếu tố nguy cơ mang đến nhiều yếu
tố nguy cơ khác có thê gây ra bệnh tim mạch
> Hút thuốc lá
Hau hết mọi người đều biết rằng việc hút thuốc lá làm tăng nguy cơ ung thư phôi,
nhưng it ai nhận ra nó cũng làm tăng đáng kể nguy co mắc bệnh tim mạch Nghiên cứu
cho thấy hút thuốc làm tăng nhip tim, thắt chặt các động mạch lớn và làm cho nhịp timbất thường, có thể dẫn đến loạn nhịp tim khiến hoạt động của tim kém hiệu quả và trởnên khó khăn hơn Việc hút thuốc cũng làm tăng huyết áp và tăng nguy cơ đột quy ởnhững người đã có sẵn chứng huyết áp cao Ngoài nicotine, các hóa chất khác có trong
khói thuốc như carbon monoxide cũng có hại cho tim Những chất này dẫn đến tích tụ
mang bám trong động mạch, ảnh hưởng đến cholesterol và mức fibrinogen — một yếu tốlàm đông máu, điều này khiến cho nguy cơ đông máu tăng và có thê dẫn đến đau tim
> Thiếu vận động thể chất
Những người lười vận động hoặc ít có cơ hội vận động thể chất sẽ có nguy cơmắc bệnh tim mạch cao hơn những người thường xuyên tập thể dục Việc hoạt động và
tập luyện sẽ đốt cháy calo, giúp kiểm soát mức cholesterol và bệnh tiêu đường đồng thời
có thé hạ huyết áp Tập thé dục cũng tăng cường sự déo dai cho cơ tim và làm cho cácđộng mạch linh hoạt hơn Những người tích cực đốt cháy 500 - 3500 calo mỗi tuần bằngcách tập thể dục hoặc các hình thức vận đông khác thường sống lâu hơn những người
11191443 — Nguyễn Thị Hương Giang - Toán Kinh tế 61 || 11
Trang 21CHUYÊN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ Sử
không tập thé dục Ngay cả việc tập thé duc với cường độ trung bình nhưng đều đặn vàthường xuyên cũng rất hữu ích
> Cao huyết áp
Chứng cao huyết áp sẽ dẫn đến nguy cơ đau tim và đột quy Nếu kết hợp thêm cảbéo phì, nghiện thuốc lá và cholesterol cao thì nguy cơ bệnh tim hay đột quy sẽ tăng lênđáng kể Huyết áp có thể thay đổi tùy theo điều kiện vận động và tuổi tác, nhưng về cơbản, chỉ số huyết áp ở người lớn khi đang nghỉ ngơi nên ở mức 120/80
> Cholesterol trong mau cao
Nhiều nghiên cứu khoa học đã chi ra mối liên hệ chặt chẽ giữa nguy co mắc bệnh
tim mach và nồng độ cholesterol trong máu Bác sĩ có thé yêu cầu thực xét nghiệm sinh
hóa cholesterol trong máu dé kiểm tra nồng độ LDL (cholesterol xấu), HDL (cholesteroltốt), và triglyceride trong máu đề đánh giá nguy cơ phát triển bệnh tim mạch của mộtngười Cholesterol tốt có vai trò trong việc làm cho thành động mạch mềm mai đề lưuthông máu tốt hơn và có khả năng bảo vệ thành mạch máu chống lại sự xơ vữa Trongkhi đó, cholesterol xấu (loại có ti trọng thấp) lại làm xơ vữa thành động mạch, từ đó sẽhạn chế lưu thông máu, thậm chí tạo điều kiện cho việc hình thành cục máu đông, gâytắc mạch rất nguy hiểm
> Bệnh tiêu đường
Ước tính có đến 65% số người tiểu đường tử vong do các bệnh tim mạch Tiểuđường làm tăng nguy cơ bệnh tim và đột quy Một phần của nguyên nhân này là do bệnhtiêu đường làm anh hưởng đến cholesterol và triglyceride, ngoài ra người bị tiểu đườngcũng có thể bị huyết áp cao và béo phì kèm theo, do vậy nguy cơ cũng cao hơn
Các yếu tố không thể kiểm soát
> Giới tính
11191443 — Nguyễn Thị Hương Giang - Toán Kinh tế 61 || 12
Trang 22CHUYÊN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ Sử
Nhìn chung, nam giới có nguy cơ bị bệnh tim cao hơn nữ giới Các nghiên cứu
gần đây cho thấy, một phần sự khác biệt này là do nam giới hút thuốc lá nhiều hơn so
với nữ giới Tuy nhiên ở phụ nữ ở thời kỳ mãn kinh, nguy cơ sẽ tăng cao hơn va sau tuổi
65, nguy cơ mặc bệnh tim mạch ở nam giới và nữ giới là như nhau.
> Tudi tác
Tuổi già là một trong những yếu tố nguy co của bệnh tim mạch Càng lớn tudi,
hoạt động của tim càng kém hiệu qua Thành tim dày lên, các động mach xơ cứng lại
khiến cho quá trình bơm máu cũng trở nên khó khăn Hơn nữa, người cao tuôi lại mắcnhiều bệnh mãn tính, dẫn đến nguy co mắc bệnh tim mach gia tăng theo tudi
1.2.3 Thực trang chan đoán bệnh tim mạch
Hiện nay, việc chân đoán bệnh tim dựa vào các triệu chứng lâm sang và xét
nghiệm cận lâm sàng như sau:
= Đau thắt ngực: triệu chứng lâm sảng điển hình của bệnh tim là biểu hiện đau thắt
ngực, triệu chứng này có thê xảy ra lúc vận động mạnh hoặc ngay cả lúc nghỉ
ngơi tùy theo mức độ nặng của bệnh Tuy nhiên, ở một số bệnh nhân có thể không
biểu hiện triệu chứng nay
= Một số triệu chứng khác đi kèm với đau thắt ngực có thé là hụt hơi, khó thở, buồn
nôn, đồ mồ hôi
" Do huyết áp, nhịp tim: xác định sự bat thường trong nhịp tim và huyết áp giúp
đánh giá các yếu tố nguy cơ có thê dẫn đến bệnh tim, đồng thời bước đầu xác định
vị trí ton thương của tim
Bên cạnh đó, việc chân đoán xác định bệnh tim cân phải dựa rât nhiêu vào kêt quả cận lâm sàng Các xét nghiệm cận lâm sang cung cap thông tin nham chân đoán xác
định bệnh tim mạch bao gồm:
11191443 — Nguyễn Thi Hương Giang - Toán Kinh tế 61 || 13
Trang 23CHUYÊN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ Sử
= Điện tâm dé: đo điện tâm đồ lúc nghỉ ngơi và khi vận động được khuyến cáo cho
tất cả các trường hợp nghi ngờ mắc bệnh tim Điện tâm đồ cung cấp thông tin về
sự phi đại cơ tim, đây là một bằng chứng góp phan chan đoán cho bệnh nhân nghỉ
ngờ mắc bệnh Ngoài ra, sự thay đổi đoạn ST-T và sóng T trên bản ghi điện tâm
đồ phản ảnh sự thay đôi điện tim liên quan đến bệnh ly tim mach
7 Nồng độ cholesterol máu: nồng độ cholesterol trong máu phản ánh nguy cơ xơ
vữa động mạch và hình thành các mảng bám làm hẹp lòng mạch Thông thường,
ở bệnh nhân mắc bệnh tim có nồng độ cholesterol trong máu cao (>120mg/dl)
* Các kỹ thuật cận lâm sàng nhằm quan sát tim và hệ thống mạch vành: các kỹ thuật
này thường được sử dụng nhằm phát hiện các bất thường của tim nói chung và hệthống mạch vành nói riêng, các bất thường đó phản ánh nguy cơ mắc bệnh ở các
cá nhân khác nhau Ngoài ra, kết quả thu được còn giúp chân đoán phân biệt bệnh
tim với một sô bệnh khác.
Các kỹ thuật theo dõi điện tâm đồ và các kỹ thuật quan sát hình ảnh tim và hệthống mạch vành có thể được thực hiện lúc bệnh nhân vận động hoặc nghỉ ngơi Các kỹthuật này đều cung cấp những bằng chứng về hoạt động của hệ tim mach dé góp phan
phục vụ chân đoán.
Ngoài các triệu chứng lâm sang và các kỹ thuật cận lâm sang nêu trên, việc điêu tra vê tiên sử bệnh, các bệnh nên và chê độ sinh hoạt của bệnh nhân cũng góp phân rat
quan trọng trong chan đoán bệnh tim
Phương pháp chan đoán truyền thống này có ưu điểm là kết quả chân đoán chính
xác Tuy nhiên, phương pháp này cũng tồn tại một số vẫn đề:
Thự nhất, việc thực hiện một loạt các kiêm tra này sẽ tôn khá nhiêu thời gian va
chỉ phí của người bệnh, các kết quả phân tích kiểm tra thường không được trả trong ngày
11191443 — Nguyễn Thị Hương Giang — Toán Kinh tế 61 || 14
Trang 24CHUYÊN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ Sử
Thứ hai, đôi với các xét nghiệm cận lâm sàng vê bệnh tim không phải lúc nào
cũng được thực hiện Nó thường chỉ được thực hiện ở các bệnh viện chuyên môn về tim
mạch.
Thứ ba, vì thực hiện rất nhiều các kiểm tra này, các bác sĩ sẽ phải xử lý rất nhiều
thông tin của mỗi bệnh nhân thăm khám, dẫn đến hiệu suất khám bệnh của bác sĩ sẽ thấp.
Ngoài ra, trong thời điểm hiện nay, người dân ngày càng quan tâm đến sức khỏe, nhucầu thăm khám bệnh ngày càng tăng và với lực lượng y bác sĩ hiện tại, nếu tiếp tục thựchiện phương pháp chân đoán thủ công, truyền thống này thì hệ thống có thê bị quá tải
Thứ tw, vì việc chân đoán này được tiễn hành một cách thủ công và dựa khá nhiềuvào kinh nghiệm và chuyên môn của bác sĩ thì khả năng nhằm lẫn, bỏ sót là không thé
tránh khỏi.
1.3 Tổng quan nghiên cứu
1.3.1 Trí tuệ nhân tạo và ứng dụng trong y học
Trí tuệ nhân tạo là một nhánh của khoa học máy tính Hiện có rất nhiều định nghĩacho thuật ngữ trí tuệ nhân tạo, tuy nhiên ta có thể hiểu trí tuệ nhân tạo là ngành khoa họcnhằm nghiên cứu và tạo ra trí thông minh giống với trí thông minh của con người Cụthé ở đây là giúp máy tinh có thé hiểu và học được từ tap dir liệu cung cấp từ trước màkhông qua từng bước xử lý được con người quy định sẵn như trong lập trình truyền
thống Ké từ khi lần đầu được định nghĩa năm 1956, cho đến nay trí tuệ nhân tạo đã phát
triển vượt bậc và được ứng dụng trong nhiều lĩnh vực của đời sống như: nhận dạng (ký
tự, khuôn mặt, vân tay, giọng nói, ), công nghiệp tự động hóa (ô tô, máy móc, ) và đặc biệt là trong phân tích dữ liệu.
Ứng dụng trí tuệ nhân tạo trong y học được biết đến với thuật ngữ medicalinfomatics (health infomatics) Đây là ngành khoa học mới, bắt đầu phát triển từ khi các
khái niệm về trí tuệ nhân tạo được hình thành và ứng dụng trong các lĩnh vực đời sông.
11191443 — Nguyễn Thị Hương Giang — Toán Kinh tế 61 || 15
Trang 25CHUYÊN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ Sử
Kể từ lần đầu khái niệm trí tuệ nhân tạo hình thành, người ta nhận thấy được tiềm năngrất lớn của trí tuệ nhân tạo khi ứng dụng vào y học Ngành y học hiện đại đang phải đối
mặt với thách thức lớn trong việc thu thập, phân tích và xử lý dữ liệu Với sự phát triển
của mạng internet, các dit liệu y học càng trở nên ngày một nhiều, vượt quá khả năngtiếp thu của con người Cùng với việc phân tích các dữ liệu phức tạp và đòi hỏi tính chínhxác cao như điện tim đồ, các hình ảnh y tế như siêu âm hay hình ảnh X-quang khiến việcchân đoán và điều trị cho bệnh nhân ngày càng khó khăn hơn, trí tuệ nhân tao được xem
là phương pháp tiếp cận hiệu quả dé có thể giúp ngành y tế giải quyết được các van dé
nêu trên Các ứng dụng trong lĩnh vực y học của trí tuệ nhân tạo bao gồm: phục vụ chân
đoán (thu thập, lưu trữ, sắp xếp và quản lý dữ liệu, phân tích đữ liệu), chăm sóc và điềutrị bệnh nhân (các thiết bị chăm sóc y tế, robot chăm sóc sức khỏe, robot trợ giúp phẫu
thuật, ).
Trong lĩnh vực tim mạch, ứng dụng chủ yếu của tri tuệ nhân tạo là phục vụ chânđoán Trong bệnh tim mạch, việc chân đoán sớm có vai trò quan trọng trong điều trị và
giảm thiểu nguy cơ tử vong của người bệnh Yếu tố trên kết hợp với các cơ sở dữ liệu
mở về bệnh tim mạch vô cùng đa dạng khiến việc ứng dụng trí tuệ nhân tạo vào chanđoán bệnh tim mach trở thành một hướng tiếp cận đầy tiềm năng Hiện tại trên thế giới
đã có rất nhiều nghiên cứu nhằm áp dụng trí tuệ nhân tạo phục vụ chân đoán bệnh timmạch và thu được những kết quả khả quan Các nghiên cứu ứng dụng nhiều cách thức
xử ly dit liệu khác nhau và các mô hình thuật toán khác nhau, có thé ké đến một số thuậttoán thường được sử dụng bao gồm: Decision Tree, Naive Bayes, K-Means Clustering,
Artificial Neural Network,
Tuy vay, các nghiên cứu hiện nay chưa thé lam rõ được cách thức mà thuật toánhoạt động, điều này ảnh hưởng lớn đến tính chính xác và sự đáng tin cậy của mô hìnhxây dựng được khi phân tích các dit liệu không thuộc bộ dit liệu ban đầu sử dụng dé xây
dựng mô hình Điêu này đặt ra van dé cân giải quyết là phải hiéu được các mô hình xây
11191443 — Nguyễn Thị Hương Giang — Toán Kinh tế 61 || 16
Trang 26CHUYÊN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ Sử
dựng được từ nghiên cứu thật sự đã hoc được gi từ bộ dữ liệu đưa vào va mô hình đã
thao tác gì với từng phan trong dữ liệu đó, sự quan trọng của từng yếu tổ trong bộ ditliệu với mô hình xây dựng được Những điều trên cần được làm sáng tỏ nhằm đánh giákết quả nghiên cứu một cách chính xác và điều chỉnh mô hình khi cần thiết Song song
với khả năng diễn dịch của mô hình, hiện nay các nghiên cứu đang dần quan tâm hơn
đến vấn đề kết hợp giữa các mô hình với nhau do các mô hình xây dựng hiện nay đều xử
lý dữ liệu riêng rẽ và phép kết hợp truyền thống dường như gặp khó khăn trong việcquyết định tính đáng tin cậy của từng mô hình trong phép kết hợp dé đưa ra kết quả cuối
cùng.
1.3.2 Các nghiên cứu liên quan
Nhận thấy những hạn chế trong việc sử dụng các phương pháp chân đoán bệnhtim truyền thống, nhiều nhà nghiên cứu đã ứng dụng phương pháp Học máy trong việc
dự báo nguy cơ mắc bệnh tim Đã có rất nhiều nghiên cứu được xây dựng nhăm khắc
phục những hạn chế của các phương pháp chan đoán bệnh tim truyền thống Và trong
những năm gần đây, việc ứng dụng học máy để giải quyết bài toán này đã thu hút đông
đảo sự quan tâm của giới nghiên cứu, mang lại nhiêu kết quả tích cực.
Nghiên cứu của S Bashir và các cộng sự (2014) đã xây dựng mô hình Machine
Learning nhằm phân loại bệnh nhân bị mắc bệnh mạch vành Thuật toán được sử dụngtrong nghiên cứu bao gồm Support Vector Machine (SVM), Decision Tree, Naive Bayes
Bộ dữ liệu được sử dụng là bộ dữ liệu Cleveland nằm trong tập dữ liệu UCI Heart DiseaseDataset, gồm 303 mẫu và 14 thuộc tinh, trong đó các đữ liệu thiếu được xử lý bang cáchthay thế các giá trị trung bình trong cùng thuộc tính Dữ liệu sau khi được phân loại bằng
cả 3 mô hình sẽ được tổng hợp và đưa ra kết luận băng cách bỏ phiếu Kết quả cho thấy các thuật mô hình Naive Bayes, Decision Tree va SVM có độ chính xác lần lượt là 78,79%, 72,73% và 75,76% Độ chính xác của phép kết hợp 3 mô hình băng cách bỏ
phiếu là 81,82% Dé cải thiện độ chính xác của mô hình dự báo, năm 2019, S Bashir và
11191443 — Nguyễn Thị Hương Giang — Toán Kinh tế 61 || 17
Trang 27CHUYÊN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ Sử
các cộng sự tiếp tục tiễn hành nghiên cứu nhằm chân đoán bệnh tim mạch dựa vào Họcmáy Các mô hình được sử dụng trong nghiên cứu bao gồm: Decision Tree, Logistic
Regression, Random Forest, Naive Bayes và Logistic Regression kết hợp SVM Bộ dữ
liệu được sử dung thu được từ nguồn dir liệu mở UCI Heart Disease Database, gom 920quan sát và 14 thuộc tính Dữ liệu thô sẽ được xử lý bằng cách loại bỏ các dữ liệu thiếu
và nhiễu, sau đó các thuộc tính phân loại sẽ được lựa chọn dé làm đầu vào cho các mô
hình xây dựng Kết quả cho thấy độ chính xác của các mô hình xây dung dược dao động
từ 82,22% (Decision Tree) đến 84,85% (Logistic Regression kết hop SVM) Ưu điểmcủa nghiên cứu là đã cải thiện độ chính xác so với các mô hình đã đề xuất trong nghiêncứu năm 2014 Tuy nghiên, nghiên cứu vẫn tồn tại một số hạn chế đó là bộ đữ liệu sửdụng là bộ dữ liệu thu thập từ nguồn dữ liệu mở, gồm các bệnh nhân mắc đơn bệnh, tuy
nhiên trong thực tê các bệnh nhân có thê mắc nhiêu bệnh cùng lúc.
Nghiên cứu của G.T Reddy và các cộng sự (2019) đã phát trién một mô hình hỗn
hợp nhằm chân đoán bệnh nhân bị bệnh tim mạch Trong nghiên cứu này, tập đữ liệu
được lấy từ 3 tập dữ liệu có trong UCI heart disease dataset bao gồm: Cleveland,Hungarian và Switzerland Mô hình xây dựng dựa trên lý thuyết logic mờ, bao gồm 3
bước như sau:
- _ Bước 1: Giảm số chiều (thuộc tinh) từ bộ dữ liệu thô ban đầu
- Bước 2: Phân loại dữ liệu đã được xử lý nhờ thuật toán xây dựng dựa trên lý
thuyết logic mờ
- _ Bước 3: Tối ưu hóa thuật toán
Kết quả thu được cho thấy độ chính xác của mô hình là 89% cho bộ dữ liệu Switzeland,
91% cho bộ Hungarian và 90% cho bộ Cleveland.
Nghiên cứu của A Darmawahyuni và các cộng sự (2019) đã xây dựng mô hình
Deep Neural Network nhằm chân đoán bệnh tim mạch với bộ đữ liệu được lay từ tập dữliệu Cleveland thuộc tập dữ liệu UCI Heart Disease Dataset Nghiên cứu sử dụng đầu
11191443 — Nguyễn Thị Hương Giang — Toán Kinh tế 61 || 18
Trang 28CHUYÊN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ Sử
vào gồm 14 thuộc tính có trong bộ dữ liệu, xây dựng mô hình Black Box dựa trên cau
trúc cua Deep Neural Network Nghiên cứu xây dựng mô hình với số lượng hidden layer
từ 1 đến 5 va số lần học thay đổi từ 200 đến 500 Kết qua cho thấy với 4 hidden layer và
300 lần học, độ chính xác của mô hình xây dựng đạt được lớn nhất (93%).
Nghiên cứu của C Bermando cùng với các cộng sự (2021) đã sử dụng dữ liệu từ
tập dữ liệu Cleveland nằm trong bộ dữ liệu UCI Machine Learning Repository Database
dé xây dựng mô hình nhằm chân đoán bệnh tim mạch Nghiên cứu sử dụng các thuật
toán: Gaussian Naive Bayes, Bernoulli Naive Bayes Và Random Forest Kết quả thu
được cho thấy các mô hình xây dựng có độ chính xác lần lượt là 85%, 85% và 75%
Nghiên cứu của Chintan M Bhatt và các cộng sự (2023) đã sử dụng các phương pháp học máy: Random Forest (RF), Decision Tree (DT), Multi Layer Perceptron
(MLP), XGBoost (XGB) đề xây dựng mô hình dự báo bệnh tim mạch với mục dich giảm
ty lệ chân đoán sai đồng thời giảm tỷ lệ tử vong do bệnh tim gây ra Công cụ
“GridSearchCV” đã được sử dụng dé điều chỉnh các tham số của các mô hình nhằm tối
ưu hóa kết quả Bộ dữ liệu được sử dụng trong nghiên cứu được thu thập bởi Svetlana
Ulianova — kỹ sư khoa hoc dữ liệu người Canada, với 70000 quan sát và 12 thuộc tính
bao gồm: tuổi, giới tính, BMI, huyết áp tối đa, huyết áp tối thiểu, Độ chính xác của
các mô hình đạt được như sau: DT: 86,37% (với xác thực chéo) và 86,53% (không xác thực chéo), XGB: 86,87% (với xác thực chéo) và 87,02% (không xác thực chéo), RF: 87,05% (có xác thực chéo) và 86,92% (không xác thực chéo), MLP: 87,28% (có xác
thực chéo) và 86,94% (không xác thực chéo) Các mô hình đề xuất có giá trị AUC lầnlượt là: DT: 0,94, XGB: 0,95, RF: 0,95, MLP: 0,95 Kết luận rút ra là mô hình MLP vớixác thực chéo đã vượt trội hơn tất cả các loại khác thuật toán về độ chính xác Nó đạt độchính xác cao nhất là 87,28% Mặc dù đạt được những kết quả đầy hứa hẹn nhưng vẫncòn một số hạn chế cần lưu ý Đầu tiên, nghiên cứu dựa trên một bộ dữ liệu duy nhất và
có thé không khái quát được cho các nhóm bệnh nhân Hơn nữa, nghiên cứu chỉ xem xét
11191443 — Nguyễn Thị Hương Giang — Toán Kinh tế 61 || 19
Trang 29CHUYÊN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ Sử
một tập hợp giới hạn của các biến nhân khẩu học, lâm sảng và không tính đến rủi ro tiềm
ân khác như: các yếu tô gây bệnh tim, chang hạn như yếu tổ lỗi sống hoặc khuynh hướng
di truyền Ngoài ra, hiệu suất của mô hình trên tập dữ liệu thử nghiệm đã không đượcđánh giá, điều này không thé cung cấp cái nhìn sâu sắc về mức độ tổng quát của mô hìnhđối với dữ liệu mới
1.4 Khoảng trống nghiên cứu
Mặc dù đã có nhiều nghiên cứu với các phương pháp tiếp cận khác nhau đã được
dé xuất dé chân đoán bệnh tim dựa vào khai thác đữ liệu, nhưng hau hết các nghiên cứunày có độ chính xác trong dự báo chưa cao do tập hợp các thuộc tính (các biến giải thích)nhỏ, việc khai thác dữ liệu trong y tế còn nhiều hạn chế do hệ thống quản lí dữ liệu y tếchưa thực sự phat triển, việc thu thập dữ liệu cũng gặp nhiều khó khăn Vì vậy, chuyên
dé này sử dụng một số phương pháp học máy kết hợp với các kỹ thuật xử ly đữ liệu trước
khi đưa vào dự báo, giúp cải thiện độ chính xác trong việc dự báo khả năng mắc bệnh
tim.
11191443 — Nguyễn Thị Hương Giang — Toán Kinh tế 61 || 20
Trang 30CHUYÊN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ Sử
Chương 2: PHƯƠNG PHÁP NGHIÊN CỨU
Trong chương này, bài viết trình bày khái niệm Học máy, các kỹ thuật xử lý đữ
liệu, sau đó giới thiệu mô hình Logistic Regression, Random Forest, Naive Bayes va
Support Vector Machine (SVM) cũng như trình bày cách thức thực hiện, ưu nhược điểmcủa 4 mô hình Đồng thời trình bày các chỉ số đánh giá hiệu suất mô hình
2.1 Giới thiệu về học máy
Những năm gần đây, trí tuệ nhân tạo (Artificial Intelligence — AI) dần nồi lên như
một minh chứng cho cuộc cách mạng công nghiệp lần thứ tư (CMCN 4.0) AI đã và đã
trở thanh nhân tố cốt lõi trong các hệ thống công nghệ cao, len lỏi vào hầu hết các lĩnh
vực trong đời sông.
Hoc may là một lĩnh vực của khoa hoc máy tính, theo Arthur Samuel vào năm
1959, "máy tính có khả năng học hỏi mà không cần được lập trình một cach rõ rang."Phát triển từ nghiên cứu về nhận dạng mẫu và lý thuyết học tính toán trong trí tuệ nhântạo Học máy xây dựng các thuật toán có thể học hỏi và thực hiện các dự đoán về dữ liệu,các thuật toán như vậy vượt qua các hướng dẫn chương trình nghiêm ngặt bằng cách dự
đoán dữ liệu hoặc quyết định thông qua xây dựng một mô hình từ mẫu đầu vào Học máy được sử dụng trong một loạt các tác vụ điện toán khi thiết kế và lập trình các thuật toán
rõ ràng với hiệu năng tốt là khó hoặc không khả thi; Các ví dụ ứng dụng bao gồm lọc
email, phát hiện các kẻ xâm nhập mạng hoặc những người trong nội bộ đang làm việc
dé phá vỡ dit liệu, nhận dang ký tự quang học (OCR), học dé xếp hạng và tam nhìn máy
tính.
Học máy liên quan chặt ché đến thống kê tính toán, tập trung vào việc dự đoán
bang cách sử dụng máy tính Nó có quan hệ chặt chẽ với việc tối ưu hóa toán học, cung
cấp các phương pháp, lý thuyết và các lĩnh vực ứng dụng cho lĩnh vực này Học máy đôikhi được kết hợp với việc khai thác dữ liệu, trong đó lĩnh vực nhỏ thứ hai tập trung nhiều
11191443 — Nguyễn Thị Hương Giang - Toán Kinh tế 61 || 21
Trang 31CHUYÊN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ Sử
hơn vào phân tích di liệu thăm dò và được biết đến là học không giám sát Học máycũng có thé là giám sát và được sử dung dé tìm hiểu và thiết lập hồ sơ hành vi cơ bảncho các thực thể khác nhau và sau đó được sử dụng dé tìm các di thường có ý nghĩa
Trong lĩnh vực phân tích đữ liệu, học máy là một phương pháp được sử dung dé
đưa ra các mô hình phức tạp và các thuật toán cho phép dự đoán; Trong sử dụng thương
mại, điều này được gọi là phân tích tiên đoán Các mô hình phân tích này cho phép các
nhà nghiên cứu, các nhà khoa học dữ liệu, các kỹ sư và các nhà phân tích "đưa ra các
quyết định, kết quả đáng tin cậy, lặp lại" và khám phá những "cái nhìn sâu sắc ân giấu"
thông qua việc học hỏi từ các mối quan hệ và xu hướng lịch sử trong dữ liệu
và cộng sự, 2020) Ngoài ra, học tập có giám sát giải quyết các vấn đề phân loại nhưnhận dạng giọng nói, nhận dạng chữ số, chân đoán và phát hiện gian lận danh tính băngcách sử dụng thuật toán trong nhiều lĩnh vực, chăng hạn như SVM, Rừng ngẫu nhiên,KNN và các lĩnh vực khác được sử dụng trong nhiều lĩnh vực (Ahmed và Sadiq, 2018;Zeebaree và cộng sự, 2018) Trong học tập có giám sat, có hai cấp độ Giai đoạn đào tạo
và giai đoạn thử nghiệm Phải có nhãn được biết đến trong các bộ dữ liệu được sử dụngcho quá trình đào tạo Các thuật toán nghiên cứu mối quan hệ giữa các giá trị đầu vào vànhãn và cố gắng dự đoán các giá tri dữ liệu thử nghiệm (Kubat, 2017; Zantalis va cộng
sự, 2019).
11191443 — Nguyễn Thi Hương Giang - Toán Kinh tế 61 || 22
Trang 32CHUYÊN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ Sử
Học không giám sát (Unsupervied Learning): Loại này liên quan đến các chủ đề liên quan đến việc giảm chiều được sử dụng dé trực quan hóa dữ liệu lớn, xây dựng tính
năng hoặc khám phá cấu trúc bí mật Nó cũng được sử dụng cho các mối quan tâm cụ
thể như khung đề xuất, phân khúc khách hàng và tiếp thị mục tiêu (Sulaiman và cộng su,2019) So với học tập có giám sát, không có nhãn nào có sẵn trong phương pháp này
Trong loại này, các thuật toán nhằm mục đích nhận ra các mẫu trên dữ liệu thử nghiệm
và dự đoán các giá tri hoặc cum dir liệu trong tương lai (Kubat, 2017; Zantalis và cộng
sự, 2019).
Hoc tăng cường (Reinforcement Learning): Trong loại nay, dựa trên một tập hop
các thông số điều chỉnh, các thuật toán cố găng dự đoán đầu ra cho một vấn đề Sau đó,đầu ra trở thành một tham số đầu vào, và sau đó một đầu ra mới được tìm thấy một khi
đầu ra tối ưu được tìm thấy Học sâu and Mạng thần kinh nhân tạo (ANN) đã sử dụng
phong cách này (Al-jaboriy và cộng sự, 2019) các ứng dụng chủ yếu sử dụng học tăngcường như điều hướng robot, tiếp thu kỹ năng, quyết định thời gian thực và chơi game
AI (Kubat, 2017; Zantalis và cộng sự, 2019).
2.1.2 Một số phương pháp học máy có thé sir dung dé du bao kha nang mac bénh
tim
Y Random Forest
Rừng ngẫu nhiên (Random Forest — RF) là một thành viên trong họ thuật toán cây
quyết định (decision trees)
Theo Albayrak, A S., & Yilmaz, Ö G S K (2009), cây quyết định là cấu trúcquyết định thực hiện việc học từ các lớp dữ liệu đã biết bằng phương pháp quy nạp Câyquyết định là một thuật toán học tập phân tách một lượng lớn dữ liệu thành các nhóm
các đữ liệu nhỏ bằng các đưa ra các quyết định đơn giản Với kết quả của mỗi lần phân
tách thành công, các thuộc tính trong nhóm sẽ đưa ra kết quả giống nhau hơn Cây quyết
11191443 — Nguyễn Thi Hương Giang - Toán Kinh tế 61 || 23
Trang 33CHUYÊN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ Sử
định cùng các tính năng mô tả và dự đoán là một trong những thuật toán phân loại được
ưa thích nhất vì dé giải thích, dé tích hợp vào cơ sở dữ liệu và đáng tin cậy
Các thuật toán học tập dựa trên cây quyết định được coi là một trong nhữngphương pháp học có giám sát (supervised learning) tốt nhất và được sử dụng nhiều nhất.Phương pháp này cho ra các mô hình dự đoán với độ chính xác cao, 6n định và dé giảithích Không giống như các mô hình tuyến tính, chúng ánh xạ các mối quan hệ phi tuyếntính khá tốt Chúng có thể thích nghỉ trong việc giải quyết bất kỳ loại vấn đề nào (phânloại hoặc hồi quy)
Quá trình một cây quyết định sẽ được xử lý như sau: Nó chia tập hợp nguồn thànhcác tập hợp con khác nhau dựa trên một thuộc tính nào đó dé kiểm tra Quá trình nàyđược kiểm tra lặp đi lặp lại cho các tập con Quá trình tuần hoàn sẽ chấm dứt khi khôngthé thực hiện được quá trình phân tách nữa
vx Logistic Regression
Hồi quy Logistic (Logistic Regression): Day là phương pháp phân loại mối quan
hệ giữa nhiều biến độc lập với biến phụ thuộc Trước đây, nó thường được sử dụng tronglĩnh vực y tế Phương pháp này đã dần trở nên phô biến trong khoa học xã hội ngày nay.Trong thống kê, mô hình logistic (hoặc mô hình logit) được sử dụng dé mô hình xác suất
của một lớp hoặc sự kiện nào đó tồn tại như vượt qua/thất bại, thắng/thua, sống/ chết hoặc
khoe/ém, Ngày nay, việc sử dụng phương pháp hồi quy này đã được tiến hành rộngrãi trên các phần mềm thống kê Trong quá trình tiến hành hồi quy và phân tích, các nhà
nghiên cứu có thê bỏ đi các biến không cần thiết khi nhận thấy rằng các biến này không
có tác động đến biến phụ thuộc, tránh làm nhiễu và giảm đi độ chính xác cho mô hình
v_ Artificial Neural Networks (ANN)
Artificial Neural Networks (ANN): Đây là một chuỗi các thuật toán dé nhận racác mối quan hệ cơ bản trong một tập hợp dữ liệu thông qua một quá trình bắt chước
11191443 — Nguyễn Thị Hương Giang — Toán Kinh tế 61 || 24
Trang 34CHUYÊN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ Sử
cách thức hoạt động của bộ não con người ANN là một cách tiếp cận phổ biến dé giải quyết các vấn đề phức tạp, chăng hạn như van dé dự đoán sự rời bỏ ANN có thé dựa trên phần cứng (nơ-ron được biểu thị bang các thành phan vật lý) hoặc dựa trên phan
mềm (mô hình máy tính) và có thể sử dụng nhiều cấu trúc liên kết và các thuật toán học
máy.
¥ Support Vector Machine (SVM)
Support Vector Machine (SVM): Theo Guneren, H (2015), Máy vectơ hỗ trợ là
một trong những kỹ thuật phân loại có giám sat do Cortes và Rapnik (1995) đặt ra SVM
là thuật toán ML giúp dự đoán và khái quát hóa dữ liệu mới bằng cách thực hiện việchọc trên những dữ liệu chưa phân phối Nguyên tắc cơ bản của SVM dựa trên sự hiệndiện của một siêu phẳng (hyperplane) giúp phân biệt dữ liệu hai lớp một cách tốt nhất
Máy vectơ hỗ trợ được chia thành hai theo phân loại tuyến tính và phân loại phi tuyến
của tập đữ liệu.
Vv k-Nearest Neighbor (k-NN)
k-Nearest Neighbor (k-NN): Theo Ozkan, H (2013), thuật toán k-NN được hoàn
thiện boi Fix va Hodges vào năm 1951, dựa trên cach tiép can rang dt liệu gan nhau nhat
sé thudc vé cùng một lớp Mục đích chính của thuật toán nay là phân loại những dữ liệumới băng cách sử dụng những dữ liệu được phân loại trước đó Dữ liệu không xác địnhthuộc về lớp nào, được gọi là mẫu thử nghiệm (test samples), dữ liệu được phân loại
trước đó được gọi là mẫu học tập (learning samples) Trong thuật toán k-NN, khoảng cách của mẫu thử nghiệm từ các mẫu học tập sẽ được tính toán, và sau đó mẫu k-learning
gần nhất với mẫu thử nghiệm được chọn Nếu các mẫu k được chọn hầu hết thuộc về
một lớp nào đó; lớp của mẫu thử cũng được xác định là lớp này.
Trên đây là các thuật toán phô biến của học máy có thé sử dụng dé phân tích, dựbáo khả năng mac bệnh tim Đề thuật tiện cho bài nghiên cứu, em quyết định sử dụng
11191443 — Nguyễn Thị Hương Giang — Toán Kinh tế 61 || 25
Trang 35CHUYÊN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ Sử
thuật toán Logistic Regression, Random Forest, Naive Bayes va Support Vector
Machine (SVM).
2.2 Phương pháp Hồi quy Logistic (Logistic Regression)
2.2.1 Giới thiệu về mô hình
Hồi quy logit được đề xuất lần đầu vào những năm 1940 như là một bản sửa đôiphương pháp phân lớp của Fisher đưa ra vào năm 1936 (phương pháp phân tích tuyếntính rời rạc) Phương pháp hồi quy này được sử dụng rộng rãi trong nhiều lĩnh vực nghiêncứu, bao gồm các lĩnh vực y học và khoa học xã hội Ví dụ, hệ thống TRISS (Traumaand Injury Severity Score) được phát triển bang cách sử dụng hồi quy logit với mục đích
dự báo khả năng mắc bệnh dựa trên các đặc điểm thu thập được từ bệnh nhân (tuổi, giớitính, chỉ số cơ thể, xét nghiệm máu, ) Phương pháp này còn thường được sử dụng
trong việc dự báo xác suất không thành công của một tiễn trình, một hệ thống, một biến
đôi,
Hồi quy logit có thé là nhị thức hoặc đa thức Nhị thức hoặc hồi quy nhị phânquan tâm đến các tình huống mà kết quả của biến phụ thuộc chỉ có thể rơi vào một tronghai giá trị, ví dụ như mắc bệnh tim hoặc không mắc bệnh tim Hồi quy đa thức quan tâmđến các tình huống mà kết quả có thể rơi vào một trong ba hoặc nhiều hơn ba giá trị, ví
dụ như bệnh tim, bệnh hen suyén, bénh suy than.
Hài quy logit được sử dụng với mục tiêu dự đoán biến phân loại biến phụ thuộc
do đó kết quả phải là phân loại hay rời rac Một bài toán có kết quả liên tục, chang hạnnhư dự đoán điểm của học sinh không thích hợp để sử dụng hồi quy logistic, các lựachọn khác như hồi quy tuyến tính có thé sẽ phù hợp hon
Có ba loại hồi quy logistic chính: nhị phân, đa thức và thứ tự
Nhị phân: hay còn gọi là hồi quy Binary Logistic là mô hình khá phổ biến trong
nghiên cứu dùng đề ước lượng xác suât một sự kiện sẽ xảy ra Đặc trưng của hôi quy nhị
11191443 — Nguyễn Thị Hương Giang — Toán Kinh tế 61 || 26
Trang 36CHUYÊN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ Sử
phân là biến phụ thuộc chỉ có 2 giá trị: 0 và 1 Trên thực té, có rất nhiều hiện tượng tựnhiên, hiện tượng kinh tế, xã hội, mà chúng ta cần dự đoán khả năng xảy ra của nó:
chiến dich quảng cáo có được chấp nhận hay không, người vay có trả được nợ hay không,
công ty có phá sản hay không, khách hàng có mua hay không, Những biến nghiên cứu
có 2 biểu hiện như vậy được mã hóa thành 2 giá trị 0 va 1 - được gọi là biến nhị phân
Đa thức: Hồi quy logistic đa thức là một mô hình trong đó có 3 hoặc nhiều loạibiến phụ thuộc có thể được phân loại và không theo thứ tự Ví dụ dự đoán mộ người là
“kết hôn”, “ly hôn”, “ly thân” hay “độc thân”
Thứ bậc: Hồi quy logistic thứ bậc cũng là một mô hình trong đó có nhiều lớp màmột biến mục tiêu có thé được phân loại thành, tuy nhiên trong trường hợp này các lớp
được sắp xếp theo thứ bậc, các lớp không cần phải đối xứng và khoảng cách giữa các
lớp có thé khác nhau Vi dụ điển hình là mộ thang đo khảo sát thái độ dé chọn giữa “ratkhông đồng ý, không đồng ý, trung lập, đồng ý, rất đồng ý”
2.2.2 Thuật toán hồi quy Logistic nhị thức
Chuyên đề có dữ liệu biến phụ thuộc gồm 2 loại là 0 và 1, tức là không có khảnăng mắc bệnh tim và có khả năng mắc bệnh tim nên tập trung vào phân tích hồi quy
Logistic nhị thức.
Ý tưởng của thuật toán logistic regression áp dụng cho bài toán phân loại nhị phân
như sau: Với một điểm dit liệu được biểu diễn bằng tổ hợp vector X = {Xo, Xạ, , X„} có
thé phân loại thành một trong hai lớp là 0 và 1
Xác suất dé điểm dữ liệu x; rơi vào 1 trong 2 lớp là:
Trang 37CHUYÊN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ Sử
Trong đó: P(1|w, x;) là xác suất điểm đữ liệu rơi vào lớp 1 khi vector biéu diễn điểm ditliệu đưa vào là x; và w là tham số mô hình ƒ(wT; x¡) là hàm số chuyền đổi từ điểm dữliệu đầu vào x; thành đầu ra y¡ với bộ tham số w Ở mô hình logit, hàm số thường được
sử dung dé chuyền đổi là hàm sigmoid
Hàm hồi quy Logistic về bản chất là một thuật toán phân loại tuyến tính Xét một
hàm hồi quy tuyến tính sau:
Z = Bo + Bi4ì + P¿#: +++ nXn
Mô hình hồi quy logit xác định xác suất xảy ra sự kiện Y = 1 như sau:
e Fo +1x1†+¿xa+-''+nXn
PUY = TÌM, Xn) = Toi ame Pin
Nói cách khác, ham Logistic là hàm tinh xác suat được biéu diễn qua ham sigmoid
của Z:
1 1
PY = 1a, ,Xn) = Tint Po) Dp ee
Trong do:
X,X¿, , X„ là giá tri của các biên độc lập
Moi giá trị khi di qua ham sigmoid (hay còn gọi là ham số Logistic) sẽ nằm trongmiền giá trị số thực chạy từ 0 đến 1 Đồ thị hàm số có dạng:
11191443 — Nguyễn Thị Hương Giang — Toán Kinh tế 61 || 28
Trang 38CHUYÊN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ Sử
Hình 2.1 Minh hoa dé thị hàm số Logistic
" Du báo y= 1 nếu P(y =1)>0.5: Nói cách khác, giá trị đầu ra của hàm
Sigmoid lớn hon 0,5 thì kết quả phân loại là 1 hoặc “Có”
1
"Dự báo y=0 nếu P(y = 1) < 0.5: Nói cách khác, giá trị đầu ra của hàm
Sigmoid nhỏ hơn 0,5 thì kết quả phân loại là 0 hoặc “Không”
Mô hình hồi quy logit có thé được sử dụng dé ước lượng các ty lệ log(odds) chomỗi biến độc lập của mô hình:
(Y = l|a, ,Xạ)
ln—————
(Y = 0|xụ, ,X„) = Bo + By x1 + BoxX2 +++ PnXn
= Khái niệm odds có liên quan tới khái nệm risk — nguy co Theo xác suât, risk
hay nguy cơ là xác suât một biên cô xảy ra trong một thời gian nhât định Nói
cách khác, trong một mâu gôm n đôi tượng và nêu quan sat thay có x đôi tượng
11191443 — Nguyễn Thị Hương Giang — Toán Kinh tế 61 || 29
Trang 39CHUYÊN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ Sử
có một đặc diém nào đó (mac bệnh tim, hút thuôc lá, ) thì xác suât cho biên cô
" Do đó, odds là chi số thé hiện giữa xác suất sự kiện xảy ra (y = 1) va xác suất sự
kiện không xảy ra (y = 0) Từ định nghĩa trên, xác suất P dao động từ 0 đến 1,
nhưng giá trị của odds sẽ dao động từ [—œ; +œ] Mối liên hệ giữa P và odds được miêu tả qua biểu đồ dưới đây:
10
odds
0 2 4 6 8 1
Probability
Hình 2.2 Mỗi liên hệ giữa P va odds
“ Chúng ta thay rằng khi giá trị của P thấp thi odds rất gần với P, nhưng khi giá trị
của P cao thi odds cao hơn rat nhiêu và tiên dân vê dương vô cùng.
Diễn giải các tham số của mô hình Logistic:
Hàm hồi quy Logistic:
11191443 — Nguyễn Thị Hương Giang — Toán Kinh tế 61 || 30
Trang 40CHUYÊN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ Sử
Tỷ sô odds: odds =
Diễn giải hệ sô của Ø ứng với biên x:
= Khi biến x tăng 1 đơn vi thì giá trị log(odds) tăng B don vị
= Khi B > 0: x càng lớn, xác suất để y = 1 càng lớn
= Khi < 0: x càng lớn, xác suất dé y = 1 càng nhỏ
Gia trị ngưỡng:
Gọi t là một giá tri ngưỡng (0 < t < 1):
= Nếu P(y = 1) >t: kết quả dự báo y = 1
= Nếu P(y = 1) < t: kết qua dự báo y = 0
Thông thường giá trị được chọn thường là £ = 0.5:
= Nếu P(y = 1) > 0.5 = Khả năng y = 1 là lớn hơn, dự báo y = 1
= Nếu P(y = 1) < 0.5 > Khả năng y = 0 là lớn hơn, dự báo y = 0