1. Trang chủ
  2. » Luận Văn - Báo Cáo

Chuyên đề thực tập: Ứng dụng phương pháp Học máy vào dự báo khả năng mắc bệnh tim

94 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Trang 1

KHOA TOAN KINH TE

CHUYEN DE THUC TAP

CHUYEN NGANH: TOAN KINH TE

DE TAI: Ứng dụng phương pháp Hoc máy vào dự báo

khả năng mắc bệnh tim

Họ và tên sinh viên : | Nguyễn Thị Hương Giang

Mã sinh viên ;| 11191443

Lớp chuyên ngành : | Toán Kinh tế 61

Giảng viên hướng dẫn | : | ThS Nguyễn Thị Liên

HÀ NỘI - 4/2023

Trang 2

TRUONG ĐẠI HỌC KINH TE QUOC DANKHOA TOAN KINH TE

CHUYEN DE THUC TAP

CHUYEN NGANH: TOAN KINH TE

DE TAI: Ứng dụng phương pháp Hoc máy vào dự báo

khả năng mac bệnh tim

Họ và tên sinh viên : | Nguyễn Thị Hương Giang

Mã sinh viên ;| 11191443

Lớp chuyên ngành : | Toán Kinh tế 61

Giảng viên hướng dẫn | : | ThS Nguyễn Thị Liên

HÀ NỘI - 4/2023

Trang 3

CHUYEN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ &)

LOI CAM KET

Tôi xin cam đoan dé tài chuyên đề thực tap “Ứng dung phương pháp Hoc máyvào dự báo khả năng mắc bệnh tim” là công trình nghiên cứu của tôi sau một quá trìnhnghiên cứu, tìm hiểu và phân tích Các nội dung nghiên cứu, kết quả là trí tuệ của tôi dựatrên những cơ sở thực tế và các bài nghiên cứu đáng tin cậy trước đây.

Bài viet sử dụng nhận xét, sô liệu và kêt quả nghiên cứu khác đêu được tôi trích

dẫn và chú thích nguồn gốc.

Nếu phát hiện bat cứ gian lận nào, tôi xin hoàn toàn chịu mọi trách nhiệm.

Hà Nội, tháng 4 năm 2023

Sinh viên

Nguyễn Thị Hương Giang

11191443 - Nguyễn Thi Hương Giang — Toán Kinh tế 61 ||

Trang 4

CHUYEN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ &)

LOI CAM ON

Trước tiên với tinh cảm sâu sắc và chân thành nhất, cho phép em được bày tỏ lòngbiết ơn đến tất cả các cá nhân và tô chức đã tạo điều kiện hỗ trợ, giúp đỡ em trong suốtquá trình học tập và nghiên cứu đề tài này Trong suốt thời gian từ khi bắt đầu học tậptại trường Đại học Kinh tế Quốc dân đến nay, em đã nhận được rất nhiều sự quan tâm,

giúp đỡ của quý thầy cô và bạn bè.

Với lòng biết ơn sâu sắc nhất, em xin gửi đến quý thầy cô khoa Toán Kinh tế đãtruyền đạt vốn kiến thức quý báu cho chúng em trong suốt thời gian học tập tại trường.Nhờ có những sự hướng dẫn, dạy bảo của các thầy cô nên đề tài nghiên cứu của em mới

có thê hoàn thiện tốt đẹp.

Một lần nữa, em xin chân thành cảm ơn cô Nguyễn Thị Liên — người đã trực tiếpgiúp đỡ, quan tâm, hướng dẫn em hoàn thành tốt bài báo cáo này trong thời gian qua.

Chuyên đề thực tập với bước đầu đi vào thực tế của em còn hạn chế và còn nhiềubỡ ngỡ nên không tránh khỏi những thiếu sót, em rất mong nhận được những ý kiến đónggóp quý báu của quý thầy cô để kiến thức của em trong lĩnh vực này được hoàn thiện

hơn đông thời có điêu kiện bô sung, nâng cao ý thức của minh.Em xin chân thành cảm ơn!

11191443 - Nguyễn Thi Hương Giang — Toán Kinh tế 61 ||

Trang 5

CHUYEN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ &)

Mule tau nghién CUU 0t TT Ú 3

Đối tượng nghiên cứu và Phạm vi nghiên CU c.csccssssesssseessoseessssessssesssssessssesesssesssseeeessecssseeeess 4

Phuong phap nghién CUU DA 88Ẻ.e ễ 4

Kết cấu chuyên 46 cceecccccccssesssssesssseessssesssseessssessssesesssscessvsssssessssvessssessssesssssessssesssssessssecssseesesseeeess 4

Chương 1: CƠ SỞ LÝ LUẬN VA TONG QUAN NGHIÊN CỨU -2- ¿©2552 5

1.1 Một số khái niệm 2-©22©+E£2EEESEEE2EEE22112711271121112711 711211 E1 Eeerree 51.1.1 Cấu tạo hệ tim mạch -:- + St+E+EtSE+EEE2ESEE+ESEEEEEEEEESEEEESEEEESEEEEEEEEEEESEEEkrrrrksree 51.1.2 Định nghĩa về bệnh tim - 2-2 2 SE++E+2EE2EE2EESEEEEEEEEEEEEEEEEEEEEEEEEErErrrrrrrex 5

1.2 CO lì .: 91.2.1 Cae ii na 9

1.2.2 Các yếu tố nguy cơ của bệnh tim mạch .2-2¿©+2++2+++2zx+2zx++tzzvzzxezex 10

1.23 Thực trạng chan đoán bệnh tim mach - ¿5-52 SE+ESEE+ESEE2ESEEEEEEEEE2EEEEEtEErkree 131.3 Tổng quan nghiên cứu -+£+2+++2E+++EEEE+tEEEEEEEEEEEEEEE22112711222212 221 re 15

1.3.1 Trí tuệ nhân tạo và ứng dụng trong y hỌC - - 5 + s + *+vstEsrerererreesrrree 151.3.2 Các nghiên cứu liên QUa1 «1112112112119 1 vn HH nh nh nh nà nưệp 17

1.4 Khoảng trống nghiên cứu 2- 2=+E£+2EE+2EEEEEEEEEEEEEEEE271E2711711.71E 1x xe 20Chương 2: PHƯƠNG PHÁP NGHIÊN CỨU -.2- 2: ©22++2+++2E++2Ex++EE+zzxzrxeersrcee 21

2.1.1 Các loại học máy - 111 TH TH 1111 1 TH TH TH TH TH TH TH 2211191443 - Nguyễn Thi Hương Giang — Toán Kinh tế 61 ||

Trang 6

CHUYEN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ &)

2.1.2 Một số phương pháp học máy có thé sử dụng dé dự báo kha năng mắc bệnh tim 232.2 Phuong pháp Hồi quy Logistic (Logistic Regression), -¿c5z5csc2csscczs 26

2.2.1 Giới thiệu về mô hình -2222+v2+++ttEEEEEExrrrrEEEErrrrirrrrriiirrrie 26

2.2.2 Thuật toán hồi quy Logistic nhị thức + 2+2+++Ex+EEeEEe£EzEEEEEzExerkerxerxee 272.2.3 Ưu điểm và nhược điểm -:-25++22xv2E xtttEErtrtrtttrrttrtrrrrriirrrrirrerieg 32

2.3 Random Forest ố e 34

2.3.1 Giới thiệu về mô hình 2 +¿©2++2+++EEt2EEEEEEEEESEEEEEEEEECEEEEEEerkrrrrrrkee 34

2.3.2 Mô tả thuật toán Rừng ngẫu nhiên ¿5-55-5652 2E 2E2EEEEeEEeEkrrrrrrkee 38

2.3.3 Ưu điểm và Nhược điểm ccccccttttttrtrtrrrrrttrrirrrrirrrrirrrrre 38

2.4 An ¬a nắn 40

2.4.1 Giới thiệu về phương phap ceccecccccccsessessessessesssessessessessessessusssessessessessessecsseese 402.4.2 Ưu điểm và nhược điểm -cc 2cstc2ctvttttEttttrktrrrttrrrrrtrrrrrrrrrirrrrrre 42

2.5 Support Vector Machine (SM) Ăn HH TH HT HH TH HT Hiệp 44

2.5.1 Giới thiệu về thuật toán ¿- 2: + ©2++2E22EE22122112212112711211211211211 21c cre 442.5.2 Ưu điểm và Nhược điểm -2c+-+c2vvtthEkttttrrrtrHrrrrrerrre 46

2.6 Cac tiêu chí đánh giá hiệu suất mô hình -¿-2£++£££E+++2£E++tEEE+zrrkerrrrerrres 46Chương 3: KET QUA NGHIÊN CỨU VÀ THẢO LUẬN - 2-2 ++£x+Ezrxesrxerrs 51

3.1 Nguén dit QU ocecceeccceccsescssesssecsssessseesssesssesssesssecsseesasesssesssssessesssvesssesssecsssessseessseessesesseess 513.2 _ Phân tích thống kê mô ta eeccceccccccsesssessssessseesssessseesssesssesssseessessssesssesesecssseesseesssessseeeseeess 54

3.3 Phân tích Khám phá Dữ liệu (EDA - Exploratory Data Analysis) - -‹- 563.3.1 Một số đặc điểm nhân khâu hoc sseeessscssssseeeeeecesssssseeeeeessssnneeeeeeessssnmeeeeeeetee 563.3.2 Về các thói quen hằng ngày - 2© s©E22EE2EEEEE2E1211711271211112 21121 E1 crk 583.3.3 Tiền sử các bệnh khác ¿222tr t2 59

3.4 Kết quả ước LON eee eecceecceessescssessseesssesssecsssessseesssecssecsseesssecssessssecssecsssessssessseesseesseessseess 64

11191443 — Nguyén Thi Huong Giang — Toan Kinh té 61 ||

Trang 7

CHUYEN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ &)

3.4.1 Hồi quy Logistic c.ccecccccecsessessssssessecsessessessussssssessessessessussussssssessessessessessseeseeseeseeses 64

3.4.2 Mô hình Random FOT€SK - - ¿+ 2E 22 3221832218831 8 E18 E211 211 211 21 crree 66

SN 0.7 693.4.4 À“ 70

3.4.5 So sánh kết quả các mô hình - 2-25 +E+E££E££EE2EE£EE£EEEEEEEEEEEEEEEEEEerkrrkrrvee 71

Trang 8

CHUYEN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ &)

DANH MUC BANG BIEU

Bang 1.1 Phân độ suy tim theo chức năng của NYHA ce eeceeceesceeseeeceeeeeeeceeseeeeenseeeeeeeees 8Bang 2.1 Confusion Matrix 0 dd 47

Bang 3.1 Mô tả các biến định đanh được sử dụng trong dữ liệu - 5555 <++xs+cxserss 55Bang 3.2 Mô tả các biến định lượng được sử dụng trong dữ liệu - ++++++sx+ss2 55

Bang 3.3 Các thu viện được sử dụng đề xây dựng mô hình - -¿- 5 +5 «+s+sexsexsersxes 63Bảng 3.4 10 thuộc tinh quan trọng nhất của mô hình Logistic -¿ 2 sz2ss+sz+c+2 65Bảng 3.5 Bang tóm tắt kết qua dự báo của mô hình Logistic trên tập thử nghiệm 66

Bảng 3.6 Tóm tắt kết quả mô hình Rừng ngẫu nhiên trên tập đào tạo -s 67

Bảng 3.7 Tom tắt kết quả mô hình Rừng ngẫu nhiên trên tập thử nghiệm 69Bảng 3.8 Tóm tắt kết quả mô hình Naive Bayes trên tập thử nghiệm - - 70

Bang 3.9 Mô hình SVM trên tập đào tạO tk HH T TH TH HH HH TH nếp 70

Bang 3.10 Tóm tắt kết quả mô hình SVM trên tập thử nghiệm 2 2 2 s52 71

Bang 3.11 Bảng đánh giá các phương pháp dự báo - 5 + 55 + S+*+Estseekrsirerrerrrrke 71

Bảng A.1 Bảng mô tả chỉ tiết thông tin các biến trong tập dit liệu . -: 82

11191443 — Nguyén Thi Huong Giang — Toan Kinh té 61 ||

Trang 9

CHUYEN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ &)

DANH MUC HINH VE

Hình 2.1 Minh họa đồ thi hàm số Logistic c ceccscscssessesssessessessessecsecssessessessessecsessesuesseeseeses 29Hình 2.2 Mối liên hệ giữa P và OddS - 2-22 + ©+£©E2EE£EEEEEE2EEE211E71122171122121 21 crk 30Hình 2.3 Minh họa thuật toán cây quyết định +: ¿+ £+EE£+EE+£EE£EE£+EEtEEESEErrrxrrrerred 36

Hình 2.4 Mô tả thuật toán Rừng ngẫu nhiên - 2-55 2S SE£EE‡E2EEEEEEEEEEEEEEEEEEEErrrree 37

Hinh 2.5 M6 ta thuat toa SVM 0 45

Hình 3.1 Minh họa cơ cấu quan sát theo giới tính của nhóm bị bệnh tim và nhóm không bị bệnh

0 56

Hinh 3.2 Xép hạng độ tuổi theo số lượng của bệnh nhân mặc bệnh tim :+cs+cccs 57

Hinh 3.3 Minh hoa co cau quan sat theo tinh trang hut thuốc của nhóm bị bệnh tim và nhóm

Hình 3.6 Minh họa cơ cau quan sat theo tiền sử bệnh tiểu đường của nhóm bị bệnh tim và nhóm

khong bi bénh tim eee 5 , 61

Hinh 3.7 Minh hoa co cau quan sat theo tiền sử bệnh hen suyén của nhóm bị bệnh tim và nhóm

khOng bi Doth th 01107007 3334 62

Hình 3.8 Minh họa cơ cấu quan sát theo tiền sử bệnh thận mạn của nhóm bị bệnh tim và nhóm

khong bi bénh tim :ẻ:adadađadđa ÔỎ 63

Hình 3.9 Mức quan trong cua các biến dự báo rừng ngẫu nhiên trên tập đảo tạo 68

Hình B.1 Kiếm tra kết quả mô hình Logistic trên tập thử nghiệm - 2-5-5252 82Hình B.2 Kiếm tra kết quả mô hình Random Forest trên tập thử nghiệm - 83Hình B.3 Kiếm tra kết quả mô hình Naive Bayes trên tập thử nghiệm - 83Hình B.4 Kiếm tra kết quả mô hình SVM trên tập thử nghiệm 2 +¿©z£sz+c+2 84

11191443 - Nguyễn Thi Hương Giang — Toán Kinh tế 61 ||

Trang 10

CHUYÊN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ Sử

MỞ ĐẦU

Lý do chọn đề tài

Hệ tim mạch là hệ cơ quan quan trọng của cơ thể con người Trái tim thực hiệnnhiệm vụ bơm máu vào động mạch và nhận máu từ tĩnh mạch Hệ thống mạch đóng vaitrò là đường di của máu, giúp máu tuần hoàn trong toàn cơ thé Từ các chức năng trên,có thể thấy hệ thống tim mạch đảm nhận vai trò vận chuyên các chất theo đường tuầnhoàn đi khắp cơ thể nhằm duy trì sự sống, ngoài ra hệ tim mạch còn đảm nhận các chức

năng khác như bảo vệ và duy trì cân băng các yêu tô bên trong cơ thê.

Do đảm nhận chức năng quan trọng như vậy, các bệnh lý liên quan đến tim mạchảnh hưởng rất lớn đến đời sống sức khỏe của bệnh nhân và tạo ra gánh nặng rất lớn chotoàn xã hội Trong một nghiên cứu về gánh nặng bệnh tật toàn cầu và các yếu tố nguycơ tim mạch trong 30 năm qua, tử vong do tim mach vẫn chiếm tỷ lệ cao nhất, đứng đầu

các nguyên nhân gây tử vong va ngày càng bỏ xa các nguyên nhân gây tử vong khác Cứ

mỗi 2 giây sẽ có một người chết vì bệnh tim mạch, cứ mỗi 5 giây sẽ có một người bịnhồi máu cơ tim Đặc biệt, gánh nặng tử vong do bệnh tim mach gia tăng nhanh chóngở các nước dang phát triển hoặc các nước có thu nhập trung bình - thấp, tỷ lệ tử vonggiảm ở các nước phát triển nhưng tổng số không giảm do sự tích lũy tuổi và tổng số camắc bệnh Gánh nặng bệnh ly tim mach đang ngày càng gia tăng, dé lại những hậu quanặng nề cho mỗi cá nhân, gia đình và xã hội Nếu không cướp đi sinh mạng của ngườibệnh thì cũng làm giảm chất lượng cuộc sống, dé lại di chứng tàn phế, mat khả năng laođộng Ngoài ra, còn tạo áp lực về tài chính, chi phí điều trị tốn kém, lâu đài, sẽ ảnh hưởng

tiêu cực đên tinh thân của bệnh nhân và người thân.

Theo WHO, bệnh tim mạch thuộc nhóm bệnh không lây nhiễm nhưng lại là một

trong những nguyên nhân hang dau gây tử vong và tàn phế trên toàn Thế giới, với ty lệgia tăng ngày càng nhanh chóng, nhiều hơn cả bệnh lý ung thư, đù ở các nước đã hayđang phát triển Ước tính có 17,9 triệu người tử vong do bệnh tim mạch vào năm 2019,

11191443 — Nguyễn Thị Hương Giang - Toán Kinh tế 61 || 1

Trang 11

CHUYÊN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ Sử

chiếm 32% tổng số ca tử vong trên toàn cầu Trong đó, hơn 75% số ca tử vong do bệnh

tim mạch xảy ra ở các nước thu nhập trung bình hoặc thấp Một nghiên cứu tại Mỹ vào

năm 2016 của S Nelson và L Whitsel dự báo rằng đến năm 2035 sẽ có ít nhất 132 triệu

người Mỹ mắc ít nhất một bệnh tim mạch và chi phí mà xã hội phải chi trả dé điều trịbệnh tim mạch vào năm 2035 là 368 tỷ đô la Tại Việt Nam, theo thông kê của WHO, sỐ

người tử vong do bệnh tim mạch vào năm 2016 là 170 nghìn người, chiếm 31% số ca tửvong trong cùng năm đó Theo thống kê của Bộ Y tế, tại Việt Nam, mỗi năm có khoảng

200 nghìn người tử vong vì bệnh tim mạch, chiếm 33% và cũng là nguyên nhân gây tửvong hàng đầu, gấp 20 lần số tử vong đo ung thư và gấp 10 lần số tử vong vì tai nạn giao

thông Điều đáng nói là trong giai đoạn đầu bệnh tim mạch tiến triển âm thầm, thườngkhông có triệu chứng hoặc chỉ thoáng qua, làm bệnh nhân không đề ý, cho đến khi xuấthiện dấu hiệu rõ ràng thì đã vào giai đoạn nặng, dẫn tới kết quả điều trị không như mong

muốn, tốn kém mà hậu quả vẫn nặng nề, dé lại di chứng, ảnh hưởng đến chất lượng cuộc

song Với tinh chất như trên, việc chân đoán nhanh chóng và chính xác bệnh tim mạch

trở nên quan trọng nhằm sớm đưa ra hướng chữa trị và giảm tỷ lệ tử vong cho bệnh nhân.Hiện nay, thực trạng chân đoán bệnh tim mạch vẫn còn nhiều khó khăn như: bệnhnhân thường đến bệnh viện khi bệnh đã tiến triển vào giai đoạn nặng, đã xuất hiện cáctriệu chứng nặng; việc phân tích các dấu hiệu nhằm chân đoán bệnh phải được tiến hànhbởi các chuyên gia có kiến thức và kinh nghiệm, việc chân đoán tốn thời gian, đồng thời

số lượng bệnh nhân lớn vượt quá khả năng xử lý của đội ngũ y tế và điều kiện cơ sở vậtchat của nhưng cơ sở y tế địa phương còn gây khó khăn trong việc chan đoán và sanglọc bệnh nhân bị bệnh tim mạch Những khó khăn này có thé khiến việc chan đoán trởnên khó khăn và chậm trễ, điều này làm ảnh hưởng đến việc đưa ra hướng điều trị kịp

thời cho bệnh nhân Vì vậy, việc đưa ra một phương pháp chân đoán một cách chính xácvà nhanh chóng cho những người bị bệnh tim mạch là điều cần thiết Việc ứng dụng trítuệ nhân tạo dé phục vụ chan đoán bệnh tim mạch được xem là giải pháp cho vấn đềtrên, trên cơ sở kết hợp khả năng phân tích nhanh chóng từ máy tính và kiến thức y học

11191443 — Nguyễn Thị Hương Giang - Toán Kinh tế 61 || 2

Trang 12

CHUYÊN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ Sử

cùng với tư duy con người để phát triển một mô hình dự đoán bệnh tim mạch chính xác,

nhanh chóng dựa vào những dữ liệu thu thập được.

Trong những năm gần đây, với sự phát triển nhanh chóng của công nghệ, việc ápdụng trí tuệ nhân tạo nhằm phục vụ các lĩnh vực trong đời sống nói riêng va y học nóichung đang ngày càng được chú ý và đây mạnh nghiên cứu nhờ vào những ưu điểm củalĩnh vực này Việc ứng dụng trí tuệ nhân tạo vào chan đoán bệnh lý tim mạch có thé chochúng ta một phương pháp chân đoán nhanh và chính xác, góp phần hỗ trợ nhân viên y

tế trong việc đưa ra quyết định điều trị và chăm sóc sức khỏe cho bệnh nhân, đồng thời

hạn chế các sai sót trong chân đoán Một ưu điểm khác của việc ứng dụng trí tuệ nhântạo phục vụ chan đoán là máy tính có thé tiép can va xu ly duoc nguén thông tin y khoakhông 16 mà con người không thé xử lý hết được, điều này cho phép đưa ra được chanđoán chính xác và cập nhật nhất dựa trên nguồn dữ liệu y khoa mà máy tính được tiếpcận và xử lý Nhờ những ưu điểm trên, ứng dụng trí tuệ nhân tạo trong chan đoán bệnh

tim mạch là một hướng tiếp cận rất có tiềm năng Các nghiên cứu về chủ đề này sẽ mang

lại giá trị rất lớn trong việc phục vụ chân đoán các bệnh ly tim mạch Tuy nhiên, một vấndé lớn được đặt ra là làm thé nao dé xác định được dự đoán ma máy tính đưa ra là chínhxác hay chưa và có thê tin tưởng dé áp dụng vào lĩnh vực y khoa hay không Đó là lý doem quyết định lựa chọn nghiên cứu đề tài “Ứng dụng phương pháp Học máy vào dự

báo kha năng mac bệnh tim”.Mục tiêu nghiên cứu

Chuyên đề dự báo khả năng mắc bệnh tim dựa trên dữ liệu khảo sát tình trạng sứckhỏe, tìm hiểu các yếu tố quan trong trong việc dự báo khả năng mắc bệnh bằng cách sửdụng một số phương pháp Học máy Từ đó so sánh, tổng hợp tìm ra mô hình phù hợpnhất cho việc dự báo khả năng mắc bệnh tim, góp phan giảm thiểu gánh nặng bệnh ly

tim mach Vi thê các câu hỏi nghiên cứu chính của chuyên dé nay là:

Câu hỏi nghiên cứu 1: Những nhóm người nào có khả năng mắc bệnh tim cao?

11191443 — Nguyễn Thị Hương Giang - Toán Kinh tế 61 || 3

Trang 13

CHUYÊN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ Sử

Câu hỏi nghiên cứu 2: Những dau hiệu nào giúp phân loại tot về bệnh tim?Câu hỏi nghiên cứu 3: Mô hình nào đưa ra kết quả dự báo tốt nhất?

Đối tượng nghiên cứu và Phạm vi nghiên cứu

Đối tượng nghiên cứu: Chuyên đề sử dụng dữ liệu khảo sát hàng năm về bệnh timnăm 2020 của Trung tâm Kiểm soát và Phòng ngừa Dịch bệnh Hoa Kỳ (CDC) để tìm ra

các chỉ sô chính vê bệnh tim và đưa ra các dự báo.

Phạm vi nghiên cứu: Dự bao kha năng mắc bệnh tim dựa trên dữ liệu khảo sát.Phương pháp nghiên cứu

Phân tích định tính: Nghiên cứu tổng quan các lý thuyết, nghiên cứu trước đó,thống kê mô ta dữ liệu.

Phân tích định lượng: Sử dụng kỹ thuật Random Undersampling dé cân bang dit

liệu, kết hợp các phương pháp hồi quy Kinh tế lượng (Logistic) và Machine Learningtrong phân tích với số liệu thu thập được dé tiến hành dự báo về khả năng mắc bệnh tim.

CHƯƠNG 3: KET QUÁ NGHIÊN CUU VÀ THẢO LUẬN

11191443 — Nguyễn Thi Hương Giang - Toán Kinh tế 61 || 4

Trang 14

CHUYÊN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ Sử

Chương 1: CƠ SỞ LÝ LUẬN VÀ TỎNG QUAN NGHIÊN CỨU

Chương này trình bày khái niệm cơ bản về bệnh tim và những điều liên quan, tómtắt các nghiên cứu trong và ngoài nước trước đó về đề tài này, chỉ ra những khoảng trốngnghiên cứu, đưa ra cơ sở lý luận về những yếu tố có khả năng tác động đến nguy co mắcbệnh tim, từ đó đề xuất các kỹ thuật dự báo phù hợp.

1.1 Một số khái niệm

1.1.1 Cau tạo hệ tim mạch

Hệ thống tim mạch gồm có tim và hệ mạch máu Đảm nhiệm 3 chức năng chính

bao gồm: vận chuyên oxi, chất dinh dưỡng, hormone và các enzyme di nuôi cơ thể, vậnchuyền chat thải đến các co quan dé đào thải ra ngoài cơ thé; chức năng bảo vệ: các tế

bào miễn dịch và các kháng thể được máu vận chuyển đi khắp cơ thể có nhiệm vụ bảo

vệ cơ thê đôi với các yêu tô từ bên ngoài; điêu chỉnh nhiệt độ, pH cơ thê.

Trái tim là một khối cơ năm ở giữa 2 lá phổi và trung thất trước với mom tim năm

lệch về phía bên trái Có chức năng hút máu từ tĩnh mạch phổi và tĩnh mach chủ, bơm

máu và dộng mạch phối và động mạch chủ Trái tim có 4 buông, 2 tâm nhĩ ở trên và 2

tâm thất ở dưới Buéng nhĩ có thành mong, làm nhiệm vu chứa máu được hut về từ tĩnhmạch phổi va tinh mach chủ, 2 tâm nhĩ được ngăn cách nhau bởi vách ngăn liên nhĩ.Buông thất có thành dày hơn, có nhiệm vụ cung cấp lực đây để bơm máu từ tim vàomạch máu, 2 tâm thất được ngăn cách với nhau bởi vách liên thất Hệ thống van tim baogồm các van ngăn cách giữa nhĩ - thất và giữa thất - động mạch Các van tim có nhiệmvụ điều hướng cho dòng máu chảy trong tim, cho máu chảy một chiều và ngăn máu chảytheo chiều ngược lại.

1.1.2 Định nghĩa về bệnh tim

11191443 — Nguyễn Thi Hương Giang - Toán Kinh tế 61 || 5

Trang 15

CHUYÊN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ Sử

Theo Tổ chức Y tế Thế giới WHO, thuật ngữ “bệnh tim mạch” có thể được sửdụng dé mô ta bat kỳ rối loan của hệ thống tim mach (trái tim và các mạch máu) do bamsinh hoặc mắc phải, có ảnh hưởng đến hoạt động bình thường của tim.

Các loại bệnh tim chủ yếu

> Bệnh mạch vành

Bệnh mạch vành, hay còn gọi là bệnh tim thiếu máu cục bộ là thuật ngữ dùng déchỉ tình trạng thiếu máu của cơ tim Biéu hiện của bệnh tim thiếu máu cục bộ là các cơnđau thắt ngực (ôn định hoặc không ồn định), nhồi máu cơ tim hoặc ngưng tim đột ngộtdo thiếu máu Tình trạng này gây ra do sự hẹp hoặc tắc lòng động mạch vành, ảnh hưởngđến sự cung cấp máu cho cơ tim Nguyên nhân chính dẫn đến tình trạng hẹp mạch vànhlà do tình trạng xơ vữa động mạch Ngoài ra, sự hẹp tắc lòng mạch có thê gây ra bởi các

yếu tố khác như: bệnh cơ tim phì đại, các khiếm khuyết bam sinh, chan thuong,

> Bệnh tim bẩm sinh

Bệnh tim bam sinh là những di tật của cơ tim, van tim, buồng tim xảy ra ngay từ

lúc còn trong bảo thai và tồn tại sau sinh Lúc này, một vài cấu trúc tim sẽ bị khiếm

khuyết dẫn đến các hoạt động và chức năng của tim bị ảnh hưởng Bệnh lý tim machbam sinh là di tật phố biến nhất, và là nguyên nhân hàng đầu gây tử vong trong số nhữngtrường hợp di tật bam sinh ở trẻ nhỏ.

> Bệnh van tim

Bệnh van tim là tình trạng có thể xuất hiện ngay từ khi mới sinh (bẩm sinh) hoặcxảy ra ở người trưởng thành do nhiều nguyên nhân khác nhau, chăng hạn như tình trạngnhiễm trùng và các bệnh tim mạch khác Các van tim (gồm van 2 lá, van 3 lá, van động

mạch phôi và van động mạch chủ) nằm ở lối ra của 4 buồng tim, có nhiệm vụ duy trì

dòng máu một chiều qua tim Bốn van tim đảm bảo rằng máu luôn chảy tự đo theo hướng

11191443 — Nguyễn Thi Hương Giang - Toán Kinh tế 61 || 6

Trang 16

CHUYÊN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ Sử

thuận và không rò rỉ theo chiều ngược lại Mỗi van tim có các cánh (lá van) mở và đóngmột lần trong mỗi nhịp tim Nếu một hoặc nhiều van không mở/đóng đúng cách, dòng

máu qua tim đến cơ thể sẽ bị gián đoạn, gây ra bệnh lý van tim.

> Bệnh mach máu ngoại vi

Bệnh mach máu ngoại vi (PVD) là một rỗi loạn tuần hoàn máu khiến các machmáu bên ngoài tim bị thu hẹp, tắc nghẽn hoặc co thắt Mach máu ton thương có thé xảyra ở động mạch hoặc tĩnh mạch của người bệnh PVD thường gây ra triệu chứng thiếumáu hoặc tắc nghẽn ở đầu chi dẫn đến triệu chứng đau và mệt mỏi, thường ở chân, vàđặc biệt là khi tập thé dục Cơn đau thường cai thiện khi nghỉ ngơi Các biến chứng dobệnh mạch máu ngoại vi khi không được chan đoán và điều trị có thé nghiêm trọng và

thậm chí đe dọa tính mạng Lưu lượng máu hạn chế của động mạch ngoại biên có thé là

dấu hiệu cảnh báo các dạng bệnh mạch máu khác Khi chúng bị tắc nghẽn, nó có thể dẫnđến hoại tử chi, đau tim, đột quy hoặc tử vong.

> Bệnh thấp tim

Thấp tim là bệnh lý viêm tự miễn, xuất hiện sau khi bị nhiễm khuẩn đường họngmiệng đo liên cầu khuẩn beta tan huyết nhóm A Trong vòng 2 - 3 tuần sau khi nhiễmliên cầu vùng hầu họng, nếu không được điều trị đầy đủ và đúng cách, bệnh có thể tiếntriển thành thấp tim Bệnh thấp tim phổ biến ở trẻ 5 - 15 tudi, ty lệ mắc bệnh ở nam nữlà ngang nhau Bệnh có thé gây ra những biến chứng nặng nè ở tim, khớp, não và da Ởtim, thấp tim có thé dé lại những hậu quả kéo dài như viêm tim, dày dính van tim, lâungày dẫn tới tốn thương van tim, rối loạn nhịp tim, suy tim, đột quy hay thậm chí tử

> Rối loạn nhịp tim

Rối loạn nhịp tim là tình trang bất thường về mặt điện học của tim, có thé là bat

thường về việc tạo nhịp hoặc bất thường về mặt dẫn truyền điện học trong buông tim và

11191443 — Nguyễn Thị Hương Giang - Toán Kinh tế 61 || 7

Trang 17

CHUYÊN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ Sử

biểu hiện trên lâm sang là: Nhịp quá nhanh (tan số > 100 lần/ phút) hoặc quá chậm (tan

số < 60 lần/phút), không đều hoặc lúc nhanh lúc chậm, Rối loạn nhịp tim có thể khôngcó triệu chứng hoặc chỉ gây ra các triệu chứng như: Cảm giác hồi hộp, đánh trống ngực,

cảm giác tim đập nhanh hoặc không đều, Tuy nhiên, nhiều trường hợp rối loạn nhịptim có thé de doa tinh mạng của người bệnh và khiến người bệnh phải nhập viện trongtình trạng cấp cứu.

> Suy tim

Suy tim là trạng thái bệnh lý đồng thời cũng là biến chứng cuối cùng của các bệnhtim mạch Suy tim là tình trạng tim bị suy yếu do các tốn thương thực thé hay các rốiloạn chức năng tim khiến cho tâm thất không có đủ khả năng tiếp nhận máu hoặc tốngmáu Đây được biết đến là một hội chứng lâm sàng phức tạp Hệ thống tim mạch của

bệnh nhân không thé cung cấp đủ máu cho các tế bào khiến người bệnh mệt mỏi và khóthở, một số người bị ho Các hoạt động hàng ngày như đi bộ, leo cầu thang hoặc mang

vác d6 có thé trở nên khó khăn hơn Khi bệnh nhân gắng sức, có thé xuất hiện tình trạng

ứ dich dẫn đến sung huyết phổi và phù ngoại vi.

Phân độ suy tim theo chức năng của Hội Tìm mạch New York (NYHA) được sửdụng dựa vào triệu chứng cơ năng và khả năng găng sức:

Không hạn chế - Vận động thé lực thông thường không gây mệt, khó thở hay hồi hộp.

Hạn chế nhẹ vận động thé lực Bệnh nhân khỏe khi nghỉ ngơi; vận động thê lực thông

thường dẫn đến mệt, hồi hộp, khó thở hay đau ngực.

Hạn chế chiều vận động thê lực Mặc dù bệnh nhân khỏe khi nghỉ ngơi nhưng chỉ cần

vận động nhẹ đã có triệu chứng cơ năng.

Không vận động thé lực nào không gây khó chịu triệu chứng cơ năng của suy tim xảyra ngay khi nghỉ ngơi, chỉ một vận động thể lực nhẹ cũng làm triệu chứng cơ năng gia

Bang 1.1 Phan độ suy tim theo chức nang của NYHA

11191443 — Nguyễn Thi Huong Giang — Toán Kinh tế 61 || 8

Trang 18

CHUYÊN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ Sử

1⁄2 Cơ sở lý luận

Trong phân nay, bài việt sẽ dé cập đên các yêu tô ảnh hưởng đên việc dự báo nguy cơ

mac bệnh tim.

1.2.1 Các triệu chứng

Bệnh tim thường diễn tiến âm thầm, các trường hợp bệnh nhẹ thường không có

triệu chứng hoặc những triệu chứng không biểu hiện rõ ràng Khi các bất thường bắt đầu

ảnh hưởng đến hoạt động của tim hay các co quan khác thì các triệu chứng mới dan trởnên rõ rệt hơn Tùy vào bệnh lý người bệnh mắc phải và mức độ bệnh mà các triệu chứng

cũng biểu hiện đa dạng, thường gặp nhất là:

Khó thở

Các van đề tim mạch như hẹp van động mạch phổi, suy tim, có thể khiến cho lượngmáu giàu oxy giảm Người bệnh thường xuyên cảm thấy khó thở như có vật gì đè lênngực Triệu chứng này càng rõ rệt hơn khi bệnh nhân hoạt động gắng sức hoặc nămxuống Đặc biệt có thê nghiêm trọng hơn vào ban đêm, khi bệnh nhân đang ngủ Vì khiđó tim có thé đột ngột bị giảm khả năng co bóp, quá trình bơm máu từ tim đến phổi bigián đoạn gây khó thở Nhiều trường hợp bệnh nhân gặp tình trạng này ngay cả khikhông gắng sức Thậm chí gặp khó khăn trong việc kiểm soát hơi thở ngay khi chỉ mới

hít thở sâu.

Tức ngực

Đây là triệu chứng bệnh tim mạch thường gặp nhất, đặc biệt là ở các bệnh nhân mắcbệnh mạch vành Các chuyên gia tim mạch cho biết, khoảng 90% cơn đau ngực là dobệnh mạch vành Bởi khi đó tế bào cơ tim không được nhận đủ oxy vì lượng máu tới timbị giảm Người bệnh có thể cảm giác bị đè nặng ở ngực, đau nhói ngực hay đau thắt ngực

ở phan dưới xương ức Cảm giác đau thường theo cơn, mỗi lần kéo dai từ vài đến vài

11191443 — Nguyễn Thi Hương Giang - Toán Kinh tế 61 || 9

Trang 19

CHUYÊN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ Sử

chục phút Có khi cảm giác đau giảm dần khi nghỉ hơi hoặc dùng thuốc Nhưng cũng có

những trường hợp cơn đau kéo dài liên tục trên 20 phút, dùng thuốc hay nghỉ ngơi cũngkhông đỡ Đây có thé là triệu chứng cảnh báo một cơn nhồi máu cơ tim đang tới, ngườibệnh cần đi cấp cứu ngay đề được xử trí kịp thời.

Hiện tượng phù

Hiện tượng suy tim xuất hiện cùng lúc với hiện tượng phù, cơ thể có dấu hiệu tích nước.

Nếu thấy khi ngủ dậy mặt bị căng phù, mí mắt nặng, hoặc điển hình phù ban chân vào

thời điểm nhất định trong ngày cảm thấy đi dép chật , tất cả đều cho thay những triệuchứng của suy tim Khi lượng mau ra khỏi tim chậm, mau trở về tim qua tĩnh mạch bị ứlại, khiến dịch tích tụ tại các mô Thận không thể đào thải muối và nước cũng gây giữ

nước trong các mô làm bệnh nhân bị phù.

1.2.2 Các yếu tố nguy cơ của bệnh tim mạch

Các yếu tố nguy cơ của bệnh tim mạch rất đa dạng và phức tạp, các yếu té này

bao gôm:

Yêu tô di truyền

Việc kết luận yếu tố di truyền dẫn đến các căn bệnh về tim mạch là hoàn toàn có

cơ sở Sự bất thường về cấu trúc và số lượng nhiễm sắc thé khiến thế hệ đầu bị bệnh timmạch Từ đó sẽ di truyền cho thế hệ con cháu về sau Do đó, người bình thường có ôngbà, bố mẹ bị mắc bệnh tim hoặc các chứng bệnh có liên quan tới tim mạch (nam trước

55 tudi và nữ trước 65 tuôi) sẽ có khả năng bị các bệnh về tim mạch cao hơn người khác

đến 60% Các rối loạn về di truyền bao gồm các bất thường về cấu trúc và số lượngnhiễm sắc thé đều có thé gây ra các dị dạng ở hệ thống tim mạch Một số đột biến ditruyền thậm chí có thê biển hiện bệnh ngay từ khi còn trong giai đoạn bào thai Điều nàycũng là một lý do khiến một số người mắc bệnh tim mạch sớm hon so với độ tuổi nguycơ thông thường (từ 55 tuổi trở lên).

11191443 — Nguyễn Thị Hương Giang — Toán Kinh tế 61 || 10

Trang 20

CHUYÊN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ Sử

Các yêu tô có thê kiêm soát

> Béo phì và thừa cân

Việc thừa cân sẽ góp phần gia tăng tổng mức cholesterol trong máu, đồng thờimang đến nguy cơ huyết áp cao và bệnh mạch vành Nếu ở cấp độ béo phì, lượngcholesterol sẽ tăng vọt, huyết áp đặc biệt cao và kéo theo bệnh tiểu đường Trong nhiềutrường hợp, chứng béo phì chịu trách nhiệm cho hầu hết các bệnh tật liên đới, trong đóda phan là bệnh tim mạch Có thé nói béo phì là một yếu tố nguy cơ mang đến nhiều yếutố nguy cơ khác có thê gây ra bệnh tim mạch.

> Hút thuốc lá

Hau hết mọi người đều biết rằng việc hút thuốc lá làm tăng nguy cơ ung thư phôi,

nhưng it ai nhận ra nó cũng làm tăng đáng kể nguy co mắc bệnh tim mạch Nghiên cứu

cho thấy hút thuốc làm tăng nhip tim, thắt chặt các động mạch lớn và làm cho nhịp timbất thường, có thể dẫn đến loạn nhịp tim khiến hoạt động của tim kém hiệu quả và trởnên khó khăn hơn Việc hút thuốc cũng làm tăng huyết áp và tăng nguy cơ đột quy ởnhững người đã có sẵn chứng huyết áp cao Ngoài nicotine, các hóa chất khác có trong

khói thuốc như carbon monoxide cũng có hại cho tim Những chất này dẫn đến tích tụ

mang bám trong động mạch, ảnh hưởng đến cholesterol và mức fibrinogen — một yếu tốlàm đông máu, điều này khiến cho nguy cơ đông máu tăng và có thê dẫn đến đau tim.

11191443 — Nguyễn Thị Hương Giang - Toán Kinh tế 61 || 11

Trang 21

CHUYÊN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ Sử

không tập thé dục Ngay cả việc tập thé duc với cường độ trung bình nhưng đều đặn vàthường xuyên cũng rất hữu ích.

> Cao huyết áp

Chứng cao huyết áp sẽ dẫn đến nguy cơ đau tim và đột quy Nếu kết hợp thêm cảbéo phì, nghiện thuốc lá và cholesterol cao thì nguy cơ bệnh tim hay đột quy sẽ tăng lênđáng kể Huyết áp có thể thay đổi tùy theo điều kiện vận động và tuổi tác, nhưng về cơbản, chỉ số huyết áp ở người lớn khi đang nghỉ ngơi nên ở mức 120/80.

> Cholesterol trong mau cao

Nhiều nghiên cứu khoa học đã chi ra mối liên hệ chặt chẽ giữa nguy co mắc bệnh

tim mach và nồng độ cholesterol trong máu Bác sĩ có thé yêu cầu thực xét nghiệm sinh

hóa cholesterol trong máu dé kiểm tra nồng độ LDL (cholesterol xấu), HDL (cholesteroltốt), và triglyceride trong máu đề đánh giá nguy cơ phát triển bệnh tim mạch của mộtngười Cholesterol tốt có vai trò trong việc làm cho thành động mạch mềm mai đề lưuthông máu tốt hơn và có khả năng bảo vệ thành mạch máu chống lại sự xơ vữa Trongkhi đó, cholesterol xấu (loại có ti trọng thấp) lại làm xơ vữa thành động mạch, từ đó sẽhạn chế lưu thông máu, thậm chí tạo điều kiện cho việc hình thành cục máu đông, gây

tắc mạch rất nguy hiểm.> Bệnh tiêu đường

Ước tính có đến 65% số người tiểu đường tử vong do các bệnh tim mạch Tiểuđường làm tăng nguy cơ bệnh tim và đột quy Một phần của nguyên nhân này là do bệnhtiêu đường làm anh hưởng đến cholesterol và triglyceride, ngoài ra người bị tiểu đườngcũng có thể bị huyết áp cao và béo phì kèm theo, do vậy nguy cơ cũng cao hơn.

Các yếu tố không thể kiểm soát

> Giới tính

11191443 — Nguyễn Thị Hương Giang - Toán Kinh tế 61 || 12

Trang 22

CHUYÊN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ Sử

Nhìn chung, nam giới có nguy cơ bị bệnh tim cao hơn nữ giới Các nghiên cứu

gần đây cho thấy, một phần sự khác biệt này là do nam giới hút thuốc lá nhiều hơn so

với nữ giới Tuy nhiên ở phụ nữ ở thời kỳ mãn kinh, nguy cơ sẽ tăng cao hơn va sau tuổi

65, nguy cơ mặc bệnh tim mạch ở nam giới và nữ giới là như nhau.

> Tudi tác

Tuổi già là một trong những yếu tố nguy co của bệnh tim mạch Càng lớn tudi,

hoạt động của tim càng kém hiệu qua Thành tim dày lên, các động mach xơ cứng lại

khiến cho quá trình bơm máu cũng trở nên khó khăn Hơn nữa, người cao tuôi lại mắcnhiều bệnh mãn tính, dẫn đến nguy co mắc bệnh tim mach gia tăng theo tudi.

1.2.3 Thực trang chan đoán bệnh tim mạch

Hiện nay, việc chân đoán bệnh tim dựa vào các triệu chứng lâm sang và xét

nghiệm cận lâm sàng như sau:

= Đau thắt ngực: triệu chứng lâm sảng điển hình của bệnh tim là biểu hiện đau thắtngực, triệu chứng này có thê xảy ra lúc vận động mạnh hoặc ngay cả lúc nghỉ

ngơi tùy theo mức độ nặng của bệnh Tuy nhiên, ở một số bệnh nhân có thể không

biểu hiện triệu chứng nay.

= Một số triệu chứng khác đi kèm với đau thắt ngực có thé là hụt hơi, khó thở, buồnnôn, đồ mồ hôi.

" Do huyết áp, nhịp tim: xác định sự bat thường trong nhịp tim và huyết áp giúpđánh giá các yếu tố nguy cơ có thê dẫn đến bệnh tim, đồng thời bước đầu xác địnhvị trí ton thương của tim.

Bên cạnh đó, việc chân đoán xác định bệnh tim cân phải dựa rât nhiêu vào kêtquả cận lâm sàng Các xét nghiệm cận lâm sang cung cap thông tin nham chân đoán xác

định bệnh tim mạch bao gồm:

11191443 — Nguyễn Thi Hương Giang - Toán Kinh tế 61 || 13

Trang 23

CHUYÊN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ Sử

= Điện tâm dé: đo điện tâm đồ lúc nghỉ ngơi và khi vận động được khuyến cáo cho

tất cả các trường hợp nghi ngờ mắc bệnh tim Điện tâm đồ cung cấp thông tin về

sự phi đại cơ tim, đây là một bằng chứng góp phan chan đoán cho bệnh nhân nghỉ

ngờ mắc bệnh Ngoài ra, sự thay đổi đoạn ST-T và sóng T trên bản ghi điện tâmđồ phản ảnh sự thay đôi điện tim liên quan đến bệnh ly tim mach.

7 Nồng độ cholesterol máu: nồng độ cholesterol trong máu phản ánh nguy cơ xơ

vữa động mạch và hình thành các mảng bám làm hẹp lòng mạch Thông thường,

ở bệnh nhân mắc bệnh tim có nồng độ cholesterol trong máu cao (>120mg/dl).

* Các kỹ thuật cận lâm sàng nhằm quan sát tim và hệ thống mạch vành: các kỹ thuậtnày thường được sử dụng nhằm phát hiện các bất thường của tim nói chung và hệthống mạch vành nói riêng, các bất thường đó phản ánh nguy cơ mắc bệnh ở cáccá nhân khác nhau Ngoài ra, kết quả thu được còn giúp chân đoán phân biệt bệnh

tim với một sô bệnh khác.

Các kỹ thuật theo dõi điện tâm đồ và các kỹ thuật quan sát hình ảnh tim và hệthống mạch vành có thể được thực hiện lúc bệnh nhân vận động hoặc nghỉ ngơi Các kỹthuật này đều cung cấp những bằng chứng về hoạt động của hệ tim mach dé góp phan

phục vụ chân đoán.

Ngoài các triệu chứng lâm sang và các kỹ thuật cận lâm sang nêu trên, việc điêutra vê tiên sử bệnh, các bệnh nên và chê độ sinh hoạt của bệnh nhân cũng góp phân rat

quan trọng trong chan đoán bệnh tim.

Phương pháp chan đoán truyền thống này có ưu điểm là kết quả chân đoán chính

xác Tuy nhiên, phương pháp này cũng tồn tại một số vẫn đề:

Thự nhất, việc thực hiện một loạt các kiêm tra này sẽ tôn khá nhiêu thời gian va

chỉ phí của người bệnh, các kết quả phân tích kiểm tra thường không được trả trong ngày.

11191443 — Nguyễn Thị Hương Giang — Toán Kinh tế 61 || 14

Trang 24

CHUYÊN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ Sử

Thứ hai, đôi với các xét nghiệm cận lâm sàng vê bệnh tim không phải lúc nào

cũng được thực hiện Nó thường chỉ được thực hiện ở các bệnh viện chuyên môn về tim

Thứ ba, vì thực hiện rất nhiều các kiểm tra này, các bác sĩ sẽ phải xử lý rất nhiều

thông tin của mỗi bệnh nhân thăm khám, dẫn đến hiệu suất khám bệnh của bác sĩ sẽ thấp.

Ngoài ra, trong thời điểm hiện nay, người dân ngày càng quan tâm đến sức khỏe, nhucầu thăm khám bệnh ngày càng tăng và với lực lượng y bác sĩ hiện tại, nếu tiếp tục thựchiện phương pháp chân đoán thủ công, truyền thống này thì hệ thống có thê bị quá tải.

Thứ tw, vì việc chân đoán này được tiễn hành một cách thủ công và dựa khá nhiềuvào kinh nghiệm và chuyên môn của bác sĩ thì khả năng nhằm lẫn, bỏ sót là không thé

tránh khỏi.

1.3 Tổng quan nghiên cứu

1.3.1 Trí tuệ nhân tạo và ứng dụng trong y học

Trí tuệ nhân tạo là một nhánh của khoa học máy tính Hiện có rất nhiều định nghĩacho thuật ngữ trí tuệ nhân tạo, tuy nhiên ta có thể hiểu trí tuệ nhân tạo là ngành khoa họcnhằm nghiên cứu và tạo ra trí thông minh giống với trí thông minh của con người Cụthé ở đây là giúp máy tinh có thé hiểu và học được từ tap dir liệu cung cấp từ trước màkhông qua từng bước xử lý được con người quy định sẵn như trong lập trình truyền

thống Ké từ khi lần đầu được định nghĩa năm 1956, cho đến nay trí tuệ nhân tạo đã phát

triển vượt bậc và được ứng dụng trong nhiều lĩnh vực của đời sống như: nhận dạng (ký

tự, khuôn mặt, vân tay, giọng nói, ), công nghiệp tự động hóa (ô tô, máy móc, ) vàđặc biệt là trong phân tích dữ liệu.

Ứng dụng trí tuệ nhân tạo trong y học được biết đến với thuật ngữ medicalinfomatics (health infomatics) Đây là ngành khoa học mới, bắt đầu phát triển từ khi các

khái niệm về trí tuệ nhân tạo được hình thành và ứng dụng trong các lĩnh vực đời sông.

11191443 — Nguyễn Thị Hương Giang — Toán Kinh tế 61 || 15

Trang 25

CHUYÊN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ Sử

Kể từ lần đầu khái niệm trí tuệ nhân tạo hình thành, người ta nhận thấy được tiềm năngrất lớn của trí tuệ nhân tạo khi ứng dụng vào y học Ngành y học hiện đại đang phải đối

mặt với thách thức lớn trong việc thu thập, phân tích và xử lý dữ liệu Với sự phát triển

của mạng internet, các dit liệu y học càng trở nên ngày một nhiều, vượt quá khả năngtiếp thu của con người Cùng với việc phân tích các dữ liệu phức tạp và đòi hỏi tính chínhxác cao như điện tim đồ, các hình ảnh y tế như siêu âm hay hình ảnh X-quang khiến việcchân đoán và điều trị cho bệnh nhân ngày càng khó khăn hơn, trí tuệ nhân tao được xem

là phương pháp tiếp cận hiệu quả dé có thể giúp ngành y tế giải quyết được các van dé

nêu trên Các ứng dụng trong lĩnh vực y học của trí tuệ nhân tạo bao gồm: phục vụ chân

đoán (thu thập, lưu trữ, sắp xếp và quản lý dữ liệu, phân tích đữ liệu), chăm sóc và điềutrị bệnh nhân (các thiết bị chăm sóc y tế, robot chăm sóc sức khỏe, robot trợ giúp phẫu

Artificial Neural Network,

Tuy vay, các nghiên cứu hiện nay chưa thé lam rõ được cách thức mà thuật toánhoạt động, điều này ảnh hưởng lớn đến tính chính xác và sự đáng tin cậy của mô hìnhxây dựng được khi phân tích các dit liệu không thuộc bộ dit liệu ban đầu sử dụng dé xây

dựng mô hình Điêu này đặt ra van dé cân giải quyết là phải hiéu được các mô hình xây

11191443 — Nguyễn Thị Hương Giang — Toán Kinh tế 61 || 16

Trang 26

CHUYÊN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ Sử

dựng được từ nghiên cứu thật sự đã hoc được gi từ bộ dữ liệu đưa vào va mô hình đã

thao tác gì với từng phan trong dữ liệu đó, sự quan trọng của từng yếu tổ trong bộ ditliệu với mô hình xây dựng được Những điều trên cần được làm sáng tỏ nhằm đánh giákết quả nghiên cứu một cách chính xác và điều chỉnh mô hình khi cần thiết Song song

với khả năng diễn dịch của mô hình, hiện nay các nghiên cứu đang dần quan tâm hơn

đến vấn đề kết hợp giữa các mô hình với nhau do các mô hình xây dựng hiện nay đều xửlý dữ liệu riêng rẽ và phép kết hợp truyền thống dường như gặp khó khăn trong việcquyết định tính đáng tin cậy của từng mô hình trong phép kết hợp dé đưa ra kết quả cuối

1.3.2 Các nghiên cứu liên quan

Nhận thấy những hạn chế trong việc sử dụng các phương pháp chân đoán bệnhtim truyền thống, nhiều nhà nghiên cứu đã ứng dụng phương pháp Học máy trong việc

dự báo nguy cơ mắc bệnh tim Đã có rất nhiều nghiên cứu được xây dựng nhăm khắc

phục những hạn chế của các phương pháp chan đoán bệnh tim truyền thống Và trong

những năm gần đây, việc ứng dụng học máy để giải quyết bài toán này đã thu hút đông

đảo sự quan tâm của giới nghiên cứu, mang lại nhiêu kết quả tích cực.

Nghiên cứu của S Bashir và các cộng sự (2014) đã xây dựng mô hình Machine

Learning nhằm phân loại bệnh nhân bị mắc bệnh mạch vành Thuật toán được sử dụngtrong nghiên cứu bao gồm Support Vector Machine (SVM), Decision Tree, Naive Bayes.Bộ dữ liệu được sử dụng là bộ dữ liệu Cleveland nằm trong tập dữ liệu UCI Heart DiseaseDataset, gồm 303 mẫu và 14 thuộc tinh, trong đó các đữ liệu thiếu được xử lý bang cáchthay thế các giá trị trung bình trong cùng thuộc tính Dữ liệu sau khi được phân loại bằng

cả 3 mô hình sẽ được tổng hợp và đưa ra kết luận băng cách bỏ phiếu Kết quả cho thấycác thuật mô hình Naive Bayes, Decision Tree va SVM có độ chính xác lần lượt là78,79%, 72,73% và 75,76% Độ chính xác của phép kết hợp 3 mô hình băng cách bỏ

phiếu là 81,82% Dé cải thiện độ chính xác của mô hình dự báo, năm 2019, S Bashir và

11191443 — Nguyễn Thị Hương Giang — Toán Kinh tế 61 || 17

Trang 27

CHUYÊN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ Sử

các cộng sự tiếp tục tiễn hành nghiên cứu nhằm chân đoán bệnh tim mạch dựa vào Họcmáy Các mô hình được sử dụng trong nghiên cứu bao gồm: Decision Tree, Logistic

Regression, Random Forest, Naive Bayes và Logistic Regression kết hợp SVM Bộ dữ

liệu được sử dung thu được từ nguồn dir liệu mở UCI Heart Disease Database, gom 920quan sát và 14 thuộc tính Dữ liệu thô sẽ được xử lý bằng cách loại bỏ các dữ liệu thiếuvà nhiễu, sau đó các thuộc tính phân loại sẽ được lựa chọn dé làm đầu vào cho các mô

hình xây dựng Kết quả cho thấy độ chính xác của các mô hình xây dung dược dao động

từ 82,22% (Decision Tree) đến 84,85% (Logistic Regression kết hop SVM) Ưu điểmcủa nghiên cứu là đã cải thiện độ chính xác so với các mô hình đã đề xuất trong nghiêncứu năm 2014 Tuy nghiên, nghiên cứu vẫn tồn tại một số hạn chế đó là bộ đữ liệu sửdụng là bộ dữ liệu thu thập từ nguồn dữ liệu mở, gồm các bệnh nhân mắc đơn bệnh, tuy

nhiên trong thực tê các bệnh nhân có thê mắc nhiêu bệnh cùng lúc.

Nghiên cứu của G.T Reddy và các cộng sự (2019) đã phát trién một mô hình hỗn

hợp nhằm chân đoán bệnh nhân bị bệnh tim mạch Trong nghiên cứu này, tập đữ liệu

được lấy từ 3 tập dữ liệu có trong UCI heart disease dataset bao gồm: Cleveland,Hungarian và Switzerland Mô hình xây dựng dựa trên lý thuyết logic mờ, bao gồm 3

bước như sau:

- _ Bước 1: Giảm số chiều (thuộc tinh) từ bộ dữ liệu thô ban đầu.

- Bước 2: Phân loại dữ liệu đã được xử lý nhờ thuật toán xây dựng dựa trên lý

thuyết logic mờ.

- _ Bước 3: Tối ưu hóa thuật toán.

Kết quả thu được cho thấy độ chính xác của mô hình là 89% cho bộ dữ liệu Switzeland,

91% cho bộ Hungarian và 90% cho bộ Cleveland.

Nghiên cứu của A Darmawahyuni và các cộng sự (2019) đã xây dựng mô hình

Deep Neural Network nhằm chân đoán bệnh tim mạch với bộ đữ liệu được lay từ tập dữliệu Cleveland thuộc tập dữ liệu UCI Heart Disease Dataset Nghiên cứu sử dụng đầu

11191443 — Nguyễn Thị Hương Giang — Toán Kinh tế 61 || 18

Trang 28

CHUYÊN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ Sử

vào gồm 14 thuộc tính có trong bộ dữ liệu, xây dựng mô hình Black Box dựa trên cau

trúc cua Deep Neural Network Nghiên cứu xây dựng mô hình với số lượng hidden layertừ 1 đến 5 va số lần học thay đổi từ 200 đến 500 Kết qua cho thấy với 4 hidden layer và

300 lần học, độ chính xác của mô hình xây dựng đạt được lớn nhất (93%).

Nghiên cứu của C Bermando cùng với các cộng sự (2021) đã sử dụng dữ liệu từ

tập dữ liệu Cleveland nằm trong bộ dữ liệu UCI Machine Learning Repository Databasedé xây dựng mô hình nhằm chân đoán bệnh tim mạch Nghiên cứu sử dụng các thuật

toán: Gaussian Naive Bayes, Bernoulli Naive Bayes Và Random Forest Kết quả thu

được cho thấy các mô hình xây dựng có độ chính xác lần lượt là 85%, 85% và 75%.

Nghiên cứu của Chintan M Bhatt và các cộng sự (2023) đã sử dụng các phươngpháp học máy: Random Forest (RF), Decision Tree (DT), Multi Layer Perceptron

(MLP), XGBoost (XGB) đề xây dựng mô hình dự báo bệnh tim mạch với mục dich giảm

ty lệ chân đoán sai đồng thời giảm tỷ lệ tử vong do bệnh tim gây ra Công cụ“GridSearchCV” đã được sử dụng dé điều chỉnh các tham số của các mô hình nhằm tối

ưu hóa kết quả Bộ dữ liệu được sử dụng trong nghiên cứu được thu thập bởi Svetlana

Ulianova — kỹ sư khoa hoc dữ liệu người Canada, với 70000 quan sát và 12 thuộc tính

bao gồm: tuổi, giới tính, BMI, huyết áp tối đa, huyết áp tối thiểu, Độ chính xác của

các mô hình đạt được như sau: DT: 86,37% (với xác thực chéo) và 86,53% (không xácthực chéo), XGB: 86,87% (với xác thực chéo) và 87,02% (không xác thực chéo), RF:

87,05% (có xác thực chéo) và 86,92% (không xác thực chéo), MLP: 87,28% (có xác

thực chéo) và 86,94% (không xác thực chéo) Các mô hình đề xuất có giá trị AUC lầnlượt là: DT: 0,94, XGB: 0,95, RF: 0,95, MLP: 0,95 Kết luận rút ra là mô hình MLP vớixác thực chéo đã vượt trội hơn tất cả các loại khác thuật toán về độ chính xác Nó đạt độchính xác cao nhất là 87,28% Mặc dù đạt được những kết quả đầy hứa hẹn nhưng vẫncòn một số hạn chế cần lưu ý Đầu tiên, nghiên cứu dựa trên một bộ dữ liệu duy nhất vàcó thé không khái quát được cho các nhóm bệnh nhân Hơn nữa, nghiên cứu chỉ xem xét

11191443 — Nguyễn Thị Hương Giang — Toán Kinh tế 61 || 19

Trang 29

CHUYÊN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ Sử

một tập hợp giới hạn của các biến nhân khẩu học, lâm sảng và không tính đến rủi ro tiềmân khác như: các yếu tô gây bệnh tim, chang hạn như yếu tổ lỗi sống hoặc khuynh hướngdi truyền Ngoài ra, hiệu suất của mô hình trên tập dữ liệu thử nghiệm đã không đượcđánh giá, điều này không thé cung cấp cái nhìn sâu sắc về mức độ tổng quát của mô hìnhđối với dữ liệu mới.

1.4 Khoảng trống nghiên cứu

Mặc dù đã có nhiều nghiên cứu với các phương pháp tiếp cận khác nhau đã được

dé xuất dé chân đoán bệnh tim dựa vào khai thác đữ liệu, nhưng hau hết các nghiên cứunày có độ chính xác trong dự báo chưa cao do tập hợp các thuộc tính (các biến giải thích)nhỏ, việc khai thác dữ liệu trong y tế còn nhiều hạn chế do hệ thống quản lí dữ liệu y tếchưa thực sự phat triển, việc thu thập dữ liệu cũng gặp nhiều khó khăn Vì vậy, chuyên

dé này sử dụng một số phương pháp học máy kết hợp với các kỹ thuật xử ly đữ liệu trước

khi đưa vào dự báo, giúp cải thiện độ chính xác trong việc dự báo khả năng mắc bệnh

11191443 — Nguyễn Thị Hương Giang — Toán Kinh tế 61 || 20

Trang 30

CHUYÊN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ Sử

Chương 2: PHƯƠNG PHÁP NGHIÊN CỨU

Trong chương này, bài viết trình bày khái niệm Học máy, các kỹ thuật xử lý đữ

liệu, sau đó giới thiệu mô hình Logistic Regression, Random Forest, Naive Bayes va

Support Vector Machine (SVM) cũng như trình bày cách thức thực hiện, ưu nhược điểmcủa 4 mô hình Đồng thời trình bày các chỉ số đánh giá hiệu suất mô hình.

2.1 Giới thiệu về học máy

Những năm gần đây, trí tuệ nhân tạo (Artificial Intelligence — AI) dần nồi lên như

một minh chứng cho cuộc cách mạng công nghiệp lần thứ tư (CMCN 4.0) AI đã và đã

trở thanh nhân tố cốt lõi trong các hệ thống công nghệ cao, len lỏi vào hầu hết các lĩnh

vực trong đời sông.

Hoc may là một lĩnh vực của khoa hoc máy tính, theo Arthur Samuel vào năm

1959, "máy tính có khả năng học hỏi mà không cần được lập trình một cach rõ rang."Phát triển từ nghiên cứu về nhận dạng mẫu và lý thuyết học tính toán trong trí tuệ nhântạo Học máy xây dựng các thuật toán có thể học hỏi và thực hiện các dự đoán về dữ liệu,các thuật toán như vậy vượt qua các hướng dẫn chương trình nghiêm ngặt bằng cách dự

đoán dữ liệu hoặc quyết định thông qua xây dựng một mô hình từ mẫu đầu vào Học máyđược sử dụng trong một loạt các tác vụ điện toán khi thiết kế và lập trình các thuật toán

rõ ràng với hiệu năng tốt là khó hoặc không khả thi; Các ví dụ ứng dụng bao gồm lọc

email, phát hiện các kẻ xâm nhập mạng hoặc những người trong nội bộ đang làm việc

dé phá vỡ dit liệu, nhận dang ký tự quang học (OCR), học dé xếp hạng và tam nhìn máy

Học máy liên quan chặt ché đến thống kê tính toán, tập trung vào việc dự đoán

bang cách sử dụng máy tính Nó có quan hệ chặt chẽ với việc tối ưu hóa toán học, cung

cấp các phương pháp, lý thuyết và các lĩnh vực ứng dụng cho lĩnh vực này Học máy đôikhi được kết hợp với việc khai thác dữ liệu, trong đó lĩnh vực nhỏ thứ hai tập trung nhiều

11191443 — Nguyễn Thị Hương Giang - Toán Kinh tế 61 || 21

Trang 31

CHUYÊN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ Sử

hơn vào phân tích di liệu thăm dò và được biết đến là học không giám sát Học máycũng có thé là giám sát và được sử dung dé tìm hiểu và thiết lập hồ sơ hành vi cơ bảncho các thực thể khác nhau và sau đó được sử dụng dé tìm các di thường có ý nghĩa.

Trong lĩnh vực phân tích đữ liệu, học máy là một phương pháp được sử dung dé

đưa ra các mô hình phức tạp và các thuật toán cho phép dự đoán; Trong sử dụng thương

mại, điều này được gọi là phân tích tiên đoán Các mô hình phân tích này cho phép các

nhà nghiên cứu, các nhà khoa học dữ liệu, các kỹ sư và các nhà phân tích "đưa ra các

quyết định, kết quả đáng tin cậy, lặp lại" và khám phá những "cái nhìn sâu sắc ân giấu"

thông qua việc học hỏi từ các mối quan hệ và xu hướng lịch sử trong dữ liệu.

sự, 2019).

11191443 — Nguyễn Thi Hương Giang - Toán Kinh tế 61 || 22

Trang 32

CHUYÊN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ Sử

Học không giám sát (Unsupervied Learning): Loại này liên quan đến các chủ đềliên quan đến việc giảm chiều được sử dụng dé trực quan hóa dữ liệu lớn, xây dựng tính

năng hoặc khám phá cấu trúc bí mật Nó cũng được sử dụng cho các mối quan tâm cụ

thể như khung đề xuất, phân khúc khách hàng và tiếp thị mục tiêu (Sulaiman và cộng su,2019) So với học tập có giám sát, không có nhãn nào có sẵn trong phương pháp này.

Trong loại này, các thuật toán nhằm mục đích nhận ra các mẫu trên dữ liệu thử nghiệm

và dự đoán các giá tri hoặc cum dir liệu trong tương lai (Kubat, 2017; Zantalis và cộngsự, 2019).

Hoc tăng cường (Reinforcement Learning): Trong loại nay, dựa trên một tập hop

các thông số điều chỉnh, các thuật toán cố găng dự đoán đầu ra cho một vấn đề Sau đó,đầu ra trở thành một tham số đầu vào, và sau đó một đầu ra mới được tìm thấy một khi

đầu ra tối ưu được tìm thấy Học sâu and Mạng thần kinh nhân tạo (ANN) đã sử dụng

phong cách này (Al-jaboriy và cộng sự, 2019) các ứng dụng chủ yếu sử dụng học tăngcường như điều hướng robot, tiếp thu kỹ năng, quyết định thời gian thực và chơi game

AI (Kubat, 2017; Zantalis và cộng sự, 2019).

2.1.2 Một số phương pháp học máy có thé sir dung dé du bao kha nang mac bénh

Y Random Forest

Rừng ngẫu nhiên (Random Forest — RF) là một thành viên trong họ thuật toán cây

quyết định (decision trees).

Theo Albayrak, A S., & Yilmaz, Ö G S K (2009), cây quyết định là cấu trúcquyết định thực hiện việc học từ các lớp dữ liệu đã biết bằng phương pháp quy nạp Câyquyết định là một thuật toán học tập phân tách một lượng lớn dữ liệu thành các nhóm

các đữ liệu nhỏ bằng các đưa ra các quyết định đơn giản Với kết quả của mỗi lần phân

tách thành công, các thuộc tính trong nhóm sẽ đưa ra kết quả giống nhau hơn Cây quyết

11191443 — Nguyễn Thi Hương Giang - Toán Kinh tế 61 || 23

Trang 33

CHUYÊN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ Sử

định cùng các tính năng mô tả và dự đoán là một trong những thuật toán phân loại được

ưa thích nhất vì dé giải thích, dé tích hợp vào cơ sở dữ liệu và đáng tin cậy.

Các thuật toán học tập dựa trên cây quyết định được coi là một trong nhữngphương pháp học có giám sát (supervised learning) tốt nhất và được sử dụng nhiều nhất.

Phương pháp này cho ra các mô hình dự đoán với độ chính xác cao, 6n định và dé giảithích Không giống như các mô hình tuyến tính, chúng ánh xạ các mối quan hệ phi tuyếntính khá tốt Chúng có thể thích nghỉ trong việc giải quyết bất kỳ loại vấn đề nào (phânloại hoặc hồi quy).

Quá trình một cây quyết định sẽ được xử lý như sau: Nó chia tập hợp nguồn thànhcác tập hợp con khác nhau dựa trên một thuộc tính nào đó dé kiểm tra Quá trình nàyđược kiểm tra lặp đi lặp lại cho các tập con Quá trình tuần hoàn sẽ chấm dứt khi khôngthé thực hiện được quá trình phân tách nữa.

vx Logistic Regression

Hồi quy Logistic (Logistic Regression): Day là phương pháp phân loại mối quanhệ giữa nhiều biến độc lập với biến phụ thuộc Trước đây, nó thường được sử dụng tronglĩnh vực y tế Phương pháp này đã dần trở nên phô biến trong khoa học xã hội ngày nay.Trong thống kê, mô hình logistic (hoặc mô hình logit) được sử dụng dé mô hình xác suất

của một lớp hoặc sự kiện nào đó tồn tại như vượt qua/thất bại, thắng/thua, sống/ chết hoặc

khoe/ém, Ngày nay, việc sử dụng phương pháp hồi quy này đã được tiến hành rộngrãi trên các phần mềm thống kê Trong quá trình tiến hành hồi quy và phân tích, các nhà

nghiên cứu có thê bỏ đi các biến không cần thiết khi nhận thấy rằng các biến này không

có tác động đến biến phụ thuộc, tránh làm nhiễu và giảm đi độ chính xác cho mô hình.

v_ Artificial Neural Networks (ANN)

Artificial Neural Networks (ANN): Đây là một chuỗi các thuật toán dé nhận racác mối quan hệ cơ bản trong một tập hợp dữ liệu thông qua một quá trình bắt chước

11191443 — Nguyễn Thị Hương Giang — Toán Kinh tế 61 || 24

Trang 34

CHUYÊN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ Sử

cách thức hoạt động của bộ não con người ANN là một cách tiếp cận phổ biến dé giảiquyết các vấn đề phức tạp, chăng hạn như van dé dự đoán sự rời bỏ ANN có thé dựatrên phần cứng (nơ-ron được biểu thị bang các thành phan vật lý) hoặc dựa trên phan

mềm (mô hình máy tính) và có thể sử dụng nhiều cấu trúc liên kết và các thuật toán học

¥ Support Vector Machine (SVM)

Support Vector Machine (SVM): Theo Guneren, H (2015), Máy vectơ hỗ trợ là

một trong những kỹ thuật phân loại có giám sat do Cortes và Rapnik (1995) đặt ra SVM

là thuật toán ML giúp dự đoán và khái quát hóa dữ liệu mới bằng cách thực hiện việchọc trên những dữ liệu chưa phân phối Nguyên tắc cơ bản của SVM dựa trên sự hiệndiện của một siêu phẳng (hyperplane) giúp phân biệt dữ liệu hai lớp một cách tốt nhất.

Máy vectơ hỗ trợ được chia thành hai theo phân loại tuyến tính và phân loại phi tuyến

của tập đữ liệu.

Vv k-Nearest Neighbor (k-NN)

k-Nearest Neighbor (k-NN): Theo Ozkan, H (2013), thuật toán k-NN được hoàn

thiện boi Fix va Hodges vào năm 1951, dựa trên cach tiép can rang dt liệu gan nhau nhatsé thudc vé cùng một lớp Mục đích chính của thuật toán nay là phân loại những dữ liệumới băng cách sử dụng những dữ liệu được phân loại trước đó Dữ liệu không xác địnhthuộc về lớp nào, được gọi là mẫu thử nghiệm (test samples), dữ liệu được phân loại

trước đó được gọi là mẫu học tập (learning samples) Trong thuật toán k-NN, khoảngcách của mẫu thử nghiệm từ các mẫu học tập sẽ được tính toán, và sau đó mẫu k-learning

gần nhất với mẫu thử nghiệm được chọn Nếu các mẫu k được chọn hầu hết thuộc về

một lớp nào đó; lớp của mẫu thử cũng được xác định là lớp này.

Trên đây là các thuật toán phô biến của học máy có thé sử dụng dé phân tích, dựbáo khả năng mac bệnh tim Đề thuật tiện cho bài nghiên cứu, em quyết định sử dụng

11191443 — Nguyễn Thị Hương Giang — Toán Kinh tế 61 || 25

Trang 35

CHUYÊN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ Sử

thuật toán Logistic Regression, Random Forest, Naive Bayes va Support Vector

trong việc dự báo xác suất không thành công của một tiễn trình, một hệ thống, một biến

đôi,

Hồi quy logit có thé là nhị thức hoặc đa thức Nhị thức hoặc hồi quy nhị phânquan tâm đến các tình huống mà kết quả của biến phụ thuộc chỉ có thể rơi vào một tronghai giá trị, ví dụ như mắc bệnh tim hoặc không mắc bệnh tim Hồi quy đa thức quan tâmđến các tình huống mà kết quả có thể rơi vào một trong ba hoặc nhiều hơn ba giá trị, ví

dụ như bệnh tim, bệnh hen suyén, bénh suy than.

Hài quy logit được sử dụng với mục tiêu dự đoán biến phân loại biến phụ thuộc

do đó kết quả phải là phân loại hay rời rac Một bài toán có kết quả liên tục, chang hạnnhư dự đoán điểm của học sinh không thích hợp để sử dụng hồi quy logistic, các lựachọn khác như hồi quy tuyến tính có thé sẽ phù hợp hon.

Có ba loại hồi quy logistic chính: nhị phân, đa thức và thứ tự.

Nhị phân: hay còn gọi là hồi quy Binary Logistic là mô hình khá phổ biến trong

nghiên cứu dùng đề ước lượng xác suât một sự kiện sẽ xảy ra Đặc trưng của hôi quy nhị

11191443 — Nguyễn Thị Hương Giang — Toán Kinh tế 61 || 26

Trang 36

CHUYÊN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ Sử

phân là biến phụ thuộc chỉ có 2 giá trị: 0 và 1 Trên thực té, có rất nhiều hiện tượng tựnhiên, hiện tượng kinh tế, xã hội, mà chúng ta cần dự đoán khả năng xảy ra của nó:

chiến dich quảng cáo có được chấp nhận hay không, người vay có trả được nợ hay không,

công ty có phá sản hay không, khách hàng có mua hay không, Những biến nghiên cứucó 2 biểu hiện như vậy được mã hóa thành 2 giá trị 0 va 1 - được gọi là biến nhị phân.

Đa thức: Hồi quy logistic đa thức là một mô hình trong đó có 3 hoặc nhiều loạibiến phụ thuộc có thể được phân loại và không theo thứ tự Ví dụ dự đoán mộ người là

“kết hôn”, “ly hôn”, “ly thân” hay “độc thân”.

Thứ bậc: Hồi quy logistic thứ bậc cũng là một mô hình trong đó có nhiều lớp màmột biến mục tiêu có thé được phân loại thành, tuy nhiên trong trường hợp này các lớp

được sắp xếp theo thứ bậc, các lớp không cần phải đối xứng và khoảng cách giữa các

lớp có thé khác nhau Vi dụ điển hình là mộ thang đo khảo sát thái độ dé chọn giữa “ratkhông đồng ý, không đồng ý, trung lập, đồng ý, rất đồng ý”.

2.2.2 Thuật toán hồi quy Logistic nhị thức

Chuyên đề có dữ liệu biến phụ thuộc gồm 2 loại là 0 và 1, tức là không có khảnăng mắc bệnh tim và có khả năng mắc bệnh tim nên tập trung vào phân tích hồi quy

Logistic nhị thức.

Ý tưởng của thuật toán logistic regression áp dụng cho bài toán phân loại nhị phân

như sau: Với một điểm dit liệu được biểu diễn bằng tổ hợp vector X = {Xo, Xạ, , X„} có

thé phân loại thành một trong hai lớp là 0 và 1.

Xác suất dé điểm dữ liệu x; rơi vào 1 trong 2 lớp là:

Trang 37

CHUYÊN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ Sử

Trong đó: P(1|w, x;) là xác suất điểm đữ liệu rơi vào lớp 1 khi vector biéu diễn điểm ditliệu đưa vào là x; và w là tham số mô hình ƒ(wT; x¡) là hàm số chuyền đổi từ điểm dữliệu đầu vào x; thành đầu ra y¡ với bộ tham số w Ở mô hình logit, hàm số thường đượcsử dung dé chuyền đổi là hàm sigmoid.

Hàm hồi quy Logistic về bản chất là một thuật toán phân loại tuyến tính Xét một

hàm hồi quy tuyến tính sau:

Z = Bo + Bi4ì + P¿#: +++ nXn

Mô hình hồi quy logit xác định xác suất xảy ra sự kiện Y = 1 như sau:

e Fo +1x1†+¿xa+-''+nXn

PUY = TÌM, Xn) = Toi ame Pin

Nói cách khác, ham Logistic là hàm tinh xác suat được biéu diễn qua ham sigmoid

của Z:

1 1

PY = 1a, ,Xn) = Tint Po) Dp ee

Trong do:

X,X¿, , X„ là giá tri của các biên độc lập

Moi giá trị khi di qua ham sigmoid (hay còn gọi là ham số Logistic) sẽ nằm trongmiền giá trị số thực chạy từ 0 đến 1 Đồ thị hàm số có dạng:

11191443 — Nguyễn Thị Hương Giang — Toán Kinh tế 61 || 28

Trang 38

CHUYÊN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ Sử

Hình 2.1 Minh hoa dé thị hàm số Logistic

" Du báo y= 1 nếu P(y =1)>0.5: Nói cách khác, giá trị đầu ra của hàm

Sigmoid lớn hon 0,5 thì kết quả phân loại là 1 hoặc “Có”

cách khác, trong một mâu gôm n đôi tượng và nêu quan sat thay có x đôi tượng

11191443 — Nguyễn Thị Hương Giang — Toán Kinh tế 61 || 29

Trang 39

CHUYÊN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ Sử

có một đặc diém nào đó (mac bệnh tim, hút thuôc lá, ) thì xác suât cho biên côđó là:

" Do đó, odds là chi số thé hiện giữa xác suất sự kiện xảy ra (y = 1) va xác suất sự

kiện không xảy ra (y = 0) Từ định nghĩa trên, xác suất P dao động từ 0 đến 1,

nhưng giá trị của odds sẽ dao động từ [—œ; +œ] Mối liên hệ giữa P và oddsđược miêu tả qua biểu đồ dưới đây:

0 2 4 6 8 1

Hình 2.2 Mỗi liên hệ giữa P va odds

“ Chúng ta thay rằng khi giá trị của P thấp thi odds rất gần với P, nhưng khi giá trị

của P cao thi odds cao hơn rat nhiêu và tiên dân vê dương vô cùng.

Diễn giải các tham số của mô hình Logistic:

Hàm hồi quy Logistic:

11191443 — Nguyễn Thị Hương Giang — Toán Kinh tế 61 || 30

Trang 40

CHUYÊN ĐỀ THỰC TẬP - CHUYÊN NGÀNH TOÁN KINH TẾ Sử

Tỷ sô odds: odds =

Diễn giải hệ sô của Ø ứng với biên x:

= Khi biến x tăng 1 đơn vi thì giá trị log(odds) tăng B don vị

= Khi B > 0: x càng lớn, xác suất để y = 1 càng lớn

= Khi < 0: x càng lớn, xác suất dé y = 1 càng nhỏ

Gia trị ngưỡng:

Gọi t là một giá tri ngưỡng (0 < t < 1):

= Nếu P(y = 1) >t: kết quả dự báo y = 1

= Nếu P(y = 1) < t: kết qua dự báo y = 0

Thông thường giá trị được chọn thường là £ = 0.5:

= Nếu P(y = 1) > 0.5 = Khả năng y = 1 là lớn hơn, dự báo y = 1

= Nếu P(y = 1) < 0.5 > Khả năng y = 0 là lớn hơn, dự báo y = 0

Ngày đăng: 22/07/2024, 22:15

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN