Chuyên đề thực tập - chuyên ngành Toán Kinh TếMỞ ĐẦU Lý do lựa chọn chủ đề nghiên cứu Ung thư phổi là bệnh phổ biến nhất và là nguyên nhân hàng dau gây tử vong trong nhóm bệnh ung thư tr
Trang 1CHUYEN DE THUC TAP
Chuyén nganh: TOAN KINH TE
Dé tai:
UNG DUNG MACHINE LEARNING TRONG
VIEC CHAN DOAN SOM UNG THU PHOI
Ho va tén : Pham Thi Lan
Mã sinh viên : 11182538
Lớp : Toán Kinh Tế 60
Giảng viên hướng dẫn : PGS TS Nguyễn Thị Minh
HÀ NỘI, 12/2021
Trang 2Chuyên đề thực tập - chuyên ngành Toán Kinh Tế
Đặc biệt, em muốn gửi lời cảm ơn chân thành nhất đến cô Nguyễn ThịMinh, cô là người đã trực tiếp hướng dẫn nhiệt tình, giúp đỡ em trong quá trìnhhoàn thành chuyên dé tốt nghiệp
Dù vậy, trong quá trình làm bài, do kiến thức cũng như kinh nghiệm của emcòn hữu hạn nên em sẽ không thể tránh khỏi nhưng sai sót, kính mong nhận đượcnhững đóng góp quý báu của các thay cô dé em có thể bồ sung và hoàn thiện ban
Trang 3Chuyên đề thực tập - chuyên ngành Toán Kinh Tế
MỤC LỤC
DANH MỤC BANG BIEU - 5-5-2 5< s£ s2 S2 sSsESsESsEseEseEseEsessessesse 4DANH MỤC HÌNH VE 5-52 2s Ss£ssESsEEseEsEseEsstrssrssrssrsserssrssrse 5DANH MỤC TU VIET TẮTT 2s s52 ©s<Ss£s£Es££ss£sseEsezsessesserserse 5
MỞ ĐẦUU 5< 5< 9<©SL94EYS4E.EE.13 0718007184 7144714400744 0748 0704102048 0440 1
Lý do lựa chọn chủ đề nghiên cứu -s- s- << ssesesse=sessessesse 1
Mục tiêu mghién CỨU << 5s 5 9 9 9 9 0 00000000080 1
Đối tượng và phạm Vi nghiên cứu 5-5 ssessessessssessessessesse 2
Phương pháp nghiÊn CỨU 0G 2 9 9 999.6 99.99.9905 995509 99036 2
Kết cấu chuyên đề s-s-s°ss se se EssEssExsersetstsserserserssrsserserssrse 2
Chương 1 CƠ SỞ LÝ LUẬN VÀ TONG QUAN NGHIÊN CỨU 3
1.1 Một số khái niệm -. s- << s2 se s£Es£SsESsESSESeEsEseEseEsersessessee 3
1.2 CO’ Sở LY luậnn 5- <5 < 5< 5c 00 000000908960 4
1.2.1 Các triệu ChỨng - - - s + + xxx TH HH ng nh ng 4
1.2.2 Các yêu t6 nguy CƠ ¿- ¿55c SE EEEEE12112112111111 1111111111 xe 4
1.2.3 Thực trạng chân đoán bệnh ung thư phổi ở Việt Nam 5
1.3 Tổng quan nghiên Cứu - <2 se s sSs£SsEssEseEssEseEsexsessessesses 7
1.3.1 Ứng dụng phương pháp Học máy trong lĩnh vực chân đoán sớm bệnh
0 š131i10):10 110177 7
1.3.3 Khoảng trống nghiên cứu - ¿52+ £++++EE+EE£+E2EEeEEerErrrerrkerxeeg 9Chương 2 PHƯƠNG PHÁP NGHIÊN CỨU 2s ssecssessse 10
2.1 Phương pháp Machine Learning << 55s s55 9558 10
2.1.1 Giới thiệu về Machine Learning 2 2 2 se s+zx+zs+zxzzszsez 102.1.2 Hồi quy LOBiSViC 5-52-5252 SE‡EEEEE2E1EEEEE1211211271 7171.2111 11
2.1.3 Phuong pháp Rừng ngẫu nhiên -2- 2 252+s2x+zxzzxer+ssve2 14
2.1.4 Phân loại Naive Bay€S càng HH ng Hy 17
2.1.5 Hồi quy Ridge và hồi quy L/asSO - 2-52-5252 2Ecxe£xezerxerssree 182.1.6 Dự báo tổng hợp ¿- ¿2+ 22+2xt2EE2E1E2112711211211221E211 21 te crk 19
2.2 Tiêu chí đánh giá hiệu năng mô hìnhh << «5s 55 5s ssss se 21
Chương 3 UNG DUNG MACHINE LEARNING DE XÂY DUNG CHAN
DOAN SOM BENH UNG THU PHOI DUA TREN KET QUA KHAM
987001 (413274 23
3.1 Dữ liệ 23 OL Dit lIỆU œ- 5 s5 SE 2 H090 0001000605004 80
11182538 — Phạm Thị Lan
Trang 4Chuyên đề thực tập - chuyên ngành Toán Kinh Tế
3.1.2 Phân tích thống kê mô tả 2-2 2£ £+E£2EE£2EE+EEE+EE£2EEzExerrerred 233.1.3 Phần mềm va các thư viỆn - ¿+ + t+t+E+E£EEEE+EEEEEE+EeEErtzEereresxee 273.2 Kết qua ước lượng 2s s° se ©ss©ssss£EssEssEsseEsersersstssesserserssre 27
3.2.1 Mô hình LOgistic - - - G111 1H HH HH ng key 27
3.2.2 Mô hình Rừng ngẫu nhiên 2-2 2 + s+E£SE+E£E#E£Eerxrxerxrrerree 30
3.2.3 Naive Bayes 31
3.2.4 Hồi quy Ridge, hồi quy Lasso cesceccescssessessessessesesseseesesseesessessessesseaee 313.2.5 Dự báo tông hợp -¿- ¿5222k kEEE12211112112112121 11111111 xe 323.2.6 So sánh và tổng hợp - 2: 2+22x2Ex22E221 2212211221221 21.crkrcrei 34Chương 4 KET LUẬN VÀ KIÊN NGHỊ, . 2s ©cs<cssecssessee 35
TÀI LIEU THAM KHẢO << s£s£sssss©2ssessevsseerseerssee 36
Trang 5Chuyên đề thực tập - chuyên ngành Toán Kinh Tế
DANH MỤC BANG BIEU
Bang 2.1 Ma trận nhằm lẫn 2-2 2+ £+E+EE£EE#EESEEEEE2EEEEEEEEEEEEErrkrrkrrree 21Bảng 3.1 Mô tả các biến định đanh được sử dụng trong dit liệu 23Bảng 3.2 Mô tả các biến định lượng được sử dụng trong đữ liệu 24Bảng 3.3 Các thư viện sử dụng trong chuyên đề dung để xây dựng mô hình 27Bang 3.4 10 thuộc tính quan trọng nhất trong mô hình Logistic - 28Bang 3.5 Bảng tóm tắt kết quả kiểm tra mô hình Logistic trên tap 28
008i 20190111177 28
Bảng 3.6 Bảng tóm tắt kết quả kiêm tra mô hình Logistic trên tập thử nghiệm
sau khi điều chỉnh ngưỡng -2- 2£ £+SE+SE+EE++EE£EE£EECEEESEEEEEerkrrkerrkerkrrei 29Bảng 3.7 Bảng tóm tắt kết quả mô hình Rừng ngẫu nhiên trên tập đào tạo 30Bảng 3.8 Bảng tóm tắt kết quả kiểm tra mô hình Rừng ngẫu nhiên trên tập thử
Bảng 3.12 Bảng tóm tắt kết quả kiểm tra phương pháp dự báo kết hợp bỏ phiếu
đa số trên tập thử nghiệm -2- 2 5¿©2+¿++++EE+2EESEEEEEEEEEESEEEEEEEEEErkrrrkrrrrres 32Bảng 3.13 Bảng tóm tắt kết quả kiểm tra phương pháp dự báo kết hợp bỏ phiếu
có trọng số trên tập thử nghiệm - 2-2-2 +2 +S£+EE+EE£EE£EEE2EE£EEeEEzEezrxrrxerxee 33Bảng 3.14 Bảng tổng hợp kết quả dự đoán của các phương pháp 34
11182538 — Phạm Thị Lan
Trang 6Chuyên đề thực tập - chuyên ngành Toán Kinh Tế
DANH MỤC HÌNH VE
Hình 1.1 Minh họa các bệnh thuộc nhóm ung thư phối " 3
Hình 2.1 Minh họa thuật toán hồi quy LogistiC -: -¿ +25: 12
Hình 2.2 Minh họa đồ thị hàm số Logistic - 2 2 2+s+cx+cxszersreee 13
Hình 2.3 Minh họa các bước thực hiện hồi quy LOBISfIC - «<< <+<<+2 14 Hình 2.4 Minh họa thuật toán cây quyết định - 2 2 2 s+cx+zxzx+rszrxee 15
Hình 2.5 Minh họa các bước thực hiện mô hình rừng ngẫu nhiên 16
Hình 3.1 Minh họa cơ cấu quan sát theo giới tính của nhóm không bị ung thư phôi và nhóm bị ung thư phổi . -2¿ 22 5¿2+2++£E+2EE2E+vzx++rxezrxrrseees 25 Hình 3.2 Minh họa phân phối theo độ tuổi của nhóm không bi ung thư phổi và hm bj ung ¡0089/10 N4 25
Hình 3.3 Xếp hạng nhóm nghề nghiệp theo số lượng bệnh nhân ung thư phối 26 Hình 3.4 Đường cong ROC giữa TPR và FPR - 525cc sssseersseresres 29 Hình A.1 Kết quả kiểm tra mô hình Logistic trên tập thử nghiệm với ngưỡng 0.5 ¬ -/ỞÖ33 39
Hình A.2 Kết quả kiểm tra mô hình Logistic trên tập thử nghiệm với ngưỡng 0.3 “1 39
Hình A.3 Kết quả kiểm tra mô hình Rừng ngẫu nhiên trên tập thử nghiệm 40
Hình A.4 Kết quả kiểm tra mô hình phân loại Naive Bayes trên tập 40
008i 3019011177 — 40
Hình A.5 Kết quả kiểm tra mô hình hồi quy Ridge trên tập thử nghiệm 40
Hình A.6 Kết quả kiểm tra mô hình hồi quy Lasso trên tập thử nghiệm 41
Hình A.7 Kết quả kiểm tra phương pháp kết hợp dự báo bỏ phiếu da số trên tap 00885140190 280 41
Hình A.8 Kết quả kiểm tra phương pháp kết hợp dự báo bỏ phiếu trọng số trên
tap ther NGhiSM 11 4I
DANH MỤC TU VIET TAT
11182538 — Pham Thi Lan
Trang 7Chuyên đề thực tập - chuyên ngành Toán Kinh Tế
ACC Độ chính xác tông quát
BAC Độ chính xác sau cân bang
CODP Bệnh viêm phối mãn tính
Trang 8Chuyên đề thực tập - chuyên ngành Toán Kinh Tế
MỞ ĐẦU
Lý do lựa chọn chủ đề nghiên cứu
Ung thư phổi là bệnh phổ biến nhất và là nguyên nhân hàng dau gây tử
vong trong nhóm bệnh ung thư trên toàn thế giới Theo báo cáo mới nhất của Tổchức Y tế thế giới (WHO), năm 2020 ung thư phổi có 2.21 triệu ca mắc mới (xếpthứ 2 về sự phố biến trong các nhóm bệnh về ung thư) và 1.8 triệu ca tử vong (là
nguyên nhân phổ biến nhất gây tử vong trong nhóm bệnh về ung thư) trên toàn
cầu
Tuy nhiên, gánh nặng ung thư không tương xứng giữa các quốc gia, trong
đó các nước đang phát triển, trong đó có Việt Nam, chiếm 57% số ca mắc và 65%
số ca tử vong liên quan đến ung thư nhưng chỉ chiếm khoảng 5% nguồn tài chính
để ứng phó với căn bệnh này Tỷ lệ mắc ung thư phổi ở Việt Nam là 14.5 % caohơn tỷ lệ mắc bệnh trung bình trên toàn thế giới (11%) theo dữ liệu Globocan
2018.
Mặt khác đây cũng là căn bệnh được xếp vào nhóm khó chân đoán do cáctriệu chứng không đặc hiệu Ung thư phổi có thể không tạo ra các triệu chứngđáng chú ý trong giai đoạn đầu do đó nhiều người bệnh khi phát hiện ra bệnh thìbệnh đã vào giai đoạn cuối Trong khi đó, những bệnh nhân ung thư phổi nếu điềutri từ giai đoạn dau, tỷ lệ chữa khỏi có thé lên tới 80% đến 90%
Chính vì thế những phương pháp giúp chân đoán sớm bệnh ung thư phổi là
vô cùng cần thiết Nhất là khi tại Việt Nam các thông tin về bệnh nhân đã được lưutrữ một cách có hệ thong dựa vào hồ sơ bệnh án điện tử, chúng ta có thé tận dụngnguồn dữ liệu lớn trong y tế này dé đưa ra các cảnh báo sớm về khả năng macbệnh ung thư phổi Đây chính là lý do mà em quyết định lựa chọn nghiên cứu đềtài “Ứng dụng Machine Learning trong việc chấn đoán sớm ung thư phối”dựa vào kết quả khám lâm sàng và thông tin nhân khẩu học
Mục tiêu nghiên cứu
Chuyên đề sử dụng một số các phương pháp Học máy khác nhau giúp chânđoán sớm bệnh ung thư phổi dựa trên các kết quả khám lâm sàng Từ đó so sánh,tổng hợp tìm ra mô hình phù hợp nhất cho việc chân đoán sớm bệnh ung thư phôi,gop phần giảm thiểu gánh nặng của ung thư phối đối với Việt Nam
Vì thế các câu hỏi nghiên cứu cần được trả lời trong chuyên đề nghiên cứu
này là:
Câu hỏi nghiên cứu 1:
Những nhóm người nào có khả năng mắc bệnh ung thư phổi cao?
11182538 — Phạm Thị Lan
Trang 9Chuyên đề thực tập - chuyên ngành Toán Kinh Tế
Câu hỏi nghiên cứu 2:
Những dấu hiệu nào giúp phân loại tốt về bệnh ung thư?
Câu hoi nghiên cứu 3:
Mô hình Machine Learning nào đưa ra kết quả chan đoán tốt nhất?
Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu: Người bệnh có chan đoán lâm sàng về ung thưphối Phạm vi nghiên cứu: dự báo khả năng bị ung thư phổi dựa trên chân đoán
lâm sàng.
Phương pháp nghiên cứu
Chuyên đề sử dụng phương pháp định lượng kết hợp với phương pháp thu
thập thông tin từ thị trường, áp dụng phương pháp Machine Learning trong phân
tích với số liệu thu thập được dé tiến hành dự báo về khả năng mắc bệnh ung thu
Chuong 4 KET LUAN VA KIEN NGHI
11182538 — Pham Thi Lan
Trang 10Chuyên đề thực tập - chuyên ngành Toán Kinh Tế
Chương 1 CƠ SỞ LÝ LUẬN VA TONG QUAN NGHIÊN CỨU
Chương nay trình bày khái niệm co bản về ung thư phối, khám lâm sàng vàtong quan các nghiên cứu về chan đoán sớm bệnh ung thư phdi trên thế giới và
Việt Nam.
1.1 Một số khái niệm
Sự phát triển tế bào không kiểm soát được gây ra các bệnh được gọi là ungthư Ung thư phổi xảy ra đối với sự phát triển tế bào ngoài tầm kiểm soát và bắtđầu ở một hoặc cả hai phối Có 2 loại ung thư phổi chính và chúng được điều trịrất khác nhau là: Ung thư phối không tế bào nhỏ (NSCLC) và Ung thư phối tế bàonhỏ (SCLC) Trong đó, NSCLC chiếm 80-85%, SCLC chiếm 10-15%
Hình 1.1 Minh họa các bệnh thuộc nhóm ung thư phổiTheo Trung tâm Thông tin Công nghệ sinh học Quốc gia Hoa Kỳ, khámlâm sàng là hoạt động khám đầu tiên của tất cả quy trình khám chữa bệnh, baogồm: phỏng van y tế và kiểm tra sức khoẻ Đầu tiên, người bệnh sẽ được các bác sĩtiến hành phỏng van y tế, bao gồm việc hỏi và trả lời các câu hỏi liên quan đến tiền
sử bệnh cá nhân, tiền sử bệnh gia đình, dị ứng thuốc, Sau đó, các bệnh nhân sẽđược tiến hành kiểm tra sức khoẻ Khám sức khỏe có thê có nhiều hình thức tùytrường hợp Thông thường, người khám đánh giá các vùng cơ thé một cách tongquát, tìm kiếm những bat thường Các manh mối thu được từ lịch sử báo hiệu nhucầu kiểm tra chính xác Tuy nhiên quy trình này có thé thay đối tùy theo nhu cầucủa bệnh nhân Thông thường, người bệnh sẽ được kiểm tra các chỉ số thé lực nhưchiều cao, cân nặng, chỉ số BMI, nhịp tim, nhịp thở, thân nhiét,
11182538 — Phạm Thị Lan
Trang 11Chuyên đề thực tập - chuyên ngành Toán Kinh Tế
1.2 Cơ sở lý luận
Trong phan này, chuyên đề sẽ trình bày các yếu tố ảnh hưởng đến việc chânđoán ung thư phổi
1.2.1 Các triệu chứng
Theo bệnh viện Ung bướu Hà Nội, các triệu chứng xuất hiện tuy thuộc vào
vị trí và kích thước của khối u, mức độ xâm lấn đến các cơ quan lân cận cũng như
di căn xa Các triệu chứng của bệnh ung thư phổi khá đa dạng, tuy nhiên nhữngtriệu chứng thường gặp nhất là:
Ho
Ho không khỏi hoặc trở nên toi tệ hon đặc biệt là ho ra máu hoặc đờm màu
gỉ sắt (khạc ra hoặc có đờm) là dấu hiệu phổ biến nhất của ung thư phối Tốc độ
lưu lượng máu tăng lên làm tăng đáng kê nguy cơ ung thư phi
Khó thở
Khó thở là những triệu chứng thường xuất hiện ở giai đoạn đầu của bệnhung thư phổi Thay đổi nhịp thở có thé xảy ra do khối u ở phối chặn hoặc thu hepđường thở, hoặc chat lỏng từ khối u phối tích tụ trong lồng ngực
1.2.2 Các yếu tố nguy cơ
Nguy cơ di truyền (tiền sử gia đình)Đây là một yếu tố quan trọng Nếu gia đình của một người có tiền sử mắcbệnh ung thư, đặc biệt là ung thư phổi thì nguy cơ mắc bệnh của họ sẽ cao Không
rõ mức độ rủi ro này có thể là do gen chung giữa các thành viên trong gia đìnhnhưng các nhà nghiên cứu đã phát hiện ra răng di truyền dường như đóng một vaitrò nhất định trong một số gia đình có tiền sử mắc bệnh ung thư phổi Các nhàkhoa học biết một số yếu tố nguy cơ gây ung thư phổi có thé gây ra những thay đôinhất định trong DNA của tế bào phối Những thay đổi này có thé dẫn đến sự pháttriển bất thường của tế bào và đôi khi là ung thư DNA là chất hóa học trong tế bàotạo nên gen của chúng ta, gen này kiểm soát cách tế bào của chúng ta hoạt động.DNA, đến từ cả cha và mẹ của chúng ta, ảnh hưởng nhiều hơn đến vẻ ngoài củachúng ta Nó cũng có thé ảnh hưởng đến nguy cơ phát triển một số bệnh, bao gồmmột số loại ung thư
Các bệnh nhiễm trùng phổi, phế quảnCác bệnh nhiễm trùng như viêm phế quản và viêm phổi không khỏi hoặc
tiếp tục tái phát ví dụ như COPD, lao, hen xuyễn, VIỆC mắc các bệnh này có thể
báo hiệu cho sự suy giảm, hư hỏng chức năng của phối, từ đó cũng làm tăng nguy
cơ mac bệnh ung thư phôi
Hút thuốc và hút thuốc thụ động
11182538 — Phạm Thị Lan
Trang 12Chuyên đề thực tập - chuyên ngành Toán Kinh Tế
Hút thuốc và hút thuốc thụ động là những yếu tố nguy cơ quan trọng nhất.Nguy cơ ung thư phôi tăng đáng ké với việc tăng hút thuốc hoặc tiếp xúc nhiều vớikhói thuốc của người khác Có những trường hợp tỷ lệ hút thuốc thấp hoặc mộtngười không hút thuốc, nhưng nguy cơ ung thư là vừa phải vì các yêu tố khác
Các yếu tố nhân khẩu họcTrong nghiên cứu của Tiến si Barbara Iyen-Omofoman (2013) đã kết luậncác biến về nhân khẩu học có tác động đến kha năng mắc bệnh ung thư phối Cụthể là tuổi, giới tính, nghề nghiệp, tình trạng kinh tế xã hội
Tại Việt Nam theo bệnh viện Trung ương quân đội 108, nhóm đối tượng dễmắc bệnh ung thư phổi Về giới tính và tuổi: Ung thư phổi chiếm ưu thế ở namgiới 50-75 tuổi Tại các nước phương Tây, ty lệ ung thư phổi ở nam giới của vàiquốc gia những năm gan đây không gia tăng trong khi tỷ lệ ung thư phổi có chiềuhướng gia tăng ở phụ nữ Về nghề nghiệp: Chat sinh ung asbestos trong một vàiloại nghề nghiệp (ví dụ như nghề mài má phanh xe) là yếu tổ nguy cơ mắc ung thuphổi Công nhân làm việc ở một số mỏ có nguy co ung thư phổi cao hơn như mỏ
phóng xạ uranium, mỏ kén, mỏ cromate, công nhân làm việc trong một số ngành
nghề có tiếp xúc amiant, công nghiệp hóa dầu, công nghiệp nhựa, khí đốt Việctiếp xúc với khí radon, các ô nhiễm không khí từ kỹ nghệ kim loại nặng và môitrường 6 nhiễm khói thuốc có liên quan đến sự xuất hiện ung thư phối
1.2.3 Thực trạng chan đoán bệnh ung thư phối ở Việt Nam
Theo hướng dẫn chân đoán và điều trị do Bộ Y tế ban hành dé chan đoánbệnh ung thư phôi cần thực hiện 3 chân đoán: chân đoán xác định, chân đoán phânbiệt, chân đoán giai đoạn bệnh
Trong đó, chân đoán xác định sẽ bao gồm chân đoán lâm sàng và chân đoáncận lâm sàng Trong đó, chan đoán lâm sàng dựa trên các đặc điểm về giới tính,tuổi, các triệu chứng (bệnh sử), tiền sử bệnh cá nhân, tiền sử bệnh gia đình, tiền sử
dị ứng, các chỉ số khám sức khoé, Trong khi đó, chân đoán cận lâm sàng sẽ tiễnhành chụp Xquang và nội soi bao gồm các bước sau:
- Chụp Xquang lồng ngực thắng và nghiêng: Phát hiện đám mờ, hình ảnhtràn dich màng phổi Giúp xác định vị trí, hình thái, kích thước tôn thương Ngoài
ra, còn dé đánh giá kha năng phẫu thuật
- Chụp lớp vi tính: Cho phép đánh giá hình ảnh khối u và hạch trung thất, xác
định chính xác vi trí, kích thước và mức độ lan rộng tốn thương ở cả hai phôi.
- Nội soi phế quản: Giúp quan sát trực tiếp tổn thương, xác định vị trí, hìnhthái ton thương: thường gặp thé sùi và chit hẹp phế quản Qua nội soi tiến hành
11182538 — Phạm Thị Lan
Trang 13Chuyên đề thực tập - chuyên ngành Toán Kinh Tế
sinh thiết trực tiếp tổn thương hoặc xuyên thành phế quan dé chân đoán mô bệnh
học.
- Siéu 4m 6 bung: Phát hiện các ton thuong di can
- Xahinh
e Xa hình xương bằng máy SPECT, SPECT/CT với 99mTc-MDP dé
đánh giá tổn thương di căn xương, chân đoán giai đoạn bệnh trước điềutrị, theo đõi đáp ứng điều trị, đánh giá tái phát và di căn
e Xa hình thận chức năng băng máy SPECT, SPECT/CT với
99mTc-DTPA để đánh giá chức năng thận trước điều trị và sau điều trị
- Chụp cắt lớp vi tính sọ não: Phát hiện di căn não.
- Chụp cộng hưởng từ sọ não: Phát hiện chính xác sé lượng, kích thước tônthương di căn não Chụp cộng hưởng từ mô phỏng cho phép lập kế hoạch điều trị
xạ phẫu bằng dao gamma
- Chụp PET/CT ((Positron Emission Tomography/ Computer Tomography):
Phương pháp nay có giá trị: phát hiện sớm tốn thương, đánh giá chính xác giaiđoạn bệnh, theo đõi, đánh giá đáp ứng với điều tri, phát hiện tái phát, di căn xa,tiên lượng bệnh, sử dụng PET/CT mô phỏng dé lap kế hoạch xa tri, xác định vi trisinh thiét
- Tế bao hoc: Tìm tế bào ung thư trong dom, dich màng phổi, dich rửa phếquản, tế bào hạch thượng đòn nếu có
- Sinh thiết tổn thương, chân đoán mô bệnh học: Sinh thiết qua nội soi hoặcsinh thiết xuyên thành ngực dưới hướng dẫn chụp cắt lớp vi tính, lấy bệnh phẩmlàm chân đoán mô bệnh học, có giá trị xác định bệnh Một sé trường hop không
thé sinh thiết khối u phổi, có thé sinh thiết hạch thượng đòn (nếu có) hoặc các tốn
thương di căn khác và nhuộm hóa mô miễn dịch dé xác định nguồn gốc từ phôi
- Xét nghiệm chất chỉ điểm khối u (tumor marker): NSE; CEA; ProGRPnhằm theo dõi đáp ứng điều trị, phát hiện bệnh tái phát, đi căn xa
- Xét nghiệm sinh học phân tử: Giải trình tự nhiều gen
Ưu điểm của phương pháp chân đoán truyền thống này là kết quả chânđoán chính xác Tuy nhiên phương pháp chan đoán truyền thống này cũng tôn tạimột số van đề:
Thứ nhất, việc thực hiện một loạt các kiểm tra này sẽ tốn khá nhiều thờigian và chi phí của người bệnh, các kết quả phân tích kiểm tra thường không được
trả trong ngày.
11182538 — Phạm Thị Lan
Trang 14Chuyên đề thực tập - chuyên ngành Toán Kinh Tế
Thứ hai, đối với các kiểm tra cận lâm sàng về bệnh ung thư phổi không
phải lúc nào cũng được thực hiện Nó thường chỉ được thực hiện ở các bệnh viện
chuyên môn về hô hấp và ung thư
Thứ ba, vì thực hiện rất nhiều các kiểm tra này, các bác sĩ sẽ phải xử lý rấtnhiều thông tin của mỗi bệnh nhân thăm khám, dẫn đến hiệu suất khám bệnh củacác bác sĩ sẽ thấp Ngoài ra, trong thời điểm hiện nay, người dân ngày càng quantâm đến sức khoẻ, nhu cầu thăm khám bệnh ngày càng tăng và với lực lượng y bác
sĩ hiện tại, nếu tiếp tục thực hiện phương pháp chân đoán thủ công, truyền thốngnày thì hệ thống có thé bị quá tải
Thứ tư, vì việc chân đoán này được tiễn hành một cách thủ công và dựakhá nhiều vào kinh nghiệm và chuyên môn của bác sĩ thì khả năng nhầm lẫn, bỏ
sót là không trách khỏi.
1.3 Tổng quan nghiên cứu
1.3.1 Ứng dụng phương pháp Học máy trong lĩnh vực chan đoán sớm bệnh
ung thư phối
Nhận thấy những hạn chế trong việc sử dụng phương pháp chân đoán bệnhung thư phối truyền thống, nhiều nhà nghiên cứu đã nghĩ đến việc ứng dụng Họcmáy vào việc chân đoán bệnh ung thư phổi Và trong những năm gần đây, đề tàinày đã thu hút đông đảo sự quan tâm của giới nghiên cứu Đã có rất nhiều nghiêncứu được xây dựng nhằm khắc phục những hạn chế trong phương pháp chân đoántruyền thống Thời gian gần đây, việc đưa Machine learning để giải quyết bài toánnày đã đem lại nhiều các kết quả tích cực
Nghiên cứu của Spitz và cộng sự (2008) dua ra mô hình dự báo rủi ro mở
rộng cho bệnh ung thư phổi dựa trên dữ liệu dịch tễ học và lâm sàng có thé dễdàng thu thập Tuy nhiên bởi vì độ chính xác của mô hình là khiêm tốn, nhóm tácgiả cải thiện kết quả ước tính thu được bằng cách thêm hai điểm đánh dấu khảnăng sửa chữa DNA Mẫu nghiên cứu là dữ liệu thử nghiệm gồm 725 trường hợpung thư phổi và 615 trường hợp đối chứng., sử dụng phương pháp phân tích hồiquy logistic Kết quả độ chính xác dat 0.7/1 đối với người dang hút thuốc và0.68/1 đối với những người từng hút thuốc Đối với những người từng hút thuốc,các biến tác động đến khả năng mắc ung thư phổi bao gồm: tiền sử bệnh khí phếthũng, tiếp xúc với bụi, tiền sử gia đình mắc bệnh ung thư, tuổi ngừng hút thuốc vàtiền sử sốt cỏ khô Đối với những đang người hút thuốc, bệnh khí phế thũng,cường độ hút thuốc, tiền sử gia đình có liên quan đến hút thuốc và phơi nhiễmamiăng Ưu điểm của nghiên cứu này là xác định các nhóm đối tượng có nguy cơcao mắc bệnh ung thư phổi cho từng nhóm đang hút thuốc và nhóm từng hút
11182538 — Phạm Thị Lan
Trang 15Chuyên đề thực tập - chuyên ngành Toán Kinh Tế
thuốc Trong khi các nghiên cứu trước đây gộp chung 2 nhóm này thành | nhóm.Hạn chế của nghiên cứu này là độ chính xác không cao, ké cả khi thêm 2 biến khảnăng sửa chữa DNA và độ nhạy với Bleomycin thì kết quả chan đoán cũng khôngđược cải thiện quá nhiều Hơn nữa những xét nghiệm này tốn nhiều thời gian vàđòi hỏi một số trình độ chuyên môn kỹ thuật Việc áp dụng mô hình này cho cơ sởdân số đông sẽ gặp nhiều khó khăn
Nghiên cứu của Young và cộng sự (2009) đưa ra mô hình dự báo rủi ro mở
rộng cho bệnh ung thư phổi dựa gen đối với 2 nhóm đối tượng: đang hút thuốc vàtừng hút thuốc Nghiên cứu sử dụng 20 SNP làm dấu hiệu di truyền có tác độngđến nguy co bị ưng thư phổi Mẫu nghiên cứu bao gồm 439 người da trắng hútthuốc hoặc đã từng hút thuốc, sử dụng phương pháp phân tích hồi quy logistic Kếtquả: Yếu tố di truyền (SNP-gen), tuôi, tiền sử COPD, tiền sử gia đình bi ung thưphôi, hút thuốc và giới tính có tác động đến nguy cơ bị ung thư phổi Độ chính xác
là 0.75 ở mức tốt Ưu điểm: Cải thiện độ chính xác so với mô hình đề xuất củaSpitz và cộng sự (2008) Nhược điểm: Mẫu nghiên cứu chi bao gồm nam giới,việc áp dụng kết quả cho toàn dân không khả thi Bởi vì các nghiên cứu trước đâycũng chỉ ra rằng giới tính ảnh hưởng đến khả năng bị bệnh ung thư phổi Ngoài rabiến cường độ hút thuốc là biến số rất quan trọng, nhưng nghiên cứu này đã bỏqua biến này
Park và cộng sự (2013) phát triển một mô hình dự đoán nguy cơ cá nhânđối với bệnh ung thư phổi ở nam giới Hàn Quốc với mẫu nghiên cứu: 1.324.804nam giới Hàn Quốc không bị ung thư ở thời điểm ban đầu Từ mẫu nghiên cứu,nguy cơ phát triển ung thư phổi tuyệt đối của từng cá nhân được ước tính băngcách sử dụng mô hình nguy cơ theo tỷ lệ Cox Kết quả, mô hình dự báo nguy cơung thư phổi ở nam giới Hàn Quốc bao gồm tiếp xúc với hút thuốc, tuổi bắt đầuhút thuốc, chỉ số khối cơ thể, hoạt động thê chất và mức đường huyết Độ chínhxác dao động trong khoảng 0,867-0,876 Ưu điểm của nghiên cứu: độ chính xáccủa mô hình đề xuất cải thiện đáng kể Đây là nghiên cứu đầu tiên cung cấp môhình dự báo nguy cơ ung thư phổi cho từng cá nhân trong cộng đồng người châu
Á Nhược điểm: Biến cường độ hút thuốc được ho là quan trọng bị loại bỏ khỏi
mô hình dự đoán Mô hình này chưa được hiệu chuẩn dé sử dụng trong dân sốchung Ngoài ra biến COPD được đánh giá bằng các xét nghiệm chức năng phốinên tốn nhiều thời gian và đòi hỏi một số trình độ chuyên môn kỹ thuật
Barbara Iyen-Omofoman và cộng sự (2013) đã sử dụng kết của khám lâmsàng và thông tin nhân khẩu học dé chan đoán bệnh ung thư phối Mẫu nghiên cứubao gồm 12.074 trường hợp ung thư phổi va 120.731 trường hợp đối chứng tại
11182538 — Phạm Thị Lan
Trang 16Chuyên đề thực tập - chuyên ngành Toán Kinh Tế
Anh và sử dụng phương pháp phân tích hồi quy logistic Kết quả nghiên cứu là các
biến nhân khẩu học tác động đến bệnh ung thư phôi bao gồm: tuổi, giới tính, tình
trạng kinh tế xã hội và tình trạng hút thuốc và cường độ hút thuốc của bệnh nhân.Các triệu chứng: ho, ho ra máu, khó thở, sụt cân, nhiễm trùng đường hô hấp dưới,nhiễm trùng ngực không đặc hiệu, đau ngực, khàn tiếng, nhiễm trùng đường hôhấp trên và bệnh phổi tắc nghẽn mãn tinh (COPD) tác động đến kết quả chân đoánung thư phổi Độ chính xác của mô hình lên tới 0.88 Đây chính là ưu điểm củanghiên cứu so với các nghiên cứu trước đó Tuy nhiên nghiên cứu cũng mắc phảimột số hạn chế Việc đưa những người không hút thuốc vào phân tích được cho lànguyên nhân khiến giá trị AUC tăng lên Các số liệu thống kê hiệu là một bắt lợi,
và bởi vì chúng được dùng đánh giá nguy cơ ung thư phổi của dân số nói chungnên sẽ không là hữu ích dé sang loc ở các nhóm ung thư phổi có nguy cơ cao
Ở Việt Nam, việc nghiên cứu chân đoán sớm bệnh tật cũng đã bắt đầu đangđược quan tâm và phát triển Trong đó có nghiên cứu của tác giả Lê Minh Hùng vàcác cộng sự (2018) về chan đoán bệnh tim tự động với mẫu nghiên cứu là 699bệnh nhân và 58 thuộc tính là các triệu chứng và kết quả khám lâm sàng Phươngpháp được sử dụng là SVM phi tuyến tính (hạt nhân đa thức, hạt nhân Gaussian và
hạt nhân Sigmoid), Nave Bayes va Logistic Độ chính xác, độ nhạy và độ đặc hiệu
được sử dụng làm số liệu đánh giá để đánh giá hiệu suất phân loại của hệ thống dựđoán chan đoán bệnh tim Kết quả, độ chính xác cao nhất của nghiên cứu lên tới
90.5%.
1.3.3 Khoảng trong nghiên cứu
Mặc dù đã có nhiều nghiên cứu với các phương pháp tiếp cận khác nhau đãđược đề xuất dé chan đoán bệnh ung thư phổi dựa vào khai thác dữ liệu, nhưnghầu hết các nghiên cứu này có độ chính xác trong dự báo chưa cao do tập hợp cácthuộc tính (các biến giải thích) nhỏ, việc khai thác dữ liệu trong y tế còn nhiều hạnchế do hệ thống quản lí dữ liệu y tế chưa thực sự phát triển, việc thu thập dữ liệucũng gặp nhiều khó khăn Vì vậy, chuyên đề này sẽ đề xuất, so sánh nhiều phươngpháp Machine Learning giúp cải thiện độ chính xác trong chân đoán bệnh ung thưphối Ngoài các mô hình đã được các nghiên cứu trước sử dụng như hồi quyLogistic, phương pháp Rừng ngẫu nhiên, bộ phân loại Navie Bayes, chuyên đề đềxuất sử dụng thêm phương pháp hồi quy chính quy (hồi quy Lasso, hồi quyRidge) Đặc biệt việc sử dụng phương pháp dự báo tông hợp đề tổng hợp kết quả
dự báo từ các mô hình trên giúp nâng cao độ chính xác của dự báo.
11182538 — Phạm Thị Lan
Trang 17Chuyên đề thực tập - chuyên ngành Toán Kinh Tế
Chương 2 PHƯƠNG PHÁP NGHIÊN CỨU
Trong chương này, chuyên đề trình bày khái niệm về Machine Learning;
mô hình, cách thực hiện và một số ưu nhược điểm của các mô hình Hồi quy
Logistic, mô hình Rừng ngẫu nhiên (RF), bộ phân loại Navie Bayes (NB), hồi quy
Ridge, hồi quy Lasso và phương pháp dự báo kết hợp
2.1 Phương pháp Machine Learning
2.1.1 Giới thiệu về Machine Learning
Học máy là kỹ năng học máy tính, trong đó một máy được tạo ra với các
thuật toán mà từ đó nó có thé đưa ra lựa chọn của riêng mình và cung cấp cho
người dùng kết quả (Khalaf và cộng sự, 2019) Về cơ bản, nó được biết đến là một
phần của Trí tuệ nhân tạo (Ramos-Lima và cộng sự, 2020; Elassad và cộng sự,
2020), dé phân loại dữ liệu phức tạp và ra quyết định Nói chung, sự phát triển của
các thuật toán giúp máy học những thứ phức tạp và đưa ra các quyết định cần
thiết Nó có kết nối chặt chẽ với tối ưu hóa toán học, cung cấp cho lĩnh vực này
các công cụ, lý thuyết và lĩnh vực thực hiện và được sử dụng trong một số hoạt
động tính toán, nơi các thuật toán rõ ràng không thể được lập kế hoạch và lập trình
(Somvanshi và cộng sự, 2016; Maione va cộng sự, 2019; Zeebaree và cộng sự,
2019) Từ các kỹ thuật và nhiệm vụ mà Học Máy được phân loại rộng rãi thành ba
loại:
Hoc tập có giám sát: loại này giải quyết các van đề hồi quy, chang hạn như
dự báo thời tiết, dự đoán tăng trưởng dân số bằng cách sử dụng các thuật toán hồi
quy tuyến tính hoặc Rừng ngẫu nhiên (Moujahid và cộng sự, 2018; Abdulqader và
cộng sự, 2020) Ngoài ra, học tập có giám sát giải quyết các vấn đề phân loại như
nhận dạng giọng nói, nhận dạng chữ số, chan đoán và phát hiện gian lận danh tính
bằng cách sử dụng thuật toán trong nhiều lĩnh vực, chăng hạn như SVM, Rừng
ngẫu nhiên, KNN và các lĩnh vực khác được sử dụng trong nhiều lĩnh vực (Ahmed
và Sadiq, 2018; Zeebaree và cộng sự, 2018) Trong học tập có giám sát, có hai cấp
độ Giai đoạn đào tạo và giai đoạn thử nghiệm Phải có nhãn được biết đến trong
các bộ dữ liệu được sử dụng cho quá trình đào tạo Các thuật toán nghiên cứu mối
quan hệ giữa các giá trị đầu vào và nhãn và cố gắng dự đoán các giá trị dữ liệu thử
nghiệm (Kubat, 2017; Zantalis và cộng sự, 2019).
Trang 18Chuyên đề thực tập - chuyên ngành Toán Kinh Tế
Học tập không giám sát: loại này liên quan đến các chủ đề liên quan đếnviệc giảm chiều được sử dụng để trực quan hóa dữ liệu lớn, xây dựng tính năng
hoặc khám phá cấu trúc bí mật Nó cũng được sử dụng cho các mối quan tâm cụ
thể như khung đề xuất, phân khúc khách hàng và tiếp thị mục tiêu (Sulaiman và
cộng sự, 2019) So với học tập có giám sát, không có nhãn nào có sẵn trong
phương pháp này Trong loại này, các thuật toán nhằm mục đích nhận ra các mẫu
trên dữ liệu thử nghiệm và dự đoán các giá trị hoặc cụm dữ liệu trong tương lai
(Kubat, 2017; Zantalis và cộng sự, 2019).
Học tăng cường: trong loại này, dựa trên một tập hợp các thông số điềuchỉnh, các thuật toán cố gắng dự đoán đầu ra cho một vấn đề Sau đó, đầu ra trở
thành một tham số đầu vào, và sau đó một đầu ra mới được tìm thấy một khi đầu
ra tối ưu được tìm thấy Học sâu and Mạng thần kinh nhân tạo (ANN) đã sử dụng
phong cách này (Al-jaboriy và cộng sự, 2019) các ứng dụng chủ yếu sử dụng học
tăng cường như điều hướng robot, tiếp thu kỹ năng, quyết định thời gian thực và
choi game AI (Kubat, 2017; Zantalis và cộng sự, 2019).
2.1.2 Hồi quy Logistic
Hồi quy Logistic là mô hình Machine learning đơn giản nhưng lại rất hiệuquả trong bài toán phân loại (Classification) Hồi quy logistic là một phương pháp
phân tích thong kê được sử dung dé dự đoán giá trị dữ liệu dựa trên các quan sát
trước đó của tập dữ liệu Mục dich của hồi quy logistic là ước tính xác suất của các
sự kiện, bao gồm xác định mối quan hệ giữa các tính năng từ đó đự đoán xác suất
của các kết quả, nên đối với hồi quy logistic ta sẽ có: Input: đữ liệu input (ta sẽ
coi có hai nhãn là 0 và 1) va Output: Xác suất dữ liệu input rơi vào nhãn 0 hoặc
Trang 19Chuyên đề thực tập - chuyên ngành Toán Kinh Tế
Hình 2.1 Minh họa thuật toán hồi quy Logistic
Trong đó, các diém màu xanh là nhãn 0 và các diém mau đỏ là nhãn 1 đôi
với hôi quy logistic ta sẽ biết được với mỗi điểm thì xác xuất rơi vào nhãn 0 là bao
nhiêu và xác suât rơi vào nhãn | là bao nhiêu, ta có thê thay giữa hai màu xanh và
màu đỏ có một đường thăng đê phan chia rat rõ ràng nhưng nêu các diém dữ liệu
mà không năm sang hai bên mà năm trộn lần nhiêu vào nhau thì ta sẽ phân chia
như nào ? khi đó ta sẽ gọi tập dữ liệu có nhiều nhiễu và ta phải xử lí trước các
nhiễu đó.
Gia sử có một bộ trọng sô w và hai nhãn, nhãn 0 là non-cat và nhãn | là cat
việc học của mô hình chính là việc điêu chỉnh bộ trọng sô w sao cho dự đoán đâu
ra theo đúng ý muốn
Xét trên một điểm dữ liệu ta có input x = [X¡; Xz; }X,] sẽ là một vector cộtXét trên toàn bộ bộ dữ liệu (m điểm dữ liệu) ta sẽ có một vector hàng X =[x4,x), ,xứ*)] X có được bang cách xếp thành cột các x,
Bộ trọng SỐ W = [W¡; w¿; ; w„] là vector cột w? là vector chuyển VỊ của W
nên w? là vector hàng.
Xét trên 1 điểm dé liệu, đặt z = wTx + b (b gọi là bias) vaa = a(z)
Xét trên toàn bộ dữ liệu, đặt:
Z = [zTM,z®, , z0],A= [a, a, ,aTM]
Ham Sigmoid (ham sé Logistic)
Ham Sigmoid (hay còn gọi là hàm số Logistic) là một hàm số có đường
cong dạng hình chữ “S” với công thức như sau:
Trang 20Chuyên đề thực tập - chuyên ngành Toán Kinh Tế
sẽ tiệm cận đến 0 khi đầu vào tiến đến —œo và sẽ bằng 0.5 khi x =0
Nhờ vào đặc tính này mà hàm sigmoid được sử dụng nhiều trong lĩnh vựctrí tuệ nhân tạo với vai trò là hàm kích hoạt (hàm kích hoạt giúp định nghĩa đầu ra
khi có một input di qua nó).
Ap dụng ham sigmoid để chuyên giá trị wÏx + wy thành xác suất dé kếtluận giá trị của biến y từ đó để xác định được nhãn của input x:
» yÉ): gid trị đúng của input X, yOnhan giá trị 0 hoặc 1
= a(i): giá trị mô hình dự đoán ứng với input x(i)
= _ X: dạng biểu diễn của tất cả các điểm dữ liệu
= A: dạng biểu diễn giá trị mô hình dự đoán được cho tat cả điểm dữ liệu
=» Y: dang biểu diễn tat cả nhãn của dữ liệu
11182538 — Phạm Thị Lan 13
Trang 21Chuyên đề thực tập - chuyên ngành Toán Kinh Tế
Các bước thực hiện
= 2-2
Đạo ham w theo hàm mất mát
Hình 2.3 Minh họa các bước thực hiện hồi quy LogisticCác bước cần thực hiện lần lượt là:
“ Thiết lập mô hình
= Thiết lập hàm mat mát Loss Function
= Tim tham số bằng việc tối ưu hàm mat mát
= Du đoán dữ liệu mới dựa vào hàm mất mát mới tim được
Do tính đơn giản, dễ thực hiện và diễn giải kết quả, mô hình hồi quylogistic thường xuyên được sử dụng, đặc biệt trong nhiều trường hợp việc hiểu
được mức độ tác động của các yêu tố quan trọng so với kết qua dự báo Ngoài ra,
tính đơn giản của mô hình logistic còn làm cho mô hình phù hợp với những bộ dữ
liệu lớn và có tính phân biệt tuyến tính vì mô hình tốn ít thời gian dé đào tạo
Tuy nhiên, nếu số lượng quan sát ít hơn số lượng biến giải thích, mô hình
có thé gặp phải van dé quá khớp Hon nữa dữ liệu phân biệt tuyến tính cũng khá
hiếm trong thực tế (dữ liệu thực tế thường có nhiều nhiễu) Những điều này ảnh
hưởng rất nhiều đến độ chính xác của dự báo
2.1.3 Phương pháp Rừng ngẫu nhiên
Rừng ngẫu nhiên là một thuật toán học máy có giám sát được xây dựng từ
các thuật toán cây quyết định Thuật toán rừng ngẫu nhiên thiết lập kết quả dựa
trên các dự đoán của cây quyết định Nó dự đoán băng cách lấy giá trị trung bình
hoặc giá trị trung bình của sản lượng từ các cây khác nhau Tăng số lượng cây sẽ
tăng độ chính xác của kết quả
Đề hiểu được cách thức hoạt động của phương pháp rừng ngẫu nhiên, cầnphải hiểu rõ cây quyết định Cây quyết định bao gồm ba thành phan: nút quyết
định, nút lá và nút gốc Thuật toán cây quyết định chia tập dữ liệu huấn luyện
Trang 22Chuyên đề thực tập - chuyên ngành Toán Kinh Tế
thành các nhánh, tập dữ liệu này sẽ tách biệt thành các nhánh khác Trình tự này
tiếp tục cho đến khi đạt được một nút lá Nút lá không thê được phân tách thêm
Các nút trong cây quyết định đại diện cho các thuộc tính được sử dụng dé
dự đoán kết quả Các nút quyết định cung cấp một liên kết đến các lá Sơ đồ sau
đây cho thấy ba loại nút trong cây quyết định
Hình 2.4 Minh họa thuật toán cây quyết định
Thu thập thông tin được sử dụng trong việc đào tạo cây quyết định Nó giúp
giảm sự không chắc chắn ở những cây này Mức tăng thông tin cao có nghĩa là
mức độ không chắc chắn cao (entropy thông tin) đã bị loại bỏ Entropy và thu thập
thông tin rất quan trọng trong việc tách các nhánh, đây là một hoạt động quan
trọng trong việc xây dựng cây quyết định
Sự khác biệt chính giữa thuật toán cây quyết định và thuật toán rừng ngẫunhiên là việc thiết lập các nút sốc và các nút tách biệt được thực hiện ngẫu nhiên
trong thuật toán sau Rừng ngẫu nhiên sử dụng phương pháp đóng bao dé tạo ra dự
đoán cần thiết
Bagging hay đóng gói (còn được gọi là Bootstrap Aggregation) là kỹ thuật
tập hợp được sử dụng bởi rừng ngẫu nhiên Tập dữ liệu được chia thành nhiều mẫu
ngẫu nhiên và Bagging chọn ngẫu nhiên một mẫu trong số đó Tập dữ liệu đảo tạo
bao gồm các quan sát và tính năng được sử dụng dé đưa ra dự đoán Các cây quyết
định tạo ra các đầu ra khác nhau, tùy thuộc vào dữ liệu huấn luyện được cung cấp
cho thuật toán rừng ngẫu nhiên Các kết quả đầu ra này sẽ được xếp hạng, và kết
quả cao nhất sẽ được chọn làm đầu ra cuối cùng
Việc lựa chọn đầu ra cuối cùng tuân theo hệ thống bỏ phiếu đa số Biéu đồ
dưới đây minh hoạ cách thức phân loại rừng ngẫu nhiên đơn giản.
Trang 23Chuyên đề thực tập - chuyên ngành Toán Kinh Tế
Phương pháp phân loại
Bước 1: Tạo tập dit liệu làm đầu vào cho mô hình cây quyết định
= Lựa chọn ngẫu nhiên k thuộc tinh từ n biến (k <n)
"Lựa chọn ngẫu nhiên m quan sát từ bộ dữ liệu (1 quan sát bất kì có thể được
lây lặp lại)
Bước 2: Xây dựng mô hình cây quyết định dự trên bộ số liệu vừa tạo với sựlựa chọn các đặc tính ngẫu nhiên (sử dụng các thang do tùy theo tinh huống như
chỉ số Gini, MSE, RMSE, )
Bước 3: Lặp lại bước 1 và bước 2 cho đến khi đủ cây quyết địnhĐiểm mạnh của phương pháp Rừng ngẫu nhiên là có thé sử dụng cho cả bàitoán phân loại và hồi quy Phương pháp này còn có thé làm việc với dữ liệu bị
thiếu Ngoài ra, việc sử dụng nhiều cây quyết định giúp nâng cao độ chính xác của
dự báo, tránh tình trạng quá khớp với tập dữ liệu Phương pháp rừng ngẫu nhiên
cũng không yêu cầu dữ liệu đầu vào dạng chuẩn hoá
Song song với những ưu điểm đó, phương pháp Rừng ngẫu nhiên cũng tồntại một số hạn chế Số lượng cây lớn có thể làm thuật toán chậm và kém hiệu quả
đối với các dự báo thời gian thực (tốn dung lượng và thời gian) Nó cũng không
hoạt động tốt khi có sự chênh lệch số lượng giữa các lớp phân loại
Trang 24Chuyên đề thực tập - chuyên ngành Toán Kinh Tế
2.1.4 Phân loại Naive Bayes
Bộ phân loại Navie Bayes là tập hợp các thuật toán phân loại dựa trên Định
lý Bayes Nó không phải là một thuật toán đơn lẻ mà là một họ các thuật toán mà
tất cả chúng đều có chung một nguyên tắc, tức là mọi cặp tính năng được phân loại
= P(AIB) là xác suất sự kiện A xảy ra, sau khi biết sự kiện B xảy ra hay không
Giả định cơ bản của Navie Bayes là mỗi tính năng tạo nên phải độc lập và
bình dang trong việc đóng góp vào kết quả
Mô hình Bernoulli Naive Bayes được sử dụng cho các loại dữ liệu mà biếnphụ thuộc là một giá tri binary - băng 0 hoặc 1
P(x,|y)=P(ily) xx, +(1-P(ily))x(I-;)
Trong mô hình Bernoulli đa biến, các đặc trưng là các boolean độc lập (biếnnhị phân) mô tả đầu vào Giống như mô hình đa thức, mô hình này phô biến cho
các nhiệm vụ phân loại tài liệu, trong đó các tính năng xuất hiện thuật ngữ nhị
phân (tức là một từ xuất hiện trong tài liệu hoặc không) được sử dụng thay vì tần
suất (tức là tần suất của một từ xuất hiện trong tài liệu)
Nhìn chung mặc dù phân loại Naive Bayes có những giả định có vẻ quá đơn
giản hóa, các bộ phân loại Naive Bayes đã hoạt động khá tốt trong nhiều tình
huống thực tế, nổi tiếng là phân loại tài liệu và lọc thư rác Chúng yêu cầu một
lượng nhỏ dữ liệu huấn luyện dé ước tính các thông số cần thiết Phân loại Naive
Bayes có thể cực kỳ nhanh so với các phương pháp phức tạp hơn Việc tách các
phân phối đặc trưng có điều kiện của lớp có nghĩa là mỗi phân phối có thê được
ước tính độc lập như một phân phối một chiều Điều này lần lượt giúp giảm bớt
các vấn dé bắt nguồn từ lời nguyễn về chiều không gian Tuy khắc phục được rất
nhiều hạn chế so với các phương pháp, mô hình khác nhưng bộ phân loại Naive
Bayes vẫn tồn tại hạn chế Các giả định do Naive Bayes đưa ra thường không đúng
với các tình huống thực tế Trên thực tế, các giả định về tính độc lập khó có thé
Trang 25Chuyên đề thực tập - chuyên ngành Toán Kinh Tế
đúng Hầu hết các trường hợp thực tế, các thuộc tính (biến giải thích) trong các đối
tượng thường phụ thuộc vào nhau.
2.1.5 Hồi quy Ridge và hồi quy Lasso
Trong dự báo, việc thêm biến trong mô hình tuyến tính có thể làm giảm độchệch nhưng lại làm tăng phương sai Điều này dẫn đến các giá trị dự đoán khác
xa với các giá trị thực tế Một phương pháp được sử dụng dé giải quyết van dé nàyđược biết đến rộng rãi là phương pháp co ngót phù hợp với một mô hình có chứatất cả các yếu tố dự báo sử dụng kỹ thuật thu hẹp các ước lượng hệ số về không.Kết quả phương pháp co ngót có độ chệch cao hơn nhưng phương sai thấp hơnphương pháp bình phương nhỏ nhất (OLS) Hai kĩ thuật nổi tiếng trong phươngpháp này phải kể đến là hồi quy Ridge và hồi quy Lasso
Hồi quy RidgeKhi đa cộng tuyến xảy ra, ước tính bình phương tối thiểu là không thiên vị,nhưng phương sai của chúng lớn nên chúng có thé cách xa giá trị thực Bằng cáchthêm một mức độ sai lệch cho các ước tính hồi quy, hồi quy Ridge giúp giảm các
lỗi tiêu chuẩn.
Dé ước tính hệ số ; trong mô hình tuyến tính, chúng ta tối thiểu hóa ham
Còn trong hồi quy Ridge, chúng ta sẽ tìm hệ số B; dé tối thiêu hoá hàm số
= KhiÀ=0, hồi quy Ridge sẽ giống với hồi quy OLS.
“ Khi ^ lớn, tác động của hình phạt sẽ tăng lên và ước lượng hệ số hồi quy
Ridge sẽ tiến về 0
" - Việc chọn một giá tri tốt cho A là rất quan trọng (nên dùng xác nhận chéo)
11182538 — Phạm Thị Lan