Chuyên đề thực tập: Ứng dụng machine learning trong việc chẩn đoán sớm ung thư phổi

Chuyên đề thực tập - chuyên ngành Toán Kinh TếMỞ ĐẦU Lý do lựa chọn chủ đề nghiên cứu Ung thư phổi là bệnh phổ biến nhất và là nguyên nhân hàng dau gây tử vong trong nhóm bệnh ung thư tr

Trang 1

CHUYEN DE THUC TAP

Chuyén nganh: TOAN KINH TE

Dé tai:

UNG DUNG MACHINE LEARNING TRONG

VIEC CHAN DOAN SOM UNG THU PHOI

Ho va tén : Pham Thi Lan

Mã sinh viên : 11182538

Lớp : Toán Kinh Tế 60

Giảng viên hướng dẫn : PGS TS Nguyễn Thị Minh

HÀ NỘI, 12/2021

Trang 2

Chuyên đề thực tập - chuyên ngành Toán Kinh Tế

Đặc biệt, em muốn gửi lời cảm ơn chân thành nhất đến cô Nguyễn ThịMinh, cô là người đã trực tiếp hướng dẫn nhiệt tình, giúp đỡ em trong quá trìnhhoàn thành chuyên dé tốt nghiệp

Dù vậy, trong quá trình làm bài, do kiến thức cũng như kinh nghiệm của emcòn hữu hạn nên em sẽ không thể tránh khỏi nhưng sai sót, kính mong nhận đượcnhững đóng góp quý báu của các thay cô dé em có thể bồ sung và hoàn thiện ban

Trang 3

MỤC LỤC

DANH MỤC BANG BIEU - 5-5-2 5< s£ s2 S2 sSsESsESsEseEseEseEsessessesse 4DANH MỤC HÌNH VE 5-52 2s Ss£ssESsEEseEsEseEsstrssrssrssrsserssrssrse 5DANH MỤC TU VIET TẮTT 2s s52 ©s<Ss£s£Es££ss£sseEsezsessesserserse 5

MỞ ĐẦUU 5< 5< 9<©SL94EYS4E.EE.13 0718007184 7144714400744 0748 0704102048 0440 1

Lý do lựa chọn chủ đề nghiên cứu -s- s- << ssesesse=sessessesse 1

Mục tiêu mghién CỨU << 5s 5 9 9 9 9 0 00000000080 1

Đối tượng và phạm Vi nghiên cứu 5-5 ssessessessssessessessesse 2

Phương pháp nghiÊn CỨU 0G 2 9 9 999.6 99.99.9905 995509 99036 2

Kết cấu chuyên đề s-s-s°ss se se EssEssExsersetstsserserserssrsserserssrse 2

Chương 1 CƠ SỞ LÝ LUẬN VÀ TONG QUAN NGHIÊN CỨU 3

1.1 Một số khái niệm -. s- << s2 se s£Es£SsESsESSESeEsEseEseEsersessessee 3

1.2 CO’ Sở LY luậnn 5- <5 < 5< 5c 00 000000908960 4

1.2.1 Các triệu ChỨng - - - s + + xxx TH HH ng nh ng 4

1.2.2 Các yêu t6 nguy CƠ ¿- ¿55c SE EEEEE12112112111111 1111111111 xe 4

1.2.3 Thực trạng chân đoán bệnh ung thư phổi ở Việt Nam 5

1.3 Tổng quan nghiên Cứu - <2 se s sSs£SsEssEseEssEseEsexsessessesses 7

1.3.1 Ứng dụng phương pháp Học máy trong lĩnh vực chân đoán sớm bệnh

0 š131i10):10 110177 7

1.3.3 Khoảng trống nghiên cứu - ¿52+ £++++EE+EE£+E2EEeEEerErrrerrkerxeeg 9Chương 2 PHƯƠNG PHÁP NGHIÊN CỨU 2s ssecssessse 10

2.1 Phương pháp Machine Learning << 55s s55 9558 10

2.1.1 Giới thiệu về Machine Learning 2 2 2 se s+zx+zs+zxzzszsez 102.1.2 Hồi quy LOBiSViC 5-52-5252 SE‡EEEEE2E1EEEEE1211211271 7171.2111 11

2.1.3 Phuong pháp Rừng ngẫu nhiên -2- 2 252+s2x+zxzzxer+ssve2 14

2.1.4 Phân loại Naive Bay€S càng HH ng Hy 17

2.1.5 Hồi quy Ridge và hồi quy L/asSO - 2-52-5252 2Ecxe£xezerxerssree 182.1.6 Dự báo tổng hợp ¿- ¿2+ 22+2xt2EE2E1E2112711211211221E211 21 te crk 19

2.2 Tiêu chí đánh giá hiệu năng mô hìnhh << «5s 55 5s ssss se 21

Chương 3 UNG DUNG MACHINE LEARNING DE XÂY DUNG CHAN

DOAN SOM BENH UNG THU PHOI DUA TREN KET QUA KHAM

987001 (413274 23

3.1 Dữ liệ 23 OL Dit lIỆU œ- 5 s5 SE 2 H090 0001000605004 80

11182538 — Phạm Thị Lan

Trang 4

3.1.2 Phân tích thống kê mô tả 2-2 2£ £+E£2EE£2EE+EEE+EE£2EEzExerrerred 233.1.3 Phần mềm va các thư viỆn - ¿+ + t+t+E+E£EEEE+EEEEEE+EeEErtzEereresxee 273.2 Kết qua ước lượng 2s s° se ©ss©ssss£EssEssEsseEsersersstssesserserssre 27

3.2.1 Mô hình LOgistic - - - G111 1H HH HH ng key 27

3.2.2 Mô hình Rừng ngẫu nhiên 2-2 2 + s+E£SE+E£E#E£Eerxrxerxrrerree 30

3.2.3 Naive Bayes 31

3.2.4 Hồi quy Ridge, hồi quy Lasso cesceccescssessessessessesesseseesesseesessessessesseaee 313.2.5 Dự báo tông hợp -¿- ¿5222k kEEE12211112112112121 11111111 xe 323.2.6 So sánh và tổng hợp - 2: 2+22x2Ex22E221 2212211221221 21.crkrcrei 34Chương 4 KET LUẬN VÀ KIÊN NGHỊ, . 2s ©cs<cssecssessee 35

TÀI LIEU THAM KHẢO << s£s£sssss©2ssessevsseerseerssee 36

Trang 5

DANH MỤC BANG BIEU

Bang 2.1 Ma trận nhằm lẫn 2-2 2+ £+E+EE£EE#EESEEEEE2EEEEEEEEEEEEErrkrrkrrree 21Bảng 3.1 Mô tả các biến định đanh được sử dụng trong dit liệu 23Bảng 3.2 Mô tả các biến định lượng được sử dụng trong đữ liệu 24Bảng 3.3 Các thư viện sử dụng trong chuyên đề dung để xây dựng mô hình 27Bang 3.4 10 thuộc tính quan trọng nhất trong mô hình Logistic - 28Bang 3.5 Bảng tóm tắt kết quả kiểm tra mô hình Logistic trên tap 28

008i 20190111177 28

Bảng 3.6 Bảng tóm tắt kết quả kiêm tra mô hình Logistic trên tập thử nghiệm

sau khi điều chỉnh ngưỡng -2- 2£ £+SE+SE+EE++EE£EE£EECEEESEEEEEerkrrkerrkerkrrei 29Bảng 3.7 Bảng tóm tắt kết quả mô hình Rừng ngẫu nhiên trên tập đào tạo 30Bảng 3.8 Bảng tóm tắt kết quả kiểm tra mô hình Rừng ngẫu nhiên trên tập thử

Bảng 3.12 Bảng tóm tắt kết quả kiểm tra phương pháp dự báo kết hợp bỏ phiếu

đa số trên tập thử nghiệm -2- 2 5¿©2+¿++++EE+2EESEEEEEEEEEESEEEEEEEEEErkrrrkrrrrres 32Bảng 3.13 Bảng tóm tắt kết quả kiểm tra phương pháp dự báo kết hợp bỏ phiếu

có trọng số trên tập thử nghiệm - 2-2-2 +2 +S£+EE+EE£EE£EEE2EE£EEeEEzEezrxrrxerxee 33Bảng 3.14 Bảng tổng hợp kết quả dự đoán của các phương pháp 34

Trang 6

DANH MỤC HÌNH VE

Hình 1.1 Minh họa các bệnh thuộc nhóm ung thư phối " 3

Hình 2.1 Minh họa thuật toán hồi quy LogistiC -: -¿ +25: 12

Hình 2.2 Minh họa đồ thị hàm số Logistic - 2 2 2+s+cx+cxszersreee 13

Hình 2.3 Minh họa các bước thực hiện hồi quy LOBISfIC - «<< <+<<+2 14 Hình 2.4 Minh họa thuật toán cây quyết định - 2 2 2 s+cx+zxzx+rszrxee 15

Hình 2.5 Minh họa các bước thực hiện mô hình rừng ngẫu nhiên 16

Hình 3.1 Minh họa cơ cấu quan sát theo giới tính của nhóm không bị ung thư phôi và nhóm bị ung thư phổi . -2¿ 22 5¿2+2++£E+2EE2E+vzx++rxezrxrrseees 25 Hình 3.2 Minh họa phân phối theo độ tuổi của nhóm không bi ung thư phổi và hm bj ung ¡0089/10 N4 25

Hình 3.3 Xếp hạng nhóm nghề nghiệp theo số lượng bệnh nhân ung thư phối 26 Hình 3.4 Đường cong ROC giữa TPR và FPR - 525cc sssseersseresres 29 Hình A.1 Kết quả kiểm tra mô hình Logistic trên tập thử nghiệm với ngưỡng 0.5 ¬ -/ỞÖ33 39

Hình A.2 Kết quả kiểm tra mô hình Logistic trên tập thử nghiệm với ngưỡng 0.3 “1 39

Hình A.3 Kết quả kiểm tra mô hình Rừng ngẫu nhiên trên tập thử nghiệm 40

Hình A.4 Kết quả kiểm tra mô hình phân loại Naive Bayes trên tập 40

008i 3019011177 — 40

Hình A.5 Kết quả kiểm tra mô hình hồi quy Ridge trên tập thử nghiệm 40

Hình A.6 Kết quả kiểm tra mô hình hồi quy Lasso trên tập thử nghiệm 41

Hình A.7 Kết quả kiểm tra phương pháp kết hợp dự báo bỏ phiếu da số trên tap 00885140190 280 41

Hình A.8 Kết quả kiểm tra phương pháp kết hợp dự báo bỏ phiếu trọng số trên

tap ther NGhiSM 11 4I

DANH MỤC TU VIET TAT

11182538 — Pham Thi Lan

Trang 7

ACC Độ chính xác tông quát

BAC Độ chính xác sau cân bang

CODP Bệnh viêm phối mãn tính

Trang 8

MỞ ĐẦU

Lý do lựa chọn chủ đề nghiên cứu

Ung thư phổi là bệnh phổ biến nhất và là nguyên nhân hàng dau gây tử

vong trong nhóm bệnh ung thư trên toàn thế giới Theo báo cáo mới nhất của Tổchức Y tế thế giới (WHO), năm 2020 ung thư phổi có 2.21 triệu ca mắc mới (xếpthứ 2 về sự phố biến trong các nhóm bệnh về ung thư) và 1.8 triệu ca tử vong (là

nguyên nhân phổ biến nhất gây tử vong trong nhóm bệnh về ung thư) trên toàn

cầu

Tuy nhiên, gánh nặng ung thư không tương xứng giữa các quốc gia, trong

đó các nước đang phát triển, trong đó có Việt Nam, chiếm 57% số ca mắc và 65%

số ca tử vong liên quan đến ung thư nhưng chỉ chiếm khoảng 5% nguồn tài chính

để ứng phó với căn bệnh này Tỷ lệ mắc ung thư phổi ở Việt Nam là 14.5 % caohơn tỷ lệ mắc bệnh trung bình trên toàn thế giới (11%) theo dữ liệu Globocan

2018.

Mặt khác đây cũng là căn bệnh được xếp vào nhóm khó chân đoán do cáctriệu chứng không đặc hiệu Ung thư phổi có thể không tạo ra các triệu chứngđáng chú ý trong giai đoạn đầu do đó nhiều người bệnh khi phát hiện ra bệnh thìbệnh đã vào giai đoạn cuối Trong khi đó, những bệnh nhân ung thư phổi nếu điềutri từ giai đoạn dau, tỷ lệ chữa khỏi có thé lên tới 80% đến 90%

Chính vì thế những phương pháp giúp chân đoán sớm bệnh ung thư phổi là

vô cùng cần thiết Nhất là khi tại Việt Nam các thông tin về bệnh nhân đã được lưutrữ một cách có hệ thong dựa vào hồ sơ bệnh án điện tử, chúng ta có thé tận dụngnguồn dữ liệu lớn trong y tế này dé đưa ra các cảnh báo sớm về khả năng macbệnh ung thư phổi Đây chính là lý do mà em quyết định lựa chọn nghiên cứu đềtài “Ứng dụng Machine Learning trong việc chấn đoán sớm ung thư phối”dựa vào kết quả khám lâm sàng và thông tin nhân khẩu học

Mục tiêu nghiên cứu

Chuyên đề sử dụng một số các phương pháp Học máy khác nhau giúp chânđoán sớm bệnh ung thư phổi dựa trên các kết quả khám lâm sàng Từ đó so sánh,tổng hợp tìm ra mô hình phù hợp nhất cho việc chân đoán sớm bệnh ung thư phôi,gop phần giảm thiểu gánh nặng của ung thư phối đối với Việt Nam

Vì thế các câu hỏi nghiên cứu cần được trả lời trong chuyên đề nghiên cứu

này là:

Câu hỏi nghiên cứu 1:

Những nhóm người nào có khả năng mắc bệnh ung thư phổi cao?

Trang 9

Câu hỏi nghiên cứu 2:

Những dấu hiệu nào giúp phân loại tốt về bệnh ung thư?

Câu hoi nghiên cứu 3:

Mô hình Machine Learning nào đưa ra kết quả chan đoán tốt nhất?

Đối tượng và phạm vi nghiên cứu

Đối tượng nghiên cứu: Người bệnh có chan đoán lâm sàng về ung thưphối Phạm vi nghiên cứu: dự báo khả năng bị ung thư phổi dựa trên chân đoán

lâm sàng.

Phương pháp nghiên cứu

Chuyên đề sử dụng phương pháp định lượng kết hợp với phương pháp thu

thập thông tin từ thị trường, áp dụng phương pháp Machine Learning trong phân

tích với số liệu thu thập được dé tiến hành dự báo về khả năng mắc bệnh ung thu

Chuong 4 KET LUAN VA KIEN NGHI

11182538 — Pham Thi Lan

Trang 10

Chương 1 CƠ SỞ LÝ LUẬN VA TONG QUAN NGHIÊN CỨU

Chương nay trình bày khái niệm co bản về ung thư phối, khám lâm sàng vàtong quan các nghiên cứu về chan đoán sớm bệnh ung thư phdi trên thế giới và

Việt Nam.

1.1 Một số khái niệm

Sự phát triển tế bào không kiểm soát được gây ra các bệnh được gọi là ungthư Ung thư phổi xảy ra đối với sự phát triển tế bào ngoài tầm kiểm soát và bắtđầu ở một hoặc cả hai phối Có 2 loại ung thư phổi chính và chúng được điều trịrất khác nhau là: Ung thư phối không tế bào nhỏ (NSCLC) và Ung thư phối tế bàonhỏ (SCLC) Trong đó, NSCLC chiếm 80-85%, SCLC chiếm 10-15%

Hình 1.1 Minh họa các bệnh thuộc nhóm ung thư phổiTheo Trung tâm Thông tin Công nghệ sinh học Quốc gia Hoa Kỳ, khámlâm sàng là hoạt động khám đầu tiên của tất cả quy trình khám chữa bệnh, baogồm: phỏng van y tế và kiểm tra sức khoẻ Đầu tiên, người bệnh sẽ được các bác sĩtiến hành phỏng van y tế, bao gồm việc hỏi và trả lời các câu hỏi liên quan đến tiền

sử bệnh cá nhân, tiền sử bệnh gia đình, dị ứng thuốc, Sau đó, các bệnh nhân sẽđược tiến hành kiểm tra sức khoẻ Khám sức khỏe có thê có nhiều hình thức tùytrường hợp Thông thường, người khám đánh giá các vùng cơ thé một cách tongquát, tìm kiếm những bat thường Các manh mối thu được từ lịch sử báo hiệu nhucầu kiểm tra chính xác Tuy nhiên quy trình này có thé thay đối tùy theo nhu cầucủa bệnh nhân Thông thường, người bệnh sẽ được kiểm tra các chỉ số thé lực nhưchiều cao, cân nặng, chỉ số BMI, nhịp tim, nhịp thở, thân nhiét,

Trang 11

1.2 Cơ sở lý luận

Trong phan này, chuyên đề sẽ trình bày các yếu tố ảnh hưởng đến việc chânđoán ung thư phổi

1.2.1 Các triệu chứng

Theo bệnh viện Ung bướu Hà Nội, các triệu chứng xuất hiện tuy thuộc vào

vị trí và kích thước của khối u, mức độ xâm lấn đến các cơ quan lân cận cũng như

di căn xa Các triệu chứng của bệnh ung thư phổi khá đa dạng, tuy nhiên nhữngtriệu chứng thường gặp nhất là:

Ho

Ho không khỏi hoặc trở nên toi tệ hon đặc biệt là ho ra máu hoặc đờm màu

gỉ sắt (khạc ra hoặc có đờm) là dấu hiệu phổ biến nhất của ung thư phối Tốc độ

lưu lượng máu tăng lên làm tăng đáng kê nguy cơ ung thư phi

Khó thở

Khó thở là những triệu chứng thường xuất hiện ở giai đoạn đầu của bệnhung thư phổi Thay đổi nhịp thở có thé xảy ra do khối u ở phối chặn hoặc thu hepđường thở, hoặc chat lỏng từ khối u phối tích tụ trong lồng ngực

1.2.2 Các yếu tố nguy cơ

Nguy cơ di truyền (tiền sử gia đình)Đây là một yếu tố quan trọng Nếu gia đình của một người có tiền sử mắcbệnh ung thư, đặc biệt là ung thư phổi thì nguy cơ mắc bệnh của họ sẽ cao Không

rõ mức độ rủi ro này có thể là do gen chung giữa các thành viên trong gia đìnhnhưng các nhà nghiên cứu đã phát hiện ra răng di truyền dường như đóng một vaitrò nhất định trong một số gia đình có tiền sử mắc bệnh ung thư phổi Các nhàkhoa học biết một số yếu tố nguy cơ gây ung thư phổi có thé gây ra những thay đôinhất định trong DNA của tế bào phối Những thay đổi này có thé dẫn đến sự pháttriển bất thường của tế bào và đôi khi là ung thư DNA là chất hóa học trong tế bàotạo nên gen của chúng ta, gen này kiểm soát cách tế bào của chúng ta hoạt động.DNA, đến từ cả cha và mẹ của chúng ta, ảnh hưởng nhiều hơn đến vẻ ngoài củachúng ta Nó cũng có thé ảnh hưởng đến nguy cơ phát triển một số bệnh, bao gồmmột số loại ung thư

Các bệnh nhiễm trùng phổi, phế quảnCác bệnh nhiễm trùng như viêm phế quản và viêm phổi không khỏi hoặc

tiếp tục tái phát ví dụ như COPD, lao, hen xuyễn, VIỆC mắc các bệnh này có thể

báo hiệu cho sự suy giảm, hư hỏng chức năng của phối, từ đó cũng làm tăng nguy

cơ mac bệnh ung thư phôi

Hút thuốc và hút thuốc thụ động

Trang 12

Hút thuốc và hút thuốc thụ động là những yếu tố nguy cơ quan trọng nhất.Nguy cơ ung thư phôi tăng đáng ké với việc tăng hút thuốc hoặc tiếp xúc nhiều vớikhói thuốc của người khác Có những trường hợp tỷ lệ hút thuốc thấp hoặc mộtngười không hút thuốc, nhưng nguy cơ ung thư là vừa phải vì các yêu tố khác

Các yếu tố nhân khẩu họcTrong nghiên cứu của Tiến si Barbara Iyen-Omofoman (2013) đã kết luậncác biến về nhân khẩu học có tác động đến kha năng mắc bệnh ung thư phối Cụthể là tuổi, giới tính, nghề nghiệp, tình trạng kinh tế xã hội

Tại Việt Nam theo bệnh viện Trung ương quân đội 108, nhóm đối tượng dễmắc bệnh ung thư phổi Về giới tính và tuổi: Ung thư phổi chiếm ưu thế ở namgiới 50-75 tuổi Tại các nước phương Tây, ty lệ ung thư phổi ở nam giới của vàiquốc gia những năm gan đây không gia tăng trong khi tỷ lệ ung thư phổi có chiềuhướng gia tăng ở phụ nữ Về nghề nghiệp: Chat sinh ung asbestos trong một vàiloại nghề nghiệp (ví dụ như nghề mài má phanh xe) là yếu tổ nguy cơ mắc ung thuphổi Công nhân làm việc ở một số mỏ có nguy co ung thư phổi cao hơn như mỏ

phóng xạ uranium, mỏ kén, mỏ cromate, công nhân làm việc trong một số ngành

nghề có tiếp xúc amiant, công nghiệp hóa dầu, công nghiệp nhựa, khí đốt Việctiếp xúc với khí radon, các ô nhiễm không khí từ kỹ nghệ kim loại nặng và môitrường 6 nhiễm khói thuốc có liên quan đến sự xuất hiện ung thư phối

1.2.3 Thực trạng chan đoán bệnh ung thư phối ở Việt Nam

Theo hướng dẫn chân đoán và điều trị do Bộ Y tế ban hành dé chan đoánbệnh ung thư phôi cần thực hiện 3 chân đoán: chân đoán xác định, chân đoán phânbiệt, chân đoán giai đoạn bệnh

Trong đó, chân đoán xác định sẽ bao gồm chân đoán lâm sàng và chân đoáncận lâm sàng Trong đó, chan đoán lâm sàng dựa trên các đặc điểm về giới tính,tuổi, các triệu chứng (bệnh sử), tiền sử bệnh cá nhân, tiền sử bệnh gia đình, tiền sử

dị ứng, các chỉ số khám sức khoé, Trong khi đó, chân đoán cận lâm sàng sẽ tiễnhành chụp Xquang và nội soi bao gồm các bước sau:

- Chụp Xquang lồng ngực thắng và nghiêng: Phát hiện đám mờ, hình ảnhtràn dich màng phổi Giúp xác định vị trí, hình thái, kích thước tôn thương Ngoài

ra, còn dé đánh giá kha năng phẫu thuật

- Chụp lớp vi tính: Cho phép đánh giá hình ảnh khối u và hạch trung thất, xác

định chính xác vi trí, kích thước và mức độ lan rộng tốn thương ở cả hai phôi.

- Nội soi phế quản: Giúp quan sát trực tiếp tổn thương, xác định vị trí, hìnhthái ton thương: thường gặp thé sùi và chit hẹp phế quản Qua nội soi tiến hành

Trang 13

sinh thiết trực tiếp tổn thương hoặc xuyên thành phế quan dé chân đoán mô bệnh

học.

- Siéu 4m 6 bung: Phát hiện các ton thuong di can

- Xahinh

e Xa hình xương bằng máy SPECT, SPECT/CT với 99mTc-MDP dé

đánh giá tổn thương di căn xương, chân đoán giai đoạn bệnh trước điềutrị, theo đõi đáp ứng điều trị, đánh giá tái phát và di căn

e Xa hình thận chức năng băng máy SPECT, SPECT/CT với

99mTc-DTPA để đánh giá chức năng thận trước điều trị và sau điều trị

- Chụp cắt lớp vi tính sọ não: Phát hiện di căn não.

- Chụp cộng hưởng từ sọ não: Phát hiện chính xác sé lượng, kích thước tônthương di căn não Chụp cộng hưởng từ mô phỏng cho phép lập kế hoạch điều trị

xạ phẫu bằng dao gamma

- Chụp PET/CT ((Positron Emission Tomography/ Computer Tomography):

Phương pháp nay có giá trị: phát hiện sớm tốn thương, đánh giá chính xác giaiđoạn bệnh, theo đõi, đánh giá đáp ứng với điều tri, phát hiện tái phát, di căn xa,tiên lượng bệnh, sử dụng PET/CT mô phỏng dé lap kế hoạch xa tri, xác định vi trisinh thiét

- Tế bao hoc: Tìm tế bào ung thư trong dom, dich màng phổi, dich rửa phếquản, tế bào hạch thượng đòn nếu có

- Sinh thiết tổn thương, chân đoán mô bệnh học: Sinh thiết qua nội soi hoặcsinh thiết xuyên thành ngực dưới hướng dẫn chụp cắt lớp vi tính, lấy bệnh phẩmlàm chân đoán mô bệnh học, có giá trị xác định bệnh Một sé trường hop không

thé sinh thiết khối u phổi, có thé sinh thiết hạch thượng đòn (nếu có) hoặc các tốn

thương di căn khác và nhuộm hóa mô miễn dịch dé xác định nguồn gốc từ phôi

- Xét nghiệm chất chỉ điểm khối u (tumor marker): NSE; CEA; ProGRPnhằm theo dõi đáp ứng điều trị, phát hiện bệnh tái phát, đi căn xa

- Xét nghiệm sinh học phân tử: Giải trình tự nhiều gen

Ưu điểm của phương pháp chân đoán truyền thống này là kết quả chânđoán chính xác Tuy nhiên phương pháp chan đoán truyền thống này cũng tôn tạimột số van đề:

Thứ nhất, việc thực hiện một loạt các kiểm tra này sẽ tốn khá nhiều thờigian và chi phí của người bệnh, các kết quả phân tích kiểm tra thường không được

trả trong ngày.

Trang 14

Thứ hai, đối với các kiểm tra cận lâm sàng về bệnh ung thư phổi không

phải lúc nào cũng được thực hiện Nó thường chỉ được thực hiện ở các bệnh viện

chuyên môn về hô hấp và ung thư

Thứ ba, vì thực hiện rất nhiều các kiểm tra này, các bác sĩ sẽ phải xử lý rấtnhiều thông tin của mỗi bệnh nhân thăm khám, dẫn đến hiệu suất khám bệnh củacác bác sĩ sẽ thấp Ngoài ra, trong thời điểm hiện nay, người dân ngày càng quantâm đến sức khoẻ, nhu cầu thăm khám bệnh ngày càng tăng và với lực lượng y bác

sĩ hiện tại, nếu tiếp tục thực hiện phương pháp chân đoán thủ công, truyền thốngnày thì hệ thống có thé bị quá tải

Thứ tư, vì việc chân đoán này được tiễn hành một cách thủ công và dựakhá nhiều vào kinh nghiệm và chuyên môn của bác sĩ thì khả năng nhầm lẫn, bỏ

sót là không trách khỏi.

1.3 Tổng quan nghiên cứu

1.3.1 Ứng dụng phương pháp Học máy trong lĩnh vực chan đoán sớm bệnh

ung thư phối

Nhận thấy những hạn chế trong việc sử dụng phương pháp chân đoán bệnhung thư phối truyền thống, nhiều nhà nghiên cứu đã nghĩ đến việc ứng dụng Họcmáy vào việc chân đoán bệnh ung thư phổi Và trong những năm gần đây, đề tàinày đã thu hút đông đảo sự quan tâm của giới nghiên cứu Đã có rất nhiều nghiêncứu được xây dựng nhằm khắc phục những hạn chế trong phương pháp chân đoántruyền thống Thời gian gần đây, việc đưa Machine learning để giải quyết bài toánnày đã đem lại nhiều các kết quả tích cực

Nghiên cứu của Spitz và cộng sự (2008) dua ra mô hình dự báo rủi ro mở

rộng cho bệnh ung thư phổi dựa trên dữ liệu dịch tễ học và lâm sàng có thé dễdàng thu thập Tuy nhiên bởi vì độ chính xác của mô hình là khiêm tốn, nhóm tácgiả cải thiện kết quả ước tính thu được bằng cách thêm hai điểm đánh dấu khảnăng sửa chữa DNA Mẫu nghiên cứu là dữ liệu thử nghiệm gồm 725 trường hợpung thư phổi và 615 trường hợp đối chứng., sử dụng phương pháp phân tích hồiquy logistic Kết quả độ chính xác dat 0.7/1 đối với người dang hút thuốc và0.68/1 đối với những người từng hút thuốc Đối với những người từng hút thuốc,các biến tác động đến khả năng mắc ung thư phổi bao gồm: tiền sử bệnh khí phếthũng, tiếp xúc với bụi, tiền sử gia đình mắc bệnh ung thư, tuổi ngừng hút thuốc vàtiền sử sốt cỏ khô Đối với những đang người hút thuốc, bệnh khí phế thũng,cường độ hút thuốc, tiền sử gia đình có liên quan đến hút thuốc và phơi nhiễmamiăng Ưu điểm của nghiên cứu này là xác định các nhóm đối tượng có nguy cơcao mắc bệnh ung thư phổi cho từng nhóm đang hút thuốc và nhóm từng hút

Trang 15

thuốc Trong khi các nghiên cứu trước đây gộp chung 2 nhóm này thành | nhóm.Hạn chế của nghiên cứu này là độ chính xác không cao, ké cả khi thêm 2 biến khảnăng sửa chữa DNA và độ nhạy với Bleomycin thì kết quả chan đoán cũng khôngđược cải thiện quá nhiều Hơn nữa những xét nghiệm này tốn nhiều thời gian vàđòi hỏi một số trình độ chuyên môn kỹ thuật Việc áp dụng mô hình này cho cơ sởdân số đông sẽ gặp nhiều khó khăn

Nghiên cứu của Young và cộng sự (2009) đưa ra mô hình dự báo rủi ro mở

rộng cho bệnh ung thư phổi dựa gen đối với 2 nhóm đối tượng: đang hút thuốc vàtừng hút thuốc Nghiên cứu sử dụng 20 SNP làm dấu hiệu di truyền có tác độngđến nguy co bị ưng thư phổi Mẫu nghiên cứu bao gồm 439 người da trắng hútthuốc hoặc đã từng hút thuốc, sử dụng phương pháp phân tích hồi quy logistic Kếtquả: Yếu tố di truyền (SNP-gen), tuôi, tiền sử COPD, tiền sử gia đình bi ung thưphôi, hút thuốc và giới tính có tác động đến nguy cơ bị ung thư phổi Độ chính xác

là 0.75 ở mức tốt Ưu điểm: Cải thiện độ chính xác so với mô hình đề xuất củaSpitz và cộng sự (2008) Nhược điểm: Mẫu nghiên cứu chi bao gồm nam giới,việc áp dụng kết quả cho toàn dân không khả thi Bởi vì các nghiên cứu trước đâycũng chỉ ra rằng giới tính ảnh hưởng đến khả năng bị bệnh ung thư phổi Ngoài rabiến cường độ hút thuốc là biến số rất quan trọng, nhưng nghiên cứu này đã bỏqua biến này

Park và cộng sự (2013) phát triển một mô hình dự đoán nguy cơ cá nhânđối với bệnh ung thư phổi ở nam giới Hàn Quốc với mẫu nghiên cứu: 1.324.804nam giới Hàn Quốc không bị ung thư ở thời điểm ban đầu Từ mẫu nghiên cứu,nguy cơ phát triển ung thư phổi tuyệt đối của từng cá nhân được ước tính băngcách sử dụng mô hình nguy cơ theo tỷ lệ Cox Kết quả, mô hình dự báo nguy cơung thư phổi ở nam giới Hàn Quốc bao gồm tiếp xúc với hút thuốc, tuổi bắt đầuhút thuốc, chỉ số khối cơ thể, hoạt động thê chất và mức đường huyết Độ chínhxác dao động trong khoảng 0,867-0,876 Ưu điểm của nghiên cứu: độ chính xáccủa mô hình đề xuất cải thiện đáng kể Đây là nghiên cứu đầu tiên cung cấp môhình dự báo nguy cơ ung thư phổi cho từng cá nhân trong cộng đồng người châu

Á Nhược điểm: Biến cường độ hút thuốc được ho là quan trọng bị loại bỏ khỏi

mô hình dự đoán Mô hình này chưa được hiệu chuẩn dé sử dụng trong dân sốchung Ngoài ra biến COPD được đánh giá bằng các xét nghiệm chức năng phốinên tốn nhiều thời gian và đòi hỏi một số trình độ chuyên môn kỹ thuật

Barbara Iyen-Omofoman và cộng sự (2013) đã sử dụng kết của khám lâmsàng và thông tin nhân khẩu học dé chan đoán bệnh ung thư phối Mẫu nghiên cứubao gồm 12.074 trường hợp ung thư phổi va 120.731 trường hợp đối chứng tại

Trang 16

Anh và sử dụng phương pháp phân tích hồi quy logistic Kết quả nghiên cứu là các

biến nhân khẩu học tác động đến bệnh ung thư phôi bao gồm: tuổi, giới tính, tình

trạng kinh tế xã hội và tình trạng hút thuốc và cường độ hút thuốc của bệnh nhân.Các triệu chứng: ho, ho ra máu, khó thở, sụt cân, nhiễm trùng đường hô hấp dưới,nhiễm trùng ngực không đặc hiệu, đau ngực, khàn tiếng, nhiễm trùng đường hôhấp trên và bệnh phổi tắc nghẽn mãn tinh (COPD) tác động đến kết quả chân đoánung thư phổi Độ chính xác của mô hình lên tới 0.88 Đây chính là ưu điểm củanghiên cứu so với các nghiên cứu trước đó Tuy nhiên nghiên cứu cũng mắc phảimột số hạn chế Việc đưa những người không hút thuốc vào phân tích được cho lànguyên nhân khiến giá trị AUC tăng lên Các số liệu thống kê hiệu là một bắt lợi,

và bởi vì chúng được dùng đánh giá nguy cơ ung thư phổi của dân số nói chungnên sẽ không là hữu ích dé sang loc ở các nhóm ung thư phổi có nguy cơ cao

Ở Việt Nam, việc nghiên cứu chân đoán sớm bệnh tật cũng đã bắt đầu đangđược quan tâm và phát triển Trong đó có nghiên cứu của tác giả Lê Minh Hùng vàcác cộng sự (2018) về chan đoán bệnh tim tự động với mẫu nghiên cứu là 699bệnh nhân và 58 thuộc tính là các triệu chứng và kết quả khám lâm sàng Phươngpháp được sử dụng là SVM phi tuyến tính (hạt nhân đa thức, hạt nhân Gaussian và

hạt nhân Sigmoid), Nave Bayes va Logistic Độ chính xác, độ nhạy và độ đặc hiệu

được sử dụng làm số liệu đánh giá để đánh giá hiệu suất phân loại của hệ thống dựđoán chan đoán bệnh tim Kết quả, độ chính xác cao nhất của nghiên cứu lên tới

90.5%.

1.3.3 Khoảng trong nghiên cứu

Mặc dù đã có nhiều nghiên cứu với các phương pháp tiếp cận khác nhau đãđược đề xuất dé chan đoán bệnh ung thư phổi dựa vào khai thác dữ liệu, nhưnghầu hết các nghiên cứu này có độ chính xác trong dự báo chưa cao do tập hợp cácthuộc tính (các biến giải thích) nhỏ, việc khai thác dữ liệu trong y tế còn nhiều hạnchế do hệ thống quản lí dữ liệu y tế chưa thực sự phát triển, việc thu thập dữ liệucũng gặp nhiều khó khăn Vì vậy, chuyên đề này sẽ đề xuất, so sánh nhiều phươngpháp Machine Learning giúp cải thiện độ chính xác trong chân đoán bệnh ung thưphối Ngoài các mô hình đã được các nghiên cứu trước sử dụng như hồi quyLogistic, phương pháp Rừng ngẫu nhiên, bộ phân loại Navie Bayes, chuyên đề đềxuất sử dụng thêm phương pháp hồi quy chính quy (hồi quy Lasso, hồi quyRidge) Đặc biệt việc sử dụng phương pháp dự báo tông hợp đề tổng hợp kết quả

dự báo từ các mô hình trên giúp nâng cao độ chính xác của dự báo.

Trang 17

Chương 2 PHƯƠNG PHÁP NGHIÊN CỨU

Trong chương này, chuyên đề trình bày khái niệm về Machine Learning;

mô hình, cách thực hiện và một số ưu nhược điểm của các mô hình Hồi quy

Logistic, mô hình Rừng ngẫu nhiên (RF), bộ phân loại Navie Bayes (NB), hồi quy

Ridge, hồi quy Lasso và phương pháp dự báo kết hợp

2.1 Phương pháp Machine Learning

2.1.1 Giới thiệu về Machine Learning

Học máy là kỹ năng học máy tính, trong đó một máy được tạo ra với các

thuật toán mà từ đó nó có thé đưa ra lựa chọn của riêng mình và cung cấp cho

người dùng kết quả (Khalaf và cộng sự, 2019) Về cơ bản, nó được biết đến là một

phần của Trí tuệ nhân tạo (Ramos-Lima và cộng sự, 2020; Elassad và cộng sự,

2020), dé phân loại dữ liệu phức tạp và ra quyết định Nói chung, sự phát triển của

các thuật toán giúp máy học những thứ phức tạp và đưa ra các quyết định cần

thiết Nó có kết nối chặt chẽ với tối ưu hóa toán học, cung cấp cho lĩnh vực này

các công cụ, lý thuyết và lĩnh vực thực hiện và được sử dụng trong một số hoạt

động tính toán, nơi các thuật toán rõ ràng không thể được lập kế hoạch và lập trình

(Somvanshi và cộng sự, 2016; Maione va cộng sự, 2019; Zeebaree và cộng sự,

2019) Từ các kỹ thuật và nhiệm vụ mà Học Máy được phân loại rộng rãi thành ba

loại:

Hoc tập có giám sát: loại này giải quyết các van đề hồi quy, chang hạn như

dự báo thời tiết, dự đoán tăng trưởng dân số bằng cách sử dụng các thuật toán hồi

quy tuyến tính hoặc Rừng ngẫu nhiên (Moujahid và cộng sự, 2018; Abdulqader và

cộng sự, 2020) Ngoài ra, học tập có giám sát giải quyết các vấn đề phân loại như

nhận dạng giọng nói, nhận dạng chữ số, chan đoán và phát hiện gian lận danh tính

bằng cách sử dụng thuật toán trong nhiều lĩnh vực, chăng hạn như SVM, Rừng

ngẫu nhiên, KNN và các lĩnh vực khác được sử dụng trong nhiều lĩnh vực (Ahmed

và Sadiq, 2018; Zeebaree và cộng sự, 2018) Trong học tập có giám sát, có hai cấp

độ Giai đoạn đào tạo và giai đoạn thử nghiệm Phải có nhãn được biết đến trong

các bộ dữ liệu được sử dụng cho quá trình đào tạo Các thuật toán nghiên cứu mối

quan hệ giữa các giá trị đầu vào và nhãn và cố gắng dự đoán các giá trị dữ liệu thử

nghiệm (Kubat, 2017; Zantalis và cộng sự, 2019).

Trang 18

Học tập không giám sát: loại này liên quan đến các chủ đề liên quan đếnviệc giảm chiều được sử dụng để trực quan hóa dữ liệu lớn, xây dựng tính năng

hoặc khám phá cấu trúc bí mật Nó cũng được sử dụng cho các mối quan tâm cụ

thể như khung đề xuất, phân khúc khách hàng và tiếp thị mục tiêu (Sulaiman và

cộng sự, 2019) So với học tập có giám sát, không có nhãn nào có sẵn trong

phương pháp này Trong loại này, các thuật toán nhằm mục đích nhận ra các mẫu

trên dữ liệu thử nghiệm và dự đoán các giá trị hoặc cụm dữ liệu trong tương lai

(Kubat, 2017; Zantalis và cộng sự, 2019).

Học tăng cường: trong loại này, dựa trên một tập hợp các thông số điềuchỉnh, các thuật toán cố gắng dự đoán đầu ra cho một vấn đề Sau đó, đầu ra trở

thành một tham số đầu vào, và sau đó một đầu ra mới được tìm thấy một khi đầu

ra tối ưu được tìm thấy Học sâu and Mạng thần kinh nhân tạo (ANN) đã sử dụng

phong cách này (Al-jaboriy và cộng sự, 2019) các ứng dụng chủ yếu sử dụng học

tăng cường như điều hướng robot, tiếp thu kỹ năng, quyết định thời gian thực và

choi game AI (Kubat, 2017; Zantalis và cộng sự, 2019).

2.1.2 Hồi quy Logistic

Hồi quy Logistic là mô hình Machine learning đơn giản nhưng lại rất hiệuquả trong bài toán phân loại (Classification) Hồi quy logistic là một phương pháp

phân tích thong kê được sử dung dé dự đoán giá trị dữ liệu dựa trên các quan sát

trước đó của tập dữ liệu Mục dich của hồi quy logistic là ước tính xác suất của các

sự kiện, bao gồm xác định mối quan hệ giữa các tính năng từ đó đự đoán xác suất

của các kết quả, nên đối với hồi quy logistic ta sẽ có: Input: đữ liệu input (ta sẽ

coi có hai nhãn là 0 và 1) va Output: Xác suất dữ liệu input rơi vào nhãn 0 hoặc

Trang 19

Hình 2.1 Minh họa thuật toán hồi quy Logistic

Trong đó, các diém màu xanh là nhãn 0 và các diém mau đỏ là nhãn 1 đôi

với hôi quy logistic ta sẽ biết được với mỗi điểm thì xác xuất rơi vào nhãn 0 là bao

nhiêu và xác suât rơi vào nhãn | là bao nhiêu, ta có thê thay giữa hai màu xanh và

màu đỏ có một đường thăng đê phan chia rat rõ ràng nhưng nêu các diém dữ liệu

mà không năm sang hai bên mà năm trộn lần nhiêu vào nhau thì ta sẽ phân chia

như nào ? khi đó ta sẽ gọi tập dữ liệu có nhiều nhiễu và ta phải xử lí trước các

nhiễu đó.

Gia sử có một bộ trọng sô w và hai nhãn, nhãn 0 là non-cat và nhãn | là cat

việc học của mô hình chính là việc điêu chỉnh bộ trọng sô w sao cho dự đoán đâu

ra theo đúng ý muốn

Xét trên một điểm dữ liệu ta có input x = [X¡; Xz; }X,] sẽ là một vector cộtXét trên toàn bộ bộ dữ liệu (m điểm dữ liệu) ta sẽ có một vector hàng X =[x4,x), ,xứ*)] X có được bang cách xếp thành cột các x,

Bộ trọng SỐ W = [W¡; w¿; ; w„] là vector cột w? là vector chuyển VỊ của W

nên w? là vector hàng.

Xét trên 1 điểm dé liệu, đặt z = wTx + b (b gọi là bias) vaa = a(z)

Xét trên toàn bộ dữ liệu, đặt:

Z = [zTM,z®, , z0],A= [a, a, ,aTM]

Ham Sigmoid (ham sé Logistic)

Ham Sigmoid (hay còn gọi là hàm số Logistic) là một hàm số có đường

cong dạng hình chữ “S” với công thức như sau:

Trang 20

sẽ tiệm cận đến 0 khi đầu vào tiến đến —œo và sẽ bằng 0.5 khi x =0

Nhờ vào đặc tính này mà hàm sigmoid được sử dụng nhiều trong lĩnh vựctrí tuệ nhân tạo với vai trò là hàm kích hoạt (hàm kích hoạt giúp định nghĩa đầu ra

khi có một input di qua nó).

Ap dụng ham sigmoid để chuyên giá trị wÏx + wy thành xác suất dé kếtluận giá trị của biến y từ đó để xác định được nhãn của input x:

» yÉ): gid trị đúng của input X, yOnhan giá trị 0 hoặc 1

= a(i): giá trị mô hình dự đoán ứng với input x(i)

= _ X: dạng biểu diễn của tất cả các điểm dữ liệu

= A: dạng biểu diễn giá trị mô hình dự đoán được cho tat cả điểm dữ liệu

=» Y: dang biểu diễn tat cả nhãn của dữ liệu

11182538 — Phạm Thị Lan 13

Trang 21

Các bước thực hiện

= 2-2

Đạo ham w theo hàm mất mát

Hình 2.3 Minh họa các bước thực hiện hồi quy LogisticCác bước cần thực hiện lần lượt là:

“ Thiết lập mô hình

= Thiết lập hàm mat mát Loss Function

= Tim tham số bằng việc tối ưu hàm mat mát

= Du đoán dữ liệu mới dựa vào hàm mất mát mới tim được

Do tính đơn giản, dễ thực hiện và diễn giải kết quả, mô hình hồi quylogistic thường xuyên được sử dụng, đặc biệt trong nhiều trường hợp việc hiểu

được mức độ tác động của các yêu tố quan trọng so với kết qua dự báo Ngoài ra,

tính đơn giản của mô hình logistic còn làm cho mô hình phù hợp với những bộ dữ

liệu lớn và có tính phân biệt tuyến tính vì mô hình tốn ít thời gian dé đào tạo

Tuy nhiên, nếu số lượng quan sát ít hơn số lượng biến giải thích, mô hình

có thé gặp phải van dé quá khớp Hon nữa dữ liệu phân biệt tuyến tính cũng khá

hiếm trong thực tế (dữ liệu thực tế thường có nhiều nhiễu) Những điều này ảnh

hưởng rất nhiều đến độ chính xác của dự báo

2.1.3 Phương pháp Rừng ngẫu nhiên

Rừng ngẫu nhiên là một thuật toán học máy có giám sát được xây dựng từ

các thuật toán cây quyết định Thuật toán rừng ngẫu nhiên thiết lập kết quả dựa

trên các dự đoán của cây quyết định Nó dự đoán băng cách lấy giá trị trung bình

hoặc giá trị trung bình của sản lượng từ các cây khác nhau Tăng số lượng cây sẽ

tăng độ chính xác của kết quả

Đề hiểu được cách thức hoạt động của phương pháp rừng ngẫu nhiên, cầnphải hiểu rõ cây quyết định Cây quyết định bao gồm ba thành phan: nút quyết

định, nút lá và nút gốc Thuật toán cây quyết định chia tập dữ liệu huấn luyện

Trang 22

thành các nhánh, tập dữ liệu này sẽ tách biệt thành các nhánh khác Trình tự này

tiếp tục cho đến khi đạt được một nút lá Nút lá không thê được phân tách thêm

Các nút trong cây quyết định đại diện cho các thuộc tính được sử dụng dé

dự đoán kết quả Các nút quyết định cung cấp một liên kết đến các lá Sơ đồ sau

đây cho thấy ba loại nút trong cây quyết định

Hình 2.4 Minh họa thuật toán cây quyết định

Thu thập thông tin được sử dụng trong việc đào tạo cây quyết định Nó giúp

giảm sự không chắc chắn ở những cây này Mức tăng thông tin cao có nghĩa là

mức độ không chắc chắn cao (entropy thông tin) đã bị loại bỏ Entropy và thu thập

thông tin rất quan trọng trong việc tách các nhánh, đây là một hoạt động quan

trọng trong việc xây dựng cây quyết định

Sự khác biệt chính giữa thuật toán cây quyết định và thuật toán rừng ngẫunhiên là việc thiết lập các nút sốc và các nút tách biệt được thực hiện ngẫu nhiên

trong thuật toán sau Rừng ngẫu nhiên sử dụng phương pháp đóng bao dé tạo ra dự

đoán cần thiết

Bagging hay đóng gói (còn được gọi là Bootstrap Aggregation) là kỹ thuật

tập hợp được sử dụng bởi rừng ngẫu nhiên Tập dữ liệu được chia thành nhiều mẫu

ngẫu nhiên và Bagging chọn ngẫu nhiên một mẫu trong số đó Tập dữ liệu đảo tạo

bao gồm các quan sát và tính năng được sử dụng dé đưa ra dự đoán Các cây quyết

định tạo ra các đầu ra khác nhau, tùy thuộc vào dữ liệu huấn luyện được cung cấp

cho thuật toán rừng ngẫu nhiên Các kết quả đầu ra này sẽ được xếp hạng, và kết

quả cao nhất sẽ được chọn làm đầu ra cuối cùng

Việc lựa chọn đầu ra cuối cùng tuân theo hệ thống bỏ phiếu đa số Biéu đồ

dưới đây minh hoạ cách thức phân loại rừng ngẫu nhiên đơn giản.

Trang 23

Phương pháp phân loại

Bước 1: Tạo tập dit liệu làm đầu vào cho mô hình cây quyết định

= Lựa chọn ngẫu nhiên k thuộc tinh từ n biến (k <n)

"Lựa chọn ngẫu nhiên m quan sát từ bộ dữ liệu (1 quan sát bất kì có thể được

lây lặp lại)

Bước 2: Xây dựng mô hình cây quyết định dự trên bộ số liệu vừa tạo với sựlựa chọn các đặc tính ngẫu nhiên (sử dụng các thang do tùy theo tinh huống như

chỉ số Gini, MSE, RMSE, )

Bước 3: Lặp lại bước 1 và bước 2 cho đến khi đủ cây quyết địnhĐiểm mạnh của phương pháp Rừng ngẫu nhiên là có thé sử dụng cho cả bàitoán phân loại và hồi quy Phương pháp này còn có thé làm việc với dữ liệu bị

thiếu Ngoài ra, việc sử dụng nhiều cây quyết định giúp nâng cao độ chính xác của

dự báo, tránh tình trạng quá khớp với tập dữ liệu Phương pháp rừng ngẫu nhiên

cũng không yêu cầu dữ liệu đầu vào dạng chuẩn hoá

Song song với những ưu điểm đó, phương pháp Rừng ngẫu nhiên cũng tồntại một số hạn chế Số lượng cây lớn có thể làm thuật toán chậm và kém hiệu quả

đối với các dự báo thời gian thực (tốn dung lượng và thời gian) Nó cũng không

hoạt động tốt khi có sự chênh lệch số lượng giữa các lớp phân loại

Trang 24

2.1.4 Phân loại Naive Bayes

Bộ phân loại Navie Bayes là tập hợp các thuật toán phân loại dựa trên Định

lý Bayes Nó không phải là một thuật toán đơn lẻ mà là một họ các thuật toán mà

tất cả chúng đều có chung một nguyên tắc, tức là mọi cặp tính năng được phân loại

= P(AIB) là xác suất sự kiện A xảy ra, sau khi biết sự kiện B xảy ra hay không

Giả định cơ bản của Navie Bayes là mỗi tính năng tạo nên phải độc lập và

bình dang trong việc đóng góp vào kết quả

Mô hình Bernoulli Naive Bayes được sử dụng cho các loại dữ liệu mà biếnphụ thuộc là một giá tri binary - băng 0 hoặc 1

P(x,|y)=P(ily) xx, +(1-P(ily))x(I-;)

Trong mô hình Bernoulli đa biến, các đặc trưng là các boolean độc lập (biếnnhị phân) mô tả đầu vào Giống như mô hình đa thức, mô hình này phô biến cho

các nhiệm vụ phân loại tài liệu, trong đó các tính năng xuất hiện thuật ngữ nhị

phân (tức là một từ xuất hiện trong tài liệu hoặc không) được sử dụng thay vì tần

suất (tức là tần suất của một từ xuất hiện trong tài liệu)

Nhìn chung mặc dù phân loại Naive Bayes có những giả định có vẻ quá đơn

giản hóa, các bộ phân loại Naive Bayes đã hoạt động khá tốt trong nhiều tình

huống thực tế, nổi tiếng là phân loại tài liệu và lọc thư rác Chúng yêu cầu một

lượng nhỏ dữ liệu huấn luyện dé ước tính các thông số cần thiết Phân loại Naive

Bayes có thể cực kỳ nhanh so với các phương pháp phức tạp hơn Việc tách các

phân phối đặc trưng có điều kiện của lớp có nghĩa là mỗi phân phối có thê được

ước tính độc lập như một phân phối một chiều Điều này lần lượt giúp giảm bớt

các vấn dé bắt nguồn từ lời nguyễn về chiều không gian Tuy khắc phục được rất

nhiều hạn chế so với các phương pháp, mô hình khác nhưng bộ phân loại Naive

Bayes vẫn tồn tại hạn chế Các giả định do Naive Bayes đưa ra thường không đúng

với các tình huống thực tế Trên thực tế, các giả định về tính độc lập khó có thé

Trang 25

đúng Hầu hết các trường hợp thực tế, các thuộc tính (biến giải thích) trong các đối

tượng thường phụ thuộc vào nhau.

2.1.5 Hồi quy Ridge và hồi quy Lasso

Trong dự báo, việc thêm biến trong mô hình tuyến tính có thể làm giảm độchệch nhưng lại làm tăng phương sai Điều này dẫn đến các giá trị dự đoán khác

xa với các giá trị thực tế Một phương pháp được sử dụng dé giải quyết van dé nàyđược biết đến rộng rãi là phương pháp co ngót phù hợp với một mô hình có chứatất cả các yếu tố dự báo sử dụng kỹ thuật thu hẹp các ước lượng hệ số về không.Kết quả phương pháp co ngót có độ chệch cao hơn nhưng phương sai thấp hơnphương pháp bình phương nhỏ nhất (OLS) Hai kĩ thuật nổi tiếng trong phươngpháp này phải kể đến là hồi quy Ridge và hồi quy Lasso

Hồi quy RidgeKhi đa cộng tuyến xảy ra, ước tính bình phương tối thiểu là không thiên vị,nhưng phương sai của chúng lớn nên chúng có thé cách xa giá trị thực Bằng cáchthêm một mức độ sai lệch cho các ước tính hồi quy, hồi quy Ridge giúp giảm các

lỗi tiêu chuẩn.

Dé ước tính hệ số ; trong mô hình tuyến tính, chúng ta tối thiểu hóa ham

Còn trong hồi quy Ridge, chúng ta sẽ tìm hệ số B; dé tối thiêu hoá hàm số

= KhiÀ=0, hồi quy Ridge sẽ giống với hồi quy OLS.

“ Khi ^ lớn, tác động của hình phạt sẽ tăng lên và ước lượng hệ số hồi quy

Ridge sẽ tiến về 0

" - Việc chọn một giá tri tốt cho A là rất quan trọng (nên dùng xác nhận chéo)

Tiêu đề	Ứng dụng Machine Learning trong việc chẩn đoán sớm ung thư phổi
Tác giả	Phạm Thị Lan
Người hướng dẫn	PGS. TS Nguyễn Thị Minh
Trường học	Trường Đại học Kinh tế Quốc dân
Chuyên ngành	Toán Kinh tế
Thể loại	Chuyên đề thực tập
Năm xuất bản	2021
Thành phố	HÀ NỘI

Định dạng
Số trang	51
Dung lượng	13,88 MB

Tài liệu tham khảo	Loại	Chi tiết
1. American Cancer Society (2021). https://www.cancer.org/cancer/lung-cancer/about/what-is.html, 01/12/2021	Link
2. Laurent Gatto (2020). An Introduction to Machine Learning with R.https://lgatto.github.i0/IntroMachineLearning WithR/an-introduction-to- machine-learning-with-r.html, 01/12/2021	Link
3. Machine Learning in R for Beginners with Example (2021).https://www.edureka.co/blog/machine-learning-with-r/, 01/12/2021	Link
5. The World Trade Organization (WTO). https://www.who.int/health- topics/cancer, 01/12/2021	Link
8. Le, H. M., Tran, T. D., & Van Tran, L. A. N. G. (2018). Automatic heart disease prediction using feature selection and data mining technique. Journal of Computer Science and Cybernetics, 34(1), 33-48	Khác
9. Mahesh, B. (2020). Machine Learning Algorithms-AReview. International Journal of Science and — Research (IJSR).[Internet], 9, 381-386	Khác
10.Maione, C., Barbosa Jr, F., & Barbosa, R. M. (2019). Predicting the botanical and geographical origin of honey with multivariate data analysis and machine learning techniques: a review. Computers and Electronics in Agriculture, 157, 436-446	Khác
11.Park, S., Nam, B. H., Yang, H. R., Lee, J. A., Lim, H., Han, J. T., ... &amp	Khác
13.Somvanshi, M., Chavan, P., Tambade, S., & Shinde, S. V. (2016, August). A review of machine learning techniques using decision tree and support vector machine. In 2016 international conference on computing communication control and automation (ICCUBEA) (pp. 1- 7). IEEE	Khác
14.Spitz, M. R., Hong, W. K., Amos, C. L, Wu, X., Schabath, M. B., Dong, Q., ... & Etzel, C. J. (2007). A risk model for prediction of lung cancer. Journal of the National Cancer Institute, 99(9), 715-726	Khác
15.Young, R. P., Hopkins, R. J., Hay, B. A., Epton, M. J., Mills, G. D., Black, P. N., ... & Gamble, G. D. (2009). A gene-based risk score for lung cancer susceptibility in smokers and ex-smokers. Postgraduate Medical Journal, 85(1008), 515-524	Khác
16.Zeebaree, D. Q., Haron, H., Abdulazeez, A. M., & Zebari, D. A. (2019, April). Machine learning and region growing for breast cancersegmentation. In 2079 International Conference on Advanced Science and Engineering (ICOASE) (pp. 88-93). IEEE	Khác
17.Zhou, Z. H. (2019). Ensemble methods: foundations and algorithms.11182538 — Pham Thi Lan	Khác