Nghiên cứu, đánh giá các mô hình máy học để huấn luyện dữ liệu bao gồm dữ liệu hìnhảnh và dữ liệu bảng để đưa ra mô hình dự đoán dung tích sống gắng sức của bệnh nhân... Triệu chứng của
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN
KHOA KHOA HOC MAY TINH
TRAN KIM SEN
LE THUY TRIEU
KHOA LUAN TOT NGHIEP
DU DOAN DUNG TICH SONG GANG SUC
CUA BENH NHAN
CỬ NHÂN NGANH KHOA HOC MAY TÍNH
TP HO CHÍ MINH, 2021
Trang 2ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KHOA HỌC MÁY TÍNH
TRÀN KIM SEN - 17520144
LÊ THỦY TRIEU - 17520180
KHÓA LUẬN TÓT NGHIỆP
DU DOAN DUNG TÍCH SÓNG GANG SUC
CUA BENH NHAN
CU NHAN NGANH KHOA HOC MAY TINH
GIANG VIEN HUONG DAN
TS LE MINH HUNG
TP HO CHÍ MINH, 2021
Trang 3DANH SÁCH HỘI DONG BẢO VỆ KHÓA LUẬN
Hội đồng cham khóa luận tốt nghiệp, thành lập theo Quyết định số
Ti8ầy của Hiệu trưởng Trường Đại học Công nghệ Thông tin.
1 PGS.TS Lê Dinh Duy — Chủ tịch.
2 ThS Cáp Phạm Đình Thăng — Thư ký.
3 TS Mai Tiến Dũng — Ủy viên.
Trang 4ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc CÔNG NGHỆ THÔNG TIN
TP HCM,ngày tháng năm 2021
NHẬN XÉT KHÓA LUẬN TÓT NGHIỆP
CÁN BỘ HƯỚNG DẪN
Tên khóa luận:
DỰ ĐOÁN DUNG TÍCH SỐNG GẮNG SỨC CỦA BỆNH NHÂN
Nhóm SV thực hiện: Cán bộ hướng dẫn:
Lê Thủy Triều - 17520180 TS Lê Minh Hưng
Trần Kim Sen - 17520144
Đánh giá Khóa luận
1 Về cuốn báo cáo:
Số trang 51 Số chương 5
Số bảng số liệu 4 Sốhìnhvẽ 29
Số tài liệu tham khảo 18 Sảnphẩm 0
Một số nhận xét về hình thức cuốn báo cáo:
2 Về nội dung nghiên cứu:
Trang 5Nghiên cứu, đánh giá các mô hình máy học để huấn luyện dữ liệu bao gồm dữ liệu hình
ảnh và dữ liệu bảng để đưa ra mô hình dự đoán dung tích sống gắng sức của bệnh nhân.
Lê Thủy Triều: 9.5 / 10
(Ký tên và ghi rõ họ tên)
Trang 6LỜI CẢM ƠN
Chúng em xin được bày tỏ lòng biết ơn sâu sắc đến các thầy cô tại trường Đại học Công
nghệ thông tin đã hết lòng giảng dạy chúng em trong những năm ngôi trên ghế nhà trường.
Xin cảm ơn các thầy cô khoa Khoa học máy tính đã chia sẻ những kiến thức quý báu và
luôn bên cạnh động viên, giúp đỡ chúng em vượt qua những thử thách trong học tập.
Cảm ơn gia đình và bạn bè đã luôn ủng hộ nhóm tác giả xuyên suốt quá trình làm khóa
luận Cuối cùng, cảm ơn chính bản thân đã nỗ lực hết mình đề hoàn thành tốt nhất khóa
luận này.
Xin chân thành cảm ơn!
Lê Thủy Triều — Trần Kim Sen
Trang 7ĐẠI HỌC QUOC GIA TP HO CHÍMINH CỘNG HÒA XÃ HOI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc
CÔNG NGHE THONG TIN
DE CUONG CHI TIET
TEN DE TÀI: DU DOAN DUNG TÍCH SONG GANG SUC CUA BỆNH NHÂN
TEN DE TAI TIENG ANH: PREDICT FORCED VITAL CAPACITY OF PATIENT
Cán bộ hướng dẫn: TS Lê Minh Hưng
Thời gian thực hiện: 16 tuần Từ ngày 12/9/2020 đến ngày 2/1/2021.
Sinh viên thực hiện:
Trần Kim Sen - 17520144
Lê Thủy Triều - 17520180
Nội dung đề tài:
Xo phổi là bệnh mà các mô trong phổi bị tồn thương, dày lên và cứng hơn vi tính
đàn hồi bị mắt, gây ra sẹo ở phổi Những vết sẹo này cản trở quá trình hô hấp của người bệnh Các triệu chứng của bệnh có thể được kiểm soát và thuyên giảm, tuy
nhiên không thé phục hồi tổn thương phổi và chữa lành các sẹo phôi.
Bệnh xơ phôi tiền triển theo thời gian, khi sức chứa không khí trong phổi bệnh nhân
ngày càng ít đi thì tiên lượng sẽ ngày càng trở nên xấu hơn Triệu chứng của bệnh xuất hiện chậm và giống với nhiều bệnh lý ở phôi khác nên rất khó dé chân đoán tức thời vì vậy cần sử dụng chỉ số Dung tích sống gắng sức (Forced Vital Capacity -
EVC) đề nhận biết bệnh, đánh giá sự tiến triển và hiệu quả điều trị Chỉ số FVC là
lượng không khí thở ra nhanh và mạnh sau khi gắng sức hít thở sâu nhất có thé Việc
Trang 8dự đoán chỉ số FVC trong quá trình điều trị bệnh là cần thiết đề bác sĩ và bệnh nhân
ước tính được tình trạng bệnh trong thời gian tới.
Vấn dé đặt ra cho nhóm tác gia: từ ảnh chụp CT và thông tin khám lâm sàng (bao
gồm: ID bệnh nhân, số tuần tương đối trước/sau CT, dung tích phổi (ml) ) cho
trước của bệnh nhân có thé dự đoán được chỉ số FVC trong các tuần kế tiếp hay không? Đề giải quyết vấn đề trên, nhóm tác giả đã chọn và thực hiện đề tài: “Dự
đoán dung tích sống gắng sức của bệnh nhân".
Mục tiêu: Đưa ra những dự đoán chính xác nhất có thé về giá trị của chỉ số FVC của
bệnh nhân.
Đối tượng: Ảnh chụp CT phổi và thông tin khám lâm sàng của nhóm bệnh nhân có nguy cơ mắc bệnh xơ phôi.
Phương pháp thực hiện:
o Xử lý, tăng cường dit liệu;
o Cài đặt một số mô hình học sâu như là: CNN, ResNet, EfficientNet;
© Tinh chỉnh một số tham số của các mô hình dé có kết quả tốt nhất có thể;
© Thống kê kết quả, đánh giá mô hình.
Kế hoạch thực hiện:
Tuần 1: Tìm hiểu dé tai và các phương pháp giải quyết van đề đặt ra.
Tuần 2 — 9: Tìm hiểu và cài đặt một số mô hình học sâu.
Tuần 10 — 13: Tinh chỉnh một số tham số của mô hình đề thu được kết quả tốt nhất Tuan 14 — 16: Viết báo cáo.
Phân công công việc:
Tên sinh viên Công việc
Trần Kim Sen - Tìm hiểu đề tài
Trang 9- _ Tìm hiểu và cai đặt một số mô hình học sâu
- Tinh chỉnh một số tham số của các mô hình đã cai
đặt dé có kết quả tốt nhất
- Viết báo cáo
Lê Thủy Triều - Tìm hiểu dé tài
- Tìm hiểu và cài đặt một số mô hình học sâu
- Thong kê kết quả và đánh giá mô hình
- Viết báo cáo
Xác nhận của CBHD TP HCM, ngày tháng năm 2021 (Ký tên và ghi rõ họ tên) Sinh viên
(Ký tên và ghi rõ họ tên)
Trang 10Chương 1 Tổng quan
1.1 Giới thiệu đề tài vcvvvvet nh tt rrrrrrrrrrrrrrrrriee 3
1.2 Pham vi và đối tượng nghiên cứu
1.3 Mục tiêu nghiÊn CỨU ¿+ + tt 3 ETvThnhg Hn HH gnnrriưy 5
1.4 Đóng góp của khóa luận.
1.5 Cấu trúc luận văn ccrtrtttttt ttt.ttttttiiiiiiiiiiirriiirrrriee 6 Chương 2 Cơ sở lý thuyẾt .2¿-©2222+22222++2222111122221112222111222111 1211 ce 7
2.1 Convolutional Neural NetWOTK - + + iec 7
2.2 VGGI0 6 ,⁄2272 8:5, GGIIE., dc 8 2.3 Resnet50 Apna rrvsvvcsscssvesrseserssseMesesssseeeeedfbecsssnessnsesaseseassasesseseasseseeee 9 2.4 Ridge T€ðT€SSIOI - 25522232 L2 2221912111217 0101111121211 11111 re 1 2.5 Quantile r€ðT€SSIOT S3 E11 1E về T1 HH ngư 2 2.6 Linear regression sử dung Stochastic Gradient Descent - 3
2.7 Support VectOr T€ØT€SSIOH cee ceeeeeescseeeeeseseseeeeesssseseseseeeeseeeseseees 4
2.8 EfficientNet (B5) c.ccccscessessesesscsesseseesessesessesessesnssesssseesssessseasseeessnessessseseeenee 5
2.9 Pinball 1OSS cscsceseseesesssescseeeseseseseeeseseseeeeseseseseseesesesescseeeescssssseseeeeassseeaees 7 2.10 MIOSS funCfiOn 5c 5222222 222121 12 1 1212101111121 111111 re 8 2.11 Recurrent Neural Network (RNN) :cccccccsssesesseeeseseeseseeseeseeeeeseeseseeeeesses 9 2.12 Adam and RAdam optimizers 0 cccceeesesesesesesseseseseseeesesesssseneseseeeenenes 21 Chương 3 Thực nghiém oo ccc - + E11 1111111 010101 1H00 hàn 24 3.1 Giới thiệu tập dữ liệu -. ¿- ¿5c 22tr ướt 24
3.1.1 Dữ liệu training -ccScSeererieieererkee 24
3.1.2 Dữ liệu pubilic -.SẶ 52c te 26
Trang 113.1.3 Dữ liệu private che 26 3.2 Độ đo đánh giá
3.3 Phân tích dữ liệu -. ¿-¿- 6 22222221 122212121218121212121.1212 re 28
3.4 Tiền xử lý dữ liệu.
3.5 Training baseline mO(elÌ - ¿+ + + + + kề HH ng Hư 36
3.6 Phương pháp cải tiến hon từ baseline model
Chương 4 Thống kê và đánh giá -2 22¿++2EE+z+tSEEEEEtEEEEEEetrrrrkrrrrrrkrcee 40
4.1 Bảng thống kê kết quả từ mô hình baseline
4.2 Bảng thống kê kết quả từ các mô hình cải tiến - z-c-5s⁄ 44 Chương 5 Tổng kết 222¿2222222222E222222223322222111222211 22211 rtrrrrvee 50
SV St Wa n.ố .z <“a ` ` 50 5.2 Hướng phát triỂn -:+¿-©22V©2222+++22222EE122222222211112 2221111 rrrrrrrr 50
Trang 12DANH MỤC HÌNH VẼ
Hình 1.1: Hình anh minh họa cách đo FVC Bệnh nhân sẽ thối khí tối đa vào trong
dụng cụ đo dung tích sống Sau đó kết quả được hiền thị lên màn hình 3Hình 1.2: A-phỗi bình thường, B-Phổi bị xơ hiện rõ những sẹo phổi ¬ 4
Hình 2.1: Mạng nơ-ron thông thƯờng - +3 33+ EEsrirerrrsrrrrrrrrrrsee 7
Hình 2.2: Mạng nơ-ron tích chập - - - 5 + 2c 132118391189 11 9111 81111 11 1 ng ng, 8Hình 2.3: Minh họa kiến trúc VGG19 .-¿- -St+keEk+EEEESEEEEEEEEEEEEEEEEkEEkrkerkrkrrkee 9
Hình 2.4: Cấu trúc khối Residual Block - cc¿-+cc+ecrrrrreerrrrrkrrrrrrrrkeg 10
Hình 2.5: Kiến trúc mạng ResNet-50 - ¿5:2 St+SE‡EE+EE2EE2E2EEEEEEEEEkerkrrerree 11Hình 2.6: Đồ thi minh hoa 3 đường phân vi (0.9; 0.5; Ö.Ï) c sec 13
Hình 2.7: Support vector giúp xác định đường dự đoán và biên của dữ liệu 15
Hình 2.8: Minh họa thử nghiệm thu phóng theo chiều rộng, độ sâu, độ phân giải ở cácmức độ khác nhau [ ÍÓ ] - - - cE 3211113221113 121 1131581111821 11 1811185111118 1 xe 17
Hình 2.9: RNN cell [§] ¿ s¿22¿ ©2222 22Et22E2E122112711211211271121121111 1121 cre 19
Hình 2.10: Mô hình RNN.isscessessesscssessessesssesseesessscsusssessecsecssessecsecsussussseeseeseaseeseeseess 19
Hình 2.11: Mô hình LSTM c.cccccccsccsscssscssseessecssesssessscssecssessscasecsuecssessecssecsucsseeaseeaseess 20Hình 2.12: Biéu đồ hóa giá trị loss của một số hàm tối ưu trên tập dir liệu De-En
5z im -.ắäíỉịỌỌỘỪỘỜỘờòỪỘOỘnỪỘỪi4' 22Hình 3.1: Hình ảnh DICOM cắt lớp từ ảnh CT scan phối - .: -:-2 5: 24Hình 3.2: Minh họa số lượng dữ liệu cho từng bệnh nhân Trục dọc thê hiện số lượng
dữ liệu tương ứng với từng bệnh nhân ở trục ngang ‹ - «+ x+ssexsseeess 26
Hình 3.3: D6 thị của Laplace ÌOg - 2-2 + +E+EE£EE£EEEEEEEEEEEEEEEErEerkerkrrkrree 27Hình 3.4: Sơ đồ thê hiện cau trúc dữ liệu bao gồm input va ouput của bài toán .29Hình 3.5: 30 hình ảnh cắt lớp từ ảnh chụp CT scan của 1 bệnh nhân 30Hình 3.6: Minh họa anh CT scan phổi trên không gian 3 chiều -.- 31
Hình 3.7: Biéu đồ thé hiện sự tương quan đữ liệu của một số thuộc tinh với nhau vavới giá trị FVC cần dự đoán ¿2 +22 E+EEEEEEEEE2E12E1E7171121121171711 211 xe 32
Hình 3.8: Minh họa độ tương quan dir liệu giữa Age, FVC va Percent 33
Trang 13Hình 3.9: Minh họa sự tương quan dir liệu của FVC va week Giá trị FVC có xuhướng giảm dan theo thời gian 2: 252 +£+Ex£2EE+EEESEE+2EEEEEEEEEerkrrrkrrrerree 33Hình 3.10: Sơ đồ thé hiện mối tương quan dữ liệu giữa Age và SmokingStatus 34Hình 3.11: Phân bố dữ liệu giữa Sex và SmokingStatus -: -: 5¿ 35
Hình 3.12: Sơ đồ minh họa quá trình huấn luyện của dữ liệu ảnh 37
Hình 3.13: Sơ đồ minh họa quá trình huấn luyện của dữ liệu bảng - 38Hình 3.14: Sơ đồ minh họa quá trình huấn luyện dit liệu ảnh kết hợp với dữ liệu bảng
Trang 14DANH MỤC BANG
Bảng 4.1: Kết quả thống kê từ mô hình baseline 2-2 2 s2s2+£++zs+zxzsz 40
Bảng 4.2: Kết quả thống kê từ mô hình huấn luyện ảnh -2- 2-5 5552 44
Bang 4.3: Kết qua thống kê từ mô hình huấn luyện metadata - 45
Bảng 4.4: Kết quả thống kê từ kết hop cả 2 loại mô hình huấn luyện 41
Trang 15DANH MỤC TỪ VIET TAT
Ký hiệu, chữ viết tắt Tên đầy đủ
FVC Forced Vital Capacity
CT scan Computed Tomography Scan
CNN Convolution Neural Network
DICOM Digital Imaging and Communications in Medicine
ResNet Residual Network
DNN Deep Neural Network
LSTM Long Short-Term Memory
RNN Recurrent Neural Network
SVR Support Vector Regression
SGD Stochastic Gradient Descent
RAdam Rectified Adam
Trang 16TÓM TẮT KHÓA LUẬN
Ngày nay, công nghệ thông tin đã và đang được ứng dụng trên mọi lĩnh vực xã hội,
trong đó có lĩnh vực y tế, là một lĩnh vực với đặc thù ảnh hưởng trực tiếp đến sức
khỏe và đời sông của con người.
Trong khóa luận này, chúng tôi đã nghiên cứu những mô hình máy học dé giải quyếtbài toán dự đoán dung tích sống gắng sức (FVC) của bệnh nhân Đây là một chỉ số
dùng dé phát hiện những bệnh lý về phổi, trong đó có bệnh xơ phổi, một căn bệnhcho đến hiện nay vẫn chưa có phương pháp điều trị để ngăn chặn bệnh tiến triển Các
phương pháp điều trị bệnh hiện tại chủ yếu là cải thiện những triệu chứng tạm thờihoặc làm chậm quá trình phát triển của bệnh Bệnh xơ phối có triệu chứng rất giốngvới một số bệnh lý về phổi khác, vì vậy cần đo chỉ số FVC dé nhận biết bệnh, đánhgiá sự tiên triên và hiệu quả điêu trỊ.
Tuy phương pháp đo FVC có thé nhận biết bệnh, nhưng sự thay đổi, tiến triển củabệnh rất phức tạp, có thê từ ôn định lâu dài cho đến xấu đi nhanh chóng và khó có thể
biết được tình trạng bệnh lý đang năm trong khoảng giai đoạn nào Từ đó, vấn đềđược đặt ra cho nhóm chúng tôi là “Dự đoán dung tích sống gang sức của bệnh nhân”trong thời gian xa nhất có thê
Bộ dữ liệu được cung cấp bao gồm tập hình anh DICOM cắt lớp từ 1 CT scan và toàn
bộ lịch sử khám bệnh lâm sàng dưới dạng Metadata (siêu dữ liệu/dữ liệu bảng) của
bệnh nhân Vì dữ liệu được thu thập từ dữ liệu y tế thật nên giá tri thiếu hoặc lỗi làrất ít (chỉ 2 dòng dữ liệu trên tổng số 1549) Tuy nhiên, cũng vì là đữ liệu thật nênthời gian khám bệnh là khác nhau đối với từng bệnh nhân trong khi bài toán dự đoánFVC sẽ trả về kết quả trên một khoảng thời gian liên tục Chúng tôi đã chọn mốc thờigian lâu nhất mà người bệnh có thé tái khám trong tập dữ liệu dé xác định số lượngtuần cần dự đoán sau đó chỉ tính kết quả dự đoán dựa trên những tuần mà người bệnh
đó tái khám.
Trang 17Vì đầu vào của bài toán có cả dữ liệu hình ảnh y khoa và dữ liệu bảng, nên hướng
tiếp cận dé giải quyết bài toán rất đa dạng Chúng tôi dùng những mô hình học sâu
có cầu trúc CNN, cùng với EfficientNet (mạng thu phóng mô hình sử dụng cho CNN)
dé huấn luyện tập hình ảnh Với siêu dữ liệu, chúng tôi sử dụng những phương phápMachine Learning áp dung cho mô hình hồi quy Sau đó, kết hợp 2 kết quả có được
và đưa ra dự đoán cuôi cùng.
Trong suốt quá trình nghiên cứu, chúng tôi xác định được những hiệu quả và hạn chế
của các mô hình đã sử dụng, tìm hiểu cách triển khai nhiều mô hình khác nhau Từ
đó chọn ra những mô hình thích hợp nhất với bài toán chủ đề, thống kê kết quả vàđịnh hướng phát triển mô hình trong tương lai
Trang 18Chương 1 Tổng quan
1.1 Giới thiệu đề tài
Chỉ số dung tích sống gắng sức (Forced Vital Capacity, gọi tắt là FVC) là lượngkhông khí thở ra nhanh và mạnh sau khi người bệnh gắng sức hít vào sâu nhất có
thé, được tính bang ml (Hình 1.1 minh họa cach đo chỉ số FVC) Chi số nay duoc
sử dung dé chan đoán một số bệnh lý về phối, trong đó có bệnh xơ phôi
Màn hình hiển thị
Hình 1.1: Hình ảnh minh họa cách đo FVC Bệnh nhân sẽ thối khí tối đa vào trong
dụng cụ do dung tích sống Sau đó kết quả được hiên thị lên màn hình
Xo phối là bệnh mà các mô trong phổi bị tổn thương, dày lên và cứng hơn vì tính
đàn hồi bi mat, gây ra sẹo ở phôi (Hình 1.2-B) Những vét sẹo này cản trở quá trình
hô hấp của người bệnh Bệnh ảnh hưởng nghiêm trọng đến sức khỏe của con người,những bệnh nhân mắc phải căn bệnh nguy hiểm này có tiên lượng chỉ trung bình
từ 3 - 5 năm.
1
https://www.vinmec.com/vi/tin-tuc/thong-tin-suc-khoe/suc-khoe-tong-quat/do-chuc-nang-thong-khi-phoi-bang-phe-dung-ke/?link_type=related_posts
Trang 19Cho đên nay, van chưa biệt chính xác nguyên nhân nao gây ra bệnh Tùy vào sức khỏe và thê trang của moi người mà bệnh xơ phôi có những triệu chứng và diễn
biên khác nhau.
Hình 1.2: A-phối bình thường, B-Phổi bị xơ hiện rõ những sẹo phổi
Các triệu chứng của bệnh có thê được kiêm soát và thuyên giảm, tuy nhiên khôngthé phục hồi tổn thương phổi và chữa lành các sẹo phôi Triệu chứng của bệnh xuấthiện chậm và giống với nhiều bệnh lý ở phối khác nên can sử dụng chỉ số FVC dé
chan đoán bệnh Vi vậy việc dự đoán trước chỉ số FVC là cần thiết để nhận biết
bệnh, đánh giá sự tiên triên và hiệu quả điêu tri sớm nhât có thê.
Van đề đặt ra cho nhóm tác giả là: từ ảnh chụp CT và thông tin khám lâm sàng chotrước của bệnh nhân, ta có thê dự đoán được chỉ số FVC trong các tuần kế tiếp hay
?
https://www.vinmec.com/vi/tin-tuc/thong-tin-suc-khoe/suc-khoe-tong-quat/benh-xo-phoi-co-nguy-hiem-khong/
Trang 20không? Dé giải quyết van đề trên, nhóm tác giả đã chọn và thực hiện dé tài: "Dự
đoán dung tích sông gang sức của bệnh nhân".
1.2 Phạm vi và đối tượng nghiên cứu
Trong dé tài này, chúng tôi có phạm vi và đôi tượng nghiên cứu như sau:
Dự đoán chỉ số FVC theo tuần cho bệnh nhân có thông tin khám lâm sàng và ảnh
chụp CT kể từ lần đầu tiên bệnh nhân đó khám bệnh
1.3 Mục tiêu nghiên cứu
Trong phạm vi khóa luận này, chúng tôi nghiên cứu về bài toán “Dự đoán dungtích sống gắng sức của bệnh nhân” với mục tiêu:
e_ Hỗ trợ phát hiện bệnh xơ phối của bệnh nhân trong tương lai gần.
¢ Hỗ trợ đánh giá sự tiễn triên và hiệu quả điều trị bệnh xơ phối
e Tim hiêu và tiên hành thực hiện các mô hình hoc sâu đê giải quyét bài toán có
dữ liệu ảnh y khoa và dữ liệu bảng từ dữ liệu y tế thật
1.4 Đóng góp của khóa luận
e Đề xuất phương pháp phân tích và xử lý dữ liệu cho ảnh CT scan
e Đề xuất một số mạng học sâu nhận dạng hình ảnh đầu vào là CT scan
e Đề xuất mô hình dự đoán chi số dung tích sống gắng sức cho bệnh nhân suy
giảm miễn dịch ở phổi.
Trang 21e Thống kê và đánh giá kết quả đạt được khi ứng dụng một số phương pháp máy
học áp dụng cho dit liệu bảng kết hợp với một số mạng học sâu áp dụng cho
dữ liệu hình ảnh.
1.5 Cầu trúc luận văn
Chương 1 - Tống quan: Giới thiệu về dé tài, phạm vi, đối tượng và mục tiêu
nghiên cứu, đồng thời đưa ra những đóng góp của khóa luận
Chương 2 - Cơ sở lý thuyết: Giới thiệu những phương pháp, mô hình mà nhómtác giả đã áp dụng dé thực hiện khóa luận
Chương 3 - Thực nghiệm: Liệt kê chỉ tiết từng bước thực hiện đề tài nghiên cứu
Chương 4 - Thống kê và đánh giá: Thống kê và đánh giá kết quả đạt được Sosánh các phương pháp được áp dụng vào đề tài nghiên cứu, từ đó đề xuất phươngpháp tốt nhất trong các phương pháp đã nghiên cứu
Chương 5 - Tổng kết: Trình bày kết quả đạt được Những đóng góp mới và những
đề xuất mới Kiến nghị về những hướng nghiên cứu tiếp theo.
Trang 22Chương 2 Cơ sở lý thuyết
2.1 Convolutional Neural Network
Mạng nơ-ron tích chập (convolution neural network, gọi tắt là CNN) lấy cảm hứng
từ não người được nghiên cứu trong những thập niên 50-60 của thế kỷ 20, do D.HHubel và T.N Wiesel tiễn hành trên não của động vật và sau đó đã đề xuất một môhình mới cho cách mà động vật nhìn nhận thế giới Vào năm 1998, mô hình CNN
đầu tiên được giới thiệu bởi Bengio, Le-Cun, Bottou và Haffner Mô hình này cótên là LeNet-5 và sử dụng dé nhận diện chữ số viết tay
Hình 2.1: Mạng no-ron thông thường
CNN có kiên trúc khác với Neural network thông thường Đôi với mạng nơ-ron bình thường, chúng sẽ chuyên đôi dau vào thông qua các tầng ân Với mỗi tang an
đó, các nơ-ron giữa các tâng cận kê được liên kêt đây đủ với nhau và tâng cuôicùng sẽ trả về kết quả đại diện cho dự đoán của mạng (Hình 2.1) Tuy nhiên, nếu
3 http://cs23 In.github.io/convolutional-networks/
Trang 23mạng càng nhiêu lớp thì số lượng tham số tăng lên quá nhanh Vậy nên cần có giảipháp tốt hơn, đó là CNN (Hình 2.2).
e Phần tang ân (phan rút trích đặc trưng): Mạng sẽ tiến hành tính toán các
phép convolution (tích chập) va pooling (hợp nhất) dé phát hiện ra các đặc
trưng trong hình ảnh.
e Phần phân lớp: Là một vài tang với kết nối đầy đủ có vai trò như một bộ
phân lớp các đặc trưng đã được rút trích từ phần trước đó Sau đó đưa ra
xác suất đối tượng trong hình anh thuộc lớp nao
2.2 VGG19
VGG19 là một mang CNN sử dụng kernel 3x3 trên toàn bộ các lớp tích chập Mang
có độ sâu 19 weight layers (lớp trọng số), gồm 16 lớp Convolution (Conv) và 3 lớpFully-connected (FC) VGG ra đời năm 2014, đạt được kết quả tốt trong cuộc thi
ILSVRC-2014 với tỉ lệ lỗi top 5 là 7.3% và được giới thiệu tại hội thảo ICLR
2015 Giá trị theo sau VGG thé hiện độ sâu của mạng cũng như số lượng các lớp
* http://cs23 1n.github.io/convolutional-networks/
Trang 24trọng số được sử dụng Ngoài VGG19, kiến trúc của mạng này có nhiều biến thé
khác nhau như 11, 13 và 16 weight layers.
Nguyên tắc thiết kế của mạng VGGI9 bao gồm 2 hoặc 4 layers Convolution(Conv) và 1 lớp MaxPooling2D nối nhau Cuối cùng là các FC layers và 1 Softmax
layer dùng dé phân lớp đầu ra cho mạng (Hình 2.3)
maxpool; maxpool | maxpool {| maxpool
depth=64 depth=128 3x3 conv 3x3 conv 3x3 conv FC1
conv1_1 conv2_1 conv3_2 conv4_2 conv5_2 size=1000
conv1_2 conv2 2 canv3 3 conv4_3 conv5_3 softmax
conv3_4 conv4_4 conv5_4
Hình 2.3: Minh hoa kiến trúc VGG19.5VGG19 có tông tham số lên đến 144 triệu
2.3 Resnet50
ResNet (Residual Network) là một mạng CNN được thiết kế dé làm việc với hàng
trăm hoặc hàng nghìn lớp tích chập nhưng lại có kích thước chỉ khoảng 23 triệu
Š hftps://nthu-datalab.github.io/ml/labs/12-2_Visualization_Transfer/12-2_Visualization_
Style-Transfer.html
Trang 25tham số Mạng được giới thiệu với công chúng vào năm 2015 và giành vị trí thứ 1
trong cuộc thi ILSVRC-2015 với tỉ lệ lỗi top 5 là 3.57%.
Voi CNN, các mạng càng sâu sẽ đạt hiệu suất tốt hơn Tuy nhiên, trên thực tế, nếu
độ sâu của mạng quá lớn (>50 layers) sẽ dẫn đến tình trạng Vanishing gradient
(mat mát dao hàm) hoặc Exploding gradient (bùng nỗ dao hàm) và khiến độ chínhxác của mang bị giảm di Và ResNet-50 ra đời để giải quyết van đề này
Đầu tiên, ResNet áp dụng batch normalization giúp chuẩn hóa đầu ra, khiến các hệ
sô trở nên cân băng và mô hình sẽ dé hội tụ hơn
Giải pháp thứ 2 mà ResNet đưa ra là sử dụng kết nối "tắt" đồng nhất để xuyên qua
một hay nhiều lớp Một khối như vậy được gọi là một Residual Block
weight layer
x
identity
Hình 2.4: Cấu trúc khối Residual Block
Với H(x) là giá trị dự đoán, F(x) là giá trị thật (nhãn) Ý tưởng của residual block
là feedforward đầu vào x qua một số layer Conv-max-Conv, ta thu được F(x) sau
đó cộng thêm x vào H(x) = F(x) + x.
10
Trang 26Ở những lớp cuối, mạng sử dụng Average pooling, sau đó dùng | Flatten layer déchuyên kết quả về dạng vector, cuối cùng là lớp FC sử dụng hàm softmax để đưa
ra kết quả dự đoán
2.4 Ridge regression
Ridge Regression là một phương pháp được áp dụng khi bộ dữ liệu gặp van đề về
đa cộng tuyến (các bién độc lập x có mối liên hệ với nhau, và ảnh hưởng đến kếtqua dự đoán y), hoặc các van đề về overfitting mà mô hình hồi quy tuyến tính
thông thường gặp phải.
Hàm mục tiêu của Ridge regression được thê hiện như sau:
Trang 27e2 là hệ số phạt
e x; là các thuộc tính của dữ liệu
Ý tưởng của phương pháp này là cộng thêm tông bình phương bộ trọng số vào hàm
mat mát nhằm tối ưu phương trình dự đoán y; = x;W và tìm ra bộ trọng số W tốigiản nhất Từ đó, áp dụng Ridge regression vào mô hình sẽ giảm được overfitting
2.5 Quantile regression
Quantile regression (hồi quy phân vi) là dạng thuật toán được mở rộng từ thuậttoán hồi quy tuyến tính chuẩn (linear regression) Phương pháp này tìm hiểu mối
quan hệ tuyến tính giữa biến độc lập x và biến phụ thuộc y trong trường hợp bộ dit
liệu có các giá tri outliers (ngoại lệ), chênh lệch cao của phân phối dữ liệu, mức độ
không đồng nhất của dữ liệu
Quantile regression xem xét phân phối tổng thé của dữ liệu, không chỉ sử dụng mỗi
giá trị trung bình để tính toán như linear regression Thay vì 1 đường trung vị (phân
vị 0.5), mô hình này sẽ ước lượng tham số hồi quy trên từng phân vị của biến phụ
thuộc sao cho tong chênh lệch tuyệt đối của hàm hồi quy tại phân vị đó của biến
phụ thuộc là nhỏ nhất.
12
Trang 28Customer Lifetime Value
Inc o
a 107) N= 600 0.9 Quantile
oO oO
Hình 2.6: Đồ thị minh họa 3 đường phân vị (0.9; 0.5; 0.1).”
2.6 Linear regression sử dung Stochastic Gradient Descent
Với gradient descent thông thường, ta sử dung tat cả các điểm dữ liệu dé cập nhậttheta Cách làm này sẽ gặp hạn chế với các tập dữ liệu lớn Việc phải tính toán lại
đạo hàm với tất cả các điểm dữ liệu qua mỗi vòng lặp trở lên không hiệu quả.
Dé giải quyết van đề trên, ta sử dung SGD Trong thuật toán này, tại một thời điểm,
ta chi tính đạo hàm của ham mat mát dựa trên một điểm dit liệu sau đó cập nhậttheta dựa trên đạo hàm này Việc này sẽ thực hiện lần lượt với từng điểm dữ liệu,
sau đó lặp lại quá trình trên.
7 https://bigdatauni.com/vi/tin-tuc/tong-quan-ve-regression-phan-tich-hoi-quy.html
13
Trang 29SGD chỉ yêu cầu một lượng epoch rất nhỏ, thường là 10 cho lần đầu tiên và sau đó
khi có dit liệu mới thì chỉ cần chạy dưới một epoch là đã có nghiệm tốt Sau mỗi
epoch, dữ liệu cân được xáo trộn đê đảm bảo tính ngau nhiên.
Với bài toán linear regression, theta = w, ham mat mát tại một điêm di liệu i là:
1
Đạo hàm theo w tương ứng là:
VựJ(W; X¡; Vị) = x} (xjw — yi)
2.7 Support vector regression
Support vector regression (SVR) là một mô hình hồi quy được dé xuất vào năm
1996 bởi Vladimir N Vapnik, Harris Drucker, Christopher JC Burges, Linda Kaufman va Alexander J Mô hình sử dụng thuật toán phân loại SVM (Support
vector machine) đê dự đoán giá tri của một biên liên tục.
Các phương pháp hồi quy đơn giản cỗ gắng giảm thiêu độ lỗi giữa giá trị dự đoánvới giá trị đúng (nhãn), tuy nhiên với SVR, mô hình có gang điều chỉnh lỗi trongmột ngưỡng nhất định
14
Trang 30Hình 2.7: Support vector giúp xác định đường dự đoán và biên của dữ liệu.
Với Hình 2.7, 2 đường nét đứt được xem là 2 ranh giới Đường hồi quy f(x) ở giữa
là một siêu phăng Khoảng cách giữa đường hồi quy f(x) đến 2 ranh giới là bang
nhau, được gọi là epsilon Mục tiêu cua mô hình là với các điểm dữ liệu và khoảng
cách epsilon cho trước, tìm một đường hồi quy f(x) sao cho số lượng điểm gần với
nó nhất và có khoảng cách không quá epsilon
mô hình EfficientNet, một mạng tự động Model Scaling (thu phóng mô hình) theo
dir liệu của bài toán.
8 https://machine-learning-and-data-science-with-python.readthedocs.io/en/latest/assignment4_sup_ml.html
15
Trang 31Trong thực tế, các lớp Conv thường được phân chia thành nhiều stage và tất cả các
lớp trong mỗi stage đều có chung một kiến trúc Do đó chúng ta có thể định nghĩamột mạng ConvNet như sau:
— Li
N =Ojau.s %' X (H,Wj,C)
Trong đó, Ft biéu thi lớp F; được lặp lại L; lần trong stage i, (H;,W;,C;) biểu
thị kích thước cua tensor đâu vào X cua lớp i.
Việc thu phóng mô hình cố gắng thu phóng chiều dài mạng (L;), chiều rộng (C;)
và độ phân giải (H;,W;) mà không thay đổi F; được xác định trước trong mạng cơ
sở Bằng cách giữ nguyên hàm F;, việc thu phòng mô hình đơn giản hóa vấn đề vềthiết kế đối với tài nguyên hạn chế Nhằm thu hẹp không gian tìm kiếm với sự thay
đổi của cả 3 chiều của mỗi lớp với mức độ khác nhau, nhóm tác giả đã hạn chế
rằng các lớp phải được thu phóng đồng nhất với tỷ lệ không đổi
Sau khi thử nghiệm thu phóng 3 giá tri với các mức độ khác nhau, nhóm tác giả
kết luận rằng: Đề đạt được độ chính xác và hiệu quả tốt hơn, điều quan trọng làphải cân bằng tất cả các kích thước của chiều rộng, chiều sâu và độ phân giải mạng
trong quá trình thu phóng quy mô ConvNet.
16
Trang 32ImageNet Top1 Accuracy (%)
Hình 2.8: Minh hoa thu nghiệm thu phóng theo chiều rộng, độ sâu, độ phân giải ở
e ula độ lệch giữa thực tế va dự đoán
e 7 là các đường thăng cần dự đoán
Trong bài toán ta cần tìm 3 đường, đường dự đoán với giá trị quantile=0.5 đườngbiên trên với giá trị quantile=0.2 và đường biên dưới với giá tri quantile=0.8.
17
Trang 332.10 Mloss function
Trong dé tai nay, chúng tôi đã sử dung Pinball loss kết hợp với các điều kiện của
hàm độ do (độ do metric được cung cấp từ một cuộc thi trên Kaggle và được giảithích ở chương 3, mục 3.2) với mục đích cân băng việc tìm kiếm kết quả dự đoán,
đường biên cua dữ liệu va metric của bài toán Hàm loss này có tên là mloss Ham
mloss được thiết kế như sau:
Loss = a * Pinball_loss + (1 — a) * metric
Dé có thé tham khảo được giá tri metric được châm từ hệ thống trên Kaggle, takhông chỉ cần tối ưu việc chọn được đường thăng dự đoán chính xác nhất với dữ
liệu mà còn tìm độ tin cậy (khoảng cách giữa biên của dữ liệu với đường dự đoán).
Ham tính metric còn giới hạn được độ sai số dự đoán (độ tin cây không nhỏ hơn
70 va sai số của FVC sẽ không lớn hơn 1000) của pinball loss
Công thức pinball loss có ý nghĩa là các đường dự đoán, còn metric sẽ kết hợp một
số điều kiện nhằm giới hạn và điều chinh đường dự đoán Nhận thấy độ quan trọng
của Pinball loss nên trọng số của pinball loss (với a > 0.5) sẽ cao hơn trọng số
metric (với 1 — #) Giá tri œ được chọn qua nhiều thí nghiệm Mặc dù có điểm hạnchế là @ chưa thật sự “adapt” (thích ứng) với dữ liệu nhưng đây mở ra một tháchthức về mặt toán học đôi với nhóm tác gia, làm sao đê chon a thật tot.
18
Trang 342.11 Recurrent Neural Network (RNN)
RNN Cell
(Step 0)
RNN Cell (Step 1)
RNN Cell RNN Cell
(Step 2) (Step 3)
Hinh 2.9: RNN cell [8]
RNN là một mang rat phô biến đã và đang được sử dụng hiện nay Việc dự đoán 1
giá trị hiện tại được xem xét dựa vào đầu ra của một hoặc nhiều lớp trước đó (Hình
2.10) Với thiết kế đặc biệt này, kiến trúc mạng phù hợp với các bài toán xử lý
thông tin dang chuỗi (sequence/ time-series) như: time forecasting, time to failure,
sequence to sequence, recommendation system