Cài đặt, đánh giá thực nghiệm các phương pháp máy hoc phổ biến: k-NN, SVM, Logistic Regression cho bài toán phân loại ảnh sử dụng các đặc trưng được khảo sát.. Ảnh chụp X-quang phôi Kết
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA CÔNG NGHỆ PHAN MEM
vO THI MOT
KHOA LUAN TOT NGHIEP
HO TRO CHAN DOAN COVID-19 DỰA TREN ANH
X-QUANG NGUC BANG MAY HOC
The diagnosis support COVID-19 based on X-ray images using
Machine learning
KY SU KY THUAT PHAN MEM
TP HO CHÍ MINH, 2021
Trang 2ĐẠI HỌC QUỐC GIA TP HÒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA CÔNG NGHỆ PHÀN MÈM
VÕ THỊ MỘT - 16520756
KHÓA LUẬN TÓT NGHIỆP
HO TRỢ CHAN DOAN COVID-19 DỰA TREN ANH
X-QUANG NGUC BANG MAY HOC
The diagnosis support COVID-19 based on X-ray images using
Machine learning
KY SU NGANH KY THUAT PHAN MEM
GIANG VIEN HUONG DAN
NGUYEN TAN TRAN MINH KHANG
TP HO CHi MINH, 2021
Trang 3THONG TIN HOI DONG CHAM KHÓA LUẬN TOT NGHIỆP
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số
-ngày của Hiệu trưởng Trường Đại học Công nghệ Thông tin.
Trang 4ĐHQG TP HO CHÍMINH CỘNG HOÀ XÃ HOI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC Độc Lập — Tự Do — Hạnh Phúc
CÔNG NGHỆ THÔNG TIN TP HCM, ngày tháng năm 2021
NHAN XÉT KHOA LUẬN TOT NGHIỆP
(CỦA CÁN BỘ PHẢN BIỆN)
Tên khoá luận:
PHAN LOẠI COVID-19 TỪ HÌNH ANH X-QUANG BANG MAY HỌC
Nhóm SV thực hiên: Cán bô phản biên:
Võ Thị Một - 16520756 ThS Đỗ Thị Thanh Tuyền
Đánh giá Khoá luận:
1 Về cuốn báo cáo:
Số trang: 66 Số chương: 6
Số bảng số liệu: 12 Số hình vẽ: 28
Số tài liệu tham khảo: 26 Sản phẩm: 1
Một số nhận xét về hình thức cuốn báo cáo:
Nhìn chung báo cáo được trình bày theo quy định về thể thức trình bày khóa luận Tuy
nhiên còn một vài lỗi cần được kiểm tra điều chỉnh (thiểu dấu chấm cuối câu, dùng từ
viết tắt không có trong danh mục từ viết tắt của báo cáo, dùng đại từ nhân xưng “c
tôi” trong khi luận văn chỉ có một sinh viên thực hiện).
2 _ Về nội dung nghiên cứu:
Khóa luận nhằm mục tiêu áp dụng kỹ thuật rút trích đặc trưng ảnh và phương pháp
lớp để xây dựng một ứng dụng dự đoán tình trạng nhiễm COVID-19 dựa trên an!
húng
phân
h
X-Quang phổi Day là một dé tài mang tính thực tiễn cao Khóa luận đã tìm hiểu và áp
dụng kiến trúc VGGI6 và Inception-Resnet-V2 dé rút trích đặc trưng và thử nghiệm với
các phương pháp phân lớp SVM, k-NN và Logistic Regression đê chọn một mô hình dự
Trang 5đoán tốt nhất Các mô hình của khóa luận được thử nghiệm trên nguồn dữ liệu ảnh y
khoa có độ tin cậy cao, được phân chia theo 3 phân lớp với tỉ lệ hợp lý Các nội dung
nghiên cứu có tính mới, được trình bày chặt chẽ và phù hợp với mục tiêu của khóa luận.
Tác giả có bài báo ở hội thảo quốc gia lần XXIII là một điểm đáng khích lệ.
3 Về chương trình ứng dung:
Có tính thực tế cao, có thé triển khai sử dụng khi được huấn luyện với tập dữ liệu huấn
luyện có kích thước lớn.
4 _ Về thái độ làm việc của sinh viên:
Sinh viên chủ động liên hệ và cung cấp đầy đủ thông tin theo yêu cầu của giáo viên phản
biện.
Đánh gia chung:
Khóa luận đạt yêu cầu của một khóa luận tốt nghiệp kỹ sư.
Điểm từng sinh viên:
Võ Thị Một: 9.5/10
Người nhận xét (Ký tên và ghi rõ họ tên)
D6 Thị Thanh Tuyền
Trang 6LỜI CẢM ƠN
Tôi xin chân thành cảm ơn Ban giám hiệu nhà trường, quý thầy cô khoa Công nghệ
phần mềm cũng như quý thầy cô khoa Khoa học máy tính trường Đại học Công nghệ Thông tin, đã tạo điều kiện và hỗ trợ nhiệt tình dé tôi hoàn thành tốt đề tài này.
Tôi xin gửi lời biết ơn và sự kính trọng sâu sắc đến TS Nguyễn Tan Trần Minh
Khang và Ths Võ Duy Nguyên, đã nhiệt tình chỉ dạy, định hướng nghiên cứu trong suốt
quá trình thực hiện khóa luận.
Cuối cùng tôi xin cảm ơn đến gia đình, bạn bè, và những người thân đã quan tâm động viên và đóng góp ý kiến giúp đỡ tôi hoàn thành đề tài nghiên cứu này Quá trình làm khóa luận đã cho tôi thêm nhiều kiến thức bổ ích từ thực tiễn, những kinh nghiệm và kĩ
năng về về học tập và nghiên cứu Và đây chính là những hành trang vững chắc cho sự
nghiệp trong tương lai Từ đó dé tôi học hỏi và rút kinh nghiệm cho quá trình làm việc sau
Trang 7ĐẠI HOC QUOC GIA TP HO CHÍ MINH CONG HOA XÃ HỘI CHỦ NGHĨA.
TRƯỜNG ĐẠI HỌC VIỆT NAM
CÔNG NGHỆ THÔNG TIN Độc Lập — Tự Do - Hạnh Phúc
ĐÈ CƯƠNG CHI TIẾT
Tên đề tài: Hỗ trợ chân đoán COVID-19 từ hình ảnh X-quang bằng máy học
Cán bộ hướng dẫn: TS.Nguyễn Tan Trần Minh Khang
Thời gian thực hiện: Từ ngày 07/09/2020 đến ngày 27/12/2020
Sinh viên thực hiện:
Võ Thị Một: 16520756
Nội dung đề tài:
¢ Thue trạng: COVID-19 là một bệnh đường hô hấp cấp tính ở người được phát hiện
vào năm 2019, gây ra bởi vi-rút SARS-CoV-2 và chưa từng được xác định trong quá
khứ Coronavirus là một họ virus lớn gây bệnh ở bệnh nhân từ cảm lạnh thông
thường đến các hội chứng hô hấp tiến triển như Middle East Resporatory Syndrone
(MERS-COV) và Severe Acute Respiratory Syndrone (SARS-COVS) Thế giới đang
bị ảnh hưởng, nhiều người chết, nhiều quốc gia tuyên bố tình trạng khẩn cấp Việc phát hiện tình trạng bệnh sớm sẽ có ích cho quá trình điều trị của bệnh nhân Một giải
pháp hữu hiệu được đề xuất giúp các bác sĩ có thể sàng lọc lâm sàng các trường hợp
nhiễm bệnh là chan đoán bệnh thông qua ảnh chụp X-quang.
© Muc tiêu:
— Thực hiện khảo sát các phương pháp máy học cho bài toán phân loại
COVID-19 trên ảnh X-quang Từ đó, có những lựa chọn phù hợp trong quá trình
nghiên cứu và thực nghiệm trong quá trình phát hiện bệnh COVID-19.
— Xây dựng ứng dụng chân đoán bệnh COVID-19 giúp hỗ trợ bác sĩ trong quá
trình sàng lọc lâm sàng các trường hợp nhiễm bệnh thông qua ảnh chụp quang.
X-e Phương pháp thực hiện:
Trang 8e Kết quả mong doi:
Tổng hợp bộ dữ liệu X-quang từ nhiều nguồn dữ liệu được công bồ từ các bài
báo khoa học.
Tìm hiểu đặc trưng phô biến trên ảnh y khoa (Haralick) và đặc trưng học sâu
(VGG19, DenseNet121).
Cài đặt, đánh giá thực nghiệm các phương pháp máy hoc phổ biến: k-NN,
SVM, Logistic Regression cho bài toán phân loại ảnh sử dụng các đặc trưng
được khảo sát.
Phân tích và thống kê các kết quả thực nghiệm
Xây dựng ứng dụng phân loại COVID-19.
Hoàn thành việc khảo sát phân loại ảnh COVID-19 trên các phương pháp máy
hoc đã chọn Dựa trên kết quả thực nghiệm, chọn ra phương pháp phù hợp dé
làm cơ sở xây dựng một ứng dụng phân loại COVID-19 trên ảnh X-quang.
Hoàn thành một ứng dụng phân loại hoạt động tốt với đầy đủ các chức năng
đã được đề ra Ứng dụng có giao diện và chức năng thân thiện, giúp cho ngườidùng cảm thấy thuận tiện trong việc sử dụng
Kế hoạch thực hiện: (thời gian thực hiện trong 16 tuần)
STT Công việc Thời gian thực hiệ
Phase 1: Khao sát phân loại ảnh COVID-19 trên các phương | 07/09/2020
pháp máy học 01/11/2020
1 Sprint 1: Phân tích tìm hiểu các phương pháp thực hiện 07/02/2020
15/09/2020
- Phân tích đề tài
- Tìm hiểu các bài báo liên quan đến đề tài
- Tình hình nhiễm bệnh COVID-19 trong nước và trên thế
Trang 9- Tìm hiểu thông tin về các bộ dữ liệu là ảnh chụp X-quang
COVID-19 trên các nguồn uy tín và đã được công bó
- Thu thập các bộ dữ liệu COVID-19.
- San lọc các hình ảnh chụp X-quang từ các bộ dt liệu đã
31 thu thap dugc.
- Thống kê dữ liệu được gan nhãn day đủ ở từng thư mục
- Hoàn thành bộ dữ liệu tổng hợp COVID-19 hoàn chỉnh
Sprint 4: Khảo sát các phương pháp máy học phân loại 11/10/2020 —
4 COVID-19 15/11/2020
- Thực nghiệm các phương pháp phân loại đã tìm hiều dé
41 phân loại ảnh COVID-19.
- Thống kê và đánh giá kết quả thực nghiệm
3 16/11/2020
: Xa 1 hâ an bệnh ID-1
Phase 2: Xây dựng ứng dung chân đoán bệnh COV 9 27/12/2020
Sprint 5: Phân tích xây dựng các chức năng cho ứng 16/11/2020 —
> dung 25/11/2020
5.1 Phân tích yêu cầu cho ứng dụng
Hoàn thành các sơ đồ thê hiện các chức năng chính cho ứng
5.2 dụng.
53 Thiết kế phát thảo ban đầu cho ứng dụng.
Sprint 6: Tìm hiểu công nghệ và kỹ thuật để xây dựng 26/11/2020 —
6 ứng dụng 02/12/2020
Tìm hiểu các công nghệ mới xây dựng ứng dụng trên các
6.1 thiết bi di động
Trang 10Tìm hiểu các framework, ide trong quá trình triển khai ứng
6.2 dụng.
7 Sprint 7: Thiết kế cơ sở dữ liệu 03/12/2020 —
10/12/2020
71 Thiết kế cơ sở dữ liệu
Tìm hiểu các hệ quản trị cơ sở dữ liệu phù hợp với ứng
7.2 dụng.
Sprint 8: Thực hiện xây dựng ứng dụng phân loại 11/12/2020 —
8 COVID19 trên các thiết bị di động, máy tinh bang 27/12/2020
Tiến hành xây dựng ứng dụng với các chức năng cơ bản sử
8.1 dụng công nghệ va phương pháp đã tìm hiéu.
s2 | Kiểm thử, sửa lỗi và hoàn thành ứng dụng
Xác nhận của CBHD TP HCM, ngày 29 tháng 09 năm 2020 (Ký tên và ghi rõ họ tên) Sinh viên
Nguyễn Tấn Trần Minh Khang
Võ Thị Một
(Ký tên và ghi rõ họ tên)
Trang 11MỤC LỤC
Chương 1 TONG QUAN DE TAL 2-52 S52 SE‡EE2ESEE2EEEE2EEEE2E12152121212121 1E xeC 2
1.1 Đặt vấn đề tt the 2
1.2 Cuối 0n 4 7
1.3 Đối tượng và phạm vi nghiên CỨU 2-5 2 +S+EEEE£E£EEEEEEEEEEEEEEEEEEEErEerrrkrkred 8
1.3.1 Đối tượng nghiên cứu :- SE SE EEEEEEEEEEE1211 1111111 re, 8
1.3.2 Phạm vi nghiÊn CỨU G2 111313291011 111 111 119g v1 ng ket 8
1.4 Thach thite non 8
1.5 Y nghĩa của đề tai c.ccecececcccccccccscscscsscsesscsesscscsesssscsucscsscsesssssecsesscsssesecsesecsesecseeacees 9
1.5.1 — Ý nghĩa khoa hoe ccccccsccscssessssessesesscsecsvsucscsscscsscsesscsecscsvesesecsesecsesecsesacsceseaes 9
1.5.2 Ý nghĩa thực tiễn - St SE E1 111211111 trree 9
1.6 Bố cục khóa luận ¿ +++c+c++E tE E TEH gH Hg ưg 10
Chương2 CAC NGHIÊN CỨU LIÊN QUAN VA HƯỚNG TIẾP CẬN 11
2.1 Bai todn phan 1Op oe 11 2.2 Đặc trưng TS Họ và 15
2.3 Rút trích đặc trưng oo ee eee eeeccseecsseeseneceseeesneceeecseeceaeesseecsaeessaeseaeesseeseaeeeaees 16
2.4 Kiến trúc mạng học sÂU - - - - - 111g HH kh 17
2.5 Cac phuong phap 001 AA ÀÀÀ 18
2.5.1 k-Nearest-NeIghbOUTS - cv re 18 2.5.2 Support vector machines (SVM) SH ng ket 20
Trang 122.6.3 ¡07;190)8155150n/10400) 20001277578 5A1A 24
2.6.3.1 VGG16 7 4 24
2.6.3.2 Inception-Resnet-V2 - - c LH SH nọ ngu 25
Chương 3 MO TẢ BO DU LIỆU COVID-19 ¿2-52 222222 2E£EeExeExzrxzrrrreree 27
3.1.1 _ Cấu trúc bộ dữ liệu :- 522522 2EE2EEEEEEEEEE2EE2EE2EEEEEEEEerrrres 273.1.2 Nguồn thu thập dữ liệu - - 2-2525 E2x‡EE2EEEEE2E2EEEEEEErerrkrrrres 31
Chuong 4 THUC NGHIEM CAC PHƯƠNG PHAP MAY HOC TREN BO DU LIEU
COVID-19 32
“mac na “ 32
4.1 Kiến trúc hệ thống phân loại -¿- - +E£EE+E£+E+EE+E£EE+EEEE+EEEESEEEESErkrrrkereee 33
4.2 Kết quả thực nghiệm - 5 2E S S239 12191 21212511 21711111211111 11111111 te 35Chương 5 XÂY DUNG UNG DUNG DEMO PHÁT HIỆN COVID-19 39
hNă.,s hề < " 39 5.2 Flask ÍrameWOFK CC 0000001111111 111 111113 1n ng 40
5.3 ReacUS A ` 7T CÀ ÚÔÂQÂÚÔQH G3595 95959E££££E€Ee+eveeeeee 41
5.4 Phân tích thiết kế ứng dung dem -¿- + 2 +22 E+EE+E££E+EE£EeEEzEeEEzEerkzrerxrree 42
5.4.1 Mô tả nghiệp vụ Ứng dụng nh 42
5.4.2 Cac chức năng chính - c1 1320111919 1111 11 0 111g ng 43
5.4.3 Thiết kế sơ đỒ use caSe i5: St t2 212121211 212121 21211121111 xe 445.4.4 _ Thiết kế sơ đồ tuần tự ¿-+-5++c‡2t+E2EEEE2EEE2EEEE2E 2212211 rrree 465.4.5 _ Thiết kế sơ đồ hoạt động -:- 52s SE‡EEEEE 2E E222 EEEEEcrkrree 495.4.6 Thiết kế sơ đồ lớp - ¿+ 52+ 22EE212EE21211212112121212121711 111 xe 51
5.5 Giao diện ứng dụng demo phân loại COVID-19 trên anh X-quang phii 55
5.5.1 Màn hình hién thị danh sách bệnh nhân 2- 2 ¿+ x+z++z+zx+zxzzxz 55
Trang 135.5.2 Màn hình thêm mới bệnh nhân + 22 22111 2E2+++sssssss 56
5.5.3 Màn hình hiển thị chế độ view ảnh - ¿- ¿+ 5++2++2++E2Evzxerxerxervzrrree 575.5.4 Màn hình hiển thị thông tin ảnh và kết quả chan đoán - - 60Chương 6 KÉT LUẬN VA HƯỚNG PHAT TRIEN -¿-5¿ + +25+2c++xz>s2 61
6.1 Kết Ua cece cccccccccccsscsesscsessesscscsscsessssessssecscsucscsussesscsesussessssssssessesecsesecsesussessssesacees 616.2 Hướng phat triỂn ¿- ¿+ + 5++St2EE2E92EEEEEE122121121212121121121121 11111 62
1000009: )/84:/ 01 Ả Ú 63
0006 92 66
Trang 14DANH MỤC HÌNH
Hình 1.1 Hiện trạng COVID-19 đang lan rộng trên toàn thé giới (Coronavirus Disease
(COVID-19) Situation Reports, [1] d 2
Hình 1.2 Ban đồ các tinh và thành phố theo số ca nhiễm COVID-19 được xác nhận (tính
đến ngày 03 tháng 01 năm 2021) [4] - 2-5 + +E+E£+E£EE+E£EEEEEEEEEEEESEEEEEEEEEEEEEEEEkrrerkrree 3
Hình 1.3 Bài toán phân loại COVIID-]O Ặ .- c1 1g và 7
Hình 2.1 Minh hoạ cấu trúc của bài toán phân lớp [10] - - 2< c<++kksseersseee 15Hình 2.2 Kiến trúc của một Convolution Neural Network [1 Ï] -¿-¿ s cs+x+xzxzxzezezs 17
Hình 2.3 Minh họa phương pháp k-Nearest-Neighbours [19] -+++++<s+++seessss 19 Hình 2.4 Minh họa thuật toán SVM [2O] CC 0000111111111 111111111 1 3 1 nen 20 Hình 2.5 So sánh sự khác nhau của 2 thuật toán Linear Regression va Logistic Regression
[20] - -.< - 5702⁄222 8B o 21
Hình 2.6 Ảnh minh họa đặc trưng kết cấu Haralick [23] ¿- ¿6s + ccvE+xsvzkseseeerereeee 23Hình 2.7 Kiến trúc mạng VGG16 [25] :-2- +522S£22£2E2EE£EEEEEEEEEEEEEEEEeEkerkerkrrrrkrree 25Hình 2.8 Kiến trúc mạng Inception-Resnet-V2 [26] - - 6S ***+** k+seeersseerereke 25Hình 3.1 Dữ liệu anh X-quang được gan nhãn với kết quả chan đoán bệnh 27Hình 3.2 Dữ liệu anh X-quang được gan nhãn với kết qua chan đoán bệnh - 27Hình 4.1 Kiến trúc hệ thống phân loại hình ảnh COVID-19 ¿- ¿5c + ++s++sz+xzzs¿ 33Hình 4.2 Biểu diễn kết quả sử dụng Confusion matriX 5- 5-52 2252 2xe>xe£+z£+zzzxzzxz 38Hinh 5.1 So dé Use case phân loại bệnh COVID-19 oo eeeceeeseeceeseeeeneeeeeneeeeeneeeseneeeees 44Hình 5.3 Sơ đồ tuần tự hiển thị danh sách bệnh nhân :-¿cc+++cvxsrxersrrrree 46Hình 5.4 Sơ đồ tuần tự thêm mới bệnh nhân : ©5222++ct£xtttExrertrrrrrtrrrrkrrrrrree 47Hình 5.5 Sơ đồ tuần tự phát hiện COVID-19 - ¿5522x222 48Hình 5.6 Sơ đồ hoạt động phân thêm mới bệnh nhân - .- <5 6+ ‡*+++££e++eeexssex 49Hình 5.7 Sơ đồ tuần tự phân loại tình trạng bệnh COVID-19 - ¿2 +ccs+s+£+czcxez 50
Hình 5.8 Sơ đồ lớp của ứng dụng demo phát hiện COVID-19 -.¿5¿ + ++c++x+xze¿ 51
Hình 5.9 Màn hình hiền thị danh sách bệnh nhân tìm kiếm theo các trường thông tin 55Hình 5.10 Màn hình hiền thị thêm mới bệnh nhân - 2-2 2+ 2+S5++S£++E+z++zzzx+z++2 56Hình 5.11 Màn hình hiển thị chế độ view ảnh với các chức năng tương tác trên ảnh 57
Trang 15Hình 5.12 Thanh công cụ với các chức năng tương tác với ảnh y khoa - ‹
Hình 5.13 Phần hiển thị thông tin ảnh thông tin bện - 2 2 2+5¿+x+zx+£++£+zxzxzzx2Hình 5.14 Màn hình hiển thị thông tin ảnh và kết quả chân đoán -2- 2525:
Trang 16DANH MỤC BANG
Bang 3.1 Giải thích nhãn ứng với tình trạng bệnh trên bộ dữ liệu: 28
Bang 4.1 Kết quả thực nghiệm sử dụng phương pháp k-NN với độ do Cosine 35Bảng 4.2 Kết quả thực nghiệm sử dụng phương pháp k-NN với độ đo Minkowski 36Bang 4.3 Kết quả thực nghiệm sử dụng phương pháp SVM 5+: 37Bang 4.4 Kết quả thực nghiệm sử dụng phương pháp Logistic Regression 37Bảng 5.1 Thống kê, phân tích các chức năng của ứng dụng demo - 43
Bảng 5.2 Đặc tả use case phân loại COVIIĐ-]O S1 re 44 7n R60 -;lvrN 8ì .Ã 52 Bảng 5.5 Đặc tả lớp PatI€TI - c9 SH ng He 53
Bảng 5.6 Đặc tả lớp “T€SỂ Gà nHHkrh 54
Bảng 5.7 Bảng mô tả chức năng màn hình hiển thị chế độ view - 57
Bảng 5.8 Mô tả chức nang chú thích và tương tác với hình ảnh - 58
Trang 17DANH MỤC TỪ VIET TAT
CNN Convolutional network
COVID-19 Coronavirus - nhiễm COVID-19
MERS Hội chứng hô hấp Trung Đông
k-NN học k-Nearest-Neighbours (k-NN), (), Logistic Regression
SVM SupportVector Machines
MERS-COV _ | MiddleEast Resporatory Syndrone
SARS-COVS | Severe AcuteRespiratory Syndrone
NORMAL Binh thuong
PNEUMONIA | Viêm phôi thông thường
ƯI User Interface — giao diện người dùng
GLCM Ma tran đồng xuất hiện mức xám
Unidirectional Luong dữ liệu một chiều
Data Flow
GLCM Ma tran đồng xuất hiện mức xám
ReLU Rectified Linear Unit
ORM Object-Relational Mapping
Trang 18TÓM TẮT KHÓA LUẬN
Đại dịch toàn cầu COVID-19 đã và đang gây ra những thiệt hại vô cùng lớn
cho toàn nhân loại Với những diễn biển phức tạp của dịch bệnh, đến nay
COVID-19 đã lan rộng ra trên toàn thế giới với hon 200 quốc gia, vùng lãnh thé và hiệnchưa tìm ra thuốc chữa Các công tác xét nghiệm và chân đoán bệnh đang được các
quốc gia hết sức quan tâm và đây mạnh nguồn nhân lực, trang thiết bị để hỗ trợ cho
các bác sĩ trong quá trình sàn lọc Việc phát hiện tình trạng bệnh càng sớm sẽ rất cóích cho quá trình điều trị của bệnh nhân Có nhiều phương pháp để chân đoán tình
trạng bệnh, trong đó có phương pháp san lọc ảnh dựa trên ảnh X-quang Tuy nhiên,
với lượng bệnh nhân ngày càng tăng, dẫn đến số lượng ảnh X-quang cần kiểm tra làrất lớn Điều này đòi hỏi sự tốn kém về các trang thiết bị và nhân lực có chuyênmôn Đây cũng chính là động lực đề tôi thực hiện nghiên cứu về phân loại COVID-
19 sử dung anh X-quang phổi Trong bài báo cáo này, tôi đã tiễn hành khảo sát các
phương pháp máy học k-Nearest-Neighbours (k-NN), Support Vector Machines
(SVM), Logistic Regression cho bài toán phân loại bệnh COVID-19 gồm ba nhãn
dữ liệu: COVID-19, PNEUMONIA, NORMAL Các phương pháp nay sử dụng các
đặc trưng đặc biệt dé thực hiện huấn luyện gồm: đặc trưng từ ảnh (xem mỗi ảnh là
một vector đặc trưng), đặc trưng kết cau Haralick và các đặc trưng được rút trích từ
mô hình học sâu như: VGG16, Inception-Resnet-V2 Các thử nghiệm được tiếnhành trên bộ dit liệu do tôi chuẩn bị gồm 3423 ảnh X-quang ngực là kết quả chụp vàkiểm định bởi các bác sĩ y khoa Tôi thực hiện phân tích đánh giá so sánh các kết
quả thực theo từng phương pháp.
Dựa trên kết quả nghiên cứu và thực nghiệm, tôi tìm hiểu và sử dụng FLASKframework, kết hợp với Reactjs để xây đựng một demo nhỏ với dạng website giúp
hiển thị hóa kết quả của quá trình thực nghiệm
Trang 19MỞ ĐẦU
COVID-19 [1] đã gây ra hơn 90 triệu ca lây nhiễm và gần 2 triệu người chết
trên toàn thé giới! Đồng thời trở thành đại dịch toàn cầu gây ra những ảnh hưởng,thiệt hại về sức khỏe con người, các hệ lụy về kinh tế xã hội cho nhân loại Tổ chức
y tế thế giới WHO cảnh báo mức độ nguy hiểm của COVID-19 đạt mức báo động,
là môi doe dọa của hau hét các quôc gia trên thê giới.
COVID-19 được định nghĩa là một bệnh đường hô hấp cấp tính ở người
được phát hiện vào năm 2019, gây ra bởi vi-rút SARS-CoV-2 [2] chưa từng được
xác định trong quá khứ Coronavirus là một họ virus lớn gây bệnh ở bệnh nhân từ
cảm lạnh thông thường đến các hội chứng hô hấp tiến triển như MiddleEast
Resporatory Syndrone (MERS-COV) và Severe AcuteRespiratory Syndrone
(SARS-COVS) Thế giới dang bi ảnh hưởng, nhiều người chết, nhiều quốc gia
tuyên bố tình trạng khan cấp Hau hết những người bị nhiễm COVID -19 đều có cáctriệu chứng về đường hô hấp từ nhẹ đến trung bình Một số trường hợp khác cótriệu chứng bệnh khi đã mắc bệnh viêm phôi từ trước
Một giải pháp hữu hiệu được đề xuất giúp các bác sĩ có thé sàng lọc lâm sàngcác trường hợp nhiễm bệnh là chân đoán bệnh thông qua sàng lọc ảnh chụp X-quang Có nhiều nghiên cứu phát hiện COVID -19 trên ảnh X-quang với kết quả
cao Tuy nhiên hầu hết được thực nghiệm trên bộ dữ liệu khá nhỏ Điều này đã thúcđây tôi thu thập các bộ dữ liệu chụp X-quang ngực với mong muốn tăng tính đa
dạng dữ liệu và độ chính xác cho quá trình dự đoán kết quả phân loại hình ảnh trêncác nguồn khác nhau Bộ dữ liệu có tổng số ảnh là 3423, trong đó có 1517 ảnh nhãn
NORMAL, 1467 anh PNEUMONIA và 439 ảnh COVID-19.
! Theo thống kê của Worldometers.info, tinh đến 8 giờ ngày 13-1 (giờ Việt Nam), thé giới ghi nhận
91.988.471 ca nhiễm virus SARS-CoV-2, trong đó có 1.968.622 ca tử vong va hơn 65,8 triệu ca đã hoàn toàn
bình phục.
Trang 20Chương 1 TONG QUAN DE TÀI
1.1 Đặt van đề
Boi cảnh xuất hiện dịch bệnh COVID-19
Đại dịch COVID-19 [1] là một đại dịch bệnh truyền nhiễm với tác nhân là
virus SARS-CoV-2, đang diễn ra trên phạm vi toàn cầu và được phát hiện lần đầu
tiên tại thành phố Vũ Hán, tỉnh Hồ Bắc, Trung Quốc vào tháng 12/2019 Ở ViệtNam ghi nhận trường hợp nhiễm COVID-19 đầu tiên vào ngày 23 tháng 1 năm
2020, gồm hai bệnh nhân người Trung Quốc được nhập viện tại bệnh viện Chợ
Ray, thành phố Hồ Chí Minh
Theo số liệu thống kê, đến ngày 2 thang 1 năm 2021, tổng số ca nhiễmCOVID-19 trên toàn cầu là hơn 84 triệu ca, trong đó có hon 1,8 triệu người thiệtmạng Dịch bệnh đến nay xuất hiện và lây lan ở 218 quốc gia và vùng lãnh thổ
Các nước cũng ghi nhận hơn 59 triệu bệnh nhân được điều trị khỏi, số ca nguy
kịch hiện là hơn 22 triệu ca và hơn 106 ngìn ca đang điều trị tích cực Thế gidi CÓtới 120 quốc gia và vùng lãnh thé ghi nhận ca COVID-19 mới [2]; 83 quốc
gia/vùng lãnh thé có các ca tử vong vì dai dịch
> 1,000,000 500,001 — 1,000,000
50,001 — 500,000 5,001 — 50,000
1 — 5,0000
No Reported Data Not Applicable
a
Hình 1.1 Hiện trạng COVID-19 đang lan rộng trên toàn thế giới (Coronavirus
Disease (COVID-19) Situation Reports, [1]
Trang 211-9 ¡0-99 [EElioo-29o J trén 300
Hình 1.2 Bản đồ các tinh va thành phố theo số ca nhiễm COVID-19 được xác nhận(tính đến ngày 03 tháng 01 năm 2021) [4]
Thông tin về đặc điểm bệnh COVID-19
Nói một cách cụ thể, Virus Corona là một họ virus lớn thường lây nhiễmcho động vật nhưng đôi khi chúng có thé tiến hóa và lây sang người Hầu hếtnhững người mắc bệnh COVID-19 sẽ gặp các triệu chứng từ nhẹ đến trung bình
và hồi phục mà không cần phải điều trị đặc biệt Khi virus xâm nhập vào cơ thể,
nó xâm nhập vào một số tế bào và chiếm lấy bộ máy tế bào (gây ton thương viêmđặc hiệu ở đường hô hấp), đồng thời virus chuyên hướng bộ máy đó dé phục vụcho nó, tạo ra virus mới và nhiễm tiếp người khác Vi-rút gây bệnh COVID-19
chủ yếu lây truyền qua các giọt bắn văng ra khi người nhiễm bệnh ho, hắt hơihoặc thở ra Những giọt bắn này quá nặng nên không thê bay lơ lửng trong không
khí và nhanh chóng rơi xuống sàn nhà hoặc các bề mặt Bat cứ ai có thé bị nhiễmbệnh khi hít phải vi-rút nếu đang ở gần người nhiễm COVID-19 hoặc chạm vào
bê mặt có vi-rút, rôi lai chạm vào mat, mũi hoặc miệng.
Trang 22Có 7 loại virus Corona [3], trong đó, 4 loại không nguy hiểm là 229E,NL63, OC43 và HKUI; hai loại khác là Hội chứng hô hấp Trung Đông (MERS)
và Hội chứng hô hấp cấp tính nặng (SARS), nguy hiểm hơn và từng gây ra đại
dịch toàn câu.
Những người mặc bệnh COVID-19 đã có một loạt các triệu chứng được
báo cáo - từ các triệu chứng nhẹ đến bệnh nghiêm trọng Các triệu chứng có thé
xuất hiện 2-14 ngày sau khi phơi nhiễm với vi-rút Những người có các triệuchứng này có thể nhiễm COVID-19: Sốt hoặc ớn lạnh, ho, hụt hơi hoặc khó thở,mệt mỏi, đau cơ hoặc đau người, đau đầu, mat vi giác hoặc khứu giá, đau hong,
gạt mũi hoặc chảy nước mũi, buồn nôn hoặc nôn mửa, tiêu chảy
Những ảnh hưởng của COVID-19 đối với xã hội, con người, kinh tế
Sự bùng phát của dịch bệnh COVID-19 trên thế giới và quay trở lại tạiViệt Nam mà chưa có vắc-xin điều trị được sản xuất hàng loạt buộc các quốc giaphải sử dụng các biện pháp như giãn cách xã hội, đeo khẩu trang nơi công cộng,
rửa tay thường xuyên, tuyên truyền nâng cao nhận thức cho người dân để hạn chế
sự lây lan của dịch bệnh.
Mặc dù còn rất nhiều điều chưa tường tận về virus gây bệnh COVID-19hiện đang hoành hành trên toàn cầu nhưng có một sự thật mà chúng ta đều chắcchan: COVID-19 có thé tác động sâu rộng lên các cơ quan trong cơ thé con người
[4]:
e Hủy hoại phối: Đối với hau hết trường hợp đã xác nhận, phổi là nơi
COVID-19 tác động đầu tiên (do tiếp xúc gần với các giọt bắn từ người
nhiễm bệnh) và cũng là bộ phận bị tàn phá mạnh nhất Virus
SARS-CoV-2 cũng tương tự như virus cúm — chúng gây ra bệnh về đường hô hấp.Các triệu chứng coronavirus chủng mới ban đầu là sốt, ho, hắt hơi, sau đó
có thể tiền triển thành viêm phổi cấp tính
e_ Các van đề về tim mach: Các chuyên gia nước ngoài cho biết COVID-19
cũng có thé ảnh hưởng đến tim và mach máu như làm nhịp tim không
Trang 23đều, tim bơm không đủ máu đến các mô hoặc gây huyết áp thấp và cầndùng thuốc Tuy nhiên, cho đến nay vẫn chưa có cơ sở để khăng địnhCOVID-19 gây hại trực tiếp cho tim.
e T6n thương gan: Khi virus lây lan từ hệ hô hấp, gan thường là bộ phận
cuối chịu ton thương Dấu hiệu tổn thương gan được ghi nhận trong các
trường hợp mắc COVID-19 thường nhẹ nhưng vẫn có ca tôn thương gan
nghiêm trọng hơn, thậm chí là suy gan.
Trật tự và hoạt động kinh tế thế giới thay đổi mạnh mẽ do hầu hết các quốc
gia đang trải qua thời kỳ cách ly tại nhà, giãn cách xã hội và thậm chí đóng cửa
quốc gia [4] Đại dịch COVID-19 gây ra khủng hoảng sức khỏe cộng đồng,khủng hoảng kinh tế và sinh kế, hiện nay nhiều nền kinh tế lớn đang rơi vào suythoái nghiêm trọng Giống như hầu hết nền kinh tế trên thế giới, Việt Nam bị ảnh
hưởng do sự bùng phát của dịch bệnh, các ngành công nghiệp tư nhân bị thiếu hụt
nguồn nguyên liệu cung ứng và đối mặt với nguy cơ dừng sản xuất DịchCOVID-19 còn ảnh hưởng đến nhiều ngành kinh tế bao gồm hàng hải, hậu cầnhay các lĩnh vực phân phối, bán lẻ trong nước Nhiều doanh nghiệp, các hộ kinhdoanh gặp khó khăn Ngành hàng không bị ảnh hưởng nặng nề, nhiều chuyến bay
bị hủy bỏ, lượng khách du lịch đến Việt Nam sụt giảm
Các quy trình xét nghiệm chan đoán COVID-19
Vào ngày 19 tháng 3 năm 2020, WHO đã công bố một hướng dẫn tạm thời
về các xét nghiệm đối với những người nghi ngờ mắc bệnh do coronavirus(COVID-19) (WHO 2020) Gần đây, nhiều cập nhật toàn diện về các kỹ thuật xétnghiệm trong chân đoán SARS-CoV-2 cũng đã được công bố (Chen 2020,
Loeffelholz 2020) [4].
Xét nghiệm cận lâm sang:
e© Số lượng bạch cầu trong máu có thé bình thường hoặc giảm; số lượng bạch
cầu lympho thường giảm, đặc biệt nhóm diễn biến nặng
Trang 24e Protein C phản ứng (CRP) bình thường hoặc tăng, procalcitonin (PCT)
thường bình thường hoặc tăng nhẹ Một số trường hợp có thể tăng nhẹ ALT,
AST, CK, LDH.
e_ Trong các trường hợp diễn biến nặng có các biểu hiện suy chức năng các cơ
quan, rối loạn đông máu, tăng D-dimer, rối loạn điện giải và toan
kiém.3X-quang và chụp cắt lớp (CT) phối
© Ở giai đoạn sớm hoặc chỉ viêm đường hô hấp trên, hình ảnh X-quang bình
thường.
e Khi có viêm phối, tổn thương thường ở hai bên với dấu hiệu viêm phổi kẽ
hoặc đám mờ (hoặc kính m0) lan tỏa, ở ngoại vi hay thùy dưới Tén thuong
có thé tiến triển nhanh trong ARDS Ít khi gặp dấu hiệu tao hang hay tràndịch, tràn khí màng phối
4 Xét nghiệm khăng định căn nguyên
Phát hiện SARS-CoV-2 băng kỹ thuật real-time RT-PCR hoặc giải trình tự
gene từ các mâu bệnh phâm.
Trang 251.2 Giới thiệu bài toán
Bài toán: Phân loại COVID-19 trên ảnh X-quang phổi Trong bài toán nàytôi đã thực hiện phân loại ảnh thể hiện tình trạng bệnh của bệnh nhân
Dau vào của bài toán: Ảnh chụp X-quang phối
Đầu ra của bài toán: Kết quả phân loại gồm ba nhãn ứng với tình trạng bệnh:
COVID-19 (nhiễm COVID-19), NORMAL (Bình thường), PNEUMONIA (viêm phôi thông thường).
Ảnh chụp X-quang phôi Kết quả phân loại
NORMAL
Đầu vào Đâu ra
Hình 1.3 Bài toán phân loại COVID-19
Mục đích nghiên cứu: Khảo sát các phương pháp máy học để phân loại ảnhCOVID-19, có thé có những cơ sở và nhận định khi sử dụng các phương pháp này
Mục đích nghiên cứu cụ thể Nghiên cứu tìm hiéu về các bộ dữ liệu COVID-19,các bộ dữ liệu liên quan đến ảnh y khoa Các bộ dữ liệu ảnh chụp X-quang phổi và
não dé phân tích và nghiên cứu
Tìm hiểu tình trạng bệnh về viêm phôi (Pneumonia) và tinh trạng nhiễm
COVID-19 dựa trên ảnh X-quang phổi ở người
Thử nghiệm các giá trị và đặc trưng trên từng phương pháp phân rút trích đặc
trưng khác nhau trên bộ dữ liệu COVID-19 đã tổng hợp từ Kaggle dé có đánh giá và
lựa chọn phù hợp trong việc lựa chọn các phương pháp dé thực nghiệm Cụ thé,
Trang 26nghiên cứu các đặc trưng ảnh, đặc trưng ảnh y khoa Haralick Các mô hình học sâu
dat “state of the art” tại các cuộc thi về phân loại ảnh Tiến hành rút trưng đặc trưng
từ các mô hình này Ap dụng các phương pháp máy học dé phân loại bệnh
COVID-19 trên ảnh X-quang phổi Support Vector Machine [5], k-Nearest-Neighbours [6]
Logistic Regression [7]
1.3 Đối tượng và phạm vi nghiên cứu
1.3.1 Đối tượng nghiên cứu
Ảnh chụp X-quang phối được tổng hợp từ Kaggle Các bộ dữ liệu này được
công bồ từ các trường đại học, các nghiên cứu, các kho ảnh y khoa và từ bệnh viện
Bộ dữ liệu được gán các nhãn được giám định bởi các bác sĩ y khoa thể hiện tìnhtrạng bệnh của bệnh nhân bao gồm: COVID-19 (tình trạng nhiễm COVID-19),
PNEUMONIA (tinh trạng viêm phổi thông thường), NORMAL (tinh trạng bình
thường).
1.3.2 Phạm vi nghiên cứu
Phạm vi nghiên cứu được áp dụng cho dữ liệu ảnh X-quang phổi ở mức độthử nghiệm Trên quy mô đánh giá kết quả thực nghiệm, so sánh sự ảnh hưởng và
khác nhau khi sự dụng các phương pháp máy học và các đặc trưng học sâu.
Toàn bộ quá trình nghiên cứu được thực hiện tại phòng E10.8 trường Dai học
Công nghệ Thông tin — Đại học quốc gia thành phố Hồ Chí Minh, khu phố 6,
phường Linh Trung, quận Thu Đức, tp.HCM.
1.4 Thách thức bài toán
Nhiều bộ dữ liệu khi sử dụng phải đảm bảo quyền riéng tư về mặt pháp lýcủa bệnh nhân Có những bộ dữ liệu vì lý do bản quyền nên không công bó, điềunày dẫn đến lượng dit liệu ảnh y khoa được thu thập không nhiều
Thiếu hụt dữ liệu: Nguồn dữ liệu chụp X-quang phổi không nhiều và rời rạc.
Một sô bộ dữ liệu xuân hiện sự trùng lap.
Trang 27Tính xác minh của dữ liệu: Việc xác định chính xác nhãn dữ liệu cân có các yêu tô vê ngữ cảnh và các thông tin bệnh nhân, đông thời đòi hỏi bác sĩ phải có trình độ chuyên môn cao.
Phân loại bênh trên hình ảnh X-quang Phân loại bênh dựa trên hình ảnh chỉ
mang tính hỗ trợ không mang tính quyết định
1.5 Ý nghĩa của đề tài1.5.1 Ý nghĩa khoa học
Tổng hợp được các bộ đữ liệu chụp X-quang phổi từ Kaggle Tìm hiểu được
các đặc trưng được ứng dụng trong phân loại ảnh y khoa Sử dụng các mô hình học
sâu dao tạo trước dé rút trích đặc trưng anh Đánh giá các phương pháp máy học, so
sánh được các yêu tố ảnh hưởng chat lượng của model phân loại
Kết quả thực nghiệm trên các phương pháp máy học mang lại góc nhìn tổng
quan trên từng phương diện khác nhau Từ đó tạo cơ sở cho việc lựa chọn thực
nghiệm các phương pháp cho những nghiên cứu về phân loại trên ảnh y khoa
Tuy ứng dụng của bài toán phân loại COVID-19 trên ảnh y khoa trong
nghiên cứu chi dừng lai trong phạm vi thực nghiệm, khảo sát Song, phan nào hồ trợcác bác sĩ sàng lọc lâm sàng trên quá trình chân đoán COVID-19
Thông qua nghiên cứu trong đề tài này đã cho thấy được các hướng phát hiện
và vai trò quan trọng của máy học trong việc chan đoán bệnh trên ảnh x-quang
1.5.2 Y nghĩa thực tiễn
COVID-19 là mối đoe dọa của toàn cầu bởi sự lây lan và những hậu quảnặng nề do nó mang lại Với những diễn biến phức tạp của dịch bệnh, các công tácxét nghiệm chân đoán bệnh đóng vai trò vô cùng quan trọng ảnh hưởng đến việc
cách ly và điều trị cho bệnh nhân Do đó, thông qua dé tài này, thé hiện tính ứng
dung cao khi sử dung phân loại COVID-19 trong việc sàng lọc và phát hiện bệnh.
Với bài toán phân loại trên ảnh X-quang đã thể hiện mỗi quan tâm của nghiên cứukhoa học đến lĩnh vực y khoa và sức khỏe cộng đồng
Trang 281.6 Bố cục khóa luận
Khóa luận bao gồm 7 chương, nội dung chính từng chương như sau:
Chương 1: Tổng quan đề tài
Chương 2: Cơ sở lý thuyết
Chương 3: Nghiên cứu thực nghiệm
Chương 4: Kết quả và thảo luận
Chương 5: Xây dựng ứng dung Demo phát hiện COVID-19 trên ảnh X-quang
Chương 6: Kết luận
Chương 7: Hướng phát triển
10
Trang 29Chương 2 CÁC NGHIÊN CỨU LIÊN QUAN VÀ HƯỚNG TIẾP CAN
2.1 Bài toán phân lớp
Bài toán phân lớp thuộc loại học giám sát (supervised learning) [9] Ở bài
toán nay ta thực hiện phân loại một tập dir liệu (có cấu trúc hoặc không có cấu trúc)thành một hoặc nhiều lớp nhất định nhờ vào một mô hình phân loại Mô hình nàyxây dựng trước trên một tập dữ liệu có nhãn (còn được gọi là tập huấn luyện)
Các loại learner trong phân lớp:
Lazy Learner: Chỉ thực hiện lưu trữ dữ liệu huấn luyện và đợi cho đến khi tađưa đữ liệu ở tập kiểm tra vào (test) O kiéu learner này, sé sử dụng các dữ liệu cótính tương đồng nhiều nhất trong dữ liệu huấn luyện đã được lưu trữ Do vậy, so vớiEager Learners, Lazy Learner mat nhiều thời gian dự đoán hơn Vi dụ: k-Nearest-
Neighbor, Case-Based Reasoning.
Eager Learner: Xây dựng mô hình phân loại dựa trên dữ liệu huấn luyện
trước khi sử dụng dữ liệu kiểm tra Eager Learner xây dựng kiến trúc chung và rõ
ràng về hàm mục tiêu Nó phải có khả năng cam kết một giả thuyết duy nhất sẽ hoạtđộng cho toàn bộ không gian Do đó, mat nhiều thời gian dao tạo và ít thời gian hơn
Trang 30e Dy đoán tin cậy (Churn prediction): Churn hoặc không churn
¢ Dự đoán chuyền đổi: Mua hoặc không mua
Thông thường, các nhiệm vụ phân loại nhị phân liên quan đến một lớp làtrạng thái bình thường và một lớp khác là trạng thái bất thường Lớp cho trạng tháibình thường được gán nhãn lớp 0 và lớp có trạng thái bất thường được gán nhãn lớp
1 Người ta thường lập mô hình nhiệm vụ phân loại nhị phân với một mô hình dự đoán phân phôi xác suât Bernoulli cho moi vi dụ.
Phân phối Bernoulli là một phân phối xác suất rời rạc bao gồm trường hợp
một sự kiện sẽ có kết quả nhi phân là 0 hoặc 1 Đối với phân loại, điều này có nghĩa
là mô hình dự đoán xác suất của một ví dụ thuộc loại 1 hoặc trang thái bất thường
Các thuật toán phô biến có thể được sử dụng dé phân loại nhị phân bao gồm:
e Hỏi quy logistic
e k-Những người hàng xóm gan nhất
e Cây quyết định
e Máy vector hỗ trợ
e Naive Bayes
Multi-Class Classification: Phân loại nhiều lớp đề cập đến các nhiệm vụ phân loại
có nhiều hơn hai lớp
Ví dụ:
e Phân loại khuôn mặt.
e Phân loại loài thực vat.
e Nhận dạng ky tự quang hoc.
Không giống như phân loại nhị phân, phân loại nhiều lớp không có kháiniệm về kết quả bình thường và bất thường Thay vào đó, các ví dụ được phân loại
là thuộc về một trong một loạt các lớp đã biết Số lượng nhãn có thé rất lớn đối với
một sô vân đê Ví dụ: một người mẫu có thể dự đoán một bức ảnh thuộc về một
12
Trang 31trong số hàng nghìn hoặc hàng chục nghìn khuôn mặt trong hệ thống nhận dạngkhuôn mặt Các vấn đề liên quan đến dự đoán một chuỗi từ, chăng hạn như mô hìnhdịch văn bản, cũng có thê được coi là một kiểu phân loại nhiều lớp đặc biệt Mỗi từtrong chuỗi các từ được dự đoán liên quan đến sự phân loại nhiều lớp trong đó kíchthước của từ vựng xác định số lượng các lớp có thé được dự đoán và có thé có kích
thước hàng chục hoặc hàng trăm nghìn từ.
Người ta thường lập mô hình nhiệm vụ phân loại nhiều lớp với một mô hình
dự đoán phân phối xác suất Multinoulli cho mỗi ví dụ
Phân phối Multinoulli là một phân phối xác suất rời rạc bao hàm trường hợpmột sự kiện sẽ có kết quả phân loại, ví dụ: K trong {1, 2, 3, , K} Đối với phânloại, điều này có nghĩa là mô hình dự đoán xác suất của một ví dụ thuộc về mỗi lớp.Nhiều thuật toán được sử dụng dé phân loại nhị phân có thể được sử dụng để phânloại nhiều lớp Các thuật toán phố biến có thể được sử dụng dé phân loại nhiều lớp
Các thuật toán được thiết kế dé phân loại nhị phân có thé được điều chỉnh dé
sử dụng cho các bài toán nhiều lớp Điều này liên quan đến việc sử dụng chiến lượckết hợp nhiều mô hình phân loại nhị phân cho mỗi lớp so với tất cả các lớp khác(được gọi là một so với phần còn lại) hoặc một mô hình cho mỗi cặp lớp (được gọi
Trang 32Các thuật toán phân loại nhị phân có thể sử dụng các chiến lược này dé phan loainhiều lớp bao gồm:
° Logistic Regression.
° Support Vector Machine.
Multi-Label Classification: Đề cập đến các nhiệm vụ phân loại có hai hoặc nhiều
nhãn lớp, trong đó một hoặc nhiều nhãn lớp có thê được dự đoán cho mỗi sample
Không giống như phân loại nhị phân và phân loại nhiều lớp, trong đó mộtnhãn lớp duy nhất được dự đoán cho mỗi sample Người ta thường mô hình hóa cácnhiệm vụ phân loại nhiều nhãn với một mô hình dự đoán nhiều đầu ra, với mỗi đầu
ra được dự đoán là phân phối xác suất Bernoulli Đây thực chất là một mô hình tạo
ra nhiều dự đoán phân loại nhị phân cho mỗi sample
Các thuật toán phân loại được sử dụng dé phân loại nhị phân hoặc da lớpkhông thé được sử dụng trực tiếp dé phân loại multi-label Có thé sử dụng các phiênbản chuyên biệt của thuật toán phân loại tiêu chuẩn, được gọi là multi-label củathuật toán, bao gồm:
e Multi-label Decision Trees
e Multi-label Random Forests
e Multi-label Gradient Boosting
Imbalanced Classification: Phân loại không cân bằng đề cập đến các nhiệm vụ
phân loại trong đó số lượng ví dụ trong mỗi lớp được phân phối không đồng đều.Thông thường, các nhiệm vụ phân loại không cân bằng là các phân loại nhị phân
trong đó phần lớn các ví dụ trong tập dữ liệu huấn luyện thuộc về lớp bình thường
và một số ít các ví dụ thuộc lớp bat thường
Ví dụ:
e Fraud detection.
e Outlier detection.
14
Trang 33e Medical diagnostic tests.
Classifier Intelligence
Hình 2.1 Minh hoa cấu trúc của bài toán phân lớp [10]
2.2 Đặc trưng
Trong thị giác máy tính và xử lý hình ảnh, đặc trưng là một phần thông tin về
nội dung của hình ảnh [8]; thường là về việc một vùng nhất định của hình ảnh cócác thuộc tính nhất định hay không Các đặc trưng có thể là các cấu trúc cụ thểtrong ảnh như điểm, cạnh hoặc đối tượng Đặc trưng cũng có thể là kết quả của hoạt
động chung vùng lân cận hoặc rút trích đặc trưng được áp dụng cho hình ảnh Các
đặc trưng liên quan đến chuyên động trong chuỗi hình ảnh hoặc các hình dạng được
xác định theo đường cong hoặc ranh giới giữa các vùng hình ảnh khác nhau.
Nói rộng hơn, đặc trưng là bất kỳ phần thông tin nào có liên quan đến việc
giải quyết công việc tính toán liên quan đến một ứng dụng nhất định Điều này cũnggiống như đặc trưng trong học máy và nhận dạng mẫu nói chung, mặc dù xử lý hìnhảnh có một tập hợp các thành phần rất phức tạp
Đặc điểm hình ảnh cụ thể, được xác định theo cấu trúc cụ thể trong dtr liệuhình ảnh, thường có thé được biểu diễn theo những cách khác nhau Ví dụ, mộtcạnh có thé được biéu diễn dưới dạng một biến boolean trong mỗi điểm ảnh mô tảliệu một cạnh có hiện diện tại điểm đó hay không Ngoài ra, thay vào đó, chúng ta
có thé sử dụng một biéu diễn cung cấp một thước đo độ chắc chắn thay vì một tuyên
bố boolean về sự tồn tai của cạnh và kết hợp điều này với thông tin về hướng củacạnh Tương tự, màu của một vùng cụ thé có thé được biểu diễn dưới dạng màu
trung bình (ba vô hướng) hoặc biểu đồ màu (ba chức năng)
15
Trang 34Khi một hệ thống thị giác máy tính hoặc thuật toán thị giác máy tính đượcthiết kế, việc lựa chọn biểu diễn đặc trưng có thé là một van dé quan trong Trongmột số trường hợp, mức độ chi tiết cao hơn trong mô tả của một đặc trưng có thểcần thiết dé giải quyết van đề, nhưng điều này phải trả giá là phải xử lý nhiều dữliệu hơn và xử lý đòi hỏi nhiều hơn.
2.3 Rút trích đặc trưng
Trong học máy và thống kê, trích chọn đặc trưng (hay còn gọi bằng nhiều
cụm từ như trích chọn đặc tính, lựa chọn đặc trưng, lựa chọn thuộc tính, chọn lọc
đặc trưng Là một quá trình chọn lọc một tập con chứa các thuộc tính liên quan dé
sử dụng trong quá trình xây dung mô hình.
Trong khai phá dữ liệu thì phương pháp trích chọn đóng một vai trò quan
trọng trong tiền xử lý số liệu Hướng tiếp cận này làm tăng hiệu năng thu nhận tri
thức trong các ngành như tin sinh, xử lý dữ liệu web, xử lý tiếng nói, hình ảnh vớiđặc tính là có rất nhiều thuộc tích (vài trăm cho đến vài trăm ngàn thuộc tính) nhưngthường chỉ có một số lượng tương đối nhỏ các mẫu dùng dé huấn luyện (thường là
vài trăm) Phương pháp trích chọn sẽ giúp giảm kích cỡ của không gian dữ liệu, loại
bỏ những thuộc tính không liên quan và những thuộc tính nhiễu Phương pháp này
có ảnh hưởng ngay lập tức đến các ứng dụng như tăng tốc độ của thuật toán khai
phá dữ liệu, cải thiện chất lượng dữ liệu và vì vậy tăng hiệu suất khai phá dữ liệu,
kiểm soát được kết quả của thuật toán Phương pháp này đã được giới thiệu từ
những năm 1970 trong các tài liệu về xác suất thống kê, học máy và khai phá dữliệu Những năm trở lại đây, do nhu cầu giảm chiều số liệu ngày càng cao nên có rấtnhiều các nghiên cứu về lựa chọn thuộc tính, lĩnh vực này phát triển mạnh mẽ cả về
chiêu rộng lân chiêu sâu.
Về cơ bản việc rút trích các thuộc tính đặc trưng bao gồm hai phần là xây
dựng các thuộc tính và lựa chọn các thuộc tính đặc trưng Xây dựng bộ các thuộc
tính là một công việc rất quan trọng trong việc xử lý số liệu Khi xây dựng dữ liệu
chúng ta cần phải đảm bảo không dé mat nhiều thông tin quá cũng như không quá
16
Trang 35tốn kém về mặt chi phí Phần thứ hai có mục tiêu tìm ra những thuộc tính đại diệncho đối tượng, loại bỏ những thuộc tính thừa và gây nhiễu nhằm tăng hiệu suất của
các thuật toán khai phá dữ liệu.
2.4 Kiến trúc mang học sâu
Convolution Neural Network (CNN)
Full confection Gauesain connectors
Conwolutions Subsameding Convolution Sutaampling Full rennerz3stn
Hình 2.2 Kiến trúc của một Convolution Neural Network [11]
Convolution Neural Network là một trong những mô hình dang deep
learning tiên tiễn được sử dung rộng rãi Thường được dùng trong lĩnh vực phát
hiện đối tượng (object) thông qua ảnh
Cấu trúc của CNN gồm vòng lặp các tầng Convolution, tầng Activation
(ReLU), tầng Pooling và tầng Fully Connected
Tang Convolution
Convolution được sử dung dau tiên trong xử lý tin hiệu số, nhờ vào nguyên
lý biến đối thông tin, các nhà khoa học đã áp dụng kỹ thuật này vào xử lý ảnh vàvideo số Đầu vào của tầng này có dạng như một bức ảnh chứ không có dạng vectornhư neural network, cụ thể một bước ảnh sau khi số hóa có dạn ma trận width xheight x depth ( widthL số lượng điểm ảnh trên chiều rộng, height: số lượng điểmảnh trên chiều cao depthL số lượng kênh chăng hạn như RGB có 2 kênh đại diện
cho mức độ của 3 màu Đỏ, Lục, Lam), Mỗi giá trị của ma trận tương đương với một
điểm ản(pixel), 0 là màu đen, 1 là màu trắng( nếu là ảnh grayscale thì giá trị biếnthiên từ 0=>255) Tầng Convolution là tầng cốt lõi của mạng CNN
17
Trang 36Tang Pooling:
Mục dich của tang này rat đơn giản, nó làm giảm số chiều hyperparameter
mà ta cần phải tính toán, từ đó giảm thời gian tính toán, tránh overfitting Loạipooling ta thường gặp nhất là max pooling, lấy giá trị lớn nhất trong một poolingwindow Pooling hoạt động gần giống với Convolution, nó cũng có 1 cửa số trượt
gọi là pooling window, cửa số này trượt qua từng giá trị của ma trận dữ liệu đầu vào
(thường là các feature map trong convolution layer), chọn ra một giá tri từ các giá
trị nằm trong cửa số trượt (với max pooling ta sẽ lay giá tri lớn nhất)
Dạng phổ biến nhất của max pooling 1a filter với kích thước 2x2 và stride=2.Sau khi pooling, một hình ảnh sẽ có khoản một phần tư số điểm ảnh so với lúc bắtđầu Vì nó giữ các các giá trị lớn nhất từ mỗi cửa số, nó sẽ bảo toàn tính khớp củamỗi feature bên trong cửa số Nghĩa là nó không quan tâm quá nhiều về vị trí chínhxác các nơi feature khớp, miễn là nó khớp ở chỗ nào đó trong cửa sô Kết quả làCNN có thể tìm xem liệu một feature có nằm trong hình ảnh mà không cần nó nằm
ở dau.
Tang Fully Connected
Tang này chính là một mang neural network truyền thông Thường thì có lớpConvPooling thì sẽ là 2 lớp Fully connected, 2 layer dé tập hợp các feature layer mà
ta đã tìm ra, chuyển đổi dữ liệu từ 3D, hoặc thành 2D thành 1D, tức chỉ còn là 1vector Còn | tang nữa là tang kết quả cuối cùng số neuron của tầng này phụ thuộcvào số lớp mà ta muốn tìm ra Tại tầng cuối cũng sẽ sử dụng 1 hàm kinh điển trongmáy học mà bắt kì ai cũng từng sử dụng đó là softmax dé phân loại đổi tượng dựa
vào vector đặc trưng đã được tính toán của các lớp trước đó.
Trang 37huấn luyện nên nó được xếp vào loại lười học (lazy learning) Mọi tính toán đượcthực hiện khi cần dự đoán kết quả của dữ liệu mới k-NN hoạt động bằng cách tìmkhoảng cách giữa truy vấn và tất cả các mẫu (sample) trong tập dữ liệu, sau đó chọn
số k điểm dữ liệu gần với truy vấn nhất Tiến hành bỏ phiếu cho nhãn xuất hiệnnhiều nhất (trong trường hợp phân loại) hoặc số trung bình các nhãn (trong trườnghợp hồi quy) Dé áp dụng k-NN một cách hiệu qua, chúng ta cần chọn một giá trị kthích hợp, và sự thành công của việc phân loại phụ thuộc rất nhiều vào giá tri này
Hinh 2.3 Minh hoa phuong phap k-Nearest-Neighbours [19]
Độ do khoảng cach:
Khoảng cách Cosine Khoảng cách cosine được tính theo công thức (4).
N là kích thước của 2 vector x, y (số lượng thuộc tính, 36 lượng đặc trưng)
vec-tor x và y là 2 điểm dữ liệu
x = (xl, x2, x3, , xN )
y =(yl, y2, y3, , yN )
Khoang cach Minkowski
19
Trang 38Khoảng cách Minkowski là một trường hợp tổng quát của khoảng cách
Euclidean Minkowski có công thức như sau :
Distance(x, y) =
Trong do:
n: số phan tử của véc-tơ
p: là tham số
x¡: là phan tử thứ j của véc-to x
y¡: là phần tử thứ j của véc-tơ y
Một số trường hợp:
p=1, số liệu của Minkowski trả về giá trị của độ đo Manhattan
p=2 số liệu của Minkowski trả về giá trị của độ đo Euclidean
p = ©, số liệu của Minkowski trả về giá trị của độ đo Chebychev
2.5.2 Support vector machines (SVM)
Hình 2.4 Minh họa thuật toán SVM [20]
20
Trang 39SVM là một thuật toán học giám sát có thé được sử dụng cho cả phân loạihoặc hồi quy Một cách cụ thể, SVM hỗ trợ việc tạo ra một siêu phẳng hoặc tập hợpcác siêu phang trong một không gian có số chiều hữu hạn hoặc vô hạn Kết quaphân loại đạt kết quả tốt nhất khi siêu phang có khoảng cách lớn nhất đến điểm dữliệu huấn luyện gần nhất của bất kỳ lớp nào (khoảng cách biên) Mục đích củaphương pháp SVM là tìm ra khoảng cách biên lớn nhất.
là các giá trị số liên tục, hồi quy logistic biến đổi đầu ra của nó bằng cách sử dụng
ham Logistic Sigmoid dé trả về một giá trị xác suất mà sau đó có thể được ánh xạtới hai hoặc nhiều lớp rời rạc Hồi quy tuyến tính có thể giúp chúng ta dự đoán các
giá trị liên tục Hoi quy logistic dự đoán các giá tri rời rac.
Hàm Sigmoid :
21
Trang 40Trong đó:
e©_ s(z)=0 đến 1 (ước tính xác suất)
e z= phương trình dự đoán, vi du: mx +b
e e=logarit tư nhiên.
2.6 Cac phương pháp biểu diễn đặc trưng
2.6.1 Dac trưng ảnh
Đặc trưng ảnh là một phần thông tin về nội dung của hình ảnh; thường là về
việc một vùng nhất định của hình ảnh có các thuộc tính nhất định hay không Đặc
trưng có thể là các cấu trúc cụ thể trong ảnh như điểm, cạnh hoặc đối tượng Nócũng có thé là kết quả của hoạt động vùng lân cận chung hoặc phát hiện đặc trưng
được áp dụng cho hình ảnh Tất cả các đặc trưng có thể được phân loại thô thànhcác đặc trưng cấp thấp và các đặc trưng cấp cao Các đặc trưng cấp thấp có thể được
trích xuất trực tiếp từ ảnh gốc, trong khi trích xuất các đặc trưng cấp cao phải dựatrên các đặc trưng cấp thấp Trong nghiên cứu này, tôi muốn chuyên đổi dữ liệu thô
(hình ảnh) thành một vectơ đặc trưng dé may có thé hiểu được các thông tin và tính
chat của hình ảnh Các vector đặc trưng này được tạo ra bằng cách sử dụng biểu
diễn thu nhỏ thay vì kích thước đầy đủ của ảnh đầu vào
2.6.2 Đặc trưng kết cau Haralick
Các đặc trưng kết cau Haralick là các bộ mô tả kết cầu phổ biến trong phântích hình ảnh Các đặc trưng này được tính toán từ Ma trận đồng xuất hiện mức xám(GLCM) [22] Ma trận này đếm sự đồng xuất hiện của các mức xám lân cận trong
hình ảnh Đề tính toán các đặc trưng Haralick, mức xám của hình ảnh được giảm
xuống, một quá trình được gọi là lượng tử hóa (quantization) Mục đích của công
việc này là phát triển các đặc trưng Haralick luôn không đổi với số lượng mức xám
lượng tử hóa GLCM sử dụng khái niệm liền ké trong hình ảnh Ý tưởng chính là nó
tìm kiếm các cặp giá tri pixel liền kề xuất hiện trong một hình ảnh và tiếp tục lưu lại
nó trên toàn bộ hình ảnh.
22