TOM TAT KHÓA LUẬNTrong phạm vi nghiên cứu của khóa luận này, chúng tôi thực hiện khảo sat các công trình nghiên cứu đi trước về việc sử dụng tiếng ho của con người dé phân loại và sàng l
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH TRUONG DAI HOC CONG NGHE THONG TIN KHOA KHOA HOC VA KY THUAT THONG TIN
DUONG VAN BÌNH
LE TRAN HOAI AN
KHOA LUAN TOT NGHIEP
NHAN DIEN COVID-19 DUA TREN DAC TRUNG TIEM
Trang 2ĐẠI HỌC QUOC GIA TP HO CHÍ MINH TRUONG DAI HOC CONG NGHE THONG TIN KHOA KHOA HOC VA KY THUAT THONG TIN
DUONG VAN BINH - 18520505
LE TRAN HOÀI AN - 18520426
KHOA LUAN TOT NGHIEP
NHAN DIEN COVID-19 DUA TREN DAC TRUNG TIEM
AN TRONG TIENG HO
RECOGNIZING COVID-19 BY USING LATENT FEATURES IN
COUGHS
CU NHAN NGANH KHOA HOC DU LIEU
GIANG VIEN HUONG DAN
TS DO TRONG HOP
ThS TA THU THỦY
TP HO CHi MINH, 2022
Trang 3THÔNG TIN HỘI ĐÒNG CHÁM KHÓA LUẬN TÓT NGHIỆP
Hội đồng cham khóa luận tốt nghiệp, thành lập theo Quyết định số
Tgầy của Hiệu trưởng Trường Đại học Công nghệ Thông tin.
Trang 4Chúng tôi xin cảm ơn các bạn hữu gần xa đã đóng góp ý kiến và những động viên để
chúng tôi có thê tiếp tục thực hiện quá trình nghiên cứu của mình trong Khóa luận tốt
nghiệp.
Trang 51.4.1 _ Phân loại âm thanh tiếng ho COVID-1Ĩ9 2- 2-52 ccceE2EzEzkered 6
1.4.2 Cac cơng trình và nghiên cứu liên quan ¿55-5 5-<++<>+e++s 7
Chương 2 PHƯƠNG PHÁP TIẾP CAN -©22+22+2z+EE+EEtEEzEErrxrrxerxees 11
2.1 Cac bộ dữ liệu âm thanh tiếng ho 2 5¿+2++x+2z++zx++zxezzeeex 11
2.1.1 Bộ dữ liệu AICovidVN HH HH HH hệ, 11
2.1.2 Bộ dữ liệu COUGHVID occ ececeeseenecneeeeceeeeseeseceeneeeeeneeeaeeaees 12 2.1.3 Bộ dữ liệu Coswar ccccccccceecsscccceseessssscececesessseeeeceseesssseeecesensssaees 13
2.1.4 Bộ dữ liệu ESC-5( ST ST HH HH TH HH HH key 13
2.2 _ Đặc trưng trích xuất từ âm thanh tiếng ho 2 2 z+s++++£+z£+zxe+z 13
2.2.1 Tổng quan về đặc trưng âm thanh 5- s22 ++£++xe£xerxzrxzxez 13
2.2.2 Mel-Spectrogram - ch nh TH Hàn nh nh nành 15
2.2.3 Mel-frequency cepstral coefficients (MFCC) - «<-c++ 16
2.3 Phương pháp xử lý đặc trung oo cece eceeseceeeseeeneeeseeeseeeeeeeeeeneeseenseeees 18
2.3.1 Standard ScaÏer ch H TH HH HH ng 18 2.3.2 Synthetic Minority Oversampling Technique (SMOTE) 19
2.4 Mạnh sinh đối khang (GAN) o ececescescssessessessessessesesessessessessestesesstssesseaees 19
2.5 Cac mơ hình phan ÌOạI ccescceeneceseeeseeeeseeesseeeseeenseeeseeeneeeeaeeees 22
2.5.1 Support Vector Machine (SVM) c Hs SH ng tren 22
Trang 62.5.2 Light Gradient Boosted Machine (Light-GBMI) - 25
Chương 4 XÂY DUNG THÍ NGHIEM VA PHAT TRIEN HỆ THONG 53
4.1 Téng quan mô hình thực nghiém cccceceeseseesseseeseesessesseeeseesessesessesees 53
4.1.1 Huong tiếp cận học may o cececccccccescesessessessessesesessessesseseseesesseseseeaees 534.1.2 Hurong tiếp cận học Sau v.cececeeccsccsessesessessessessessesessessessesseseesesseseeseaees 544.1.3 Hướng tiếp cận tăng cường dữ liệu bang GAN - 55
4.1.4 Dữ liệu metadata ccc cccccccccsecccesseeeessseecesseecessseesessseeeensaeess 55
Trang 74.1.5 Dit liệu tiếng ho c- + 5c tt EE21121211 2112112111 Ertke 574.2 Kết quả thí nghiệm :- ©2522 EEE1211211211211111211211 111111 c0 59
4.2.1 Phat hiện âm thanh tiếng ho - 2 2 2+E+E£EE£EE2EE2EeEEerkerxerkee 594.2.2 Nhận diện COVID-19 qua âm thanh tiếng hO - << 60
4.2.2.1 Mô hình Học máy -¿- +: ©2++2++2Ext2E+SEESEEEEEerkrrrrerkeee 60
4.2.2.2 Mô hình Học sâu -¿- +: ©2++2E+2EktEEESEESEEEEESrkrrrrerrree 62 4.2.3 Mô hình Học sâu với dit liệu tăng cường c+s- sex 67
Chương 5 _ XÂY DỰNG HE THONG UNG DỤNG -2- 5s scccrseez 68
5.1 Môi trường thực hiỆn G22 3211121112111 1 1111111118 11811811 11 re, 68
5.2 Xây dựng hệ thống -c- + + E1 1t E1 2E2111211211211211 11111 xe 68
5.2.1 Ý tưởng hệ thống SE EE E2EEEEEEEE12112121 111.2 68
5.2.2 Phuong pháp thực hiỆn 2c 22c 33211332 EE5EEEErsrsrerske 69
5.3 Kết quả chương trình c25+2S SE EEEEEEE2E11E11E11211 11t, 70Chương 6 KẾT LUẬN VÀ HƯỚNG PHÁT TRIÉN -¿©-5¿ 55+: 72
Trang 8Hình 2.6: Cac siêu phăng có thé có va margin cực đại - ess eseseesteseeseeee 23Hình 2.7: Siêu phang 2-D và 3-D trong không gian đặc trưng (feature space) 24
Ipi:1i023010)9)092ã10450:91 1000007877 25
Hình 2.9: Thuật toán Ensemble Gradient Boosting - s-csscssssssexsserses 27 Hình 2.10: Thuật toán Ensemble Bagging Tree - 55c S+cc+scxseersres 29
Hình 2.11: CNN lây cảm hứng từ hoạt động của vỏ não thị giác - 30
Hình 2.12: Mô hình Neural Network đơn giản - sc + + ssvsserssersrreres 31 Hình 2.13: CNNs trong nhận điện hình ảnh 2-5555 S52 <++c++exsserserees 32
Hình 2.14: Cấu trúc ảnh RGB 25:222+t222E2EEttEEErtttrrtrrtirrrrrrrrrrree 33Hình 2.15: Filters dùng dé trích xuất đặc trưng - + - s+++c++E++Eezxerxerszxee 34
Trang 9Hình 3.4: Quy trình Cough Concafenation ¿2 2 c3 3+ svEesvreerrssrsree 49
Hình 3.5: Kiến trúc mô hình phát hiện âm thanh tiếng ho : 2-55 50Hình 3.6: Kiến trúc phương pháp tiếp cận với mô hình lai (hybrid) 52Hình 3.7: Kiến trac mô hình COVID-19 Cough GAN - - 2 2+5z2cz+cczxcrxd 53
Hình 4.1: Phương pháp Cross-valIdaf1On - 5 22323323 *2E£EE+vEsereeeresrrses 55
Hình 4.2: Thong tin lưu trữ trong metadata của bộ dữ liệu Coswara 57
Hình 5.1: Sơ đồ xử lý với mô hình Model View Template của Django 70Hình 5.2: Giao diện hệ thống demo nhận diện COVID-19 qua âm thanh tiếng ho 71Hình 5.3: Người dùng nhập các thông tin va ghi âm tiếng ho -. -:-5- 71
Trang 10DANH MỤC BANG
Bảng 4.1: Thống kê số lượng tiếng ho có trong mẫu đữ liệu . - 47
Bang 4.2: Tham số cài đặt các mô hình Học MAY 2- 2 2 2 +x+£z£+zs+2 54 Bang 4.3: Quy tắc chuyên đồi nhãn - ¿5 St SE E1 E2 EEEEEEEEE21121121 11111 xe 56 Bảng 4.4: Thống kê nhãn của dữ liệu phát triển giải pháp Phát hiện âm thanh tiếng ho 2-22 5£22S2E£2EE22EEE2EE2E12221231221222121222122 59 Bảng 4.5: Thống kê dữ liệu sạch được sử dụng đề phát triển các phương pháp Nhận diện âm thanh tiếng ho COVID-19 2-2 2+ +£x+£z£+2s+2 60 Bảng 4.6: Điểm AUC-ROC của các mô hình phát hiện tiếng ho - 60
Bảng 4.7: Điểm AUC-ROC của các mô hình Học máy trên Coswara 61
Bảng 4.8: Điểm AUC-ROC của các mô hình Học máy trên COUGHVID 61
Bang 4.9: Điểm AUC-ROC của các mô hình Học máy trên AICovidVN 62
Bảng 4.10: Điểm AUC-ROC của mô hình MobileNet trên Coswara 63
Bảng 4.11: Điểm AUC-ROC của mô hình MobileNet trên COUGHVID 63
Bảng 4.12: Điểm AUC-ROC của mô hình MobileNet trên bộ dữ liệu AICovidVN geo MR ẤP d.n / 64
Bảng 4.13: Điểm AUC-ROC của mô hình lai tạo trên Coswara - 65
Bảng 4.14: Điểm AUC-ROC của mô hình lai tạo trên COUGHVID ó6 Bang 4.15: Điểm AUC-ROC của mô hình lai tạo trên AICovidVN 66
Bang 4.16: Điểm AUC-ROC của mô hình MobileNet trên AICovidVN Va ¡0i áp 1-ốuì 1111070777 67
Trang 11DANH MỤC TU VIET TAT
Environmental Sound Classification-50
Generative Adversarial Network
Severe Acute Respiratory Syndrome Coronavirus 2
World Health Organization
Trang 12TOM TAT KHÓA LUẬN
Trong phạm vi nghiên cứu của khóa luận này, chúng tôi thực hiện khảo sat các công
trình nghiên cứu đi trước về việc sử dụng tiếng ho của con người dé phân loại và sàng
lọc COVID-19 từ xa Chúng tôi hướng tới việc xây dựng giải pháp thông minh sử
dụng học máy và học sâu để phát triển các giải pháp sàng lọc COVID-19 an toàn,
nhanh, hiệu quả và tiết kiệm Trong nghiên cứu của chúng tôi sử dụng ba bộ dữ liệutiếng ho Coswara, COUGHVID va AICovidVN (tiếng ho của người Việt Nam) Đónggóp của nghiên cứu này gồm Xử lý đữ liệu - trích xuất đặc trưng và Phát triển các mô
hình:
e Xử lý dữ liệu - trích xuất đặc trưng: Chúng tôi đề xuất quy trình Cough
Segmentation và Cough concatenation với mục dich cải thiện chất lượng đặctrưng trích xuất và tăng nguồn dữ liệu huấn luyện
e Phát triển các mô hình:
© Mô hình phát hiện tiếng ho: Chúng tôi thiết kết một mô hình học sâu có
thé tiếp nhận và học từ hai dang đặc trưng đầu vào khác nhau (đặc trưng
1 chiều và đặc trưng 2 chiều) được trích xuất từ tiếng ho
©_ Mô hình nhận diện tiếng ho COVID-19: Một mô hình lai tạo được dé
xuất dé nhận đầu vào là đặc trưng tiếng ho cùng với thông tin metadata(thông tin cá nhân, thông tin bệnh lý) để đưa ra dự đoán về khả năngdương tính với COVID-19 của mẫu tiếng ho
© Mô hình tăng cường dữ liệu sử dung GAN: Chúng tôi thiết kế một kiến
trúc GAN với dit liệu huấn luyện từ bộ dit liệu AICovidVN dé huấn
luyện một mô hình có khả năng sinh ra các mẫu đặc trưng tiếng ho nhân
tạo.
Ngoài ra, chúng tôi cũng tiến hành thực nghiệm trên các mô hình học máy và các
phương pháp tiền xử lý đặc trưng khác nhau để đưa ra nhiều kết quả so sánh cho
nghiên cứu.
Trang 14Chương 1 TONG QUAN ĐÈ TÀI
1.1 Lý do chọn đề tài
COVID-19 do Coronavirus 2 (SARS-CoV2) gây ra, là hội chứng hô hap cấp
tính được tổ chức y tế thé giới (WHO) tuyên bé là đại dịch toàn cầu vào ngày 11tháng 2 năm 2020 Theo trang thống kê trực tuyến worldometers.info [1], tính đếnsáng ngày 29/11/2021 (giờ Việt Nam), thé giới ghi nhận có tông cộng 261,763,255
ca nhiễm COVID-19, trong đó 5,217,302 ca tử vong và 236,423,420 ca bình phục.
Còn ở Việt Nam ghi nhận có tong cong 1,210,340 ca nhiém COVID-19, trong đó24,882 ca tử vong và 958,636 ca bình phục Việc bùng nô đại dịch SARS — CoV-2
đang diễn biến ngày càng phức tạp và khó lường gây ảnh hưởng nghiêm trọng đến
kinh tế xã hội trên toàn thé giới Ké cả những quốc gia lớn, giàu mạnh trên thế giớicũng gặp khó khăn trong việc triển khai các phương pháp kiểm dịch và quản lý do sựlây lan nhanh chóng, phức tạp và ngày càng xuất hiện thêm các biến chủng nguy hiểm
khác của SARS-CoV2 có thé kề đến như Beta, Gamma, Delta, Omicron
Hiện nay phương pháp xét nghiệm COVID-19 phô biến và tiêu chuẩn có thé
kế đến real-time Reverse Transcription Polymerase Chain Reaction (rRT-PCR) được
sử dung thường xuyên dé xác nhận các trường hop COVID-19 Phuong pháp thửnghiệm này mặc dù có nhiều ưu điểm là có độ chính xác khá cao và ít có khả năngmang lại kết quả âm tinh giả nhưng bên cạnh đó vẫn còn nhiều van đề khó khăn dékiểm soát đại dịch vì những lý do như: tính khả dụng bị hạn chế do vấn đề địa lý vàthời gian; sự khan hiếm và chi phí của các xét nghiệm lâm sang; yêu cầu phải trựctiếp đến bệnh viện, phòng khám, phòng thí nghiệm hoặc trang bị phòng thí nghiệm
di động dé tiễn hành kiểm tra, việc nay có thé gây ra lây nhiễm giữa người được kiểmtra với nhau và đội ngũ y tế trong quá trình kiểm tra
Phân loại tín hiệu âm thanh ho đã được sử dụng thành công đề chân đoán nhiềuloại bệnh liên quan đến đường hô hap và đã có sự quan tâm đáng ké đến việc tận dụngHọc may (Machine Learning) dé cung cap sang loc COVID-19 rộng rãi
Trang 15Các nghiên cứu trước đây đã chỉ ra răng ho do các hội chứng hô hấp riêng biệt
có các đặc điểm tiềm ẩn riêng biệt [2] Những đặc điểm riêng biệt này có thé đượctrích xuất bằng xử lý tín hiệu thích hợp và các phép biến đổi trên âm thanh ho Các
đặc trưng sau đó có thể được sử dụng để đào tạo một công cụ Trí tuệ nhân tạo
(Artificial Intelligence) tinh vi dé thực hiện sơ bộ chan đoán chi dựa trên tiếng ho.Một số phân tích chuyên sâu đã được chứng thực về sự thay đổi hình thái bệnh lý gây
ra bởi COVID-19 trong hệ thống đường hô hấp, cho thấy rằng các thay đổi là khácbiệt với những bệnh do các bệnh đường hô hấp không phải do COVID-19 gây ra
Điều này cho thấy COVID-19 lây nhiễm vào hệ hô hap theo một cách riêng biệt Do
đó, giả thuyết rang ho do COVID-19 cũng có khả năng có các tính năng tiềm ấn riêng
biệt và nguy cơ những đặc điểm này trùng lặp với những đặc điểm liên quan đến các
bệnh nhiễm trùng đường hô hấp khác là thấp Các tính năng tiềm ân khác biệt này cóthé được khai thác dé đào tạo công cu AI nhằm phân biệt tiếng ho do COVID-19 vatiếng ho không phải do COVID-19
1.2 Mục tiêu
Nghiên cứu, phân tích những đặc trưng riêng biệt của tiếng ho có nhiễmCOVID-19 (khác biệt giữa những tiếng ho bình thường và các bệnh về đường hô hapkhác) cũng như các phương pháp thực hiện rút trích đặc trưng, phân tích về tiếng ho
Từ đó xem xét ghi nhận những điểm đặc trưng của tiếng ho của người nhiễm
COVID-19, điều này đóng góp cho các lĩnh vực nghiên cứu liên quan về xử lý âm thanh nóichung và bài toán về nhận biết, phân loại tiếng ho nói riêng Qua đó đóng góp giảipháp chuân đoán, sang lọc tự động người nhiễm COVID-19 một cách chủ động vàtiết kiệm thông qua tiếng ho
Nghiên cứu cũng như áp dụng các mô hình Học máy, Học sâu (Deep
Learning), các kỹ thuật hiện đại có liên quan dé giải quyết bài toán nhận diện
COVID-19 qua tiếng ho Nghiên cứu của chúng tôi cũng hướng tới việc so sánh với các côngtrình nghiên cứu liên quan trên thế giới dé kế thừa và phát triển những giải pháp phùhợp với Việt Nam Hướng tới xây dựng công cụ chuân đoán COVID-19 qua tiếng ho
Trang 16(qua điện thoại, ứng dụng mobile, web, v.v) Việc có thể xây dựng một giải pháp sànglọc từ xa thông qua các thiết bị thông minh sẽ giảm được chi phí xét nghiệm truyền
thống và giúp đảm bảo việc giãn cách xã hội
Áp dụng trí tuệ nhân tạo hay Học máy trong các dịch vụ y tế đang trở thành
một xu hướng phát triển tat yếu của Xã hội Vì vậy, với công cụ sàng lọc qua việc thu
âm tiếng ho của người dùng và phân tích để đưa ra kết quả chuẩn đoán sẽ là một giải
pháp hữu hiệu và tiện lợi trong bối cảnh tình hình dịch bệnh phức tạp Cũng như khidai dịch COVID-19 qua di, việc có một ứng dụng phô biến để đưa ra chuẩn đoánCOVID-19 cũng là một điều cần thiết vì theo nhận định của WHO cho rằng COVID-
19 đang dần trở thành một bệnh đặc hữu [3]
Dé xây dựng các ứng dụng chuẩn đoán COVID-19 hiệu quả thì cần có các môhình được phát triển một cách kỹ lưỡng và đạt độ chính xác cao Từ nền tảng này cácứng dụng chuân đoán mới có thê được phát trién và phố biến rộng rãi tới người dùng.Chính vì lý do này, nghiên cứu của chúng tôi tập trung nghiên cứu, phân tích tiếng
ho COVID-19 từ đó phát triển các mô hình Học máy và Học sâu có độ chính xác caođóng góp cho việc xây dựng giải pháp phân loại, chuân đoán và sàng lọc COVID-19
tự động.
1.3 Vấn đề thách thức
Ngoài những vấn đề khó khăn cơ bản đã có sẵn của bài toán phân loại, phân
loại âm thanh như các vấn đề kỹ thuật thì bên cạnh đó chủ đề phân loại tiếng ho gây
ra do COVID-19 trên thé giới nói chung và ở trong nước nói riêng còn là một đề tài
mới mẻ và đầy thách thức
Cơ sở tri thức cũng như các nghiên cứu liên quan chưa có nhiều khiến cho quátrình tìm hiểu nội dung và triển khai thực hiện của đề tài gặp nhiều khó khăn cũng
như chất lượng của các bộ dữ liệu thu thập trực tuyến còn nhiều vấn đề bat cập như
nhiễu, khó nhận diện và mắt cân băng dẫn đến các khó khăn liên quan trong quá trìnhtriển khai các phương pháp xử lý và hiệu suất mô hình
Trang 17Đối với lĩnh vực y tế, các mô hình đòi hỏi cần phải có độ chính xác cao mới
có thể đem vào ứng dụng trong thực tế Một vấn đề trước mắt khác cũng như mục
tiêu nhóm hướng đến là tinh ứng dụng của đề tài, cụ thé các phương pháp triển khai
của hệ thong ngoai cai thién tối đa hiệu suất của mô hình bên cạnh đó cần phải nhắmđến việc tối thiểu tỉ lệ lỗi loại II (âm tinh giả) và kết hợp các kết quả dự đoán, nếu các
mô hình không đồng thời cho kết quả giống nhau thì sẽ trả về kết quả không xác định
1.4 Tổng quan bài toán phân loại âm thanh
Công trình nghiên cứu của chúng tôi thuộc bai toán phân loại âm thanh Phân
loại âm thanh là một trong những ứng dụng được sử dụng rộng rãi nhất trong Học sâu
về âm thanh Nó liên quan đến việc học cách phân loại âm thanh và dự đoán loại âm
thanh đó.
Phân loại âm thanh còn gọi là quá trình phân tích bản ghi âm, kỹ thuật phân
loại âm thanh có nhiều ứng dụng trong lĩnh vực Trí tuệ nhân tạo và Khoa học dữ liệunhư trình dịch giọng nói tự động, trợ lý ảo, nhận dạng thể loại nhạc và ứng dụng tronglĩnh vực y học như nhận dạng âm thanh ho để nắm bắt tình trạng bệnh nhân Tín hiệu
từ âm thanh ho từ lâu đã được sử dụng đề chuẩn đoán về các bệnh có liên quan đường
hô hấp, các nghiên cứu về Trí tuệ nhân tạo và Học máy có liên quan đến âm thanhtiếng ho trong lĩnh vực y học nhận được động lực thúc đây phát triển trong bối cảnh
đại dich COVID-19 bùng phát trên thé giới
1.4.1 Phân loại âm thanh tiếng ho COVID-19
Tiếng ho là một triệu chứng phổ biến của nhiều loại bệnh liên quan vềđường hô hấp Vì vậy tiếng ho mang những thông tin quan trọng về nhữngthay đôi của đường hô hap và tình trạng của bệnh nhân nên ngày nay có nhiều
hệ thống được phát triển áp dụng công nghệ AI, Học máy hiện dai dé xử lý ditliệu về tiếng ho với mục đích trích xuất các thông tin hữu ích Với thực trạngthé giới đối mặt đại dịch COVID-19, các công trình nghiên cứu xoay quanh
xử lý dữ liệu tiêng ho được đây mạnh hơn với các nghiên cứu liên quan đên
Trang 18tiếng ho và COVID-19, tiêu biéu có thể kế đến là dự đoán kết quả nhiễm bệnhqua tiếng ho với công cụ là Trí tuệ nhân tạo.
1.4.2 Các công trình và nghiên cứu liên quan
Nhiều nhóm tác giả cũng cấp các nghiên cứu về cả bộ dữ liệu và các
thực nghiệm khác nhau áp dụng các phương pháp ML và DL trong né lực cung
cấp một giải pháp sang loc COVID-19 hiệu qua và tiết kiệm Tại điểm mụcnày, chúng tôi trích dẫn một số nghiên cứu về bộ dit liệu và các phương phápphân loại COVID-19 dựa vào tiếng ho Qua đó liệt kê các kết quả và phân tích
vê phương pháp tiêp cận của các nhóm tác gia cho bài toán.
Dự án Coswara [4] được triển khai với mục tiêu cũng cấp cho cộng
đồng nghiên cứu khoa học một bộ dữ liệu về tiếng ho, hơi thở và giọng nói
phục vụ các nghiên cứu liên quan tới COVID-19 Dự án thu thập dt liệu được
đóng góp bởi người dùng trên toàn thế giới qua một giao điện website đượccung cấp bởi nhóm tác giả Các bản thu âm sẽ được thu thập thông qua cácthiết bị điện tử như điện thoại thông minh hoặc máy tính có kết nối Internet.Tại thời điểm thực hiện nghiên cứu của chúng tôi, chúng tôi sử dụng 4,465audios được cung cấp từ dự án Coswara (hai loại tiếng ho: shallow cough and
heavy cough được lưu trữ dưới dạng filename.wav) Theo nghiên cứu [5], bộ
dữ liệu Coswara có tiếng ho của người dương tính với COVID-19 ngắn hon
tiếng ho của người bình thường từ 15% tới 20% Nhóm tác giả du án Coswaracũng cung cấp một tập tin metadata chứa các thông tin cá nhân cũng như tìnhtrạng bệnh lý do người đóng góp tiếng ho cung cấp
Với nỗ lực cung cấp một bộ dé liệu lớn và chất lượng cho việc nghiêncứu các giải pháp phân loại COVID-19 qua tiếng ho, nhóm tác giả Lara
Orlandic và các cộng sự đã xây dựng bộ dir liệu COUGHVID [6] cung cấp
hơn 25,000 tiếng ho thu thập từ cộng đồng Bên cạnh đó, có bốn chuyên gia
có kinh nghiệm trong tiền hành đánh giá, phân tích va gán nhãn cho hơn 2,800bản thu âm tiếng ho khác nhau Vì vậy, nhóm tác giả tin rằng COUGHVID là
Trang 19bộ dit liệu lớn nhất và uy tín cho các phân tích và thử nghiệm các giải phápphân loại COVID-19 qua tiếng ho Ngoài bộ dữ liệu, nhóm tác giả còn cung
các kết quả từ các giải pháp nhận diện tiếng ho được xây dựng trên bộ dữ liệu
dé tối ưu hoá công việc tiền xử lý trên bộ dit liệu Qua đó, các nhóm tác giảkhi sử dụng bộ dữ liệu có thé tham khảo và đánh giá Nhóm tác giả cũng cungcấp một tập metadata gồm các thông tin của người tham gia đóng góp tiếng ho
kèm theo đó là các kết quả nhận diện mức độ tiếng ho trong các audio, đây là
những thông tin vô cùng hữu ích cho các nhóm nghiên cứu khác khi thực hiện nghiên cứu của mình trên bộ dữ liệu này.
Ali Imran và các cộng sự trong nghiên cứu [2] đã đề xuất một quy trìnhphân loại COVID-19 qua tiếng ho gồm hai thành phan Cough Collection and
Detection và COVID-19 Diagnosis - đây cũng là quy trình tương tự như chúng
tôi xây dựng trong nghiên cứu này Ali Imran và các cộng sự đã chỉ ra rằngtiếng ho của bệnh nhân nhiễm COVID-19 có những đặc trưng riêng biệt khi
so sánh với tiếng ho của các bệnh nhân nhiễm các bệnh về hô hấp khác nhưviêm thanh quản, viêm khí quản, áp xe phổi, u phổi, bệnh màng phổi, bệnhphôi kẽ, v.v Đây là một phát hiện quan trọng chứng minh những nỗ lực trong
việc phân tích và áp dụng AI trong việc phân loại bệnh nhân COVID-19 thông
qua tiếng ho là hoàn toàn khả thi Nghiên cứ cũng cung cấp kết quả phân loạiCOVID-19 với độ chính xác trên 80% tới nhỏ hon 93% Tuy nhiên điểm hạnchế từ nghiên cứu này là bộ dữ liệu sử dụng còn quá ít (70 COVID-19 và 247
mẫu tiếng ho bình thường) đối với việc phát triển một giải pháp AI giải quyết
bất cứ bài toán nào Bên cạnh đó bộ dữ liệu cũng không được public để cácnhóm nghiên cứu khác có thê thực hiện các thử nghiệm và đánh giá khác trên
bộ dữ liệu.
Một nghiên cứu khác của nhóm tác giả Madhurananda Pahar và các
cộng sự [5] đã cung cấp các kết quả thực nghiệm với phương pháp tiếp cận
ML và DL cho giải pháp phân loại COVID-19 qua tiếng ho Nhóm tác giả đãthực hiện các thử nghiệm của mình trên bộ dữ liệu Coswara (tại thời điểm
Trang 20nhóm tác giả thực hiện nghiên cứu Coswara cũng cấp 92 mẫu tiếng ho củabệnh nhân dương tính với COVID-19 và 1079 mẫu âm tính) và Sarcos cái mà
được thu thập chủ yếu từ người dân ở South Africa bao gồm 18 mẫu tiếng ho
có nhãn đương tính với COVID-19 và 26 mẫu âm tính Tổng hợp các mẫutiếng ho từ cả hai tập dữ liệu, Madhurananda Pahar và các cộng sự đã có đượcmẫu tiếng ho tới từ người dân tới từ bốn lục địa khác nhau (Asia, Europe,
Oceania và America) Các tác giả đã đưa ra các kết quả thực nghiệm của mình
với các mô hình ML và DL cùng với phương pháp khắc phục việc thiếu dữ
liệu khi sử dung Synthetic minority oversampling technique (SMOTE) va
phân tích đặc trưng sử dung Sequential forward selection (SFS) Kết qua tốt
nhất nhóm tác gia đạt được là với mô hình Resnet50 với AUC of 0.976 khi
huấn luyện và đánh giá kết quả trên tập dữ liệu Coswara, AUC of 0.938 khi
đánh giá trên bộ dữ liệu Sarcos Nghiên cứu của Madhurananda Pahar và các
cộng sự cung cấp các thực nghiệm đa dạng với các giải pháp ML và DL cùng
với các phương pháp trích xuất đặc trưng và xử ly mat cân bang dit liệu Tuy
nhiên, giống như những nghiên cứu trước đó số lượng dữ liệu dé xây dựng cácgiải pháp là quá nhỏ do đó các kỹ thuật xử lý dữ liệu cũng không thé khắc phụchoàn toàn nhược điểm này Bên cạnh đó bộ dữ liệu Sarcos cũng không được
công khai cho cộng đồng, vì vậy các nghiên cứu sau không thẻ thiết kế lại các
thực nghiệm dé kiêm chứng các kết quả được báo cáo
Trong nghiên cứu [7] của Jostein Leirgulen và các cộng sự, nhóm tác
giả đã đề xuất việc sử dụng các metadata như tuổi (age), giới tinh (gender),
tình trạng hô hap (pre-existing respiratory conditions), các triệu chứng biểuhiện (specified symptoms) dé xây dựng các thực nghiệm với các mô hình ML
trên tập dữ liệu COUGHVID Mặc dù kết quả còn khá khiêm tốn - 0.66accuracy với mô hình XGBoost - nhưng các tác giả đã đề xuất tới việc tăng
cường độ chính xác của các giải pháp chuẩn đoán COVID-19 qua tiếng ho khi
sử dụng các thông tin từ metadata Hơn nữa, nghiên cứu cũng cung cấp các
thông tin hữu ích khi phân chia dữ liệu (tránh việc giữ liệu tới từ cùng một chủ
Trang 21thé nằm trong cả đữ liệu training, validation và testing) dé có thé đưa ra nhữngđánh giá khách quan nhất khi huấn luyện các mô hình ML Các tác giả cũng
chỉ ra việc sử dụng các kỹ thuật xử lý tiếng ho khác nhau cũng sẽ ảnh hưởng
tới độ chính xác của các mô hình phân loại.
10
Trang 22Chương 2 PHƯƠNG PHÁP TIẾP CAN
COUGHVID e — Duara các thông số thống kê của e _ Làm sạch và tô chức metadata từ dữ
Coswara từng bộ dữ liệu liệu.
AICovidVN ° Phân tích các đặc trưng riêng biệt ° Chuẩn hóa các tiếng ho.
của tiếng ho COVID-19 ° Loại bỏ các dữ liệu nhiễu.
-> Định hướng việc tiền xử lý dữ liệu.
@ Thực nghiệm trên các mô hình ibe Trích xuất đặc trưng
e _ Mô hình máy học: SVM, Light-GBM, © — Trích xuất các tiếng ho.
e _ Mô hình học sâu: CNN, LSTM., e — Trích xuất đặc trưng từ tiếng ho (MFCCs,
Mel-spectrogram, ) va metadata.
-> Thiết kế các đặc trưng sử dung dé thực nghiệm
trên các mô hình.
Đánh giá kết quả
Hình 2.1: Phương pháp tiếp cận bài toán Nhận diện COVID-19 qua tiếng ho.
2.1 Các bộ dir liệu âm thanh tiếng ho
2.1.1 Bộ dữ liệu AICovidVN
Bộ dữ liệu AICovidVN được cung cấp bởi dự án công nghệ vì cộng
đồng AICovidVN 115M Challenge được tổ chức là một cuộc thi cộng đồng
với mục đính tìm ra các ý tưởng sáng tạo trong việc phát triển các mô hình họcmáy trong việc nhận diện COVID-19 từ cộng đồng nghiên cứu khoa học tại
Việt Nam dựa trên bộ đữ liệu mà ban tô chức cuộc thi cung cấp Bộ dữ liệu
được thu thông qua việc tiếp nhận tiếng ho qua các ứng dụng Facebook và
Zalo Dữ liệu tiếng ho của người dùng sẽ được lưu trữ cùng với những thôngtin metadata được cung cấp từ người dùng AICovidVN 115M Challenge đượcchia thành hai chặng thi warm-up và final với tổng dữ liệu cung cấp là 4,504
tiếng ho cùng với metadata Nguồn dữ liệu được thu thập phần lớn tại Việt
Nam và đa số tới từ những khu cách ly người dân tại Việt Nam trong đợt bùngdịch lần thứ tư (từ ngày 27/4/2021), thậm chí là các mẫu ho của các bệnh nhân
11
Trang 23đang điều trị COVID-19 Vì vậy đây là bộ dit liệu mang tính thời sự và có tiềmnăng cao trong việc nhận diện COVID-19 từ tiếng ho.
Nhằm cung cấp một bộ đữ liệu chất lượng nhất tới những đội dự thi,ban tô chức AICovidVN 115M Challenge đã chú ý rất nhiều tới bước tiền xử
lý các tiếng ho được thu thập Những audio tiếng ho này sẽ được các tìnhnguyện viên thực hiện loại bỏ những tạp âm và những audio có chất lượngkém theo một guideline được ban tô chức cung cấp Qua đó có thể thấy đượcAICovidVN là một bộ dữ liệu chất lượng cho việc nghiên cứu và phát triểncác công cụ học máy và học sâu cho bài toán nhận diện COVID-19 qua tiếng
ho.
2.1.2 Bộ dữ liệu COUGHVID
Phân loại tín hiệu âm thanh ho đã được sử dụng thành công dé chânđoán nhiều tình trạng hô hap và đã có sự quan tâm đáng kể đến việc tận dụngHọc máy dé cung cấp sàng lọc COVID-19 rộng rãi Bộ dữ liệu COUGHVID
cung cấp hơn 25,000 bản ghi âm ho do nguồn lực cộng đồng đại điện cho nhiều
độ tuôi, giới tinh, vi trí địa ly và trạng thái COVID-19 của người tham gia.Đầu tiên, nhóm tác giả đóng góp thuật toán phát hiện ho nguồn mở của mìnhcho cộng đồng nghiên cứu dé hỗ trợ đánh giá mức độ chắc chan của dit liệu.Thứ hai, bốn bác sĩ có kinh nghiệm đã gắn nhãn hơn 2,800 bản ghi âm dé chânđoán các bat thường y tế xuất hiện trong các cơn ho, do đó đóng góp một trongnhững bộ dữ liệu về bệnh ho được gắn nhãn chuyên gia lớn nhất hiện có cóthể được sử dụng cho rất nhiều nhiệm vụ phân loại âm thanh ho Cuối cùng,nhóm nghiên cứu đảm bảo rằng những cơn ho được dán nhãn là có triệu chứng
và COVID-19 có nguồn gốc từ các quốc gia có ty lệ lây nhiễm cao Do đó, tập
dữ liệu COUGHVID đóng góp vô số các bản ghi âm ho dé đào tạo các môhình Hoc máy nhằm giải quyết các cuộc khủng hoảng sức khỏe cấp bách nhấttrên thé giới
12
Trang 242.1.3 Bộ dữ liệu Coswara
Coswara là một cơ sở đữ liệu về âm thanh hô hấp, cụ thể là ho, hơi thở
và giọng nói Dự án phi lợi nhuận Coswara được thực hiện với mục đích đóng
góp cho cộng đồng nghiên cứu khoa học bộ đữ liệu tiếng ho nhằm phát triểncác phương pháp phân loại và nhận điện COVID-19 qua tiếng ho Cũng giống
như COUGHVID bộ dữ liệu Coswara được thu thập qua nên tảng web, các
tiếng ho được người dùng cung cấp qua internet và được lưu dữ trên cơ sở dữliệu mà nhóm tác giả thiết kế Coswara cũng cung cấp các thông tin metadatacủa người gửi tiếng ho Bộ dữ liệu cung cấp 2,234 tiếng ho được thu thập trongkhoảng thời gian từ ngày 12/04/2020 tới ngày 30/09/2021 Chúng tôi tin rằngnhững hiểu biết sâu sắc từ phân tích của Coswara có thê hiệu quả trong việckích hoạt các giải pháp công nghệ dựa trên âm thanh dé chan đoán tại điểmchăm sóc về nhiễm trùng đường hô hap, và điều này dé mở một cơ hội chanđoán COVID-19 trong tương lai gần
2.1.4 Bộ dữ liệu ESC-50
Bộ dữ liệu ESC-50 là một bộ sưu tập được gắn nhãn gồm 2000 bản ghi
âm môi trường phù hợp cho các phương pháp diém chuẩn phân loại âm thanhmôi trường ESC-50 bao gồm 2,000 clip 5 giây của 50 lớp khác nhau với âmthanh tự nhiên, con người và âm thanh trong nước, được lay từ Freesound.org
Bộ dữ liệu được đưa vào thí nghiệm phát triển mô hình phát hiện âm thanh hovới mục đích cung cấp các mẫu âm thanh không phải âm thanh ho
2.2 Đặc trưng trích xuất từ âm thanh tiếng ho
2.2.1 Tổng quan về đặc trưng âm thanh
Một tín hiệu âm thanh là tập hợp của các sóng tần số tín hiệu đơn lẻ vớinhau Khi lấy các mẫu tín hiệu âm thanh này theo thời gian, kết quả ta nhậnđược là tín hiệu có biên độ tổng hợp (từ các biên độ của các sóng thành phan)
Mỗi sóng thành phần được biểu diễn bởi một phương trình sóng riêng:
13
Trang 25sị = Aisin(2ø¿£) với A; là biên độ và «; là tần số góc (1)
Trong thuc té dé phân tích được một tín hiệu âm thanh là rất khó Vìthực tế tín hiệu âm thanh biến đổi liên tục và không tuần hoàn theo thời gian
Vi vậy Fourier Transform (FT) va Inverse Fourier Transform (IFT) được phát
triển từ chuỗi Fourier giúp phân tích các tin hiệu không tuần hoàn tốt hơn
Công thức FT và IFT lần lượt:
Có thê hiểu rằng FT chuyên đổi tín hiệu âm thành từ miền thời gian
sang miễn tần số Kết quả thu được từ FT được gọi là phô biên độ (spectrum)
Trang 26(a) Spectrogram (b) Mel-spectrogram.
Hinh 2.3: Hinh anh truc quan cua Spectrogram va Mel-spectrogram.
2.2.2 Mel-Spectrogram
Mel-scale [8]: Thang do Mel được phat triển dựa trên thực tế về khảnăng phân biệt các tín hiệu tần số của con người Ví dụ: con người có thê dễdàng phân biệt sự khác nhau giữa hai tín hiệu có tần số lần lượt là 100Hz và200Hz nhưng lại không thể phân biệt được sự khác nhau giữa hai tín hiệu có
độ lớn 10000Hz và 10100Hz Thang đo Mel được phát triển giúp cho máy học
có thê mô phỏng lại cách nhận thức của con người với tín hiệu.
Công thức chuyền đổi Hz sang Mel:
fz ) (4)
fmet = 1127 x log (1 + 700
Từ Công thức (4), một điều dé dang nhận thay đó là các các tín hiệu có
tần số thấp có sự chênh lệch lớn hơn khi chuyên sang thang đo Mel, ngược lại,các tần số cao sẽ có ít sự chênh lệch khi chuyên sang thang đo Mel Điều này
15
Trang 27gan như tương tự với kha năng nhận biết sự khác biệt giữa các tín hiệu của con
nguoi.
Quang phổ mel ánh xa lại các giá trị trong hertz thành thang mel Quangphổ âm thanh tuyến tính phù hợp lý tưởng cho các ứng dụng trong đó tất cảcác tần số có tầm quan trọng như nhau, trong khi quang phô mel phù hợp hơncho các ứng dụng cần mô hình hóa nhận thức thính giác của con người Biểu
đồ quang phô mel biéu diễn logarit các tan số trên một ngưỡng nhất định (tần
số góc) Vi dụ, trong biểu đồ quang phô tỷ lệ tuyến tính, không gian dọc từ1,000 đến 2,000Hz bằng một nửa không gian dọc từ 2,000Hz đến 4,000Hz
Qua đó, áp dụng thang đo Mel vào spectrogram để tạo ra đặc trưng
Mel-spectrogram giúp tăng tối đa mức độ thông tin mà Mel-spectrogram cung cấp
2.2.3 Mel-frequeney cepstral coefficients (MFCC)
MECC [9, 10] là một cách đề trích xuất các đặc trưng giọng nói thường
được sử dụng trong các model nhận dạng giọng nói hay phân loại giọng nói.
Đúng như tên gọi của nó, MECC sẽ cho ra kết quả là các hệ sé (coefficients)của cepstral từ Mel filter trên phô lay được từ các file âm thanh chứa giọng
nói.
Nguyên lý hoạt động: Giọng nói thường sẽ được biểu diễn dưới danghai chiều (x, y) với x là thời gian (time) theo miliseconds (ms) và y làamplitude (biên độ) Trong đó những giá trị trên y được sinh ra trực tiếp từ bộ
thu âm, do đó người ta thường gọi là speech signal Đầu tiên, ta sẽ biến đốispeech signal thành âm phổ (spectrum) bằng cách áp dụng Fast Fourier
Transform Kết quả của việc biến đồi này, tức là spectrum, được biểu diễndưới dạng hai chiều (x', y') với x' là tan số (Hz) và y' là cường độ (dB) Gọi
spectrum là X[k] có hai thành phần là spectral envelopes H[k]H[k] và spectral
details E[k] Dé tach được H[k], ta cần phải lay logarithm của spectrum và layphan ở tan số thấp (low frequency):
16
Trang 28X[k] = H[k] * E[k] (5)
© log(X[k]) = log(H[k]) + log (E[k])
Người ta thay rang tai người hoạt động như một bộ loc, chi tập trung
vào một phần thay vì hết cả spectral envelopes Sau khi áp dụng bộ lọc này, ta
sẽ sử dụng Inverse Fast Fourier Transform lên logarithm của spectrum:
IFFT (log(X[k])) = IFFT (log(H[k]) + log(E[k])) (6)
© x[k] = h[k] + e[k]
Trong đó, x[k] được gọi là cepstrum vi IFFT là nghịch đảo cua FFT va
cepstrum cũng là nghịch đảo của spectrum Cepstrum bây giờ sẽ giống nhưSpeech Signal, biểu diễn dưới dạng hai chiều (x", y"), nhưng giá trị sẽ khác
nên người ta cũng gọi hai cột với tên khác là y" là magnitude (không có đơn
vi) va x" là quefrency (ms) và MFCCs cũng chính là các giá trị lay từ Cepstrum
Có nhiều ly do để áp dụng preemphasis như: Tránh van đề về số khi áp
dụng FFT, làm cân băng tần số spectrum, khuếch dai tan số cao (để lọc
tần số thấp dé hơn) Nhung mà preemphasis không bắt buộc sử dụng
nữa vi FFT đã được cải thiện.
e Framing: Speech signal ở dạng liên tục theo từng ms, do đó khó dé
giải quyết nên người ta sẽ chia speech signal thành các frames Mỗi
17
Trang 292.3.1.
frame có kích thước khoảng 20-40 ms và chồng lên nhau khoảng 10-15
ms Kết quả sẽ ở dưới dang hai chiều (x, y) với x là frame_length và y
là number_of_ frames.
Window: Do framing làm rời rac hóa speech signal ta sé áp dung một
ham goi la Hamming Window dé lam smooth cac frames:
Trong do: N là frame_length
Fourier Transform and Power Spectrum: Đây là bước ta chuyên
speech signal thành spectrum, ta sẽ áp dụng công thức sau:
FFT(x)?
p= với x; là frame thứ x của tín hiệu và N có giá (9)
tri 256 hoac 512.
Filter Banks: Đây là bước ta áp dung bộ loc Mel-Frequency Filter.
Discrete Cosine Transform and MFCCs: Đây là bước ta chuyền từspectrum qua cepstrum, áp dụng DCT (một dạng IFFT) lên kết quả của
filter banks ta sẽ có được các MFCCs.
Phương pháp xử lý đặc trưng
Standard Scaler
Standard Scaler chuẩn hóa các đặc trưng bang cách trừ di giá trị trung
bình và sau đó chia tỷ lệ thành phương sai đơn vi Phương sai đơn vi có nghĩa
là chia tất cả các giá trị cho độ lệch chuẩn Là kỹ thuật giúp điều chỉnh (chuẩn
hoa) các giá tri của một vector đặc trưng dang số học về một thang do tiêuchuẩn, biến đôi dit liệu dé có giá trị trung bình là 0 và độ lệch chuẩn là 1 Điều
này giúp tránh sự rời rac trong dit liệu dạng số, tăng tính tương quan giữa các
điêm dir liệu với nhau Chuan hóa dữ liệu rat hữu ích cho dt liệu có giá trị âm.
18
Trang 30Nó sắp xếp dit liệu theo phân phối chuẩn chuẩn va được cho là hữu ích hontrong phân loại so với hồi quy.
z= = với z là giá trị được chuẩn hóa, p là giá trị trung bình q0)
và ø là độ lệch chuân
2.3.2 Synthetic Minority Oversampling Technique (SMOTE)
SMOTE duoc phat trién boi NV Chawla va cac céng su trong [11],SMOTE là một phương pháp giúp cải thiện, khắc phục mat cân băng nhãn
trong dữ liệu Phương pháp này tao sinh mẫu dữ liệu nhằm gia tăng kích thước
mẫu của nhóm thiêu số trong trường hợp xảy ra mat cân bang mau Dé gia tăngkích thước mẫu, với mỗi một mau thuộc nhóm thiéu số ta sẽ lựa chọn ra k mẫuláng giềng gần nhất với nó và sau đó thực hiện tô hợp tuyến tính đề tạo ra mẫuđặc trưng tong hop
Cụ thé chúng tôi sử dụng phương pháp SMOTE oversampling dé tong
hợp ra các mẫu đặc trưng của tiếng ho dương tính với COVID-19 Các mẫu
đặc trưng tông hợp này sẽ được sử dung đề huấn luyện mô hình cùng với cácmẫu đặc trưng thật Bằng cách sử dụng SMOTE chúng tôi đã loại bo đi yếu tố
mât cân băng dữ liệu của bài toán được nghiên cứu trong đê tài này.
2.4 Mạnh sinh đối kháng (GAN)
GAN [12] được giới thiệu lần đầu tiên năm 2014 bởi lan J Goodfellow
và các cộng sự Ý tưởng của GAN bắt nguồn từ trò lý thuyết trò chơi hai người
(zero-sum game) - nơi ma hai người chơi có xung đột lợi ích với nhau và hướng
tới việc triệt tiêu lẫn nhau tới khi có người giành chiến thắng Tương tự đốivới GAN, mạng sinh đối kháng GAN gồm hai thành phần chính là Trình tạo
(Generator) là các mô hình sinh mau ngẫu nhiên và Trình phân biệt
19
Trang 31(Discriminator) là thành phần phân biệt các mẫu tạo bởi trình tạo là thật haygiả Nhiệm vụ của trình tạo là đánh lừa trình phân biệt dé nhận diện các mẫutạo từ trình tạo là mẫu thật theo đó nhiệm vụ của trình tạo là tạo ra các mẫugiả giống mẫu thật nhất có thê Việc có hai mô hình đối kháng lẫn nhau liên
tục trong một mạng cũng giải thích cho tên của mang nay.
Đầu vào của Trình tạo là véc-tơ nhiễu (noise vector) VỚI Z chiều Các
mẫu nhiễu này được tạo ra băng việc sử dụng các phân phối xác suất nhưGaussian, T-student, Chi-Square, v.v Sau khi nhận đầu vào có kích thước zchiều, Trình tạo sẽ tiễn hành nâng số chiều của vec-tơ nhiễu này tới kích thướcbăng với (K x 1) chiều (trong đó K = W x H) Đầu ra (K x 1) chiều này sẽ được
biến đối về dạng hai chiều WxH đúng bằng với kích thước đầu vào của Trình
phân biệt.
Output: đặc trưng
tiêng ho giả
Hình 2.4: Trình tạo tạo sinh mẫu giả từ véc-tơ nhiễu.
Input: véc-tơ nhiễu Generator (G)
Trình phân biệt bản chất là một mô hình phân loại (hình giả và hìnhthật), vì vậy, Trình phân biệt có thể là các mô hình phân loại như SVM,Decision Tree, CNN, v.v Với Trình phân biệt, đầu vào sẽ có dạng WxH và
đầu ra là xác xuất của đầu vào là ảnh thật Trình phân biệt cố gắng phân biệt
dau là anh thật va đâu là ảnh giả vì vậy ham sigmoid được sử dụng dé đưa ra
xác suât dự đoán.
20
Trang 32Input: đặc trưng that
hoặc giả
Output: dự đoán đặc
X trưng là giả hoặc thật
Discriminator (D)
Hình 2.5: Trình phân biệt gan nhãn cho input.
Hàm mat mat (Loss function) của mô hình GAN là sự kết hợp giữahàm mất mát của Trình tạo và Trình phân biệt:
mingmaxpV(D,G q1)
= Ey.paa„œ)llogD()] + Ez~p„¿)[log( — D(6(2))]
Việc huấn luyện mô hình GAN bao gồm hai phần là huấn luyện Trìnhsinh và huấn luyện Trình phân biệt Hai phần này sẽ được thực hiện xen kẽnhau trong quá trình huấn luyện GAN
e Huấn luyện Trình phân biệt: mục tiêu là tao ra một Trình phân biệt có
khả năng phân loại tốt nhất Ở giai đoạn này G là không đổi và chỉ tậpchung vào về maxpV(D, G) D(x) đóng vai trò dự đoán xác suất cho
dữ liệu đầu vào
o Nếu đầu vào là mẫu thật khi đó phương trình sẽ trở thành
maxpV(D,0) = Ey~pa„„œ)togD(3)] với x~paa¿a(3) là phan
phối xác suất của các điểm dữ liệu đầu vào
o Trường hợp mẫu đầu vào là giả khi đó hàm mất mát sẽ là
maxpV(D,G) = Ez~p („)[log(1 — D(0G))].
21
Trang 33e Huấn luyện Trình sinh: mục tiêu của phase này là củng có kha năng tao
mẫu của Trình sinh sao cho mẫu sinh ra là giống với thật nhất Ngượclại với Trinh phân loại, bây giờ ta chỉ quan tâm đến G(z) sao cho giátrị dự báo xác suất từ đối với nó gần bang 1 nhất, tức là mẫu giả đượcsinh ra giống mẫu thật nhất (xác suất càng gần | thì khả năng giống
mẫu thật càng lớn) Đảo dấu trong Ez~p„(œ[log(1 — D(G(z))] ta suy
ra mục tiêu cần tối ưu là tối thiểu hóa mingV (D,G)
Ứng dụng của GAN:
e Tạo sinh ảnh mặt người.
e Chỉnh sửa anh (thay đổi màu da, giới tính, v.v trên ảnh người)
e Tạo sinh các nhân vật hoạt hình.
e Chuyén chữ viết thành hình ảnh
2.5 Các mô hình phân loại
2.5.1 Support Vector Machine (SVM)
SVM [13] là một thuật toán co ban trong Machine learning Được sử
dụng rat nhiều bởi việc đưa ra độ chính xác cao mà không yêu cầu qua cao vềviệc tính toán SVM có thé được dùng cho bài toán hồi quy và cả bài toán phân
loại Trong đồ án này ta sẽ sử dụng SVM cho bài toán phân loại
Mục tiêu của SVM là tìm ra một siêu phăng (hyperplane) của không
gian N- chiều (N là số lượng đặc trưng) điều này có tác dụng rất tốt trong việc
phân loại các điểm đữ liệu Để phân loại 2 nhãn của các điểm dữ liệu, có rấtnhiều siêu phẳng có thê được tạo ra Tuy nhiên mục tiêu của ta là tìm ra mộtsiêu phẳng có lề (margin) cực đại Việc cực đại biên độ giúp tạo ra một khoảng
tin cậy vững chắc cho việc phân loại cái diém dữ liệu mới trong tương lai.
22
Trang 34` Maximum.
N ⁄ margin
LẤ \
Hyperplanes va support vectors:
e Hyperplanes là các đường phân loại (decision boundaries) giúp ta phan
loại các điểm dữ liệu Các điểm dữ liệu nằm ở bên nào của siêu phẳng
thì nhận giá trị phân loại tương ứng Và chiều của siêu phăng phụ thuộcvào số lượng đặc trưng Nếu số lượng biến đặc trưng là 2 thì siêu phăng
là một đường thang Nếu số lượng biến dic trưng là 3 thì siêu phẳng sẽ
là một mặt phẳng
23
Trang 35Hình 2.7: Siêu phẳng 2-D và 3-D trong không gian đặc trưng (feature space) Nguồn: Internet.
e Support vectors là các điểm dit liệu nằm gần siêu phẳng hơn so với
các điểm dit liệu khác và có ảnh hưởng tới vị trí và góc của siêu phăng
Sử dụng các support vectors này, giúp ta tìm được margin cực đại cho
việc phân loại Loại bỏ hay di chuyên các support vectors sẽ làm thayđổi vị trí của siêu phăng Đây là điểm quan trọng trong việc xây dựng
Trang 36Bài toán xây dựng một mô hình phân loại SVM là bài toán đi tìm một
siêu phăng sao cho margin là lớn nhất (hay đây là một bài toán tối ưu) Đây
là ly do vì sao SVM còn được gọi là Maximum margin classifier.
2.5.2.
Ứng dụng của thuật toán SVM
Nhận diện khuôn mặt (face detection): sử dụng SVM dé phan loai caithành phan trong ảnh là khuôn mặt người hay không phải khuôn mặt
của người va tạo ra một khung bao quanh (square boundary) khuôn
mặt.
Phân loại văn bản: SVM cho phép phân loại văn bản (text) vả siêu văn ban (hypertext) cho cả hai mô hình inductive và transductive Sử dụng
dữ liệu huấn luyện đề phân loại cái tài liệu thành nhiều nhãn khác nhau
Nó phân loại trên cơ sở điểm số được tạo ra và sau đó so sánh với giá
trị ngưỡng (threshold value).
Phân loại ảnh: áp dụng SVM sẽ cho độ chính xác cao hơn trong việc
phân loại ảnh Nó cung cấp độ chính xác tốt hơn so với các kỹ thuật
truy vấn truyền thống
Tin sinh hoc (bioinformatics): phân loại protein va phân loại ung thư.
Nhận diện chữ sé viết tay
Light Gradient Boosted Machine (Light-GBM)
Light-GBM [14] duoc phat trién dua trén framework Ensemble
Gradient Boosting do Microsoft phát triển, thuật toán Light-GBM là một trong
những thuật toán ensemble nồi tiếng nhất hiện nay dựa vào tốc độ xử lý nhanh
và độ chính xác cao của nó Khác biệt với những thuật toán Ensemble Boosting
khác, khi xây dựng từng cây quyết định đơn lẻ, Light-GBM phát triển cây theo
chiều sâu (leaf-wise), thay vì chiều ngang (level-wise) Light-GBM còn có
những cải tiễn khác như việc chọn lựa thuật toán Histogram-based thay choPre-sorted dé giảm đáng ké số lượng tính toán khi chọn điểm phân chia nhánh
25
Trang 37(split point) tối ưu cho từng node của cây, dùng GOSS (Gradient-based OneSide Sampling) dé thuật toán có thé tập trung huấn luyện ở những điểm dit liệuđược phân loại sai, và áp dụng EFB (Exclusive Feature Bundling) đề ghép cácvéc-tơ thưa thớt (sparse vectors) lại nhằm giảm số đặc trưng trong bộ đữ liệu
xuông.
Light-GBM đang được sử dụng rộng rãi trong nhiều giải pháp chiếnthắng của các cuộc thi học máy Các thí nghiệm so sánh trên tập dữ liệu côngkhai cho thấy Light-GBM có thé làm tốt hơn các mô hình học máy cùng loại
về cả hiệu quả và độ chính xác, với mức tiêu thụ bộ nhớ thấp hơn đáng kể [15]
Weighted Data Weighted Data
Decision Tree 1 Decision Tree 2 Decision Tree 3 Decision Tree K
(Weak classifier) (Weak classifier) (Weak classifier) (Weak classifier)
Hình 2.9: Thuật toán Ensemble Gradient Boosting Nguồn: Internet.
Ung dung của Light-GBM:
e Cham diém tín dung, các bai toán phan loại.
e Được sử dung rat nhiêu trong các cuộc thi có tính ganh dua cao về thời
gian vì tốc độ của Light-GBM là rất ấn tượng
26
Trang 382.5.3 CatBoost
La thuat toan may hoc ma nguồn mở của YanDex Có thé hoạt động
trên đa dạng kiểu dữ liệu như âm thanh, văn bản, video Điểm mạnh của thuậttoán là cho kết quả khá tốt mà không cần phải cung cấp lượng lớn đữ liệu và
hỗ trợ mạnh mẽ cho các dạng dit liệu mô tả kéo theo vấn đề về kinh doanh
CatBoost có thể xử lý các đặc trưng phân loại (categorical features) tự động
tức không cần bộ tiền xử ly dit liệu rõ ràng dé chuyên đổi dit liệu sang dạng sốhọc Bên cạnh đó CatBoost cho kết quả khá tốt trên bộ tham số mặc định vìvậy không cần mất quá nhiều thời gian trong việc tỉnh chỉnh tham số [16]
Một trong nhiều tính năng độc đáo mà thuật toán CatBoost cung cấp là
tích hợp dé làm việc với các loại dữ liệu đa dạng dé giai quyét một loạt các
van đề dữ liệu mà nhiều nghiên cứu gặp phải khi nguồn dữ liệu chưa đượcphong phú và đa dạng Không chỉ vậy, CatBoost còn cung cấp độ chính xácgiống như các thuật toán cùng loại
Ứng dụng của CatBoost:
e Hệ khuyến nghị và tìm kiếm
e Phát trién hệ thống trợ lý ảo cho cá nhân
e Xe tự hành và dự báo thời tiết.
2.5.4 Random Forest
Rừng ngẫu nhiên (Random Forest) [17] dùng thuật toán Ensemble
Bagging để tạo ra một tập hợp đa dạng những Cây quyết định (Decision Tree)khác nhau, sau đó kết hợp những kết quả riêng lẻ của các cây đưa ra nhằm tạo
ra một giá trị đầu ra cuối cùng Mỗi một cây quyết định trong Random Forestđược tạo ra từ việc chọn ngẫu nhiên một tập hợp con từ tổng thể các đặc trưngsan có của bộ dữ liệu Kết hợp với thuật toán bootstrap sampling được dùng
dé tạo ra những bộ dữ liệu nhỏ khác nhau khi training, rừng ngẫu nhiên có lợithé hơn han so với 1 cây quyết định thông thường trong việc giảm phương sai
27
Trang 39(variance), từ đó kết quả thuật toán đưa ra có thể áp dụng tốt hơn trong thực
z7
A
te.
Random Forest là một phương pháp hoc có giám sat (Supervised
Learning) do vậy có thé xử lý được các bài toán phân loại (classification) và
dự báo về các giá trị (regression) Với một cơ chế như vậy, Random Forestcho ta một kết quả chính xác rat cao nhưng đánh đổi bằng việc ta không théhiểu cơ chế hoạt động của thuật toán này do cấu trúc quá phức tạp của mô hình
Original Data
Bootstrapping
Aggregating
Ensemble classifier Bagging
Hình 2.10: Thuật toán Ensemble Bagging Tree Nguồn: Internet.
Ung dụng của Random Forest:
e Dự đoán hành vi bất thường sử dung thẻ tin dụng
e Phân đoạn đối tượng khách hàng
e Hệ khuyến nghị
2.5.5 Convolutional Neural Network (CNN)
Trong Deep Learning, CNN [18] là một lớp gom cac mang than kinh
sâu, phô biến áp dụng dé phân tích hình ảnh trực quan Mạng còn được gọi là
28
Trang 40mạng bắt biến Shift hoặc nhân tạo bất biến trong không gian Mạng noron, dựatrên kiến trúc trọng số dùng chung và các thuộc tính đối xứng tịnh tiễn Các
giao dịch- kiến trúc tional của CNN bao gồm các lớp CONV, ReLu, POOL,
FC và Dropout Phức tạp hơn kiến trúc mạng cũng dựa trên các lớp chung này
Convolutional Neural Networks được lay cảm hứng bơi quá trình phảnứng sinh học trong đó sự kết nối giữa các nơ-ron được truyền cảm hứng từ
việc tô chức của vỏ não thị giác (visual cortex) của động vật.
Hình 2.11: CNN lay cảm hứng từ hoạt động của vỏ não thi giác Nguồn: Internet.
Trong tự nhiên, nơ-ron có một SỐ lượng nhánh (inputs) lớn, một nhân
tế bào (bộ xử lý) và một axon (output)
e Các nơ-ron là đơn vi cơ bản của một Neural Network.
e_ Chúng có thể liên kết với nhau, hay được dùng như những cổng kết nối
giữa các no-ron khác.
Một nơ-ron giống như một hàm, nó nhận vào một lượng inputs va trả
về một output Khi một nơ-ron hoạt động, nó tích lũy tất cả các inputs truyềnvào nó, và nếu tới một ngưỡng xác định thì nó sẽ phát ra một tín hiệu thông
qua axon Điều quan trọng về nơ-ron là nó có thể học, một Neural Network
được kết hợp với nhau bằng việc móc nối rất nhiều nơ-ron đơn với nhau, vìthé output của nơ-ron này có thé trở thành input của no-ron khác Một Neural
29