1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Khoa học dữ liệu: Nhận diện covid-19 dựa trên đặc trưng tiềm ẩn trong tiếng ho

90 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 90
Dung lượng 49,08 MB

Nội dung

TOM TAT KHÓA LUẬNTrong phạm vi nghiên cứu của khóa luận này, chúng tôi thực hiện khảo sat các công trình nghiên cứu đi trước về việc sử dụng tiếng ho của con người dé phân loại và sàng l

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH TRUONG DAI HOC CONG NGHE THONG TIN KHOA KHOA HOC VA KY THUAT THONG TIN

DUONG VAN BÌNH

LE TRAN HOAI AN

KHOA LUAN TOT NGHIEP

NHAN DIEN COVID-19 DUA TREN DAC TRUNG TIEM

Trang 2

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH TRUONG DAI HOC CONG NGHE THONG TIN KHOA KHOA HOC VA KY THUAT THONG TIN

DUONG VAN BINH - 18520505

LE TRAN HOÀI AN - 18520426

KHOA LUAN TOT NGHIEP

NHAN DIEN COVID-19 DUA TREN DAC TRUNG TIEM

AN TRONG TIENG HO

RECOGNIZING COVID-19 BY USING LATENT FEATURES IN

COUGHS

CU NHAN NGANH KHOA HOC DU LIEU

GIANG VIEN HUONG DAN

TS DO TRONG HOP

ThS TA THU THỦY

TP HO CHi MINH, 2022

Trang 3

THÔNG TIN HỘI ĐÒNG CHÁM KHÓA LUẬN TÓT NGHIỆP

Hội đồng cham khóa luận tốt nghiệp, thành lập theo Quyết định số

Tgầy của Hiệu trưởng Trường Đại học Công nghệ Thông tin.

Trang 4

Chúng tôi xin cảm ơn các bạn hữu gần xa đã đóng góp ý kiến và những động viên để

chúng tôi có thê tiếp tục thực hiện quá trình nghiên cứu của mình trong Khóa luận tốt

nghiệp.

Trang 5

1.4.1 _ Phân loại âm thanh tiếng ho COVID-1Ĩ9 2- 2-52 ccceE2EzEzkered 6

1.4.2 Cac cơng trình và nghiên cứu liên quan ¿55-5 5-<++<>+e++s 7

Chương 2 PHƯƠNG PHÁP TIẾP CAN -©22+22+2z+EE+EEtEEzEErrxrrxerxees 11

2.1 Cac bộ dữ liệu âm thanh tiếng ho 2 5¿+2++x+2z++zx++zxezzeeex 11

2.1.1 Bộ dữ liệu AICovidVN HH HH HH hệ, 11

2.1.2 Bộ dữ liệu COUGHVID occ ececeeseenecneeeeceeeeseeseceeneeeeeneeeaeeaees 12 2.1.3 Bộ dữ liệu Coswar ccccccccceecsscccceseessssscececesessseeeeceseesssseeecesensssaees 13

2.1.4 Bộ dữ liệu ESC-5( ST ST HH HH TH HH HH key 13

2.2 _ Đặc trưng trích xuất từ âm thanh tiếng ho 2 2 z+s++++£+z£+zxe+z 13

2.2.1 Tổng quan về đặc trưng âm thanh 5- s22 ++£++xe£xerxzrxzxez 13

2.2.2 Mel-Spectrogram - ch nh TH Hàn nh nh nành 15

2.2.3 Mel-frequency cepstral coefficients (MFCC) - «<-c++ 16

2.3 Phương pháp xử lý đặc trung oo cece eceeseceeeseeeneeeseeeseeeeeeeeeeneeseenseeees 18

2.3.1 Standard ScaÏer ch H TH HH HH ng 18 2.3.2 Synthetic Minority Oversampling Technique (SMOTE) 19

2.4 Mạnh sinh đối khang (GAN) o ececescescssessessessessessesesessessessessestesesstssesseaees 19

2.5 Cac mơ hình phan ÌOạI ccescceeneceseeeseeeeseeesseeeseeenseeeseeeneeeeaeeees 22

2.5.1 Support Vector Machine (SVM) c Hs SH ng tren 22

Trang 6

2.5.2 Light Gradient Boosted Machine (Light-GBMI) - 25

Chương 4 XÂY DUNG THÍ NGHIEM VA PHAT TRIEN HỆ THONG 53

4.1 Téng quan mô hình thực nghiém cccceceeseseesseseeseesessesseeeseesessesessesees 53

4.1.1 Huong tiếp cận học may o cececccccccescesessessessessesesessessesseseseesesseseseeaees 534.1.2 Hurong tiếp cận học Sau v.cececeeccsccsessesessessessessessesessessessesseseesesseseeseaees 544.1.3 Hướng tiếp cận tăng cường dữ liệu bang GAN - 55

4.1.4 Dữ liệu metadata ccc cccccccccsecccesseeeessseecesseecessseesessseeeensaeess 55

Trang 7

4.1.5 Dit liệu tiếng ho c- + 5c tt EE21121211 2112112111 Ertke 574.2 Kết quả thí nghiệm :- ©2522 EEE1211211211211111211211 111111 c0 59

4.2.1 Phat hiện âm thanh tiếng ho - 2 2 2+E+E£EE£EE2EE2EeEEerkerxerkee 594.2.2 Nhận diện COVID-19 qua âm thanh tiếng hO - << 60

4.2.2.1 Mô hình Học máy -¿- +: ©2++2++2Ext2E+SEESEEEEEerkrrrrerkeee 60

4.2.2.2 Mô hình Học sâu -¿- +: ©2++2E+2EktEEESEESEEEEESrkrrrrerrree 62 4.2.3 Mô hình Học sâu với dit liệu tăng cường c+s- sex 67

Chương 5 _ XÂY DỰNG HE THONG UNG DỤNG -2- 5s scccrseez 68

5.1 Môi trường thực hiỆn G22 3211121112111 1 1111111118 11811811 11 re, 68

5.2 Xây dựng hệ thống -c- + + E1 1t E1 2E2111211211211211 11111 xe 68

5.2.1 Ý tưởng hệ thống SE EE E2EEEEEEEE12112121 111.2 68

5.2.2 Phuong pháp thực hiỆn 2c 22c 33211332 EE5EEEErsrsrerske 69

5.3 Kết quả chương trình c25+2S SE EEEEEEE2E11E11E11211 11t, 70Chương 6 KẾT LUẬN VÀ HƯỚNG PHÁT TRIÉN -¿©-5¿ 55+: 72

Trang 8

Hình 2.6: Cac siêu phăng có thé có va margin cực đại - ess eseseesteseeseeee 23Hình 2.7: Siêu phang 2-D và 3-D trong không gian đặc trưng (feature space) 24

Ipi:1i023010)9)092ã10450:91 1000007877 25

Hình 2.9: Thuật toán Ensemble Gradient Boosting - s-csscssssssexsserses 27 Hình 2.10: Thuật toán Ensemble Bagging Tree - 55c S+cc+scxseersres 29

Hình 2.11: CNN lây cảm hứng từ hoạt động của vỏ não thị giác - 30

Hình 2.12: Mô hình Neural Network đơn giản - sc + + ssvsserssersrreres 31 Hình 2.13: CNNs trong nhận điện hình ảnh 2-5555 S52 <++c++exsserserees 32

Hình 2.14: Cấu trúc ảnh RGB 25:222+t222E2EEttEEErtttrrtrrtirrrrrrrrrrree 33Hình 2.15: Filters dùng dé trích xuất đặc trưng - + - s+++c++E++Eezxerxerszxee 34

Trang 9

Hình 3.4: Quy trình Cough Concafenation ¿2 2 c3 3+ svEesvreerrssrsree 49

Hình 3.5: Kiến trúc mô hình phát hiện âm thanh tiếng ho : 2-55 50Hình 3.6: Kiến trúc phương pháp tiếp cận với mô hình lai (hybrid) 52Hình 3.7: Kiến trac mô hình COVID-19 Cough GAN - - 2 2+5z2cz+cczxcrxd 53

Hình 4.1: Phương pháp Cross-valIdaf1On - 5 22323323 *2E£EE+vEsereeeresrrses 55

Hình 4.2: Thong tin lưu trữ trong metadata của bộ dữ liệu Coswara 57

Hình 5.1: Sơ đồ xử lý với mô hình Model View Template của Django 70Hình 5.2: Giao diện hệ thống demo nhận diện COVID-19 qua âm thanh tiếng ho 71Hình 5.3: Người dùng nhập các thông tin va ghi âm tiếng ho -. -:-5- 71

Trang 10

DANH MỤC BANG

Bảng 4.1: Thống kê số lượng tiếng ho có trong mẫu đữ liệu . - 47

Bang 4.2: Tham số cài đặt các mô hình Học MAY 2- 2 2 2 +x+£z£+zs+2 54 Bang 4.3: Quy tắc chuyên đồi nhãn - ¿5 St SE E1 E2 EEEEEEEEE21121121 11111 xe 56 Bảng 4.4: Thống kê nhãn của dữ liệu phát triển giải pháp Phát hiện âm thanh tiếng ho 2-22 5£22S2E£2EE22EEE2EE2E12221231221222121222122 59 Bảng 4.5: Thống kê dữ liệu sạch được sử dụng đề phát triển các phương pháp Nhận diện âm thanh tiếng ho COVID-19 2-2 2+ +£x+£z£+2s+2 60 Bảng 4.6: Điểm AUC-ROC của các mô hình phát hiện tiếng ho - 60

Bảng 4.7: Điểm AUC-ROC của các mô hình Học máy trên Coswara 61

Bảng 4.8: Điểm AUC-ROC của các mô hình Học máy trên COUGHVID 61

Bang 4.9: Điểm AUC-ROC của các mô hình Học máy trên AICovidVN 62

Bảng 4.10: Điểm AUC-ROC của mô hình MobileNet trên Coswara 63

Bảng 4.11: Điểm AUC-ROC của mô hình MobileNet trên COUGHVID 63

Bảng 4.12: Điểm AUC-ROC của mô hình MobileNet trên bộ dữ liệu AICovidVN geo MR ẤP d.n / 64

Bảng 4.13: Điểm AUC-ROC của mô hình lai tạo trên Coswara - 65

Bảng 4.14: Điểm AUC-ROC của mô hình lai tạo trên COUGHVID ó6 Bang 4.15: Điểm AUC-ROC của mô hình lai tạo trên AICovidVN 66

Bang 4.16: Điểm AUC-ROC của mô hình MobileNet trên AICovidVN Va ¡0i áp 1-ốuì 1111070777 67

Trang 11

DANH MỤC TU VIET TAT

Environmental Sound Classification-50

Generative Adversarial Network

Severe Acute Respiratory Syndrome Coronavirus 2

World Health Organization

Trang 12

TOM TAT KHÓA LUẬN

Trong phạm vi nghiên cứu của khóa luận này, chúng tôi thực hiện khảo sat các công

trình nghiên cứu đi trước về việc sử dụng tiếng ho của con người dé phân loại và sàng

lọc COVID-19 từ xa Chúng tôi hướng tới việc xây dựng giải pháp thông minh sử

dụng học máy và học sâu để phát triển các giải pháp sàng lọc COVID-19 an toàn,

nhanh, hiệu quả và tiết kiệm Trong nghiên cứu của chúng tôi sử dụng ba bộ dữ liệutiếng ho Coswara, COUGHVID va AICovidVN (tiếng ho của người Việt Nam) Đónggóp của nghiên cứu này gồm Xử lý đữ liệu - trích xuất đặc trưng và Phát triển các mô

hình:

e Xử lý dữ liệu - trích xuất đặc trưng: Chúng tôi đề xuất quy trình Cough

Segmentation và Cough concatenation với mục dich cải thiện chất lượng đặctrưng trích xuất và tăng nguồn dữ liệu huấn luyện

e Phát triển các mô hình:

© Mô hình phát hiện tiếng ho: Chúng tôi thiết kết một mô hình học sâu có

thé tiếp nhận và học từ hai dang đặc trưng đầu vào khác nhau (đặc trưng

1 chiều và đặc trưng 2 chiều) được trích xuất từ tiếng ho

©_ Mô hình nhận diện tiếng ho COVID-19: Một mô hình lai tạo được dé

xuất dé nhận đầu vào là đặc trưng tiếng ho cùng với thông tin metadata(thông tin cá nhân, thông tin bệnh lý) để đưa ra dự đoán về khả năngdương tính với COVID-19 của mẫu tiếng ho

© Mô hình tăng cường dữ liệu sử dung GAN: Chúng tôi thiết kế một kiến

trúc GAN với dit liệu huấn luyện từ bộ dit liệu AICovidVN dé huấn

luyện một mô hình có khả năng sinh ra các mẫu đặc trưng tiếng ho nhân

tạo.

Ngoài ra, chúng tôi cũng tiến hành thực nghiệm trên các mô hình học máy và các

phương pháp tiền xử lý đặc trưng khác nhau để đưa ra nhiều kết quả so sánh cho

nghiên cứu.

Trang 14

Chương 1 TONG QUAN ĐÈ TÀI

1.1 Lý do chọn đề tài

COVID-19 do Coronavirus 2 (SARS-CoV2) gây ra, là hội chứng hô hap cấp

tính được tổ chức y tế thé giới (WHO) tuyên bé là đại dịch toàn cầu vào ngày 11tháng 2 năm 2020 Theo trang thống kê trực tuyến worldometers.info [1], tính đếnsáng ngày 29/11/2021 (giờ Việt Nam), thé giới ghi nhận có tông cộng 261,763,255

ca nhiễm COVID-19, trong đó 5,217,302 ca tử vong và 236,423,420 ca bình phục.

Còn ở Việt Nam ghi nhận có tong cong 1,210,340 ca nhiém COVID-19, trong đó24,882 ca tử vong và 958,636 ca bình phục Việc bùng nô đại dịch SARS — CoV-2

đang diễn biến ngày càng phức tạp và khó lường gây ảnh hưởng nghiêm trọng đến

kinh tế xã hội trên toàn thé giới Ké cả những quốc gia lớn, giàu mạnh trên thế giớicũng gặp khó khăn trong việc triển khai các phương pháp kiểm dịch và quản lý do sựlây lan nhanh chóng, phức tạp và ngày càng xuất hiện thêm các biến chủng nguy hiểm

khác của SARS-CoV2 có thé kề đến như Beta, Gamma, Delta, Omicron

Hiện nay phương pháp xét nghiệm COVID-19 phô biến và tiêu chuẩn có thé

kế đến real-time Reverse Transcription Polymerase Chain Reaction (rRT-PCR) được

sử dung thường xuyên dé xác nhận các trường hop COVID-19 Phuong pháp thửnghiệm này mặc dù có nhiều ưu điểm là có độ chính xác khá cao và ít có khả năngmang lại kết quả âm tinh giả nhưng bên cạnh đó vẫn còn nhiều van đề khó khăn dékiểm soát đại dịch vì những lý do như: tính khả dụng bị hạn chế do vấn đề địa lý vàthời gian; sự khan hiếm và chi phí của các xét nghiệm lâm sang; yêu cầu phải trựctiếp đến bệnh viện, phòng khám, phòng thí nghiệm hoặc trang bị phòng thí nghiệm

di động dé tiễn hành kiểm tra, việc nay có thé gây ra lây nhiễm giữa người được kiểmtra với nhau và đội ngũ y tế trong quá trình kiểm tra

Phân loại tín hiệu âm thanh ho đã được sử dụng thành công đề chân đoán nhiềuloại bệnh liên quan đến đường hô hap và đã có sự quan tâm đáng ké đến việc tận dụngHọc may (Machine Learning) dé cung cap sang loc COVID-19 rộng rãi

Trang 15

Các nghiên cứu trước đây đã chỉ ra răng ho do các hội chứng hô hấp riêng biệt

có các đặc điểm tiềm ẩn riêng biệt [2] Những đặc điểm riêng biệt này có thé đượctrích xuất bằng xử lý tín hiệu thích hợp và các phép biến đổi trên âm thanh ho Các

đặc trưng sau đó có thể được sử dụng để đào tạo một công cụ Trí tuệ nhân tạo

(Artificial Intelligence) tinh vi dé thực hiện sơ bộ chan đoán chi dựa trên tiếng ho.Một số phân tích chuyên sâu đã được chứng thực về sự thay đổi hình thái bệnh lý gây

ra bởi COVID-19 trong hệ thống đường hô hấp, cho thấy rằng các thay đổi là khácbiệt với những bệnh do các bệnh đường hô hấp không phải do COVID-19 gây ra

Điều này cho thấy COVID-19 lây nhiễm vào hệ hô hap theo một cách riêng biệt Do

đó, giả thuyết rang ho do COVID-19 cũng có khả năng có các tính năng tiềm ấn riêng

biệt và nguy cơ những đặc điểm này trùng lặp với những đặc điểm liên quan đến các

bệnh nhiễm trùng đường hô hấp khác là thấp Các tính năng tiềm ân khác biệt này cóthé được khai thác dé đào tạo công cu AI nhằm phân biệt tiếng ho do COVID-19 vatiếng ho không phải do COVID-19

1.2 Mục tiêu

Nghiên cứu, phân tích những đặc trưng riêng biệt của tiếng ho có nhiễmCOVID-19 (khác biệt giữa những tiếng ho bình thường và các bệnh về đường hô hapkhác) cũng như các phương pháp thực hiện rút trích đặc trưng, phân tích về tiếng ho

Từ đó xem xét ghi nhận những điểm đặc trưng của tiếng ho của người nhiễm

COVID-19, điều này đóng góp cho các lĩnh vực nghiên cứu liên quan về xử lý âm thanh nóichung và bài toán về nhận biết, phân loại tiếng ho nói riêng Qua đó đóng góp giảipháp chuân đoán, sang lọc tự động người nhiễm COVID-19 một cách chủ động vàtiết kiệm thông qua tiếng ho

Nghiên cứu cũng như áp dụng các mô hình Học máy, Học sâu (Deep

Learning), các kỹ thuật hiện đại có liên quan dé giải quyết bài toán nhận diện

COVID-19 qua tiếng ho Nghiên cứu của chúng tôi cũng hướng tới việc so sánh với các côngtrình nghiên cứu liên quan trên thế giới dé kế thừa và phát triển những giải pháp phùhợp với Việt Nam Hướng tới xây dựng công cụ chuân đoán COVID-19 qua tiếng ho

Trang 16

(qua điện thoại, ứng dụng mobile, web, v.v) Việc có thể xây dựng một giải pháp sànglọc từ xa thông qua các thiết bị thông minh sẽ giảm được chi phí xét nghiệm truyền

thống và giúp đảm bảo việc giãn cách xã hội

Áp dụng trí tuệ nhân tạo hay Học máy trong các dịch vụ y tế đang trở thành

một xu hướng phát triển tat yếu của Xã hội Vì vậy, với công cụ sàng lọc qua việc thu

âm tiếng ho của người dùng và phân tích để đưa ra kết quả chuẩn đoán sẽ là một giải

pháp hữu hiệu và tiện lợi trong bối cảnh tình hình dịch bệnh phức tạp Cũng như khidai dịch COVID-19 qua di, việc có một ứng dụng phô biến để đưa ra chuẩn đoánCOVID-19 cũng là một điều cần thiết vì theo nhận định của WHO cho rằng COVID-

19 đang dần trở thành một bệnh đặc hữu [3]

Dé xây dựng các ứng dụng chuẩn đoán COVID-19 hiệu quả thì cần có các môhình được phát triển một cách kỹ lưỡng và đạt độ chính xác cao Từ nền tảng này cácứng dụng chuân đoán mới có thê được phát trién và phố biến rộng rãi tới người dùng.Chính vì lý do này, nghiên cứu của chúng tôi tập trung nghiên cứu, phân tích tiếng

ho COVID-19 từ đó phát triển các mô hình Học máy và Học sâu có độ chính xác caođóng góp cho việc xây dựng giải pháp phân loại, chuân đoán và sàng lọc COVID-19

tự động.

1.3 Vấn đề thách thức

Ngoài những vấn đề khó khăn cơ bản đã có sẵn của bài toán phân loại, phân

loại âm thanh như các vấn đề kỹ thuật thì bên cạnh đó chủ đề phân loại tiếng ho gây

ra do COVID-19 trên thé giới nói chung và ở trong nước nói riêng còn là một đề tài

mới mẻ và đầy thách thức

Cơ sở tri thức cũng như các nghiên cứu liên quan chưa có nhiều khiến cho quátrình tìm hiểu nội dung và triển khai thực hiện của đề tài gặp nhiều khó khăn cũng

như chất lượng của các bộ dữ liệu thu thập trực tuyến còn nhiều vấn đề bat cập như

nhiễu, khó nhận diện và mắt cân băng dẫn đến các khó khăn liên quan trong quá trìnhtriển khai các phương pháp xử lý và hiệu suất mô hình

Trang 17

Đối với lĩnh vực y tế, các mô hình đòi hỏi cần phải có độ chính xác cao mới

có thể đem vào ứng dụng trong thực tế Một vấn đề trước mắt khác cũng như mục

tiêu nhóm hướng đến là tinh ứng dụng của đề tài, cụ thé các phương pháp triển khai

của hệ thong ngoai cai thién tối đa hiệu suất của mô hình bên cạnh đó cần phải nhắmđến việc tối thiểu tỉ lệ lỗi loại II (âm tinh giả) và kết hợp các kết quả dự đoán, nếu các

mô hình không đồng thời cho kết quả giống nhau thì sẽ trả về kết quả không xác định

1.4 Tổng quan bài toán phân loại âm thanh

Công trình nghiên cứu của chúng tôi thuộc bai toán phân loại âm thanh Phân

loại âm thanh là một trong những ứng dụng được sử dụng rộng rãi nhất trong Học sâu

về âm thanh Nó liên quan đến việc học cách phân loại âm thanh và dự đoán loại âm

thanh đó.

Phân loại âm thanh còn gọi là quá trình phân tích bản ghi âm, kỹ thuật phân

loại âm thanh có nhiều ứng dụng trong lĩnh vực Trí tuệ nhân tạo và Khoa học dữ liệunhư trình dịch giọng nói tự động, trợ lý ảo, nhận dạng thể loại nhạc và ứng dụng tronglĩnh vực y học như nhận dạng âm thanh ho để nắm bắt tình trạng bệnh nhân Tín hiệu

từ âm thanh ho từ lâu đã được sử dụng đề chuẩn đoán về các bệnh có liên quan đường

hô hấp, các nghiên cứu về Trí tuệ nhân tạo và Học máy có liên quan đến âm thanhtiếng ho trong lĩnh vực y học nhận được động lực thúc đây phát triển trong bối cảnh

đại dich COVID-19 bùng phát trên thé giới

1.4.1 Phân loại âm thanh tiếng ho COVID-19

Tiếng ho là một triệu chứng phổ biến của nhiều loại bệnh liên quan vềđường hô hấp Vì vậy tiếng ho mang những thông tin quan trọng về nhữngthay đôi của đường hô hap và tình trạng của bệnh nhân nên ngày nay có nhiều

hệ thống được phát triển áp dụng công nghệ AI, Học máy hiện dai dé xử lý ditliệu về tiếng ho với mục đích trích xuất các thông tin hữu ích Với thực trạngthé giới đối mặt đại dịch COVID-19, các công trình nghiên cứu xoay quanh

xử lý dữ liệu tiêng ho được đây mạnh hơn với các nghiên cứu liên quan đên

Trang 18

tiếng ho và COVID-19, tiêu biéu có thể kế đến là dự đoán kết quả nhiễm bệnhqua tiếng ho với công cụ là Trí tuệ nhân tạo.

1.4.2 Các công trình và nghiên cứu liên quan

Nhiều nhóm tác giả cũng cấp các nghiên cứu về cả bộ dữ liệu và các

thực nghiệm khác nhau áp dụng các phương pháp ML và DL trong né lực cung

cấp một giải pháp sang loc COVID-19 hiệu qua và tiết kiệm Tại điểm mụcnày, chúng tôi trích dẫn một số nghiên cứu về bộ dit liệu và các phương phápphân loại COVID-19 dựa vào tiếng ho Qua đó liệt kê các kết quả và phân tích

vê phương pháp tiêp cận của các nhóm tác gia cho bài toán.

Dự án Coswara [4] được triển khai với mục tiêu cũng cấp cho cộng

đồng nghiên cứu khoa học một bộ dữ liệu về tiếng ho, hơi thở và giọng nói

phục vụ các nghiên cứu liên quan tới COVID-19 Dự án thu thập dt liệu được

đóng góp bởi người dùng trên toàn thế giới qua một giao điện website đượccung cấp bởi nhóm tác giả Các bản thu âm sẽ được thu thập thông qua cácthiết bị điện tử như điện thoại thông minh hoặc máy tính có kết nối Internet.Tại thời điểm thực hiện nghiên cứu của chúng tôi, chúng tôi sử dụng 4,465audios được cung cấp từ dự án Coswara (hai loại tiếng ho: shallow cough and

heavy cough được lưu trữ dưới dạng filename.wav) Theo nghiên cứu [5], bộ

dữ liệu Coswara có tiếng ho của người dương tính với COVID-19 ngắn hon

tiếng ho của người bình thường từ 15% tới 20% Nhóm tác giả du án Coswaracũng cung cấp một tập tin metadata chứa các thông tin cá nhân cũng như tìnhtrạng bệnh lý do người đóng góp tiếng ho cung cấp

Với nỗ lực cung cấp một bộ dé liệu lớn và chất lượng cho việc nghiêncứu các giải pháp phân loại COVID-19 qua tiếng ho, nhóm tác giả Lara

Orlandic và các cộng sự đã xây dựng bộ dir liệu COUGHVID [6] cung cấp

hơn 25,000 tiếng ho thu thập từ cộng đồng Bên cạnh đó, có bốn chuyên gia

có kinh nghiệm trong tiền hành đánh giá, phân tích va gán nhãn cho hơn 2,800bản thu âm tiếng ho khác nhau Vì vậy, nhóm tác giả tin rằng COUGHVID là

Trang 19

bộ dit liệu lớn nhất và uy tín cho các phân tích và thử nghiệm các giải phápphân loại COVID-19 qua tiếng ho Ngoài bộ dữ liệu, nhóm tác giả còn cung

các kết quả từ các giải pháp nhận diện tiếng ho được xây dựng trên bộ dữ liệu

dé tối ưu hoá công việc tiền xử lý trên bộ dit liệu Qua đó, các nhóm tác giảkhi sử dụng bộ dữ liệu có thé tham khảo và đánh giá Nhóm tác giả cũng cungcấp một tập metadata gồm các thông tin của người tham gia đóng góp tiếng ho

kèm theo đó là các kết quả nhận diện mức độ tiếng ho trong các audio, đây là

những thông tin vô cùng hữu ích cho các nhóm nghiên cứu khác khi thực hiện nghiên cứu của mình trên bộ dữ liệu này.

Ali Imran và các cộng sự trong nghiên cứu [2] đã đề xuất một quy trìnhphân loại COVID-19 qua tiếng ho gồm hai thành phan Cough Collection and

Detection và COVID-19 Diagnosis - đây cũng là quy trình tương tự như chúng

tôi xây dựng trong nghiên cứu này Ali Imran và các cộng sự đã chỉ ra rằngtiếng ho của bệnh nhân nhiễm COVID-19 có những đặc trưng riêng biệt khi

so sánh với tiếng ho của các bệnh nhân nhiễm các bệnh về hô hấp khác nhưviêm thanh quản, viêm khí quản, áp xe phổi, u phổi, bệnh màng phổi, bệnhphôi kẽ, v.v Đây là một phát hiện quan trọng chứng minh những nỗ lực trong

việc phân tích và áp dụng AI trong việc phân loại bệnh nhân COVID-19 thông

qua tiếng ho là hoàn toàn khả thi Nghiên cứ cũng cung cấp kết quả phân loạiCOVID-19 với độ chính xác trên 80% tới nhỏ hon 93% Tuy nhiên điểm hạnchế từ nghiên cứu này là bộ dữ liệu sử dụng còn quá ít (70 COVID-19 và 247

mẫu tiếng ho bình thường) đối với việc phát triển một giải pháp AI giải quyết

bất cứ bài toán nào Bên cạnh đó bộ dữ liệu cũng không được public để cácnhóm nghiên cứu khác có thê thực hiện các thử nghiệm và đánh giá khác trên

bộ dữ liệu.

Một nghiên cứu khác của nhóm tác giả Madhurananda Pahar và các

cộng sự [5] đã cung cấp các kết quả thực nghiệm với phương pháp tiếp cận

ML và DL cho giải pháp phân loại COVID-19 qua tiếng ho Nhóm tác giả đãthực hiện các thử nghiệm của mình trên bộ dữ liệu Coswara (tại thời điểm

Trang 20

nhóm tác giả thực hiện nghiên cứu Coswara cũng cấp 92 mẫu tiếng ho củabệnh nhân dương tính với COVID-19 và 1079 mẫu âm tính) và Sarcos cái mà

được thu thập chủ yếu từ người dân ở South Africa bao gồm 18 mẫu tiếng ho

có nhãn đương tính với COVID-19 và 26 mẫu âm tính Tổng hợp các mẫutiếng ho từ cả hai tập dữ liệu, Madhurananda Pahar và các cộng sự đã có đượcmẫu tiếng ho tới từ người dân tới từ bốn lục địa khác nhau (Asia, Europe,

Oceania và America) Các tác giả đã đưa ra các kết quả thực nghiệm của mình

với các mô hình ML và DL cùng với phương pháp khắc phục việc thiếu dữ

liệu khi sử dung Synthetic minority oversampling technique (SMOTE) va

phân tích đặc trưng sử dung Sequential forward selection (SFS) Kết qua tốt

nhất nhóm tác gia đạt được là với mô hình Resnet50 với AUC of 0.976 khi

huấn luyện và đánh giá kết quả trên tập dữ liệu Coswara, AUC of 0.938 khi

đánh giá trên bộ dữ liệu Sarcos Nghiên cứu của Madhurananda Pahar và các

cộng sự cung cấp các thực nghiệm đa dạng với các giải pháp ML và DL cùng

với các phương pháp trích xuất đặc trưng và xử ly mat cân bang dit liệu Tuy

nhiên, giống như những nghiên cứu trước đó số lượng dữ liệu dé xây dựng cácgiải pháp là quá nhỏ do đó các kỹ thuật xử lý dữ liệu cũng không thé khắc phụchoàn toàn nhược điểm này Bên cạnh đó bộ dữ liệu Sarcos cũng không được

công khai cho cộng đồng, vì vậy các nghiên cứu sau không thẻ thiết kế lại các

thực nghiệm dé kiêm chứng các kết quả được báo cáo

Trong nghiên cứu [7] của Jostein Leirgulen và các cộng sự, nhóm tác

giả đã đề xuất việc sử dụng các metadata như tuổi (age), giới tinh (gender),

tình trạng hô hap (pre-existing respiratory conditions), các triệu chứng biểuhiện (specified symptoms) dé xây dựng các thực nghiệm với các mô hình ML

trên tập dữ liệu COUGHVID Mặc dù kết quả còn khá khiêm tốn - 0.66accuracy với mô hình XGBoost - nhưng các tác giả đã đề xuất tới việc tăng

cường độ chính xác của các giải pháp chuẩn đoán COVID-19 qua tiếng ho khi

sử dụng các thông tin từ metadata Hơn nữa, nghiên cứu cũng cung cấp các

thông tin hữu ích khi phân chia dữ liệu (tránh việc giữ liệu tới từ cùng một chủ

Trang 21

thé nằm trong cả đữ liệu training, validation và testing) dé có thé đưa ra nhữngđánh giá khách quan nhất khi huấn luyện các mô hình ML Các tác giả cũng

chỉ ra việc sử dụng các kỹ thuật xử lý tiếng ho khác nhau cũng sẽ ảnh hưởng

tới độ chính xác của các mô hình phân loại.

10

Trang 22

Chương 2 PHƯƠNG PHÁP TIẾP CAN

COUGHVID e — Duara các thông số thống kê của e _ Làm sạch và tô chức metadata từ dữ

Coswara từng bộ dữ liệu liệu.

AICovidVN ° Phân tích các đặc trưng riêng biệt ° Chuẩn hóa các tiếng ho.

của tiếng ho COVID-19 ° Loại bỏ các dữ liệu nhiễu.

-> Định hướng việc tiền xử lý dữ liệu.

@ Thực nghiệm trên các mô hình ibe Trích xuất đặc trưng

e _ Mô hình máy học: SVM, Light-GBM, © — Trích xuất các tiếng ho.

e _ Mô hình học sâu: CNN, LSTM., e — Trích xuất đặc trưng từ tiếng ho (MFCCs,

Mel-spectrogram, ) va metadata.

-> Thiết kế các đặc trưng sử dung dé thực nghiệm

trên các mô hình.

Đánh giá kết quả

Hình 2.1: Phương pháp tiếp cận bài toán Nhận diện COVID-19 qua tiếng ho.

2.1 Các bộ dir liệu âm thanh tiếng ho

2.1.1 Bộ dữ liệu AICovidVN

Bộ dữ liệu AICovidVN được cung cấp bởi dự án công nghệ vì cộng

đồng AICovidVN 115M Challenge được tổ chức là một cuộc thi cộng đồng

với mục đính tìm ra các ý tưởng sáng tạo trong việc phát triển các mô hình họcmáy trong việc nhận diện COVID-19 từ cộng đồng nghiên cứu khoa học tại

Việt Nam dựa trên bộ đữ liệu mà ban tô chức cuộc thi cung cấp Bộ dữ liệu

được thu thông qua việc tiếp nhận tiếng ho qua các ứng dụng Facebook và

Zalo Dữ liệu tiếng ho của người dùng sẽ được lưu trữ cùng với những thôngtin metadata được cung cấp từ người dùng AICovidVN 115M Challenge đượcchia thành hai chặng thi warm-up và final với tổng dữ liệu cung cấp là 4,504

tiếng ho cùng với metadata Nguồn dữ liệu được thu thập phần lớn tại Việt

Nam và đa số tới từ những khu cách ly người dân tại Việt Nam trong đợt bùngdịch lần thứ tư (từ ngày 27/4/2021), thậm chí là các mẫu ho của các bệnh nhân

11

Trang 23

đang điều trị COVID-19 Vì vậy đây là bộ dit liệu mang tính thời sự và có tiềmnăng cao trong việc nhận diện COVID-19 từ tiếng ho.

Nhằm cung cấp một bộ đữ liệu chất lượng nhất tới những đội dự thi,ban tô chức AICovidVN 115M Challenge đã chú ý rất nhiều tới bước tiền xử

lý các tiếng ho được thu thập Những audio tiếng ho này sẽ được các tìnhnguyện viên thực hiện loại bỏ những tạp âm và những audio có chất lượngkém theo một guideline được ban tô chức cung cấp Qua đó có thể thấy đượcAICovidVN là một bộ dữ liệu chất lượng cho việc nghiên cứu và phát triểncác công cụ học máy và học sâu cho bài toán nhận diện COVID-19 qua tiếng

ho.

2.1.2 Bộ dữ liệu COUGHVID

Phân loại tín hiệu âm thanh ho đã được sử dụng thành công dé chânđoán nhiều tình trạng hô hap và đã có sự quan tâm đáng kể đến việc tận dụngHọc máy dé cung cấp sàng lọc COVID-19 rộng rãi Bộ dữ liệu COUGHVID

cung cấp hơn 25,000 bản ghi âm ho do nguồn lực cộng đồng đại điện cho nhiều

độ tuôi, giới tinh, vi trí địa ly và trạng thái COVID-19 của người tham gia.Đầu tiên, nhóm tác giả đóng góp thuật toán phát hiện ho nguồn mở của mìnhcho cộng đồng nghiên cứu dé hỗ trợ đánh giá mức độ chắc chan của dit liệu.Thứ hai, bốn bác sĩ có kinh nghiệm đã gắn nhãn hơn 2,800 bản ghi âm dé chânđoán các bat thường y tế xuất hiện trong các cơn ho, do đó đóng góp một trongnhững bộ dữ liệu về bệnh ho được gắn nhãn chuyên gia lớn nhất hiện có cóthể được sử dụng cho rất nhiều nhiệm vụ phân loại âm thanh ho Cuối cùng,nhóm nghiên cứu đảm bảo rằng những cơn ho được dán nhãn là có triệu chứng

và COVID-19 có nguồn gốc từ các quốc gia có ty lệ lây nhiễm cao Do đó, tập

dữ liệu COUGHVID đóng góp vô số các bản ghi âm ho dé đào tạo các môhình Hoc máy nhằm giải quyết các cuộc khủng hoảng sức khỏe cấp bách nhấttrên thé giới

12

Trang 24

2.1.3 Bộ dữ liệu Coswara

Coswara là một cơ sở đữ liệu về âm thanh hô hấp, cụ thể là ho, hơi thở

và giọng nói Dự án phi lợi nhuận Coswara được thực hiện với mục đích đóng

góp cho cộng đồng nghiên cứu khoa học bộ đữ liệu tiếng ho nhằm phát triểncác phương pháp phân loại và nhận điện COVID-19 qua tiếng ho Cũng giống

như COUGHVID bộ dữ liệu Coswara được thu thập qua nên tảng web, các

tiếng ho được người dùng cung cấp qua internet và được lưu dữ trên cơ sở dữliệu mà nhóm tác giả thiết kế Coswara cũng cung cấp các thông tin metadatacủa người gửi tiếng ho Bộ dữ liệu cung cấp 2,234 tiếng ho được thu thập trongkhoảng thời gian từ ngày 12/04/2020 tới ngày 30/09/2021 Chúng tôi tin rằngnhững hiểu biết sâu sắc từ phân tích của Coswara có thê hiệu quả trong việckích hoạt các giải pháp công nghệ dựa trên âm thanh dé chan đoán tại điểmchăm sóc về nhiễm trùng đường hô hap, và điều này dé mở một cơ hội chanđoán COVID-19 trong tương lai gần

2.1.4 Bộ dữ liệu ESC-50

Bộ dữ liệu ESC-50 là một bộ sưu tập được gắn nhãn gồm 2000 bản ghi

âm môi trường phù hợp cho các phương pháp diém chuẩn phân loại âm thanhmôi trường ESC-50 bao gồm 2,000 clip 5 giây của 50 lớp khác nhau với âmthanh tự nhiên, con người và âm thanh trong nước, được lay từ Freesound.org

Bộ dữ liệu được đưa vào thí nghiệm phát triển mô hình phát hiện âm thanh hovới mục đích cung cấp các mẫu âm thanh không phải âm thanh ho

2.2 Đặc trưng trích xuất từ âm thanh tiếng ho

2.2.1 Tổng quan về đặc trưng âm thanh

Một tín hiệu âm thanh là tập hợp của các sóng tần số tín hiệu đơn lẻ vớinhau Khi lấy các mẫu tín hiệu âm thanh này theo thời gian, kết quả ta nhậnđược là tín hiệu có biên độ tổng hợp (từ các biên độ của các sóng thành phan)

Mỗi sóng thành phần được biểu diễn bởi một phương trình sóng riêng:

13

Trang 25

sị = Aisin(2ø¿£) với A; là biên độ và «; là tần số góc (1)

Trong thuc té dé phân tích được một tín hiệu âm thanh là rất khó Vìthực tế tín hiệu âm thanh biến đổi liên tục và không tuần hoàn theo thời gian

Vi vậy Fourier Transform (FT) va Inverse Fourier Transform (IFT) được phát

triển từ chuỗi Fourier giúp phân tích các tin hiệu không tuần hoàn tốt hơn

Công thức FT và IFT lần lượt:

Có thê hiểu rằng FT chuyên đổi tín hiệu âm thành từ miền thời gian

sang miễn tần số Kết quả thu được từ FT được gọi là phô biên độ (spectrum)

Trang 26

(a) Spectrogram (b) Mel-spectrogram.

Hinh 2.3: Hinh anh truc quan cua Spectrogram va Mel-spectrogram.

2.2.2 Mel-Spectrogram

Mel-scale [8]: Thang do Mel được phat triển dựa trên thực tế về khảnăng phân biệt các tín hiệu tần số của con người Ví dụ: con người có thê dễdàng phân biệt sự khác nhau giữa hai tín hiệu có tần số lần lượt là 100Hz và200Hz nhưng lại không thể phân biệt được sự khác nhau giữa hai tín hiệu có

độ lớn 10000Hz và 10100Hz Thang đo Mel được phát triển giúp cho máy học

có thê mô phỏng lại cách nhận thức của con người với tín hiệu.

Công thức chuyền đổi Hz sang Mel:

fz ) (4)

fmet = 1127 x log (1 + 700

Từ Công thức (4), một điều dé dang nhận thay đó là các các tín hiệu có

tần số thấp có sự chênh lệch lớn hơn khi chuyên sang thang đo Mel, ngược lại,các tần số cao sẽ có ít sự chênh lệch khi chuyên sang thang đo Mel Điều này

15

Trang 27

gan như tương tự với kha năng nhận biết sự khác biệt giữa các tín hiệu của con

nguoi.

Quang phổ mel ánh xa lại các giá trị trong hertz thành thang mel Quangphổ âm thanh tuyến tính phù hợp lý tưởng cho các ứng dụng trong đó tất cảcác tần số có tầm quan trọng như nhau, trong khi quang phô mel phù hợp hơncho các ứng dụng cần mô hình hóa nhận thức thính giác của con người Biểu

đồ quang phô mel biéu diễn logarit các tan số trên một ngưỡng nhất định (tần

số góc) Vi dụ, trong biểu đồ quang phô tỷ lệ tuyến tính, không gian dọc từ1,000 đến 2,000Hz bằng một nửa không gian dọc từ 2,000Hz đến 4,000Hz

Qua đó, áp dụng thang đo Mel vào spectrogram để tạo ra đặc trưng

Mel-spectrogram giúp tăng tối đa mức độ thông tin mà Mel-spectrogram cung cấp

2.2.3 Mel-frequeney cepstral coefficients (MFCC)

MECC [9, 10] là một cách đề trích xuất các đặc trưng giọng nói thường

được sử dụng trong các model nhận dạng giọng nói hay phân loại giọng nói.

Đúng như tên gọi của nó, MECC sẽ cho ra kết quả là các hệ sé (coefficients)của cepstral từ Mel filter trên phô lay được từ các file âm thanh chứa giọng

nói.

Nguyên lý hoạt động: Giọng nói thường sẽ được biểu diễn dưới danghai chiều (x, y) với x là thời gian (time) theo miliseconds (ms) và y làamplitude (biên độ) Trong đó những giá trị trên y được sinh ra trực tiếp từ bộ

thu âm, do đó người ta thường gọi là speech signal Đầu tiên, ta sẽ biến đốispeech signal thành âm phổ (spectrum) bằng cách áp dụng Fast Fourier

Transform Kết quả của việc biến đồi này, tức là spectrum, được biểu diễndưới dạng hai chiều (x', y') với x' là tan số (Hz) và y' là cường độ (dB) Gọi

spectrum là X[k] có hai thành phần là spectral envelopes H[k]H[k] và spectral

details E[k] Dé tach được H[k], ta cần phải lay logarithm của spectrum và layphan ở tan số thấp (low frequency):

16

Trang 28

X[k] = H[k] * E[k] (5)

© log(X[k]) = log(H[k]) + log (E[k])

Người ta thay rang tai người hoạt động như một bộ loc, chi tập trung

vào một phần thay vì hết cả spectral envelopes Sau khi áp dụng bộ lọc này, ta

sẽ sử dụng Inverse Fast Fourier Transform lên logarithm của spectrum:

IFFT (log(X[k])) = IFFT (log(H[k]) + log(E[k])) (6)

© x[k] = h[k] + e[k]

Trong đó, x[k] được gọi là cepstrum vi IFFT là nghịch đảo cua FFT va

cepstrum cũng là nghịch đảo của spectrum Cepstrum bây giờ sẽ giống nhưSpeech Signal, biểu diễn dưới dạng hai chiều (x", y"), nhưng giá trị sẽ khác

nên người ta cũng gọi hai cột với tên khác là y" là magnitude (không có đơn

vi) va x" là quefrency (ms) và MFCCs cũng chính là các giá trị lay từ Cepstrum

Có nhiều ly do để áp dụng preemphasis như: Tránh van đề về số khi áp

dụng FFT, làm cân băng tần số spectrum, khuếch dai tan số cao (để lọc

tần số thấp dé hơn) Nhung mà preemphasis không bắt buộc sử dụng

nữa vi FFT đã được cải thiện.

e Framing: Speech signal ở dạng liên tục theo từng ms, do đó khó dé

giải quyết nên người ta sẽ chia speech signal thành các frames Mỗi

17

Trang 29

2.3.1.

frame có kích thước khoảng 20-40 ms và chồng lên nhau khoảng 10-15

ms Kết quả sẽ ở dưới dang hai chiều (x, y) với x là frame_length và y

là number_of_ frames.

Window: Do framing làm rời rac hóa speech signal ta sé áp dung một

ham goi la Hamming Window dé lam smooth cac frames:

Trong do: N là frame_length

Fourier Transform and Power Spectrum: Đây là bước ta chuyên

speech signal thành spectrum, ta sẽ áp dụng công thức sau:

FFT(x)?

p= với x; là frame thứ x của tín hiệu và N có giá (9)

tri 256 hoac 512.

Filter Banks: Đây là bước ta áp dung bộ loc Mel-Frequency Filter.

Discrete Cosine Transform and MFCCs: Đây là bước ta chuyền từspectrum qua cepstrum, áp dụng DCT (một dạng IFFT) lên kết quả của

filter banks ta sẽ có được các MFCCs.

Phương pháp xử lý đặc trưng

Standard Scaler

Standard Scaler chuẩn hóa các đặc trưng bang cách trừ di giá trị trung

bình và sau đó chia tỷ lệ thành phương sai đơn vi Phương sai đơn vi có nghĩa

là chia tất cả các giá trị cho độ lệch chuẩn Là kỹ thuật giúp điều chỉnh (chuẩn

hoa) các giá tri của một vector đặc trưng dang số học về một thang do tiêuchuẩn, biến đôi dit liệu dé có giá trị trung bình là 0 và độ lệch chuẩn là 1 Điều

này giúp tránh sự rời rac trong dit liệu dạng số, tăng tính tương quan giữa các

điêm dir liệu với nhau Chuan hóa dữ liệu rat hữu ích cho dt liệu có giá trị âm.

18

Trang 30

Nó sắp xếp dit liệu theo phân phối chuẩn chuẩn va được cho là hữu ích hontrong phân loại so với hồi quy.

z= = với z là giá trị được chuẩn hóa, p là giá trị trung bình q0)

và ø là độ lệch chuân

2.3.2 Synthetic Minority Oversampling Technique (SMOTE)

SMOTE duoc phat trién boi NV Chawla va cac céng su trong [11],SMOTE là một phương pháp giúp cải thiện, khắc phục mat cân băng nhãn

trong dữ liệu Phương pháp này tao sinh mẫu dữ liệu nhằm gia tăng kích thước

mẫu của nhóm thiêu số trong trường hợp xảy ra mat cân bang mau Dé gia tăngkích thước mẫu, với mỗi một mau thuộc nhóm thiéu số ta sẽ lựa chọn ra k mẫuláng giềng gần nhất với nó và sau đó thực hiện tô hợp tuyến tính đề tạo ra mẫuđặc trưng tong hop

Cụ thé chúng tôi sử dụng phương pháp SMOTE oversampling dé tong

hợp ra các mẫu đặc trưng của tiếng ho dương tính với COVID-19 Các mẫu

đặc trưng tông hợp này sẽ được sử dung đề huấn luyện mô hình cùng với cácmẫu đặc trưng thật Bằng cách sử dụng SMOTE chúng tôi đã loại bo đi yếu tố

mât cân băng dữ liệu của bài toán được nghiên cứu trong đê tài này.

2.4 Mạnh sinh đối kháng (GAN)

GAN [12] được giới thiệu lần đầu tiên năm 2014 bởi lan J Goodfellow

và các cộng sự Ý tưởng của GAN bắt nguồn từ trò lý thuyết trò chơi hai người

(zero-sum game) - nơi ma hai người chơi có xung đột lợi ích với nhau và hướng

tới việc triệt tiêu lẫn nhau tới khi có người giành chiến thắng Tương tự đốivới GAN, mạng sinh đối kháng GAN gồm hai thành phần chính là Trình tạo

(Generator) là các mô hình sinh mau ngẫu nhiên và Trình phân biệt

19

Trang 31

(Discriminator) là thành phần phân biệt các mẫu tạo bởi trình tạo là thật haygiả Nhiệm vụ của trình tạo là đánh lừa trình phân biệt dé nhận diện các mẫutạo từ trình tạo là mẫu thật theo đó nhiệm vụ của trình tạo là tạo ra các mẫugiả giống mẫu thật nhất có thê Việc có hai mô hình đối kháng lẫn nhau liên

tục trong một mạng cũng giải thích cho tên của mang nay.

Đầu vào của Trình tạo là véc-tơ nhiễu (noise vector) VỚI Z chiều Các

mẫu nhiễu này được tạo ra băng việc sử dụng các phân phối xác suất nhưGaussian, T-student, Chi-Square, v.v Sau khi nhận đầu vào có kích thước zchiều, Trình tạo sẽ tiễn hành nâng số chiều của vec-tơ nhiễu này tới kích thướcbăng với (K x 1) chiều (trong đó K = W x H) Đầu ra (K x 1) chiều này sẽ được

biến đối về dạng hai chiều WxH đúng bằng với kích thước đầu vào của Trình

phân biệt.

Output: đặc trưng

tiêng ho giả

Hình 2.4: Trình tạo tạo sinh mẫu giả từ véc-tơ nhiễu.

Input: véc-tơ nhiễu Generator (G)

Trình phân biệt bản chất là một mô hình phân loại (hình giả và hìnhthật), vì vậy, Trình phân biệt có thể là các mô hình phân loại như SVM,Decision Tree, CNN, v.v Với Trình phân biệt, đầu vào sẽ có dạng WxH và

đầu ra là xác xuất của đầu vào là ảnh thật Trình phân biệt cố gắng phân biệt

dau là anh thật va đâu là ảnh giả vì vậy ham sigmoid được sử dụng dé đưa ra

xác suât dự đoán.

20

Trang 32

Input: đặc trưng that

hoặc giả

Output: dự đoán đặc

X trưng là giả hoặc thật

Discriminator (D)

Hình 2.5: Trình phân biệt gan nhãn cho input.

Hàm mat mat (Loss function) của mô hình GAN là sự kết hợp giữahàm mất mát của Trình tạo và Trình phân biệt:

mingmaxpV(D,G q1)

= Ey.paa„œ)llogD()] + Ez~p„¿)[log( — D(6(2))]

Việc huấn luyện mô hình GAN bao gồm hai phần là huấn luyện Trìnhsinh và huấn luyện Trình phân biệt Hai phần này sẽ được thực hiện xen kẽnhau trong quá trình huấn luyện GAN

e Huấn luyện Trình phân biệt: mục tiêu là tao ra một Trình phân biệt có

khả năng phân loại tốt nhất Ở giai đoạn này G là không đổi và chỉ tậpchung vào về maxpV(D, G) D(x) đóng vai trò dự đoán xác suất cho

dữ liệu đầu vào

o Nếu đầu vào là mẫu thật khi đó phương trình sẽ trở thành

maxpV(D,0) = Ey~pa„„œ)togD(3)] với x~paa¿a(3) là phan

phối xác suất của các điểm dữ liệu đầu vào

o Trường hợp mẫu đầu vào là giả khi đó hàm mất mát sẽ là

maxpV(D,G) = Ez~p („)[log(1 — D(0G))].

21

Trang 33

e Huấn luyện Trình sinh: mục tiêu của phase này là củng có kha năng tao

mẫu của Trình sinh sao cho mẫu sinh ra là giống với thật nhất Ngượclại với Trinh phân loại, bây giờ ta chỉ quan tâm đến G(z) sao cho giátrị dự báo xác suất từ đối với nó gần bang 1 nhất, tức là mẫu giả đượcsinh ra giống mẫu thật nhất (xác suất càng gần | thì khả năng giống

mẫu thật càng lớn) Đảo dấu trong Ez~p„(œ[log(1 — D(G(z))] ta suy

ra mục tiêu cần tối ưu là tối thiểu hóa mingV (D,G)

Ứng dụng của GAN:

e Tạo sinh ảnh mặt người.

e Chỉnh sửa anh (thay đổi màu da, giới tính, v.v trên ảnh người)

e Tạo sinh các nhân vật hoạt hình.

e Chuyén chữ viết thành hình ảnh

2.5 Các mô hình phân loại

2.5.1 Support Vector Machine (SVM)

SVM [13] là một thuật toán co ban trong Machine learning Được sử

dụng rat nhiều bởi việc đưa ra độ chính xác cao mà không yêu cầu qua cao vềviệc tính toán SVM có thé được dùng cho bài toán hồi quy và cả bài toán phân

loại Trong đồ án này ta sẽ sử dụng SVM cho bài toán phân loại

Mục tiêu của SVM là tìm ra một siêu phăng (hyperplane) của không

gian N- chiều (N là số lượng đặc trưng) điều này có tác dụng rất tốt trong việc

phân loại các điểm đữ liệu Để phân loại 2 nhãn của các điểm dữ liệu, có rấtnhiều siêu phẳng có thê được tạo ra Tuy nhiên mục tiêu của ta là tìm ra mộtsiêu phẳng có lề (margin) cực đại Việc cực đại biên độ giúp tạo ra một khoảng

tin cậy vững chắc cho việc phân loại cái diém dữ liệu mới trong tương lai.

22

Trang 34

` Maximum.

N ⁄ margin

LẤ \

Hyperplanes va support vectors:

e Hyperplanes là các đường phân loại (decision boundaries) giúp ta phan

loại các điểm dữ liệu Các điểm dữ liệu nằm ở bên nào của siêu phẳng

thì nhận giá trị phân loại tương ứng Và chiều của siêu phăng phụ thuộcvào số lượng đặc trưng Nếu số lượng biến đặc trưng là 2 thì siêu phăng

là một đường thang Nếu số lượng biến dic trưng là 3 thì siêu phẳng sẽ

là một mặt phẳng

23

Trang 35

Hình 2.7: Siêu phẳng 2-D và 3-D trong không gian đặc trưng (feature space) Nguồn: Internet.

e Support vectors là các điểm dit liệu nằm gần siêu phẳng hơn so với

các điểm dit liệu khác và có ảnh hưởng tới vị trí và góc của siêu phăng

Sử dụng các support vectors này, giúp ta tìm được margin cực đại cho

việc phân loại Loại bỏ hay di chuyên các support vectors sẽ làm thayđổi vị trí của siêu phăng Đây là điểm quan trọng trong việc xây dựng

Trang 36

Bài toán xây dựng một mô hình phân loại SVM là bài toán đi tìm một

siêu phăng sao cho margin là lớn nhất (hay đây là một bài toán tối ưu) Đây

là ly do vì sao SVM còn được gọi là Maximum margin classifier.

2.5.2.

Ứng dụng của thuật toán SVM

Nhận diện khuôn mặt (face detection): sử dụng SVM dé phan loai caithành phan trong ảnh là khuôn mặt người hay không phải khuôn mặt

của người va tạo ra một khung bao quanh (square boundary) khuôn

mặt.

Phân loại văn bản: SVM cho phép phân loại văn bản (text) vả siêu văn ban (hypertext) cho cả hai mô hình inductive và transductive Sử dụng

dữ liệu huấn luyện đề phân loại cái tài liệu thành nhiều nhãn khác nhau

Nó phân loại trên cơ sở điểm số được tạo ra và sau đó so sánh với giá

trị ngưỡng (threshold value).

Phân loại ảnh: áp dụng SVM sẽ cho độ chính xác cao hơn trong việc

phân loại ảnh Nó cung cấp độ chính xác tốt hơn so với các kỹ thuật

truy vấn truyền thống

Tin sinh hoc (bioinformatics): phân loại protein va phân loại ung thư.

Nhận diện chữ sé viết tay

Light Gradient Boosted Machine (Light-GBM)

Light-GBM [14] duoc phat trién dua trén framework Ensemble

Gradient Boosting do Microsoft phát triển, thuật toán Light-GBM là một trong

những thuật toán ensemble nồi tiếng nhất hiện nay dựa vào tốc độ xử lý nhanh

và độ chính xác cao của nó Khác biệt với những thuật toán Ensemble Boosting

khác, khi xây dựng từng cây quyết định đơn lẻ, Light-GBM phát triển cây theo

chiều sâu (leaf-wise), thay vì chiều ngang (level-wise) Light-GBM còn có

những cải tiễn khác như việc chọn lựa thuật toán Histogram-based thay choPre-sorted dé giảm đáng ké số lượng tính toán khi chọn điểm phân chia nhánh

25

Trang 37

(split point) tối ưu cho từng node của cây, dùng GOSS (Gradient-based OneSide Sampling) dé thuật toán có thé tập trung huấn luyện ở những điểm dit liệuđược phân loại sai, và áp dụng EFB (Exclusive Feature Bundling) đề ghép cácvéc-tơ thưa thớt (sparse vectors) lại nhằm giảm số đặc trưng trong bộ đữ liệu

xuông.

Light-GBM đang được sử dụng rộng rãi trong nhiều giải pháp chiếnthắng của các cuộc thi học máy Các thí nghiệm so sánh trên tập dữ liệu côngkhai cho thấy Light-GBM có thé làm tốt hơn các mô hình học máy cùng loại

về cả hiệu quả và độ chính xác, với mức tiêu thụ bộ nhớ thấp hơn đáng kể [15]

Weighted Data Weighted Data

Decision Tree 1 Decision Tree 2 Decision Tree 3 Decision Tree K

(Weak classifier) (Weak classifier) (Weak classifier) (Weak classifier)

Hình 2.9: Thuật toán Ensemble Gradient Boosting Nguồn: Internet.

Ung dung của Light-GBM:

e Cham diém tín dung, các bai toán phan loại.

e Được sử dung rat nhiêu trong các cuộc thi có tính ganh dua cao về thời

gian vì tốc độ của Light-GBM là rất ấn tượng

26

Trang 38

2.5.3 CatBoost

La thuat toan may hoc ma nguồn mở của YanDex Có thé hoạt động

trên đa dạng kiểu dữ liệu như âm thanh, văn bản, video Điểm mạnh của thuậttoán là cho kết quả khá tốt mà không cần phải cung cấp lượng lớn đữ liệu và

hỗ trợ mạnh mẽ cho các dạng dit liệu mô tả kéo theo vấn đề về kinh doanh

CatBoost có thể xử lý các đặc trưng phân loại (categorical features) tự động

tức không cần bộ tiền xử ly dit liệu rõ ràng dé chuyên đổi dit liệu sang dạng sốhọc Bên cạnh đó CatBoost cho kết quả khá tốt trên bộ tham số mặc định vìvậy không cần mất quá nhiều thời gian trong việc tỉnh chỉnh tham số [16]

Một trong nhiều tính năng độc đáo mà thuật toán CatBoost cung cấp là

tích hợp dé làm việc với các loại dữ liệu đa dạng dé giai quyét một loạt các

van đề dữ liệu mà nhiều nghiên cứu gặp phải khi nguồn dữ liệu chưa đượcphong phú và đa dạng Không chỉ vậy, CatBoost còn cung cấp độ chính xácgiống như các thuật toán cùng loại

Ứng dụng của CatBoost:

e Hệ khuyến nghị và tìm kiếm

e Phát trién hệ thống trợ lý ảo cho cá nhân

e Xe tự hành và dự báo thời tiết.

2.5.4 Random Forest

Rừng ngẫu nhiên (Random Forest) [17] dùng thuật toán Ensemble

Bagging để tạo ra một tập hợp đa dạng những Cây quyết định (Decision Tree)khác nhau, sau đó kết hợp những kết quả riêng lẻ của các cây đưa ra nhằm tạo

ra một giá trị đầu ra cuối cùng Mỗi một cây quyết định trong Random Forestđược tạo ra từ việc chọn ngẫu nhiên một tập hợp con từ tổng thể các đặc trưngsan có của bộ dữ liệu Kết hợp với thuật toán bootstrap sampling được dùng

dé tạo ra những bộ dữ liệu nhỏ khác nhau khi training, rừng ngẫu nhiên có lợithé hơn han so với 1 cây quyết định thông thường trong việc giảm phương sai

27

Trang 39

(variance), từ đó kết quả thuật toán đưa ra có thể áp dụng tốt hơn trong thực

z7

A

te.

Random Forest là một phương pháp hoc có giám sat (Supervised

Learning) do vậy có thé xử lý được các bài toán phân loại (classification) và

dự báo về các giá trị (regression) Với một cơ chế như vậy, Random Forestcho ta một kết quả chính xác rat cao nhưng đánh đổi bằng việc ta không théhiểu cơ chế hoạt động của thuật toán này do cấu trúc quá phức tạp của mô hình

Original Data

Bootstrapping

Aggregating

Ensemble classifier Bagging

Hình 2.10: Thuật toán Ensemble Bagging Tree Nguồn: Internet.

Ung dụng của Random Forest:

e Dự đoán hành vi bất thường sử dung thẻ tin dụng

e Phân đoạn đối tượng khách hàng

e Hệ khuyến nghị

2.5.5 Convolutional Neural Network (CNN)

Trong Deep Learning, CNN [18] là một lớp gom cac mang than kinh

sâu, phô biến áp dụng dé phân tích hình ảnh trực quan Mạng còn được gọi là

28

Trang 40

mạng bắt biến Shift hoặc nhân tạo bất biến trong không gian Mạng noron, dựatrên kiến trúc trọng số dùng chung và các thuộc tính đối xứng tịnh tiễn Các

giao dịch- kiến trúc tional của CNN bao gồm các lớp CONV, ReLu, POOL,

FC và Dropout Phức tạp hơn kiến trúc mạng cũng dựa trên các lớp chung này

Convolutional Neural Networks được lay cảm hứng bơi quá trình phảnứng sinh học trong đó sự kết nối giữa các nơ-ron được truyền cảm hứng từ

việc tô chức của vỏ não thị giác (visual cortex) của động vật.

Hình 2.11: CNN lay cảm hứng từ hoạt động của vỏ não thi giác Nguồn: Internet.

Trong tự nhiên, nơ-ron có một SỐ lượng nhánh (inputs) lớn, một nhân

tế bào (bộ xử lý) và một axon (output)

e Các nơ-ron là đơn vi cơ bản của một Neural Network.

e_ Chúng có thể liên kết với nhau, hay được dùng như những cổng kết nối

giữa các no-ron khác.

Một nơ-ron giống như một hàm, nó nhận vào một lượng inputs va trả

về một output Khi một nơ-ron hoạt động, nó tích lũy tất cả các inputs truyềnvào nó, và nếu tới một ngưỡng xác định thì nó sẽ phát ra một tín hiệu thông

qua axon Điều quan trọng về nơ-ron là nó có thể học, một Neural Network

được kết hợp với nhau bằng việc móc nối rất nhiều nơ-ron đơn với nhau, vìthé output của nơ-ron này có thé trở thành input của no-ron khác Một Neural

29

Ngày đăng: 03/11/2024, 19:02