1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân loại tiếng ho nhận diện covid-19

61 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân Loại Tiếng Ho Nhận Diện Covid-19
Tác giả Nguyễn Hoàng Khởi
Người hướng dẫn TS. Nguyễn Trọng Khánh
Trường học Học Viện Công Nghệ Bưu Chính Viễn Thông
Chuyên ngành Công Nghệ Thông Tin
Thể loại Đồ Án Tốt Nghiệp
Năm xuất bản 2022
Thành phố Hà Nội
Định dạng
Số trang 61
Dung lượng 19,19 MB

Nội dung

Kết quả của các giải pháp nhận điện COVID-19 thông qua tiếng ho phụ thuộc rất nhiều vào mức độ “sạch” của tập dữ liệu tiếng ho được sử dụng.. Sau đó việc nhận diện được thực hiện bằng cá

Trang 1

PHÂN LOẠI TIẾNG HO NHẬN DIỆN COVID-19

Giảng viên hướng dẫn: TS NGUYỄN TRỌNG KHÁNH Sinh viên thực hiện: NGUYỄN HOÀNG KHÔI

Mã sinh viên: B17DCCN350

Lớp: E17CN01 Khoá: 2017 - 2022 Hệ: ĐẠI HỌC CHÍNH QUY

Hà Nội - 01/2022

Trang 2

PHÂN LOẠI TIẾNG HO NHẬN DIỆN COVID-19

Giảng viên hướng dẫn: TS NGUYỄN TRỌNG KHÁNH Sinh viên thực hiện: NGUYỄN HOÀNG KHÔI

Mã sinh viên: B17DCCN350

Lớp: E17CN01 Khoá: 2017 - 2022 Hệ: ĐẠI HỌC CHÍNH QUY

Hà Nội - 01/2022

Trang 3

TS Nguyễn Trọng Khánh vì sự định hướng và giúp đỡ tận tình của thầy trong quá trình

thực hiện đồ án Lĩnh vực học máy là một lĩnh vực hoàn toàn mới đối với em nhưng

nhờ có sự hướng dẫn và góp ý của thầy, em đã giải quyết được những vấn đề và khó

khăn để hoàn thiện được đồ án này Toàn bộ quá trình làm việc với thầy đã giúp em có

thể những kinh nghiệm và kiến thức quý báu trong lĩnh vực mới đối với bản thân em.

Em cũng xin được gửi lời cảm ơn tới các thầy cô trong Học viện và trong Khoa Công

nghệ thông tin | đã dạy bảo và truyền đạt những kiến thức, kinh nghiệm quý giá trong suốt 4 năm qua.

Đồng thời em cũng muốn gửi lời cảm ơn tới bố mẹ và chị đã luôn ủng hộ em với những quyết định của mình Sự tin tưởng và tính yêu từ gia đình chính là động lực lớn

lao nhất đối với em để vượt qua những khó khan và trở ngại.

Em cũng xin gửi lời cảm ơn tới những người bạn đã quan tâm và giúp đỡ em trong

suốt quá trình học tập và làm đồ án Nhờ có các bạn mà quãng đời sinh viên của em đã

trở thành quãng thời gian đáng nhớ và học hỏi được nhiều điều.

Hà Nội, tháng 01 năm 2022

Sinh viên

Nguyễn Hoàng Khôi

Trang 4

(Của giảng viên hướng dẫngiảng hướng dân)

ÔÔÔÔÔÔÔỒÔỒÔỒÔỐỐCỐ ÔÔÔÔÔỒỐỒỐ

Trang 5

(Của giảng viên phan biệngiảng phản biện)

CÁN BỘ - GIẢNG VIÊN PHẢN BIỆN

NGUYỄN HOÀNG KHÔI - B17DCCN350 3

Trang 6

NHAN XET, DANH GIA, CHO DIEM 1

NHAN XET, DANH GIA, CHO DIEM 3

1.1 Bài toán nhận điện COVID-19 thông qua tiếng ho 3

1.2 Học sâu (Deep Learning) 4 1.2.1 Khái niệm 4 1.2.2 Mạng nơ ron tích chập 4

1.2.3 Mang no ron truy hồi (Recurrent Neural Network - RNN) 121.3 Một số nghiên cứu liên quan 13

1.3.1 Nhận điện COVID-19 thông qua ảnh chụp X-quang phổi 131.3.2 Phân loại tiếng ho nhận diện COVID-19 bang các thuật toán phan loại

tuyên tính 13

1.4 Đặc trưng Mel 13

1.5 Kết luận 18CHƯƠNG II MẠNG HỌC SAU PHAN LOẠI COVID-19 DUA TREN ĐA DU’

LIỆU ĐẦU VÀO 19

2.1 Kiến trúc mạng kết hợp đề xuất 19

2.2 Dữ liệu tuần tự MFCC và kiến trúc mạng CNN-BiLSTM 19

2.2.1 Dữ liệu tuần tự MFCC 192.2.2 Kiến trúc mạng CNN-BiLSTM 20

2.3 Dữ liệu ảnh MFCC và kiến trúc mạng ResNet50 24

2.3.1 Dữ liệu ảnh MFCC 24

2.3.2 Kiến trúc mạng đề xuất dựa trên mạng ResNet50 25

NGUYỄN HOÀNG KHÔI - B17DCCN350 4

Trang 7

2.4.1 Dữ liệu đặc điểm lâm sàng 292.4.2 Kiến trúc mạng đề xuất 292.5 Kết luận 29

CHƯƠNG III THU NGHIEM VÀ ĐÁNH GIÁ 30

3.1 Bộ đữ liệu sử dụng 30 3.2 Kịch bản thử nghiệm 32

3.1.1 Tiền xử lý đữ liệu 33

3.1.2 Trích chọn, lưu trữ đặc trưng 35

3.1.3 Huấn luyện và đánh giá mô hình phân loại 363.3 Cài đặt huấn luyện 373.3.1 Huấn luyện và đánh giá mô hình phân loại 37

3.3.2 Cài đặt trích chọn đặc trưng 38

3.3.3 Cài đặt mô hình phân loại 38

3.3.4 Cài đặt huấn luyện mô hình 403.4 Đánh giá kết quả thu được 41

3.4.1 Kết quả thu được trong quá trình huấn luyện 41

3.4.2 Kết quả thu được trên bộ dỡ liệu kiểm tra 42

3.4.3 Đánh giá kết quả thu được 42

3.5 Kết luận 43

CHƯƠNG IV CÀI ĐẶT UNG DUNG VA THU NGHIEM 44

4.1 Môi trường cai đặt ứng dụng 44

4.2 Xây dựng hệ thống 44

4.3 Chương trình phân loại COVID-19 45

4.4 Kết luận 46KẾT LUẬN 47TÀI LIỆU THAM KHẢO 48

NGUYỄN HOÀNG KHÔI - B17DCCN350 5

Trang 8

Hình 1: Kiến trúc tổng quan của mang no ron nhân tạo 2-25 5 s+cz+s+2 5Hình 2: Một số hàm kích hoạt thường được sử dụng [20] - 2 s52 6Hình 3: Đầu vào dang lưới của mạng CNN -5¿©52+222EE2EEtzEtZEEExerkerreree 7Hình 4: Ví dụ bản đồ kích hoạt tương ứng với vùng 5x5 5 s2 §Hình 5: Ví dụ tương ứng một vùng 2x2 trên bản đồ đặc trưng với một đơn vị ở lớp

"— ă 10 Hình 6: Ví dụ hoạt động ở lớp gộp với bộ lọc 2x2 và hàm cực đại - 10

Hình 7: Vi dụ đầu ra của lớp gdp với đầu vào là bản đồ đặc trưng 24x24x3 I1Hình 8: Kiến trúc tong quát của mạng no ron truy hồi - 2 5z: 12Hình 9: Mô hình chuỗi của mang nơ ron truy hồi - ¿5c s+s2£++£z+£zzxee: 12

Hình 10: Quá trình tính toán đặc trưng Mel ¿5-5 2c ‡ + ‡+*vssvxseresesses 14

Hình 11: Ảnh quang phổ tần số Mel 2-2 2 E+2E+2E£+E+2EE£EE£EEerErEezreerxee 16

Hình 12: Băng lọc ÌMell c1 1112111121112 111911118111 811110111 g1 1H vn ky 17 Hình 13: Kiến trúc mạng kết hợp dé xuất - - 2-2 2 +xeEE£EE+E2EzEerxerkerxee 19

Hình 14: Dữ liệu MFCC ở dang tuần tự -¿- 2 s+2E+2E2E2EE2EEEEEerkerrrreerree 20

Hình 15: Dữ liệu MFCC ở dạng TÚt BỌN c5 2222133231 332+E+reerereerees 20

Hình 16: Kiến trúc cơ bản của mạng BiLSTM [24] - ¿©2522 s+zsrszse2 23Hình 17: Kiến trúc mạng CNN-BiLSTM đề xuất -:-2-©5z+csz2zzscscee 24Hình 18: Ảnh phổ công suất ngắn hạn MECC 2 2 2 s+tx+£++E++Ezxerxez 25Hình 19: Khối phần dư với đầu vào x và đầu ra F(X) + x -cc+cc+cssccee 25Hình 20: Các loại mạng ResNet và cấu trúc từng mang [§] - - 26Hình 21: Các khối trong kiến trúc mạng ResNet50 [25] - 2 25255: 26Hình 22: Kiến trúc mạng đề xuất cho dif liệu ảnh MECC - 5+: 28Hình 23: Kiến trúc mạng cho dir liệu đặc điểm lâm SANG cào sec 29Hình 24: Phân bồ bộ đữ liệu theo ĐIỚI fÍnh - c2 t1 2 12 1911 Ererresvee 31Hình 25: Phân bổ bộ đữ liệu theo quốc gia -:©22-©5¿22++2z+2£xzzzszscee 31Hình 26: Phân bổ bộ dữ liệu theo nhãn : :255c22vv2cvvvrsrxvvrsrrrred 32

Hình 27: File csv chứa siêu dữ liệu (metadata) của bộ dữ liệu Coswara 34

Hình 28: Kết quả của siêu dit liệu (metadata) được sử dụng trong đồ án 35Hình 29: Dữ liệu tuần tự MECC -.-:- 255: 2v xi 35

NGUYỄN HOÀNG KHÔI - B17DCCN350 6

Trang 9

Hình 31: Giá trị mat mát trên bộ đữ liệu huấn luyện và xác minh trong quá trìnhhuấn luyện - ¿+ SsSE2E12E2EEE1EE121121121111111111211 1111111111111 11012211111 Errey 41

Hình 32: Giá trị độ chính xác trên bộ đữ liệu huấn luyện và xác minh trong quá trình

huấn luyện - ¿52 S1S1EE9EE2E12112115117112112112111111111111121111 1111111111 rre 42

Hình 33: Biểu đồ use case của ứng dụng - 2+ ++22++cx+2zxrzxerxrzrrerkree 44Hình 34: Kiến trúc hệ thống ¿- 2 2 2+E£EEEEEEEE2E12E121712121121171 2121 xe, 45

Hình 35: Giao diện ứng dụng nhận diện COVIID-19 2c S25 Scs+xssxssrses 45

Hình 36: Ứng dụng hiển thị kết quả dự đoán -2-©5¿©2++2s++cxzzxsrscee 46

NGUYỄN HOÀNG KHÔI - B17DCCN350 7

Trang 10

Bang 1: Kiến trúc chi tiết mạng CNN-BiLSTM sử dụng 25-552 24

Bang 2: Kiến trúc mạng ResNet50 -¿- 2 Ss2t 2 2E1221271 211211211211 11x 27

Bang 3: Môi trường cài đặt huấn luyện mô hình 2 2 2 s+s+zz+zzzzzxe£ 37Bang 4: Confusion matrix cho mô hình huấn luyện tiếng ho trên bộ dit liệu kiểm tra

¬ 42

Bảng 5: Kết qua thử nghiệm trên bộ dit liệu kiểm tra -2- 5¿555++: 42

Bang 6: Môi trường cài đặt ứng dụng c6 Sàn HH ng ng 44

NGUYỄN HOÀNG KHÔI - B17DCCN350 8

Trang 11

API: Application Programming Interface | Giao diện lập trình ứng dụng

CNN: Convolutional Neural Network Mang no ron tich chap

LSTM: Long Short-Term Memory Mang bộ nhớ dai ngắn hạn

BiLSTM: Bidirectional Long Short-Term

Memory Mang bộ nhớ dài ngăn hạn hai chiêu

MECC: Mel-Frequency Cepstral

Bộ tham số cepstrum tần số mel

Coefficents Ì P

DFT: Discrete Fourier Transform Bién doi Fourier roi rac

FFT: Fast Fourier Transform Biến đổi Fourier nhanh

ANN: Artificial Neural Network Mang no ron nhân tạo

ReLU: Rectified linear unit Ham nan tuyén tinh

NGUYEN HOANG KHOI - B17DCCN350 9

Trang 12

Kể từ cuối năm 2019 cho đến thời điểm hiện tai, chúng ta dang phải đối mat với dai

dich COVID-19 (SARS-CoV2) - một căn bệnh vô cùng phức tạp với tinh lây lan nhanh

và nhiều biến thể khác nhau Người nhiễm bệnh thường gặp các triệu chứng lâm sàngnhư sốt, ho, mệt mỏi, mất vị giác hoặc khứu giác Ngoài ra, người bệnh còn có thể gặpcác triệu chứng it phổ biến hơn như tiêu chảy, đau đầu, đau nhức cơ, đau họng, da nồiman hay ngón tay hoặc ngón chân bị tay đỏ hoặc tim tái, mắt đỏ hoặc ngứa Thôngthường, các triệu chứng này có thé xuất hiện sau 5-6 ngày ủ bệnh hoặc có thê lên tới 14ngày Tuy nhiên, sau khi xuất hiện các biến thé của virus SARS-CoV2, thời gian ủ bệnh

và các triệu chứng lâm sàng cũng dần trở nên phức tạp hơn và khó kiểm soát và phát

hiện kịp thời.

Do dịch bệnh bùng né và lây lan nhanh chóng, y học thế giới cũng phải mat rất nhiều

thời gian dé sản xuất ra các bộ kit xét nghiệm nhanh COVID-19 Trong vòng nửa đầu

năm 2020, các bộ kit xét nghiệm nhanh này phải mat tới 24 giờ mới cho ra kết quả Điều

này cũng làm ảnh hưởng nhiều đến khả năng phát hiện bệnh sớm và khoanh vùng nhữngngười có nguy cơ nhiễm bệnh Hơn nữa, công nghệ xét nghiệm nhanh ban đầu cũngkhông được phổ biến rộng rãi ở các quốc gia đang phát triển và có nền y học còn lạchậu và đối với các quốc gia này, chi phí của các bộ kit xét nghiệm này cũng tương đối

cao Do vậy, nhiều nhóm nghiên cứu liên quan đến trí tuệ nhân tạo (AI) đã đưa ra cácgiải pháp có thé giúp nhận diện người nhiễm SARS-CoV2 thông qua tiếng ho Các giải

pháp này được đưa ra dé giúp việc phát hiện các ca nhiễm SARS-Co V2 không còn phụthuộc hoàn toàn vào chuyên môn y tế đồng thời cho ra kết quả tương đương như xét

nghiệm thông thường.

Kết quả của các giải pháp nhận điện COVID-19 thông qua tiếng ho phụ thuộc rất

nhiều vào mức độ “sạch” của tập dữ liệu tiếng ho được sử dụng Dữ liệu tiếng ho được

đưa vào mạng học sâu (deep neural network) phải được làm sạch, dán nhãn chính xác

và không tôn tại các dit liệu ngoại lai (outlier) chang hạn như các file không chứa tiếng

ho Ngoài chất lượng của dữ liệu tiếng ho, chúng ta cũng cần phải áp dụng thuật toánphù hợp để trích lọc các đặc trưng từ tiếng ho và đưa vào các mạng học sâu (deep neuralnetwork) Sau đó việc nhận diện được thực hiện bằng cách sử dụng các thuật toán phânloại dé cho ra kết quả tiếng ho có phải của một người dương tính với COVID-19 hay

Cấu trúc đồ án sẽ gồm 4 phần Chương | sẽ trình bày về bài toán nhận diện

COVID-19, kiến thức chung về học sâu, các nghiên cứu có liên quan và các đặc trưng thường

NGUYỄN HOÀNG KHÔI - B17DCCN350 1

Trang 13

được đề xuất dé giải quyết bài toán phân loại COVID-19 Chương 3 sẽ trình bày về kịch

bản thử nghiệm, chỉ tiết cài đặt, kết quả thu được, đánh giá kết quả đó Chương 4 mô tả

về chương trình ứng dụng mô hình phân loại thu được

Các nghiên cứu thử nghiệm và các cai đặt liên quan ma đồ án thực hiện được lưu

trên github theo đường dẫn: https://github.com/nhkhoi22/covid_classificataion.

NGUYỄN HOÀNG KHÔI - B17DCCN350 2

Trang 14

Trong chương 1, đồ án sẽ trình bày về bài toán nhận diện COVID-19 thông qua tiếng

ho, lý thuyết chung về học sâu, một số các giải pháp và các nghiên cứu có liên quan và

các đặc trưng thường được sử dụng trong bai toán nay

1.1 Bài toán nhận diện COVID-19 thông qua tiếng ho

Vào tháng 12 năm 2019, thế giới đã ghi nhận những ca mắc COVID-19 đầu tiên tại

Vũ Hán, Trung Quốc Chỉ trong vòng 3 tháng sau đó, dịch bệnh đã dần bùng phát trêntoàn thế ĐIỚI VỚI tốc độ vô cùng nhanh chóng Trước sự bùng nô của dịch bệnh, cáctrung tâm y tế ban đầu cũng đã mat rất nhiều thời gian dé đưa ra các phương pháp xétnghiệm nhằm phát hiện ra người nhiễm COVID-19 Vào đầu năm 2020, số lượng các

bộ kit xét nghiệm COVID-19 vẫn còn rất khan hiếm và chưa đáp ứng được với tình hìnhdịch bệnh phức tạp trên thế giới Điều này xảy ra ngay cả với các đất nước phát triểnnhư Mỹ, Anh, Pháp Hơn nữa, công nghệ xét nghiệm CO VID-19 lúc này vẫn còn nhiềuđiểm hạn chế Việc lay mẫu xét nghiệm từ người nghi nhiễm phải được thực hiện trựctiếp bởi các nhân viên y tế Do đó, việc xét nghiệm phải được thực hiện tập trung ở các

cơ sở y tế và làm tăng nguy cơ bệnh dịch lây nhiễm trong quá trình đợi xét nghiệm Sau

đó các mẫu xét nghiệm phải được phân tích trong phòng thí nghiệm hàng giờ đồng hồ

để xác định các đặc điểm, mã gen nhằm cho ra kết quả có Dương tính với COVID-19hay không Do tính phức tạp của quy trình xét nghiệm, chúng ta phải đợi ít nhất là 1ngày mới nhận được kết quả Những vấn đề này chỉ được khắc phục khi các bộ xétnghiệm COVID tại nhà được sản xuất rộng rãi vào tháng 6 năm 2020

Trong thời đại công nghệ 4.0 ngày nay, trước những khó khăn trong quá trình xét

nghiệm COVID-19, yêu cầu xây dựng các giải pháp công nghệ cho phép tự động nhận

diện người nhiễm SARs-Co V2 cũng dan trở nên cấp thiết hơn bao giờ hết Trong số các

giải pháp được đưa ra, giải pháp nhận điện COVID-19 thông qua tiếng ho cũng đã được

nghiên cứu rộng rãi và cho ra kết quả khả quan Ho là một trong những triệu chứng phổ

biến đối với các căn bệnh liên quan đến đường hô hấp như cảm cúm, hen suyễn, lao,

viêm phổi và cũng là một trong những triệu chứng lâm sàng điển hình đối với cácbệnh nhân nhiễm COVID-19.

Vi vậy, tiếng ho là yếu tổ phù hợp được lựa chon dé phân tích đặc điểm và được sửdụng phô biến trong chân đoán mang tính chuyên môn y tế Trong lĩnh vực công nghệ,

tiếng ho cũng được sử dung trong các bài toán chan đoán các bệnh hô hấp như hen

suyén, viêm phôi Với các công nghệ xử lý âm thanh và các hệ thống dựa trên tri thức,việc phân tích tiếng ho dé nhận diện COVID-19 là hoàn toàn khả thi và có thé làm giảm

sự phụ thuộc vào chuyên môn y tế trong việc phát hiện bệnh lý cũng như đưa ra kết quảmột cách nhanh chóng dựa trên những đặc tính sẵn có của tiếng ho

Quá trình phân loại nói chung cần phải trải qua các bước như sau: tiền xử lý dữ liệu,trích lọc các đặc trưng phù hợp trong dit liệu huấn luyện, đưa vào mạng học sâu phù hợp

NGUYỄN HOÀNG KHÔI - B17DCCN350 3

Trang 15

quả của việc phân loại Kết quả của bài toán phân loại tiếng ho dé nhận diện

COVID-19 gồm 2 lớp: âm tính và đương tính Giải pháp chính dé xử lý bài toán này dựa chủ yếutrên các phương pháp học sâu Đồ án sẽ trình bay cụ thể về học sâu trong mục 1.2 của

chương I.

1.2 Học sâu (Deep Learning)

1.2.1 Khái niệm

Học sâu (Deep Learning) là một chi của ngành máy hoc (Machine Learning) dựa

trên một tập hợp các thuật toán dé cố gắng mô hình đữ liệu trừu tượng hóa ở mức caobằng cách sử dụng nhiều lớp xử lý với cau trúc phức tạp, hoặc bằng cách khác bao gồmnhiều biến đổi phi tuyến Các nghiên cứu trong lĩnh vực này cố gang thực hiện các daidiện tốt hon và tạo ra các mô hình dé tìm hiểu các đại diện này từ dit liệu không dánnhãn quy mô lớn Một số đại diện được lay cảm hứng bởi những tiễn bộ trong khoa họcthần kinh và được dựa trên các giải thích của mô hình xử lý và truyền thông thông tintrong một hệ thống thần kinh, chang hạn như mã hóa thần kinh dé cố gang dé xác địnhcác mối quan hệ giữa các kích thích khác nhau và các phản ứng liên quan đến thần kinh

trong não.

1.2.2 Mạng nơ ron tích chập

a) Mạng nơ ron nhân tạo

Mang nơ ron nhân tạo (Artificial Neural Network) là một mô hình toán học hay mô

hình tính toán được xây dựng dựa trên các mạng nơ ron sinh học Nó gồm có một nhómcác nơ ron nhân tạo (nút) nối với nhau, và xử lý thông tin băng cách truyền theo các kếtnối và tính giá tri mới tai các Trong nhiều trường hợp, mạng nơ ron nhân tạo là một hệthống thích ứng tự thay đổi cấu trúc của mình dựa trên các thông tin bên ngoài hay bên

trong chảy qua mạng trong quá trình học.

Ban đầu, mạng nơ ron nhân tạo được lay ý tưởng từ cách hoạt động của não bộ con

người Bộ não con người bao gồm dày đặc các tế bào thần kinh kết nối với nhau và các

tế bào này còn được gọi là nơ ron thần kinh Các nơ ron này được kết nối với nhau thôngqua một xinap Tín hiệu được truyền giữa các nơ ron thông qua các phản ứng hoá-sinhphức tạp Các chất hoá học giải phóng từ xinap sẽ gây nên sự thay đổi điện thế trong

thân của tế bào và khi nó đạt đến một mức nào đó sẽ tạo nên xung điện truyền ra SỢI trục

của no ron, phát tán tới xinap, làm thay đôi hiệu điện thế tại đó Khi phản ứng lại với

các kích thích như vậy xuất hiện thường xuyên, no ron sẽ củng cô kết nối của nó tới các

nơ ron khác hoặc hình thanh các kết nối mới Mạng hoạt động dựa trên ý tưởng bắt

chước cách thức hoạt động từ bộ não con người Mạng nơ ron nhân tạo cũng hoạt động

dựa trên cách thức hoạt động từ bộ não con người Mạng sẽ gồm các đơn vị xử lý kết

nối với nhau, gọi là nơ ron Mỗi kết nối sẽ có trọng số riêng và đóng vai trò truyền tínhiệu giữa các nơ ron Mỗi nơ ron sẽ nhận một số tín hiệu đầu vào thông qua các kết nối

NGUYỄN HOÀNG KHÔI - B17DCCN350 4

Trang 16

ứng với các thay đôi từ dau vào và đưa ra kêt quả tot nhât ma không cân phải can thiệp

và thiệt kê lại các tiêu chuân dau ra.

Hình 1; Kiên trúc tong quan cua mang nơ ron nhân tạo

Kiến trúc mạng no ron nhân tạo thường bao gồm 3 kiểu tang là [20]:

- Tang nhận đâu vào: năm bên trái cùng của mạng, thê hiện cho các dau vào của

mạng.

- Tang ra: năm bên phải cùng của mạng va thê hiện đâu ra của mạng

- Tâng ân: năm giữa tâng vào và tâng ra và chứa các lớp ân quyêt định quá trinh

suy nghĩ logic của mạng.

Cu thé, mỗi no ron sinh tín hiệu ra bang cách tinh toán như sau: No ron tính tong cuatat cả tín hiệu vào, trừ di một giá trỊ ngưỡng dé thu được [20]:

Với: N là sô đâu vào của nơ ron, do đó xi là giá tri tín hiệu vào thứ 1, wi là trọng sô

tương ứng

6 là giá tri ngưỡng.

Đặt b = —O thì công thức sé là [20]:

b được gọi là độ lệch (bias).

NGUYỄN HOÀNG KHÔI - B17DCCN350 5

Trang 17

Một số hàm kích hoạt thường được sử dụng là các hàm chặn như hàm bước nhảy, hàmdấu, hàm sigmoid, hàm tuyến tính, v.v

Hàm bước nhảy Hàm dấu Hàm sigmoid Hàm tuyến tính

Hình 2: Một số hàm kích hoạt thường được sử dụng [20]

Các trọng số chính là cách mà mạng nơ ron đánh giá độ quan trọng của một tín hiệu

vào Mạng no ron tiễn hành học băng cách chỉnh sửa các trọng số sao cho mô phỏng độquan trọng của các tín hiệu vào sát với thực tế nhất Từ đó các thuật toán học của mạng

nơ ron thường bao gồm các bước: Khởi tạo trọng số, tính toán mức độ kích hoạt, cập

nhật trọng số (bao gồm cả độ lệch bias) và lặp lại các bước này cho đến khi có thể đánhgiá được là mạng đã hoạt động được theo mong muốn Chủ yếu điểm khác biệt là hàmkích hoạt, luật hoc, hay chính là cách cập nhật các trọng số và hàm mất mát (cost

function/loss function) Ví dụ thuật toán perceptron sử dụng hàm kích hoạt là hàm dau

và luật học như sau [20]:

w¡(p + 1) = w¡(p) + Awj(p)

Với Aw;(p) là độ chỉnh sửa trọng số, duoc tinh theo luật delta như sau [20]:

Aw¡(p) = a x x¡(p) x e(p)

Ở day, i tương ứng là số thứ tự của trọng sé, p là số vòng lap đang thực hiện, œ là tốc

độ học, e(p) là sai lệch so với đầu ra kỳ vọng, còn gọi là lỗi [20]:

e(p) = Ya(p) — Y(p)

Với Ya(p) là đầu ra kỳ vọng, Y(p) là đầu ra thực tế

Với thuật toán lan truyền ngược sử dụng hàm kích hoạt sigmoid, thì độ chỉnh sửa

trọng số Aw;x(p) lại duoc tính như sau [20]:

Awjx(p) = a x yj(p) x 8 (p)

NGUYEN HOANG KHOI - B17DCCN350 6

Trang 18

gradien lỗi tại nơ ron k, được tính như sau [20]:

ay,,(p)

OX, (p)

Ở đđy, e,(p) lă lỗi tai nơ ron k, công thức tinh vẫn như với perceptron, y„(p) lă đầu

8,(p) = —— x ex(p) = yy(p) x (1— y,(b)) x e(p)

ra tại no ron k nín được tinh bằng ham sigmoid Phương phâp tinh ¿(p) như công thức

được gọi lă phương phâp tính gradien lan truyền ngược (back-propagation) Thuật toân

năy lă công cụ chính sử dụng trong việc học của câc mạng nơ ron.

Hăm mất mât lă một câch để đânh gia VIỆC huấn luyện mạng nơ ron, được thực hiện

sau khi mạng sinh ra giâ trị đầu ra với một đữ liệu văo Mạng được gọi lă hội tụ khi hămnăy đạt được đến giâ trị đủ nhỏ, tức lă mạng đê tiệm cận với thực tế cần được mô phỏng

lại băng dữ liệu huấn luyện, vă thường việc huấn luyện sẽ dừng lại khi mạng hội tụ [20].Một số hăm mat mât thường được sử dụng lă tổng bình phương lỗi, trung bình bình

phương lỗi.

b) Mạng nơ ron tích chập

Mạng nơ ron tích chập lă mạng sử dụng tích chập trong ít nhất một lớp của mạng,

được gọi lă lớp tích chập Mạng nơ ron tích chập được sử dụng rất phô biến trong lĩnh

vực học sđu, thường được âp dụng trong câc băi toân phđn loại hình ảnh.

Ba thănh phần chính của mạng nơ ron tích chập bao gồm lớp nhđn chập

(Convolutional Layer), lớp gộp (Pooling Layer) vă lớp kết nối đầy đủ (Fully-connected

Layer) Đầu văo của mạng CNN sẽ lă đữ liệu dạng lưới, ví dụ như trong hình ảnh sẽ lăgiâ tri câc pixel được tô chức thănh câc ma trận hai chiều hoặc ba chiều

No ron dau văo

GODOOOODoooo öÔöööDöböGDDöbGG a

ooo oo006000Baooo00 ooooooooooooooo

O3OOODGOOOOCOODOOGOOöOGOOöGGOOböbGGO0000000000000000000000000000O3OOOOOOOOOOOODOOOOöOGOOOOOOöooœo3öữOOGOGDööGdODöGDöGööO0GööG0Göö0ö3öOOODOOOOOOGOODOOOOöOöGOOöOöOODoöoo0000000000000000000000600000OGOOOGDOGOOOOOODOGOOöOGOOöOGGODbGGO00000000000000000000000000003OOQGODOOGOOOGOGDOOGOOOGOOöGDODoGO öööoöööooboGobGoöooood 3öQOGOöOOOOOGOOöOOGOGOöOGOöOöobqo ielelelelelslelelelslelelelelelelelelelelel sls) jelelelelelelelelelelelelelelelelelelelelele)0000000000000000000000OGOOGODOOOOOOOOöOOGOOöObGGOööööoöööooöoGoööoöooöo 3öGGDGGOOOGOGDOGOOGOöOöGGOöoGĐöOöDöGODböodoböoöoböodooöd“djelelslelelelelelelelslelelelslelelelslelelels)ielelelelelelelelelelelelelelelelelelelelelslejelelelelelelelelelelslelelelelelelelelelelele) 0000000000000060000000000000OOOOGDOOOOOOOGDOOGöOGOöOGOöböGOö00000000000000000000000000003öOGDOGOOGOOOGDOOGGOöOGOGöOöGODöoöGöO3G2OOGOOOGOOOOOOOöGOOOOöGGOOöoö3öÐôOöOôOOôOOöOOôOöOöOôOöOöGOöồOöGöOôDöoöGOOGOODOOODOOGDOOOODOGDOODOOGDOGDOOGDoObGOG

Hình 3: Đầu văo dạng lưới của mang CNN

Lớp nhđn chập [22] bao gồm một nhóm câc bộ lọc có thể học được Kích thước bộ

lọc thường khâ nhỏ vă sẽ di chuyín khắp câc chiíu của mang dau vao vă thực hiện nhđnNGUYỄN HOĂNG KHÔI - B17DCCN350 7

Trang 19

hiện nhân chập, bộ lọc sẽ thu được một giá trị phản hồi và sau khi đã chạy hết các chiềucủa mảng đầu vào, các giá trị phản hồi sẽ được hợp lại thành một bản đồ kich hoạt(activation map), mỗi vị trí trên bản đồ tương ứng với một nơ ron Từ các bản đồ kíchhoạt, mạng nơ ron tích chập sẽ học các đặc trưng trên dữ liệu Mỗi bộ lọc sử dụng dénhận diện các đặc trưng khác nhau sẽ sinh ra một ban đồ kích hoạt khác nhau Một bộlọc thường có ba giá trị cơ bản là: trọng số, kích thước và bước nhảy Giả sử kích thướcđầu vào là (Hp, Wo, Co) với Co là số kênh K

No ron dau vào Bản đố kích hoạt

Hình 4: Ví dụ bản do kích hoạt tương ứng với vùng 5x5

Có thể hình dung mỗi nơ ron trong lớp nhân chập sẽ kết nối với một vùng nơ ronđầu vào, thay vì chỉ một nơ ron Vùng này được gọi là vùng tiếp nhận cục bộ, chiềungang và đọc của nó sẽ được xác định tùy ý nhưng chiều sâu, nếu có, sẽ bằng với chiềusâu của mảng đầu vào Bộ lọc đã nhắc ở trên sẽ có kích thước bằng với kích thước củavùng này Số lượng nơ ron trong lớp nhân chập sẽ phụ thuộc vào các thông số cài đặtsan là: độ sâu của dau ra, bước nhảy của vùng tiếp nhận và kích cỡ viền được thêm vào

Độ sâu tương ứng với sỐ lượng bộ lọc, tức là có bao nhiêu bộ lọc thì có bấy nhiêu độsâu Mỗi nhóm các nơ ron cùng quan sát một đặc trưng của dit liệu, tức là xuất phát từcùng một bản đồ đặc trưng của một bộ lọc, được gọi là một cột cùng độ sâu Bước nhảycủa vùng tiếp nhận là khoảng cách giữa mỗi lần di chuyền vùng này Vi dụ như với dit

liệu ảnh thì có thé là 1 hoặc 2 pixel Viền được thêm vào là các số 0 được chèn thêm

vào bao quanh dau ra dé điều chỉnh kích thước dau ra tùy ý, có thé là dé kích thước đầu

ra bang kích thước đầu vào Từ đó kích thước đầu ra của lớp, hay chính là bản đồ kíchhoạt, có thê được tính như sau [22]:

Trang 20

công thức trên với riêng chiều dài và chiều rộng)

F là kích thước vùng tiếp nhận cục bộ

P là kích thước viền thêm vào

S là độ dài bước nhảy

Việc chia sẻ hệ số giữa các nơ rơn cũng có thể được thực hiện đề kiểm soát số lượng

hệ số Ví dụ nêu lớp nhân chập có 55*55*96 = 290 400 nơ ron (với 96 là số bộ lọc), màmỗi no ron lại có 11*11*3 = 363 hệ số (11 là kích thước vùng tiếp nhận, 3 là độ sâu củaảnh) sẽ dẫn tới số lượng hệ số lên tới 105 705 600 Việc chia sẻ hệ số tức là trên mỗi cộtcùng độ sâu thì các nơ ron sẽ cùng sử dụng một bộ trọng số và bias Nếu thực hiện chia

Sẻ trọng số với ví dụ trên, số trọng SỐ SẼ giảm xuống còn 96 bộ trọng số khác nhau, tức

là 96*11*11*3 = 34 848, cộng thêm 96 bias là 34 944 hệ SỐ Trong ứng dụng thực tẾ,khi thực hiện lan truyền ngược, mỗi nơ ron sẽ tính gradien cho trọng số của mình, rồigradien của các nơ ron trên cùng độ sâu sẽ được cộng tổng lại và chỉ cập nhật một bộtrọng số duy nhất thống nhất trên toàn cột cùng độ sâu Khi các nơ ron cùng độ sâu cùng

sử dụng một bộ trọng số thì trong quá trình truyền xuôi qua lớp nhân chập, kết quả cóthê tính bằng tích chập của trọng số với đầu vào Vì thế nên lớp này có tên là lớp nhânchập và bộ trọng SỐ thường được gọi là bộ lọc

Lớp gộp là lớp thường được chèn vào giữa các lớp nhân chập, được sử dụng với mục

đích làm giảm kích thước của đầu vào, tức là bản đồ đặc trưng ở đầu ra của lớp nhânchập đứng trước nó, qua đó giúp làm giảm số lượng các hệ số và việc tính toán trong

mạng dé kiểm soát hiện tượng quá khớp (overfitting) [22] Lớp gdp sẽ hoạt động độc

lập giữa các độ sâu khác nhau của đầu vảo, tức là các bản đồ đặc trưng, để làm giảm

kích thước của chúng Việc gộp thường được thực hiện bởi hàm cực đại, tuy nhiên một

số hàm khác như hàm trung bình hay hàm L2-norm (ham lay căn bậc hai tông của bình

phương các giá tri) cũng được sử dụng Cách thực hiện gộp thường được sử dụng là

dùng bộ lọc kích thước 2x2 với bước nhảy là 2 và hàm cực đại chạy đọc cả chiều ngang

và doc của từng bản đồ đặc trưng, khiến cho kích thước của bản đồ sau khi qua lớp gộp

giảm một nửa Tại mỗi vị trí đặt bộ lọc sẽ thu được một giá trị cực đại của vùng 2x2

thuộc bản đồ đặc trưng nằm dưới bộ lọc, tương ứng với một don vi trong đầu ra của lớp

gop.

NGUYEN HOANG KHOI - B17DCCN350 9

Trang 21

Ban đồ dac trưng

Hình 6: Vi du hoạt động ở lớp gộp với bộ loc 2x2 va ham cực đại

Lớp gộp không sinh ra hệ số mới và thường không thực hiện chèn thêm với đầu vao.Kích thước đầu ra của lớp gộp phụ thuộc vào kích thước đầu vào, kích thước bộ lọc vàbước nhảy của bộ lọc Với đầu vào có kích thước W1 x HI x DI, bộ lọc kích thước F(bộ lọc vuông) và độ dai bước nhảy S thi đầu ra của lớp gộp sẽ có kích thước W2 x H2

Trang 22

28x28 nơ ron đầu vào 3x24x24 nơ ron lớp nhan chap

3x12x12 nơ ron lớp gop

để việc tính gradien hiệu quả hơn khi lan truyền ngược [22]

Việc thực hiện gộp có thé được coi như là một cách dé mạng kiểm tra xem một đặctrưng có xuất hiện ở vùng nào trong dit liệu không và bỏ qua vị trí xuất hiện cụ thé của

nó, chỉ lưu lại thông tin việc nó đã xuất hiện Việc này thực hiện theo quan điểm pháthiện đặc trưng cho dù nó ở vị trí nào [9] Tuy nhiên, không phải lúc nào quan điểm nàycũng đúng với mọi trường hợp đữ liệu, ví dụ như khi muốn tìm góc tạo bởi hai đườngthang giao nhau trong một bức ảnh thì cần phải biết vị trí cụ thé của chúng dé xem chúng

sẽ giao ở đâu [9] Theo Johnson et al [22], một 36 nghiên cứu đã đề xuất việc loại bỏlớp gop dé thu được cấu trúc mạng chỉ gồm các lớp nhân chập Dé van làm giảm được

kích thước các đặc trưng thu được, họ dé xuất sử dụng bước nhảy lớn hơn ở các lớp

nhân chập.

Theo Johnson et al [22], lớp kết nối đầy đủ cũng có thé sử dụng trong mạng CNNphục vụ mục đích như phân loại dữ liệu đầu vào của mạng Vì lớp kết nối đầy đủ có đầuvào chỉ có một chiều nên nếu lớp trước nó đưa ra đầu ra hai chiều hoặc ba chiều thi cầntiến hành làm phang (flatten) trước khi đưa kết quả đó vào lớp kết nối đầy đủ Dau racủa lớp kết nối đầy đủ sẽ có một chiều Với lớp kết nối đầy đủ dùng dé phân loại, kíchthước đầu ra sẽ bằng số lượng các lớp mà đữ liệu sẽ được phân vào Lớp kết nối đầy đủ

sử dụng trong mạng CNN không có gì khác so với ở mạng nơ ron thông thường, có thểcoi như là một mạng nơ ron khác kết nối với mạng CNN dang sử dụng Do đó lớp kếtnối day đủ có thé bao gồm nhiều lớp an sử dụng các hàm kích hoạt khác nhau Một trong

những phương pháp phân loại thường được sử dụng ở lớp này với mang CNN là sử dụng

hàm softmax, hàm mat mát sử dụng có thé là hàm entropy chéo

Cấu trúc của một mạng CNN có thể bao gồm nhiều lần lặp lại nhóm gồm lớp gộptheo sau bởi lớp nhân chập, cho tới một điểm sẽ chuyên sang lớp kết nối đầy đủ Lớpkết nối đầy đủ ở cuối đóng vai trò đưa ra kết quả, ví dụ như là phân loại đữ liệu đầu vàocủa mạng Kiến trúc phô biến của mang CNN có thé được mô tả như sau:

NGUYỄN HOÀNG KHÔI - B17DCCN350 11

Trang 23

Với x thé hiện việc lặp, N,M, K là số lần lặp, lớn hơn hoặc bằng 0, thường thì N <3,K < 3, POOL? là có thé có lớp gdp hoặc không.

1.2.3 Mạng nơ ron truy hồi (Recurrent Neural Network - RNN)

Trong lý thuyết về ngôn ngữ, ngữ nghĩa của một câu được tạo thành từ mối liên kếtcủa những từ trong câu theo một cấu trúc ngữ pháp Nếu xét từng từ một đứng riêng lẻ

ta không thé hiểu được nội dung của toàn bộ câu, nhưng dựa trên những từ xung quanh

ta có thể hiểu được trọn vẹn một câu nói Như vậy cần phải có một kiến trúc đặc biệthơn cho các mạng nơ ron biéu diễn ngôn ngữ nhằm mục đích liên kết các từ liền trướcvới các từ ở hiện tại để tạo ra mối liên hệ xâu chuỗi Mạng nơ ron truy hồi đã được thiết

đ)

kế đặc biệt để giải quyết yêu cầu này [22]:

Hình 8: Kiến trúc tổng quát của mạng nơ ron truy hồi [22]

Hình trên biểu diễn kiến trúc của một mạng no ron truy hỗồi Trong kiến trúc này

mạng nơ ron sử dụng một đầu vào là một véc tơ và trả ra đầu ra là một giá tri an Đầu

vào được đấu với một thân mạng nơ ron có tính chất truy hồi và thân này được đấu tới

đầu ra

Vòng lặp ở thân mang no ron là điểm mau chốt trong nguyên lý hoạt động của mạng

nơ ron truy hồi Đây là chuỗi sao chép nhiều lần của cùng một kiến trúc nhằm cho phép

các thành phần có thê kết nói liền mạch với nhau theo mô hình chuỗi Đầu ra của vòng

lặp trước chính là đầu vào của vòng lặp sau Nếu trải phẳng thân mạng nơ ron ta sẽ thu

được một mô hình dạng [22]:

2 ? 9$ $9 $

f£ ure-e

Hình 9: Mô hình chuỗi của mang no ron truy hồi [22]

NGUYỄN HOÀNG KHÔI - B17DCCN350 12

Trang 24

1.3 Một số nghiên cứu liên quan

Tính đến nay, nhiều cơ sở nghiên cứu đã đưa ra giải pháp áp dụng các phương pháp

học sâu dé nhận diện COVID-19 Các giải pháp đưa ra đều mang lại kết quả tích cựcsong cũng có những mặt hạn chế riêng

1.3.1 Nhận diện COVID-19 thông qua ảnh chụp X-quang phối

Ngoài nhận điện COVID-19 thông qua tiếng ho, các nhà nghiên cứu An Độ còn đưa

ra giải pháp nhận điện COVID-19 thông qua ảnh chụp X quang phổi [12] Tập dữ liệu

được sử dụng bao gồm 381 ảnh X quang được chia thành 3 lớp: đương tính COVID-19,viêm phổi và khỏe mạnh Dé xử lý dữ liệu ảnh chụp X quang phổi, giải pháp này déxuất trích xuất các đặc trưng dữ liệu băng các mạng CNN như VGG16, VGG19,

GoogleNet, ResNet Sau đó, đặc trưng được trích xuất được áp dụng thuật toán SVM

để phân loại các lớp Giải pháp này cũng mang lại những kết quả khả quan khi đạt độ

chính xác khoảng 90% với các kiến trúc mạng CNN khác nhau Tuy nhiên giải pháp đưa ra không đạt được tính thực tiễn cao do ảnh X quang không phải là đữ liệu dễ dàng

có được Vi vậy, dé phát triển giải pháp theo hướng mở rộng tập dit liệu sẽ gặp nhiều

khó khăn hơn Hơn nữa, việc áp dụng trong các ứng dụng thực tế sẽ gây bat tiện chongười dùng do việc phải có ảnh X quang phổi của mình

1.3.2 Phân loại tiếng ho nhận diện COVID-19 bằng các thuật toán phân loạituyến tính

Với bài toán nhận điện COVID-19 thông qua tiếng ho, hiện nay trên thế giới đã cónhiều giải pháp đạt được kết quả tương đối khả quan, trong đó có các giải pháp áp dụngcác thuật toán phân loại tuyến tinh từ các chuyên gia từ Bengaluru, An Độ [25] Tronggiải pháp này, từ một âm thanh tiếng ho, họ đã trích xuất ra 65 đặc trưng khác nhau baogồm RMS Energy, Power Spectral Density Sau khi áp dụng các kỹ thuật xếp hạng

như Giá trị thông tin (IV), Xác định giá trị thông tin quan trọng bằng Random Forest,

họ đã chọn ra được 15 đặc trưng quan trọng nhất Sau đó, 15 đặc trưng này sẽ được huấnluyện với ba thuật toán phân loại khác nhau là SVM, Hồi quy tuyến tính, Random Forest

Kết quả của các thuật toán phân loại đều đạt hiệu quả cao với độ chính xác từ 80% đến

85%, các giá trị Recall, Precision và F1 Score đều lớn hơn 70%

1.4 Đặc trưng Mel

Trong phần lớn các giải pháp giải quyết bài toán nhận điện COVID-19 hiện nay, đặctrưng Mel được sử dụng phổ biến nhất dé xử lý âm thanh tiếng ho Đặc trưng Mel cóthé được thé hiện ở nhiều dang như anh quang phô Mel (Mel-spectrogram), hệ số MFCCdạng tuần tự, dạng ảnh

NGUYỄN HOÀNG KHÔI - B17DCCN350 13

Trang 25

dụng trong các bai toán xử lý âm thanh và phân loại giọng nói Quá trình tính toán đặc

trưng mel cụ thé được mô tả bang sơ đồ như sau [3]:

Dé phục vụ cho việc trích lọc thông tin một cách chính xác từ dữ liệu âm thanh, đầu

tiên phương pháp trích lọc đặc trưng Mel sẽ khuếch đại các âm có tần số cao Dựa trênthực tế đặc điểm cấu tạo của thanh quản, các âm có tần số thấp sẽ mang mức năng lượng

cao và các âm có tần số cao sẽ mang mức năng lượng thấp hơn Vì vậy, mục đích của

bước này là làm cân băng lại tín hiệu phổ của âm thanh giọng nói trong miền tần số vàtriệt tiêu các đoạn biến thiên mạnh về mức năng lượng của âm thanh Đối với giọng nói,

âm thanh hầu có độ dốc khoảng -12dB trên một quãng tám Tín hiệu giọng nói này cóthé biến thiên +6dB trên một quãng tám khi phát ra từ môi người nói và giảm -6dB trênmột quãng tám so với âm thanh thật nếu được thu âm từ một chiếc micro từ một khoảngcách nhất định Do đó, khuếch đại âm tần số mức cao sẽ làm giảm di sự ảnh hưởng của

âm thanh hầu Công thức áp dụng trong bước này như sau [3]:

H(z) =1— bz"!

Giá trị b là giá trị thé hiện độ đốc của phương pháp lọc và thường mang giá trị 0.4

<=b<1.

b) Khung tin hiệu va trượt cửa số (Framing and Windowing)

Đề phân tích đữ liệu âm thanh trên miền tan số, âm thanh cần được đóng thành từng

khung ngắn với độ dài bằng nhau Do tín hiệu âm thanh là dạng tín hiệu ít biến thiêntheo thời gian và ồn định về đặc điểm âm học, việc phân tích âm thanh trên những khung

ngắn sẽ không bị thay đổi khi phân tích âm thanh trên các khung ngắn Kích thước cửa

số đóng khung thường được chon trong khoảng 20-25ms và dịch chuyển với bước nhảy

10ms trên toàn bộ dai âm thanh Như vậy, các khung âm thanh sẽ chồng lên nhau mộtkhoảng độ dài bằng bước nhảy của khung lấy mẫu Với tính chất chồng lên nhau củacác khung, mỗi đoạn âm thanh sẽ được căn giữa tương đối trên một khung, giúp tănghoà âm, làm mịn các biên độ và giảm ảnh hưởng của biên trong quá trình tính biến đồi

Fourier rời rac trên tín hiệu âm thanh Giá tri của độ dài cửa số và khoảng cách giữa mỗi

NGUYỄN HOÀNG KHÔI - B17DCCN350 14

Trang 26

Transform - STFT) sẽ áp dung ở bước c) DFT Công thức như sau [3]:

NUM samples — _

NUMprames = 1+ ƒ loor( lengthnop

Với: NUMframes là sô khung,

NUMsamples là sô mau của tín hiệu,

lengthwindow là độ dài của cửa sô, trong phạm vi đô án sử dụng độ dài là 25ms,

lengthnop là độ dai khoảng cách giữa mỗi lần đặt cửa số, trong phạm vi đồ án sử dụng

độ dài là 10 ms.

Đề làm giảm sự không liên tục khi chia tín hiệu âm thanh thành các khung, mỗikhung sẽ được nhân với một hàm cửa số Hai hàm cửa số thường được sử dụng là

Hamming và Hanning Cả hai đều làm giảm giá trị của mẫu tại đầu và cuối khung Nếu

không sử dụng bộ lọc cửa số nào thì có thé coi là sử dụng bộ lọc cửa số chữ nhật được

định nghĩa như sau [3]:

số của STFT sẽ sử dụng, tức là 25ms và các cửa số sẽ cách nhau 10ms [29] Hàm cửa

số Hanning có công thức như sau [3]:

05-05cos mt với0<n <L—1

vil= fo) =| „5 COS L VOL sns

0 voin còn lại

c) Biên đôi Fourier rời rac (Discrete Fourier Transform - DFT)

Với từng khung âm thanh, ta áp dụng biến đổi Fourier rời rac với công thức[3]:

X[k] = 6

n=0

Trong đó, N là tổng số khung thu được từ âm thanh

x[n] là tín hiệu âm thanh trên miền thời gian rời rạc

Phan code cai đặt biến đổi DFT tiến hành trên các file âm thanh khi tiền xử lý trong

phạm vi đồ án là theo phương pháp biến đổi Fourier nhanh (Fast Fourier Transform —

FFT) Biến đổi Fourier ở sử dụng độ dài cửa số là 25ms, tương đương 400 mẫu, độ dàikhoảng cách giữa mỗi lần đặt cửa số là 10ms, tương đương 160 mẫu (với tốc độ lây mẫu

là 16kHz) Do đó số điểm của FFT là 29, được tính theo công thức [3]:

NGUYỄN HOÀNG KHÔI - B17DCCN350 15

Trang 27

cei (MCengthinsampleswindow))

FFTyength =2 In(2)

Với: lengthInSampleswindow là độ dai của cửa số tính theo số mau

Sau khi áp dụng DFT như trên, độ lớn của tín hiệu âm thanh sẽ được tính va chuyên

cho bước tiếp theo

Sau khi áp dụng biến đôi Fourier rời rac đối với toàn bộ các khung từ 1 đến N, ta thuđược giá trị độ lớn (magnitude) tương ứng với tan số của từng khung Khi thé hiện cácgiá trị này ở dạng màu sắc, ta thu được một ảnh quang phô Mel của âm thanh (Mel

Spectrogram).

Vi tai người cảm nhận tốt những âm thanh ở tan số thấp thiếu nhạy cảm với những

âm thanh có tần số cao và mức độ cảm nhận cũng phi tuyến tính, ta cần áp dụng bộ lọcthông dai Mel dé chuyên từ tần số sang thang Mel Thang đo này là phép biến đổi logaritcủa tần số tín hiệu va được biéu diễn theo công thức [3]:

_ f

Trong đó m là giá trị ở thang do Mel, f là tần số tín hiệu Ngoai ra, công thức sau

cũng có thé được áp dụng đề chuyền đổi thang đo[3]

NGUYỄN HOÀNG KHÔI - B17DCCN350 16

Trang 28

m = 2595log (1 + Sy700

TTT] IITITTLI

0.9 0.8 0.7

Hình 12: Bang loc Mel

1 Tinh toán các điểm biên, tức là các điểm đầu và điểm cuối mà các bộ lọc

mel sẽ được đặt vào bằng công thức [3]:

Bn — ⁄)

N

Với : f[m] là điểm biên

N là số điểm của biến đổi FFT

F, là tan só lay mẫu tinh bằng Hz, trong phạm vi đồ án được chọn là 16kHz

2 oy P f

B' là bién đôi tan số từ mel sang Hz, tức là B-*(f) = 700(e@11zs — 1).

M là số bộ lọc mel, số bộ lọc thông thường trong khoảng từ 24 tới 40

2 Tính toán các điêm biên, tức là các diém đâu và diém cuôi mà các bộ lọc mel sẽ được đặt vào băng công thức [3]:

Bn — 4

NGUYEN HOANG KHOI - B17DCCN350 17

Trang 29

N là số điểm của biến đồi FFT.

F, là tan só lay mẫu tinh bang Hz, trong phạm vi đồ án được chọn là 16kHz

B' là biến đổi tần số từ mel sang Hz, tức là B~1(ƒ) = 700(e3i5 — 1).

M là số bộ lọc mel, số bộ lọc thông thường trong khoảng từ 24 tới 40

3 Áp dụng băng lọc mel có M bộ lọc được định nghĩa như sau [3]:

Với mỗi bộ lọc mel, áp dụng nó lên tín hiệu âm thanh và tính logarit tự nhiên kết quả

thu được: S[m] = log, ĐJ=4|X[k]|?H„„[k], nếu ở bước trước sử dụng bình phương độlớn phô (|X[k]|?) làm dau ra

Việc sử dụng logarit tự nhiên là để xấp xỉ cách tiếp nhận không tuyến tính của taingười về độ to và mật độ âm thanh và đề chuyên phép nhân về phép cộng, từ đó có thể

loại bỏ một số hiệu ứng làm biến đổi âm thanh đi kèm tín hiệu dưới dạng tích chập như

hiệu ứng lọc của micro.

e) Biến đổi côsin rời rac (Discrete Cosine Transform - DCT)

Công thức của biên đôi césin rời rac [3]:

Trong chương tiếp theo, đồ án sẽ trình bay chỉ tiết về giải pháp được đề xuất dé giải

quyết bai toán nhận diện COVID-19 thông qua tiếng ho, bao gồm các dữ liệu đầu vào

được sử dụng va mang học sâu dé phan loai tiéng ho

NGUYEN HOANG KHOI - B17DCCN350 18

Trang 30

DU LIEU DAU VAO2.1 Kiến trúc mang kết hop đề xuất

Đề có thể đạt được hiệu năng tốt nhất và đạt được kết quả huấn luyện tốt, đồ án đề

xuất một kiến trúc mạng có nhiều đầu vào tương ứng với nhiều đặc trưng được trích

xuất từ dir liệu tiếng ho Kiến trúc mạng kết hợp được đề xuất bao gồm ba đầu vào chínhlà: dữ liệu tuần tự MECC, dit liệu ảnh phố MFCC và các đặc điểm lâm sang chung liênquan Kiến trúc mạng kết hợp cũng được xây dựng bao gồm ba nhánh chính tương ứngvới ba đầu vào, mỗi nhánh được áp dụng các phương pháp học sâu khác nhau phù hợpvới đặc trưng của mỗi loại dữ liệu đầu vào

CNN-BLSTM nền tảng Mô hình đơn giản

ResNet50 dựa trên lớp FG

Concatenate

¥

Dense(64, activation="relu')

¥

Dense(64, activation="relu')

¥

Dense(1, activation='sigmoid')

output

Hình 13: Kiến trúc mạng kết hợp dé xuất2.2 Dữ liệu tuần tự MECC và kiến trúc mạng CNN-BiLSTM

Ngày đăng: 08/03/2024, 13:54

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
1. Keiron O'Shea, Ryan Nash, “An Introduction to Convolutional Neural Sách, tạp chí
Tiêu đề: An Introduction to Convolutional Neural
Tác giả: Keiron O'Shea, Ryan Nash
10. Prabira Kumar Sethy, Santi Kumari Behera, Pradyumna Kumar Ratha,Preesat Biswas, “Detection of coronavirus Disease (COVID-19) based on Deep Features and Support Vector Machine” (2020) Sách, tạp chí
Tiêu đề: Detection of coronavirus Disease (COVID-19) based on Deep Features and Support Vector Machine
Tác giả: Prabira Kumar Sethy, Santi Kumari Behera, Pradyumna Kumar Ratha, Preesat Biswas
Năm: 2020
15.Mohanad Alkhodari, Ahsan H. Khandoker, “Detection of COVID-19 in smartphone-based breathing recordings using CNN-BiLSTM: a pre-screening deep learning tool” Sách, tạp chí
Tiêu đề: Detection of COVID-19 in smartphone-based breathing recordings using CNN-BiLSTM: a pre-screening deep learning tool
Tác giả: Mohanad Alkhodari, Ahsan H. Khandoker
16. Meysam Effati, Yu-Chen Sun, Hani E. Naguib, Goldie Nejat, “Multimodal Detection of COVID-19 Symptoms using Deep Learning &amp; Probability-based Weighting of Modes” Sách, tạp chí
Tiêu đề: Multimodal Detection of COVID-19 Symptoms using Deep Learning & Probability-based Weighting of Modes
Tác giả: Meysam Effati, Yu-Chen Sun, Hani E. Naguib, Goldie Nejat
17. Rajendrani Mukherjee, Aurghyadip Kundu, Indrajit Mukherjee, Deepak Gupta, Prayag Tiwari, Ashish Khanna, Mohammad Shorfuzzaman, “loT- clod based healthcare model for COVID-19 detection: an enhanced k-Nearest Neighbor classifier based approach” Sách, tạp chí
Tiêu đề: loT-clod based healthcare model for COVID-19 detection: an enhanced k-Nearest Neighbor classifier based approach
18. Geetanjali Tathee, Sahil Garg, Georges Kaddoum, Yulei wu, Yushantha Nalin K. Jayakody, Tif Alamri, “ANN Assisted-IoT Enabled COVID-19 Patient Monitoring”.Danh muc cac website tham khao Sách, tạp chí
Tiêu đề: ANN Assisted-IoT Enabled COVID-19 Patient Monitoring
Tác giả: Geetanjali Tathee, Sahil Garg, Georges Kaddoum, Yulei wu, Yushantha Nalin K. Jayakody, Tif Alamri
11. Jayavrinda Vrindavanam, Raghunandan Srinath, Raghunandan Srinath, Raghunandan Srinath, “Machine Learning Based COVID-19 Cough Khác
14. Madhurananda Pahar, Marisa Klopper, Robin Warren, and Thomas Niesler Khác

HÌNH ẢNH LIÊN QUAN

Hình 2: Một số hàm kích hoạt thường được sử dụng [20] - Phân loại tiếng ho nhận diện covid-19
Hình 2 Một số hàm kích hoạt thường được sử dụng [20] (Trang 17)
Hình 3: Đầu vào dạng lưới của mang CNN - Phân loại tiếng ho nhận diện covid-19
Hình 3 Đầu vào dạng lưới của mang CNN (Trang 18)
Hình 4: Ví dụ bản do kích hoạt tương ứng với vùng 5x5 - Phân loại tiếng ho nhận diện covid-19
Hình 4 Ví dụ bản do kích hoạt tương ứng với vùng 5x5 (Trang 19)
Hình 5: Vi du tương ứng một vùng 2x2 trên bản đô đặc trưng với một don vi ở lớp gộp - Phân loại tiếng ho nhận diện covid-19
Hình 5 Vi du tương ứng một vùng 2x2 trên bản đô đặc trưng với một don vi ở lớp gộp (Trang 21)
Hình 6: Vi du hoạt động ở lớp gộp với bộ loc 2x2 va ham cực đại - Phân loại tiếng ho nhận diện covid-19
Hình 6 Vi du hoạt động ở lớp gộp với bộ loc 2x2 va ham cực đại (Trang 21)
Hình 7: Vi dụ dau ra của lớp gộp với dau vào là bản do đặc trưng 24x24x3 - Phân loại tiếng ho nhận diện covid-19
Hình 7 Vi dụ dau ra của lớp gộp với dau vào là bản do đặc trưng 24x24x3 (Trang 22)
Hình trên biểu diễn kiến trúc của một mạng no ron truy hỗồi. Trong kiến trúc này - Phân loại tiếng ho nhận diện covid-19
Hình tr ên biểu diễn kiến trúc của một mạng no ron truy hỗồi. Trong kiến trúc này (Trang 23)
Hình 8: Kiến trúc tổng quát của mạng nơ ron truy hồi [22] - Phân loại tiếng ho nhận diện covid-19
Hình 8 Kiến trúc tổng quát của mạng nơ ron truy hồi [22] (Trang 23)
Hình 10: Quả trình tính toán đặc trưng Mel a) Tăng cường độ âm tan sô mức cao (Pre-emphasis) - Phân loại tiếng ho nhận diện covid-19
Hình 10 Quả trình tính toán đặc trưng Mel a) Tăng cường độ âm tan sô mức cao (Pre-emphasis) (Trang 25)
Hình 12: Bang loc Mel - Phân loại tiếng ho nhận diện covid-19
Hình 12 Bang loc Mel (Trang 28)
Hình 13: Kiến trúc mạng kết hợp dé xuất 2.2. Dữ liệu tuần tự MECC và kiến trúc mạng CNN-BiLSTM - Phân loại tiếng ho nhận diện covid-19
Hình 13 Kiến trúc mạng kết hợp dé xuất 2.2. Dữ liệu tuần tự MECC và kiến trúc mạng CNN-BiLSTM (Trang 30)
Hình 16: Kiến trúc cơ bản của mạng BiLSTM [24] - Phân loại tiếng ho nhận diện covid-19
Hình 16 Kiến trúc cơ bản của mạng BiLSTM [24] (Trang 34)
Hình 17: Kiến trúc mang CNN-BiLSTM dé xuất - Phân loại tiếng ho nhận diện covid-19
Hình 17 Kiến trúc mang CNN-BiLSTM dé xuất (Trang 35)
Bảng 1: Kiến trúc chi tiết mạng CNN-BiLSTM sử dụng 2.3. Dữ liệu ảnh MFCC và kiến trúc mạng ResNet50 - Phân loại tiếng ho nhận diện covid-19
Bảng 1 Kiến trúc chi tiết mạng CNN-BiLSTM sử dụng 2.3. Dữ liệu ảnh MFCC và kiến trúc mạng ResNet50 (Trang 35)
Hình 19: Khối phan dư với dau vào x va dau ra F(x) + x - Phân loại tiếng ho nhận diện covid-19
Hình 19 Khối phan dư với dau vào x va dau ra F(x) + x (Trang 36)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN