TỔNG QUAN VỀ BÀI TOÁN PHÂN LOẠI HO
Bệnh lý ho và một số ứng dụng học máy trong phân loại ho
1.1.1 Tổng quan về bệnh lý ho
Ho là triệu chứng phổ biến nhất của các bệnh về đường hô hấp Ho là một cơ chế bảo vệ của cơ thể ngăn không cho đường hô hấp vô tình hít phải các chất lạ hoặc dịch tạo ra bên trong do viêm nhiễm Dựa trên nhận thức về sự hiện diện của âm thanh liên quan đến dịch tiết (chất lỏng như chất nhầy, mủ) trong đường thở, ho được phân thành hai loại là ho có ướt và ho khan Bằng cách xem xét chất lượng âm thanh của ho, đặc trưng của ho ướt là âm thanh mang các đặc điểm có chất nhầy bên trong Trong trường hợp hợp ngược lại, không có độ ẩm có thể cảm nhận được thì nó là ho khô, rát, khan Những thay đổi về đặc tính của tiếng ho có thể phản ánh tình trạng bệnh lý ở phổi Các tình huống bệnh lý phát sinh do một số điều kiện như tắc nghẽn, hạn chế và các kiểu kết hợp Ho được định nghĩa trong y khoa như việc tống khí dữ dội ra khỏi phổi một cách phức tạp với ba giai đoạn: đầu tiên là sự hít vào khởi đầu (giai đoạn hít vào), tiếp theo đóng thanh môn và cố gắng thở ra (giai đoạn nén), cuối cùng là mở thanh môn và hét mạnh (giai đoạn tống xuất).
Trên thực tế, các bệnh phổi là nguyên nhân gây tử vong lớn thứ ba trên thế giới Phòng ngừa, chẩn đoán và điều trị sớm được coi là yếu tố then chốt để hạn chế tác động tiêu cực của căn bệnh này.
Các bệnh về đường hô hấp rất phổ biến, trong đó ho là triệu chứng điển hình các các bệnh như hen suyễn và bệnh phổi tắc nghẽn mãn tính (COPD) [5] Gần đây, sự bùng nổ của đại dịch do virus Covid-19 với các triệu chứng điển hình như: sốt cao, rát họng, ho, đau đầu, sổ mũi… đã được xem là đại dịch toàn cầu, tính đến thời điểm viết đề án trên thế giới hiện có 766.895.075 ca nhiễm, 6.935.889 ca tử vong
[24] trên toàn thế giới Ngoài ra, ho cũng là một trong những triệu chứng chủ yếu của hơn 100 loại bệnh khác nhau, tác động của nó đối với hệ hô hấp được đánh giá là khác nhau Một số nghiên cứu chỉ ra rằng các bệnh liên quan đến phổi có thể khiến đường hô hấp bị tắc nghẽn, điều này ảnh hưởng đến âm thanh và cường độ của tiếng ho[6] Một số nghiên cứu cũng chỉ ra rằng sợi thần kinh thanh môn khi hoạt động khác nhau có thể phân loại được các bệnh lý ho như: ho do lao, hen suyễn, viêm phế quản,…Vấn đề của sự phát triển mạnh của các bệnh về đường hô hấp là do thiếu các phương pháp chẩn đoán hiệu quả, chi phí cao, không có phòng thí nghiệm để chẩn đoán sớm Việc đo khí dung là quy trình xét nghiệm lâm sàng tiêu chuẩn để phát hiện các vấn đề về hô hấp, nhưng nó đòi hỏi phải lặp đi lặp lại, đồng thời chi phí đắt đỏ và không có sẵn tại các bệnh viện tuyến dưới.
Tự động phát hiện tiếng ho trong bản ghi âm thanh thực tế của bệnh nhân có ý nghĩa rất lớn để chẩn đoán và theo dõi các bệnh đường hô hấp Các công trình trên thế giới đã chỉ ra, nó có thể là một chỉ số quan trọng được các bác sỹ sử dụng để chẩn đoán lâm sàng và theo dõi sức khoẻ của hơn 100 bệnh đường hô hấp, ví dụ: bệnh lao, bệnh hen suyễn và ho gà Để phát hiện tiếng ho cần có các thiết bị thu thập âm thanh và phần mềm phân tích xử lý Có rất nhiều công trình nghiên cứu đã tìm hiểu và phát hiện ra các mô hình học máy có khả năng phát hiện tiếng ho trong bản ghi âm.
1.1.2 Các ứng dụng học sâu cho phân loại ho
Trong những năm gần đây, các thuật toán học máy đã chứng minh tính hiệu quả của chúng trong việc hỗ trợ các hệ thống chăm sóc sức khỏe, đặc biệt là trong lĩnh vực phát hiện bệnh từ âm thanh ho Đã có rất nhiều nghiên cứu tận dụng các mô hình học máy để phát hiện tiếng ho, với sự tập trung vào phát triển các hệ thống phân loại và nhận dạng tiếng ho.
Trong những tiến bộ của học sâu, các phương pháp phân loại dựa trên mạng lưới thần kinh sâu đã được đề xuất để phát hiện và chẩn đoán các bệnh về đường hô hấp từ phổi và tiếng ho, mang lại những kết quả đầy hứa hẹn Các phương pháp này đã chứng minh được khả năng phát hiện các bệnh đường hô hấp từ tiếng ho với độ chính xác cao, giúp cho việc chẩn đoán bệnh và điều trị trở nên hiệu quả hơn Bên cạnh đó, sự phát triển của học máy và học sâu cũng mở ra nhiều tiềm năng cho việc ứng dụng các thuật toán học máy trong phân tích âm thanh và chẩn đoán bệnh khác trong lĩnh vực chăm sóc sức khỏe
Các nghiên cứu gần đây về việc ứng dụng phân loại âm thanh hô hấp để chẩn đoán bệnh Covid-19 đã nhận được sự quan tâm của nhiều nhà khoa học Các mô hình dựa trên phương pháp học sâu triển khai vào thế giới thực để xác định bệnh Covid-19 từ các âm thanh phát ra từ hệ hô hấp như âm thanh hơi thở, âm thanh ho và giọng nói Trong nghiên cứu của mình Kranthi Kumar Lella và Alphonse Pja
[12] đã triển khai mạng thần kinh tích chập sâu (DCNN) đa kênh để chẩn đoán tự động bệnh Covid-19 từ âm thanh hô hấp của con người Bằng cách áp dụng đa kênh đa tính năng như bộ mã hoá khử nhiễu tự động (DAE), hệ số Cepstral trên tần số Gamma (GFCC) và hệ số Cepstral tần số Mel cải tiến (IMFCC) trên dữ liệu tăng cường để trích xuất các tính năng sâu cho đầu vào của CNN Trong nghiên cứu này, mô hình DCNN được triển khai để chẩn đoán các bệnh như Covid-19, hen suyễn, ho gà, viêm phế quản bằng cách áp dụng đa kênh để trích xuất các đặc điểm sâu của tín hiệu âm thanh hô hấp thay vì sử dụng các phương pháp truyền thống và cho độ chính xác cao hơn khoảng 7% Kết quả của phương pháp khi áp dụng cho việc phát hiện bệnh Covid-19 cho thấy độ chính xác lên đến 95,45% Trong khi đó, một đề xuất khung dựa trên CNN-MoE để phân loại dị thường đường hô hấp và phát hiện bệnh phổi đã được Lam Pham và các cộng sự [17] giới thiệu trong tạp chí IEEE
2021 Với bộ dữ liệu được nhóm tác giả sử dụng là bộ dữ liệu nội bộ về tin học y tế và y sinh học (ICBHI) năm 2017 cho tất cả các thử nghiệm Tác giả đã phân tích toàn diện các yếu tố như các loại quang phổ khác nhau, cửa sổ chồng lấp và không chồng lấp, kích thước bản vá và tăng cường dữ liệu để xác định yếu tố ảnh hưởng của chúng đối với hiệu suất Từ những phân tích trên sẽ tiếp tục đề xuất một khung học sâu để hướng mục tiêu cho hai nhiệm vụ là phân loại âm thanh bất thường và phát hiện bệnh hô hấp Sau đó đánh giá hai phương pháp phân tách đào tạo và kiểm tra được sử dụng trong tài liệu (cụ thể dữ liệu được xác thực chéo 5 lần ngẫu nhiên và phân tách 60/40 theo khuyến nghị của thách thức ICBHI) và so sánh với các nghiên cứu có kết quả tốt nhất Để hỗ trợ trong việc đánh đổi giữa hiệu suất và độ phức tạp, nhóm tác giả đã đề xuất một chương trình học có tên là học sinh – giáo viên Cụ thể, để đào tạo được chương trình giáo viên, nhóm tác giả đã sử dụng khung học sâu và một lượng lớn dữ liệu đã được đào tạo Chương trình học sinh trích xuất thông tin phân loại từ giáo viên và chắt lọc thông tin này để huấn luyện một kiến trúc mạng khác với ít tham số có thể huấn luyện hơn Cuối cùng sẽ thu được một mạng sinh viên có kích thước nhỏ hơn, đạt hiệu suất tương tự như giáo viên với độ tin cậy khi sử dụng bộ dữ liệu ICBHI lên đến 98% Phương pháp này đã đưa ra một khung học sâu mạnh mẽ để phân tích các bất thường về hô hấp và phát hiện các loại ho từ các bản ghi nghe phổi Kết quả của phương pháp đã được đánh giá dựa trên các phương pháp hiện đại nhất hiện có và cho kết quả vượt trội hơn so với các phương pháp đo thông thường Ngoài ra, chương trình giáo viên – học sinh của nhóm tác giả đề xuất đã giảm đáng kể độ phức tạp của mô hình trong khi vẫn đạt được độ chính xác rất cao Kết quả thử nghiệm cuối cùng xác nhận ứng dụng học sâu để chẩn đoán kịp thời bệnh hô hấp, đưa lĩnh vực này đi sâu hơn trong việc hỗ trợ lâm sàng, khám chữa bệnh.
Các nghiên cứu liên quan
1.2.1 Các nghiên cứu về bài toán phát hiện và phân loại tiếng ho
Trên thực tế đã có một số giải pháp và nghiên cứu liên quan đến phân loại ho dựa trên yếu tố lâm sàng và cường độ để phân biệt ho lành tính và ho do các bệnh như Covid-19, COPD, lao, viêm phổi với bản ghi được ghi lại trên thiết bị di động thông minh.
Tại hội nghị Quốc tế về âm học của IEEE (ICASSP 2021) M Pahar, I.Miranda, A Diacon, và T Niesler [13] đã đề xuất một phương pháp phát hiện ho dựa trên mạng thần kinh sâu đa tầng bằng cách sử dụng thiết bị di động thông minh có tích hợp micro và ứng dụng đo gia tốc gắn trên đầu giường bệnh Một ứng dụng điện thoại thông minh liên tục theo dõi gia tốc kế và tín hiệu âm thanh micro từ bên ngoài Bộ dữ liệu thu thập được của tác giá bao gồm 14 bệnh nhân và sơ đồ xác thực chéo từng loại một đã được sử dụng để đào tạo và đánh giá ba bộ phân loại DNN gồm: CNN, LSTM và Resnet50. Đối với bộ phân loại mạng nơ-ron tích chập (CNN), tác giả đã thiết lập các lớp tích chập 2D α1 và α2 (trong đó α1, α2 là kích thước nhân) và các đơn vị tuyến tính được chỉnh lưu làm hàm kích hoạt Với α3 (α3 là tỷ lệ bỏ học) được áp dụng cùng với tính năng tổng hợp tối đa, tiếp theo là các lớp α4 (α4 là nhiều lớp được áp dụng với các đơn vị tính được chỉnh lưu làm hàm chỉnh hoạt) với các đơn vị tuyến tính được chỉnh làm hàm kích hoạt cùng với 8 lớp đơn vị tuyến tính khác cũng được hiệu chỉnh thành hàm kích hoạt.
Bộ phân loại LSTM được thiết lập β1 (β1 là đơn vị LSTM) với các đơn vị tuyến tính được hiệu chỉnh làm hàm kích hoạt và tỷ lệ bỏ học α3 Sau đó các lớp α4 đã được áp dụng với các đơn vị tuyến tính được chỉnh lưu làm hàm kích hoạt, tiếp theo là 8 lớp dày đặc khác cùng với các đơn vị tuyến tính được chỉnh lưu làm làm kích hoạt.
Kiến trúc mạng (Resnet) mà tác giả đào tạo và đánh giá có 50 lớp và được phát hiện là mang lại hiệu suất tiên tiến nhất trong nhận dạng hình ảnh Tác giả đã sao chép kiến trúc 50 lớp được sử dụng trong bảng 1 của [13] trong thử nghiệm của mình.
Hình 1 1 Kết quả liệt kê hiệu suất ba bộ phân loại DNN [13]
Kết quả cho thấy CNN hoạt động tốt nhất khi sử dụng 64 khung hình mẫu
(640 mili giây) và 10 phân đoạn để đạt được AUC là 0,9499 Bộ phân loại LSTM tối ưu đạt được AUC cao hơn với số AUC là 0,9572 khi sử dụng độ dài khung hình mẫu là 32 mẫu (320 mili giây) và 10 phân đoạn Resnet50 tạo ra AUC cao nhất là 0,9888 sau 50 lượt với độ chính xác tương ứng là 96,71% và độ nhạy 99% cho 32 khung hình mẫu (320 mili giây) và nhóm được chia thành 10 phân đoạn Điều này cho thấy bộ phân loại Resnet50 vượt trội so với hai bộ phân loại còn lại trên nhiều điểm hoạt động Kết quả thu được của nghiên cứu cho thấy có thể nhận biết được âm thanh ho thông học sâu ít mẫu.
Ngoài ra, một đề xuất phát hiện ho bằng cách sử dụng đồng hồ thông minh [7]để thu thập và gán nhãn dữ liệu âm thanh và phát hiện ho Phương pháp so sánh chính của nghiên cứu là thông qua các đường cong thu hồi chính xác, so với các công trình tương tự trước đây, dựa vào đường cong ROC hoặc độ chính xác tổng thể thì cả hai đều có chỉ số kém về hiệu suất Trong các thử nghiệm dữ liệu bị mất nghiêm trọng Phương pháp được nghiên cứu đề xuất là đào tạo các mô hình bằng cách sử dụng ước tính thời điểm thích ứng với lr = 0,01, β1 = 0,9, β2 = 0,999 và độ phân rã bằng không Ngoài ra, nhóm tác giả còn giảm tỷ lệ học tập xuống 10 lần nếu tổn thất xác thực không giảm trong 3 pochs.
Kết quả thu được của phương pháp đạt được đối với mô hình chỉ có âm thanh Cough Watch A0 độ chính xác lên đến 0,838 và khả năng thu hồi 0,717, cao hơn so với phương pháp DNN16 là 0,466 Đối với mô hình có tích hợp cảm biến Cough Watch SF, kết quả thu được điểm F1 tối đa là 0,660 (độ chính xác là 0,82 và độ thu hồi là 0,552), cao hơn 6,7 lần so với DNN16 Với kết quả trên, nhóm tác giả đã cho thấy việc chạy mô hình phát hiện tiếng ho trên đồng hồ thông minh là khả thi và có thể áp dụng vào thực tiễn.
1.2.2 Các nghiên cứu về phân loại âm thanh ho do Covid-19
Một nghiên cứu nhằm phát hiện và phân loại tiếng ho bằng cách sử dụng các đặc trưng của tiếng ho đã được ứng dụng thành công vào thực tế Nghiên cứu là sự kết hợp giữa trích chọn đặc trưng có được từ ngân hàng bộ lọc Gabor hai chiều kết hợp giữa tiếng ho với mô hình phân loại hỗn hợp Gaussian (GMM) và mô hình ẩn Markov (HMM)[21] Nghiên cứu sử dụng bộ dữ liệu gồm ho khan, ho có đờm và các loại ho khác, kết quả đạt được của nghiên cứu có độ chính xác 81% khi dùng HMM và 83% khi dùng GMM
Gần đây nhất trong DiCOVA 2021 challenge: Bộ dữ liệu, tác vụ và hệ thống cơ sở để chẩn đoán Covid-19 bằng cách sử dụng âm thanh [1] A Muguli và cộng sự đã đề xuất mạng đào tạo sẵn OpenL3 – 6144 chiều và YAMNet -1024 chiều để ánh xạ dữ liệu và không gian nhúng và chọn mô hình phân loại Extra-trees.
Với bộ dữ liệu được lấy từ bộ dữ liệu Coswara [15] gồm các cá nhân dương tính với Covid-19 và những người không mắc Covid-19, các cá nhân cũng cung cấp sức khoẻ hiện tại, thông tin hành chính Nhóm tác giả chia thành hai nhóm cụ thể là mắc Covid-19 và không mắc Covid-19 Các dữ liệu âm thanh được xử lý trước bằng cách chuẩn hóa phạm vi biên độ thành ±1 Sau đó, một phát hiện hoạt động âm thanh cấp độ mẫu đơn giản(SAD) được áp dụng Điều này giữ cho mọi mẫu âm thanh có giá trị tuyệt đối lớn hơn 0,01 (biên độ ±50 mili giây xung quanh mẫu của âm thanh đó) và loại bỏ các phần còn lại của mẫu âm thanh bao gồm 20 mili giây đầu và cuối của tệp nhằm loại bỏ cụm bắt đầu và kết thúc đột ngột do tiếng ồn của thiết bị Bằng cách sử dụng ba mô hình phân loại khác nhau được đào tạo cho hai nhiệm vụ phân loại Covid-19 và không Covid-19 Các mô hình được đào tạo bằng cách sử dụng tính năng trích xuất và hàm loss balanced, riêng biệt cho từng phần trong số các phần tách biệt, các mô hình phân loại được nhóm tác giả lựa chọn là: Hồi quy Logistic (LR), Perceptron đa tầng (MLP), Cây ngẫu nhiên (RF) Kết quả thu được với bộ dữ liệu mù thử nghiệm track-1 chứa 233 tệp âm thanh ho (trong đó có 41 tệp covid) để phân loại thành Covid hoặc không covid cho ba mô hình LR, MLP và RF lần lượt là 61,98%, 69,85% và 67,45% AUC Đối với tập dữ liệu thử nghiệm track-2 chứa 209 tệp âm thanh (trong đó có 21 tệp covid) Ở đây, mô hình
RF cho hiệu suất tốt hơn so với các mô hình khác trong cả ba loại Hiệu suất của nó tốt nhất cho hơi thở (76,85% AUC) và kém nhất cho lời nói (65,27% AUC) Tính phù hợp thực thế và kịp thời của nghiên cứu đã khuyến khích nỗ lực tập trung của các nhà nghiên cứu từ nhiều lĩnh vực trên toàn cầu và đây cũng là một thử thách đầu tiên cho lĩnh vực này ở hội nghị Interspeech Tuy nhiên, cách tiếp cận của nghiên cứu này là đã cũ, tỷ lệ chính xác còn thấp và không phải âm thanh tiếng ho nào cũng phù hợp với cách sử dụng này, nhất là âm thanh bị trộn lẫn phức tạp.
Ngoài ra, Madhuranda và các cộng sự đã đưa ra một nghiên cứu phân loại ho COVID-19 sử dụng học máy và bản ghi trên điện thoại thông minh[14] Trong nghiên cứu này, các bộ dữ liệu được sử dụng bao gồm hai bộ dữ liệu là Coswara và Sarcos được thu thập từ cả sáu châu lục có chứa đối tượng Covid-19 và không Covid-19, tệp dữ liệu bao gồm ho cưỡng bức và ho tự nhiên, cho thấy nghiên cứu này có thể áp dụng rộng rãi Cả hai bộ dữ liệu đều chỉ ra rằng những cơn ho của đối tượng dương tính với Covid-19 ngắn hơn 15 - 20% so với những cơn ho không phải do Covid-19 Sau khi đã thu thập được hai bộ dữ liệu, nhóm tác giả đã trích xuất cácMFCC, năng lượng khung nhật ký, ZCR và các tính năng kurtosis từ âm thanh ho bằng cách sử dụng kỹ thuật trích xuất tính năng đặc biệt giúp duy trì các mẫu miền thời gian, sau đó đào tạo và đánh giá bảy bộ phân loại bao gồm: Hồi quy Logistic(LR), Support Vector Machine (SVM), Perceptron đa tầng (MLP), cây ngẫu nhiên(RF), mạng thần kinh sâu (CNN), bộ nhớ dài - ngắn hạn (LSTM), Mạng nơ ron học sâu (Resnet50) bằng cách sử dụng xác thực chéo lồng nhau Công cụ phân loại hoạt động tốt nhất là Resnet50 có thể phân biệt giữa ho do Covid-19 và ho thông thường với AUC là 0,98 trên bộ dữ liệu Coswara, kết quả này vượt trội hơn so với kết quả cơ bản của AUC là 0,7 Tương tự với bộ dữ liệu Sarcos, bộ phân loại LSTM được đào tạo trên tập dữ liệu Coswara thể hiện hiệu suất tốt nhất, với AUC cao nhất đạt được là 0,938 ≈ 0,94 đạt được khi sử dụng 13 tính năng tốt nhất được xác định bằng thuật toán lựa chọn chuyển tiếp tuần tự tham lam (SFS) và bộ phân loại LSTM Kết quả đạt được của nghiên cứu đã xác định được Covid-19 dựa trên âm thanh ho được ghi trên điện thoại.
Khảo sát về học sâu ít mẫu
Phân loại âm thanh là một lĩnh vực đang được nghiên cứu rộng rãi và áp dụng trong nhiều lĩnh vực Tuy nhiên, đa số các phương pháp phân loại âm thanh hiện nay đều sử dụng phương pháp học giám sát với các tiêu chuẩn cố định, áp dụng cho mạng nơ ron sâu hoặc học máy Mặc dù đã đạt được nhiều thành công, nhưng cách tiếp cận này còn tồn tại nhược điểm lớn: các phương pháp này yêu cầu một số lượng lớn dữ liệu được gắn nhãn và chỉ hoạt động hiệu quả trên các lớp dữ liệu đã biết Do đó, phần lớn các phương pháp phân loại âm thanh không thể sử dụng được cho các lớp dữ liệu chưa biết đến Khác với phương pháp học tập giám sát có tiêu chuẩn, học vài lần đã được áp dụng để phân loại âm thanh và phát hiện sự kiện âm thanh [22], trong đó bộ phân loại phải học cách nhận ra một lớp mới từ rất ít dữ liệu Trong số các phương pháp học vài lần khác nhau, các mạng nguyên mẫu dựa trên số liệu đã được chứng minh là mang lại hiệu suất tuyệt vời cho âm thanh Tuy nhiên, các phương pháp few-shot không duy trì từ vựng của lớp dữ liệu huấn luyện, cần phải ghi nhãn thủ công tất cả các lớp từ mới để triển khai Điều này có thể gây quá tải cho các vấn đề về từ vựng lớn
Ngược lại, học liên tục (học không ngừng, học tăng dần, học suốt đời) [4] là một chiến lược học trực tuyến trong đó một thuật toán tìm cách liên tục thích ứng với một chuỗi các nhiệm vụ và thực hiện tốt tất cả các nhiệm vụ mà không bị quên.
Nó đã được đề xuất để phân loại âm thanh và phát hiện sự kiện âm thanh bằng cách học các sự kiện mới mà không quên các sự kiện đã được học trước đó Tuy nhiên, phương pháp này thường yêu cầu đào tạo lại tới khi giới thiệu các lớp mới, với quy trình đào tạo phức tạp và số lượng nhãn được gán lớn sẽ gây tốn tài nguyên Không thích hợp khi ứng dụng vào thực tế với môi trường bị hạn chế về tài nguyên.
Gần đây, lĩnh vực nghiên cứu mới và cũng là công trình đầu tiên trên giới thiệu phương pháp học liên tục vài lần cho lĩnh vực phân loại âm thanh Nghiên cứu sử dụng học liên tục ít mẫu (học gia tăng vài lần, học ít mẫu) kết hợp các điểm mạnh ở các phương pháp học tập giám sát có tiêu chuẩn, sử dụng mạng lưới thần kinh sâu hoặc kiến trúc Resnet50 nhằm mở rộng liên tục khả năng của một bộ phân loại chỉ dựa trên một vài dữ liệu suy luận được học theo thời gian Điều này cho phép người dùng cuối cập nhật mô hình nhanh chóng và tương tác Trong nghiên cứu này Yu Wang và cộng sự [23] đề xuất khung phân loại âm thanh học liên tục vài lần bằng cách tận dụng kỹ thuật học vài lần động (DFSL) được đề xuất trước đây[20] Trong nghiên cứu, ban đầu tác giả huấn luyện một bộ phân loại trên các lớp cơ sở với các ví dụ đa dạng và mở rộng nó tại thời điểm suy luận để nhận ra các lớp mới chưa từng được huấn luyện trước đây dựa trên một số dữ liệu được gán nhãn trong khi không quên các lớp cơ sở Một đặc điểm quan trọng của dữ liệu âm thanh là nhiều âm thanh có thể chồng chéo lên nhau theo thời gian, làm cho việc phân loại chúng trở thành một vấn đề đa nhãn Để điều chỉnh DFSL cho âm thanh, nhóm tác giả đã thay thế tổn thất entropy chéo (phân loại) bằng tổn thất entropy chéo nhị phân để đào tạo một mô hình có thể dự đoán nhiều lớp cho thuê đồng thời. Việc sử dụng CNN 14 lớp mạnh mẽ, có kết quả đạt được tốt nhất làm cơ sở trích xuất tính năng Với hai bộ dữ liệu ESC-50 bao gồm 2000 bản ghi âm thanh môi trường trong 5 giây và AudioSet là bộ dữ liệu bao gồm hơn 2 triệu bản ghi âm thanh dài 10 giây được gán nhãn Nhóm tác giả đã đề xuất một khung học tập liên tục vài lần để phân loại âm thanh, có thể mở rộng phân loại cơ sở từ điển sang các lớp mới tại thời điểm suy luận chỉ với một vài ví dụ được gán nhãn Để đạt được mục tiêu này, nhóm tác giả đã điều chỉnh kỹ thuật học vài lại chụp động (DFSL) để phân loại âm thanh nhiều nhãn, giúp mở rộng bộ phân loại cơ sở tiêu chuẩn với bộ tạo trọng số vài lần chụp dựa trên sự chú ý Kết quả đánh giá phương pháp được đề xuất với hai bộ dữ liệu ESC-50 và AudioSet với một số bộ phân loại cho thấy mặc dù vẫn còn nhiều chỗ cần cải thiện, nhưng kết quả của phương pháp cho thấy DFSL có thể đạt được khả năng học liên tục trong vài lần dưới các điều kiện thực tế và thử thách mà không cần phải đào tạo lại. Đã có một số nghiên cứu về học ít mẫu để phân loại âm thanh Trong bài báo[2] tác giả đã đề xuất một kiến trúc CNN mở rộng theo thời gian được thiết kế để kết hợp chức năng nhúng mới với mạng nguyên mẫu để giải quyết vấn đề phát hiện từ khóa chỉ sử dụng các mẫu giới hạn trên tập dữ liệu giọng nói Một cách tiếp cận khác sử dụng hàm mất mát tương phản để tìm hiểu không gian tiềm ẩn từ MFCC để phát hiện ho Covid-19 đã được đề xuất trong[9] Các kết quả đạt được gần đây của phương pháp học ngắn hạn đã được ứng dụng nhiều trong lĩnh vực chăm sóc sức khoẻ và đạt được nhiều thành tựu đáng kể
Chúng ta có thể nhận ra các lớp đối tượng mới từ rất ít các mẫu Tuy nhiên, hầu hết các kỹ thuật học máy trước đây đều yêu cầu hàng nghìn mẫu để có thể đạt được hiệu suất tương tự Trong nhiều năm qua, các nhà nghiên cứu về thị giác máy tính đều chủ yếu tập trung và giải quyết việc nhận dạng bằng cách sử dụng hàng triệu hình ảnh Nhưng nó đã dẫn đến việc yêu cầu cao về không gian lưu trữ dữ liệu và hiệu suất các mô hình Do đó, các nhà nghiên cứu đã phát triển học sâu ít mẫu để giảm thiểu vấn đề khan hiếm dữ liệu, tập trung vào đào tạo các mô hình có ít dữ liệu hơn mà không ảnh hưởng đến các hiệu suất của chúng.
Khác với các phương pháp học khác cần đòi hỏi một tập dữ liệu với kích thước lớn để có thể huấn luyện và dự đoán Học sâu ít mẫu sử dụng tập dữ liệu hỗ trợ chứa bộ dữ liệu có nhiều nhãn khác nhau, mỗi nhãn sẽ chứa tập dữ liệu với số lượng ít ỏi đủ để học và dự đoán sau này Mô hình học sâu ít mẫu sẽ sử dụng dữ liệu truy vấn và dữ liệu liệu hỗ trợ để học cách phân loại nhãn cho dữ liệu truy vấn.
Cụ thể, mô hình sẽ sử dụng thông tin được cung cấp từ dữ liệu hỗ trợ để học và dự đoán nhãn cho dữ liệu truy vấn Học sâu ít mẫu sử dụng cách tiếp cận phân loại N- way-K-Shot để phân biệt giữa N lớp với K ví dụ.
Hình 1 2 Ví dụ về khung siêu học tập N-way-K-shot
Như trên hình 1.2, một thuật toán được tạo bằng cách sử dụng một loạt các nhiệm vụ đào tạo Ở đây, các nhiệm vụ là công việc phân loại 3-way-2-shot (bởi vì mỗi nhiệm vụ đào tạo chứa một bộ hỗ trợ với 3 loại khác nhau và 2 ví dụ cho mỗi loại) Trong quá trình đào tạo, hàm chi phí lần lượt đánh giá hiệu suất trên tập truy vấn cho từng tác vụ với tập hỗ trợ tương ứng và không có sự trùng lặp giữa các lớp trong hai nhiệm vụ huấn luyện và giữa các lớp trong nhiệm vụ kiểm tra
Năm 2017, J Snell, K Swersky và R Zermel đã đề xuất một phương pháp các mạng nguyên mẫu cho vấn đề phân loại ít ảnh[10], trong đó bộ phân loại phải khái quát các lớp mới không thấy trong tập huấn luyện, chỉ đưa ra một số lượng nhỏ các ví dụ của mỗi lớp mới Phương pháp các mạng nguyên mẫu cho quá trình học vài lần dựa trên ý tưởng rằng tồn tại một nhúng trong đó các điểm tập trung xung quanh một biểu diễn nguyên mẫu duy nhất cho mỗi lớp Để làm được điều này, tác giả đã ánh xạ phi tuyến tính của đầu vào và một không gian nhúng bằng cách tìm nguyên mẫu lớp gần nhất Việc phân loại được thực hiện bằng cách tìm nguyên mẫu lớp gần nhất cho một điểm truy vấn được nhúng Cụ thể, các mạng nguyên mẫu được liên kết với phân cụm để biện minh cho việc sử dụng phương tiện lớp làm nguyên mẫu khi khoảng cách được tính toán với phân kỳ Bregman, chẳng hạn như bình phương khoảng cách Euclide Việc lựa chọn khoảng cách là rất quan trọng, vì khoảng cách Euclide vượt trội hơn rất nhiều so với độ tương tự cosine.
Từ phương pháp trên chúng ta đã thấy mạng nguyên mẫu đã cải thiện rõ rệt so với mạng phù hợp Cách tiếp cận này đơn giản và hiệu quả hơn nhiều so với các phương pháp siêu học gần đây và tạo ra kết quả tối ưu ngay cả khi không có phần mở rộng chi tiết được phát triển cho các mạng phù hợp Trong khi mạng phù hợp tạo ra một bộ phân loại láng giềng gần nhất trong bộ hỗ trợ thì mạng nguyên mẫu tạo ra một bộ phân loại tuyến tính Phương pháp mạng quan hệ được đề xuất dựa trên hai mô-đun: mô-đun nhúng và mô-đun quan hệ Mô-đun nhúng tạo ra các đặc trưng của đầu vào dữ liệu hỗ trợ và dữ liệu truy vấn Mô-đun quan hệ lại tạo ra đại lượng vô hướng trong phạm vi từ 0 → 1 để thể hiện sự giống nhau giữa điểm truy vấn và các dữ liệu khác Kết quả đạt được của phương pháp này trên bộ dữ liệu Omniglot [3] đạt được kết quả ấn tượng với 98,8% với bài toán 5-way-1-shot và 99,7% đối với bài toán 5-way-5 shot Đối với bộ dữ liệu miniImageNet [21] với kết quả về độ chính xác được lấy trung bình trên 600 đợt thử nghiệm và thu được kết quả với khoảng tin cậy đạt 95% Ngoài ra, nhóm tác giả cũng chỉ ra cách hiệu suất có thể được cải thiện đáng kể bằng cách xem xét cẩn thận chỉ số khoảng cách đã chọn và bằng cách sửa đổi quy trình học tập theo từng đợt Tính đơn giản và hiệu quả của các mạng nguyên mẫu làm cho nó trở thành một cách tiếp cận đầy hứa hẹn cho việc học vài lần.
Các phương pháp phân loại âm thanh truyền thống thường sử dụng các tiêu chuẩn giám sát được áp dụng cho các mạng nơ-ron sâu hoặc học máy Tuy nhiên, các phương pháp này có một số hạn chế đáng kể, bao gồm: yêu cầu một lượng lớn dữ liệu được dán nhãn và việc giới hạn phân loại cho các lớp đã được định nghĩa trong tập dữ liệu Điều này khiến cho phương pháp này không thể sử dụng cho các lớp dữ liệu chưa biết trước.
Vì vậy, để giải quyết vấn đề này, một phương pháp mới đã được đưa ra.Phương pháp này sử dụng mạng nơ-ron tích chập [18] kết hợp với mạng nguyên mẫu để phân loại âm thanh trong bối cảnh học ít mẫu Kết quả cho thấy phương pháp này đã vượt qua các phương pháp khác trong việc giải quyết bài toán học ít mẫu và tại bước suy diễn có thể nhận diện được nhãn đã từng học trong huấn luyện.
Phương pháp này cũng cho thấy tính linh hoạt cao và có thể mở rộng cho các lớp dữ liệu chưa biết trước
Từ những khái quát của các nghiên cứu về học ít mẫu, và các ưu điểm mạng nguyên mẫu [10] Đề án sẽ đề xuất một quy trình đào tạo cho mô hình bao gồm hai giai đoạn Giai đoạn đầu tiên là trích xuất đặc trưng MFCC của tiếng ho Giai đoạn thứ hai sẽ phân loại nhãn truy vấn, trong đó MFCC được chuyển tiếp đến mnajg nhúng để ánh xạ dữ liệu vào không gian nhúng Đề án sẽ tận dụng các ưu điểm của mạng nguyên mẫu để xây dựng không gian nhúng cho các bản ghi.
Kết chương
Chương 1 đã tóm tắt và giới thiệu khái quát về bệnh lý ho và các vấn đề liên quan đến phân loại tiếng ho Bên cạnh đó, chương cũng trình bày và tổng quan về các nghiên cứu có liên quan đến xử lý và phân loại âm thanh, các mô hình xử lý và kết quả đạt được từ các tác giả trên toàn cầu Chương cũng chỉ ra các điểm mạnh và hạn chế của các phương pháp hiện có và đưa ra các ý tưởng cho đề án nghiên cứu tiếp theo dựa trên những ưu điểm và cải tiến được đề xuất từ các nghiên cứu trước đó Trong chương 2, đề án sẽ tiếp tục đi sâu vào phân tích và trình bày chi tiết hơn về việc áp dụng học sâu ít mẫu vào phân loại tiếng ho, cách xử lý tệp dữ liệu audio sang dạng quang phổ và trích chọn đặc trưng Cuối cùng là huấn luyện mô hình.
ỨNG DỤNG HỌC SÂU ÍT MẪU CHO PHÂN LOẠI TIẾNG HO
Xử lý dữ liệu âm thanh
Tiền xử lý dữ liệu tín hiệu nói chung và dữ liệu âm thanh nói riêng đóng vai trò rất quan trọng trong các phương pháp học máy Dữ liệu tín hiệu âm thanh đầu vào cho các mô hình học sâu là rất nhạy cảm, vì vậy bước xử lý dữ liệu đầu vào sẽ là yếu tố quyết định tỷ lệ thành công của mô hình.
Trước khi học sâu ra đời, các ứng dụng học máy của thị giác máy tính thường dựa vào các kỹ thuật xử lý hình ảnh truyền thống để thực hiện kỹ thuật tính năng Chẳng hạn, các kỹ sư sẽ tạo các tính năng thủ công bằng thuật toán để phát hiện các góc, cạnh và bề mặt Với các ứng dụng NLP cũng tương tự, sẽ dựa vào các kỹ thuật như trích xuất N-gram và tính toán Tần số thuật ngữ.
Tương tự, các ứng dụng học máy âm thanh từng phụ thuộc vào các kỹ thuật xử lý tín hiệu số truyền thống để trích xuất các đặc trưng Ví dụ, để hiểu tiếng nói của con người, các tín hiệu âm thanh có thể được phân tích bằng cách sử dụng các khái niệm ngữ âm để trích xuất các yếu tố như âm vị Tất cả những điều này đòi hỏi rất nhiều đến kiến thức chuyên môn về miền cụ thể để có thể giải quyết những vấn đề mà bài toán đặt ra để có hiệu suất tốt hơn.
Tuy nhiên, trong những năm gần đây, khi học sâu ngày càng phổ biến và được ứng dụng rộng rãi, nó cũng đạt được nhiều thành công to lớn trong việc xử lý âm thanh Với học sâu, các kỹ thuật xử lý âm thanh truyền thống không còn cần thiết và chúng có thể dựa vào việc chuẩn bị dữ liệu tiêu chuẩn mà không yêu cầu tạo nhiều tính năng thủ công và tùy chỉnh Với học sâu, phương pháp xử lý dữ liệu âm thanh sẽ không xử lý ở dạng thô Thay vào đó, phương pháp phổ biến được sử dụng là chuyển đổi dữ liệu âm thanh thành hình ảnh và sau đó sử dụng kiến trúc CNN tiêu chuẩn để xử lý dữ liệu hình ảnh đó đó Điều này được thực hiện bằng cách tạo Spectrogram từ âm thanh Để chi tiết vào vấn đề này chúng ta sẽ cần tìm hiểu kỹ hơn về phổ Spectrogram và Mel Spectrogram.
Như chúng ta đã biết, các tín hiệu có tần số khác nhau có thể được cộng dồn với nhau để tạo ra các tín hiệu tổng hợp, đại diện cho bất kỳ âm thanh nào xuất hiện cho thế giới thực Điều này cho thấy bất kỳ tín hiệu nào cũng bao gồm nhiều tần số riêng biệt và có thể biểu biểu diễn dưới dạng tổng hợp của các tần số đó.
Phổ là tập hợp các tần số được kết hợp với nhau tạo ra tín hiệu và vẽ sơ đồ tất cả các tần số có trong tín hiệu cùng với cường độ hoặc biên độ của từng tần số.
Hình 2 1 Ví dụ về Spectrum b) Miền thời gian và miền tần số
Mỗi tín hiệu âm thanh đều có 2 miền giá trị gồm: thời gian và tần số Trong mỗi miền đó, tín hiệu âm thanh được thể hiện theo cách khác nhau.
Hình 2 2 Biểu đồ miền giá trị của tín hiệu âm thanh (Sound Signal)
● Trong miền thời gian: tín hiệu âm thanh mô tả sự thay đổi của biên độ theo thời gian Biên độ nằm trên trục tung và thời gian nằm trên trục hoành.
● Trong miền tần số (frequency): tín hiệu âm thanh mô tả sự thay đổi của biên độ theo tần số Biên độ nằm trên trục tung và tần số nằm trên trục hoành. c) Phổ Spectrogram
Các mô hình học sâu rất ít khi lấy trực tiếp âm thanh thô này làm đầu vào. Phương pháp phổ biến là chuyển đổi âm thanh thành biểu đồ Spectrum Spectrum là ảnh chụp nhanh, ngắn gọn của sóng âm thanh và vì nó là hình ảnh nên nó rất phù hợp để làm đầu vào cho các kiến trúc dựa trên CNN được phát triển để xử lý hình ảnh.
Quang phổ được tạo ra từ tín hiệu âm thanh bằng Biến đổi Fourier phân tách tín hiệu thành các tần số cấu thành của nó và hiển thị biên độ của từng tần số có trong tín hiệu Quang phổ cắt thời lượng của tín hiệu âm thanh thành các phân đoạn thời gian nhỏ hơn, sau đó áp dụng biến đổi Fourier cho từng phân đoạn để xác định các tần số có trong phân đoạn đó Sau đó, nó kết hợp các biến đổi Fourier cho tất cả các phân đoạn đó thành một biểu đồ duy nhất Biểu đồ được vẽ với tần số (trục y) và thời gian (trục x) sử dụng các màu khác nhau để biểu thị biên độ của từng tần số. Màu càng sáng thì năng lượng tín hiệu càng cao Mỗi lát cắt dọc của quang phổ về cơ bản là quang phổ của tín hiệu tại thời điểm đó và cho biết cường độ tín hiệu được phân bổ như thế nào ở mọi tần số được tìm thấy trong tín hiệu tại thời điểm đó.
Hình 2 3 Hình ảnh biên độ so với thời gian
Trong hình 2.4, hình ảnh đầu tiên hiển thị tín hiệu trong miền thời gian giữa biên độ và thời gian Nó cho chúng ta biết mức độ to hay yên tĩnh của một clip tại bất kỳ thời điểm nào Tuy nhiên, nó cũng cho chúng ta rất ít thông tin về tần số nào có mặt.
Hình 2 4 Spectrogram và hiển thị tín hiệu trong miền tần số
Phổ Mel (Mel scale spectrogram) là một biểu diễn âm thanh dựa trên thang đo Mel, một thang đo tần số không tuyến tính giúp mô phỏng cách con người có thể nghe Thay vì sử dụng thang đo tần số tuyến tính, thang đo Mel gán các tần số thấp nhiều băng thông hơn và các tần số cao ít băng thông hơn, giống như cách con người cảm nhận âm thanh.
Hình 2 5 Tần số được biểu diễn trên thang đo Mel Để tạo ra một phổ Mel, âm thanh được chia thành các khung thời gian và cho qua bộ lọc Mel Mỗi bộ lọc Mel tương ứng với một băng thông Mel nhất định và được thiết kế để bắt các đặc trưng của tín hiệu âm thanh Sau khi âm thanh được đi qua bộ lọc Mel, năng lượng trong mỗi băng thông Mel được tính toán để tạo ra phổ Mel Phổ Mel thường được sử dụng làm đầu vào cho các mô hình học sâu để xử lý âm thanh, bao gồm cả các mô hình xử lý ngôn ngữ tự nhiên và phân loại âm thanh. Để tính được số Mel, chúng ta dùng công thức sau:
● f là tần số đang xét (đơn vị Hz)
● Mel(f) là số Mel tương ứng với tần số f Để tính toán các bân tần Mel cho phổ Mel ta dùng công thức sau: f Mel %95 log 10 (1+ f Hz
● f mel là tần số tương ứng với Mel
● f Hz là tần số hertz của tín hiệu âm thanh.
2.1.3 Các phép biến đổi trong xử lý âm thanh
Trong xử lý âm thanh, có nhiều phép biến đổi được sử dụng để trích xuất các đặc trưng quan trọng từ tín hiệu âm thanh như: chuyển đổi tín hiệu âm thanh từ miền thời gian sang miền tần số (Fourier Transform), Biến đổi Fourier thời gian ngắn (STFT-Short Time Fourier Transform), biến đổi Constant-Q (CQT-Constant-
Q Transform) Cụ thể các phép biến đổi như sau: a) Các phép biến đổi Fourier
Trích chọn đặc trưng tiếng ho
Bước đầu tiên trong bất kỳ ứng dụng học sâu âm thanh nào cũng sẽ là trích xuất các tính năng hoặc nói cách khác là xác định các thành phần của tín hiệu âm thanh tốt cho việc xác định nội dung ngôn ngữ và loại bỏ tất cả các tạp âm gây ảnh hưởng đến việc xác định nội dung như: tiếng ồn, tác động môi trường xung quanh. Điểm chính cần hiểu về lời nói là âm thanh do con người tạo ra và được quyết định bởi hình dạng của đường phát âm bao gồm lưỡi, răng, môi Các yếu tố này sẽ quyết định âm thanh phát ra Nếu chúng ta có thể xác định hình dạng một cách chính xác, điều này sẽ cho chúng ta một biểu diễn chính xác về âm vị được tạo ra Hình dạng của đường phát âm tự biểu hiện trong đường bao của phổ công suất thời gian ngắn và công việc của hệ số Cepstral trên tần số Mel (MFCC) là thể hiện chính xác đường bao này MFCCs là một phương pháp tiền xử lý tín hiệu âm thanh phổ biến được sử dụng trong các ứng dụng xử lý tiếng nói và nhận dạng giọng nói. Chúng được giới thiệu bởi Davis và Mermelstein vào năm 1980 và đây cũng chính là phương pháp mà đề án lựa chọn để trích chọn đặc trưng tiếng ho.
2.2.1 Các biến đổi tín hiệu âm thanh
Nguyên lý hoạt động của MFCC là chuyển đổi tín hiệu âm thanh từ miền thời gian sang miền tần số, sau đó sử dụng các bộ lọc Mel để tính toán các hệ số Cepstral và chuyển đổi các hệ số đó sang không gian Mel Frequency.
Quá trình chuyển đổi từ miền thời gian sang miền tần số được thực hiện bằng cách sử dụng phép biến đổi Fourier rời rạc(DFT) hoặc Fast Fourier Transform (FTT) Sau đó, tín hiệu âm thanh được chia thành các khung có độ dài cố định và áp dụng bộ lọc Mel để tạo ra một bộ dữ liệu tần số có độ dài cố định.
Tiếp theo, các hệ số Cepstral được tính toán từ bộ dữ liệu tần số này bằng cách sử dụng phép biến đổi Cepstral Các hệ số Cepstral này thường được cắt bớt để giảm kích thước của dữ liệu và loại bỏ thông tin không cần thiết Cuối cùng, các hệ số Cepstral được chuyển đổi sang không gian Mel Frequency bằng cách sử dụng một bộ lọc Mel Inverse để tạo ra các hệ số MFCC cuối cùng.
2.2.2 Trích chọn các đặc trưng MFCC
MFCC kỹ thuật phổ biến để trích xuất các đặc trưng từ tín hiệu âm thanh.
Kỹ thuật này sẽ cho các kết quả là hệ số Cepstral từ bộ lọc Mel trên phổ lấy được từ các file âm thanh.
Hình 2 7 Mô hình xử lý âm thanh đầu vào sang MFCCs a) A/D conversion
File âm thanh được biểu diễn dưới dạng tín hiệu liên tục bao gồm nhiều sóng hình sine kết hợp hoặc triệt tiêu tại từng thời điểm khác nhau Trong khi máy tính làm việc với các con số rời rạc và bộ nhớ lưu trữ chia thành các ô, mỗi ô chỉ lưu được các giá trị số rời rạc Do vậy việc lượng tử hóa là cần thiết để lưu trữ các file âm thanh.
Tai người nghe được âm thanh trong khoảng từ 20Hz - 20.000 Hz, tần số lấy mẫu thường được sử dụng trong khoảng từ 8Hz - 16.000 Hz Số mẫu được lấy ra trong một giây được gọi là số lấy mẫu Nó tuân theo định lý lấy mẫu trong xử lý tín hiệu số (Nyquist) Số mẫu được lấy ra trong một giây càng nhiều thì âm thanh tái tạo sẽ càng sát với âm thanh gốc. b) Pre-emphasis
Do đặc trưng cấu tạo của thanh quản và các bộ phận phát âm nên giọng nói của chúng ta thường có mức năng lượng cao đối với các âm tiết ở tần số thấp và mức năng lượng thấp đối với các âm tiết ở tần số cao Đặc biệt, các tần số cao này chứa nhiều thông tin về âm vị Vì vậy để tín hiệu được sắc nét sẽ cần một bước pre- emphasis để kích các tín hiệu ở tần số cao lên Để làm được điều đó chúng ta cho tín hiệu đầu vào đi qua một bộ lọc đáp ứng xung như sau:
Trong đó 0.9 < α < 1 Bộ lọc này sẽ khuếch đại tín hiệu đầu vào.
Hình 2 8 Hình ảnh trực quan hóa phổ năng lượng của các tần số trước và sau khi thực hiện Pre-emphasis.
Trong hình 2.8 chúng ta thấy năng lượng tại từng vị trí đã được khuếch đại lên Tại vị trí tần số cao năng lượng được khuếch đại nhiều hơn, còn tại vị trí thấp hơn năng lượng cũng được khuếch đại nhưng với tần số ít hơn. c) Windowing
Các tín hiệu âm thanh thay đổi liên tục theo thời gian, thông tin theo đó cũng biến đổi liên tục và nếu trích chọn các thông tin trên toàn bộ tín hiệu thì sẽ thiếu tính ổn định, dẫn tới không chính xác Do đó, để có được các đặc trưng thống kê coi như không đổi ta trích tín hiệu trong khoảng thời gian đủ ngắn bằng cách sử dụng một cửa sổ để trượt trên toàn bộ tín hiệu để trích ra một loại các frame, trong mỗi frame các thông tin đặc trưng được coi là tĩnh.
Hình 2 9 So sánh giữa mô hình cửa sổ chữ nhật và cửa sổ Hamming Hanning
Có nhiều dạng cửa sổ như cửa sổ chữ nhật, Hamming, Hanning Thông thường cửa sổ được dùng là Hamming hoặc Hanning do trong quá trình cắt, cửa sổ này sẽ đưa từ từ hai đầu biên cửa sổ về giá trị để thông tin hai đầu sẽ bị mất đi. Ngoài ra, trong quá trình cắt bằng cửa sổ, các cửa sổ này sẽ nằm đè một phần lên nhau, nhờ vậy tránh được việc mất mát thông tin.
Thay vì biến đổi Fourier trên cả đoạn âm thanh dài, ta trượt một cửa sổ dọc theo tín hiệu để lấy ra các frame rồi mới áp dụng DFT trên từng frame vừa được lấy Tốc độ nói của con người trung bình khoảng 3-4 từ mỗi giây, mỗi từ khoảng 3-
4 âm, mỗi âm chia thành 3-4 phần, như vậy một giây âm thanh được chia thành 36-
40 phần Chọn độ rộng mỗi frame khoảng 20-25ms là phù hợp để bao một phần âm thanh Các frame được lặp lên nhau khoảng 10ms để có thể chụp lại sự thay đổi.
Hình 2 10.Mô hình cửa sổ cắt các frame âm thanh
Nếu gọi w là cửa sổ được áp dụng vào trong file âm thanh ban đầu thì:
X[n] = w[n].s[n] (2 8) Biểu thức tương ứng cho cửa sổ Hamming và Hanning:
Hamming (α = 0.46164) or Hanning (α = 0.5) window W[n] = (1- α)- α cos()- α)- α cos( cos( L−1 2 πiftn ) Trong đó L là chiều dài window (2 9)
Dưới đây là mô hình của các loại cửa sổ:
Hình 2 11 Các mô hình cửa sổ window phổ biến d) Discrete Fourier Transform (DFT)
Sau khi có các frame được, ta áp dụng DFT theo công thức:
N kn) (2 10) Đầu ra của DFT trên từng frame sẽ cho ta một vectơ Mỗi vị trí của vectơ ứng với một tần số được tính toán, giá trị tại mỗi vị trí tương ứng với tổng năng lượng mà tần số đó đóng góp trong frame đang xét Đầu ra của bước tính toán DFT trên tất cả các frame được gọi là Sequence-DFT(SDFT), sẽ cho ta một biểu đồ phổ tần số (Spectrogram).
Hình 2 12 Biểu đồ phân bố năng lượng tại từng thời điểm và vị trí của tần số
Từ hình 2.13 chúng ta sẽ quan sát thấy năng lượng phân bố tại từng thời điểm và từng vị trí tần số, màu sáng thể hiện năng lượng tại vị trí đó lớn và màu tối thì ngược lại Cùng với đó, ta cũng quan sát được sự phân bố năng lượng đó thay đổi như thế nào (tốc độ thay đổi tại từng vị trí tần số) từ trái sang phải. e) Mel Filterbank
Do tai người cảm nhận tốt ở các tần số thấp, kém nhạy cảm với các tần số cao Vậy nên cần một bộ lọc để có thể xử lý để tai người có thể nghe được Đầu tiên sẽ bình phương các giá trị trong spectrogram thu được DFT power spectrum, sau đó áp dụng một tập các bộ loạt dải Mel-scale filter trên từng khoảng tần số Giá trị output của từng filter là năng lượng dải tần số mà filter đó bao phủ được Ta thu được Mel-scale power spectrum
Công thức bộ lọc tần số mel: mel(f)27 ln(1+ f
Trong đó f là tần số. Để chuyển từ mel về lại tần số mel ta dùng công thức sau:
Mạng học sâu ít mẫu nguyên mẫu (Prototypical Network)
Bước tiếp theo của dữ liệu sau khi được trích xuất MFCCs là phân loại nhãn truy vấn, trong đó MFCC được chuyển tiếp đến mạng nhúng để ánh xạ dữ liệu vào không gian nhúng Giai đoạn này sẽ được xây dựng trên mô hình mạng nguyên mẫu để tạo không gian nhúng cho các bản ghi âm.
Mạng nguyên mẫu (Prototypical Network) là một kiến trúc mạng học sâu được sử dụng cho bài toán phân loại đa lớp và học ít mẫu Các bài toán học ít mẫu đòi hỏi mô hình phải học được cách phân biệt giữa các lớp dữ liệu chỉ dựa trên một số lượng nhỏ mẫu dữ liệu Một trong những thách thức của phương pháp này là khắc phục được sự thiếu hụt dữ liệu huấn luyện, đồng thời đảm bảo khả năng phân loại chính xác dữ liệu mới
Hình 2 15 Các mạng nguyên mẫu Few-shot và Zero-shot [10]
Bằng cách liên kết các mạng nguyên mẫu với phân cụm để biện minh cho việc sử dụng phương tiện lớp làm nguyên mẫu khi khoảng cách được tính toán với phân kỳ Bregman, chẳng hạn như bình phương khoảng cách Euclide Việc lựa chọn khoảng cách là rất quan trọng, vì khoảng cách Euclide vượt trội hơn rất nhiều so với cosine đồng dạng thường được sử dụng Các mạng nguyên mẫu đơn giản và hiệu quả hơn so với các thuật toán siêu học gần đây
Bộ dữ liệu gồm N mẫu được gán nhãn S = {( x 1 , y 1 ),( x 2 , y 2 ) ( x N , y N )} trong đó x i ∈ R D là một vectơ D chiều của mỗi mẫu và y i ∈{1, 2,…,K} là nhãn tương ứng S k biểu thị tập dữ liệu hỗ trợ được gán nhãn lớp k.
Mạng nguyên mẫu tính toán biểu diễn M chiều c k ∈R M hoặc nguyên mẫu của mỗi lớp thông qua hàm nhúng f ϕ : R D → R M với tham số học được ϕ Mỗi nguyên mẫu là vectơ trung bình của các điểm hỗ trợ được nhúng thuộc lớp của nó Công thức tính nguyên mẫu c k : c k = 1
Với hàm khoảng cách d: R D x R M → [0, + ∞ ), mạng nguyên mẫu tạo phân phối trên các lớp cho điểm truy vấn x dựa trên hàm softmax từ khoảng cách đến nguyên mẫu trong không gian nhúng p ϕ (y=k∨x)= exp(−d(f ϕ (x), c k ))
Quá trình học được tiếp hành bằng cách giảm thiểu thông qua hàm negative log-probability J (ϕ)=−logp ϕ (y=k∨x) của lớp k qua SGD Các giai đoạn huấn luyện được hình thành bằng cách chọn ngẫu nhiên một tập con từ tập huấn luyện, sau đó chọn một tập con các ví dụ trong mỗi lớp để đóng vai trò là tập hỗ trợ và một tập còn lại để đóng vai trò là điểm truy vấn.
Mô hình mạng nguyên mẫu cho phân loại tiếng ho
Mô hình học sâu ít mẫu để phân loại tiếng ho được tiếp cận theo phương pháp học tập có số liệu, hay cụ thể hơn là sử dụng mạng nguyên mẫu có thể thực hiện suy luận theo cách từ đầu đến cuối[2] Phương pháp này sử dụng mạng nguyên mẫu để học và dự đoán từ khoá mới bằng cách so sánh đặc trưng của chúng với các mẫu có sẵn và kết hợp việc phát hiện mẫu với việc học số liệu, sau đó sử dụng kiến trúc tích chập giãn nở (CNN) theo thời gian để phát hiện mẫu mới.
Hình 2 16 Mô hình học sâu ít mẫu cho phân loại tiếng ho sử dụng mạng nguyên mẫu
Tại hình 2.17 mô hình được đề xuất đề giải quyết bài toán phân loại tiếng ho cho bài toán nhận dạng tiếng ho mới với số lượng mẫu nhỏ của đề án, trong đó bao gồm các bước sau:
- Tiền xử lý: Bước này bao gồm việc trích xuất đặc trưng từ tín hiệu âm thanh ho (bao gồm bộ dữ liệu hỗ trợ và tín hiệu truy vấn đầu vào) bằng cách sử dụng MFCCs để trích xuất đặc trưng tín hiệu âm thanh ho.
- Huấn luyện mạng nguyên mẫu: Bước này bao gồm việc huấn luyện mạng nguyên mẫu để học cách biểu diễn đặc trưng của các từ khóa và xác định khoảng cách giữa chúng Mạng nguyên mẫu bao gồm hai phần chính: phần mã hoá đặc trưng và phần tính toán khoảng cách Phần mã hoá đặc trưng sử dụng một mạng neural để chuyển đổi tín hiệu giọng nói hoặc văn bản thành một vectơ đặc trưng có số chiều nhỏ hơn Phần tính toán khoảng cách sử dụng khoảng cách Euclide để tính khoảng cách giữa vectơ đặc trưng của từ khoá mới và các vectơ đặc trưng của các từ khoá đã có sẵn.
- Dự đoán từ khoá mới: Tại đây việc sử dụng mạng nguyên mẫu đã được huấn luyện để dự đoán từ khoá mới bằng cách so sánh khoảng cách giữa vectơ đặc trưng của từ khoá mới và các vectơ đặc trưng của các từ khoá có sẵn Từ khóa mới sẽ được phân loại vào nhóm gần nhất với nó trong không gian đặc trưng.
Hàm kích hoạt Softmax là hàm số dùng để chuyển đổi giá trị đầu vào thành một phân phối xác suất Nó thường được sử dụng trong các mô hình phân loại đa lớp để tính toán xác suất của mỗi lớp dựa trên giá trị đầu vào của mô hình Với các giá trị nằm trong khoảng từ 0 đến 1 và tổng các giá trị bằng 1, tương ứng với một phân phối xác suất Công thức như sau: a i = exp(z i )
2.4.2 Hàm mất mát Negative log-likelihood
Trong huấn luyện các mô hình phân loại, đặc biệt là trong mô hình sử dụng hàm kích hoạt softmax Negative log-likelihood là một hàm mất mát thường được sử dụng Mục tiêu của hàm mất mát này là tối thiểu hoá sự khác biệt giữa xác suất dự đoán và xác suất thực tế.
Negative log-likelihood được tính bằng cách lấy tổng các logarit cơ số e của xác suất dự đoán đúng cho từng mẫu dữ liệu Công thức của hàm mất mát Negative log-likelihood cho toàn bộ tập huấn luyện là:
● q t thuộc tập truy vấn, y t thuộc tập hỗ trợ.
● θ là tham số của mô hình
● P 0(y t ∨q t , S e ) là xác suất được phân loại đúng nhãn của tập truy vấn q t Giá trị negative log-likelihood càng nhỏ thì mô hình dự đoán càng chính xác.
Vì vậy, khi huấn luyện mô hình, chúng ta cần cố gắng giảm giá trị negative log- likelihood của mô hình trên tập dữ liệu huấn luyện Tuy nhiên, giá trị quá nhỏ trên tập huấn luyện có thể dẫn đến hiện tượng quá khớp (overfitting) trên tập huấn luyện, dẫn đến mô hình không thể áp dụng tốt trên các tập dữ liệu mới Do đó, cần cân bằng giữa giảm giá trị negative log-likelihood trên tập huấn luyện và tránh hiện tượng quá khớp bằng cách sử dụng các kỹ thuật regularization hoặc early stopping.
Huấn luyện mô hình
Mô hình được đào tạo theo từng giai đoạn, trong đó mỗi giai đoạn, trong mỗi giai đoạn, mô hình được đào tạo để giải quyết một nhiệm vụ N-way K-shot Với dữ liệu đầu vào cho việc huấn luyện được chia thành 2 tập dữ liệu:
Trong đó, tập dữ liệu truy vấn là tập dữ liệu mong muốn tìm được nhãn Dữ liệu hỗ trợ là tập dữ liệu đã được gán nhãn, trong số các nhãn được gán của tập hỗ trợ sẽ có nhãn tương tự của dữ liệu truy cần truy vấn.
Trong quá trình thử nghiệm, tập dữ liệu hỗ trợ có thể chứa các nhãn chưa từng được sử dụng trong quá trình đào tạo trước đó Các dữ liệu trong tập được trích xuất đặc trưng bằng phương pháp MFCCs với 40 hệ số Sau đó, các đặc trưng này được đưa vào một mạng nhúng để chuyển đổi sang không gian nhúng Sau khi trích rút đặc trưng MFCCs từ toàn bộ dữ liệu, chúng được đưa vào một mạng nhúng để ánh xạ sang một không gian nhúng
Hình 2 17 Mạng nơ-ron tích chập giãn nở được đề xuất để nhúng
Trong không gian nhúng này, mỗi nhãn trong tập hỗ trợ sẽ được tính giá trị nguyên mẫu tương ứng, dựa trên ý tưởng của mạng nguyên mẫu Giá trị nguyên mẫu này được tính bằng cách lấy trung bình của các điểm dữ liệu của một nhãn Để phân loại dữ liệu truy vấn, khoảng cách Euclide được sử dụng để tính khoảng cách từ dữ liệu truy vấn đến các nguyên mẫu của nhãn Lựa chọn nhãn cho dữ liệu truy vấn được thực hiện bằng cách chọn nhãn có khoảng cách Euclide nhỏ nhất từ dữ liệu truy vấn đến giá trị nguyên mẫu tương ứng Sau đó, sử dụng hàm softmax để tính khoảng cách âm của các truy vấn tới các nguyên mẫu để tìm ra giá trị lớn nhất.
Mạng nguyên mẫu sử dụng một bộ hỗ trợ để xác định trọng tâm cho từng danh mục, sau đó các mẫu truy vấn được phân loại bằng cách tính khoảng cách tới từng nguyên mẫu Mô hình này là một mạng tích chập f: R n v → R n p được tham số hoá bởi θ f , mô hình học không gian n p chiều, trong đó các mẫu đầu vào n v chiều của cùng một lớp là gần nhau và các mẫu đầu vào thuộc các danh mục khác nhau cách xa nhau Đối với mỗi tập dữ liệu e, mỗi mẫu nguyên mẫu pc(của danh mục c) được tính bằng cách lấy trung bình các nhúng của tất cả các mẫu hỗ trợ của lớp c, công thức như sau: p C = 1 ¿S e c
Trong đó S e c là tập con của các tập dữ liệu hỗ trợ thuộc lớp c Cho một hàm khoảng cách d, khoảng cách từ truy vấn tới mỗi nguyên mẫu lớp p c được tính toán. Bằng cách sử dụng hàm softmax cho khoảng cách âm, mô hình sẽ tạo ra một phân phối trên N lớp trong mỗi tập huấn luyện.
Trong đó d là khoảng cách Euclide và các tham số θ của mô hình được cập nhật với độ dốc giảm dần ngẫu nhiên bằng phương trình thu nhỏ Khi quá trình đào tạo kết thúc, các tham số θ của mạng sẽ bị đóng băng Sau đó, với bất kỳ tác vụ mới nào, danh mục tương ứng với P tối đa là danh mục được dự đoán cho truy vấn đầu vào q t
Kết chương
Chương 2 đã đưa ra kiến trúc tổng quan của phương pháp phân loại tiếng ho sử dụng học sâu ít mẫu và ứng dụng Đầu tiên, lựa chọn đặc trưng của MFCCs cho dữ liệu tiếng ho và sau đó lấy ra những hệ số mà ở đó thông tin về dữ liệu được thể hiện tốt nhất Trong các ứng dụng nhận dạng hình ảnh và âm thanh, việc sử dụng mạng học sâu tích chập là một giải pháp tốt Nhưng do đề án sử dụng đầu vào là MFCCs có kích thước nhỏ (với kích thước của một dữ liệu là 40 x 51) Nên cần đến một giải pháp khác có thể áp dụng cho dữ liệu đầu vào nhỏ như MFCCs
Với những ưu điểm như: có thể áp dụng cho các đầu vào có kích thước nhỏ,giảm thiểu mất chất lượng thông tin khi số lượng lớp trong mạng cao, kết nối tới các lớp sâu trong mạng bằng lối tắt, bổ sung thêm các lớp tích chập giãn nở trong mô hình mạng dư để tạo thành mạng học sâu tích chập giãn nở… Việc chọn mạng tích chập dư giãn nở là một phương pháp tối ưu cho đề án, sử dụng ít mẫu và đem lại hiệu quả cao.
Ngoài ra, chương 2 cũng đã cụ thể hoá việc trích rút đặc trưng âm thanh tiếng ho, huấn luyện mô hình cho phân loại âm thanh ho bằng học sâu ít mẫu Trong chương 3, đề án sẽ triển khai thử nghiệm và đánh giá sau đó so sánh kết quả với các nghiên cứu khác.
THỬ NGHIỆM VÀ ĐÁNH GIÁ
Trong lĩnh vực trí tuệ nhân tạo nói chung và học sâu nói riêng, tập dữ liệu đóng vai trò quan trọng trong việc phát triển và đánh giá các thuật toán, ứng dụng. Việc phân tích và đánh giá chất lượng của tập dữ liệu cũng là một yếu tố quan trọng để đảm bảo tính đúng đắn và đáng tin cậy của các kết quả thu được Trong chương
3 này, tác giả sẽ trình bày chi tiết về cách lựa chọn tập dữ liệu, phân tích và đánh giá các tập dữ liệu này Sau đó xây dựng ứng dụng thử nghiệm với hai giai đoạn, giai đoạn thứ nhất là trích xuất hệ số Cepstral của tần số Mel (MFCC) của tiếng ho, giai đoạn thứ hai là phân loại nhãn truy vấn, trong đó MFCC được chuyển tiếp đến mạng nhúng để ánh xạ dữ liệu và không gian nhúng của mạng nguyên mẫu Cuối cùng sẽ là so sánh với các phương pháp khác.
Bộ dữ liệu được sử dụng là COVID-19 Thermal Face & Cough Dataset [19] bao gồm dữ liệu nhiệt mặt và bộ dữ liệu ho, tác giả đã sử dụng bộ dữ liệu ho cho các thử nghiệm Bộ dữ liệu ho bao gồm 53.471 giây mẫu không ho, bao gồm tiếng ồn môi trường, văn phòng, âm nhạc, sân bay, quán cà phê, âm thanh hỗn loạn, âm thanh nhiễu và 1.557 giây âm thanh ho Ngoài ra, 40.856 giây âm thanh ho được tăng cường với tiếng ồn xung quanh ngẫu nhiên ở tỷ lệ âm lượng ngẫu nhiên Mỗi tệp âm thanh kéo dài 1 giây và được lấy mẫu ở tốc độ 44.100Hz Trong các thử nghiệm của mình, tác giả chỉ sử dụng 08 loại ho: Barking cough, Chesty and wet cough, Coughing up crap again, Dry afternoon cough, gaggy wet cough, Spring allergy coughing, Heavy cold, and sore throat coughing, Night wet cough, số lượng bản ghi được gán nhãn cụ thể như sau:
● Chesty and wet cough: 1664 bản ghi;
● Coughing up crap again: 884 bản ghi;
● Dry afternoon cough: 1040 bản ghi;
● Gaggy wet cough: 1117 bản ghi;
● Spring allergy coughing: 884 bản ghi;
● Heavy cold and sore throat coughing: 416 bản ghi;
● Night wet cough: 1300 bản ghi;
Hình 3 1 Tệp âm thanh dài 1 giây được lấy mẫu ở tốc độ 44.100 Hz trong tập dữ liệu mẫu Để thuận tiện cho việc đào tạo và giám sát, tất cả các tệp dữ liệu cùng nhãn sẽ được đặt vào cùng một thư mục và tên của thư mục là tên nhãn Tên của các tệp sẽ được đặt theo một kiểu nhất định: [Tên nhãn_số thứ tự].
Hình 3 2 Hình ảnh quang phổ âm thanh đặc trưng mỗi loại ho
Môi trường thử nghiệm được hiển thị trong bảng sau:
3.3 Xây dựng ứng dụng thử nghiệm
3.3.1 Kịch bản và công cụ thử nghiệm a) Kịch bản
Trong đề án này, tác giả giải quyết trường hợp một loại bệnh đường hô hấp xuất hiện đột ngột, có các triệu chứng tương tự như các bệnh ho thông thường, không có trong dữ liệu trước đó Các chẩn đoán các bệnh này về khách quan thường nhầm lẫn Chúng ta có thể lấy Covid-19 làm ví dụ cụ thể Dữ liệu chỉ có thể được thu thập từ những bệnh nhân mắc bệnh này Mục tiêu của đề án là phân loại và phát hiện các bệnh ho mà không cần đến bộ dữ liệu thống nhất khổng lồ. Đầu tiên, ứng dụng được đào tạo bằng cách sử dụng các tập dữ liệu hỗ trợ đã được gán nhán để có thể học và khai thác dữ liệu Để đạt được điều này, đề án thiết kế một quy trình đào tạo bao gồm hai giai đoạn: giai đoạn đầu tiên là trích xuất hệ số cepstral từ tần số Mel (MFCC) của tiếng ho Giai đoạn thứ hai là phân loại nhãn truy vấn, trong đó MFCC được chuyển tiếp đến mạng nhúng để ánh xạ dữ liệu vào không gian nhúng Giai đoạn này được xây dựng dựa trên các mạng nguyên mẫu để tạo không gian nhúng các bản ghi âm Trong không gian này, việc phân loại được thực hiện bằng cách tính toán khoảng cách đến nguyên mẫu của các lớp. b) Công cụ thử nghiệm
Hệ thống này được xây dựng là một trang web phát triển bằng ngôn ngữPython với Framework lựa chọn ở đây là Django Ngoài ra còn sử dụng thêmHTML, Javascript Trang web này được xây dựng một cách đơn giản Người dùng chỉ cần truy cập vào đường dẫn là có thể thực hiện được các tác vụ của trang web.
Người dùng sau khi truy cập thành công vào trang web có thể lựa chọn các bản ghi âm thanh lần lượt cho dữ liệu truy vấn, dữ liệu hỗ trợ Sau đó chọn xem kết quả để xem kết quả nhãn phân loại.
3.3.2 Xây dựng hệ thống Ứng dụng sử dụng Python bao gồm nhiều thư mục với các mục đích sử dụng khác nhau Phần chính bao gồm các thư mục data bên trong chứa các tệp dữ liệu âm thanh mẫu Ngoài ra, các thư mục khác chứa các tệp giao diện html, javascript, view.py, url.py…
Mô hình của hệ thống cụ thể như sau: người dùng sử dụng thiết bị di động như điện thoại hoặc máy tính xách tay truy cập vào trang web qua tên miền hoặc ip để bắt đầu sử dụng Tuỳ vào tình hình thực tế, người dùng có thể sử dụng chức năng ghi âm hoặc chọn tải lên dữ liệu âm thanh đã được ghi âm sẵn lên hệ thống Ứng dụng sẽ trích xuất các đặc trưng âm thanh, sau đó phân loại và gán nhãn Cuối cùng sẽ trả kết quả về cho người dùng.
Sơ đồ ca sử dụng:
Hình 3 3 Sơ đồ ca sử dụng của hệ thống phân loại âm thanh ho bằng học sâu ít mẫu
Trong hệ thống này người dùng sẽ thực hiện ba chức năng chính, bao gồm:Ghi âm lại tệp âm thanh ho hoặc chọn tệp âm thanh ho đã ghi sẵn, sau đó gửi tệp dữ liệu lên hệ thống và cuối cùng là nhận kết quả được phân loại và gán nhãn bởi mô hình. Để có thể hiểu rõ hơn về hệ thống, chúng ta sẽ đi vào mô tả phân loại chi tiết từng ca theo chức năng của hệ thống:
- Người dùng ghi âm tiếng ho:
Bảng 3 1 Mô tả chi tiết ca người dùng ghi âm tiếng ho
UC #1 Ghi âm tiếng ho/ chọn tệp dữ liệu Độ phức tạp: Bình thường
Mô tả Chức năng này cho phép người dùng ghi âm lại âm thanh ho hoặc chọn tệp dữ liệu ghi sẵn
Tiền điều kiện Thiết bị có kết nối mạng thông với máy chủ chạy ứng dụng web
Ghi âm thành công/ tải dữ liệu thành công
Lỗi Ghi âm lỗi/tải dữ liệu lỗi, huỷ bỏ thao tác Đặc tả chức năng
Luồng sự kiện chính/ Kịch bản chính
Chức năng bắt đầu khi người dùng muốn sử dụng cần phân loại tiếng ho.
Bước 1: Ở giao diện trang chủ, người dùng chọn nút “ghi âm” hoặc “chọn tệp” để ghi âm trực tiếp hoặc tải tệp âm thanh ghi sẵn
Bước 2: Người dùng hoàn thành và gửi dữ liệu lên hệ thống
Luồng sự kiện phát sinh/ Kịch bản phát sinh
Không thể thực hiện do ghi âm lỗi, tiếng ồn môi trường xung quanh, lỗi kết nối ứng dụng, người dùng chọn không đúng định dạng tệp tải lên
Người dùng sẽ phải thực hiện lại từ bước 1.
- Người dùng gửi lên hệ thống:
Bảng 3 2 Mô tả ca sử dụng của người dùng nhận kết quả
UC #2 Nhận kết quả Độ phức tạp: Bình thường
Mô tả Chức năng này cho phép người dùng nhận và xem kết quả tệp dữ liệu được gán nhãn dự đoán.
Tiền điều kiện Thiết bị có kết nối mạng thông với máy chủ chạy ứng dụng web, tải dữ liệu thành công
Thành công Hiển thị nhãn phân loại cho dữ liệu được truy vấn
Lỗi Huỷ bỏ thao tác, thông báo lỗi Đặc tả chức năng
Luồng sự kiện chính/ Kịch bản chính
Chức năng bắt đầu sau khi người dùng ghi âm/ chọn tệp dữ liệu Bằng cách ấn nút “xem kết quả” người dùng sẽ đồng thời gửi kết quả lên hệ thống.
Sau ghi gửi dữ liệu thành công, hệ thống sẽ tự động hiển thị nhãn gán và tỷ lệ % dự đoán.
Luồng sự kiện phát sinh/ Kịch bản phát sinh
Không thể hiển thị do lỗi hệ thống.
Tại luồng chính, sau khi tải dữ liệu lên nếu dữ liệu không đúng, hệ thống sẽ thông báo lỗi và người dùng sẽ thực hiện lại.
Hình 3 4 Sơ đồ tuần tự cho người dùng thực hiện chức năng phân loại tiếng ho
Mô tả chi tiết sơ đồ tuần tự của hệ thống:
1 Tại giao diện trang chủ người dùng lựa chọn ghi âm trực tiếp hoặc chọn tệp dữ liệu ghi sẵn.
1.1 Người dùng gửi tệp ghi âm tiếng ho lên hệ thống
1.1.1 Sau khi gửi kết quả, Hệ thống đưa tệp dữ liệu truy vấn vào mô hình để dự đoán.
1.1.1.1 Mô hình trả lại kết quả được gắn nhãn cho hệ thống.
1.1.1.1.1 Hệ thống trả về kết quả dự đoán về giao diện trang phân loại
1.1.1.1.1.1 Trang phân loại hiển thị kết quả và tỷ lệ dự đoán cho người dùng
3.4 Kết quả thử nghiệm và đánh giá
Phân chia dữ liệu và xây dựng mô hình học:
Dữ liệu âm thanh được chia thành hai tập: Tập huấn luyện A u và tập kiểm tra
E u Tập huấn luyện bao gồm 6 nhãn ho: Chesty and wet cough, Coughing up crap again, Gaggy wet cough, Barking cough, Dry afternoon cough, and Spring allergy coughing Tập kiểm tra bao gồm 2 nhãn: Heavy cold, and sore throat coughing, andNight wet cough. Đề án lựa chọn mô hình mạng nguyên mẫu để học ít mẫu bằng cách tính nguyên mẫu của từng lớp nhãn phân loại sau đó tính khoảng cách từ dữ liệu truy vấn đến các nguyên mẫu Nguyên mẫu của một nhãn được coi như giá trị trung bình của các nguyên mẫu Nguyên mẫu của một nhãn được coi như giá trị trung bình của các điểm dữ liệu của nhãn đó trong tập hỗ trợ.
Trong quá trình đào tạo, tác giả đã đào tạo mô hình của mình với tỷ lệ học tập được đặt là 0,001 và quá trình đào tạo sẽ thực hiện qua 200 epoch, mỗi epoch gồm 200 lần huấn luyện theo đợt.
Hệ số MFCC được trích xuất từ cả dữ liệu hỗ trợ và truy vấn Dựa theo kinh nghiệm của các tác giả đã từng sử dụng, tác giả trích xuất các đặc trưng 40 chiều của MFCC và thiết kế cửa sổ trượt để trích xuất MFCC trong đó độ dài mỗi cửa sổ là 128ms với độ dài bước nhảy 64ms.
Mạng không gian nhúng của mô hình là RestNet-18 kết hợp với khối kênh Attention và khối tập trung không gian Trong không gian nhúng, tác giả theo dõi việc triển khai các mạng nguyên mẫu Đối với mỗi tập, một nguyên mẫu được tính bằng cách lấy trung bình các ví dụ hỗ trợ nhúng cho mỗi lớp: p c u = 1 ¿| S c u | ∨¿ ∑
|là các ví dụ hỗ trợ thuộc lớp c trong tập e.