Các nghiên cứu liên quan

Nhận dạng âm thanh được ứng dụng rất nhiều trong thực tế. Các cách phân loại truyền thống là Gaussian Mixture Models (GMM), Support Vector Machine (SVM) và Hidden Markov Models (HMM) được sử dụng nhiều trước đây trong việc nhận dạng âm thanh.

Những đặc trưng được trích xuất như MFCC (Mel Frequency Cepstral Coefficient) hay GFCC (Gammatone Frequency Cepstral Coefficients) cần phải được xử lý trước.

Nhưng những cách tiếp cận trên thường không xử lý tốt khi dữ liệu âm thanh được thu âm thông qua nhiều thiết bị và môi trường khác nhau, hoặc không cùng điều kiện thu âm. Ngược lại giải thuật Học Máy (Machine Learning) thường cho ra kết quả và độ chính xác cao hơn. Restricted Boltzmann Machine (RBM), Long-Short-Term Memory (LSTM) và Convolutional neural Network (CNN) là một trong những phương pháp tiếp cận học máy đối với việc nhận dạng.

❖ Các nghiên cứu liên quan về nhận dạng âm thanh:

Sayan Mandal, Sarthak Yadav and Atul Rai. End-to-End Bengali Speech Recognition. Staqu Technologies, India, 2020 [8].

- Nội dung nghiên cứu:

đến cuối tiếng Bengali (tiếng Bengali là một ngôn ngữ nổi bật của tiểu lục địa Ấn Độ). Nhóm tác giả đề xuất áp dụng mạng nơ ron học sâu tích chập kết hợp giữa CNN-RNN dựa trên kỹ thuật phân loại thời gian kết nối (CTC) để đánh giá hiệu suất và đạt kết quả nhận dạng tốt trên một tập dữ liệu rất lớn tiếng Bengali.

Ưu điểm của phương pháp mà nhóm tác giả đã đề xuất là cho kết quả tốt trong nhận dạng các ngôn ngữ khác của Ấn độ, cụ thể như tiếng Magadhan.

Hua Zhang, Ruoyun Gou, Jili Shang, Fangyao Shen, Yifan Wu and Guojun Dai. Pre-trained Deep Convolution Neural Network Model With Attention for Speech Emotion ecognition, 2020 [9].

- Nội dung nghiên cứu:

Hua Zhang và cộng sự đã giải quyết bài toán về nhận dạng cảm xúc trong lời nói. Dùng mơ hình mạng nơ ron học sâu DCNN kết hợp mơ hình bộ nhớ ngắn hạn dài hạn hai chiều có chú ý (Bidirectional Long Short-Term Memory with Attention – BLSTMwA). Đầu tiên, nhóm xử lý trước các mẫu giọng nói bằng cách nâng cao dữ liệu và cân bằng bộ dữ liệu. Thứ hai, nhóm đã trích xuất ba kênh của quang phổ log Mel (static, delta và delta-delta) làm đầu vào mạng DCNN. Sau đó, mơ hình DCNN được đào tạo trước trên tập dữ liệu ImageNet để tạo các tính năng cấp phân đoạn. Nhóm đã xếp chồng các tính năng này của một câu thành các đặc điểm cấp độ phát âm. Tiếp theo, họ dùng mơ hình BLSTM để tìm hiểu các đặc điểm cảm xúc cấp độ cao để tóm tắt theo thời gian, tiếp theo dùng lớp chú ý để tập hợp các tính năng liên quan đến cảm xúc. Cuối cùng, các tính năng cảm xúc cấp cao đã học được sẽ được đưa vào Mạng thần kinh sâu (DNN) để dự đốn cảm xúc cuối cùng.

Kết quả nhóm tác giả đạt được với các thực nghiệm trên cơ sở dữ liệu EMO- DB và IEMOCAP đã cho độ chính xác về mức thu hồi trung bình khơng trọng số (Unweighted Average Recall - UAR) tốt hơn các phương pháp thông thường trong nhận dạng cảm xúc lời nói (Speech Emotion Recognition – SER), cụ thể độ chính xác trung bình về UAR tương ứng là 87,86% trên bộ dữ

liệu EMO-DB và 68,50% trên bộ dữ liệu IEMOCAP, điều này đã chứng minh tính hiệu quả của phương pháp mà nhóm tác giả đã đề xuất.

Việc sử dụng mơ hình mạng nơ ron học sâu DCNN kết hợp mơ hình bộ nhớ ngắn hạn dài hạn hai chiều có chú ý (Bidirectional Long Short-Term Memory with Attention – BLSTMwA) đã tạo ra ưu thế trong việc trích xuất và tập hợp các tính năng liên quan đến đặc trưng của cảm xúc phục vụ cho kết quả nghiên của nhóm tác giả.

Anvarjon Tursunov , Mustaqeem , Joon Yeon Choeh and Soonil Kwon. Age and Gender Recognition Using a Convolutional Neural Network with a Specially Designed Multi-Attention Module through Speech Spectrograms, 2021 [10].

- Nội dung nghiên cứu:

Nhóm tác giả giải quyết bài tốn về nhận dạng giới tính và tuổi của tiếng nói Hàn Quốc. Phương pháp sử dụng của Anvarjon Tursunov và cộng sự là dùng mạng nơ ron tích chập CNN kết hợp quang phổ giọng nói để đánh giá, nhận biết giới tính và tuổi của giọng nói Hàn Quốc. Dùng cơ chế MAM (multi- attention module) để trích xuất các đặc trưng nổi bật về không gian và thời gian của dữ liệu giọng nói đầu vào một cách hiệu quả.

Kết quả đạt được: với mơ hình đề xuất của nhóm tác giả đạt 96%, 73% và 76% điểm chính xác cho phân loại giới tính, độ tuổi và độ tuổi theo giới tính, tương ứng bằng tiếng nói chung của tập dữ liệu. Kết quả tập dữ liệu nhận dạng giọng nói của Hàn Quốc là 97%, 97% và 90% cho giới tính, độ tuổi và nhận biết độ tuổi-giới tính tương ứng.

Nhóm tác giả đã tạo ra các ưu thế trong việc sử dụng cơ chế MAM, kết hợp hai đặc điểm khơng gian và thời gian đã trích xuất bổ sung cho nhau và mang lại hiệu suất cao về phân loại giới tính, độ tuổi và độ tuổi theo giới tính.

Fatih Demir, Daban Abdulsalam Abdullah, Abdulkadir Sengur. A New Deep CNN Model for Environmental Sound Classification, 2020 [11].

46 - Nội dung nghiên cứu:

Fatih Demir và các cộng sự đề xuất giải pháp phân loại âm thanh dựa trên ảnh quang phổ âm thanh kết hợp mạng nơ ron tích chập CNN. Nhóm tác giả dùng phương pháp trích xuất đặc trưng âm thanh dựa trên ảnh quang phổ âm thanh giọng nói kết hợp sử dụng mạng nơ ron tích chập CNN để nhận dạng và phân loại.

Các nghiên cứu thử nghiệm, được thực hiện trên bộ dữ liệu DCASE-2017 ASC và bộ dữ liệu UrbanSound8K, cho thấy rằng mơ hình CNN nhóm tác giả đề xuất đã đạt được kết quả tốt về độ chính xác trong phân loại lần lượt là 96,23% trên bộ dữ liệu DCASE-2017 ASC và 86,70% trên bộ dữ liệu UrbanSound8K. Việc sử dụng mơ hình CNN mới đạt ưu thế trong mô tả đặc điểm của môi trường âm thanh và thời gian thực thi phân loại âm thanh.

Yu-Fu Yeh , Bo-Hao Su , Yang-Yen Ou , Jhing-Fa Wang. Taiwanese Speech Recognition Based on Hybrid Deep Neural Network Architecture, 2020 [12].

- Nội dung nghiên cứu:

Nhóm tác giả phát triển hệ thống nhận dạng giọng nói của Đài Loan sử dụng bộ công cụ Kaldi. Cách tiếp cận như sau: vì tập dữ liệu đào tạo nhỏ, nhóm tác giả đã dùng phương pháp tăng cường âm thanh để tăng dữ liệu đào tạo. Một phương pháp nữa là làm nhiễu loạn tốc độ, giúp tăng tốc dữ liệu gốc lên 1,1 lần và làm chậm nó đi 0,9 lần. Ngồi ra nhóm tác giả dùng phương pháp khác là sử dụng dữ liệu huấn luyện đa điều kiện để mô phỏng độ vang của bài phát biểu gốc và thêm tiếng ồn xung quanh.

Kết quả đạt được: trong thử nghiệm của nhóm tác giả, tỷ lệ lỗi ký tự của dữ liệu thử nghiệm là 3,95%. Hệ thống nhận dạng giọng nói tiếng Đài Loan đạt được kết quả tốt. Trong ứng dụng thực tế, các tác giả đã thực nghiệm được các yêu cầu về kiểm tra tỷ lệ lỗi ký tự giải mã trực tuyến là 3,06%.

những ưu điểm của từng mạng nơ-ron bằng cách kết hợp các mạng nơ-ron khác nhau, bao gồm TDNN, CNN-TDNN và CNN-LSTM-TDNN giúp hệ thống nhận dạng giọng nói tiếng Đài Loan đạt kết quả tốt.

Shashidhar R, S Patilkulkarni, Nishanth S Murthy. Visual Speech Recognition using VGG16 Convolutional Neural Network, 2021 [13].

- Nội dung nghiên cứu:

Shashidhar và các cộng sự đã xây dựng hệ thống hỗ trợ giao tiếp cho những người có thính giác khiếm khuyết, cung cấp cho họ cách hiểu những từ đang được thử để truyền tải đến họ các thơng điệp thơng qua lời nói. Nhóm tác giả sử dụng mạng nơ ron tích chập CNN VGG16 để giải quyết các nội dung trong đề xuất cho bộ dữ liệu tiếng Kannada và tiếng Anh. Trong đó, tiếng Kannada là một trong các ngơn ngữ chính của Ấn độ và là ngơn ngữ chính thức của bang Karnataka - Ấn độ.

Kết quả đạt được: thực nghiệm trong việc nhận dạng giọng nói trực quan dùng mạng nơ ron tích chập CNN VGG16, nhóm tác giả đã sử dụng tập dữ liệu tùy chỉnh cho cơng việc nghiên cứu và đạt được độ chính xác là 90,10% cho cơ sở dữ liệu tiếng Anh và 91,90% cho cơ sở dữ liệu tiếng Kannada.

Ưu thế của giải pháp: Mơ hình được đề xuất bởi nhóm tác giả có thể dễ dàng mở rộng cho tập dữ liệu lớn hơn. Các phương pháp luận được đề xuất tương thích, linh hoạt với các thuật tốn khác. Với việc bổ sung các thuật tốn trích xuất tính năng như Facial Landmarks có thể nâng cao hơn nữa hiệu suất của mơ hình. Giải pháp này nếu được tối ưu hóa hơn nữa sẽ giảm thời gian đào tạo, kiểm tra, xác nhận và có thể được triển khai trên thiết bị di động như RaspberryPi, mở rộng phạm vi xác thực, ủy quyền và bảo mật.

.11 Minh họa tích chập trên ma trận ảnh

Các mơ hình CNN tiêu biểu