Ứng dụng học sâu ít mẫu cho phân loại tiếng ho

MỤC LỤC

ỨNG DỤNG HỌC SÂU ÍT MẪU CHO PHÂN LOẠI TIẾNG HO

Xử lý dữ liệu âm thanh

    ỨNG DỤNG HỌC SÂU ÍT MẪU CHO PHÂN. Tuy nhiên, trong những năm gần đây, khi học sâu ngày càng phổ biến và được ứng dụng rộng rãi, nó cũng đạt được nhiều thành công to lớn trong việc xử lý âm thanh. Với học sâu, các kỹ thuật xử lý âm thanh truyền thống không còn cần thiết và chúng có thể dựa vào việc chuẩn bị dữ liệu tiêu chuẩn mà không yêu cầu tạo nhiều tính năng thủ công và tùy chỉnh. Với học sâu, phương pháp xử lý dữ liệu âm thanh sẽ không xử lý ở dạng thô. Thay vào đó, phương pháp phổ biến được sử dụng là chuyển đổi dữ liệu âm thanh thành hình ảnh và sau đó sử dụng kiến trúc CNN tiêu chuẩn để xử lý dữ liệu hình ảnh đó đó. Điều này được thực hiện bằng cách tạo Spectrogram từ âm thanh. Để chi tiết vào vấn đề này chúng ta sẽ cần tìm hiểu kỹ hơn về phổ Spectrogram và Mel Spectrogram. Phổ Spectrogram a) Quang phổ. Như chúng ta đã biết, các tín hiệu có tần số khác nhau có thể được cộng dồn với nhau để tạo ra các tín hiệu tổng hợp, đại diện cho bất kỳ âm thanh nào xuất hiện cho thế giới thực. Điều này cho thấy bất kỳ tín hiệu nào cũng bao gồm nhiều tần số riêng biệt và có thể biểu biểu diễn dưới dạng tổng hợp của các tần số đó. Phổ là tập hợp các tần số được kết hợp với nhau tạo ra tín hiệu và vẽ sơ đồ tất cả các tần số có trong tín hiệu cùng với cường độ hoặc biên độ của từng tần số. Ví dụ về Spectrum. b) Miền thời gian và miền tần số. Trong xử lý âm thanh, có nhiều phép biến đổi được sử dụng để trích xuất các đặc trưng quan trọng từ tín hiệu âm thanh như: chuyển đổi tín hiệu âm thanh từ miền thời gian sang miền tần số (Fourier Transform), Biến đổi Fourier thời gian ngắn (STFT-Short Time Fourier Transform), biến đổi Constant-Q (CQT-Constant- Q Transform). Cụ thể các phép biến đổi như sau:. a) Các phép biến đổi Fourier. - Huấn luyện mô hình: Sau khi chuẩn hóa dữ liệu, các mô hình học sâu sẽ được huấn luyện bằng cách sử dụng các thuật toán như Convolutional Neural Networks (CNN), Recurrent Neural Networks (RNN), hoặc Deep Neural Networks (DNN).

    Hình 2. 1. Ví dụ về Spectrum
    Hình 2. 1. Ví dụ về Spectrum

    Trích chọn đặc trưng tiếng ho

      Biểu đồ phân bố năng lượng tại từng thời điểm và vị trí của tần số Từ hình 2.13 chúng ta sẽ quan sát thấy năng lượng phân bố tại từng thời điểm và từng vị trí tần số, màu sáng thể hiện năng lượng tại vị trí đó lớn và màu tối thì ngược lại. Sau khi nhận được phổ năng lượng từ Mel filter bank, chúng ta sẽ tính log trên Mel-scale power spectrum để có thể bắt chước cơ chế của tai con người (kém nhạy cảm trong sự thay đổi ở các tần số cao, nhạy cảm hơn ở tần số thấp). Kết quả quá trình chuyển đổi từ tín hiệu âm thanh sang MFCCs với số khung thu được khi chia âm thanh bản ghi 1 giây là 51 khung và giá trị mỗi khung là 40 ta sẽ có kích thước đầu ra là 40 x 51.

      Hình 2. 7. Mô hình xử lý âm thanh đầu vào sang MFCCs
      Hình 2. 7. Mô hình xử lý âm thanh đầu vào sang MFCCs

      Mạng học sâu ít mẫu nguyên mẫu (Prototypical Network)

      Sau bước biến đổi IDFT chúng ta thu được 12 feature đầu tiên của MFCC. Feature thứ 13 sẽ là năng lượng của frame đó. Trong bài toán nhận dạng âm thanh, thông tin về bối cảnh và sự thay đổi rất quan trọng. Đây cũng chính là hệ số kết quả của bài toán phân loại tiếng ho mà đề án lựa chọn. Kết quả quá trình chuyển đổi từ tín hiệu âm thanh sang MFCCs với số khung thu được khi chia âm thanh bản ghi 1 giây là 51 khung và giá trị mỗi khung là 40 ta sẽ có kích thước đầu ra là 40 x 51. Đây cũng là đặc trưng tín hiệu âm thanh tiếng học được trích xuất để nhập vào mô hình phân loại. khắc phục được sự thiếu hụt dữ liệu huấn luyện, đồng thời đảm bảo khả năng phân loại chính xác dữ liệu mới. Các mạng nguyên mẫu Few-shot và Zero-shot [10]. Bằng cách liên kết các mạng nguyên mẫu với phân cụm để biện minh cho việc sử dụng phương tiện lớp làm nguyên mẫu khi khoảng cách được tính toán với phân kỳ Bregman, chẳng hạn như bình phương khoảng cách Euclide. Việc lựa chọn khoảng cách là rất quan trọng, vì khoảng cách Euclide vượt trội hơn rất nhiều so với cosine đồng dạng thường được sử dụng. Các mạng nguyên mẫu đơn giản và hiệu quả hơn so với các thuật toán siêu học gần đây. Sk biểu thị tập dữ liệu hỗ trợ được gán nhãn lớp k. Mạng nguyên mẫu tính toán biểu diễn M chiều ck∈RM hoặc nguyên mẫu của mỗi lớp thông qua hàm nhúng fϕ: RD→ RM với tham số học được ϕ. Mỗi nguyên mẫu là vectơ trung bình của các điểm hỗ trợ được nhúng thuộc lớp của nó. Công thức tính nguyên mẫu ck:. Với hàm khoảng cách d: RDx RM→ [0, +∞), mạng nguyên mẫu tạo phân phối trên các lớp cho điểm truy vấn x dựa trên hàm softmax từ khoảng cách đến nguyên mẫu trong không gian nhúng. Quá trình học được tiếp hành bằng cách giảm thiểu thông qua hàm negative log-probability J(ϕ)=−logpϕ(y=k∨x) của lớp k qua SGD. Các giai đoạn huấn luyện được hình thành bằng cách chọn ngẫu nhiên một tập con từ tập huấn luyện, sau đó chọn một tập con các ví dụ trong mỗi lớp để đóng vai trò là tập hỗ trợ và một tập còn lại để đóng vai trò là điểm truy vấn.

      Hình 2. 15.  Các mạng nguyên mẫu Few-shot và Zero-shot [10]
      Hình 2. 15. Các mạng nguyên mẫu Few-shot và Zero-shot [10]

      Mô hình mạng nguyên mẫu cho phân loại tiếng ho

        - Dự đoán từ khoá mới: Tại đây việc sử dụng mạng nguyên mẫu đã được huấn luyện để dự đoán từ khoá mới bằng cách so sánh khoảng cách giữa vectơ đặc trưng của từ khoá mới và các vectơ đặc trưng của các từ khoá có sẵn. Tuy nhiên, giá trị quá nhỏ trên tập huấn luyện có thể dẫn đến hiện tượng quá khớp (overfitting) trên tập huấn luyện, dẫn đến mô hình không thể áp dụng tốt trên các tập dữ liệu mới. Do đó, cần cân bằng giữa giảm giá trị negative log-likelihood trên tập huấn luyện và tránh hiện tượng quá khớp bằng cách sử dụng các kỹ thuật regularization hoặc early stopping.

        Huấn luyện mô hình

        Lựa chọn nhãn cho dữ liệu truy vấn được thực hiện bằng cách chọn nhãn có khoảng cách Euclide nhỏ nhất từ dữ liệu truy vấn đến giá trị nguyên mẫu tương ứng. Mạng nguyên mẫu sử dụng một bộ hỗ trợ để xác định trọng tâm cho từng danh mục, sau đó các mẫu truy vấn được phân loại bằng cách tính khoảng cách tới từng nguyên mẫu. Mô hình này là một mạng tích chập f: Rnv → Rnp được tham số hoá bởi θf, mô hình học không gian np chiều, trong đó các mẫu đầu vào nv chiều của cùng một lớp là gần nhau và các mẫu đầu vào thuộc các danh mục khác nhau cách.

        Hình 2. 17  Mạng nơ-ron tích chập giãn nở được đề xuất để nhúng
        Hình 2. 17 Mạng nơ-ron tích chập giãn nở được đề xuất để nhúng

        Kết chương

        Bằng cách sử dụng hàm softmax cho khoảng cách âm, mô hình sẽ tạo ra một phân phối trên N lớp trong mỗi tập huấn luyện. Trong đó d là khoảng cách Euclide và các tham số θ của mô hình được cập nhật với độ dốc giảm dần ngẫu nhiên bằng phương trình thu nhỏ. Ngoài ra, chương 2 cũng đã cụ thể hoá việc trích rút đặc trưng âm thanh tiếng ho, huấn luyện mô hình cho phân loại âm thanh ho bằng học sâu ít mẫu.

        THỬ NGHIỆM VÀ ĐÁNH GIÁ

          1 Tệp âm thanh dài 1 giây được lấy mẫu ở tốc độ 44.100 Hz trong tập dữ liệu mẫu Để thuận tiện cho việc đào tạo và giám sát, tất cả các tệp dữ liệu cùng nhãn sẽ được đặt vào cùng một thư mục và tên của thư mục là tên nhãn. Tên của các tệp sẽ được đặt theo một kiểu nhất định: [Tên nhãn_số thứ tự].

          Hình 3. 1  Tệp âm thanh dài 1 giây được lấy mẫu ở tốc độ 44.100 Hz trong tập dữ liệu mẫu
          Hình 3. 1 Tệp âm thanh dài 1 giây được lấy mẫu ở tốc độ 44.100 Hz trong tập dữ liệu mẫu

          32 GB Hệ điều

          64 bit

          • Xây dựng ứng dụng thử nghiệm 1. Kịch bản và công cụ thử nghiệm

            Dựa theo kinh nghiệm của các tác giả đã từng sử dụng, tác giả trích xuất các đặc trưng 40 chiều của MFCC và thiết kế cửa sổ trượt để trích xuất MFCC trong đó độ dài mỗi cửa sổ là 128ms với độ dài bước nhảy 64ms. Để đánh giá độ chính xác của mô hình đối với 2 nhãn kiểm tra, tác giả sử dụng Precision, Recall và F1-Score cách đánh giá này thường được áp dụng cho các bài toán phân chia hai lớp dữ liệu. Vì mạng kiến trúc nhúng được đề xuất tương tự như TC-ResNet, nên tác giả đã thực hiện một nghiên cứu cắt bỏ thay thế mạng nhúng được đề xuất, trong đó ResNet-18 kết hợp với các cơ chế chú ý được sử dụng, với việc triển khai TC- ResNet (được gọi là TD-ResNet7).

            Sơ đồ ca sử dụng:
            Sơ đồ ca sử dụng: