Thử nghiệm 1

Một phần của tài liệu (LUẬN văn THẠC sĩ) phát hiện và phân loại âm thanh ho trên các thiết bị iot (Trang 58 - 59)

Để xác minh mức độ hiệu quả các tính năng của RNN và CNN đã học đối với việc phân loại ho, chúng tôi so sánh chúng với các tính năng MFCC thường được sử dụng. Trong thí nghiệm này, chúng tôi chỉ tập trung vào hai lớp: tiếng ho và tiếng nói. Chúng tôi trích xuất 13 hệ số MFCC từ các âm thanh trong cơ sở dữ liệu của chúng tôi bằng cách sử dụng chiều rộng cửa sổ phân tích là 32ms và độ dài các bước nhảy là 16ms (chồng chéo là 50%). Các thông số phân tích này tương tự như các

thống số thường được sử dụng trong các nghiên cứu ho GIAO DỊCH IEEE TRÊN MẠCH VÀ HỆ THỐNG SINH HỌC 6 và nhận dạng giọng nói [37], [21]. Phân tích MFCC tạo ra 3 khung hình đối với mỗi khung hình ứng vơi 64ms âm thanh. Do đó, các đặc trưng của MFCC được chia thành phân đoạn 13x3 để tạo ra một thiết lập có thể so sánh được với các phân đoạn phổ được sử dụng để huấn luyện CNN và RNN. Ngoài ra, mặc dù RNN có thể sxuer lý các chuỗi có độ dài tùy ý, chúng tôi đã đặt độ dài tối đa mỗi chuỗi là 16 khung hình (64ms) để cho phép so sánh trực tiếp với các đặc trung CNN và MFCC với độ phân dải tại thời điểm đó. Với cách tiếp cận này, mỗi phương pháp trích xuât đặc trung (CNN, RNN, MFCC) mang lại các đặc trung có ý nghĩ để phân loaijbatas ký đoạn âm thanh 64 ms nào có phải sự kiện ho hay là không. Vì lớp phân loại của cả RNN và CNN đều là các hàng Softmax, nên một hàm softmax (SM) cũng được huấn luyện sử dụng các đạc trưng của MDCC. Với cùng một loại bộ phận phân loại và số lượng các đặc trung gần giống nhau, việc so sánh trực tiếp độ chính xác phân loại sẽ đưa ra kết luận về khả năng đại diện của MFCC, CNN và RNN đối với nhiệm vụ phát hiện và phân loại ho của chúng tôi. Chúng tôi cũng huấn luyện một hàm cơ sở xuyên tâm với máy vector hỗ trợ (SVM) trên MFCC để quan sát cách so sánh giữa một bộ phân loại phức tạp hơn với các mạng nơ-ron sâu. Ngoại ra, chúng tôi huấn luyện một SVM trên dữ liệu SFFT thô dùng làm thanh tham chiếu để so sánh với RNN và CNN.

Một phần của tài liệu (LUẬN văn THẠC sĩ) phát hiện và phân loại âm thanh ho trên các thiết bị iot (Trang 58 - 59)

Tải bản đầy đủ (PDF)

(74 trang)