Kỹ thuật trích chọn đặc trưng MFCC [3]

1. Tổng quan về mạng Nơ ron sâụ

2.2. Kỹ thuật trích chọn đặc trưng MFCC [3]

Trong nhận dạng tiếng nói, kỹ thuật trích chọn đặc trưng MFCC là phương pháp phổ biến nhất. Kỹ thuật này dựa trên việc thực hiện biến đổi để chuyển dữ liệu âm thanh đầu vào (đã được biến đổi Fourier cho phổ) về thang đo tần số Mel (một thang đo diễn tả tốt hơn sự nhạy cảm của tai người đối với âm thanh). Kỹ thuật trích chọn đặc trưng này gồm các bước biến đổi liên tiếp, đầu vào của quá trình này là một đoạn tín hiệu tiếng nóị Vì tín hiệu âm thanh sau khi được đưa vào máy tính đã được rời rạc hóa nên đoạn tín hiệu tiếng nói này bao gồm các mẫu liên tiếp nhau, mỗi mẫu là một giá trị thực, thể hiện giá trị biên độ của âm thanh tại một thời điểm. Trích chọn đặc trưng MFCC gồm sáu bước như trong hình vẽ 2.1, kết quả là một tập gồm 39 giá trị đặc trưng cho mỗi một frame tiếng nóị

Lọc hiệu chỉnh

Phân

khung Lấy cửa sổ FFT Băng lọc Mel

DCT Gán trọng số Tính năng lượng Đạo hàm theo thời gian Tín hiệu tiếng nói 12MFCC 1 energy 1 hệ số năng lượng 12∆ MFCC 12∆∆MFCC 1 ∆ energy 1∆∆ energy Hình 2.1: Các bước trích chọn đặt trưng MFCC

* Lọc hiệu chỉnh (Pre-emphasis): Tín hiệu tiếng nói s(n) được đưa qua bộ lọc số bậc thấp để phổ đồng đều hơn, giảm ảnh hưởng gây ra cho các xử lý tín hiệu sau nàỵ Thường bộ lọc này cố định bậc một, có dạng: H(z) = 1 – az-1, 0.9 ≤ a ≤ 1.0. Tín hiệu tiếng nói đầu vào ký hiệu là s(n); tín hiệu đầu ra của quá trình lọc hiệu chỉnh ký hiệu là s’(n). Tín hiệu ra có quan hệ với tín hiệu vào theo phương trình sai phân: s’(n) = s(n) – ạ s(n-1). Trong đề tài sử dụng bộ công cụ nhận dạng tiếng nói Kaldi xử lý với hệ số a = 0.97.

* Phân khung (Frame Blocking): Tín hiệu hiệu chỉnh được phân thành các khung, mỗi khung có N mẫu; hai khung kề lệch nhau M mẫụ Khung đầu tiên chứa N mẫu, khung thứ hai bắt đầu chậm hơn khung thứ nhất M mẫu và chồng lên khung thứ nhất N-M mẫụ Tương tự, khung thứ ba chậm hơn khung thứ nhất 2M mẫu (chậm hơn khung thứ hai M mẫu) và chùm lên khung thứ nhất N-2M mẫụ Quá trình này tiếp tục cho đến khi tất cả các mẫu tiếng nói cần phân tích thuộc về một hoặc nhiều khung.

* Lấy cửa sổ (Windowing): Lấy cửa sổ cho mỗi khung hình riêng rẽ, để giảm thiểu tính gián đoạn tại điểm đầu và điểm cuối của mỗi khung. Với cửa sổ 20-25ms được dịch 10ms và tần số lấy mẫu 16kHz được thể hiện trong hình 2.2.

Hình 2.2: Lấy cửa sổ (windowing)

Ta phải chia tín hiệu tiếng nói thành các khung chồng chéo liên tiếp vì tiếng nói không phải là các tín hiệu tĩnh; chúng ta muốn thông tin về một vùng đủ nhỏ mà thông tin về phổ là thông tin hữu ích.

Có các dạng cửa sổ như: cửa số hình chữ nhật (Rectangular) và cửa số Hamming. Hệ thống nhận dạng trong đề tài này trình bày sẽ sử dụng cửa sổ Hamming. Hamming: Trong loại cửa sổ này, giá trị của tín hiệu sẽ giảm dần về 0 khi tiến dần ra hai biên của framẹ Nói cách khác, nếu sử dụng cửa sổ Hamming để lấy ra các frame, năng lượng của mỗi frame sẽ tập trung ở giữa frame, một ưu điểm nữa là các giá trị biên của cửa sổ Hamming tiến dần về 0 sẽ làm bước biến đổi Fourier ngay sau trở nên dễ dàng hơn (với cửa sổ Rectangular các giá trị giữ nguyên so với mẫu tiếng nói, bên ngoài cửa sổ nhận giá trị 0, các giá trị sẽ bị tăng đột ngột ở hai biên). Với N là chiều dài cửa sổ, biểu thức hệ số của cửa sổ này là:

𝑤[𝑛] = {0.54 − 0.46 cos ( 2𝜋𝑛

𝑁 − 1) 𝑣ớ𝑖 0 ≤ 𝑛 ≤ 𝑁 − 1

0 𝑇𝑟ườ𝑛𝑔 ℎợ𝑝 𝑘ℎá𝑐

* Biến đổi Fourier nhanh (FFT): là bước chuyển đổi tín hiệu tiếng nói trong

biến đổi Fourier nhanh (FFT) thường được sử dụng để đảm bảo tốc độ. Sau khi tính FFT ta thu được phổ tín hiệụ (Thuật toán đòi hỏi N phải là lũy thừa của 2).

* Các băng lọc Mel

- Thang đo Mel: 1Mel là đơn vị của độ cao (pitch). Thang Mel là xấp xỉ tuyến tính với tần số dưới 1kHz và là hàm lo-ga với tần số trên 1kHz.

𝑀𝑒𝑙(𝑓) = 2595 𝑙𝑜𝑔10(1 + 𝑓

700)

Băng lọc Mel đồng đều trước 1kHz và tỷ lệ lo-ga sau 1kHz.

Các băng lọc Mel sử dụng để biến đổi phổ tín hiệu thu được sau khi tính FFT sang thang Mel trên miền tần số. Đầu ra của một dãy băng lọc tam giác là một dãy phổ năng lượng, tính tổng của các phổ năng lượng trong từng băng lọc ta thu được dãy các hệ số mk.

- Biến đổi Cosine rời rạc (DCT): sẽ chuyển log các giá trị mk về miền thời gian và thu được các hệ số MFCC. Trong các ứng dụng nhận dạng tiếng nói thường lấy 12 hệ số MFCC và thêm 1 hệ số năng lượng của khung sau khi đã được chuẩn hóạ

- Tính năng lượng:

Các hệ số cepstral không giữ năng lượng vì vậy chúng ta thêm một tham số năng lượng.

𝐸𝑛𝑒𝑟𝑔𝑦 = ∑ 𝑥2[𝑡]

𝑡2

𝑡=𝑡1

- Gắn trọng số: đối với các tham số đặc trưng tiếng nói được tính từ miền tần số như các hệ số MFCC, do độ nhạy của các hệ số Cepstral bậc thấp làm cho phổ toàn bộ bị đổ dốc và độ nhạy của các hệ số Cepstral bậc cao gây ra nhiễu, nên người ta thường sử dụng cửa sổ Cepstral để cực tiểu hóa các độ nhạy nàỵ

- Đạo hàm theo thời gian: đạo hàm theo thời gian của các hệ số MFCC vào trong vector tham số tiếng nói để nâng cao chất lượng nhận dạng.

Kết thúc bước trích chọn đặc trưng MFCC với mỗi frame ta thu được một vector có 39 giá trị biểu diễn tham số đặc trưng cho mỗi frame tiếng nóị Trong đó:

12 giá trị đặc trưng phổ Mel được biến đổi Fourier ngược; 12 giá trị delta phổ; 12 giá trị double delta phổ; 1 giá trị mức năng lượng; 1 giá trị delta mức năng lượng; 1 giá trị double delta mức năng lượng.

Kỹ thuật trích chọn đặc trưng MFCC [3]

Một số khái niệm chính về học sâu [17]

Lịch sử lĩnh vực học sâu