Một phương pháp để chuyển đổi sang thang Mel là sử dụng băng lọc, trong đó mỗi bộ lọc có đáp ứng tần số dạng tam giác. Số băng lọc sử dụng thường trên 20 băng. Thông thường, người ta chọn tần số từ 0 dến Fs/2 (Fs là tần số lấy mẫu tiếng nói).
Sau khi tính FFT ta thu được phổ tín hiệu (fn). Thực chất đây là một dãy năng lượng ( ) = ⌈ ( )⌉ . Cho W(n) qua một dãy K băng lọc dạng tam giác, ta được một dãy các . Tính tổng của các dãy ( ) trong từng băng lọc, ta thu được
một dãy các hệ số mk = (k=1,2,…,K)
Khối 6: Biến đổi Cosine rời rạc (DCT)
Trong bước này ta sẽ chuyển log của các giá trị mk về miền thời gian bằng cách biến đổi Cosine rời rạc (DCT). Kết quả của phép biến đổi này ta thu được các hệ số MFCC. Tần số mel Năng lượngtrên mỗi dãi tần số tần số ( ) = 2595 ∗ lg(1 + 700) 1 0 m1 mi
= 2 ln ( − 0.5) ; = 1,2 … ;
Thơng thường, chỉ có một số giá trị đầu tiên của ic được sử dụng. Trong các ứng dụng nhận dạng tiếng nói, người ta thường lấy 12 hệ số MFCC và thêm 1 hệ số năng lượng của khung sau khi đã được chuẩn hóa làm tham số đặc trưng cho tín hiệu tiếng nói (như vậy tổng cộng có Q=13 hệ số).
Khối 7: Cepstral có trọng số
Vì độ nhạy của các hệ số cepstral bậc thấp làm cho phổ toàn bộ bị đổ dốc, độ nhạy của các cepstral bậc cao gây ra nhiễu nên người ta thường sử dụng cửa sổ cepstral để cực tiểu hóa độ nhạy này. Cơng thức biểu diễn các hệ số cepstral có trọng số:
̂ = 1 +
2 ; 1 ≤ ≤
Khối 8: Lấy đạo hàm các hệ số MFCC theo thời gian
Để nâng cao chất lượng nhận dạng, người ta đưa thêm các giá trị đạo hàm theo thời gian của các giá trị hệ số MFCC vào vector hệ số tiếng nói. Các giá trị đó được tính theo:
Δ ̂ =∑ ( ̂ − ̂ )
2 ∑ ; 1 ≤ ≤ ;
Trong đó: θ là độ dài cửa sổ tính delta (thường chọn là 2 hoặc 3).
Kết thúc các bước trên với mỗi khung ta thu được một vector có 2Q thành phần biểu diễn tham số đặc trưng của tiếng nói.
Phương pháp mã dự đốn tuyến tính LPC
Mơ hình LPC được sử dụng để trích lọc các tham số đặc trưng của tín hiệu tiếng nói. Kết quả của q trình phân tích tín hiệu thu được một chuỗi gồm các khung tiếng nói. Các khung này được biến đổi nhằm sử dụng cho việc phân tích âm học.
(4.9)
(4.10)
Nội dung phân tích dự báo tuyến tính là: một mẫu tiếng nói được xấp xỉ bởi tổ hợp tuyến tính của các mẫu trước đó. Thơng qua việc tối thiểu hóa tổng bình phương sai số giữa các mẫu hiện tại với các mẫu dự đốn có thể xác định được một tập duy nhất các hệ số dự báo. Các hệ số s(n) dự báo này là các trọng số được sử dụng trong tổ hợp tuyến tính. Với dãy tín hiệu tiếng nói,giá trị dự báo được xác định bởi:
̃( ) = ( − )
Trong đó: αk: là các hệ số đặc trưng cho hệ thống.