Sơ đồ tính tốn các hệ số MFCC

Một phần của tài liệu Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh (Trang 53 - 55)

Ý nghĩa và phương pháp xác định tham số ở các khối trong sơ đồ trên mô tả như sau:

Khối 1: Bộ lọc hiệu chỉnh (Preemphasis)

DTC Gắn

trọng số Đạo hàm

theo thời gian

( ) ^ ( ) ∆ ~ ( ) Bộ lọc/ Hiệu chỉnh Phân khung Lấy cửa sổ FFT Các băng lọc tam ( ) ~( ) ( ) phổ năng N…..M ( ) ~ ( )

Tín hiệu tiếng nói s(n) được đưa qua bộ lọc số bậc thấp để phổ đồng đều hơn, giảm ảnh hưởng gây ra cho các xử lý tín hiệu sau này. Thường bộ lọc này cố định bậc một, có dạng:

H(z) = 1- az 1− 0.9≤ a≤ 1.0

Quan hệ giữa tín hiệu ra với tín hiệu vào tn theo phương trình ̃( ) = ( ) = . ( − 1)

Giá trị a thường được chọn là 0.97. Khối 2: Phân khung (Frame Blocking)

Trong khối này tín hiệu hiệu chỉnh s(n) được phân thành các khung, mỗi khung có N mẫu; hai khung kề lệch nhau M mẫu. Khung đầu tiên chứa N mẫu, khung thứ hai bắt đầu chậm hơn khung thứ nhất M mẫu và chồng lên khung thứ nhất N-M mẫu. Tương tự, khung thứ ba chậm hơn khung thứ nhất 2M mẫu (chậm hơn khung thứ hai M mẫu) và chờm lên khung thứ nhất N-2M mẫu. Quá trình này tiếp tục cho đến khi tất cả các mẫu tiếng nói cần phân tích thuộc về một hoặc nhiều khung.

Khối 3: Lấy cửa sổ (Windowing)

Bước tiếp theo là lấy cửa sổ cho mỗi khung riêng rẽ nhằm giảm sự gián đoạn của tín hiệu tiếng nói tại đầu và cuối mỗi khung. Nếu w(n), 0 ≤ n ≤ N-1, sau khi lấy cửa sổ được:

( ) = ( ) ( ); 0 ≤ ≤ − 1

Thông thường, của sổ Hamming được sử dụng. Cửa sổ này có dạng: ( ) = 0.54 − 0.46cos ( ); 0 ≤ ≤ − 1

Khối 4: Biến đổi Fourier rời rạc (FFT)

Tác dụng của FFT là chuyển đổi mỗi khung với N mẫu từ miền thời gian sang miền tần số. FFT là thuật tốn tính DFT nhanh. DFT được xác định:

( ) = ∑ ( )

Khối 5: Biến đổi sang thang đo Mel trên miền tần số

(4.4) (4.5)

(4.6)

(4.7)

Như đã nói ở trên, tai người khơng cảm nhận sự thay đổi tần số của tiếng nói tuyến tính mà theo thang Mel. Người ta chọn tấn số 1kHz, 40 dB trên ngưỡng nghe là 1000 Mel. Do đó, cơng thức gần đúng biểu diễn quan hệ tần số ở thang Mel và thang tuyến tính như sau:

Một phần của tài liệu Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh (Trang 53 - 55)