Trong phân tích tín hiệu tiếng nói, thay vì sử dụng trực tiếp tín hiệu tiếng nói trong miền thời gian, người ta thường hay sử dụng các ñặc trưng phổ của tiếng nói. ðiều này xuất phát từ quan ñiểm rằng tín hiệu tiếng nói cũng giống như các tín hiệu xác ñịnh khác có thể xem như là tổng của các tín hiệu hình sin với biên ñộ và pha thay ñổi chậm. Hơn nữa, một nguyên nhân quan trọng không kém ñó là việc cảm nhận tiếng nói của con người liên quan trực tiếp ñến thông tin phổ của tín hiệu tiếng nói nhiều hơn trong khi các thông tin về pha của tín hiệu tiếng nói không có vai trò quyết ñịnh.
Phổ biên ñộ phức của tín hiệu tiếng nói ñược ñịnh nghĩa là biến ñổi Fourier (FT) của khung tín hiệu với khoảng thời gian phân tích n cốñịnh:
( )j ( ) (w ) j m n m S eω s m n m eω ∞ =−∞ = ∑ − (3.9) Biểu thức (3.9) có thể viết lại như sau:
( )j ( ( ) j n)* w( )|
n n n
S eω = s n e− ωɶ n =
ɶ
ɶ ɶ (3.10)
Biểu thức (3.10) ñược gọi là một cách diễn dịch phép biến ñổi Fourier rời rạc theo khía cạnh mạch lọc. Tín hiệu ñiều biên $s(\tilde{n})e^{-j\omega \tilde{n}}$ dịch phổ của $s(\tilde{n})$ xuống ω lần và kết quả thu ñược sẽñược lựa chọn bởi một bộ lọc cửa sổ thông dải với tần số trung tâm bằng không.
Mặt khác công thức (3.9) cũng có thể viết là: ( )j ( ( )* w( ( ) j n))* j n | n n n S eω = s n n eωɶ e−ωɶ = ɶ ɶ ɶ (3.11)
Công thức (3.11) có thể diễn giải như sau. Tín hiệu s n( )ɶ ñược ñưa qua bộ lọc thông dải có tần số trung tâm ω và ñáp ứng xung w( )n eɶ j nωɶ. Kết quả thu ñược ñược dịch tần xuống bằng cách ñiều chế biên ñộ với j n
e ωɶ ñể tạo ra tín hiệu băng tần thấp. Hình 3.3 minh họa một khung tín hiệu và phổ tương ứng.
Mật ñộ phổ công suất trong một khoảng thời gian ngắn, tức là phổ ngắn hạn của tín hiệu tiếng nói, có thểñược xem như là tích của hai thành phần: thành phần thứ nhất là ñường biên phổ thay ñổi một cách chậm chạp theo tần số; thành phần thứ hai là cấu trúc phổ mịn (spectral fine structure) thay ñổi rất nhanh theo tần số. ðối với các âm hữu thanh thì cấu trúc phổ mịn tạo thành các mẫu tuần hoàn, còn ñối với các âm vô thanh thì không. Biên phổ, hay cũng chính là ñặc trưng phổ tổng quát (overall), mô tả không chỉ các ñặc tính (characteristics) cộng hưởng và phản cộng hưởng (anti-resonance) của các cơ quan phát âm (articulatory organs) mà còn mô tả các ñặc trưng tổng quát của phát xạ (radiation) và phổ nguồn glottal ở môi và khoang mũi. Trong khi ñó, cấu trúc phổ mịn mô tả tính tuần hoàn của nguồn âm.
Công thức (3.9) là một hàm của tần số phân tích liên tục ω. Do ñó ñể FT trở thành một công cụ hữu ích trong các phân tích thực tế chúng ta cần tính toán nó với tập tần số rời rạc và hàm cửa sổ có bề rộng hữu hạn với mỗi bước dịch chuyển R>1. Khi ñó chúng ta có:
( ) ( ) ( ) 2 ( ) 1 w 0,1,..., 1 k rR j m N rR m rR L S k s m rR m e k N π − = − + = ∑ − = − (3.12)
N là số các tần số cách ñều nhau trong khoảng 0≤ ω ≤ 2π, L là ñộ dài hàm cửa sổ (ño lường bằng số mẫu). Vì chúng ta giả thiết hàm cửa sổ w(n) là hàm có tính nhân quả và có giá trị khác không chỉ trong khoảng 0≤ m ≤ L-1 do ñó phần tín hiệu lấy qua cửa sổ s(m)w(rR-m) sẽ có giá trị khác không trên khoảng rR-L+1≤ m ≤ rR.
Chương 3: Phân tích tiếng nói
Hình 3.3 Khung tín hiệu và phổ tương ứng