Cấu trúc phổ của tín hiệu tiếng nói

Một phần của tài liệu Bài giảng Xử lý tiếng nói: Phần 1 (Trang 46 - 49)

Trong phân tích tín hiệu tiếng nói, thay vì sử dụng trực tiếp tín hiệu tiếng nói trong miền thời gian, ngƣời ta thƣờng hay sử dụng các đặc trƣng phổ của tiếng nói. Điều này xuất phát từ quan điểm rằng tín hiệu tiếng nói cũng giống nhƣ các tín hiệu xác định khác có thể xem nhƣ là tổng của các tín hiệu hình sin với biên độ và pha thay đổi chậm. Hơn nữa, một nguyên nhân quan trọng không kém đó là việc cảm nhận tiếng nói của con ngƣời liên quan trực tiếp đến thông tin phổ của tín hiệu tiếng nói nhiều hơn trong khi các thông tin về pha của tín hiệu tiếng nói không có vai trò quyết định.

Phổ biên độ phức của tín hiệu tiếng nói đƣợc định nghĩa là biến đổi Fourier (FT) của khung tín hiệu với khoảng thời gian phân tích n cố định:

 j   w  j m n m S es m n m e      

Biểu thức trên có thể viết lại thành:

 j    j n* w |

n n n

Biểu thức này là một cách diễn dịch phép biến đổi Fourier rời rạc theo khía cạnh mạch lọc. Tín hiệu điều biên s(n~)ejn~ dịch phổ của s(n~)xuống  lần và kết quả thu đƣợc sẽ đƣợc lựa chọn bởi một bộ lọc cửa sổ thông dải với tần số trung tâm bằng không.

Mặt khác công thức biến đổi phổ cũng có thể viết là:

 j   * w   j n* j n|

n n n

S e   s n n ee  

Công thức trên có thể diễn giải nhƣ sau: Tín hiệu s(n~) đƣợc đƣa qua bộ lọc thông dải có tần số trung tâm  và đáp ứng xung w(n~)ejn~. Kết quả thu đƣợc đƣợc dịch tần xuống bằng cách điều chế biên độ với ejn~ để tạo ra tín hiệu băng tần thấp.

Hình 2.3 Minh họa một khung tín hiệu và phổ tƣơng ứng.

Mật độ phổ công suất trong một khoảng thời gian ngắn, tức là phổ ngắn hạn của tín hiệu tiếng nói, có thể đƣợc xem nhƣ là tích của hai thành phần: thành phần thứ nhất là đƣờng biên phổ thay đổi chậm theo tần số; thành phần thứ hai là cấu trúc phổ mịn (spectral fine structure) thay đổi rất nhanh theo tần số. Đối với các âm hữu thanh thì cấu trúc phổ mịn tạo thành các mẫu tuần hoàn, còn đối với các âm vô thanh thì không. Biên phổ, hay cũng chính là đặc trƣng phổ tổng quát (overall), mô tả không chỉ các đặc tính (characteristics) cộng hƣởng và phản cộng hƣởng (anti-resonance) của các cơ quan phát âm (articulatory organs) mà còn mô tả các đặc trƣng tổng quát của phát xạ (radiation) và phổ nguồn thanh môn (glottal) ở môi và khoang mũi. Trong khi đó, cấu trúc phổ mịn mô tả tính tuần hoàn của nguồn âm.

Công thức đầu tiên là một hàm của tần số phân tích liên tục . Do đó để FT trở thành một công cụ hữu ích trong các phân tích thực tế ta cần tính toán nó với tập tần số rời rạc và hàm cửa sổ có bề rộng hữu hạn với mỗi bƣớc dịch chuyển R>1. Khi đó ta có:

      2   1 w 0,1,..., 1 k rR j m N rR m rR L S k s m rR m e k N          

N là số các tần số cách đều nhau trong khoảng 0≤  ≤ 2, L là độ dài hàm cửa sổ (đo lƣờng bằng số mẫu). Vì ta giả thiết hàm cửa sổ w(n) là hàm có tính nhân quả và có giá trị khác không chỉ trong khoảng 0≤ m ≤ L-1 do đó phần tín hiệu lấy qua cửa sổ s(m)w(rR-m) sẽ có giá trị khác không trên khoảng rR-L+1≤ m ≤ rR.

Hình 2.4 Khung tín hiệu và phổ tƣơng ứng

Một phần của tài liệu Bài giảng Xử lý tiếng nói: Phần 1 (Trang 46 - 49)