Nhƣ chúng ta đã biết trong môn học Xử lý tín hiệu số, việc biểu diễn phổ, hay nói cách khác là biểu diễn tín hiệu tiếng nói trong miền tần số có thể cho phép việc phân tích và tìm hiểu tín hiệu tiếng nói đƣợc thuận tiện và dễ dàng hơn.
Với tín hiệu tiếng nói số s(n), thực hiện biến đổi Fourier, ta đƣợc:
n n j e ) n ( s ) j ( S
Khi đó phổ biên độ và phổ pha của tín hiệu tiếng nói tƣơng ứng là biểu diễn |S(j)|, và arg{S(j)}. Trong phân tích tín hiệu tiếng nói, thông tin tiếng nói đƣợc chứa chủ yếu trong phổ biên độ, do đó ngƣời ta rất ít quan tâm đến phổ pha.
Biểu diễn phổ biên độ của một phân đoạn tiếng nói ứng với phát âm của âm hữu thanh đƣợc minh họa trong hình 1.16.
Hình 1.16 Minh họa phổ tín hiệu tiếng nói
Từ quan sát biểu diễn phổ biên độ, ta có thể thấy phổ biên độ có thể tách thành hai thành phần: đƣờng bao phổ và những dao động phổ nhỏ hay còn gọi là phổ nhỏ. Đƣờng
bao phổ tƣơng ứng là dạng phổ của một tín hiệu biến đổi chậm (tần số thấp). Nó tƣơng ứng là hàm truyền đạt của bộ lọc tuyến âm. Phần phổ nhỏ tƣơng ứng là dạng phổ của một tín hiệu biến đổi nhanh (tần số cao). Nó tƣơng ứng là phổ của tín hiệu tạo bởi dao động của dây thanh.
Hình 1.17 Minh họa sự khác biệt phổ giữa âm vô thanh và hữu thanh
Phổ biên độ của phân đoạn âm hữu thanh và vô thanh đƣợc minh họa trong hình 1.17. Từ biểu diễn phổ biên độ, chúng ta thấy có thể dựa trên phổ biên độ để phân biệt một cách tƣơng đối giữa âm vô thanh và hữu thanh. Phổ biên độ của phân đoạn tín hiệu ứng với âm hữu thanh có xuất hiện các cực trị của đƣờng bao phổ. Trong các cực trị này những đỉnh cực đại đƣợc gọi là các đỉnh formant, tƣơng ứng là các đỉnh cộng hƣởng của bộ lọc tuyến âm, những tần số đƣợc tăng cƣờng; các rãnh cực tiểu xen kẽ giữa các đỉnh cực đại đƣợc gọi là các phản formant (anti-formant), những tần số bị suy giảm. Ngoài ra năng lƣợng phổ của phân đoạn tín hiệu này cũng có sự tập trung chủ yếu ở phần tần thấp. Ngƣợc lại, phổ biên độ của phân đoạn tín hiệu âm vô thanh không xuất hiện các cực trị phân biệt trong đƣờng bao phổ. Nói cách khác không tồn tại các formant trong biểu diễn phổ của âm vô thanh. Ngoài ra, năng lƣợng phổ của âm vô thanh phân bố đều trên toàn dải tần số và có xu thế tập trung ở vùng tần số cao.
Cũng dễ dàng quan sát thấy rằng, mặc dù dải tần số tín hiệu tiếng nói rất rộng (20- 20000Hz), nhƣng năng lƣợng phổ của tín hiệu tiếng nói chỉ tập trung trong một khoảng từ 300-3400Hz.