Ý tưởng đằng sau ảnh phổ là tính toán một biến đổi Fourier mỗi 5ms một lần, hay biểu diễn năng lượng tại mỗi điểm thời gian/tần số. Do một vài miền tín hiệu tiếng nói ngắn hơn khoảng 100ms thường xuất hiện định kỳ, ta có sử dụng các kỹ thuật đã đề cập ở phần xử lý tín hiệu số. Tuy nhiên, tín hiệu không còn tuần hoàn khi phân tích các đoạn dài hơn, do đó, việc xác định chính xác của biến đổi Fourier không thể dùng được nữa. Hơn nữa, việc xác định này yêu cầu kiến thức của tín hiệu thời gian vô hạn. Vì hai lý do này, các kỹ thuật mới gọi là phân tích thời gian ngắn (short-time analysis) được đề xuất. Các kỹ thuật này phân tích tín hiệu tiếng nói thành một chuỗi các đoạn ngắn, gọi là các khung (frame) và phân tích mỗi khung này một cách độc lập.
Cho xm(n) là tín hiệu thời gian ngắn của khung m.
wm(n) là hàm cửa sổ, bằng 0 tại mọi điểm trừ một vùng nhỏ. Có xm(n) = x(n)wm(n)
Do hàm cửa sổ có thể có các giá trị khác nhau đối với mỗi frame m, để giữ giá trị không đổi cho tất cả frame thì:
wm(n) = w(m-n)
Biểu diễn Fourier thời gian ngắn đối với frame m được định nghĩa:
𝑋𝑚(𝑒𝑗𝜔) = ∑∞ 𝑥𝑚(𝑛)𝑒−𝑗𝜔𝑛
𝑛=−∞ = ∑∞ 𝑤(𝑚 − 𝑛)𝑥(𝑛)𝑒−𝑗𝜔𝑛
𝑛=−∞ (2.60)
Do ảnh phổ chỉ hiển thị năng lượng và không phải đoạn giới hạn của biến đổi Fourier nên mức năng lượng được tính như sau:
log∣∣𝑋(𝑘)∣∣2 = log(𝑋𝑟2(𝑘) + 𝑋𝑖2(𝑘)) (2.61)
Giá trị này được chuyển sang thang xám như hình (2.16). Các pixel mà giá trị không được tính toán được thêm vào. Đoạn nghiêng điều chỉnh độ tương phản của ảnh phổ, trong khi các điểm bão hòa mà trắng và màu đen điều chỉnh dãy động học.
Hình 2.15. Chuyển đổi giữa giá trị năng lượng log (trên trục x) sang thang xám (trục y)