CHƯƠNG 2 : CƠ SỞ LÝ THUYẾT XỬ LÝ TIẾNG NÓI
2.2. BIỂU DIỄN TÍN HIỆU TIẾNG NĨI
2.2.1. Biến đổi Fourier thời gian ngắn:
Phép biến đổi Fourier không thể áp dụng đối với tín hiệu khơng dừng, vì các thành phần tần số không ổn định. Tuy nhiên nếu chúng ta chia tín hiệu khơng dừng thành những đoạn đủ nhỏ theo thời gian thì tín hiệu trong mỗi đoạn có thể xem là tín hiệu dừng và do đó có thể lấy biến đổi Fourier trên từng đoạn tín hiệu này. Như vậy, phép biến đổi Fourier thời gian ngắn STFT (Short-Time Fourier Transform) vừa có tính định vị theo tần số do tính chất của biến đổi Fourier, vừa có
tính định vị theo thời gian do được tính trong từng khoảng thời gian ngắn. Đây là nguyên lý của STFT hay còn gọi là biến đổi Fourier cửa sổ hóa.
Trong STFT, tín hiệu f(t) đầu tiên được nhân với một hàm cửa sổ w(t-τ) để lấy được tín hiệu trong khoảng thời gian ngắn xung quanh thời điểm τ. Sau đó phép biến đổi Fourier bình thường được tính trên đoạn tín hiệu này. Kết quả chúng ta được một hàm hai biến STFTf(w,t) xác định bởi:
𝑆𝑇𝐹𝑇𝑓(𝑤, 𝑡) = ∫ 𝑓(𝑡). 𝑤 ∗ (𝑡 − 𝜏)𝑒−∞∞ −𝑗𝑤𝑡𝑑𝑡 (2.57) STFT tại thời điểm τ là biến đổi Fourier của tín hiệu f(t) nhân với phiên bản dịch một khoảng τ theo thời gian w(t-τ) của cửa sổ cơ bản tập trung xung quanh τ. STFT có tính định vị theo thời gian. Cửa sổ càng hẹp thì tính định vị càng tốt.
Để thấy rõ hơn về tính định vị theo tần số, ta áp dụng định lý Parserval để viết lại (2.57) như sau:
𝑆𝑇𝐹𝑇𝑓(𝑤, 𝑡) =∫ (𝑤(𝑡 − 𝜏)𝑒−∞∞ 𝑗𝑤𝑡)∗ 𝑓(𝑡)𝑑𝑡
= 1
2𝜋∫ [𝑊 ∗ (𝑤′ − 𝑤). 𝑒−∞∞ 𝑗(𝑤′−𝑤)𝜏]. 𝐹[𝑤′]𝑑𝑤′
=𝑒−𝑗𝑤𝑡2𝜋 ∫ 𝑊 ∗ (𝑤′ − 𝑤)𝐹(𝑤′)𝑒−∞∞ 𝑗𝑤′𝑡𝑑𝑤′ (2.58) với W*(w'-w) và F(w') lần lượt là phổ của cửa sổ w(t-τ) và tín hiệu f(t).
W*(w'-w) có tác dụng như một bộ lọc dải thơng tập trung quanh tần số w có
băng thơng bằng băng thơng w(t) làm giới hạn phổ của tín hiệu F(w') xung quanh
tần số đang phân tích w. Như vậy STFT có tính định vị theo tần số. Tính định vị này càng tốt khi băng thơng của cửa sổ phân tích càng hẹp.
Ta thấy rằng, STFT chính là số đo độ giống nhau giữa tín hiệu phiên bản dịch và biến điệu của cửa sổ cơ bản vì (2.57) có thể viết lại như sau:
𝑆𝑇𝐹𝑇𝑓(𝑤, 𝑡)=∫ (𝑤(𝑡 − 𝜏)𝑒−∞∞ 𝑗𝑤𝑡)∗ 𝑓(𝑡)𝑑𝑡 = 〈𝑔𝑤,𝜏(𝑡), 𝑓(𝑡)〉 (2.59)
với gw, τ (t) = w(t - τ)ejwt là phiên bản dịch và biến thiên của w(t).
Do việc dịch thời gian một khoảng τ làm cho cửa sổ tịnh tiến một khoảng τ theo trục thời gian và biến điệu cửa sổ với ejwt là cửa sổ tịnh tiến một khoảng w theo trục tần số, nên kích thước của cửa sổ không thay đổi mà chỉ dời đến vị trí mới xung quanh (τ, w). Như vậy, mỗi hàm cửa sổ cơ sở sử dụng trong phép biến đổi này đều có một độ phân giải thời gian - tần số, chỉ khác vị trí trên mặt phẳng thời gian tần số. Do đó, có thể rời rạc hóa dễ dàng STFT trên một lưới chữ nhật (mw0, nτ0).
Nếu hàm cửa sổ là một bộ lọc hạ thơng có tần số cắt wb, hoặc băng thơng 2wb thì w0 được chọn nhỏ hơn wb và τ0 nhỏ hơn π/w0 để việc lấy mẫu không mất
thông tin. Các hàm cửa sổ tại tất cả các điểm lấy mẫu sẽ phủ kín mặt phẳng thời gian - tần số của phép biến đổi.
Độ phân giải thời gian - tần số của STFT phụ thuộc vào hàm cửa sổ. Để có độ phân giải tốt thì cửa sổ phân tích phải hẹp (về mặt thời gian). Trong khi đó, để đạt được độ phân giải tần số tốt thì băng thơng của cửa sổ phải hẹp. Tuy nhiên, theo ngun lý bất định thì khơng thể tồn tại một cửa sổ với khoảng thời gian và băng thơng hẹp tùy ý mà có một sự hốn đổi giữa hai thơng số này (do tích của chúng bị chặn dưới). Nếu ta chọn cửa sổ có băng thơng hẹp để độ phân giải tốt thì khoảng thời gian lại rộng làm cho độ phân giải thời gian lại kém đi và ngược lại, đây chính là nhược điểm của STFT.