Hình ảnh mơ tả q trình biến đổi STFT

Một phần của tài liệu Nghiên cứu và phát triển một số kỹ thuật tấn công đối kháng trong một số mô hình nhận diện phân loại giọng nói tiếng việt (Trang 29 - 31)

7 Tổng kết

2.2Hình ảnh mơ tả q trình biến đổi STFT

Để có được STFT, ta thực hiện nhân tín hiệu với một hàm cửa sổ (window function) w(tτ) và thực hiện biến đổi Fourier trên các cửa sổ. Kết quả tạo ra một biến đổi hai chiều STFT(ω,τ) được biểu diễn như sau

STFT(ω,τ) = Z ∞

−∞x(t)w(tτ)e−iωtdt.

Để có được sự phân giải thời gian và tần số tốt, ta sử dụng cửa sổ Gausian và khi đó STFT được gọi là biến đổi Gabor. STFT được sử dụng để tạo ra

giản đồ phổ trong phân tích thoại và cửa sổ hay được dùng là Hamming window vì nó u cầu tính tốn ít hơn so với Gaussian window.

2.1.4. Biến đổi wavelet

Biến đổi wavelet [15] ưu việt hơn STFT ở chỗ nó cung cấp một kỹ thuật lấy cửa sổ với kích thước cửa sổ có thể thay đổi được. Biến đổi wavelet cho phép sử dụng khoảng thời gian dài trên một đoạn tín hiệu mà chúng ta mong muốn có thơng tin tần số thấp chính xác hơn. Và ngược lại sử dụng khoảng thời gian ngắn hơn ở nơi mà chúng ta muốn có thơng tin tần số cao rõ ràng hơn. Nói cách khác, phân tích wavelet cung cấp khả năng định vị tần số và định vị thời gian tốt hơn.

Ý tưởng cơ bản của phép biến đổi wavelet là phép biến đổi làm thay đổi vị trí, độ giãn nở của một sóng trên miền thời gian mà khơng thay đổi hình dạng của sóng đó. Từ đó dẫn đến một điểm chú ý ở đây là biến đổi wavelet khơng ánh xạ tín hiệu sang miền thời gian và tần số mà thay vào đó là miền thời gian và tỷ lệ (time-scale).

Với hàm số ψL2(R) được gọi là wavelet mẹ, wavelet này là một sóng nhỏ được định vị, thay vì dao động mãi mãi, nó suy giảm nhanh về khơng. Thơng thường nó bắt đầu thời điểmt =0 và kết thúc tại t =N. Ta có thể xây dựng một họ các wavelet{ψjk :j,kZ}với j là hệ số dịch chuyển của wavelet và k là hệ số giãn của wavelet như sau

ψjk(t) = 2j2ψ2jtk.

Wavelet được dịch chuyển ψ0k(t) bắt đầu tại t = k và kết thúc tại

t = k+N, đồ thị của chúng được dịch chuyển sang phải k lần. Wavelet tỷ lệ ψj0(t) bắt đầu tại t= 0 và kết thúc tại t =N.2j, đồ thị của chúng được nén lại 2j lần.

Wavelet là những hàm cơ sở ψjk(t) liên tục theo thời gian. Cơ sở là tập các hàm độc lập tuyến tính dùng tạo ra hàm f(t) được biểu diễn như sau

f(t) =

X

j,k=−∞

cjkψjk(t).

Một phần của tài liệu Nghiên cứu và phát triển một số kỹ thuật tấn công đối kháng trong một số mô hình nhận diện phân loại giọng nói tiếng việt (Trang 29 - 31)