Sơ đồ chi tiết khối trừ phổ

b, Khối biến đổi Wavelet (Wavelet transform): Sử dụng phân rã wavelet gói

phân rã tín hiệu thành các băng tần critical. Sơ đồ thực thi dùng cấu trúc cây đa phân giải 6 mức, sử dụng các bộ lọc 16-tap FIR nhận được từ wavelet Deubechies.

Biến đổi wavelet WT được sử dụng để phân giải tín hiệu thành các băng con.

Cơng thức 4.17

trong đó {Cim} là các hệ số phân rã với i tương ứng với băng con, m ứng với vị trí trên trục thời gian. Với tín hiệu tiếng nói lấy mẫu 8KHz, kết quả phân rã là 18 băng con FFT Trừ phổ nhiễu IFFT Ước lượng phổ nhiễu x(n) X(w) S(w) s(n) |N(w)|

c, Khối ước lượng ngưỡng phụ thuộc thời gian – tần số (thereshold estimation): Phương pháp ước lượng ngưỡng truyền thống của Dohono – Johnstone

chỉ phù hợp với nhiễu dừng hoặc biến đổi chậm. khơng thích hợp để khử nhiễu với tín hiệu tiếng nói . Phương pháp sử dụng ở đây của Qiang Fu [24] ước lượng độ lệch chuẩn  cho mỗi bank con trên trục thời gian.

Điều đó được thực hiện bắt đầu bằng cách phân đoạn bank con thứ i của các hệ số được phân rã Cim thành các khung Lifrm và các đoạn L iseg . Gọi là mức nhiễu ước lượng của khung thứ p và bank thư i, được ước lượng bằng các hệ số đứng trước trong đoạn với . Trước hết ta sắp xếp các hệ số theo thứ tự . Với q là một số nguyên (0<q<1), hệ số lượng tử cho đoạn là . Nhiễu được ước lượng:

Công thức 4.18

Cuối cùng ngưỡng nhiễu được ước lượng là:

Công thức 4.19

Hình 4.18 Ước lượng ngưỡng cho khung thứ p và bank con thứ i.

Một vấn đề tồn tại là tiếng nói sau khi được tổng hợp lại gặp phải một hiệu ứng gọi là “musical noise” làm cho chất lượng tiếng nói khơng cịn tự nhiên sau khi khử nhiễu. Để khắc phục, Ephraim và Malah đã phát triển một kỹ thuật đặt ngưỡng mềm mà thực nghiệm chứng tỏ khắc phục được hiện tượng “musical noise”.

Trong phần trước chúng ta gọi là ngưỡng ước lượng ban đầu cho khung thứ p và bank chon thứ i. Ta định nghĩa tỉ lệ hệ số trên ngưỡng tiền nghiệm CTR (Cofficient to Thershold Ratio) Rim

Công thức 4.20

CTR hậu nghiệm tương ứng

Công thức 4.21

Với  là một hệ số có thể thay đổi để điều khiển mức độ “trừ” phổ. 0 <  < 1, Với CTR tiền nghiệm và hậu nghiệm xác định như trên ta có cơng thức biểu diễn bộ lọc trừ phổ .

Công thức 4.22

áp dụng bộ lọc trừ phổ này cho các hệ số đã được phân rã ci

m ta có

Cơng thức 4.23

e, Khối biến đổi wavelet ngược: Tổng hợp lại tín hiệu tiếng nói bằng biến

đổi wavelet ngược, tín hiệu đầu ra được tổng hợp là tín hiệu tiếng nói đã được triệt nhiễu và nâng cao chất lượng.

4.4 Ứng dụng biến đổi wavelet nhận dạng tiếng nói

4.4.1 Tổng quan

Biến đổi wavelet (WT) cung cấp một công cụ thay thế biến đổi Fourier (FT) truyền thống. Giản đồ tỉ lệ Scalogram sinh ra bởi WT có nhiều ưu điểm so với giản đồ phổ Spectrogram sinh ra bởi FT. Cả cấu trúc formant và cấu trúc hài (harmonic structure) của tín hiệu tiếng nói đều có thể quan sát trên giản đồ Scalogram, từ đó các nhà nghiên cứu nảy sinh ý tưởng WT có thể phù hợp trong việc phân tích tiếng nói để tìm ra các đặc trưng phục vụ nhận dạng tiếng nói. Biến đổi CWT gần đây đã được một số nhà nghiên cứu sử dụng trong nhận dạng âm tiết, từ rời rạc tiếng Anh [31], âm tiết, từ rời rạc và thanh điệu tiếng Việt [15]. Biến đổi DWT cũng được sử dụng để nhận dạng từ rời rạc tiếng Anh [26]. Các kết quả đã chứng minh rằng DWT thực thi tốt hơn LPC với các âm vô thanh tuy nhiên với nhận dạng từ rời rạc DWT kém hơn hẳn CWT và Mel-Scale Frequency Ceptra Cofficients (MFCC). Trong phần này, chúng ta nghiên cứu về phương pháp nhận dạng dùng DWT và CWT

4.4.2 Nhận dạng tiếng nói dùng biến đổi CWT

Cấu trúc CWT đơn giản hóa được gọi là SCWT được sử dụng rộng rãi trong nhận dạng tiếng nói. Trong SCWT, wavelet mẹ được cắt từ vùng thời gian liên tục từ đến . Wavelet được lấy mẫu với khoảng cách mẫu bằng

Cơng thức 4.24

Trong đó No là số lượng mẫu có độ phân giải đủ lớn đối với tỉ lệ nhỏ nhất (tần số lớn nhất). Tỉ lệ của wavelet mẹ được lấy mẫu được tính bằng cách thay đổi khoảng cách mẫu . Hệ số tỉ lệ a>=1, có thể lấy giá trị bất kỳ chỉ cần hình dáng kết quả khơng q sparse. Tham số dịch là cố định bằng một hằng số b0 để tránh việc lấy mẫu không đều.

Công thức 4.25

với

Công thức 4.26

với đáp ứng tần số là

Công thức 4.27

SCWT được thực hiện đơn giản bằng bộ lọc tuyến tính, người ta thường rời rạc biến tỉ lệ bằng cách chọn khi và V là số lượng âm trên một octave.

Việc lựa chọn wavelet mẹ là rất quan trọng, khơng phải hàm wavelet mẹ nào cũng có thể dùng cho nhận dạng tiếng nói. Thực tế mũ Mexico rất phổ biến trong xử lý ảnh nhưng khơng thích hợp cho nhận dạng tiếng nói do đặc tuyến tần số bằng phẳng dẫn tới kết quả độ phân giải các tần số formant thấp. Trong hầu hết các hệ thống nhận dạng tiếng nói người ta sử dụng Morlet wavelet.

Đơn giản hóa wo = 5.5, hàm wavelet Morlet có dạng:

Cơng thức 4.28

Wavelet Morlet được thể hiện trên hình 4.17 và SCWT của một đoạn tiếng nói được trình bày trên hình 4.18

Lý thuyết nhận dạng tiếng nói

Minh họa hoạt động bộ lọc IIR