Xấp xỉ các hệ số dự đoán tuyến tính

II. Tổng quan các phơng pháp mã hoá tiếng nói.

b) Xấp xỉ các hệ số dự đoán tuyến tính

Có hai phơng pháp chính để lấy gần đúng các hệ số ak đó là phơng pháp tự tơng quan (autocorrelation method ) và phơng pháp thống kê (covarience method). Cả hai phơng pháp này đều dùng kỹ thuật cực tiểu (Least-squares) và chọn các hệ số ak để cho năng lợng trung bình của tín hiệu d tạo ra đợc cực tiểu.

+ Phơng pháp tự tơng quan: Autocorrelation

Tín hiệu tiếng nói x(n) trớc hết đợc nhân với một cửa sổ phân tích w(n) có độ dài hữu hạn Lw, cho ra một đoạn tiếng nói theo cửa sổ Xw(n) = w(n).x(n). Cửa sổ đợc chọn theo cửa sổ Hamming để cực tiểu hoá năng lợng của búp phụ, cửa sổ này đợc định nghĩa nh sau:

sau đó biểu diễn năng lợng tơng ứng của sai số dự đoán E dựa vào sơ đồ và phơng trình của mạch lọc tổng hợp và phân tích đã nêu trên ta có:

Giá trị của các hệ số ak để cho E cực tiểu có thể nhận đợc bằng cách đặt

điều này tạo ra hệ phơng trình tuyến tính bậc N

Hàm tự tơng quan của tín hiệu tiếng nói đã đợc phân chia theo cửa sổ Xw(n) đợc xác định nh sau:

Đây là một hàm chẵn R(n)=R(-n), cho nên hệ phơng trình tuyến tính trên có thể đợc biểu diễn dới dạng ma trận nh sau:

Phơng trình này có dạng Toeplitz nên các hệ số ak đợc tìm ra bằng giải pháp Levinson-Durbin. Cấu trúc này đảm bảo rằng các cực của mạch lọc tổng hợp dự đoán tuyến tính (LP) nằm trong đờng tròn đơn vị và làm cho mạch lọc thoả mãn điều kiện ổn định.

+Phơng pháp thống kê: Corvariance

Đây là phơng pháp khác để xấp xỉ các thông số ak . Cả hai phơng pháp này đều đạt đợc kết quả tơng tự nhng khác nhau trong việc đặt cửa sổ phân tích. Phơng pháp thống kê phân cửa sổ đối với tín hiệu sai số trong khi phơng pháp tự tơng quan phân chia với tín hiệu tiếng nói. Trong trờng hợp này sai số của sai số dự đoán là:

Cũng làm tơng tự nh phơng pháp tự tơng quan để tìm các thông số ak ta cũng nhận đợc hệ phơng trình tuyến tính

Hệ phơng trình trên có thể đợc giải bằng phơng pháp phân tích Cholesky và từ đó tìm ra các hệ số ak. Phơng pháp thống kê này không phân chia tiếng nói đầu vào theo cửa sổ do đó nó phù hợp cho các ứng dụng lấy xấp xỉ phổ có độ phân giải cao. Phơng pháp này không đảm bảo sự ổn định của mạch lọc tổng hợp dự đoán tuyến tính toàn cực, các cực của các hệ số đã đợc lấy xấp xỉ có thể nằm ngoài đờng tròn đơn vị. Chính vì vậy phơng pháp này không đợc dùng để ứng dụng trong phơng pháp mã hoá tiếng nói WI.

c) Vấn đề nội suy hay xen kẽ các hệ số dự đoán tuyến tính:

Các hệ số ak đã đợc lấy xấp xỉ theo khung. Do đó để tránh trờng hợp có sự biến đổi lớn giữa hai khung liên tiếp thì các hệ số này đợc xen kẽ hay nội suy tại các khung con. Điều này làm cho chất lợng tiếng nói cao hơn.

Các nghiên cứu về mã hoá tiếng nói theo phơng pháp nội suy đã cho thấy rằng việc xen kẽ trực tiếp các hệ số {ak } có thể gây sự mất ổn định cho bộ lọc phân tích. Do đó các hệ số đó trớc hết đợc biến đổi sang một miền khác sau đó đợc xen kẽ và thực hiện biến đổi ngợc lại về miền cũ. Miền phổ biến đợc sử dụng trong trờng hợp này là miền tần số phổ vạch (LSF) hoặc gọi là đôi phổ vạch (LSP). Miền này vừa cho phép ổn định các hệ số dự đoán tuyến tính đợc xen kẽ vừa dễ thực hiện về phổ đồng thời về sự lợng tử.

Sự biến đổi các hệ số dự đoán tuyến tính {ak } sang miền tần số phổ vạch LSF đ- ợc thực hiện nh sau:

- Trớc hết ta có

ở đây "không" của A(z) là các "cực" của mạch lọc tổng hợp dự đoán tuyến tính hoặc "không" của mạch lọc phân tích dự đoán tuyến tính. Các "không" này sau đó

đợc bao vào trong đờng tròn đơn vị thông qua biến đổi Z bậc N+1 cho P(z) và Q(z) nh sau:

Các "không" của P(z) và Q(z) đan xen vào nhau trong đờng tròn đơn vị. Các hệ số của tần số phổ vạch đợc xác định là các vị trí góc {Wi } của các "không" nằm giữa 0 và và có thể viết nhπ sau:

Hai giá trị đầu và cuối luôn là 0 và và không cần mã hoá. Hơn nữa sự tăng dầnπ của các tần số phổ vạch nh trên đảm bảo sự ổn định cho bộ lọc tổng hợp.

Xấp xỉ các hệ số dự đoán tuyến tính

Tổng quan về bộ mã hoá W