Mã hoá Sub-band và Transform

Một phần của tài liệu Phương pháp mã hoá tiếng nói theo mô hình kíh thích đa băng (Trang 33 - 38)

2.2 Mã hoá dạng sóng

2.2.2 Mã hoá Sub-band và Transform

Các bộ mã hoá băng con (Sub-band) và mã hoá biến đổi (Transform) khai thác đặc điểm d− thừa của tín hiệu trong miền biến đổi. Các bộ mã hoá kiểu này dựa trên biểu diễn trong miền tần số của tín hiệu sau khi qua các bộ lọc (mã hoá băng con) hay dùng các biến đổi 1-1 rời rạc đối với thời gian (mã hoá biến đổi). Tốc độ dữ liệu mã hoá thấp có đ−ợc trên cơ sở phân tích đặc tính nghe của tai ng ời và cấu − trúc phổ công suất trong thời gian ngắn.

2.2.2.1 M hoá Sub-band

Cấu trúc của bộ mã hoá băng con điển hình đ ợc cho trên Hình 2.11. −

Hình 2.11 Bộ mã hoá Sub-band điển hình

Băng thông của tín hiệu đ−ợc phân thành các băng tần nhỏ dùng các bộ lọc thông tải. Đầu ra của mỗi bộ lọc đ−ợc lấy mẫu và mã hoá rồi ghép lại với nhau trên kênh truyền. ở phía thu, tín hiệu đ−ợc giải mã, đi qua các bộ lọc và tín hiệu đ ợc khôi − phục tại đầu ra chung của các bộ lọc thông dải. Hệ thống có thể là t−ơng tự hay số,

điều này tuỳ thuộc vào cách thiết lập các bộ lọc.

Quá trình mã hoá có tạo ra nhiều l−ợng tử còn qúa trình lấy mẫu tạo ra méo chồng phổ tuỳ theo mức độ chồng lấp giữa các băng con. Bộ mã hoá băng con (SBC) khai thác đặc tính thống kê về khả năng nghe để mã hoá các băng con với số bit phù hợp.

Thông thường, với tín hiệu thoại cần nhiều bit hơn cho băng tần thấp nhằm bảo đảm thông tin về tần số cơ bản hay formant.

Thiết kế của các bộ lọc (filter bank) là rất quan trọng trong mã hoá băng con, băng thông của các bộ lọc thành phần có thể bằng hoặc khác nhau. Với các băng tần thấp, bộ lọc băng thông nhỏ hơn th−ờng đ−ợc sử dụng. Nếu không có nhiễu l−ợng tử, bộ mã hoá có thể khôi phục hoàn hảo với các bộ lọc g−ơng cầu ph−ơng (QMF) trên cơ

sở lý thuyết về Wavelet.

a. Bộ mã hoá băng con AT&T:

Bộ mã hoá theo chuẩn lưu trữ và truyền tiếng nói AT&T có cấu trúc như trên Hình 2.12.

Hình 2.12 Bộ mã hoá Sub-band AT&T

Tín hiệu tiếng nói đ−ợc đ−a vào bộ lọc g−ơng cầu ph−ơng QMF phân tích, với 5

đầu ra t−ơng ứng với 5 băng tần; mỗi đầu ra bộ lọc đ−ợc đ−a vào bộ mã hoá

APCM, tốc độ dữ liệu thu đ−ợc sau khi ghép tất cả các đầu ra bộ mã hoá APCM là 16 kb/s hoặc 24 kb/s. Thuật toán nén khoảng lặng cũng là một phần của chuẩn này. ở phía thu, dòng bit đ−ợc phân chia t−ơng ứng vào các bộ giải mã APCM, các đầu ra giải mã đ−ợc đ−a vào bộ lọc g−ơng cầu ph−ơng tổng hợp, khôi phục lại tín hiệu tiếng nói ban đầu. Các dải tần t−ơng ứng cho băng con là: 0ữ0,5 kHz, 0,5ữ1 kHz, 1 2 kHz, 2 3 kHz, 3 4 kHz. Đối với tốc độ dữ liệu 16 kb/s, phân bố ữ ữ ữ số bit cho các bộ mã hoá APCM là: {4, 4, 2, 2, 0} và với tốc độ dữ liệu 24 kb/s là: {5, 5, 4, 3, 0}. Trễ mã hoá một chiều từ phía phát tới phía thu cực đại là 18 ms. Các thiết bị lưu trữ và truyền tiếng nói trước đây của AT&T đã dùng chuẩn này nh−ng sau này đã đ−ợc thay thế bởi chuẩn khác.

b. ChuÈn CCITT G.722:

Chuẩn CITT G.722 dùng cho âm thanh 7 kHz ở tốc độ 64 kb/s chất l−ợng đảm bảo cho hội nghị từ xa trên mạng ISDN dựa trên hai bộ mã hoá băng con / ADPCM. Cấu trúc bộ mã hoá này đ−ợc cho trên Hình 2.13.

Hình 2.13 Bộ mã hoá Sub-band CCITT G.722

Trong đó băng tần thấp đ−ợc l−ợng tử tốc độ 48 kb/s, còn băng tần cao là 16 kb/s.

Bộ mã hoá G.722 còn bao gồm cơ chế phân bố bit thích nghi và kênh dữ liệu phụ trợ. Để đạt tốc độ dữ liệu thấp, băng tần con thấp đ−ợc l−ợng tử ở tốc độ thấp hơn (40 hoặc32 kb/s) với độ trễ của bộ lọc gương cầu phương QMF tổng hợp-phân tích, bộ mã hoá đ−ợc thực hiện với thời gian thực (trễ nhỏ hơn 3 ms), cho chất l−ợng cao (MOS > 4).

2.2.2.2 M hoá Transform

Sơ đồ nguyên lý của các bộ mã hoá biến đổi đ−ợc cho trên Hình 2.14.

Hình 2.14 Nguyên lý mã hoá Transform

Biến đổi đ−ợc dùng phải đảm bảo tính đơn nhất để thực hiện l−ợng tử mã

hoá ở phía phát và biến đổi ng−ợc, giải mã ở phía thu. Khả năng giảm tốc độ dữ

liệu của mã hoá biến đổi (TC) chính là do đặc điểm các biến đổi đơn nhất có xu hướng tạo ra các thành phần biến đổi gần như không liên quan với nhau và có thể

đ−ợc mã hoá độc lập. Hơn nữa, các sự biến thiên của các thành phần này là chậm theo thời gian, cũng là một điểm có thể đ−ợc khai thác nhằm giảm d− thừa dữ

liệu.

Tín hiệu vào bộ mã hoá biến đổi đ−ợc xử lý theo khung, mỗi khung đều dùng loại biến đổi đơn nhất rời rạc, điều này tương đương với việc nhân ma trận nh− sau:

⎥⎥

⎥⎥

⎢⎢

⎢⎢

⎥ −

⎥⎥

⎢⎢

⎢⎢

=

⎥⎥

⎥⎥

⎢⎢

⎢⎢

− ( 1)

...

) 1 (

) 0 (

...

...

...

...

...

...

...

) 1 (

...

) 1 (

) 0 (

, 2

, 1 ,

, 2 2

, 2 1 , 2

, 1 2

, 1 1 , 1

N s

s s

t t

t

t t

t

t t

t

N S

S S

N N N

N

N N

(2.47)

hay: S = T . s (2.48)

Tín hiệu đ−ợc khôi phục bằng biến đổi ng−ợc: s = T-1. S (2.49) trong đó (2.48) biểu thị sự phân tích, (2.49) biểu thị sự tổng hợp và T-1 = TH (đối với biến đổi đơn nhất, ma trận nghịch đảo cũng là ma trận liên hợp phức chuyển vị).

Nếu không xét sai số do l−ợng tử và kênh truyền thì tín hiệu tổng hợp và phân tích là đồng nhất. Với các thành phần của biến đổi đ−ợc l−ợng tử hoá, độ chính xác của tín hiệu tổng hợp phụ thuộc vào nhiễu l−ợng tử và loại biến đổi

đ−ợc dùng. Một số biến đổi đơn nhất rời rạc điển hình đ−ợc dùng là: Biến đổi cosin rời rạc DCT, biến đổi Fourier rời rạc DFT, biến đổi Walsh Hadamard WHT, biến đổi Karhunen Loeve KLT,...

Biến đổi KLT là biến đổi đơn nhất tối −u theo nghĩa các thành phần của biến đổi được tương quan cực đại đối với bất cứ tín hiệu vào nào. Các vectơ cơ

bản của biến đổi KLT là các vectơ được chuẩn hoá của ma trận tự tương quan tín hiệu. Vì vậy, KLT phụ thuộc dữ liệu và trong nhiều tr−ờng hợp không khả thi vì

yêu cầu l ợng lớn tính toán để quyết định giá trị vectơ cơ bản. −

DFT và DCT liên quan tín hiệu, việc dùng các vectơ dựa trên tín hiệu sin và có thể đ−ợc tính toán một cách hiệu quả bằng biến đổi Fourier nhanh FFT. Đối với DFT đã chuẩn hoá, ma trận biến đổi gồm các thành phần mã phức nh− sau:

(2.50) víi DCT, ta cã:

(2.51) và biến đổi ng−ợc IDCT đ−ợc định nghĩa nh− sau:

(2.52) trong đó: λ(k) bằng 1 với k= 0 và bằng 2 với k= 1, 2, ..., N-1.

Ma trận biến đổi WHT gồm hai giá trị +1 và -1, các vectơ cơ bản tương ứng với các xung lấy mẫu có đặc tính chuỗi, độ phức tạp tính toán với biến đổi WHT N

điểm tỷ lệ với Nlog2N. Biến đổi DCT, DFT và WHT là gần tối −u với nhiều kiểu dữ

liệu có đặc tính khác nhau. Bộ biến đổi dùng DCT và các thành phần biến đổi đ−ợc mã hoá dùng l−ợng tử thích nghi đ−ợc cho trên Hình 2.15 đ−ợc gọi là bộ mã hoá

biến đổi thích nghi ATC.

Hình 2.15 Bộ mã hoá Transform thích nghi ATC

Với tốc độ dữ liệu trong khoảng 16ữ32 kb/s, bộ biến đổi ATC có SNR cao hơn mã hoá logarit PCM khoảng 17ữ23 dB. ở tốc độ 16 kb/s, ATC có SNR cao hơn ADPCM khoảng 6 dB. Độ méo chấp nhận đ−ợc cũng nhỏ ở tốc độ dữ liệu thấp tới 12 kb/s. Tuy nhiên ở tốc độ dữ liệu thấp hơn, ATC chịu ảnh hưởng của hiệu ứng “lọc thông thấp”, do chỉ có những thành phần có năng l−ợng lớn mới đ−ợc mã hoá.

Biến đổi DCT không chỉ gần tối −u mà còn có phổ biến đổi phù hợp với cấu trúc formant, pitch của tiếng nói. Ngoài ra còn có ph−ơng pháp - phân tích tổng hợp

tiếng nói dùng kết hợp biến đổi Walsh và Fourie. Trong phương pháp này, thành phần băng hẹp của tiếng nói đ−ợc biểu diễn bằng các hàm Fourier còn thành phần băng rộng đ−ợc biểu diễn bằng các hàm Walsh. Bộ mã hoá kết hợp Fourier/Walsh làm việc ở các tốc độ 16; 9,6 và 4 kb/s.

Một phần của tài liệu Phương pháp mã hoá tiếng nói theo mô hình kíh thích đa băng (Trang 33 - 38)

Tải bản đầy đủ (PDF)

(101 trang)