Công nghệ giảm tốc độ nguồn dữ liệu audio số.

Một phần của tài liệu truyền hình kỹ thuật số (Trang 94 - 98)

4 Ch−ơng IV: Nén tín hiệu audio

4.2. Công nghệ giảm tốc độ nguồn dữ liệu audio số.

Công nghệ mã hoá nguồn đ−ợc sử dụng để loại bỏ đi sự d− thừa trong tín hiệu audio (khi giá trị vi sai mẫu- mẫu sấp sỉ gần giá trị 0), còn công nghệ che lấp dựa

50 100 150 200 300 -50 0 110 100 90 80 70 60 50 40 30 20 10 Mức cảm nhận (dB) Thời gian (ms) 250 0 Tín hiệu che lấp

Hình II.4.2 : Sự che lấp về thời gian

Che phủ tr−ớc

Che lấp liên tục

Che phủ sau

trên mô hình tâm lý thính giác của con ng−ời có tác dụng loại bỏ các mẫu không có giá trị cảm nhận (các mẫu không nghe thấy).

Có hai công nghệ nén cơ bản. Đó là:

♦ Mã hoá dự báo miền thời gian: sử dụng mã hoá vi sai mã hoá các gía trị chêch lệch giữa các mẫu liên tiếp nhau để loại bỏ sự d− thừa thông tin nhằm thu đ−ợc dòng bít tốc độ thấp.

♦ Mã hoá chuyển đổi miền tần số: Công nghệ này sử dụng các khối mẫu PCM tuyến tính biến đổi từ miền thời gian thành một số nhất định các băng tần trong miền tần số.

Hiện t−ợng che lấp quan trọng nhất xảy ra trong miền tần số. Để lợi dụng đặc điểm này, phổ tín hiệu audio đ−ợc phân tích thành nhiều băng phụ có độ phân giải thời gian và tần số phù hợp với bề rộng các băng tần tới hạn của HAS. Mỗi băng phụ chứa một số thành phần âm rời rạc.

Cấu trúc bộ mã hoá audio cơ bản nh− sau:

Bộ lọc đa băng tần:

Bộ lọc đa băng tần (còn đ−ợc gọi là dãy bộ lọc) làm nhiệm vụ tách phố tín hiệu thành các băng con.

Có ba cách thực hiện dãy bộ lọc . Đó là:

∗ Dãy băng con : phổ tín hiệu đ−ợc chia thành các băng tần phụ có độ rộng nh− nhau t−ơng tự nh− khi chia phổ tần thành các băng tần tới hạn của hệ thống HAS. Với các tần số nhỏ hơn 500 Hz, một băng con sẽ chứa vài băng tần tới hạn. Dãy bộ lọc Mô hình tâm lý thính giác L−ợng tử và mã hoá Bộ phân phối bít Ghé p kênh Dòng mã hoá Thông tin phân phối bít Dòng bít mã hoá Tín hiệu đầu vào

Trong công nghệ nén audio, sử dụng một số loại bộ lọc băng con ví dụ PQMF (Polyphase Quadrature Mirror Filter). Bộ lọc này có độ chồng phổ thấp và th−ờng đ−ợc sử dụng cho các mẫu gần kề về mặt thời gian.

Trong tiêu chuẩn nén audio MPEG, một khung audio gồm 1152 mẫu đ−ợc chia thành 32 băng con, mỗi băng con chứa 36 mẫu.

∗ Dãy chuyển đổi: áp dụng thuật toán DCT có biến đổi ( Modified Discrete Cosine Transform-MDCT ) để chuyển đổi tín hiệu audio miền thời gian thành một số l−ợng lớn các băng con ( từ 256 đến 1024 ) trong miền tần số .

∗ Dãy bộ lọc cân bằng : ( Hybrid Filter Bank ).

Tín hiệu vào tr−ớc tiên đ−ợc chia thành 32 băng con nhờ các bộ lọc PQMF. Sau đó áp dụng phép biến đổi MDCT cho mỗi 18 mẫu của băng con. Kết quả sẽ thu đ−ợc 576 băng rất hẹp (41,76 Hz tại tần số lấy mẫu 48 KHz). Việc kết hợp này có độ phân giải thời gian khoảng 3,8 ms.

Số bộ lọc trong dãy phải đ−ợc xác định phù hợp với một số tác nhân quan trọng.

- Dãy bộ lọc có độ phân giải thấp (nghĩa là băng tần rộng) sẽ cho số l−ợng băng con nhỏ. Khi đó, trong mỗi băng con sẽ chứa hầu hết các thành phần âm của phổ tín hiệu audio khiến tác dụng che lấp giảm và sẽ cần rất nhiều bít để mã hoá các thành phần tín hiệu trong các băng con. Tuy nhiên, số l−ợng các băng con thấp sẽ giảm đ−ợc mức độ phức tạp mã hoá / giải mã mà vẫn giữ đ−ợc độ phân giải tốt về thời gian.

- Nếu dãy bộ lọc có độ phân giải cao, sẽ cho số l−ợng lớn các băng tần con và các thành phần âm đơn của phổ tín hiệu audio sẽ không rơi vào tất cả các băng con. Khi đó, một số băng con không chứa thành phần âm sẽ không cần phải mã hoá. Bề rộng băng tần hẹp cho khả năng mô phỏng tốt hơn các băng tới hạn của HAS. Tuy nhiên, có độ phân giải thời gian thấp dẫn tới hiện t−ợng có tiếng tạp lanh canh khi mã hoá tín hiệu audio ngắn.

Do vậy, có thể sử dụng dãy bộ lọc thích nghi có khả năng chuyển đổi từ dãy bộ lọc có độ phân giải cao sang dãy bộ lọc có độ phân giải thấp khi mã hoá tín hiệu audio ngắn.

Đặc tuyến của quá trình xử lý dãy bộ lọc bao gồm các yếu tố:

∗ Độ phân giải thời gian = Độ dài mẫu khối bộ lọc x 20,83às. Với tần số lấy mẫu 48 KHz, khoảng cách thời gian giữa các mẫu liên tiếp sẽ là 20,83 às. ví dụ trong mã hoá AC-3, độ phân giải thời gian là : 128 x 20,83 = 2,66 ms.

∗ Độ phân giải tần số = Bề rộng phổ cực đại / tổng số băng con. Với tần số lấy mẫu 48 KHz, bề rộng phổ tần tối đa của tín hiệu là 24 KHz . Ví dụ trong mã hoá AC-3, độ phân giải tần số là : 24.000/ 256 = 95,75 Hz.

∗ Độ dài khung dữ liệu = Số băng con x số mẫu trong một khối x 20,83 às.

Ví dụ trong tiêu chuẩn MPEG lớp I, độ dài khung dữ liệu là: 32 x 12 x 20,83 = 8 ms.

Sự phân phối bít:

Một phép phân tích mô hình tâm lý thính giác chính xác tín hiệu PCM đầu vào, sử dụng thuật toán biến đổi Fourier nhanh (Fast Fourier Transform-FFT) đ−ợc thực hiện để xác định nội dung tần số và năng l−ợng của nó. Từ ng−ỡng nghe đ−ợc và đặc tính che phủ tần số của HAS, ng−ời ta tính toán đ−ợc đ−ờng cong che lấp nh− minh họa trên hình vẽ sau đây:

Hình dạng và kích th−ớc đ−ờng cong che lấp phụ thuộc nội dung tín hiệu. Trong ví dụ ở hình vẽ trên, có thể thấy sai số giữa đ−ờng bao phổ tín hiệu và đ−ờng cong che lấp giảm xuống, điểm có giá trị max là 40 dB. Giá trị sai lệch max này quyết định số l−ợng bít (thông th−ờng l−ợng tử hoá cơ bản là 6 dB/bít) cần thiết để mã hoá tất cả các thành phần phổ tần của tín hiệu audio. Quá trình phân phối bít cần đảm bảo tạp âm l−ợng tử hoá thấp hơn ng−ỡng nghe đ−ợc .

Hình II.4.4 : Đ−ờng cong che lấp và sự phân phối bít

20 70 70 60 4k 6k 10k 12k 14k 0 2k 110 100 90 80 50 40 30 10 Biên độ (dB) Tần số (Hz) 0 8k Sự phân phối bít (SNR theo tần số) Đ−ờng cong che phủ đ−ợc tính toán Đ−ờng bao phổ tín hiệu

Trong hình II.4.4, tại vùng tần số lớn hơn 12 KHz, đ−ờng cong che lấp cao hơn đ−ờng bao phổ tín hiệu nên không cần phân phối bít để mã hoá vùng tín hiệu này.

Từ đ−ờng cong che lấp, ng−ỡng che lấp của mỗi băng con đ−ợc xác định. Chúng quy định năng l−ợng tạp âm l−ợng tử cực đại có thể chấp nhận trong mỗi băng con, tại đó tạp âm bắt đầu trở nên nghe thấy.

Sau khi −ớc l−ợng ng−ỡng che lấp cho mỗi băng tần con, các tham số xếp loại đ−ợc sử dụng để biến đổi b−ớc l−ợng tử của mỗi băng con, tức biến đổi cấu trúc tạp âm l−ợng tử sao cho phù hợp nhất. Cuối cùng, mã hoá Huffman đ−ợc sử dụng.

Lợng tử hoá :

Quá trình l−ợng tử hoá các băng tần con trong phổ tín hiệu audio là một quá trình không đồng bộ. Tức là mỗi băng con đ−ợc l−ợng tử với một b−ớc l−ợng tử khác nhau phù hợp với mức năng l−ợng cũng nh− mức độ che lấp của băng tần. B−ớc l−ợng tử đ−ợc xác định nhờ bộ phân phối bít.

Ghép kênh dữ liệu :

Các khối (hay còn gọi là các nhóm) 12 mẫu dữ liệu từ đầu ra bộ l−ợng tử hoá đ−ợc ghép kênh cùng với tham số xếp loại t−ơng ứng của chúng và thông tin phân phối bít để hình thành nên khung dữ liệu audio trong dòng bít mã hoá.

Một phần của tài liệu truyền hình kỹ thuật số (Trang 94 - 98)

Tải bản đầy đủ (PDF)

(100 trang)