Ch−ơng IV: Nén tín hiệu audio

- Khung sau + Vecto chuyển

4 Ch−ơng IV: Nén tín hiệu audio

Tín hiệu audio số PCM đ−ợc sủ dụng trong TV, truyền thông đa ph−ơng tiện cũng nh− trong nhiều ứng dụng khác. Các dòng số này có tốc độ bít rất cao. Ví dụ khi âm thanh đ−ợc lấy mẫu với tần số 48 KHz và độ phân giải là 16 bít thì dòng số tạo ra sẽ có tốc độ 1,54 Mbps. Một hệ thống âm thanh surround cung cấp dòng số có tốc độ lên tới 4,5 Mbps. Bởi vậy, yêu cầu phải có một ph−ơng pháp nén hiệu quả cho l−u trữ dữ liệu thời gian dài cũng nh− khi phân phối dữ liệu qua các kênh có bề rộng dải thông hẹp.

Việc nén audio hiện nay đ−ợc tổ hợp trong các ứng dụng đa ph−ơng tiện trên cơ sở là máy tính, cho sự phân phối ch−ơng trình trên đĩa CD-ROM và mạng. Nó cũng đ−ợc sử dụng trong truyền dẫn qua vệ tinh quảng bá (Digital Broadcast Satellite-DBS).

4.1. Cơ sở của nén dữ liệu audio

Nén tín hiệu audio đ−ợc thực hiện dựa trên cơ sở là mô hình tâm lý thính giác của con ng−ời, sự hạn chế về mặt cảm nhận và hiện t−ợng che lấp các thành phần tín hiệu âm.

4.1.1. Mô hình tâm lý thính giác.

Hệ thống thính giác của con ng−ời (Human Auditory System-HAS) có đặc điểm nh− một bộ phân tích phổ. Nó chia dải phổ âm thanh nghe thấy thành các băng tần gọi là các “ băng tới hạn”(critical bands) nh− một dãy các bộ lọc thông dải. Các băng này có bề rộng dải thông là 100 Hz với các tần số d−ới 500 Hz và tăng theo tần số tín hiệu với các tần số lớn hơn 500 KHz. Bề rộng dải thông này tăng tới vài KHz khi tần số tín hiệu lớn hơn 10 KHz. Có thể mô hình hoá hệ thống cảm nhận của con ng−ời bằng 26 bộ lọc thông dải liên tiếp có bề rộng dải thông nh− đã nói.

Khi tín hiệu âm thanh bao gồm các tần số gần kề nhau, hệ thống thính giác của con ng−ời (HAS) sẽ tổ hợp chúng thành một nhóm có năng l−ợng cân bằng. Ng−ợc lại, nếu âm thanh bao gồm nhiều tần số khác biệt nhau, chúng sẽ đ−ợc xử lý tách biệt và độ lớn âm đ−ợc xác định.

Tính nhạy cảm của HAS giảm tại các tần số cao và tần số thấp. Điều này có nghĩa rằng đối với các mức âm thấp thì sự thay đổi trong cảm nhận của con ng−ời là rất quan trọng và sẽ giảm dần tại các mức âm cao.

4.1.2. Sự che lấp tín hiệu Audio

Hệ thống thính giác của con ng−ời còn có một đặc điểm vô cùng quan trọng, đó là tính che lấp “ masking”. Có hai dạng che lấp, đó là : che lấp thời gian và che lấp tần số. Tiến hành thực nghiệm đối với hệ thống thình giác, ng−ời ta đã xây dựng đ−ợc đặc tuyến che lấp trong miền thời gian và trong miền tần số.

♦ Che lấp tần số:

Sự che lấp về mặt tần số là hiện t−ợng một âm thanh nghe thấy ở tần số này bỗng trở nên không cảm nhận đ−ợc do ng−ỡng nghe thấy bị dâng lên vì sự có mặt của một âm thanh ở tần số khác có c−ờng độ mạnh hơn.

Sự che lấp về tần số đ−ợc minh hoạ bằng hình vẽ sau đây:

Để tai ng−ời có thể nghe thấy, bất cứ một âm thanh ở tần số đơn nào cũng phải có mức áp suất âm lớn hơn một giá trị ng−ỡng xác định. Tập hợp tất cả các giá trị ng−ỡng này đối với tất cả các âm đơn trong dải tần nghe đ−ợc tạo nên một đ−ờng cong gọi là “ng−ỡng nghe thấy tuyệt đối” (absolute hearing threshold), là đ−ờng đậm nét ở hình vẽ trên. Tất cả các âm thanh nằm d−ới đ−ờng cong này đều không có khả năng đ−ợc con ng−ời cảm nhận.

Do sự xuất hiện của một âm thanh có c−ờng độ cao ở một tần số nào đó, sẽ làm đ−ờng cong này sẽ biến đổi đi. Trong ví dụ trên, âm 1-KHz với mức áp suất âm 45 dB đã làm ng−ỡng nghe thấy tuyệt đối dâng lên 27dB. Điều này có nghĩa những

500 1k 5k 10k 20k 50 100 110 100 90 80 70 60 50 40 30 20 10 Mức áp suất âm_SPL (dB) Tần số (Hz)

Hình II.4.1 :Ng−ỡng nghe thấy tuyệt đối và ng−ỡng che phủ tần số Ng−ỡng tuyệt đối Tín hiệu không nghe thấy Ng−ỡng nghe đ−ợc bị biến đổi bởi âm che

lấp 10 0 Kết quả che lấp tạo bởi âm 1KHz, 65 dB Kết quả che lấp tạo bởi âm 1KHz, 45 dB

tạp âm d−ới 27 dB là không nghe thấy. Nếu sử dụng thang l−ợng tử có 6dB/ b−ớc nhảy thì chỉ cần 3 bít để mã hoá âm này vì giá trị vi sai ở đây là: 45-27 = 18 dB.

Nếu mức âm 1-KHz tăng lên tới 65 dB thì mức che phủ sẽ tăng lên tới 55 dB, gía trị vi sai lúc này chỉ còn 10 dB và có thể đ−ợc mã hoá chỉ bằng 2 bít.

Việc che phủ tần số tr−ớc và sau cũng rất quan trọng.Nh− trên hình vẽ, âm 1- KHz cũng làm ng−ỡng nghe thấy của các âm tần số xung quanh dâng lên. Sự che phủ tần số phía sau quan trọng hơn và tăng theo mức âm. Điều này cho phép giảm độ chính xác mã hoá cho những tần số tín hiệu xung quanh âm che phủ. Những âm đơn tần xung quanh 1-KHz có mức âm nhỏ hơn đ−ờng cong che phủ sẽ không có khả năng cảm nhận và không cần thiết phải mã hoá mà vẫn không làm ảnh h−ởng tới chất l−ợng cảm nhận của con ng−ời. Hệ thống nén dựa trên đặc điểm này đ−ợc gọi là hệ thống nén theo thính giác.

♦ Sự che phủ thời gian:

Sự che phủ thời gian là hiện t−ợng tai ng−ời chỉ cảm nhận đ−ợc âm sau khi âm đó bắt đầu khoảng 200 ms và có cảm t−ởng âm thanh còn kéo dài khoảng 200ms nữa sau khi âm thanh đã dứt. Ngoài ra, thính giác cũng không phân biệt đ−ợc khoảng ngừng nhỏ hơn 50 ms giữa hai âm thanh giống nhau đi liền nhau.

4.2. Công nghệ giảm tốc độ nguồn dữ liệu audio số.

Công nghệ mã hoá nguồn đ−ợc sử dụng để loại bỏ đi sự d− thừa trong tín hiệu audio (khi giá trị vi sai mẫu- mẫu sấp sỉ gần giá trị 0), còn công nghệ che lấp dựa

50 100 150 200 300 -50 0 110 100 90 80 70 60 50 40 30 20 10 Mức cảm nhận (dB) Thời gian (ms) 250 0 Tín hiệu che lấp

Hình II.4.2 : Sự che lấp về thời gian

Che phủ

tr−ớc

Che lấp liên tục

Che phủ sau

trên mô hình tâm lý thính giác của con ng−ời có tác dụng loại bỏ các mẫu không có giá trị cảm nhận (các mẫu không nghe thấy).

Có hai công nghệ nén cơ bản. Đó là:

♦ Mã hoá dự báo miền thời gian: sử dụng mã hoá vi sai mã hoá các gía trị chêch lệch giữa các mẫu liên tiếp nhau để loại bỏ sự d− thừa thông tin nhằm thu đ−ợc dòng bít tốc độ thấp.

♦ Mã hoá chuyển đổi miền tần số: Công nghệ này sử dụng các khối mẫu PCM tuyến tính biến đổi từ miền thời gian thành một số nhất định các băng tần trong miền tần số.

Hiện t−ợng che lấp quan trọng nhất xảy ra trong miền tần số. Để lợi dụng đặc điểm này, phổ tín hiệu audio đ−ợc phân tích thành nhiều băng phụ có độ phân giải thời gian và tần số phù hợp với bề rộng các băng tần tới hạn của HAS. Mỗi băng phụ chứa một số thành phần âm rời rạc.

Cấu trúc bộ mã hoá audio cơ bản nh− sau:

♦ Bộ lọc đa băng tần:

Bộ lọc đa băng tần (còn đ−ợc gọi là dãy bộ lọc) làm nhiệm vụ tách phố tín hiệu thành các băng con.

Có ba cách thực hiện dãy bộ lọc . Đó là:

∗ Dãy băng con : phổ tín hiệu đ−ợc chia thành các băng tần phụ có độ rộng nh− nhau t−ơng tự nh− khi chia phổ tần thành các băng tần tới hạn của hệ thống HAS. Với các tần số nhỏ hơn 500 Hz, một băng con sẽ chứa vài băng tần tới hạn. Dãy bộ lọc Mô hình tâm lý thính giác L−ợng tử và mã hoá Bộ phân phối bít Ghé p kênh Dòng mã hoá Thông tin phân phối bít Dòng bít mã hoá Tín hiệu đầu vào

Trong công nghệ nén audio, sử dụng một số loại bộ lọc băng con ví dụ PQMF (Polyphase Quadrature Mirror Filter). Bộ lọc này có độ chồng phổ thấp và th−ờng đ−ợc sử dụng cho các mẫu gần kề về mặt thời gian.

Trong tiêu chuẩn nén audio MPEG, một khung audio gồm 1152 mẫu đ−ợc chia thành 32 băng con, mỗi băng con chứa 36 mẫu.

∗ Dãy chuyển đổi: áp dụng thuật toán DCT có biến đổi ( Modified Discrete Cosine Transform-MDCT ) để chuyển đổi tín hiệu audio miền thời gian thành một số l−ợng lớn các băng con ( từ 256 đến 1024 ) trong miền tần số .

∗ Dãy bộ lọc cân bằng : ( Hybrid Filter Bank ).

Tín hiệu vào tr−ớc tiên đ−ợc chia thành 32 băng con nhờ các bộ lọc PQMF. Sau đó áp dụng phép biến đổi MDCT cho mỗi 18 mẫu của băng con. Kết quả sẽ thu đ−ợc 576 băng rất hẹp (41,76 Hz tại tần số lấy mẫu 48 KHz). Việc kết hợp này có độ phân giải thời gian khoảng 3,8 ms.

Số bộ lọc trong dãy phải đ−ợc xác định phù hợp với một số tác nhân quan trọng.

- Dãy bộ lọc có độ phân giải thấp (nghĩa là băng tần rộng) sẽ cho số l−ợng băng con nhỏ. Khi đó, trong mỗi băng con sẽ chứa hầu hết các thành phần âm của phổ tín hiệu audio khiến tác dụng che lấp giảm và sẽ cần rất nhiều bít để mã hoá các thành phần tín hiệu trong các băng con. Tuy nhiên, số l−ợng các băng con thấp sẽ giảm đ−ợc mức độ phức tạp mã hoá / giải mã mà vẫn giữ đ−ợc độ phân giải tốt về thời gian.

- Nếu dãy bộ lọc có độ phân giải cao, sẽ cho số l−ợng lớn các băng tần con và các thành phần âm đơn của phổ tín hiệu audio sẽ không rơi vào tất cả các băng con. Khi đó, một số băng con không chứa thành phần âm sẽ không cần phải mã hoá. Bề rộng băng tần hẹp cho khả năng mô phỏng tốt hơn các băng tới hạn của HAS. Tuy nhiên, có độ phân giải thời gian thấp dẫn tới hiện t−ợng có tiếng tạp lanh canh khi mã hoá tín hiệu audio ngắn.

Do vậy, có thể sử dụng dãy bộ lọc thích nghi có khả năng chuyển đổi từ dãy bộ lọc có độ phân giải cao sang dãy bộ lọc có độ phân giải thấp khi mã hoá tín hiệu audio ngắn.

Đặc tuyến của quá trình xử lý dãy bộ lọc bao gồm các yếu tố:

∗ Độ phân giải thời gian = Độ dài mẫu khối bộ lọc x 20,83às. Với tần số lấy mẫu 48 KHz, khoảng cách thời gian giữa các mẫu liên tiếp sẽ là 20,83

às. ví dụ trong mã hoá AC-3, độ phân giải thời gian là : 128 x 20,83 = 2,66 ms.

∗ Độ phân giải tần số = Bề rộng phổ cực đại / tổng số băng con. Với tần số lấy mẫu 48 KHz, bề rộng phổ tần tối đa của tín hiệu là 24 KHz . Ví dụ trong mã hoá AC-3, độ phân giải tần số là : 24.000/ 256 = 95,75 Hz.

∗ Độ dài khung dữ liệu = Số băng con x số mẫu trong một khối x 20,83 às.

Ví dụ trong tiêu chuẩn MPEG lớp I, độ dài khung dữ liệu là: 32 x 12 x 20,83 = 8 ms.

♦ Sự phân phối bít:

Một phép phân tích mô hình tâm lý thính giác chính xác tín hiệu PCM đầu vào, sử dụng thuật toán biến đổi Fourier nhanh (Fast Fourier Transform-FFT) đ−ợc thực hiện để xác định nội dung tần số và năng l−ợng của nó. Từ ng−ỡng nghe đ−ợc và đặc tính che phủ tần số của HAS, ng−ời ta tính toán đ−ợc đ−ờng cong che lấp nh− minh họa trên hình vẽ sau đây:

Hình dạng và kích th−ớc đ−ờng cong che lấp phụ thuộc nội dung tín hiệu. Trong ví dụ ở hình vẽ trên, có thể thấy sai số giữa đ−ờng bao phổ tín hiệu và đ−ờng cong che lấp giảm xuống, điểm có giá trị max là 40 dB. Giá trị sai lệch max này quyết định số l−ợng bít (thông th−ờng l−ợng tử hoá cơ bản là 6 dB/bít) cần thiết để mã hoá tất cả các thành phần phổ tần của tín hiệu audio. Quá trình phân phối bít cần đảm bảo tạp âm l−ợng tử hoá thấp hơn ng−ỡng nghe đ−ợc .

Hình II.4.4 : Đ−ờng cong che lấp và sự phân phối bít

20 70 70 60 4k 6k 10k 12k 14k 0 2k 110 100 90 80 50 40 30 10 Biên độ (dB) Tần số (Hz) 0 8k Sự phân phối bít (SNR theo tần số) Đ−ờng cong che phủ đ−ợc tính toán Đ−ờng bao phổ tín hiệu

Trong hình II.4.4, tại vùng tần số lớn hơn 12 KHz, đ−ờng cong che lấp cao hơn đ−ờng bao phổ tín hiệu nên không cần phân phối bít để mã hoá vùng tín hiệu này.

Từ đ−ờng cong che lấp, ng−ỡng che lấp của mỗi băng con đ−ợc xác định. Chúng quy định năng l−ợng tạp âm l−ợng tử cực đại có thể chấp nhận trong mỗi băng con, tại đó tạp âm bắt đầu trở nên nghe thấy.

Sau khi −ớc l−ợng ng−ỡng che lấp cho mỗi băng tần con, các tham số xếp loại đ−ợc sử dụng để biến đổi b−ớc l−ợng tử của mỗi băng con, tức biến đổi cấu trúc tạp âm l−ợng tử sao cho phù hợp nhất. Cuối cùng, mã hoá Huffman đ−ợc sử dụng.

♦ L−ợng tử hoá :

Quá trình l−ợng tử hoá các băng tần con trong phổ tín hiệu audio là một quá trình không đồng bộ. Tức là mỗi băng con đ−ợc l−ợng tử với một b−ớc l−ợng tử khác nhau phù hợp với mức năng l−ợng cũng nh− mức độ che lấp của băng tần. B−ớc l−ợng tử đ−ợc xác định nhờ bộ phân phối bít.

♦ Ghép kênh dữ liệu :

Các khối (hay còn gọi là các nhóm) 12 mẫu dữ liệu từ đầu ra bộ l−ợng tử hoá đ−ợc ghép kênh cùng với tham số xếp loại t−ơng ứng của chúng và thông tin phân phối bít để hình thành nên khung dữ liệu audio trong dòng bít mã hoá.

4.3. Tiêu chuẩn nén Audio MPEG.

Tiêu chuẩn nén audio MPEG-1 (ISO/IEC 11172-3) th−ờng đ−ợc biết d−ới tên gọi MUSICAM (Maskingpattern Universal Suband Intergrated Coding and Multiplexing ) gồm ba lớp (layer) mã hoá I, II và III t−ơng ứng với hiệu quả nén và độ phức tạp tăng dần, đã đ−ợc ứng dụng trong nhiều lĩnh vực khác nhau, đặc biệt là trong phát thanh, truyền hình. Tiêu chuẩn nén audio MPEG-2 (ISO/IEC 13818-3) là b−ớc phát triển mở rộng dựa trên cơ sở MPEG-1. Ph−ơng thức nén Dolby AC-3 ứng dụng trong hệ HDTV số Grand Alliance (ATSC) cũng là một biến thể từ Audio MPEG-2.

Đối với lĩnh vực truyền hình, tiêu chuẩn MPEG có lợi điểm nổi bật là đảm bảo khả năng đồng bộ giữa video và audio khi phân kênh và giải nén.

Những đặc tính kỹ thuật cơ bản của tiêu chuẩn nén audio MPEG-1 và MPEG- 2 đ−ợc trình bày tóm tắt trong bảng sau:

MPEG-1 MPEG-2

Độ phân giải đầu

vào 16 bít. 16 bít, có thể lên tới 24 bít.

Tần số lấy mẫu 48 KHz - 44,132 KHz. 48 KHz - 44,312 KHz - 24KHz - 22,0516 KHz. Tốc độ bít Tự do, có thể lên đến 448 Kbps. Tự do, có thể lên đến 256 Kbps.

Số l−ợng kênh 2 kênh với các mode: mono,

stereo, dual, joint stereo.

Nén tín hiệu video theo MPEG-