Nén tín hiệu AUDIO

Điểm lấy mẫu của tín hiệu màu đỏ CR Điểm lấy mẫu của tín hiệu màulam C

2.5. Nén tín hiệu AUDIO

Tín hiệu audio số PCM được sử dụng trong TV, truyền thông đa phương tiện cũng như trong nhiều ứng dụng khác. Các dòng lấy mẫu với tần số là 48 khz và độ phân giải 16 bít thì dòng số tạo ra sẽ có tốc độ là 1,54 Mbit/s. Một hệ thống âm thanh surround cung cấp cho dòng số tốc độ 4,5 Mbit/s. Bởi vậy yêu cầu phải có một phương pháp nén hiệu quả cho lưu trữ dữ liệu thời gian dài cũng khi phân phối dữ liệu qua các kênh co bề rộng dải thông hẹp.

Việc nén audio hiện nay được tổ hợp trên các ứng dụng đa fương tiện trên cơ sở là máy tính, cho sự phân phối chương trình trên đĩa CD-ROM và mạng. Nó cũng được sử dụng trong truyền dẫn qua vệ tinh quảng bá.

 Cơ sở của của nén tín hiệu audio

Nén tín hiệu audio được thực hiện dựa trên cơ sở là mô hình tâm sinh lí thính giác của con người, sự hạn chế về mặt cảm nhận, hiện tượng che lấp các tín hiệu âm.

• Mô hình tâm sinh lí thính giác

Hệ thống thính giác của con người (Humam audio system _HAS) có đặc điểm như một bộ phân tích phổ. Nó chia giải phổ âm thanh nghe thấy thành các băng tần gọi là các băng tới hạn như một dãy các bộ lọc thông dải. Các băng tần này có bề rộng dải thông là 100Hz với các tần số lớn hơn 10Khz. Có thể mô hình hoá hệ thống cảm nhận của con người bằng 26 bộ lọc thông dải liên tiếp có bề rộng dải thông như đã nói.

Khi tín hiệu âm thanh bao gồm các tần số gần kề nhau, hệ thống thính giác của con người(HAS) sẽ tổ hợp chúng thành một nhóm có năng lượng cân bằng. Ngược lại, nếu có âm thanh bao gồm nhiều tần số khác biệt nhau, chúng sẽ được sử lí tách biệt và độ lớn âm thanh được xác định.

Tính nhạy của HAS giảm tại các tần số cao và các tần số thấp. Điều này có nghĩa là đối với các mức âm thanh thấp thì sự thay đổi trong cảm nhận của con người là rất quan trọng và sẽ giảm dần tại các mức âm cao.

• Sự che lấp tín hiệu audio

Hệ thống thính giác của con người còn có một đặc điểm vô cùng quan trọng, đó là tính che lấp “Masking”. Có hai dạng che lấp là: che lấp thời gian và che lấp tần số. Tiến hành thực nghiệm đối với hệ thống thính giác người ta xây dựng được đặc tuyến che lấp trong miền thời gian và trong miền tần số .

 Che lấp tần số

Sự che lấp về mặt tần số là hiện tượng một âm thanh nghe thấy ở tần số này bỗng trở lên không cảm nhận được do ngưỡng nghe thấy bị dâng lên vì sự có mặt của âm thanh ở tần số khác có cường độ mạnh hơn.

Để tai người có thể nghe thấy bất cứ một âm thanh ở một tần số đơn nào cũng phải có một mức áp suất âm thanh lớn hơn một giá trị ngưỡng nhất định. Tập hợp tất cả các giá tri ngưỡng này đối với tất cả các âm đơn trong giải tần nghe được tạo nên một đường cong gọi là: ngưỡng nghe tuyệt đối - là đường đậm nét được minh hoạ trên hình vẽ. Tất cả các âm thanh nằm dưới đường cong này đều không có khả năng được con người cảm nhận.

• Hình 2.20: Đặc tuyến che lấp đối với hệ thống thính giác trong miền tần số

Sự xuất hiện của một âm thanh có cùng độ cao ở một tần số nào đó sẽ làm cho đường cong này biến đổi đi. Trong hình vẽ trên, âm 1KHz với mức thanh áp 45dB làm cho ngưỡng nghe thấy tuyệt đối dâng 27dB. Điều này có nghĩa là những tạp âm dưới 27dB đều không nghe thấy. Nếu sử dụng thang lượng tử 6dB/ bước nhảy thì chỉ cần 3 bit để mã hoá âm này vì giá trị vi sai ở đây là: 45 – 27 = 18dB. Nếu mức âm này tăng lên tới 65dB thì mức che phủ sẽ tăng lên 55dB, giá trị vi sai lúc này chỉ còn 10dB và có thể mã hoá chỉ bằng 2 bít.

Việc che phủ tần số trước và sau cũng rất quan trọng như trên hình vẽ, âm 1KHz cũng làm cho ngưỡng nghe thấy của các âm tần số xung quanh dâng lên. Sự che phủ tần số sau quan trọng hơn và tăng theo mức âm. Điều này cho phép giảm độ chính xác mã hoá cho những tần số tín hiệu xung quanh âm che phủ. Những âm đơn tần số xung quanh 1Khz có mức âm nhỏ hơn đường cong che phủ sẽ không có khả năng cảm nhận và không cần thiết phải mã hoá mà vẫn không

làm ảnh hưởng tới chất lượng cảm nhận của con người. Hệ thống nén dựa trên đặc điểm này được gọi là hệ thống nén theo thính giác.

• Sự che phủ thời gian

Đó là hiện tượng tai người chỉ cảm nhận được âm sau khi âm đó bắt đầu khoảng 200ms và có cảm tưởng âm thanh còn kéo dài khoảng 200ms nữa sau khi âm thanh đã dứt.

Ngoài ra, thính giác cũng không phân biệt được những khoảng ngừng nhỏ hơn 50ms giữa hai âm thanh giống nhau đi liền nhau.

• Công nghệ giảm tốc độ nguồn dữ liệu audio số

Công nghệ mã hoá nguồn được sử dụng để loại bỏ đi sự dư thừa trong tín hiệu audio số (khi giá trị vi sai mẫu – xấp xỉ gần giá trị không). Còn công nghệ che lấp dựa trên mô hình tâm sinh lí thính giác của con người có tác dụng loại bỏđi các mẫu không có giá trị cảm nhận (các mẫu không nghe thấy).

Có hai công nghệ nén cơ bản là:

Mã hóa dự báo miền thời gian: Sử dụng mã hoá vi sai các giá trị chênh lệch giữa các mẫu liên tiếp nhau để loại bỏ sự dư thừa thông tin cá nhân nhằm thu được dòng số có tốc độ thấp.

Mã hoá chuyển đổi miền tần số: Công nghệ này sử dụng các khối của các mẫu PCM tuyến tính biến đổi từ miền thời gian thành một số nhất định các băng tần trong miền tần số. Hiện tượng che lấp quan trọng nhất xảy ra trong miền tần số. Để lợi dụng đặc điểm này, phổ của tín hiệu audio được phân tích thành nhiều băng phụ cóđộ phân giải thời gian và tần số phù hợp với độ rộng các băng tần tới hạn của HAS. Mỗi băng phụ chứa một số thành phần âm rời rạc.

Cấu trúc bộ mã hoá audio cơ bản như sau:

Có ba cách thực hiện dãy bộ lọc. Đó là:

 Đa băng tần: Phổ của tín hiệu được chia thành các băng tần phụ có độ rộng bằng nhau tương tự như khi chia phổ tần thành các băng tần tới hạn của hệ thống HAS.

Với các tần số nhỏ hơn 500Hz một băng con sẽ chứa vài băng tần tới hạn.  Trong công nghệ nén audio, sử dụng một loại bộ lọc bộ lọc băng con. Ví dụ

PQMF - bộ lọc gương đa pha bình phương. Bộ lọc này cóđộ chồng phổ thấp và thường được sử dụng cho các mẫu gần kề về mặt thời gian.

Trong tiêu chuẩn nén AUDIO MPEG một khung audio gồm 1152 mẫu được chia thành 32 băng con, mỗi băng con có 36 mẫu.

 Dãy chuyển đổi: áp dụng thuật toán DCT có cải biên (MDCT) được dùng để biến đổi tín hiệu audio miền thời gian thành một số lượng lớn các băng con (từ 256 đến 1024 ) trong miền tần số .

 Dãy bộ lọc cân bằng: tín hiệu vào trước tiên được chia thành 32 băng con nhờ các bộ lọc PQMF. Sau đó áp dụng phép biến đổi MDCT cho mỗi 18 mẫu của băng con. Kết quả sẽ thu được 576 băng rất hẹp (41,76 Hz tại tần số lấy mẫu 48Khz). Việc kết hợp này cóđộ phân giải thời gian khoảng 3.8ms.

Bộ lọc trong dãy phải được xác định phù hợp với một số tác nhân quan trọng. • Dãy bộ lọc có độ phân tích thấp (nghĩa là băng tần rộng) sẽ cho số lượng băng con nhỏ. Trong mỗi băng con sẽ chứa hầu hết các thành phần âm của phổ tín hiệu audio khiến tác dụng che lấp giảm và sẽ cần rất nhiều bit để mã hoá các thành phần tín hiệu trong các băng con. Tuy nhiên, số lượng các băng con thấp sẽ giảm được mức độ phức tạp mã hóa/giải mã mà vẫn giữđược độ phân giải tốt về thời gian.

• Nếu dãy bộ lọc cóđộ phân tích cao, sẽ cho số lượng lớn các băng con. Khi đó, một số băng con không chứa thành phần âm sẽ không cần phải mã hoá. Bề rộng băng tần hẹp cho khả năng mô phỏng tốt hơn các băng tới hạn của HAS. Tuy nhiên, có độ phân giải thời gian thấp dẫn đến hiện tượng có tiếng tạp âm lanh canh khi mã hoá tín hiệu audio ngắn.

Do vậy, có thể sử dụng dãy bộ lọc thích nghi có khả năng chuyển đổi từ dãy bộ lọc có độ phân giải cao sang dãy bộ lọc có độ phân giải thấp khi mã hoá tín hiệu audio ngắn.

Đặc tuyến của quá trình xử lí dãy bộ lọc bao gồm các yếu tố:

• Độ phân giải thời gian = độ dài mẫu khối bộ lọc* 20,83 us. Với tần số lấy mẫu 48Khz, khoảng cách thời gian giữa các mẫu liên tiếp sẽ là 20,83 us. Ví dụ trong mã hoá AC-3 độ phân giải thời gian là 128*20,83=2,66ms.

• Độ phân giải tần số = bề rộng phổ cực đại/tổng số băng con. Với tần số lấy mẫu 48KHz, bề rộng phổ tần tối đa là 24 KHz. Ví dụ trong mã hoá AC-3, độ phân giải tần số là: 24000/256 = 95,75 Hz.

• Độ dài khung dữ liệu = số băng con trong một khối * số mẫu trong khối *20,83us. Ví dụ như trong tiêu chuẩn MPEG lớp một, độ dài khung dữ liệu là 32*12*20,83 = 8us.

• Sự phân phối bít

Một phép phân tích mô hình tâm sinh lí thính giác chính xác tín hiệu PCM đầu vào sử dụng thuật toán biến đổi (fourier transform - FFT) được thực hiện để xác định nội dung tần số và năng lượng của nó. Từ ngưỡng nghe được và đặc tính che phủ tần số của HAS, người ta tính toán được đường cong che lấp như minh họa hình dưới đây.

Hình dạng và kích thước đường cong che lấp phụ thuộc vào nội dung tín hiệu. Trong ví dụ trên, có thể thấy sai số giữa đường bao phổ tín hiệu và đường cong che lấp giảm xuống, điểm có giá trị max là 40dB. Giá trị sai lệch max này quyết định số lượng bít cần thiết (thông thương lượng tử hoá cơ bản là 6dB/ bit), để mã hoá tất cả các thành phần phổ tần tín hiệu audio. Quá trình phân bố bít cần đảm bảo tạp âm lượng tử hoá thấp hơn ngưỡng nghe được.

Trong hình, tại vung tần số lớn hơn 12KHz, đường cong che lấp cao hơn đường bao phổ tín hiệu nên không cần phân phối bit để mã hoá vùng tín hiệu này.

Từ đường cong che lấp, ngưỡng che lấp của mỗi băng con được xác định. Chúng quy định năng lượng tạp âm lượng tử cực đại có thể chấp nhận được cho mỗi băng con, tại đó tạp âm bắt đầu trở lên nghe thấy.

Sau khi ước lượng ngưỡng che lấp cho mỗi băng tân con, các tham số xếp loại được sử dụng để biến đổi bước lượng tử của mỗi băng con, tức biến đổi cấu trúc tạp âm lượng tử sao cho phù hợp nhất. Cuối cùng, mã hoá Huffman được sử dụng.

• Lượng tử hoá:

Lượng tử hoá các băng tần con trong phô tín hiệu audio là một qua trình không đồng bộ. Tức là mỗi băng con được lượng tử với một bước lượng tử khác nhau phù hợp với mức năng lượng cũng như mức độ che lấp của băng tần. Bước lượng tử được xác định nhờ bộ phân phối bit.

• Ghép kênh dữ liệu:

Các khối (hay là các nhóm) 12 mẫu dữ liệu từ đầu ra bộ lượng tử hoá được ghép kênh cùng với tham số xếp loại tương ứng của chúng và thông tin phân phối bit để hình thành lên khung dữ liệu audio trong dong bít mã hoá .

2.6.Các tiêu chuẩn truyền hình số

Nén tín hiệu truyền hình số

Phương pháp nén không tổn hao