Trong lĩnh vực phát sóng và sản xuất hậu kỳ, chuẩn nén MPEG –2 cuối cùng đã giải quyết được bi kịch đa dạng thức xưa nay. Tiêu chuẩn này đã áp dụng được khả năng này cho các yêu cầu và đặc tính của từng ứng dụng khác nhau.
a) Sản xuất tin thời sự.
Chất lượng ảnh đòi hỏi cao khi quay ngoại cảnh, những tín hiệu không phải in đi in lại nhiều lần. Thiết bị nhỏ gọn, xách tay và dùng ăcqui. Do vậy, các thiết bị này có thể sử dụng tốc độ bit thấp (đỡ tốn năng lượng, giảm giá thành). Cấu trúc GOP đơn giản, thuận tiện cho công đoạn dựng hình.
b) Lưu trữ.
Cần chất lượng cao hoặc ít nhất bằng ảnh gốc. Công nghệ lưu trữ còn cần tốc độ bit lớn và cấu trúc IB-GOP.
c) Sản xuất hậu kỳ.
Sản xuất hậu kỳ đòi hỏi cả chất lượng và mức độ cao về tính năng dựng hình. Tốc độ 50 Mbit/s và cấu trúc I-GOP là sự lựa chọn thích hợp.
d) Phân phối chương trình.
Đòi hỏi khả năng lưu trữ về chất lượng phát sóng quảng bá. Tốc độ bit 20 Mbit/s (hoặc 15 Mbit/s để cung cấp cho máy phát NTSC/PAL, thậm chí thấp hơn cho dịch vụ phát trục tiếp từ vệ tinh DBS).
Với ý tưởng tạo các cấu trúc GOP và tốc độ bit khác nhau đã giải quyết được yêu cầu trên. Tại bất kỳ thởi điểm nào cũng có thể khai thác tư liệu từ một ứng dụng này để sử dụng cho một ứng dụng khác, và do vậy bộ giải mã “hoàn toàn thich nghi”.
CHƯƠNG V: NÉN TÍN HIỆU AUDIO.
Tín hiệu audio số PCM được sử dụng trong TV, truyền thông đa phương tiện cũng như trong nhiều ứng dụng khác. Các dòng số này có tốc độ rất cao. Ví dụ khi âm thanh được lấy mẫu với tần số 48 KHz và độ phân giải là 16 bit thì dòng số tạo ra sẽ có tốc độ 1.54Mbit/s.
Một hệ thống âm thanh surround cung cấp dòng số có tốc độ lên đến 4.5 Mbps. Bởi vậy, yêu cầu phải có một phương pháp nén hiệu quả cho lưu trữ dữ liệu thời gian dài cung như khi phân phối dữ liệu qua các kênh có bề rộng dải thông hẹp.
Việc nén audio hiện nay được tổ hợp trong các ứng dụng đa phương tiện trên cơ sở là máy tính, cho sự phân phối chương trình trên đĩa CD-ROM và mạng. Nó cũng được sử dụng trong truyền dẫn qua vệ tinh quảng bá (Digital Broadcast Satelite-DBS).
5.1. Cơ sở của nén tín hiệu audio.
Nén tín hiệu audio được thực hiện dựa trên cơ sở là mô hình tâm lý thính giáccủa con người, sự hạn chế về mặt cảm nhận và hiện tượng che lấp các thành phần tín hiệu âm.
5.1.1. Mô hình tâm lý thính giác.
Hệ thống thính giác của con người (Human Auditory System-HAS) có đặc điểm như một bộ phân tích phổ. Nó chia dải phổ âm thanh nghe thấy thành các băng tần gọi là các “băng tới hạn” (critical band) như một dãy các bộ lọc thông dải.
Các băng này có bề rộng dải thông là 100Hz với các tần số dưới 500Hz và tăng theo tần số tín hiệu với các tần số lớn hơn 500Hz. Bề rộng dải thông này tăng tới vài KHz khi tần số tín hiệu lớn hơn 10KHz. Có thể mô hình hoá hệ thông cảm nhận của con người băng 26 bộ lọc thông dải liên tiếp có bề rộng dải thông như đã nói.
Khi tín hiệu âm thanh bao gồm các tần số gần kề nhau, hệ thống thính giác của con người (HAS) sẽ tổ hợp chung thành một nhóm có năng lượng
cân bằng. Ngược lại, nếu âm thanh bao gồm nhiều tần số khác biệt nhau, chúng sẽ được xử lý tách biệt và độ lớn âm được xác định.
Tính nhạy cảm của HAS giảm tại các tần số cao và tần số thấp. Điều này có nghĩa rằng đối với các mức âm thấp thì sự thay đổi trong cảm nhận của con người là rất quan trọng và sẽ giảm dần tại các mức âm cao.
5.1.2. Sự che lấp tín hiệu audio.
Hệ thống thính giác của con người có một đặc điểm vô cùng quan trọng, đó là tính che lấp “masking”. Có hai dạng che lấp, đó là: che lấp thời gian và che lấp tần số. Tiến hành thưc nghiệm với hệ thống thính giác, người ta đã xây dựng được đặc tuyến che lấp trong miền thời gian và trong miền tần số.
• Che lấp tần số.
Sự che lấp về mặt tần số là hiện tượng một âm thanh nghe thấy ở tần số này bỗng trở nên không cảm nhận được do ngưỡng nghe thấy bị dâng lên vì sự có mặt của một âm thanh ở tần số khác có cường độ mạnh hơn.
Sự che lấp tần số được minh hoạ bằng hình vẽ sau đây:
Hình 5.1: Ngưỡng nghe thấy tuyệt đối và ngưỡng che phủ tần số.
0 10 20 30 40 50 60 70 80 Mức áp suất âm- SPL (dB) Ngưỡng tuyệt đối Ngưỡng nghe được bị biến đổi
bởi âm che lấp
Kết quả che lấp tạo bởi âm 1KHz, 45dB Kết quả che lấp tạo bởi âm 1KHz, 65dB Tín hiệu không nghe thấy Tần số(Hz) 50 100 500 1K 5K 10K 20K
Để tai người có thể nghe thấy, bất cứ một âm thanh ở tần số đơn nào cũng phải có mức áp suất âm lớn hơn một ngưỡng xác định. Tập hợp tất cả các giá trị ngưỡng này đối với tất cả các âm đơn trong dải tần nghe được tạo nên một đường cong gọi là “ngưỡng nghe thấy tuyệt đối” (absolute hearing threshold), là đường đậm nét ở hình vẽ trên. Tất cả âm thanh nằm dưới đường cong này đều không có khả năng được con người cảm nhận.
Do sự xuất hiện của một âm thanh có cường độ cao ở một tần số nào đó, sẽ làm đường cong này biến đổi đi. Trong ví dụ trên âm 1KHz với mức áp suất âm 45dB đã làm ngưỡng nghe thấy tuyệt đối dâng lên 27dB. Điều nàycó nghĩa những tạp âm dưới 27dB là không nghe thấy. Nếu sử dụng thang lượng tử có 6dB/bước nhẩy thì chỉ cần 3 bit để mã hoá âm này vì giá trị vi sai ở đây là 45-27=18dB.
Nếu mức âm 1KHz tăng lên tới 65dB thì mức che phủ sẽ tăng tới 55 dB, giá trị vi sai này chỉ còn 10dB và có thể mã hoá chỉ băng 2 bit.
Việc che phủ tần số trước và sau cũng rất quan trọng. Như trên hình vẽ, âm 1KHz cũng làm ngưỡng nghe thấy của các âm tần số xung dâng lên. Sự che phủ tần số phia sau quan trọng hơn và tăng theo mức âm. Điều này cho phép giảm độ chính xác mã hoá cho những tần số tín hiệu xung quanh âm che phủ. Những âm đơn tần xung quanh 1KHz có mức âm nhỏ hơn đường cong che phủ sẽ không có khả năng cảm nhận và không cần thiết phải mã hoá vẫn không làm ảnh hưởng tới chất lượng cảm nhận của con người. Hệ thống nén dựa trên đặc điểm này được gọi là hệ thống nén theo thính giác.
• Sự che phủ thời gian.
Hình 5.2: Sự che lấp về thời gian.
Sự che phủ thời gian là hiện tượng tai người chỉ cảm nhận được âm sau khi nó bắt đầu khoảng 200ms và có cảm giác âm thanh còn kéo dài 200ms nữa sau khi âm thanh đã dứt. Ngoài ra, thính giác cũng không phân biệt được khoảng ngừng nhỏ hơn 50ms giữa hai âm thanh giống nhau đi liền nhau.
5.2. Công nghệ giảm tốc độ nguồn dữ liệu audio số.
Công nghệ mã hoã nguồn được sử dụng để loại bỏ đi sự dư thừa trong tín hiệu audio (khi giá trị vi sai mẫu-mẫu sấp xỉ gần giá trị 0), còn công nghệ che lấp dựa trên mô hình tâm lý thính giác của con người có tác dụng loại bỏ mẫu không có giá trị cảm nhận (các mẫu không nghe thấy).
Có hai công nghệ nén cơ bản. Đó là:
• Mã hoá dự báo miền thời gian: sử dụng mã hoá vi sai mã hoá các
giá trị chênh lệch giữa các mẫu liên tiếp nhâu để loại bỏ sự dư thừa thông tin nhằm thu được dòng bit tốc độ thấp.
• Mã hoá chuyển đổi miền tần số: Công nghệ này sử dụng các khối
mẫu PCM tuyến tính biến đổi từ miền thời gian thành một số nhất định các băng tần trong miền tần số.
0 10 20 30 40 50 60 70 80 Mức cảm nhận (dB) Thời gian (ms) 50 0 50 100 150 200 250 300 Che phủ trước Che phủ sau Che lấp liên tục Tín hiệu che lấp
Hiện tượng che lấp quan trọng nhất xảy ra trong miền tần số. Để lợi dụng đặc điểm này, phổ tín hiệu audio được phân tich thành nhiều băng tần phụ có độ phân giải thời gian và tần số phù hợp với bề rộng các băng tần tới hạn của HAS. Mỗi băng phụ chứa một số thành phần âm rời rạc.
Cấu trúc bộ mã hoá audio cơ bản như sau:
Hình 5.3: Bộ mã hoá tín hiệu audio.
• Bộ lọc đa băng tần:
Bộ lọc đa băng tần (còn được gọi là dãy bộ lọc) làm nhiệm vụ tách phổ tín hiệu thành các băng con.
Có ba cách thực hiện dãy bộ lọc. Đó là:
-Dãy băng con : Phổ tín hiệu được chia thành các băng tần phụ có độ rộng như nhau tương tự như khi chia phổ tần thành các băng tần tới hạn của hệ thống HAV. Với các tần số nhỏ hơn 500Hz, một băng con sẽ chứa vài băng tần tới hạn.
Trong công nghệ nén audio, sử dụng một số loại bộ lọc băng con, ví dụ PQMF (Polyphase Quadrature Mirror Filter). Bộ lọc này có độ chồng phổ thấp và thường được sử dụng cho các mẫu gần kề về mặt thời gian.
Trong tiêu chuẩn nén audio MPEG, một khung audio gồm 1152 mẫu được chia thành 32 băng con, mỗi băng con chứa 36 mẫu.
-Dãy chuyển đổi: Áp dụng thuật toán DCT có biến đổi (Modified Discrete Cosin Tranform-MDCT) để chuyển đổi tín hiệu audio miền thời gian thành một số lượng lớn các băng con (từ 256 đến 1024) trong miền tần số.
-Dãy bộ lọc cân bằng: (Hybrid Filter bank).
Dãy bộ lọc Mô hình tâm lý thính giác Bộ phân phối bit Lượng tử và mã hoá G hé p kê nh Dòng mã hoá Thông tin phân phối bit
Tín hiệu đầu vào
Dòng bit mã hoá
Tín hiệu vào trước tiên được chia thành 32 băng con nhờ các bộ lọc PQMF. Sau đó áp dụng phép biến đổi MDCT cho mỗi 18 mẫu băng con. Kêt quả sẽ thu được 576 băng rất hẹp (41.76Hz tại tần số lấy mẫu 48 KHz). Việc kết hợp này có độ phân giải thời gian khoảng 3.8ms.
Số bộ lọc trong dãy phải được xác định phù hợp với một số tác nhân quan trọng.
- Dãy bộ lọc có độ phân giải thấp (nghĩa là băng tần rộng) sẽ cho số lượng băng tần con nhỏ. Khi đó, trong mỗi băng tần con sẽ chứa hầu hết các thành phần âm của phổ tín hiệu audio khiến tác dụng che lấp giảm và sẽ cần rất nhiều để mã hoá các thành phần tín hiệu trong các băng con. Tuy nhiên, số lượng các băng con thấp sẽ giảm được độ phức tạp mã hoá / giải mã mà vẫn giữ được độ phân giải tốt về thời gian.
- Nếu dãy bộ lọc có độ phân giải cao, sẽ cho số lượng lớn các băng tần con và các thành phần đơn của tín hiệu audio sẽ không rơi vào tất cả các băng con. Khi đó, một số băng con không chứa thành phần âm sẽ không cần phải giải mã HAV. Tuy nhiên, có độ phân giải thời gian thấp dẫn đến hiện tượng có tiếng tạp lanh canh khi mã hoá tín hiệu audio ngắn.
Do vậy, có thể sử dụng dãy bộ lọc thích nghi có khả năng chuyển đổi từ dãy bộ lọc có độ phân giải cao sang dãy bộ lọc có độ phân giải thấp khi mã hoá tín hiệu audio ngắn.
Đặc tuyến của quá trình xử lý dãy bộ lọc bao gồm các yếu tố:
- Độ phân giải thời gian = độ phân giải mẫu khối bộ lọc × 20.83µs. Với tần số lấy mẫu 48KHz, khoảng cách thời gian giữa các mẫu liên tiếp sẽ là 20.83µs. Ví dụ trong mã hoá AC-3, độ phân giải thời gian là: 128 × 20.83=95.75ms.
- Độ phân giải tần số = bề rộng phổ cực đại / tổng số băng con. Với tần số lấy mẫu 48 KHz, bề rộng phổ tần tối đa của tín hiệu là 24KHz. Ví dụ trong mã hoá AC-3, độ phân giải tần số là: 24000/256=95.75KHz. - Độ dài khung dữ liệu = Số băng con × Số mẫu trong một khối × 20.83µs Ví dụ trong tiêu chuẩn MPEG lớp I, độ dài khung dữ liệu là: 32 × 12 × 20.83 =8ms.
• Sự phân phối bit:
Một phép phân tich mô hình tâm lý thính giác chính xác tín hiệu PCM đầu vào, sử dụng thuật toán biến đổi Fourier nhanh (Fast Fourier Tranform- FFT) được thực hiện để xác định nội dung tần số và năng lượng của nó. Từ ngưỡng nghe được và đặc tính che phủ tần số của HAS, người ta tính toán được dường cong che lấp như hình minh hoạ trên hình vẽ sau đây:
Hình 5.4: Đường cong che lấp và sự phân phối bit.
Hình dạng và kích thước đường cong che lấp phụ thuộc nội dung tín hiệu.
Trong ví dụ trên, có thể thấy sai số giữa đường bao phổ tín hiệu và đường cong che lấp giảm xuống, điểm có giá trị max là 40dB. Giá trị sai lệch max này quyết định số lượng bit (thông thường lượng tử hoá cơ bản là 6dB/bit) cần thiết để mã hoá tất cả các thành phổ tần của tín hiệu audio. Quá trình phân phối bit cần đảm bảo tạp âm lượng tử hoá thấp hơn ngưỡng nghe được.
Trong hình 5.4, tại vùng tần số >12KHz, đường cong che lấp cao hơn đường bao phổ tín hiệu nên không cần phân phối bit để mã hoá vung tín hiệu này. 0 10 20 30 40 50 60 70 80 Tần số (Hz) 2K 4K 6K 8K 10K 12K 14K Biên độ (dB) Đường bao phổ tín hiệu Đường cong che phủ được tính toán
Sự phân phối bit (SNR theo tần số)
Từ đường cong che lấp, ngưỡng che lấp của mỗi băng con được xác định. Chúng qui định năng lượng tạp âm lượng tử cức đại có thể chấp nhận trong mỗi băng con, tại đó tạp âm bắt đầu trở nên nghe thấy. Sau khi ước lượng ngưỡng che lấp cho mỗi băng tần con, các tham số xếp loại được sử dụng để biến đổi bước lượng tử của mỗi băng con, tức biến đổi cấu trúc tạp âm lượng tử sao cho phù hợp nhất. Cuối cùng, mã hoá Huffman đước sử dụng.
• Lượng tử hoá:
Quá trình lượng tử hoá các băng tần con trong phổ tín hiệu audio là một quá trình không đồng bộ. Tức là mỗi băng con được lượng tử với một bước lượng tử khác nhau phù hợp với mức năng lượng cũng như mức độ che lấp của băng tần. Bước lượng tử được xác định chờ bộ phân phối bit.
• Ghép kênh dữ liệu:
Các khối (hay còn gọi là các nhóm) 12 mẫu dữ liệu từ đầu ra bộ lượng tử hoá được ghép kênh cùng tham số xếp loại tương ứng của chúng và thông tin phân phối bit để hình thành nên khung dữ liệu audio trong dòng bit mã hoá.
5.3. Tiêu chuẩn nén Audio MPEG.
Tiêu chuẩn nén audio MPEG –1 (ISO/IEC 11172-3) thường được biết dưới tên gọi MUSICAM (Maskingpatterm Universal Suband Intergrated Coding and Multiplexing) gồm ba lớp (layer) mã hoá I, II và III tương ứng với hiệu quả nén và độ phức tạp tăng dần, đã được ứng dụng trong nhiều lĩnh vực khác nhau, đặc biệt là trong phát thanh, truyền hình. Tiêu chuẩn nén audio MPEG –2 (ISO/IEC 13818-3) là bước phát triển mở rộng dựa trên cơ sở MPEG –1. Phương thức nén Dolby AC-3 ứng dụng trong hệ HDTV số Grand Alliance (ATSC) cũng là một biến thể từ Audio MPEG –2.
Đối với lĩnh vực truyền hình, tiêu chuẩn MPEG đặc điểm nổi bật là đảm bảo khả năng đồng bộ giữa video và audio khi phân kênh và giải nén.
Những đặc tính kỹ thuật cơ bản của tiêu chuẩn nén Audio MPEG –1 và MPEG –2 được trình bày tóm tắt trong bảng sau:
Bảng: Đặc điểm của Audio MPEG-1, MPEG-2.
MPEG –1 MPEG –2
Độ phân giải đầu
vào 16 bit.
16 bit, có thể lên tới 24 bit.
Tần số lấy mẫu 48 KHz—44.132KHz 48 KHz- 44.132 KHz
24 KHz- 22.0516 KHz
Tốc độ bit Tự do, có thể lên đến
448 Kbps.
Tự do, có thể lên đến 256 Kbps.
Số lượng kênh.
2 kênh với các mode: mono, stereo, dual, jointstereo.
6 kênh: Left, Right, Center, Left Surround, Right Surround và LFE