Nén âm thanh theo chuẩn MPEG[6],[10],[2]

Thuật toán nén âm thanh theo chuẩn MPEG bao gồm 3 bước:

Bƣớc 1: tín hiệu audio PCM được chuyển sang miền tần số, toàn bộ dải phổ của nó được chia thành 32 băng con thông qua bộ lọc băng con

Lọc băng con: phổ của tín hiệu được chia thành các băng con có độ rộng dải thông bằng nhau (32 băng con trong mức I và II chuẩn MPEG). Tương tự như quá trình phân tích tần số của HAS (hệ thống thính giác của con người), chia phổ tín hiệu audio thành các băng giới hạn. Độ rộng của các băng tới hạn có thể thay đổi. Dưới 50Hz, độ rộng băng là 100Hz, và nó tăng tới vài kHz khi tần số tăng trên 10kHz. Dưới 500Hz, một băng con có tới vài băng tới hạn

Các bộ lọc băng con có một phần nhỏ gối lên nhau và thông thường sử dụng cho các mẫu kề nhau trong miền thời gian.

Mỗi tín hiệu băng con sau đó được lượng tử hóa đều với các bit chỉ định đặc trưng nhằm bảo vệ dải băng con bằng tỷ số tích cực masking trên tạp âm (MNR). Tỷ số này có tính tích cực khi đường cong các mức chặn ở trên mức tạp âm.

Băng chuyển đổi: thuật toán sửa đổi DCT (MDCT) thường được dụng để biến đổi tín hiệu audio từ miền thời gain sang miền tần số thành một số lượng các băng con (từ 256 đến 1024). Giống như lọc băng con, trong băng chuyển đổi các băng con nằm kề nhau.

Lọc băng ghép: là sự kết hợp giữa bộ lọc băng con và các bộ lọc băng chuyển đổi. Đầu tiên tín hiệu được chia thành 32 băng con bởi bộ lọc băng, sau đó thuật toán MDCT được áp dụng cho 18 mẫu trong từng băng con, tạo ra 576 băng hẹp (41,67 Hz tần số lấy mẫu 48 kHz). Đạt được độ phân tích về thời gian là 3,8 ms.

Bƣớc 2: Với mỗi băng con ta xác định mức biên độ tín hiệu và mức nhiễu bằng mô hình tâm sinh lý nghe. Đây là thành phần chính của bộ mã hó MPEG audio và chức năng của nó là phân tích tín hiệu vào. Mô hình tâm sinh lý nghe xác định tỷ lệ signal- mask cho mỗi băng. Tỷ lệ signal- mask được sử dụng để xác định số bit cho quá trình lượng tử hóa mỗi băng với mục đích giảm tối thiểu khả năng nghe thấy của âm thanh.

Bƣớc 3: Mỗi băng con đó được lượng tử hóa thông qua lượng tử các thành phần nghe thấy trong mỗi băng. Nó đi kèm với mã Huffman để mã hóa các giá trị phổ tín hiệu và cho nén số liệu tốt hơn và định dạng số liệu

Trong quá trình định dạng số liệu, một bộ ghép số liệu được thực hiện nhằm kết hợp các nhóm gồm 12 mẫu số liệu từ đầu ra mỗi bộ lượng tử hóa cùng với hệ số tỷ lệ tương ứng của chúng và thông tin bit chỉ định tạo thành cấu trúc một khung audio trong dòng bit mã hóa. Số liệu phụ có thể được chèn trong dòng bit này.

Bít chỉ định, dung để đánh giá ngưỡng mức chặn và chỉ định các bit trên phần cơ bản của năng lượng phổ tín hiệu audio và chế độ hình tâm sinh lý nghe. Hệ số tỷ lệ của khối được truyền trong dòng số liệu và được sử dụng tại bộ giải mã để tạo lại các giá trị số liệu trong khối.

Ngược lại bên giải mã sẽ giải mã Entropy sau đó tái tạo lại giá trị của băng đã lượng tử và chuyển giá trị các băng này thành tần số tín hiệu audio

Hình 2.11: Sơ đồ khối bộ mã hóa audio MPEG. 0 1 2 .. .. 31 Bộ loc băng (32 băng con) Bộ đếm Lượng tử hóa 0 1 2 .. .. 31 0 1 2 .. .. 31 512 hoặc 1024 mẫu FFT Ngưỡng masking Mã hóa + Bit chỉ định + Hệ số tỉ lệ Bộ ghép số liệu Dòng bít mã hóa Số liệu phụ Số liệu vào

a- Chuẩn nén MPEG -1

Tiêu chuẩn MPEG- 1 dùng cho mã hoá ảnh động và tín hiệu audio kèm theo cho lưu trữ với tốc độ khoảng 1,5 Mbit/s. Chuẩn MPEG – 1 dựa trên nguyên lý nén tín hiệu audio của tiêu chuẩn MPEG

Chuẩn MPEG sử dụng tần số lấy mẫu của của CD-DA ( Compact Disc Digital Audio) và DAT (Digital Audio Tape) và tần số 44,1kHz; 48kHz; 32kHz để lấy mẫu và sử dụng 16 bits. Đối với số liệu audio trên đĩa compact thì cả hai kênh đều có tần số lấy mẫu là 44,1kHz với 16bits/mẫu. Khi đó tốc độ số liệu audio là 1,4 Mbits/s. Do vậy cần phải nén lại

Chuẩn MPEG áp dụng với auio đưa ra 3 mức nén : Mức I đại diện cho thuật toán nén cơ bản với tốc độ bit lớn nhất 448 Kbit/s, mức II, III là những mức mở rộng của mức I và tốc độ bit của chúng đạt được 384 Kbit/s và 320Kbit/s. Tuy nhiên khi đạt được tỷ số nén cao thì chi phí cũng tăng theo cho bộ mã hóa và giải mã.

Ba mức riêng biệt trong tiêu chuẩn MPEG- 1 audio phụ thuộc theo từng chế độ với các ứng dụng khác nhau

Mức I: Dùng trong các thiết bị dân dụng.

Mức II: Dùng trong các thiết bị chuyên dụng và Multimedia.

Mức III: Dùng trong các hệ thống mã hóa tiếng nói 64Kbit/s và thấp hơn – dùng mã hóa chất lượng cao cho tín hiệu âm nhạc.

 Đặc điểm của mức I

Tốc độ dòng số liệu từ 32 đến 448Kbit/s.

Tín hiệu vào chia thành các khung bao gồm 384 mẫu trên một kênh. Chu kỳ khung là 8 ms cho kênh 48 kHz (12 x 32 x 20,83µs = 8ms).

32 băng con có độ rộng bằng nhau tạo ra từ các khối block gồm 12 mẫu (23 x 12= 384 mẫu).

Hệ số tỷ lệ 6 bit trên một băng (dải động âm thanh là 120dB), hệ số tỷ lệ là khác nhau trên mỗi băng.

Phân phối bít theo phương thức thích ứng trước.

Mỗi mẫu băng con được lượng tử hóa một cách chính xác bằng cách tính toán phân bố các bit.

Sử dụng các kênh đơn hay đa kênh.

Hình 2.12: Cấu trúc khung số liệu audio mức I MPEG

Đặc điểm của mức II.

MPEG mức II đã cải thiện phương thức hoạt động của mức I cho phép nén tốt hơn, đạt được tốc độ tới 128Kbit/s. Cấu trúc khung như sau (hình 2.11)

Đạt được tốc độ dòng số liệu từ 32 đên 384 Kbit/s.

Tín hiệu vào chia thành các khung bao gồm 1152 mẫu trên một kênh. Chu kỳ khung là 24 ms cho kênh 48 kHz (384 x 3 x 20,83µs = 24ms).

32 băng con có độ rộng bằng nhau tạo ra từ các khối block gồm 36 mẫu (23 x 36= 1152 mẫu).

Hệ số tỷ lệ 6 bit trên một băng (dải động âm thanh là 120dB), hệ số tỷ lệ là khác nhau trên mỗi băng.

Phân phối bít theo phương thức thích ứng trước.

Mỗi mẫu băng con được lượng tử hóa một cách chính xác bằng cách tính toán phân bố các bit.

Sử dụng các kênh đơn hay đa kênh.

Bít Ý nghĩa 12 Từ đồng bộ 1 ID (MPEG 1) 2 Mức 1 Chống lỗi 4 Chỉ số tốc độ bit 2 Tần số lấy mẫu 1 Bít đệm 1 Bít riêng 2 Mode 2 Mode riêng 1 Bản quyền 1 Gốc hay sao chụp 2 Mức chuẩn CRC GRO GR1 GR2 GR11 Tiêu đề khung Bít chỉ định Hệ số tỉ lệ Số liệu phụ 1 khung audio 1 2 31 32 mẫu 12 bit 20 bit

Có nhiều ứng dụng rông rài trong chuyển đổi ROM, DVB, DSB, Multimedia...

Đặc điểm của mức III.

MPEG mức II là lớp cho tốc độ dòng bit thấp 64Kbit/s. Cấu trúc khung như hình 2.13.

SCFSI : Scale factor Selection Infomation : thông tin chọn hệ số tỷ lệ CRC : bit kiểm tra độ dư thừa tuần hoàn

Header : tiêu đề khung ; Bit allocation : bit chỉ định ; Scale factor : hệ số tỷ lệ ; Ancillary data : số liệu phụ. Bit reservoir : bit cung cấp (các mẫu số liệu chính từ một hoặc hai khung trước).

Hình 2.13: Định dạng dòng số liệu audio mức I, II, III tiêu chuẩn MPEG

Đặc tính quan trọng :

Đạt được tốc độ dòng số liệu từ 32 đên 320 Kbit/s.

Tín hiệu vào chia thành các khung bao gồm 1152 mẫu trên một kênh. Chu kỳ khung là 24 ms cho kênh 48 kHz (384 x 3 x 20,83µs = 24ms).

32 băng con có độ rộng bằng nhau được chia thành 18 MDCT (23 x 36= 1152 mẫu).

Hệ số tỷ lệ được sử dụng làm giảm các mức lượng tử và tạp âm lương tử Phân phối bít theo phương thức thích ứng trước.

Sử dụng mã VLC (Huffman) các giá trị lượng tử. Sử dụng kênh đơn hay stereo.

Sử dụng trong các ứng dụng cần tốc độ bit thấp như mạng viễn thông, đường truyền vệ tinh và âm thanh chất lượng cao qua mạng internet

b- Chuẩn nén MPEG -2 Header CRC Bit allocation Scale factors Samples Ancillary ( 32) (0;16) (128-256) (0-384) (384) Header CRC Bit allocation SCFSI Scale factors Samples Ancillary (l32) (0;16) (128-256) (0-60) (0-1080) (1152)

Header CRC Side information Bit reservoir Ancillary

( 32) (0;16) (128-256) (0-384) (384)

Layer I

Layer II

Năm 1994 tiêu chuẩn MPEG - 2 được thành lập, là sự mở rộng của tiêu chuẩn MPEG -1 nhằm đáp ứng nhu cầu của các ứng dụng như :

 Tiêu chuẩn MPEG cho phép đạt chất lượng cao, tốc độ truyền số liệu nhanh và thiết bị phức tạp. Chất lượng audio có thể thay đổi trong phạm vi rộng tùy thuộc vào tốc độ dòng bit từ thấp đến cao, tốc độ số liệu từ 32 đến 1066 Kbit/s

Phạm vi mở rộng này được thực hiện bởi việc chia khung số liệu audio MPEG -2 thành 2 phần, một phần là dòng bit gốc thích ứng MPEG – 1 (384 Kbit/s của mức II), và phần còn lại là dòng bit mở rộng. Với mức III cho tốc độ dòng bit là 64Kbit/s trên một kênh, có thể nén tín hiệu có tốc độ là 320Kbit/s tức là có thể mã hóa được một tín hiệu có độ rộng dải thông bằng năm kênh audio.

 Trong tiêu chuẩn MPEG – 2 có thêm các tần số lấy mẫu mới (16 ; 22,05 ; 24kHz). Cho phép truyền băng tần trong khoảng 7,5 đến 11kHz và cho chất lượng cao khi tốc độ dòng số liệu < 64Kbit/s cho một kênh .

 Khả năng ứng dụng đa kênh (Tốc độ bít trong đa kênh có thể mở rộng từ trên 1 Mbit/s đến tốc độ chất lượng cao). Những số liệu này được gửi trong khoảng trống dành cho số liệu phụ của cấu trúc khung số liệu audio MPEG-1

Hình 2.14: Định dạng dòng bit số liệu audio chuẩn MPEG-2 mở rộng của chuẩn MPEG-1

Tiêu chuẩn audio MPEG -2 phát triển sau và thích ứng với tiêu chuẩn MPEG – 1. Nhưng bộ giải mã MPEG –1 chỉ có thể giải mã được kênh trái và phải của dòng số liệu audio MPEG –2. Tất cả các lớp MPEG -1 và MPEG -2 đều giống nhau

Header CRC Bit allocation SCFSI Scale factors Sub-band Sample Ancillary Data 1 Ancillary Data 2 Ro/Lo Basic stereo MC Header MC CRC MC Bit allocation MC SCFSI MC predictor MC Sub-band Sample

Munti –channel(MC) audio data information

Multi-lingual commentary

Hình 2.15: Các chuẩn nén tín hiệu audio theo tiêu chuẩn MPEG

Nén âm thanh theo chuẩn MPEG[6],[10],[2]

Tín hiệu âm thanh số

Nén âm thanh dùng mô hình tâm lý