NẫN TÍN HIỆU ÂM THANH THEO TIấU CHUẨN MPEG
3.3 PHƯƠNG PHÁP MÃ HOÁ VÀ GIẢI MÃ AUDIO CỦA MPEG 1 Quỏ trỡnh mó hoỏ:
3.3.1 Quỏ trỡnh mó hoỏ:
Trong quỏ trỡnh mó hoỏ Audio của MPEG, hiệu ứng che mặt nạ (Masking) là quan trọng nhất, nú xảy ra trong miền tần số. Để tỏch đặc tớnh
này phổ tớn hiệu audio được tỏch thành cỏc băng tần con với độ phõn giải thời gian và tần số phự hợp với cỏc độ rộng băng tần tới hạn của HAS (Human Audio System).
Cấu trỳc cơ bản của bộ mó hoỏ MPEG tớn hiệu Audio được mụ tả trờn hỡnh 3.1. Cỏc mẫu Dũng bit Dòng bit Audio PCM mó hoỏ mã hoá Số liệu phụ
Hỡnh 3.1. Cấu trúc cơ bản bộ mó hoỏ MPEG tớn hiệu audio.
Quỏ trỡnh mó hoỏ tớn hiệu Audio được thực hiện như sau:
Đầu tiờn tớn hiệu audio được chuyển về miền tần số, và toàn bộ giải phổ của nú được chia thành 32 băng con thụng qua bộ lọc băng con.
Lọc băng con: Phổ tớn hiệu được chia thành cỏc băng con cú độ rộng dải thụng bằng nhau. Nú tương tự như quỏ trỡnh phõn tớch tần số của HAS, chia phổ tớn hiệu audio thành cỏc băng tới hạn. Độ rộng của cỏc băng tới hạn cú thể thay đổi. Dưới 500Hz, độ rộng dải băng là 100Hz, và nú tăng tới vài KHz khi tần số trờn 10KHz. Dưới 500Hz, một băng con cú tới vài băng tới hạn.
Cỏc bộ lọc băng con cú một phần nhỏ gối lờn nhau và thụng thường sử
Chuyển đổi từ miền thời gian sang miền tần số Mã hoá nối Bit chỉ định +lượng tử hoá +Mã hoá Bộ đệm khung số liệu Mô hình tâm lý âm thanh
dụng cho cỏc mẫu kề nhau trong miền thời gian. Mỗi tớn hiệu băng con sau đú được lượng tử hoỏ đều với cỏc bit chỉ định đặc trưng nhằm bảo vệ dải băng con bằng tỉ số tớch cực masking trờn tạp õm (MNR). Tỉ số này cú tớnh tớch cực khi đường cong cỏc mức chặn ở trờn mức tạp õm.
Băng chuyển đổi: Thuật toỏn chuyển đổi DCT (MDCT) thường được sử dụng để biến đổi tớn hiệu audio từ miền thời gian sang miền tần số thành một số lượng lớn cỏc băng con (từ 256 đến 1024). Giống như lọc băng con, trong cỏc băng chuyển đổi nằm kề nhau.
Lọc băng ghộp: Đõy là sự kết hợp giữa cỏc bộ lọc băng con và cỏc bộ lọc băng chuyển đổi. Đầu tiờn tớn hiệu được chia thành 32 băng con bởi bộ lọc băng, sau đú thuật toỏn MDCT được ỏp dụng cho được 18 mẫu trong từng băng con, tạo ra tổng cộng 576 băng hẹp (41,67Hz với tần số lấy mẫu là 48KHz). Đạt được độ phõn tớch về thời gian là 3,8ms.
Một đặc tớnh quan trọng của bộ lọc băng là độ phõn tớch cú tớnh thoả hiệp. Một bộ lọc băng cú độ phõn tớch thấp (nghĩa là băng tần rộng) sẽ cho một số lượng nhỏ cỏc băng con và cỏc thành phần õm của hầu hết phổ tớn hiệu audio nằm trong băng con. Khi hiệu lực kỹ thuật mức ngưỡng masking giảm đi thỡ cần rất nhiều bit cho lượng tử hoỏ tớn hiệu của mỗi băng con. Tuy nhiờn, việc số lượng cỏc băng con giảm đi trong bộ lọc này đồng nghĩa với việc phức tạp của bộ mó hoỏ và giải mó giảm đi, trong khi lại đạt được độ phõn tớch tạm thời khỏ tốt (nghĩa là trong khoảng thời gian ngắn).
Một bộ lọc băng cú độ phõn tớch cao sinh ra một lượng lớn cỏc băng tần con và cỏc thành phần õm của phổ tớn hiệu audio khụng nằm trong tất cả cỏc băng con. Cỏc băng con khụng cú thành phần õm khụng cần mó hoỏ, theo đú, kết quả là bộ mó hoỏ số liệu sẽ khụng gõy tổn hao. Cỏc băng hẹp cú thể tỏi tạo tốt hơn băng tới hạn theo đặc tớnh của HAS. Tuy nhiờn độ phõn tớch về thời gian kộm.
Như vậy, từ ý nghĩa của bộ lọc băng thớch ứng chỉ ra rằng, một bộ lọc băng chuyển đổi 256 dải cú độ phức tạp giống như bộ lọc băng 32 dải con. Cỏc đặc tớnh của quỏ trỡnh lọc băng được chỉ ra như:
-Độ phõn tớch về thời gian = độ dài của cỏc mẫu trong khối lọc x 20,83às. Một mẫu tồn tại trong khoảng thời gian 20,83às với tần số lấy mẫu là 48KHz. Thụng số này cho một ý tưởng làm việc của bộ mó hoỏ trong thời gian xuất hiện của tớn hiệu tức thời.
-Độ phõn tớch tần số = độ rộng phổ lớn nhất/ Tổng số cỏc băng tần con. Độ rộng phổ lớn nhất là 24KHz cho tần số lấy mẫu 48KHz.
+Độ dài của khung = Số tần con x Số mẫu trong khối x 20,83às. Giỏ trị này được tớnh tại tần số lấy mẫu là 48KHz.
Với mỗi băng con người ta xỏc định mức biờn độ tớn hiệu và mức nhiễu bằng “Mụ hỡnh tõm sinh lý nghe - Psychoacoustic model”. Đõy là thành phần chớnh của bộ mó hoỏ MPEG Audio và chức năng của nú là phõn tớch tớn hiệu vào. Mụ hỡnh tõm sinh lý nghe xỏc định tỉ lệ signal-mask cho mỗi băng. Tỉ lệ signal-mask được sử dụng để xỏc định số bit cho quỏ trỡnh lượng tử hoỏ mỗi băng với mục đớch giảm tối thiểu khả năng nghe thấy của õm thanh.
Cuối cựng là mỗi băng con đú được lượng tử hoỏ thụng qua lượng tử cỏc thành phần nghe thấy trong mỗi băng. Nú đi kốm với mó Huffman để mó hoỏ cỏc giỏ trị phổ tớn hiệu và cho nộn số liệu tốt hơn và định dạng số liệu.
Trong quỏ trỡnh định dạng số liệu, một bộ ghộp số liệu được thực hiện nhằm kết hợp cỏc nhúm gồm 12 mẫu số liệu từ đầu ra mỗi bộ lượng tử hoỏ cựng với hệ số tỉ lệ tương ứng của chỳng và thụng tin bit chỉ định tạo thành cấu trỳc một khung audio trong dũng bit mó hoỏ. Số liệu phụ cú thể được chốn trong dũng bit này. Cỏc tiờu chuẩn MPEG khụng định rừ cấu trỳc của số liệu được truyền và chỳng được định dạng trong dũng bit như thế nào.
phần cơ bản của năng lượng phổ tớn hiệu audio và chế độ mụ hỡnh tõm lý õm thanh (HAS). Hệ số tỉ lệ của khối được truyền trong dũng số liệu và được sử dụng tại bộ giải mó để tạo lại cỏc giỏ trị số liệu trong khối.