Nén audio

2.2.2.1. Cơ sở nén audio

Do nhu cầu thưởng thức ngày càng nâng cao của con người kéo theo yêu cầu chất lượng âm thanh cũng phải tốt hơn. Một trong những cách nâng cao chất lượng âm thanh là truyền nhiều kênh audio. Có thể truyền kết hợp giữa các kênh như trái, phải, giữa, vòng trái, vòng phải để tạo ra cảm giác không gian và thời gian cho tai người. Nếu lấu mẫu với tần số là 48 KHz, dùng 16 bit cho mỗi mẫu thì tốc độ mỗi kênh cỡ 0,75 Mbit/s, nếu dùng 6 kênh thì tốc độ bit cỡ 4,6 Mbit/s. Tốc độ này cần phải nén xuống để tiết kiệm băng tần truyền dẫn. Từ yêu cầu đó mà công nghệ nén audio ra đời, ngày nay tốc độ của 6 kênh vòng nói trên có thể nén xuống còn 384 Kbit/s.

Cơ sở của nén audio là dựa trên đặc điểm thính giác của tai người. Do tai người chỉ nghe được âm thanh trong khoảng từ 20Hz cho đến 20.000Hz nên ta có thể loại bỏ những âm thanh ngoài giải tần này mà không ảnh hưởng tới chất lượng âm thanh. Nén audio dựa trên cơ sở loại bỏ âm thanh ngoài khoảng nghe thấy của tai và dựa trên các đặc điểm sinh lý như: khả năng cảm nhận không như nhau trong giải tần nghe thấy và hiện ứng che lấp của tai. Trong dải tần từ 20Hz đến 20.000Hz, vùng tần số từ 500Hz đến 5000Hz tai người rất nhạy cảm, ngược lại ở vùng tần số quá thấp hoặc quá cao tai người nghe rất kém. Ta sẽ dựa vào tính chất này để mã hóa âm thanh với độ chính xác khác nhau theo cảm nhận của tai người. Hiệu ứng che lấp là hiện tượng âm thanh này che lấp âm thanh kia, do vậy trong phổ của âm thanh mà tai người nghe thấy, sẽ có nhiều tần số bị che lấp. "Mô hình tâm sinh lý nghe" sẽ bóc tách và loại bỏ phần âm thanh bị che lấp để làm giảm bớt lượng thông tin cần mã hóa.

Mặt khác ta cũng có thể nén dựa vào đặc điểm của tín hiệu âm thanh. Quang phổ của một tín hiệu âm thanh rất phức tạp, gồm một hoặc nhiều tần

số cơ bản, sóng hài của những tần số đó, và các sản phẩm của sự biến điệu xuyên âm. Đa số các tần số cơ bản nằm ở tần thấp, ở tần số cao mật độ năng lượng của quang phổ giảm nên ta có thể nén tín hiệu âm thanh ở phần tần số cao.

2.2.2.2. Nén audio theo tiêu chuẩn MPEG

Hình 2.5. Mô hình nén tín hiệu Audio

Trước hết tín hiệu audio tương tự được lấy mẫu với các tần số khác nhau tạo ra dữ liệu audio bao gồm các mẫu PCM. Sau đó các dữ liệu audio được chuyển về miền tần số bằng phép biến đổi Fourier. Toàn bộ giải phổ sẽ được chia thành 32 băng con thông qua bộ lọc băng con. Đối với mỗi băng con ta tiến hành lượng tử hóa với một số bít khác nhau, số lượng bit dùng để mã do bộ phận "hoạch định bit" quyết định. "Hoạch định bit" dựa trên mô

hình tâm sinh lý nghe (tức là dựa vào đặc điểm sinh lý của tai và các đặc điểm của tín hiệu âm thanh) để tìm ra mức biên độ tín hiệu và mức nhiễu, từ đó xác định được tỉ lệ signal - mask cho mỗi băng. Tỉ lệ signal - mask lại được sử dụng để xác định số bit phù hợp cho quá trình lượng tử hóa mỗi băng để tốc độ bit là thấp nhất nhưng chất lượng âm thanh vẫn chấp nhận được. Tín hiệu của 32 băng lọc phụ sau khi được mã hóa sẽ đưa vào bộ ghép kênh tạo ra một chuỗi bit duy nhất. Chuỗi bit này được gọi là dòng cơ sở audio.

Nén video và audio theo tiêu chuẩn MPEG 2

Phần mã hóa kênh truyền