Sự che lấp tín hiệu audio

Hệ thống thính giác của con người có một đặc điểm vô cùng quan trọng, đó là tính che lấp “masking”. Có hai dạng che lấp, đó là: che lấp thời gian và che lấp tần số. Tiến hành thưc nghiệm với hệ thống thính giác, người ta đã xây dựng được đặc tuyến che lấp trong miền thời gian và trong miền tần số.

• Che lấp tần số.

Sự che lấp về mặt tần số là hiện tượng một âm thanh nghe thấy ở tần số này bỗng trở nên không cảm nhận được do ngưỡng nghe thấy bị dâng lên vì sự có mặt của một âm thanh ở tần số khác có cường độ mạnh hơn.

Sự che lấp tần số được minh hoạ bằng hình vẽ sau đây:

Hình 5.1: Ngưỡng nghe thấy tuyệt đối và ngưỡng che phủ tần số.

0 10 20 30 40 50 60 70 80 Mức áp suất âm- SPL (dB) Ngưỡng tuyệt đối Ngưỡng nghe được bị biến đổi

bởi âm che lấp

Kết quả che lấp tạo bởi âm 1KHz, 45dB Kết quả che lấp tạo bởi âm 1KHz, 65dB Tín hiệu không nghe thấy Tần số(Hz) 50 100 500 1K 5K 10K 20K

Để tai người có thể nghe thấy, bất cứ một âm thanh ở tần số đơn nào cũng phải có mức áp suất âm lớn hơn một ngưỡng xác định. Tập hợp tất cả các giá trị ngưỡng này đối với tất cả các âm đơn trong dải tần nghe được tạo nên một đường cong gọi là “ngưỡng nghe thấy tuyệt đối” (absolute hearing threshold), là đường đậm nét ở hình vẽ trên. Tất cả âm thanh nằm dưới đường cong này đều không có khả năng được con người cảm nhận.

Do sự xuất hiện của một âm thanh có cường độ cao ở một tần số nào đó, sẽ làm đường cong này biến đổi đi. Trong ví dụ trên âm 1KHz với mức áp suất âm 45dB đã làm ngưỡng nghe thấy tuyệt đối dâng lên 27dB. Điều nàycó nghĩa những tạp âm dưới 27dB là không nghe thấy. Nếu sử dụng thang lượng tử có 6dB/bước nhẩy thì chỉ cần 3 bit để mã hoá âm này vì giá trị vi sai ở đây là 45-27=18dB.

Nếu mức âm 1KHz tăng lên tới 65dB thì mức che phủ sẽ tăng tới 55 dB, giá trị vi sai này chỉ còn 10dB và có thể mã hoá chỉ băng 2 bit.

Việc che phủ tần số trước và sau cũng rất quan trọng. Như trên hình vẽ, âm 1KHz cũng làm ngưỡng nghe thấy của các âm tần số xung dâng lên. Sự che phủ tần số phia sau quan trọng hơn và tăng theo mức âm. Điều này cho phép giảm độ chính xác mã hoá cho những tần số tín hiệu xung quanh âm che phủ. Những âm đơn tần xung quanh 1KHz có mức âm nhỏ hơn đường cong che phủ sẽ không có khả năng cảm nhận và không cần thiết phải mã hoá vẫn không làm ảnh hưởng tới chất lượng cảm nhận của con người. Hệ thống nén dựa trên đặc điểm này được gọi là hệ thống nén theo thính giác.

• Sự che phủ thời gian.

Hình 5.2: Sự che lấp về thời gian.

Sự che phủ thời gian là hiện tượng tai người chỉ cảm nhận được âm sau khi nó bắt đầu khoảng 200ms và có cảm giác âm thanh còn kéo dài 200ms nữa sau khi âm thanh đã dứt. Ngoài ra, thính giác cũng không phân biệt được khoảng ngừng nhỏ hơn 50ms giữa hai âm thanh giống nhau đi liền nhau.

5.2. Công nghệ giảm tốc độ nguồn dữ liệu audio số.

Công nghệ mã hoã nguồn được sử dụng để loại bỏ đi sự dư thừa trong tín hiệu audio (khi giá trị vi sai mẫu-mẫu sấp xỉ gần giá trị 0), còn công nghệ che lấp dựa trên mô hình tâm lý thính giác của con người có tác dụng loại bỏ mẫu không có giá trị cảm nhận (các mẫu không nghe thấy).

Có hai công nghệ nén cơ bản. Đó là:

• Mã hoá dự báo miền thời gian: sử dụng mã hoá vi sai mã hoá các

giá trị chênh lệch giữa các mẫu liên tiếp nhâu để loại bỏ sự dư thừa thông tin nhằm thu được dòng bit tốc độ thấp.

• Mã hoá chuyển đổi miền tần số: Công nghệ này sử dụng các khối

mẫu PCM tuyến tính biến đổi từ miền thời gian thành một số nhất định các băng tần trong miền tần số.

0 10 20 30 40 50 60 70 80 Mức cảm nhận (dB) Thời gian (ms) 50 0 50 100 150 200 250 300 Che phủ trước Che phủ sau Che lấp liên tục Tín hiệu che lấp

Hiện tượng che lấp quan trọng nhất xảy ra trong miền tần số. Để lợi dụng đặc điểm này, phổ tín hiệu audio được phân tich thành nhiều băng tần phụ có độ phân giải thời gian và tần số phù hợp với bề rộng các băng tần tới hạn của HAS. Mỗi băng phụ chứa một số thành phần âm rời rạc.

Cấu trúc bộ mã hoá audio cơ bản như sau:

Hình 5.3: Bộ mã hoá tín hiệu audio.

• Bộ lọc đa băng tần:

Bộ lọc đa băng tần (còn được gọi là dãy bộ lọc) làm nhiệm vụ tách phổ tín hiệu thành các băng con.

Có ba cách thực hiện dãy bộ lọc. Đó là:

-Dãy băng con : Phổ tín hiệu được chia thành các băng tần phụ có độ rộng như nhau tương tự như khi chia phổ tần thành các băng tần tới hạn của hệ thống HAV. Với các tần số nhỏ hơn 500Hz, một băng con sẽ chứa vài băng tần tới hạn.

Trong công nghệ nén audio, sử dụng một số loại bộ lọc băng con, ví dụ PQMF (Polyphase Quadrature Mirror Filter). Bộ lọc này có độ chồng phổ thấp và thường được sử dụng cho các mẫu gần kề về mặt thời gian.

Trong tiêu chuẩn nén audio MPEG, một khung audio gồm 1152 mẫu được chia thành 32 băng con, mỗi băng con chứa 36 mẫu.

-Dãy chuyển đổi: Áp dụng thuật toán DCT có biến đổi (Modified Discrete Cosin Tranform-MDCT) để chuyển đổi tín hiệu audio miền thời gian thành một số lượng lớn các băng con (từ 256 đến 1024) trong miền tần số.

-Dãy bộ lọc cân bằng: (Hybrid Filter bank).

Dãy bộ lọc Mô hình tâm lý thính giác Bộ phân phối bit Lượng tử và mã hoá G hé p kê nh Dòng mã hoá Thông tin phân phối bit

Tín hiệu đầu vào

Dòng bit mã hoá

Tín hiệu vào trước tiên được chia thành 32 băng con nhờ các bộ lọc PQMF. Sau đó áp dụng phép biến đổi MDCT cho mỗi 18 mẫu băng con. Kêt quả sẽ thu được 576 băng rất hẹp (41.76Hz tại tần số lấy mẫu 48 KHz). Việc kết hợp này có độ phân giải thời gian khoảng 3.8ms.

Số bộ lọc trong dãy phải được xác định phù hợp với một số tác nhân quan trọng.

- Dãy bộ lọc có độ phân giải thấp (nghĩa là băng tần rộng) sẽ cho số lượng băng tần con nhỏ. Khi đó, trong mỗi băng tần con sẽ chứa hầu hết các thành phần âm của phổ tín hiệu audio khiến tác dụng che lấp giảm và sẽ cần rất nhiều để mã hoá các thành phần tín hiệu trong các băng con. Tuy nhiên, số lượng các băng con thấp sẽ giảm được độ phức tạp mã hoá / giải mã mà vẫn giữ được độ phân giải tốt về thời gian.

- Nếu dãy bộ lọc có độ phân giải cao, sẽ cho số lượng lớn các băng tần con và các thành phần đơn của tín hiệu audio sẽ không rơi vào tất cả các băng con. Khi đó, một số băng con không chứa thành phần âm sẽ không cần phải giải mã HAV. Tuy nhiên, có độ phân giải thời gian thấp dẫn đến hiện tượng có tiếng tạp lanh canh khi mã hoá tín hiệu audio ngắn.

Do vậy, có thể sử dụng dãy bộ lọc thích nghi có khả năng chuyển đổi từ dãy bộ lọc có độ phân giải cao sang dãy bộ lọc có độ phân giải thấp khi mã hoá tín hiệu audio ngắn.

Đặc tuyến của quá trình xử lý dãy bộ lọc bao gồm các yếu tố:

- Độ phân giải thời gian = độ phân giải mẫu khối bộ lọc × 20.83µs. Với tần số lấy mẫu 48KHz, khoảng cách thời gian giữa các mẫu liên tiếp sẽ là 20.83µs. Ví dụ trong mã hoá AC-3, độ phân giải thời gian là: 128 × 20.83=95.75ms.

- Độ phân giải tần số = bề rộng phổ cực đại / tổng số băng con. Với tần số lấy mẫu 48 KHz, bề rộng phổ tần tối đa của tín hiệu là 24KHz. Ví dụ trong mã hoá AC-3, độ phân giải tần số là: 24000/256=95.75KHz. - Độ dài khung dữ liệu = Số băng con × Số mẫu trong một khối × 20.83µs Ví dụ trong tiêu chuẩn MPEG lớp I, độ dài khung dữ liệu là: 32 × 12 × 20.83 =8ms.

• Sự phân phối bit:

Một phép phân tich mô hình tâm lý thính giác chính xác tín hiệu PCM đầu vào, sử dụng thuật toán biến đổi Fourier nhanh (Fast Fourier Tranform- FFT) được thực hiện để xác định nội dung tần số và năng lượng của nó. Từ ngưỡng nghe được và đặc tính che phủ tần số của HAS, người ta tính toán được dường cong che lấp như hình minh hoạ trên hình vẽ sau đây:

Hình 5.4: Đường cong che lấp và sự phân phối bit.

Hình dạng và kích thước đường cong che lấp phụ thuộc nội dung tín hiệu.

Trong ví dụ trên, có thể thấy sai số giữa đường bao phổ tín hiệu và đường cong che lấp giảm xuống, điểm có giá trị max là 40dB. Giá trị sai lệch max này quyết định số lượng bit (thông thường lượng tử hoá cơ bản là 6dB/bit) cần thiết để mã hoá tất cả các thành phổ tần của tín hiệu audio. Quá trình phân phối bit cần đảm bảo tạp âm lượng tử hoá thấp hơn ngưỡng nghe được.

Trong hình 5.4, tại vùng tần số >12KHz, đường cong che lấp cao hơn đường bao phổ tín hiệu nên không cần phân phối bit để mã hoá vung tín hiệu này. 0 10 20 30 40 50 60 70 80 Tần số (Hz) 2K 4K 6K 8K 10K 12K 14K Biên độ (dB) Đường bao phổ tín hiệu Đường cong che phủ được tính toán

Sự phân phối bit (SNR theo tần số)

Từ đường cong che lấp, ngưỡng che lấp của mỗi băng con được xác định. Chúng qui định năng lượng tạp âm lượng tử cức đại có thể chấp nhận trong mỗi băng con, tại đó tạp âm bắt đầu trở nên nghe thấy. Sau khi ước lượng ngưỡng che lấp cho mỗi băng tần con, các tham số xếp loại được sử dụng để biến đổi bước lượng tử của mỗi băng con, tức biến đổi cấu trúc tạp âm lượng tử sao cho phù hợp nhất. Cuối cùng, mã hoá Huffman đước sử dụng.

• Lượng tử hoá:

Quá trình lượng tử hoá các băng tần con trong phổ tín hiệu audio là một quá trình không đồng bộ. Tức là mỗi băng con được lượng tử với một bước lượng tử khác nhau phù hợp với mức năng lượng cũng như mức độ che lấp của băng tần. Bước lượng tử được xác định chờ bộ phân phối bit.

• Ghép kênh dữ liệu:

Các khối (hay còn gọi là các nhóm) 12 mẫu dữ liệu từ đầu ra bộ lượng tử hoá được ghép kênh cùng tham số xếp loại tương ứng của chúng và thông tin phân phối bit để hình thành nên khung dữ liệu audio trong dòng bit mã hoá.

5.3. Tiêu chuẩn nén Audio MPEG.

Tiêu chuẩn nén audio MPEG –1 (ISO/IEC 11172-3) thường được biết dưới tên gọi MUSICAM (Maskingpatterm Universal Suband Intergrated Coding and Multiplexing) gồm ba lớp (layer) mã hoá I, II và III tương ứng với hiệu quả nén và độ phức tạp tăng dần, đã được ứng dụng trong nhiều lĩnh vực khác nhau, đặc biệt là trong phát thanh, truyền hình. Tiêu chuẩn nén audio MPEG –2 (ISO/IEC 13818-3) là bước phát triển mở rộng dựa trên cơ sở MPEG –1. Phương thức nén Dolby AC-3 ứng dụng trong hệ HDTV số Grand Alliance (ATSC) cũng là một biến thể từ Audio MPEG –2.

Đối với lĩnh vực truyền hình, tiêu chuẩn MPEG đặc điểm nổi bật là đảm bảo khả năng đồng bộ giữa video và audio khi phân kênh và giải nén.

Những đặc tính kỹ thuật cơ bản của tiêu chuẩn nén Audio MPEG –1 và MPEG –2 được trình bày tóm tắt trong bảng sau:

Bảng: Đặc điểm của Audio MPEG-1, MPEG-2.

MPEG –1 MPEG –2

Độ phân giải đầu

vào 16 bit.

16 bit, có thể lên tới 24 bit.

Tần số lấy mẫu 48 KHz—44.132KHz 48 KHz- 44.132 KHz

24 KHz- 22.0516 KHz

Tốc độ bit Tự do, có thể lên đến

448 Kbps.

Tự do, có thể lên đến 256 Kbps.

Số lượng kênh.

2 kênh với các mode: mono, stereo, dual, jointstereo.

6 kênh: Left, Right, Center, Left Surround, Right Surround và LFE

(Low Frequecy

Enhancement- Kênh tăng cường tần số thấp)

Tính tương hợp Thuận và ngược

Khả năng co giãn Các kênh Left, Right có

thể giải mã độc lập nhau Sơ đồ khối bộ mã hoá MPEG audio như sau:

Hình 5.5: Sơ đồ khối bộ mã hoá Audio MPEG.

Dãy bộ lọc 32 băng phụ Xếp loại Lượng tử hoá Biến đổi FFT 512 hoặc 1024 điểm Ngưỡng che lấp Phân phối tham số xếp loại, bit động và mã hoá Multiple xer -Phân phối bit -Tham số xếp loại Dòng bit mã hoá Dữ liệu vào Dữ liệu phụ 0 1 2 n 3 1 0 1 2 n 3 1 0 1 2 n 3 1

KẾT LUẬN CHUNG.

Tiêu chuẩn MPEG biểu diễn phương pháp mã hóa tín hiệu audio và video. Ưu điểm quan trọng nhất của tiêu chuẩn này là khả năng mã hóa tín hiệu video có dạng bất kỳ và khả năng tăng cao dung lượng kênh truyền. Ưu điểm này khiến cho tiêu chuẩn MPEG được chấp nhận ở nhiều nước sử dụng truyền hình 625 dòng / 50 Hz và 525 dòng / 60 Hz (Dự án DVB) và 525 dòng /60 Hz (dự án Grand Alliance).

Kết quả nghiên cứu cho thấy phương pháp nén MPEG cho phép làm giảm tốc độ bit tín hiệu video có độ phân giải tiêu chuẩn (625 và 525 dòng) xuống còn khoảng 5Mbps mà vẫn đảm bảo chất lượng tiêu chuẩn cho studio (4:2:2 ). Đối với tín hiệu HDTV / ATV, tốc độ bit được nén xuống còn khoảng 20 Mbps. Dung lượng kênh truyền tiêu chuẩn khi sử dụng điều chế số là 20-40Mb/s ( phụ thuộc phương pháp điều chế và mức độ bảo vệ sai số truyền). Điều đó có nghĩa là trong kênh truyền, truyền được một số chương trình truyền hình có độ phân giải cao-HDTV. Việc hạn chế theo lớp tín hiệu cho phép truyền đồng thời tín hiệu truyền hìnhcó độ phân giải tiêu chuẩn và độ phân giải cao.

Cần phải thấy rằng phương pháp nén MPEG là phương pháp nén có mất thông tin, có nghĩa là nó gây ra méo ảnh. Có thể minh họa sự suy giảm chất lượng ảnh khôi phục theo hiệu suất nén MPEG như trên hình vẽ sau:

Đặc tính chất lượng ảnh trong hai dạng nén MPEG-1 và MPEG-2. Cần phải nói thêm rằng, MPEG không phải là phương pháp nén ảnh duy nhất. Nếu dùng các phương pháp như Fractal Tranpormation (biến đổi thành phần) hoặc Wavelet (mã hóa dạng sóng ba chiều) có thể cho phép đạt kết quả như trên hoặc tốt hơn. Các phương pháp này hiện nay còn được tiếp tục nghiên cứu nhưng trong tương lai gần ít nhất vẫn chưa cạnh tranh được với thuật toán DCT của MPEG.

Hiện nay, tiêu chuẩn MPEG –2 được sử dụng nhiều trong các thiết bị truyền hình số (VTR, camera, dựng hình, kỹ xảo…) và thông tin đa phương tiện (Multimedia) và đang có xu hướng phát triển mạnh ở Việt nam. Chắc chắn trong một thời gian ngắn nữa, vấn đề số hóa MPEG –2 sẽ trở nên thông dụng ở Việt Nam.

Do áp dụng các kỹ thuật hiện đại, việc nén các số liệu thông tin đã đạt được những tỷ số nén rất cao trong khi vẫn đảm bảo chất lượng tín hiệu được người sử dụng chấp nhận. Tuy nhiên khi nâng cao tỷ số nén còn cần phải quan tâm trước hết đến yêu cầu về chất lượng của hình ảnh, âm thanh…Rõ ràng đối với số liệu video thì có thể có tỷ số nén cao hơn rất nhiều so với tỷ số nén có thể đạt được với số liệu thông thường và đặc biệt với số liệu âm- chỉ

Tốc độ bit Mbps 5 10 15 20 25 30 35 40 Chất lượng ảnh MPEG-1 MPEG-2 MP@ML MPEG-2 4:2:2@ML

có thể đạt được tỷ số nén rất thấp (từ 4:1 đến 8:1) do những ràng buộc riêng của từng loại dữ liệu.

Hy vọng trong tương lai sẽ có thêm những tiêu chuẩn nén nữa được quốc tế hóa, vừa cho tỷ số nén cao, vừa cho chất lượng tốt.

Quay trở lại vấn đề về nền công nghiệp truyền hình hiện nay. Truyền hình hiện nay là môi trường thụ động (medium) truyền hình ảnh và âm thanh.

Chọn tần số lấy mẫu:

Các thông số lấy mẫu tối ưu