GIỚI THIỆU - Đề tài: " Nén âm thanh file WAV theo- 123docz.net

1. MPEG là gì?

MPEG, viết tắt của cụm từ “Moving Picture Experts Group”, là một nhóm chuyên nghiên cứu phát triển các tiêu chuẩn về hình ảnh số và nén âm thanh theo chuẩn ISO/IEC. Ngày nay, nhóm làm việc MPEG đã phát triển và phát hành các tiêu chuẩn MPEG-1, MPEG-2 và MPEG-4. Chuẩn MPEG-3 được kết hợp vào MPEG-2 và không còn tách riêng nữa. Nhóm MPEG hiện nay đã phát triển đến chuẩn MPEG-7. MPEG chỉ là một tên riêng, tên chính thức của nó là : ISO/IEC JTC1 SC29 WG11.

ISO : International Organization for Standardization

IEC : International Electro-technical Commission

JTC1 : Joint Technical Committee 1

SC29 : Sub-committee 29

WG11: Work Group 11 (moving picture with audio).

2. So sánh các chuẩn MPEG:

MPEG-1 định nghĩa một tiêu chuẩn cho việc lưu trữ và phục hồi các hình

ảnh động và âm thanh trên các thiết bị lưu trữ. Tiêu chuẩn này định nghĩa rằng hình ảnh được phát lại ở tốc độ 30 frames một giây và âm thanh được phát lại ở chất lượng như CD-audio, độ phân giải hình ảnh là 352 x 240. Chuẩn MPEG-1 được dùng điển hình trong các phần mềm huấn luyện bằng máy tính, các game hành động trong máy tính, video chất lượng VHS, Karaoke..

MPEG-2 định nghĩa cho một tiêu chuẩn kỹ thuật truyền hình số. Chuẩn MPEG-2 khắc phục một vài nhược điểm của chuẩn MPEG-1. Ví dụ, MPEG-2 có thể tạo hình ảnh lớn gấp 4 lần MPEG-1 với độ nét cao hơn và rõ hơn (720 x 480 và 1280 x 720). Các đặc tính của MPEG-2 bao gồm hình ảnh chất lượng cao và âm thanh nổi..

MPEG-3 định nghĩa một tiêu chuẩn cho High Difinition Television (HDTV), là thế hệ tiếp theo của công nghệ truyền hình theo định dạng số đầy đủ. Tiêu chuẩn này đã không được phát triển hồn thiện và cuối cùng

được kết hợp vào với chuẩn MPEG-2. MPEG-3 đi đến mục tiêu là các ứng dụng HDTV với kích thước mẫu lên đến 1920x1080x30 Hz và được mã hố ở tốc độ bit 20 đến 40 Mbits/s. Cuối cùng người ta đã nhận ra rằng với một

Khoa CNTT – ĐHBKHN GVHD thầy: Dư Thanh Bình

SVTH: Đỗ Văn Tuấn Trang

vài điều chỉnh thích hợp, MPEG-1 và MPEG-2 làm việc rất tốt đối với HDTV.

MPEG-4 định nghĩa một tiêu chuẩn cho các ứng dụng Multi-media. Đặc biệt nó định nghĩa tiêu chuẩn truyền cho dòng phức tạp các hình ảnh, âm thanh và dữ liệu đồ hoạ và việc tái hợp chúng trên thiết bị thu. MPEG-4

được phát triển theo 2 giai đoạn, 1 và 2. Chuẩn MPEG-4 định nghĩa các

đối tượng hình ảnh mà trong đó các phần của một cảnh có thể được thao tác trong khi những phần khác vẫn không đổi.

MPEG-5 và MPEG-6 vẫn chưa được công bố.

MPEG-7 định nghĩa một tiêu chuẩn về việc biểu diễn nội dung cho các nghiên cứu thông tin hình ảnh và âm thanh. Tên chính thức là “Multimedia Content Description Interface”. Mục tiêu của MPEG-7 là chuẩn hố việc biểu diễn các mô tả về nội dung nghe nhìn. Tuy nhiên chuẩn không định nghĩa các công cụđể nhận ra nội dung nghe nhìn thật sự.

3. Âm thanh MPEG.

Khả năng của âm thanh MPEG, về cơ bản, âm thanh MPEG sẽ làm giảm kích thước lưu trữ 1 tâp tin âm thanh đi rất nhiều. Một đĩa Audio-CD lưu trữ được khoảng 650 Mbyte dữ liệu âm thanh thô với cách mã hóa 16 bit (bitdepth) và tần số lấy mẫu (sample rate) 44.1 kHz. Nếu đem phát ra thì cũng chỉđược 60 đến 72 phút.

- bitdepth: mô tả mức biên độ lớn nhất mà một mẫu âm thanh có thể đạt tới. Ví dụ: 8 bit = 256 mức, 16 bit = 65536 mức, về hình ảnh thì đó chính là độ phân giải.

- sample rate: mô tả số mẫu âm thanh được lấy trong 1 giây. Ví dụ: 22 kHz = 22.000 mẫu/1giây.

Phương pháp cổ điển để giảm kích thước lưu trữ là giảm lượng thông tin. Nếu đổi cách lưu trữ âm thanh từ 16 bit sang 8 bit chúng ta có thể giảm kích thước lưu trữđi 1 nửa, tuy nhiên như thế chất lượng âm thanh cũng sẽ

Khoa CNTT – ĐHBKHN GVHD thầy: Dư Thanh Bình

Hình 4.1

4. Các khái niệm trong âm thanh MPEG.

a. Hiệu ứng che (masking): nói đơn giản là âm lớn át âm bé, âm mạnh át âm yếu.

b. Ngưỡng nghe và mức nhạy cảm.

 Thí nghiệm: đặt một người trong phòng yên tĩnh. Tăng mức to của âm 1kHz lên cho đến ngay khi có thể nghe được rõ ràng. Lặp lại thí nghiệm với các tần số khác nhau, ta vẽđược đồ thị sau:

Khoa CNTT – ĐHBKHN GVHD thầy: Dư Thanh Bình

SVTH: Đỗ Văn Tuấn Trang

Hình 4.2

 “Ngưỡng nghe” : là mức mà dưới nó 1 âm thanh không thể nghe được. Nó thay đổi theo tần số âm thanh, và dĩ nhiên giữa mỗi người khác nhau. Hầu hết mọi người đều nhạy cảm ở mức 2 đến 5 kHz. Một người có nghe được âm thanh hay không tùy thuộc vào tần số của âm và độ to của âm đóở trên hay dưới ngưỡng nghe tại tần sốđó. Tai nhạy cảm ở mức 2 đến 5 kHz .  Ngưỡng nghe cũng có tính thích nghi, thay đổi cốđịnh bởi âm thanh mà ta

nghe được. Ví dụ, một cuộc nói chuyện bình thường trong một phòng thì có thể nghe được rõ ràng ởđiều kiện bình thường. Tuy nhiên, cũng cuộc trò chuyện đó nằm trong vùng lân cận của những tiếng ồn lớn, như là tiếng

ồn do một chiếc phản lực bay ngang bên trên, là hồn tồn không thể nghe

được do lúc này ngưỡng nghe đã bị sai lệch. Khi chiếc phản lục đã đi rồi thì ngưỡng nghe trở lại bình thường. Aâm thanh mà ta không thể nghe

được do sự thích nghi động của ngưỡng nghe gọi là bị “che” (masked). c. Che tần số (Frequency Masking)

Thí nghiệm:

 Phát ra 1 âm có tần số 1 kHz với mức to cốđịnh là 60dB, gọi là “âm che” (masking tone). Phát ra một âm khác (gọi là test tone) ở mức tần số khác (ví dụ 1.1kHz), và tăng mức to của âm này cho đến khi có thể nghe được nó (phân biệt được âm 1.1 kHz và âm che 1kHz).

 Làm lại thí nghiệm với các âm thử (test tone) và vẽ ra một ngưỡng mà tại

Khoa CNTT – ĐHBKHN GVHD thầy: Dư Thanh Bình

Hình 4.3

 Làm thí nghiệm với các “masking tones” có các tần số khác nhau, ta có

được hình vẽ:

Hình 4.4

d. Che nhất thời. (che thời gian)

 Nếu ta nghe một âm thanh lớn, rồi ngưng nó lại, mãi một lúc sau ta mới có thể nghe được một âm lân cận nhỏ hơn .

 Thí nghiệm: phát ra một âm che “masking tone” có tần số 1kHz ở mức 60dB, kèm một âm thử (test tone) 1.1kHz ở mức 40dB. Ta không nghe

được âm thử này (nó đã bị che).

Khoa CNTT – ĐHBKHN GVHD thầy: Dư Thanh Bình

SVTH: Đỗ Văn Tuấn Trang

Điều chỉnh thời gian delay để cho ta vừa có thể nghe được âm chủ (ví dụ

khoảng 5ms).

Lặp lại thí nghiệm cho các mức to khác nhau của âm thử, ta vẽđược đồ thị

Hình 4.5

 Làm thí nghiệm tương tự với các tần số khác nhau cho âm thử. Hiệu qủa che được vẽ như hình.

Hình 4.6

Khoa CNTT – ĐHBKHN GVHD thầy: Dư Thanh Bình

 Khi đưa ra phương pháp mã hóa âm thanh, nền tảng vẫn là yếu tố “hệ

thống nghe” của con người. Thật không may đó không phải 1 thiết bị hồn hảo để nhận biết âm thanh nhưng là thiết bị duy nhất chúng ta có được. Nhưng chúng ta có thể chuyển những khuyết điểm của nó thành ưu điểm :

đó là đặc tính phi tuyến của ngưỡng nghe và khả năng thích hợp của nó.  MPEG hoạt động dựa trên hệ thống nghe của con người, đó là cảm giác về

âm mang đặc tính sinh lý và tâm lý.

 Aâm thanh CD ghi lại tất cả tần số, kể cả những tần số bị ‘che’.  Aâm thanh MPEG chỉ ghi lại những tần số mà tai người có thể nghe.  Như vậy, MPEG sẽ bỏ qua những thông tin không quan trọng. Dựa trên

nghiên cứu về nhận thức âm thanh của con người, bộ mã hóa sẽ quyết định những thông tin nào là căn bản và những thông tin nào có thể bỏ qua.  Hiệu qủa này là bao quát nhưng đặc biệt quan trọng trong âm nhạc. Nếu

trong một dàn nhạc có một nhạc cụ chơi cực mạnh, làm át tiếng của các nhạc cụ khác ta không thể nghe được. Nhưng máy thâu âm vẫn ghi lại đầy

đủ tất cả tần số của tất cả nhạc cụ, nghĩa là thiết bị thâu âm hồn tồn không có khả năng thích nghi động như con người. Nhưng khi phát lại, ta vẫn không nghe được âm thanh của những nhạc cụ bị át. Vì vậy việc lưu trữ/ghi lại những tần số này là thừa, làm chiếm dung lượng khá nhiều. Cách ghi âm tuyến tính trên đĩa CD là hồn tồn không hiệu qủa về khía cạnh này. Do đó thay vì phải ghi lại thông tin của những âm không nghe

được, ta sẽ dành chỗ cho các âm có thể nghe được. Theo cách này, dung lượng của thiết bị ghi âm cần thiết có thể xem như giảm đi mà không làm giảm chất lượng âm thanh.

 Trước khi chúng ta nghe được điều gì, thông tin sẽ được phân tích bởi bộ

não của chúng ta. Não bộ sẽ dịch âm thanh và lọc bỏ những thông tin không cần thiết. Kỹ thuật âm thanh MPEG làm việc này thay thế cho não bộ. Như vậy, những thông tin lẽ ra phải được lọc bởi não bộ bây giờ không còn cần phải lưu trữ chiếm giữ không gian đĩa nữa.

II. CÁC KHÁI NIỆM CƠ BẢN VỀ MPEG. 1. Lược đồ mã hóa Perceptual Subband.

Bộ mã hóa âm thanh theo “perceptual subband” phân tích liên tục các tín hiệu vào và xác định ra đường cong che (masking curve), đó là mức ngưỡng mà những âm thanh ở dưới nó không thể nghe được bởi hệ thống nghe của con người.

Khoa CNTT – ĐHBKHN GVHD thầy: Dư Thanh Bình

SVTH: Đỗ Văn Tuấn Trang

Hình 4.7

Tín hiệu vào được chia thành 1 số dải tần số, gọi là “subband”. Mỗi tín hiệu “subband” được lượng tử hóa theo cách mà sự lượng tử hóa tiếng ồn

được bắt đầu bởi việc mã hóa sẽ không vượt qúa đường cong che của subband đó. Sự lượng tử hóa phổ tiếng ồn vì thế thích nghi động với phổ

của tín hiệu.Thông tin trên bộ số hóa được dùng trong mỗi subband được truyền dọc theo các mẫu subband được mã hóa. Bộ giải mã sẽ giải mã dòng bit (bitstream) mà không cần phải biết cách mà bộ mã hóa xác định những thông tin này. Điều này cho phép bộ mã hóa hoạt động với những mức độ khác nhau về chất lượng và độ phức tạp, và cũng cho phép sự phát triển trong tương lai của bộ mã hóa.

2. Giải thích về hiệu qủa che (masking effect). a. Nén âm thanh MPEG.

MPEG có thể nén 1 dòng bit 32 kbit/s đến 384 kbit/s. Một dòng bit âm thanh PCM thô thì khoảng 705 kbit/s, do đó tỉ số nén tối đa có thể là 22. Tỉ

số nén bình thường là 1:6 hay 1:7. 96 kbit/s là xem như trong suốt cho hầu hết các mục đích thực tế. Có nghĩa rằng ta không cần phải lưu tâm đến bất

Khoa CNTT – ĐHBKHN GVHD thầy: Dư Thanh Bình

kỳ sự khác biệt nào giữa tín hiệu gốc và tín hiệu nén đối với nhạc pop hay nhạc rock’n roll. Đối với một số ứng dụng khác như là hòa tấu piano, tốc

độ bit có thể lên tới 128 kbit/s.

Đểđạt được tỉ số nén này, đối với âm thanh, về cơ bản ta có hai chọn lựa: hoặc giảm số lần lấy mẫu, hoặc giảm số bit để lượng tử hố. Con người có thể nghe âm thanh với tần số từ 20 Hz đến 20 kHz. Theo thuyết của Nyquist, ta phải lấy mẫu âm thanh ở tần số tối thiểu là hai lần tần số cao nhất mà ta muốn phát lại. Tần số lấy mẫu 44,1 kHz là thích hợp. Vấn đề

còn lại là phải chọn số bit cho một mẫu mã hóa là bao nhiêu. Thông thường là 16 bit.

Lý do để chọn con số 16 bit bắt nguồn từ tỉ số tín hiệu và nhiễu (s/n). Nhiễu nói ởđây sinh ra do qúa trình số hóa. Cứ mỗi bit thêm vào, ta có tỉ

số s/n tốt hơn 6dB (đối với tai người, 6 dB tương ứng với mức to gấp đôi). Aâm thanh CD đạt tới khoảng 90 dB s/n. Mức này phù hợp với phạm vi

động của tai người còn tốt. Nghĩa là ta không thể nghe được bất kỳ nhiễu nào đến từ bản thân hệ thống. Điều gì xảy ra nếu ta lấy mẫu với 8 bit? Ta sẽ nghe thấy rất nhiều tiếng sôi trong bản ghi. Dễ dàng nghe thấy nhiễu trong khoảng nghỉ của bản nhạc hoặc giữa các từ nếu ta ghi âm một giọng nói.

b. Hiệu qủa che.

Giả sử có một âm mạnh với tần số 1000Hz, và một âm kèm theo có tần số

1100Hz nhưng với cường độ âm nhỏ hơn 18dB. Ta sẽ không thể nghe thấy âm này vì nó đã bị che hồn tồn bởi âm chủ 1000Hz. Nói một cách khác, một âm thanh yếu gần một âm thanh mạnh sẽ bị che. Nếu có một âm thanh khác tần số 2000Hz cũng có mức to thấp hơn âm 1000Hz là 18dB thì ta sẽ

nghe được âm này. Để không nghe được âm này ta phải giảm mức to của âm này xuống còn thấp hơn 45dB so với âm chủ 1000Hz. Hiệu qủa che có ý nghĩa rằng ta có thể gia tăng mức ồn nền xung quanh một âm mạnh mà vẫn không nghe được tiếng ồn vì chúng sẽ bị che hồn tồn. Tăng mức ồn nền còn có nghĩa là dùng ít bit để số hóa. Và điều này cũng giống như là ta

đã nén âm thanh vậy.

Bây giờ hãy xem bộ mã hố âm thanh MPEG hoạt động như thế nào. Bộ mã hóa chia phổ tần số (20Hz đến 20kHz) thành 32 dải nhỏ (sub-band). Mỗi sub-band giữ 1 phần nhỏ của phổ. Trong vùng trên của sub-band 8 ta phát một âm có tần số 1000Hz với mức to 60dB. Bộ mã hóa sẽ tính tốn hiệu qủa che của âm này và nhận ra rằng có một ngưỡng che cho tồn bộ sub- band thứ 8 (tất cả những âm có cùng tần số). Ngưỡng che này thấp hơn âm phát ra 35 dB. Tỉ số s/n có thể chấp nhận được là 60 - 35 = 25 dB, tương

đương với 4 bit. Ngồi ra nó còn ảnh hưởng trên các sub-band 9-13 và 5-7 với hiệu qủa che giảm dần từ sub-band 8. Hơn nữa, bộ mã hóa cũng xem

Khoa CNTT – ĐHBKHN GVHD thầy: Dư Thanh Bình

SVTH: Đỗ Văn Tuấn Trang

xét mức độ nhạy cảm của tai đối với các tần số khác nhau. Tai người ít nhạy cảm với các tần số cao và thấp. Nó nhạy cảm nhất đối với tần số 2-4 kHz, cùng dải tần số với tiếng nói con người.

Các sub-band nên phù hợp với tai người., nghĩa là mỗi sub-band cần có các tần số có cùng các tính chất âm học tâm lý. Trong MPEG layerII, mỗi sub-band có độ rộng 625Hz, do đó cần phải có những bộ lọc băng thông phức tạp. Để các bộ lọc đỡ phức tạp, người ta thêm FFT (Fast Fourie Transform) vào song song với bộ lọc và sử dụng các thành phần phổ từ

FFT như là các thông tin thêm vào bộ mã hóa. Bằng cách này ta sẽ lấy mật

độ bit cao hơn đối với các tần số thấp mà tai người nhạy cảm hơn.

Còn nhiều vấn đề cần phải bàn tới. Chúng ta chỉ mới giải thích sự che

đồng bộ, hiệu qủa che còn xảy ra trước và sau một âm mạnh. 3. Các lớp của âm thanh MPEG.

Có nhiều sự nhầm lẫn về lớp âm thanh MPEG. Tất cả các lớp đều dựa trên cùng một lược đồ mã hóa (mã hóa theo nhận thức). Mức độ phức tạp của bộ mã hóa và giảûi mã tuỳ thuộc vào mỗi lớp. Sau đây là hình ảnh cho thấy tỉ số nén mà ta cần phải đạt tới 100% chất lượng CD với các bộ mã hóa và giải mã khác nhau.

Hình 4.8

Khoa CNTT – ĐHBKHN GVHD thầy: Dư Thanh Bình