GIỚI THIỆU

Một phần của tài liệu luận văn phương pháp mã hoá và nén âm thanh theo chuẩn mpeg, từ đó dựa trên một số source code (viết bằng c) viết lại bằng ngôn ngữ visual c++ (Trang 31 - 79)

1. MPEG là gì?

MPEG, viết tắt của cụm từ “Moving Picture Experts Group”, là một nhĩm chuyên nghiên cứu phát triển các tiêu chuẩn về hình ảnh số và nén âm thanh theo chuẩn ISO/IEC. Ngày nay, nhĩm làm việc MPEG đã phát triển và phát hành các tiêu chuẩn MPEG-1, MPEG-2 và MPEG-4. Chuẩn MPEG-3 được kết hợp vào MPEG-2 và khơng cịn tách riêng nữa. Nhĩm MPEG hiện nay đã phát triển đến chuẩn MPEG-7. MPEG chỉ là một tên riêng, tên chính thức của nĩ là : ISO/IEC JTC1 SC29 WG11.

ISO : International Organization for Standardization IEC : International Electro-technical Commission JTC1 : Joint Technical Committee 1

SC29 : Sub-committee 29

WG11: Work Group 11 (moving picture with audio). 2. So sánh các chuẩn MPEG:

MPEG-1 định nghĩa một tiêu chuẩn cho việc lưu trữ và phục hồi các hình ảnh động và âm thanh trên các thiết bị lưu trữ. Tiêu chuẩn này định nghĩa rằng hình ảnh được phát lại ở tốc độ 30 frames một giây và âm thanh được phát lại ở chất lượng như CD-audio, độ phân giải hình ảnh là 352 x 240. Chuẩn MPEG-1 được dùng điển hình trong các phần mềm huấn luyện bằng máy tính, các game hành động trong máy tính, video chất lượng VHS, Karaoke..

MPEG-2 định nghĩa cho một tiêu chuẩn kỹ thuật truyền hình số. Chuẩn MPEG-2 khắc phục một vài nhược điểm của chuẩn MPEG-1. Ví dụ, MPEG-2 cĩ thể tạo hình ảnh lớn gấp 4 lần MPEG-1 với độ nét cao hơn và rõ hơn (720 x 480 và 1280 x 720). Các đặc tính của MPEG-2 bao gồm hình ảnh chất lượng cao và âm thanh nổi..

MPEG-3 định nghĩa một tiêu chuẩn cho High Difinition Television (HDTV), là thế hệ tiếp theo của cơng nghệ truyền hình theo định dạng số đầy đủ. Tiêu chuẩn này đã khơng được phát triển hoàn thiện và cuối cùng được kết hợp vào với chuẩn MPEG-2. MPEG-3 đi đến mục tiêu là các ứng dụng HDTV với kích thước mẫu lên đến 1920x1080x30 Hz và được mã hố ở tốc độ bit 20 đến 40 Mbits/s. Cuối cùng người ta đã nhận ra rằng với

Khoa CNTT – ĐHBKHN GVHD thầy: Dư Thanh Bình

một vài điều chỉnh thích hợp, MPEG-1 và MPEG-2 làm việc rất tốt đối với HDTV.

MPEG-4 định nghĩa một tiêu chuẩn cho các ứng dụng Multi-media. Đặc biệt nĩ định nghĩa tiêu chuẩn truyền cho dịng phức tạp các hình ảnh, âm thanh và dữ liệu đồ hoạ và việc tái hợp chúng trên thiết bị thu. MPEG-4 được phát triển theo 2 giai đoạn, 1 và 2. Chuẩn MPEG-4 định nghĩa các đối tượng hình ảnh mà trong đĩ các phần của một cảnh cĩ thể được thao tác trong khi những phần khác vẫn khơng đổi.

MPEG-5 và MPEG-6 vẫn chưa được cơng bố.

MPEG-7 định nghĩa một tiêu chuẩn về việc biểu diễn nội dung cho các nghiên cứu thơng tin hình ảnh và âm thanh. Tên chính thức là “Multimedia Content Description Interface”. Mục tiêu của MPEG-7 là chuẩn hố việc biểu diễn các mơ tả về nội dung nghe nhìn. Tuy nhiên chuẩn khơng định nghĩa các cơng cụ để nhận ra nội dung nghe nhìn thật sự.

3. Âm thanh MPEG.

Khả năng của âm thanh MPEG, về cơ bản, âm thanh MPEG sẽ làm giảm kích thước lưu trữ 1 tâp tin âm thanh đi rất nhiều. Một đĩa Audio-CD lưu trữ được khoảng 650 Mbyte dữ liệu âm thanh thơ với cách mã hĩa 16 bit (bitdepth) và tần số lấy mẫu (sample rate) 44.1 kHz. Nếu đem phát ra thì cũng chỉ được 60 đến 72 phút.

- bitdepth: mơ tả mức biên độ lớn nhất mà một mẫu âm thanh cĩ thể đạt tới. Ví dụ: 8 bit = 256 mức, 16 bit = 65536 mức, về hình ảnh thì đĩ chính là độ phân giải.

- sample rate: mơ tả số mẫu âm thanh được lấy trong 1 giây. Ví dụ: 22 kHz = 22.000 mẫu/1giây.

Phương pháp cổ điển để giảm kích thước lưu trữ là giảm lượng thơng tin. Nếu đổi cách lưu trữ âm thanh từ 16 bit sang 8 bit chúng ta cĩ thể giảm kích thước lưu trữ đi 1 nửa, tuy nhiên như thế chất lượng âm thanh cũng sẽ giảm đi 1 nửa.

Khoa CNTT – ĐHBKHN GVHD thầy: Dư Thanh Bình

Hình 4.1 4. Các khái niệm trong âm thanh MPEG.

a. Hiệu ứng che (masking): nĩi đơn giản là âm lớn át âm bé, âm mạnh át âm yếu.

b. Ngưỡng nghe và mức nhạy cảm.

 Thí nghiệm: đặt một người trong phịng yên tĩnh. Tăng mức to của âm 1kHz lên cho đến ngay khi cĩ thể nghe được rõ ràng. Lặp lại thí nghiệm với các tần số khác nhau, ta vẽ được đồ thị sau:

Khoa CNTT – ĐHBKHN GVHD thầy: Dư Thanh Bình

Hình 4.2

 “Ngưỡng nghe” : là mức mà dưới nĩ 1 âm thanh khơng thể nghe được. Nĩ thay đổi theo tần số âm thanh, và dĩ nhiên giữa mỗi người khác nhau. Hầu hết mọi người đều nhạy cảm ở mức 2 đến 5 kHz. Một người cĩ nghe được âm thanh hay khơng tùy thuộc vào tần số của âm và độ to của âm đĩ ở trên hay dưới ngưỡng nghe tại tần số đĩ. Tai nhạy cảm ở mức 2 đến 5 kHz .

 Ngưỡng nghe cũng cĩ tính thích nghi, thay đổi cố định bởi âm thanh mà ta nghe được. Ví dụ, một cuộc nĩi chuyện bình thường trong một phịng thì cĩ thể nghe được rõ ràng ở điều kiện bình thường. Tuy nhiên, cũng cuộc trị chuyện đĩ nằm trong vùng lân cận của những tiếng ồn lớn, như là tiếng ồn do một chiếc phản lực bay ngang bên trên, là hồn tồn khơng thể nghe được do lúc này ngưỡng nghe đã bị sai lệch. Khi chiếc phản lục đã đi rồi thì ngưỡng nghe trở lại bình thường. Am thanh mà ta khơng thể nghe được do sự thích nghi động của ngưỡng nghe gọi là bị “che” (masked).

c. Che tần số (Frequency Masking) Thí nghiệm:

 Phát ra 1 âm cĩ tần số 1 kHz với mức to cố định là 60dB, gọi là “âm che” (masking tone). Phát ra một âm khác (gọi là test tone) ở mức tần số khác (ví dụ 1.1kHz), và tăng mức to của âm này cho đến khi cĩ thể nghe được nĩ (phân biệt được âm 1.1 kHz và âm che 1kHz).

 Làm lại thí nghiệm với các âm thử (test tone) và vẽ ra một ngưỡng mà tại đĩ các âm thử bắt đầu cĩ thể phân biệt được:

Khoa CNTT – ĐHBKHN GVHD thầy: Dư Thanh Bình (adsbygoogle = window.adsbygoogle || []).push({});

Hình 4.3

 Làm thí nghiệm với các “masking tones” cĩ các tần số khác nhau, ta cĩ được hình vẽ:

Hình 4.4

d. Che nhất thời. (che thời gian)

 Nếu ta nghe một âm thanh lớn, rồi ngưng nĩ lại, mãi một lúc sau ta mới cĩ thể nghe được một âm lân cận nhỏ hơn .

 Thí nghiệm: phát ra một âm che “masking tone” cĩ tần số 1kHz ở mức 60dB, kèm một âm thử (test tone) 1.1kHz ở mức 40dB. Ta khơng nghe được âm thử này (nĩ đã bị che).

Khoa CNTT – ĐHBKHN GVHD thầy: Dư Thanh Bình

Dừng âm che lại, đợi một lúc (delay time) ta dừng tiếp âm thử (test tone). Điều chỉnh thời gian delay để cho ta vừa cĩ thể nghe được âm chủ (ví dụ khoảng 5ms).

Lặp lại thí nghiệm cho các mức to khác nhau của âm thử, ta vẽ được đồ thị sau:

Hình 4.5

 Làm thí nghiệm tương tự với các tần số khác nhau cho âm thử. Hiệu qủa che được vẽ như hình.

Hình 4.6 5. Hoạt động:

Khoa CNTT – ĐHBKHN GVHD thầy: Dư Thanh Bình

 Khi đưa ra phương pháp mã hĩa âm thanh, nền tảng vẫn là yếu tố “hệ thống nghe” của con người. Thật khơng may đĩ khơng phải 1 thiết bị hoàn hảo để nhận biết âm thanh nhưng là thiết bị duy nhất chúng ta cĩ được. Nhưng chúng ta cĩ thể chuyển những khuyết điểm của nĩ thành ưu điểm : đĩ là đặc tính phi tuyến của ngưỡng nghe và khả năng thích hợp của nĩ.

 MPEG hoạt động dựa trên hệ thống nghe của con người, đĩ là cảm giác về âm mang đặc tính sinh lý và tâm lý.

 Am thanh CD ghi lại tất cả tần số, kể cả những tần số bị ‘che’.

 Am thanh MPEG chỉ ghi lại những tần số mà tai người cĩ thể nghe.

 Như vậy, MPEG sẽ bỏ qua những thơng tin khơng quan trọng. Dựa trên nghiên cứu về nhận thức âm thanh của con người, bộ mã hĩa sẽ quyết định những thơng tin nào là căn bản và những thơng tin nào cĩ thể bỏ qua.

 Hiệu qủa này là bao quát nhưng đặc biệt quan trọng trong âm nhạc. Nếu trong một dàn nhạc cĩ một nhạc cụ chơi cực mạnh, làm át tiếng của các nhạc cụ khác ta khơng thể nghe được. Nhưng máy thâu âm vẫn ghi lại đầy đủ tất cả tần số của tất cả nhạc cụ, nghĩa là thiết bị thâu âm hồn tồn khơng cĩ khả năng thích nghi động như con người. Nhưng khi phát lại, ta vẫn khơng nghe được âm thanh của những nhạc cụ bị át. Vì vậy việc lưu trữ/ghi lại những tần số này là thừa, làm chiếm dung lượng khá nhiều. Cách ghi âm tuyến tính trên đĩa CD là hồn tồn khơng hiệu qủa về khía cạnh này. Do đĩ thay vì phải ghi lại thơng tin của những âm khơng nghe được, ta sẽ dành chỗ cho các âm cĩ thể nghe được. Theo cách này, dung lượng của thiết bị ghi âm cần thiết cĩ thể xem như giảm đi mà khơng làm giảm chất lượng âm thanh.

 Trước khi chúng ta nghe được điều gì, thơng tin sẽ được phân tích bởi bộ não của chúng ta. Não bộ sẽ dịch âm thanh và lọc bỏ những thơng tin khơng cần thiết. Kỹ thuật âm thanh MPEG làm việc này thay thế cho não bộ. Như vậy, những thơng tin lẽ ra phải được lọc bởi não bộ bây giờ khơng cịn cần phải lưu trữ chiếm giữ khơng gian đĩa nữa.

II. CÁC KHÁI NIỆM CƠ BẢN VỀ MPEG. 1. Lược đồ mã hĩa Perceptual Subband.

Bộ mã hĩa âm thanh theo “perceptual subband” phân tích liên tục các tín hiệu vào và xác định ra đường cong che (masking curve), đĩ là mức ngưỡng mà những âm thanh ở dưới nĩ khơng thể nghe được bởi hệ thống nghe của con người.

Khoa CNTT – ĐHBKHN GVHD thầy: Dư Thanh Bình

Hình 4.7

Tín hiệu vào được chia thành 1 số dải tần số, gọi là “subband”. Mỗi tín hiệu “subband” được lượng tử hĩa theo cách mà sự lượng tử hĩa tiếng ồn được bắt đầu bởi việc mã hĩa sẽ khơng vượt qúa đường cong che của subband đĩ. Sự lượng tử hĩa phổ tiếng ồn vì thế thích nghi động với phổ của tín hiệu.Thơng tin trên bộ số hĩa được dùng trong mỗi subband được truyền dọc theo các mẫu subband được mã hĩa. Bộ giải mã sẽ giải mã dịng bit (bitstream) mà khơng cần phải biết cách mà bộ mã hĩa xác định những thơng tin này. Điều này cho phép bộ mã hĩa hoạt động với những mức độ khác nhau về chất lượng và độ phức tạp, và cũng cho phép sự phát triển trong tương lai của bộ mã hĩa.

2. Giải thích về hiệu qủa che (masking effect). a. Nén âm thanh MPEG.

MPEG cĩ thể nén 1 dịng bit 32 kbit/s đến 384 kbit/s. Một dịng bit âm thanh PCM thơ thì khoảng 705 kbit/s, do đĩ tỉ số nén tối đa cĩ thể là 22. Tỉ số nén bình thường là 1:6 hay 1:7. 96 kbit/s là xem như trong suốt cho hầu hết các mục đích thực tế. Cĩ nghĩa rằng ta khơng cần phải lưu tâm đến bất

Khoa CNTT – ĐHBKHN GVHD thầy: Dư Thanh Bình

kỳ sự khác biệt nào giữa tín hiệu gốc và tín hiệu nén đối với nhạc pop hay nhạc rock’n roll. Đối với một số ứng dụng khác như là hịa tấu piano, tốc độ bit cĩ thể lên tới 128 kbit/s.

Để đạt được tỉ số nén này, đối với âm thanh, về cơ bản ta cĩ hai chọn lựa: hoặc giảm số lần lấy mẫu, hoặc giảm số bit để lượng tử hố. Con người cĩ thể nghe âm thanh với tần số từ 20 Hz đến 20 kHz. Theo thuyết của Nyquist, ta phải lấy mẫu âm thanh ở tần số tối thiểu là hai lần tần số cao nhất mà ta muốn phát lại. Tần số lấy mẫu 44,1 kHz là thích hợp. Vấn đề cịn lại là phải chọn số bit cho một mẫu mã hĩa là bao nhiêu. Thơng thường là 16 bit. (adsbygoogle = window.adsbygoogle || []).push({});

Lý do để chọn con số 16 bit bắt nguồn từ tỉ số tín hiệu và nhiễu (s/n). Nhiễu nĩi ở đây sinh ra do qúa trình số hĩa. Cứ mỗi bit thêm vào, ta cĩ tỉ số s/n tốt hơn 6dB (đối với tai người, 6 dB tương ứng với mức to gấp đơi). Am thanh CD đạt tới khoảng 90 dB s/n. Mức này phù hợp với phạm vi động của tai người cịn tốt. Nghĩa là ta khơng thể nghe được bất kỳ nhiễu nào đến từ bản thân hệ thống. Điều gì xảy ra nếu ta lấy mẫu với 8 bit? Ta sẽ nghe thấy rất nhiều tiếng sơi trong bản ghi. Dễ dàng nghe thấy nhiễu trong khoảng nghỉ của bản nhạc hoặc giữa các từ nếu ta ghi âm một giọng nĩi.

b. Hiệu qủa che.

Giả sử cĩ một âm mạnh với tần số 1000Hz, và một âm kèm theo cĩ tần số 1100Hz nhưng với cường độ âm nhỏ hơn 18dB. Ta sẽ khơng thể nghe thấy âm này vì nĩ đã bị che hoàn tồn bởi âm chủ 1000Hz. Nĩi một cách khác, một âm thanh yếu gần một âm thanh mạnh sẽ bị che. Nếu cĩ một âm thanh khác tần số 2000Hz cũng cĩ mức to thấp hơn âm 1000Hz là 18dB thì ta sẽ nghe được âm này. Để khơng nghe được âm này ta phải giảm mức to của âm này xuống cịn thấp hơn 45dB so với âm chủ 1000Hz. Hiệu qủa che cĩ ý nghĩa rằng ta cĩ thể gia tăng mức ồn nền xung quanh một âm mạnh mà vẫn khơng nghe được tiếng ồn vì chúng sẽ bị che hồn tồn. Tăng mức ồn nền cịn cĩ nghĩa là dùng ít bit để số hĩa. Và điều này cũng giống như là ta đã nén âm thanh vậy.

Bây giờ hãy xem bộ mã hố âm thanh MPEG hoạt động như thế nào. Bộ mã hĩa chia phổ tần số (20Hz đến 20kHz) thành 32 dải nhỏ (sub-band). Mỗi sub-band giữ 1 phần nhỏ của phổ. Trong vùng trên của sub-band 8 ta phát một âm cĩ tần số 1000Hz với mức to 60dB. Bộ mã hĩa sẽ tính tốn hiệu qủa che của âm này và nhận ra rằng cĩ một ngưỡng che cho toàn bộ sub-band thứ 8 (tất cả những âm cĩ cùng tần số). Ngưỡng che này thấp hơn âm phát ra 35 dB. Tỉ số s/n cĩ thể chấp nhận được là 60 - 35 = 25 dB, tương đương với 4 bit. Ngoài ra nĩ cịn ảnh hưởng trên các sub-band 9-13 và 5-7 với hiệu qủa che giảm dần từ sub-band 8. Hơn nữa, bộ mã hĩa cũng

Khoa CNTT – ĐHBKHN GVHD thầy: Dư Thanh Bình

xem xét mức độ nhạy cảm của tai đối với các tần số khác nhau. Tai người ít nhạy cảm với các tần số cao và thấp. Nĩ nhạy cảm nhất đối với tần số 2- 4 kHz, cùng dải tần số với tiếng nĩi con người.

Các sub-band nên phù hợp với tai người., nghĩa là mỗi sub-band cần cĩ các tần số cĩ cùng các tính chất âm học tâm lý. Trong MPEG layerII, mỗi sub-band cĩ độ rộng 625Hz, do đĩ cần phải cĩ những bộ lọc băng thơng phức tạp. Để các bộ lọc đỡ phức tạp, người ta thêm FFT (Fast Fourie Transform) vào song song với bộ lọc và sử dụng các thành phần phổ từ FFT như là các thơng tin thêm vào bộ mã hĩa. Bằng cách này ta sẽ lấy mật độ bit cao hơn đối với các tần số thấp mà tai người nhạy cảm hơn.

Cịn nhiều vấn đề cần phải bàn tới. Chúng ta chỉ mới giải thích sự che đồng bộ, hiệu qủa che cịn xảy ra trước và sau một âm mạnh.

3. Các lớp của âm thanh MPEG.

Cĩ nhiều sự nhầm lẫn về lớp âm thanh MPEG. Tất cả các lớp đều dựa trên cùng một lược đồ mã hĩa (mã hĩa theo nhận thức). Mức độ phức tạp của bộ mã hĩa và giải mã tuỳ thuộc vào mỗi lớp. Sau đây là hình ảnh cho thấy tỉ số nén mà ta cần phải đạt tới 100% chất lượng CD với các bộ mã hĩa và giải mã khác nhau.

Hình 4.8 Sau đây là chi tiết về các lớp.

Khoa CNTT – ĐHBKHN GVHD thầy: Dư Thanh Bình

a. Lớp I (Layer I):

Đây là lớp đơn giản nhất phù hợp cho ứng dụng của người dùng. Mơ hình âm học tâm lý của lớp này chỉ sử dụng các tần số che. Điều này cĩ nghĩa

Một phần của tài liệu luận văn phương pháp mã hoá và nén âm thanh theo chuẩn mpeg, từ đó dựa trên một số source code (viết bằng c) viết lại bằng ngôn ngữ visual c++ (Trang 31 - 79)