Phương trình sai phân tuyến tính hệ số hằng

Một phần của tài liệu Nén âm thanh file WAV theo chuẩn MPEG (Trang 25)

I. TÍN HIỆU VÀ HỆ THỐNG RỜI RẠC

6. Phương trình sai phân tuyến tính hệ số hằng

Ta chỉ khảo sát các hệ thống tuyến tính bất biến và cĩ thể đặc trưng bởi các phương trình sai phân cĩ hệ số hằng. Mối liên hệ giữa tín hiệu vào x(n) và tín hiệu ra y(n) cĩ dạng như sau:

∑ ∑ = = − = − N k M r r ky n k b x n r a 0 0 ) ( ) (

Trong đĩ tập các hệ số ak và br đặc trưng cho hệ TTBB. 7. Biểu diễn các hệ rời rạc trong miền tần số.

7.1. Phép biến đổi Fourier của tín hiệu rời rạc. ∑∞ ∑ −∞ = ∞ −∞ = − = − = k k k n j e k h k n x k h n y( ) ( ). ( ) ( ). ( )ω

Với tín hiệu vào x(n)= ejωn (cĩ tần số ω=2πf) và đáp ứng xung h(n), ta cĩ tín hiệu ra: ( ) jωn. ( jω) e H e n y =

Hàm H(ejω) gọi là đáp ứng tần số của hệ, biểu diễn đáp ứng của hệ thống theo hàm của tần số đối với dãy tác động ejωn, nĩ cho biết sự thay đổi về biên độ và pha theo tần số khi tín hiệu đi qua hệ.

H(ejω) là một hàm số phức và cĩ thể biểu diễn theo phần thực và ảo: H(ejω)= Hr(ejω)+ jHi(ejω). (r: real; i: image)

Hoặc theo biên độ và pha:

H(ejω)= | H(ejω)| ejargH(ejω ) (0≤ω≤2π).

H(ejω) là hàm liên tục theo ω và tuần hồn với chu kỳ 2π. Ta cĩ thể khai triển nĩ thành chuỗi Fourier, ngược lại h(n) cĩ thể được tính tốn từ H(ejω) bằng các cơng thức tính hệ số khai triển chuỗi Fourier:

∫ − = π π ω ω ω π H e e d n h( ) 12 ( j ). j n. Trong đĩ : ∑∞ −∞ = − = n n j j h n e e H( ω) ( ). ω

Biến đổi Fourier của dãy rời rạc: ∑∞ −∞ = = k t T jk k e A t S( ) . ( 2π )

Đối với tín hiệu tuần hồn = ∫+ T t T jk k T s t e dt A 0 0 ) / 2 ( . ). ( 1 π

7.2. Phép biến đổi Fourier thuận.

∑∞ −∞ = − = n n j j x k e e X( ω) ( ). ω

7.3. Phép biến đổi Fourier nghịch.

= −π∫ π ω ω ω π X e e d n x( ) 1/2 ( j ). j n

7.4. Phổ biên độ, phổ pha và phổ năng lượng

Do X(f) là một hàm phức nên ta cĩ thể biểu diễn dưới dạng modul và argument: [ ( )] arg | ) ( | ) (f X f ej X f X =

Hàm modul X(f) theo f được gọi là phổ biên độ của tín hiệu x(n), cịn hàm

θ(f)=arg[X(f)] được gọi là phổ pha.

Cuối cùng φ(f)=|X(f)|2 được gọi là phổ năng lượng, biểu diễn sự phân bố theo tần số của năng lượng tín hiệu x(n).

8. Định lý lấy mẫu Shannon

Một tín hiệu tương tự xa(t) cĩ dải phổ hữu hạn với giới hạn trên là Fmax(Hz) (tức là phổ bằng 0 khi f nằm ngồi dải - Fmax.. Fmax). Ta sẽ chỉ cĩ thể khơi phục lại xa(t) một cách chính xác từ các mẫu xa(n.Ts) nếu như :

Fs≥ 2Fmax

hay Ts≤ 1/(2Fmax).

Khơi phục lại tín hiệu tương tự từ tín hiệu lấy mẫu:

Ta cĩ thể khơi phục lại tín hiệu xa(t) bằng cách cho tín hiệu lấy mẫu đi qua một mạch lọc (tương tự) thơng thấp lý tưởng (low-pass filter) cĩ đáp ứng tần số Hlp(f) với tần số cắt là fc = Fs/2. Phổ của tín hiệu xa(t) sẽ được lọc lại chính xác chỉ với điều kiện :

Nghĩa là thỏa mãn định lý lấy mẫu. Khi đĩ trong khơng gian tần số: Xa(f) = X(f).Hlp(f)

Cịn trong khơng gian thời gian: Xa(t) = x(nTs)*hlp(t)

Trong đĩ hlp(t) là đáp ứng xung của mạch lọc thơng thấp lý tưởng cĩ biên độ dải thơng là Ts.

II. PHÉP BIẾN ĐỔI FOURIER RỜI RẠC

1. Chuỗi Fourier rời rạc của tín hiệu rời rạc tuần hồnTín hiệu tuần hồn xp(n) là tuần hồn với chu kỳ N nếu: Tín hiệu tuần hồn xp(n) là tuần hồn với chu kỳ N nếu:

xp(n)= xp(n+N), với mọi n.

Đối với tín hiệu rời rạc, ta khai triển Fourier theo hàm: ξk(n) = ej(2πk/N)n , k=0,±1, ±2..

Các hàm điều hịa phức rời rạc chỉ cĩ N tín hiệu phân biệt nhau vì tín hiệu sai khác nhau là bội của N thì đều như nhau:

ξk(n) = ξk±N(n) = ξk±2N(n) = ej(2πk/N)n

Đối với tín hiệu tuần hồn và rời rạc xp(n), ta cĩ chuỗi Fourier rời rạc (DFS): =∑ j k N n

k

p n a e

X ( ) . (2π / ) k=N

Trong đĩ các hệ số ak là các hệ số khai triển chuỗi Fourier rời rạc hay cịn được gọi là các vạch phổ của tín hiệu tuần hồn.

2. Biến đổi Fourier rời rạc của tín hiệu cĩ độ dài hữu hạn(DFT:Discrete Fourier Transform) Transform)

Việc biểu diễn Fourier cho tín hiệu rời rạc cĩ độ dài hữu hạn gọi là phép biến đổi Fourier rời rạc (DFT).

Tín hiệu cĩ độ dài hữu hạn là tín hiệu cĩ giá trị khác 0 trong một khoảng hữu hạn thời gian nào đĩ, và bằng 0 trong khoảng cịn lại. Đây là loại tín hiệu tồn tại trong thực tế vì chúng ta chỉ cĩ thể quan sát mọi tín hiệu trong một khoảng thời gian là hữu hạn từ N1 đến N2. Để đơn giản hố, ta cĩ thể qui ước tín hiệu x(n) tồn tại trong khoảng thời gian: 0 ≤ n ≤ M-1, tức là :

Với tín hiệu x(n) này được dùng như là một chu kỳ tín hiệu, ta cĩ thể xây dựng tín hiệu xp(n) tuần hồn với chu kỳ N bằng cách xếp chồng tuần hồn: ∑∞ −∞ = + = i p n x n iN x ( ) ( )

Nếu N ≥ M thì khơng xảy ra hiện tượng trùm thời gian giữa các phần của xp(n).

Do xp(n) chỉ cĩ duy nhất một cách biểu diễn chuỗi Fourier rời rạc nên x(n) cũng vậy. Từ chuỗi Fourier ta tính ra được 1 chu kỳ tín hiệu của xp(n), trong đĩ cĩ x(n):

xp(n) 0 ≤ n ≤ N-1 x(n)=

0 n cịn lại. 3. Phép biến đổi nhanh fourier

Fast Fourier Transform (FFT) là một giải thuật rất hiệu quả để tính DFT. Cơng thức biến đổi DFT:

∑− = = 1 0 / ) 2 ( ). ( ) ( N k N kn j e n x k X π Đặt Wnk = ej(2πkn)/N ∑− = = 1 0 ). ( ) ( N k nk W n x k X Chia DFT thành 2 phần : ∑− ∑ = − = + + + = /2 1 0 1 2 / 0 ) 1 2 ( 2 (2 1). ). 2 ( ) ( N n N n k n N nk N x n W W n x k X

Ký hiệu thành phần chẵn là xev và lẻ là xod, ta viết lại: ∑− ∑ = − = + = /2 1 0 1 2 / 0 2 / ( ). ). ( ) ( N n N n nk N od nk N ev n W x n W x k X X(k) X (k) Wk/2.Xod(k) N ev + = , k = 0..N-1

Xev(k) và Xod(k) tuần hồn với chu kỳ N/2: Xev(k) = Xev(k - N/2), N/2 ≤ k ≤ N-1.

CHƯƠNG 4. GIỚI THIỆU VỀ MPEG. I. GIỚI THIỆU.

1. MPEG là gì?

MPEG, viết tắt của cụm từ “Moving Picture Experts Group”, là một nhĩm chuyên nghiên cứu phát triển các tiêu chuẩn về hình ảnh số và nén âm thanh theo chuẩn ISO/IEC. Ngày nay, nhĩm làm việc MPEG đã phát triển và phát hành các tiêu chuẩn MPEG-1, MPEG-2 và MPEG-4. Chuẩn MPEG-3 được kết hợp vào MPEG-2 và khơng cịn tách riêng nữa. Nhĩm MPEG hiện nay đã phát triển đến chuẩn MPEG-7. MPEG chỉ là một tên riêng, tên chính thức của nĩ là : ISO/IEC JTC1 SC29 WG11.

ISO : International Organization for Standardization IEC : International Electro-technical Commission JTC1 : Joint Technical Committee 1

SC29 : Sub-committee 29

WG11: Work Group 11 (moving picture with audio). 2. So sánh các chuẩn MPEG:

MPEG-1 định nghĩa một tiêu chuẩn cho việc lưu trữ và phục hồi các hình ảnh động và âm thanh trên các thiết bị lưu trữ. Tiêu chuẩn này định nghĩa rằng hình ảnh được phát lại ở tốc độ 30 frames một giây và âm thanh được phát lại ở chất lượng như CD-audio, độ phân giải hình ảnh là 352 x 240. Chuẩn MPEG-1 được dùng điển hình trong các phần mềm huấn luyện bằng máy tính, các game hành động trong máy tính, video chất lượng VHS, Karaoke..

MPEG-2 định nghĩa cho một tiêu chuẩn kỹ thuật truyền hình số. Chuẩn MPEG-2 khắc phục một vài nhược điểm của chuẩn MPEG-1. Ví dụ, MPEG-2 cĩ thể tạo hình ảnh lớn gấp 4 lần MPEG-1 với độ nét cao hơn và rõ hơn (720 x 480 và 1280 x 720). Các đặc tính của MPEG-2 bao gồm hình ảnh chất lượng cao và âm thanh nổi..

MPEG-3 định nghĩa một tiêu chuẩn cho High Difinition Television (HDTV), là thế hệ tiếp theo của cơng nghệ truyền hình theo định dạng số đầy đủ. Tiêu chuẩn này đã khơng được phát triển hồn thiện và cuối cùng được kết hợp vào với chuẩn MPEG-2. MPEG-3 đi đến mục tiêu là các ứng dụng HDTV với kích thước mẫu lên đến 1920x1080x30 Hz và được mã hố ở tốc độ bit 20 đến 40 Mbits/s. Cuối cùng người ta đã nhận ra rằng với một

vài điều chỉnh thích hợp, MPEG-1 và MPEG-2 làm việc rất tốt đối với HDTV.

MPEG-4 định nghĩa một tiêu chuẩn cho các ứng dụng Multi-media. Đặc biệt nĩ định nghĩa tiêu chuẩn truyền cho dịng phức tạp các hình ảnh, âm thanh và dữ liệu đồ hoạ và việc tái hợp chúng trên thiết bị thu. MPEG-4 được phát triển theo 2 giai đoạn, 1 và 2. Chuẩn MPEG-4 định nghĩa các đối tượng hình ảnh mà trong đĩ các phần của một cảnh cĩ thể được thao tác trong khi những phần khác vẫn khơng đổi.

MPEG-5 và MPEG-6 vẫn chưa được cơng bố.

MPEG-7 định nghĩa một tiêu chuẩn về việc biểu diễn nội dung cho các nghiên cứu thơng tin hình ảnh và âm thanh. Tên chính thức là “Multimedia Content Description Interface”. Mục tiêu của MPEG-7 là chuẩn hố việc biểu diễn các mơ tả về nội dung nghe nhìn. Tuy nhiên chuẩn khơng định nghĩa các cơng cụ để nhận ra nội dung nghe nhìn thật sự.

3. Âm thanh MPEG.

Khả năng của âm thanh MPEG, về cơ bản, âm thanh MPEG sẽ làm giảm kích thước lưu trữ 1 tâp tin âm thanh đi rất nhiều. Một đĩa Audio-CD lưu trữ được khoảng 650 Mbyte dữ liệu âm thanh thơ với cách mã hĩa 16 bit (bitdepth) và tần số lấy mẫu (sample rate) 44.1 kHz. Nếu đem phát ra thì cũng chỉ được 60 đến 72 phút.

- bitdepth: mơ tả mức biên độ lớn nhất mà một mẫu âm thanh cĩ thể đạt tới. Ví dụ: 8 bit = 256 mức, 16 bit = 65536 mức, về hình ảnh thì đĩ chính là độ phân giải.

- sample rate: mơ tả số mẫu âm thanh được lấy trong 1 giây. Ví dụ: 22 kHz = 22.000 mẫu/1giây.

Phương pháp cổ điển để giảm kích thước lưu trữ là giảm lượng thơng tin. Nếu đổi cách lưu trữ âm thanh từ 16 bit sang 8 bit chúng ta cĩ thể giảm kích thước lưu trữ đi 1 nửa, tuy nhiên như thế chất lượng âm thanh cũng sẽ giảm đi 1 nửa.

Hình 4.1 4. Các khái niệm trong âm thanh MPEG.

a. Hiệu ứng che (masking): nĩi đơn giản là âm lớn át âm bé, âm mạnh át âm yếu.

b. Ngưỡng nghe và mức nhạy cảm.

• Thí nghiệm: đặt một người trong phịng yên tĩnh. Tăng mức to của âm 1kHz lên cho đến ngay khi cĩ thể nghe được rõ ràng. Lặp lại thí nghiệm với các tần số khác nhau, ta vẽ được đồ thị sau:

Hình 4.2

• “Ngưỡng nghe” : là mức mà dưới nĩ 1 âm thanh khơng thể nghe được. Nĩ thay đổi theo tần số âm thanh, và dĩ nhiên giữa mỗi người khác nhau. Hầu hết mọi người đều nhạy cảm ở mức 2 đến 5 kHz. Một người cĩ nghe được âm thanh hay khơng tùy thuộc vào tần số của âm và độ to của âm đĩ ở trên hay dưới ngưỡng nghe tại tần số đĩ. Tai nhạy cảm ở mức 2 đến 5 kHz .

• Ngưỡng nghe cũng cĩ tính thích nghi, thay đổi cố định bởi âm thanh mà ta nghe được. Ví dụ, một cuộc nĩi chuyện bình thường trong một phịng thì cĩ thể nghe được rõ ràng ở điều kiện bình thường. Tuy nhiên, cũng cuộc trị chuyện đĩ nằm trong vùng lân cận của những tiếng ồn lớn, như là tiếng ồn do một chiếc phản lực bay ngang bên trên, là hồn tồn khơng thể nghe được do lúc này ngưỡng nghe đã bị sai lệch. Khi chiếc phản lục đã đi rồi thì ngưỡng nghe trở lại bình thường. Aâm thanh mà ta khơng thể nghe được do sự thích nghi động của ngưỡng nghe gọi là bị “che” (masked).

c. Che tần số (Frequency Masking) Thí nghiệm:

• Phát ra 1 âm cĩ tần số 1 kHz với mức to cố định là 60dB, gọi là “âm che” (masking tone). Phát ra một âm khác (gọi là test tone) ở mức tần số khác (ví dụ 1.1kHz), và tăng mức to của âm này cho đến khi cĩ thể nghe được nĩ (phân biệt được âm 1.1 kHz và âm che 1kHz).

• Làm lại thí nghiệm với các âm thử (test tone) và vẽ ra một ngưỡng mà tại đĩ các âm thử bắt đầu cĩ thể phân biệt được:

Hình 4.3

• Làm thí nghiệm với các “masking tones” cĩ các tần số khác nhau, ta cĩ được hình vẽ:

Hình 4.4

d. Che nhất thời. (che thời gian)

• Nếu ta nghe một âm thanh lớn, rồi ngưng nĩ lại, mãi một lúc sau ta mới cĩ thể nghe được một âm lân cận nhỏ hơn .

• Thí nghiệm: phát ra một âm che “masking tone” cĩ tần số 1kHz ở mức 60dB, kèm một âm thử (test tone) 1.1kHz ở mức 40dB. Ta khơng nghe được âm thử này (nĩ đã bị che).

Điều chỉnh thời gian delay để cho ta vừa cĩ thể nghe được âm chủ (ví dụ khoảng 5ms).

Lặp lại thí nghiệm cho các mức to khác nhau của âm thử, ta vẽ được đồ thị sau:

Hình 4.5

• Làm thí nghiệm tương tự với các tần số khác nhau cho âm thử. Hiệu qủa che được vẽ như hình.

Hình 4.6 5. Hoạt động:

• Khi đưa ra phương pháp mã hĩa âm thanh, nền tảng vẫn là yếu tố “hệ thống nghe” của con người. Thật khơng may đĩ khơng phải 1 thiết bị hồn hảo để nhận biết âm thanh nhưng là thiết bị duy nhất chúng ta cĩ được. Nhưng

chúng ta cĩ thể chuyển những khuyết điểm của nĩ thành ưu điểm : đĩ là đặc tính phi tuyến của ngưỡng nghe và khả năng thích hợp của nĩ.

• MPEG hoạt động dựa trên hệ thống nghe của con người, đĩ là cảm giác về âm mang đặc tính sinh lý và tâm lý.

• Aâm thanh CD ghi lại tất cả tần số, kể cả những tần số bị ‘che’.

• Aâm thanh MPEG chỉ ghi lại những tần số mà tai người cĩ thể nghe.

• Như vậy, MPEG sẽ bỏ qua những thơng tin khơng quan trọng. Dựa trên nghiên cứu về nhận thức âm thanh của con người, bộ mã hĩa sẽ quyết định những thơng tin nào là căn bản và những thơng tin nào cĩ thể bỏ qua.

• Hiệu qủa này là bao quát nhưng đặc biệt quan trọng trong âm nhạc. Nếu trong một dàn nhạc cĩ một nhạc cụ chơi cực mạnh, làm át tiếng của các nhạc cụ khác ta khơng thể nghe được. Nhưng máy thâu âm vẫn ghi lại đầy đủ tất cả tần số của tất cả nhạc cụ, nghĩa là thiết bị thâu âm hồn tồn khơng cĩ khả năng thích nghi động như con người. Nhưng khi phát lại, ta vẫn khơng nghe được âm thanh của những nhạc cụ bị át. Vì vậy việc lưu trữ/ghi lại những tần số này là thừa, làm chiếm dung lượng khá nhiều. Cách ghi âm tuyến tính trên đĩa CD là hồn tồn khơng hiệu qủa về khía cạnh này. Do đĩ thay vì phải ghi lại thơng tin của những âm khơng nghe được, ta sẽ dành chỗ cho các âm cĩ thể nghe được. Theo cách này, dung lượng của thiết bị ghi âm cần thiết cĩ thể xem như giảm đi mà khơng làm giảm chất lượng âm thanh.

• Trước khi chúng ta nghe được điều gì, thơng tin sẽ được phân tích bởi bộ não của chúng ta. Não bộ sẽ dịch âm thanh và lọc bỏ những thơng tin khơng cần thiết. Kỹ thuật âm thanh MPEG làm việc này thay thế cho não bộ. Như vậy, những thơng tin lẽ ra phải được lọc bởi não bộ bây giờ khơng cịn cần phải lưu trữ chiếm giữ khơng gian đĩa nữa.

II. CÁC KHÁI NIỆM CƠ BẢN VỀ MPEG. 1. Lược đồ mã hĩa Perceptual Subband.

Bộ mã hĩa âm thanh theo “perceptual subband” phân tích liên tục các tín hiệu vào và xác định ra đường cong che (masking curve), đĩ là mức ngưỡng mà những âm thanh ở dưới nĩ khơng thể nghe được bởi hệ thống nghe của con người.

Hình 4.7

Tín hiệu vào được chia thành 1 số dải tần số, gọi là “subband”. Mỗi tín hiệu “subband” được lượng tử hĩa theo cách mà sự lượng tử hĩa tiếng ồn được bắt đầu bởi việc mã hĩa sẽ khơng vượt qúa đường cong che của subband đĩ.

Một phần của tài liệu Nén âm thanh file WAV theo chuẩn MPEG (Trang 25)