1. Chuỗi Fourier rời rạc của tín hiệu rời rạc tuần hồnTín hiệu tuần hồn xp(n) là tuần hồn với chu kỳ N nếu: Tín hiệu tuần hồn xp(n) là tuần hồn với chu kỳ N nếu:
xp(n)= xp(n+N), với mọi n.
Đối với tín hiệu rời rạc, ta khai triển Fourier theo hàm: ξk(n) = ej(2πk/N)n , k=0,±1, ±2..
Các hàm điều hịa phức rời rạc chỉ cĩ N tín hiệu phân biệt nhau vì tín hiệu sai khác nhau là bội của N thì đều như nhau:
ξk(n) = ξk±N(n) = ξk±2N(n) = ej(2πk/N)n
Đối với tín hiệu tuần hồn và rời rạc xp(n), ta cĩ chuỗi Fourier rời rạc (DFS): =∑ j k N n
k
p n a e
X ( ) . (2π / ) k=N
Trong đĩ các hệ số ak là các hệ số khai triển chuỗi Fourier rời rạc hay cịn được gọi là các vạch phổ của tín hiệu tuần hồn.
2. Biến đổi Fourier rời rạc của tín hiệu cĩ độ dài hữu hạn(DFT:Discrete Fourier Transform) Transform)
Việc biểu diễn Fourier cho tín hiệu rời rạc cĩ độ dài hữu hạn gọi là phép biến đổi Fourier rời rạc (DFT).
Tín hiệu cĩ độ dài hữu hạn là tín hiệu cĩ giá trị khác 0 trong một khoảng hữu hạn thời gian nào đĩ, và bằng 0 trong khoảng cịn lại. Đây là loại tín hiệu tồn tại trong thực tế vì chúng ta chỉ cĩ thể quan sát mọi tín hiệu trong một khoảng thời gian là hữu hạn từ N1 đến N2. Để đơn giản hố, ta cĩ thể qui ước tín hiệu x(n) tồn tại trong khoảng thời gian: 0 ≤ n ≤ M-1, tức là :
Với tín hiệu x(n) này được dùng như là một chu kỳ tín hiệu, ta cĩ thể xây dựng tín hiệu xp(n) tuần hồn với chu kỳ N bằng cách xếp chồng tuần hồn: ∑∞ −∞ = + = i p n x n iN x ( ) ( )
Nếu N ≥ M thì khơng xảy ra hiện tượng trùm thời gian giữa các phần của xp(n).
Do xp(n) chỉ cĩ duy nhất một cách biểu diễn chuỗi Fourier rời rạc nên x(n) cũng vậy. Từ chuỗi Fourier ta tính ra được 1 chu kỳ tín hiệu của xp(n), trong đĩ cĩ x(n):
xp(n) 0 ≤ n ≤ N-1 x(n)=
0 n cịn lại. 3. Phép biến đổi nhanh fourier
Fast Fourier Transform (FFT) là một giải thuật rất hiệu quả để tính DFT. Cơng thức biến đổi DFT:
∑− = = 1 0 / ) 2 ( ). ( ) ( N k N kn j e n x k X π Đặt Wnk = ej(2πkn)/N ∑− = = 1 0 ). ( ) ( N k nk W n x k X Chia DFT thành 2 phần : ∑− ∑ = − = + + + = /2 1 0 1 2 / 0 ) 1 2 ( 2 (2 1). ). 2 ( ) ( N n N n k n N nk N x n W W n x k X
Ký hiệu thành phần chẵn là xev và lẻ là xod, ta viết lại: ∑− ∑ = − = + = /2 1 0 1 2 / 0 2 / ( ). ). ( ) ( N n N n nk N od nk N ev n W x n W x k X X(k) X (k) Wk/2.Xod(k) N ev + = , k = 0..N-1
Xev(k) và Xod(k) tuần hồn với chu kỳ N/2: Xev(k) = Xev(k - N/2), N/2 ≤ k ≤ N-1.
CHƯƠNG 4. GIỚI THIỆU VỀ MPEG. I. GIỚI THIỆU.
1. MPEG là gì?
MPEG, viết tắt của cụm từ “Moving Picture Experts Group”, là một nhĩm chuyên nghiên cứu phát triển các tiêu chuẩn về hình ảnh số và nén âm thanh theo chuẩn ISO/IEC. Ngày nay, nhĩm làm việc MPEG đã phát triển và phát hành các tiêu chuẩn MPEG-1, MPEG-2 và MPEG-4. Chuẩn MPEG-3 được kết hợp vào MPEG-2 và khơng cịn tách riêng nữa. Nhĩm MPEG hiện nay đã phát triển đến chuẩn MPEG-7. MPEG chỉ là một tên riêng, tên chính thức của nĩ là : ISO/IEC JTC1 SC29 WG11.
ISO : International Organization for Standardization IEC : International Electro-technical Commission JTC1 : Joint Technical Committee 1
SC29 : Sub-committee 29
WG11: Work Group 11 (moving picture with audio). 2. So sánh các chuẩn MPEG:
MPEG-1 định nghĩa một tiêu chuẩn cho việc lưu trữ và phục hồi các hình ảnh động và âm thanh trên các thiết bị lưu trữ. Tiêu chuẩn này định nghĩa rằng hình ảnh được phát lại ở tốc độ 30 frames một giây và âm thanh được phát lại ở chất lượng như CD-audio, độ phân giải hình ảnh là 352 x 240. Chuẩn MPEG-1 được dùng điển hình trong các phần mềm huấn luyện bằng máy tính, các game hành động trong máy tính, video chất lượng VHS, Karaoke..
MPEG-2 định nghĩa cho một tiêu chuẩn kỹ thuật truyền hình số. Chuẩn MPEG-2 khắc phục một vài nhược điểm của chuẩn MPEG-1. Ví dụ, MPEG-2 cĩ thể tạo hình ảnh lớn gấp 4 lần MPEG-1 với độ nét cao hơn và rõ hơn (720 x 480 và 1280 x 720). Các đặc tính của MPEG-2 bao gồm hình ảnh chất lượng cao và âm thanh nổi..
MPEG-3 định nghĩa một tiêu chuẩn cho High Difinition Television (HDTV), là thế hệ tiếp theo của cơng nghệ truyền hình theo định dạng số đầy đủ. Tiêu chuẩn này đã khơng được phát triển hồn thiện và cuối cùng được kết hợp vào với chuẩn MPEG-2. MPEG-3 đi đến mục tiêu là các ứng dụng HDTV với kích thước mẫu lên đến 1920x1080x30 Hz và được mã hố ở tốc độ bit 20 đến 40 Mbits/s. Cuối cùng người ta đã nhận ra rằng với một
vài điều chỉnh thích hợp, MPEG-1 và MPEG-2 làm việc rất tốt đối với HDTV.
MPEG-4 định nghĩa một tiêu chuẩn cho các ứng dụng Multi-media. Đặc biệt nĩ định nghĩa tiêu chuẩn truyền cho dịng phức tạp các hình ảnh, âm thanh và dữ liệu đồ hoạ và việc tái hợp chúng trên thiết bị thu. MPEG-4 được phát triển theo 2 giai đoạn, 1 và 2. Chuẩn MPEG-4 định nghĩa các đối tượng hình ảnh mà trong đĩ các phần của một cảnh cĩ thể được thao tác trong khi những phần khác vẫn khơng đổi.
MPEG-5 và MPEG-6 vẫn chưa được cơng bố.
MPEG-7 định nghĩa một tiêu chuẩn về việc biểu diễn nội dung cho các nghiên cứu thơng tin hình ảnh và âm thanh. Tên chính thức là “Multimedia Content Description Interface”. Mục tiêu của MPEG-7 là chuẩn hố việc biểu diễn các mơ tả về nội dung nghe nhìn. Tuy nhiên chuẩn khơng định nghĩa các cơng cụ để nhận ra nội dung nghe nhìn thật sự.
3. Âm thanh MPEG.
Khả năng của âm thanh MPEG, về cơ bản, âm thanh MPEG sẽ làm giảm kích thước lưu trữ 1 tâp tin âm thanh đi rất nhiều. Một đĩa Audio-CD lưu trữ được khoảng 650 Mbyte dữ liệu âm thanh thơ với cách mã hĩa 16 bit (bitdepth) và tần số lấy mẫu (sample rate) 44.1 kHz. Nếu đem phát ra thì cũng chỉ được 60 đến 72 phút.
- bitdepth: mơ tả mức biên độ lớn nhất mà một mẫu âm thanh cĩ thể đạt tới. Ví dụ: 8 bit = 256 mức, 16 bit = 65536 mức, về hình ảnh thì đĩ chính là độ phân giải.
- sample rate: mơ tả số mẫu âm thanh được lấy trong 1 giây. Ví dụ: 22 kHz = 22.000 mẫu/1giây.
Phương pháp cổ điển để giảm kích thước lưu trữ là giảm lượng thơng tin. Nếu đổi cách lưu trữ âm thanh từ 16 bit sang 8 bit chúng ta cĩ thể giảm kích thước lưu trữ đi 1 nửa, tuy nhiên như thế chất lượng âm thanh cũng sẽ giảm đi 1 nửa.
Hình 4.1 4. Các khái niệm trong âm thanh MPEG.
a. Hiệu ứng che (masking): nĩi đơn giản là âm lớn át âm bé, âm mạnh át âm yếu.
b. Ngưỡng nghe và mức nhạy cảm.
• Thí nghiệm: đặt một người trong phịng yên tĩnh. Tăng mức to của âm 1kHz lên cho đến ngay khi cĩ thể nghe được rõ ràng. Lặp lại thí nghiệm với các tần số khác nhau, ta vẽ được đồ thị sau:
Hình 4.2
• “Ngưỡng nghe” : là mức mà dưới nĩ 1 âm thanh khơng thể nghe được. Nĩ thay đổi theo tần số âm thanh, và dĩ nhiên giữa mỗi người khác nhau. Hầu hết mọi người đều nhạy cảm ở mức 2 đến 5 kHz. Một người cĩ nghe được âm thanh hay khơng tùy thuộc vào tần số của âm và độ to của âm đĩ ở trên hay dưới ngưỡng nghe tại tần số đĩ. Tai nhạy cảm ở mức 2 đến 5 kHz .
• Ngưỡng nghe cũng cĩ tính thích nghi, thay đổi cố định bởi âm thanh mà ta nghe được. Ví dụ, một cuộc nĩi chuyện bình thường trong một phịng thì cĩ thể nghe được rõ ràng ở điều kiện bình thường. Tuy nhiên, cũng cuộc trị chuyện đĩ nằm trong vùng lân cận của những tiếng ồn lớn, như là tiếng ồn do một chiếc phản lực bay ngang bên trên, là hồn tồn khơng thể nghe được do lúc này ngưỡng nghe đã bị sai lệch. Khi chiếc phản lục đã đi rồi thì ngưỡng nghe trở lại bình thường. Aâm thanh mà ta khơng thể nghe được do sự thích nghi động của ngưỡng nghe gọi là bị “che” (masked).
c. Che tần số (Frequency Masking) Thí nghiệm:
• Phát ra 1 âm cĩ tần số 1 kHz với mức to cố định là 60dB, gọi là “âm che” (masking tone). Phát ra một âm khác (gọi là test tone) ở mức tần số khác (ví dụ 1.1kHz), và tăng mức to của âm này cho đến khi cĩ thể nghe được nĩ (phân biệt được âm 1.1 kHz và âm che 1kHz).
• Làm lại thí nghiệm với các âm thử (test tone) và vẽ ra một ngưỡng mà tại đĩ các âm thử bắt đầu cĩ thể phân biệt được:
Hình 4.3
• Làm thí nghiệm với các “masking tones” cĩ các tần số khác nhau, ta cĩ được hình vẽ:
Hình 4.4
d. Che nhất thời. (che thời gian)
• Nếu ta nghe một âm thanh lớn, rồi ngưng nĩ lại, mãi một lúc sau ta mới cĩ thể nghe được một âm lân cận nhỏ hơn .
• Thí nghiệm: phát ra một âm che “masking tone” cĩ tần số 1kHz ở mức 60dB, kèm một âm thử (test tone) 1.1kHz ở mức 40dB. Ta khơng nghe được âm thử này (nĩ đã bị che).
Điều chỉnh thời gian delay để cho ta vừa cĩ thể nghe được âm chủ (ví dụ khoảng 5ms).
Lặp lại thí nghiệm cho các mức to khác nhau của âm thử, ta vẽ được đồ thị sau:
Hình 4.5
• Làm thí nghiệm tương tự với các tần số khác nhau cho âm thử. Hiệu qủa che được vẽ như hình.
Hình 4.6 5. Hoạt động:
• Khi đưa ra phương pháp mã hĩa âm thanh, nền tảng vẫn là yếu tố “hệ thống nghe” của con người. Thật khơng may đĩ khơng phải 1 thiết bị hồn hảo để nhận biết âm thanh nhưng là thiết bị duy nhất chúng ta cĩ được. Nhưng
chúng ta cĩ thể chuyển những khuyết điểm của nĩ thành ưu điểm : đĩ là đặc tính phi tuyến của ngưỡng nghe và khả năng thích hợp của nĩ.
• MPEG hoạt động dựa trên hệ thống nghe của con người, đĩ là cảm giác về âm mang đặc tính sinh lý và tâm lý.
• Aâm thanh CD ghi lại tất cả tần số, kể cả những tần số bị ‘che’.
• Aâm thanh MPEG chỉ ghi lại những tần số mà tai người cĩ thể nghe.
• Như vậy, MPEG sẽ bỏ qua những thơng tin khơng quan trọng. Dựa trên nghiên cứu về nhận thức âm thanh của con người, bộ mã hĩa sẽ quyết định những thơng tin nào là căn bản và những thơng tin nào cĩ thể bỏ qua.
• Hiệu qủa này là bao quát nhưng đặc biệt quan trọng trong âm nhạc. Nếu trong một dàn nhạc cĩ một nhạc cụ chơi cực mạnh, làm át tiếng của các nhạc cụ khác ta khơng thể nghe được. Nhưng máy thâu âm vẫn ghi lại đầy đủ tất cả tần số của tất cả nhạc cụ, nghĩa là thiết bị thâu âm hồn tồn khơng cĩ khả năng thích nghi động như con người. Nhưng khi phát lại, ta vẫn khơng nghe được âm thanh của những nhạc cụ bị át. Vì vậy việc lưu trữ/ghi lại những tần số này là thừa, làm chiếm dung lượng khá nhiều. Cách ghi âm tuyến tính trên đĩa CD là hồn tồn khơng hiệu qủa về khía cạnh này. Do đĩ thay vì phải ghi lại thơng tin của những âm khơng nghe được, ta sẽ dành chỗ cho các âm cĩ thể nghe được. Theo cách này, dung lượng của thiết bị ghi âm cần thiết cĩ thể xem như giảm đi mà khơng làm giảm chất lượng âm thanh.
• Trước khi chúng ta nghe được điều gì, thơng tin sẽ được phân tích bởi bộ não của chúng ta. Não bộ sẽ dịch âm thanh và lọc bỏ những thơng tin khơng cần thiết. Kỹ thuật âm thanh MPEG làm việc này thay thế cho não bộ. Như vậy, những thơng tin lẽ ra phải được lọc bởi não bộ bây giờ khơng cịn cần phải lưu trữ chiếm giữ khơng gian đĩa nữa.
II. CÁC KHÁI NIỆM CƠ BẢN VỀ MPEG. 1. Lược đồ mã hĩa Perceptual Subband.
Bộ mã hĩa âm thanh theo “perceptual subband” phân tích liên tục các tín hiệu vào và xác định ra đường cong che (masking curve), đĩ là mức ngưỡng mà những âm thanh ở dưới nĩ khơng thể nghe được bởi hệ thống nghe của con người.
Hình 4.7
Tín hiệu vào được chia thành 1 số dải tần số, gọi là “subband”. Mỗi tín hiệu “subband” được lượng tử hĩa theo cách mà sự lượng tử hĩa tiếng ồn được bắt đầu bởi việc mã hĩa sẽ khơng vượt qúa đường cong che của subband đĩ. Sự lượng tử hĩa phổ tiếng ồn vì thế thích nghi động với phổ của tín hiệu.Thơng tin trên bộ số hĩa được dùng trong mỗi subband được truyền dọc theo các mẫu subband được mã hĩa. Bộ giải mã sẽ giải mã dịng bit (bitstream) mà khơng cần phải biết cách mà bộ mã hĩa xác định những thơng tin này. Điều này cho phép bộ mã hĩa hoạt động với những mức độ khác nhau về chất lượng và độ phức tạp, và cũng cho phép sự phát triển trong tương lai của bộ mã hĩa.
2. Giải thích về hiệu qủa che (masking effect). a. Nén âm thanh MPEG.
MPEG cĩ thể nén 1 dịng bit 32 kbit/s đến 384 kbit/s. Một dịng bit âm thanh PCM thơ thì khoảng 705 kbit/s, do đĩ tỉ số nén tối đa cĩ thể là 22. Tỉ số nén bình thường là 1:6 hay 1:7. 96 kbit/s là xem như trong suốt cho hầu hết các mục đích thực tế. Cĩ nghĩa rằng ta khơng cần phải lưu tâm đến bất kỳ sự khác biệt nào giữa tín hiệu gốc và tín hiệu nén đối với nhạc pop hay
nhạc rock’n roll. Đối với một số ứng dụng khác như là hịa tấu piano, tốc độ bit cĩ thể lên tới 128 kbit/s.
Để đạt được tỉ số nén này, đối với âm thanh, về cơ bản ta cĩ hai chọn lựa: hoặc giảm số lần lấy mẫu, hoặc giảm số bit để lượng tử hố. Con người cĩ thể nghe âm thanh với tần số từ 20 Hz đến 20 kHz. Theo thuyết của Nyquist, ta phải lấy mẫu âm thanh ở tần số tối thiểu là hai lần tần số cao nhất mà ta muốn phát lại. Tần số lấy mẫu 44,1 kHz là thích hợp. Vấn đề cịn lại là phải chọn số bit cho một mẫu mã hĩa là bao nhiêu. Thơng thường là 16 bit.
Lý do để chọn con số 16 bit bắt nguồn từ tỉ số tín hiệu và nhiễu (s/n). Nhiễu nĩi ở đây sinh ra do qúa trình số hĩa. Cứ mỗi bit thêm vào, ta cĩ tỉ số s/n tốt hơn 6dB (đối với tai người, 6 dB tương ứng với mức to gấp đơi). Aâm thanh CD đạt tới khoảng 90 dB s/n. Mức này phù hợp với phạm vi động của tai người cịn tốt. Nghĩa là ta khơng thể nghe được bất kỳ nhiễu nào đến từ bản thân hệ thống. Điều gì xảy ra nếu ta lấy mẫu với 8 bit? Ta sẽ nghe thấy rất nhiều tiếng sơi trong bản ghi. Dễ dàng nghe thấy nhiễu trong khoảng nghỉ của bản nhạc hoặc giữa các từ nếu ta ghi âm một giọng nĩi.
b. Hiệu qủa che.
Giả sử cĩ một âm mạnh với tần số 1000Hz, và một âm kèm theo cĩ tần số 1100Hz nhưng với cường độ âm nhỏ hơn 18dB. Ta sẽ khơng thể nghe thấy âm này vì nĩ đã bị che hồn tồn bởi âm chủ 1000Hz. Nĩi một cách khác, một âm thanh yếu gần một âm thanh mạnh sẽ bị che. Nếu cĩ một âm thanh khác tần số 2000Hz cũng cĩ mức to thấp hơn âm 1000Hz là 18dB thì ta sẽ nghe được âm này. Để khơng nghe được âm này ta phải giảm mức to của âm này xuống cịn thấp hơn 45dB so với âm chủ 1000Hz. Hiệu qủa che cĩ ý nghĩa rằng ta cĩ thể gia tăng mức ồn nền xung quanh một âm mạnh mà vẫn khơng