1. Trang chủ
  2. » Công Nghệ Thông Tin

MULTIMEDIA phần 4 ppt

10 107 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 10
Dung lượng 479,2 KB

Nội dung

MÃ HO MÃ HO Á Á AUDIO C AUDIO C Ả Ả M QUAN M QUAN • Cấu trúc dạng cây ñơn phân giải H 01 (e jω ) ↓2 H 11 (e jω ) ↓2 x(n) H 02 0 (e jω ) ↓2 H 12 0 (e jω ) ↓2 H 02 1 (e jω ) ↓2 H 12 1 (e jω ) ↓2 MÃ HO MÃ HO Á Á AUDIO C AUDIO C Ả Ả M QUAN M QUAN • Cấu trúc dạng cây ña phân giải – Cấu trúc này cho ta lượng bit ngõ ra tối ưu và phù thuộc vào sự phân bố phổ của tín hiệu. H 01 (e jω ) ↓2 H 11 (e jω ) ↓2 x(n) H 02 0 (e jω ) ↓2 H 12 0 (e jω ) ↓2 MÃ HO MÃ HO Á Á AUDIO C AUDIO C Ả Ả M QUAN M QUAN • Các phương pháp mã hoá chuyển ñổi – FFT (Fast Fourier Transform) – DFT (Discrete Fourier Transform) – DCT (Discrete Cosine Transform) – MDCT (Modified DCT) – Wavelets. MÃ HO MÃ HO Á Á AUDIO C AUDIO C Ả Ả M QUAN M QUAN • DCT (Discrete Cosine Transform) DCT là phép biến ñổi trực giao, một thuật toán hiệu quả, cho các ñặc tính nén mạnh và giảm ñộ tương quan. Chuyển ñổi DCT thuận: Chuyển ñổi DCT ngược        −≤< = =∆ −= + ∆= ∑ − = 10, 2 ;0, 1 )( 1, 0, 2 )12( cos)()()( 1 0 Nn N n N n Nk N kn nxnkX N n π        −≤< = =∆ −= + ∆= ∑ − = 10, 2 ;0, 1 )( 1, ,0, 2 )12( cos)()()( 1 0 Nn N n N n Nn N kn kXnnx N k π MÃ HO MÃ HO Á Á AUDIO C AUDIO C Ả Ả M QUAN M QUAN • MDCT (Modified DCT): DCT ñược hiệu chỉnh. MDCT là phép biến ñổi trực giao tuyến tính ñược hiệu chỉnh từ DCT. MDCT thuận: Và chuyển ñổi MDCT ngược (IMDCT): Với p(x) là hàm cửa sổ sin ñược xác ñịnh: • Wavelets Wavelets có thể ñược xem như một bộ phân tích băng con, với cây không cân bằng, nghĩa là các tần số ñược chia một cách không ñồng nhất. Vậy, băng lọc tương ñồng với dải tới hạn. ( ) sin( ) x p x N π = 1 0 ( ) ( ) ( ) os (2 1 )(2 1) ; 0, , 1; 0, , 1. 2N 2 2 N n N N X k p n x n c n k n N k π − =   = + + + = − = −     ∑ .1 2 , ,0;1, ,0,)12)( 2 12( 2 cos)()( 4 )( 1 2 0 −=−=       +++= ∑ − = N kNnk N n N kXnp N nx N k π MÃ HO MÃ HO Á Á AUDIO C AUDIO C Ả Ả M QUAN M QUAN • DWT (Discrete Wavelet Transform) Mở rộng và dịch chuyển “hàm mẹ” h(t) bằng cách ñịnh nghĩa một cơ sở trực giao, wavelet cơ sở: Trong ñó: n là tỷ lệ, m là ñộ dời và t là thời gian. Hệ số tỷ lệ n chỉ thị ñộ rộng của các wavelet và hệ số vị trí m xác ñịnh vị trí của nó. Với hàm mẹ h(t), ta ñược một tập hàm wavelet trực giao cơ sở. Trực giao: f(t), g(t) là hai vector thuộc không gian L2(a,b). t∈ ∈∈ ∈[a,b]. Hai vector gọi là trực giao khi tích vô hướng của chúng bằng 0. ( ) / 2 . ( ) 2 2 m m n m h t h t n − − = − ∫ =>=< b a dttgtftgtf 0)()()(),( * MÃ HO MÃ HO Á Á AUDIO C AUDIO C Ả Ả M QUAN M QUAN • Cơ sở trực giao: Tập các vector {vk}={v1,v2, …,vn} ñược gọi là cơ sở trực giao nếu chúng trực giao từng ñôi một và có ñộ dài bằng 1. <vm,vn>=δ δδ δmn. Hay: •Hàm delta: Chuyển ñổi Wavelet: Chuyển ñổi wavelet ngược: .)(*)( kll b a k dtthth δ = ∫    ≠ = = lk lk kl ,0 ,1 δ ∑ == * ,, )(),( mnmn htxcmnX ω ∑∑ +∞ ∞− +∞ ∞− = )()( ,. thctx mnmn PHÂN T PHÂN T Í Í CH TÂM LÝ ÂM H CH TÂM LÝ ÂM H Ọ Ọ C C • Hệ thống thính giác của con người – ðược chú trọng khai thác trong mã hoá audio cảm quan. – Con người có thể nghe trong dải 20Hz ñến 20kHz với khả năng nghe không ñồng nhất với các tần số trong dải này. Việc cảm nhận còn phụ thuộc vào mức áp lực và tuỳ thuộc vào từng người. – Dải 20Hz÷20kHz ñược chia thành các dải con không ñồng nhất và không tuyến tính. Cảm nhận tốt trong khoảng 2kHz ñến 4kHz và ngưỡng nghe ñến ngưỡng ñau khoảng 96dB. – Phụ thuộc vào môi trường nghe, với môi trường nhiễu lớn thì hạn chế khả năng nghe và khả năng phân biệt các âm thanh khác nhau. – Vậy, phân tích tâm lý nghe là xét các vấn ñề: • ðộ nhạy của tai, khả năng ñáp ứng của các cường ñộ khác nhau. • ðáp ứng của tai với các tần số khác nhau. • Nghe một âm khi có mặt một âm khác. PHÂN T PHÂN T Í Í CH TÂM LÝ ÂM H CH TÂM LÝ ÂM H Ọ Ọ C C • Ngưỡng nghe tuyệt ñối ATH (Absolute Theshold of Hearing) – Thí nghiệm:ðặt một người trong phòng kín, im lặng, phát âm kiểm tra (test tone) với tần số xác ñịnh (1kHz), tăng mức âm thanh cho ñến khi có thể nghe ñược, ghi lại các giá trị và lặp lại với tần số khác. – Vẽ ñồ thị, ta ñược ngưỡng nghe tuyệt ñối. Thử với người khác, ghi kết quả. PHÂN T PHÂN T Í Í CH TÂM LÝ ÂM H CH TÂM LÝ ÂM H Ọ Ọ C C • Dải tới hạn (critical bankwidth) – Fletcher tiến hành các thử nghiệm và cho thấy việc nghe của con người giống như sử dụng các bộ lọc tâm sinh lý có ñộ rộng gần bằng một giá trị tới hạn và Flecher gọi ñộ rộng của bộ lọc tới hạn là dải tới hạn. – Dải tới hạn biểu diễn công suất xác ñịnh của tai cho cho các tần số hay dải tần số liên tục. – Các thí nghiệm cho thấy rằng: • Với các tần số che nhỏ hơn 500Hz thì dải tới hạn không ñổi với ñộ rộng khoảng 100Hz. • Với các tần số che lớn hơn 500Hz thì dải tới hạn có ñộ rộng tăng tương ñối tuyến tính theo tần số. – Vậy, thang tần số không tuyến tính  thang bark (Barkhausen) PHÂN T PHÂN T Í Í CH TÂM LÝ ÂM H CH TÂM LÝ ÂM H Ọ Ọ C C • Dải tới hạn (critical bankwidth) – Flecher chia băng thông âm thanh thành 25 dải tới hạn. 655022050187751550025 …………… 1407707006307 1206305705106 1105104504005 1004003503004 1002001501002 -10050-1 Băng thôngTần số caoTsố trung tâmTần số thấpDải PHÂN T PHÂN T Í Í CH TÂM LÝ ÂM H CH TÂM LÝ ÂM H Ọ Ọ C C • Dải tới hạn (critical bankwidth) – Bark là ñơn vị ñể biểu diễn một dải tới hạn, 1 bark=1 ñộ rộng dải tới hạn. – Công thức chuyển ñổi: – Công thức khác: 1bark=13arctg(0.76f)+3.5arctg(f/7500) [bark] – Công thức khác nữa: 1bark=13arctg(0.76f)+3.5arctg(f 2 /65.25) [bark]      ≥+ < = 500), 1000 (log49 500, 100 1 2 f f f f bark PHÂN T PHÂN T Í Í CH TÂM LÝ ÂM H CH TÂM LÝ ÂM H Ọ Ọ C C • Kỹ thuật che (masking) Con người khi nghe một âm với sự có mặt của một âm khác sẽ cảm nhận yếu ñi khi âm này có tần số gần với âm cần nghe hoặc biên ñộ lớn. – Che tần số (frequency masking) Thí nghiệm: ðặt một người trong phòng kín, phát ra một âm che (masking tone) với tần số xác ñịnh (1kHz) ở một mức nào ñó (60dB), sau ñó, phát âm kiểm tra (test tone) (1,1kHz) , tăng mức ñến khi có thể nghe ñược. Thay ñổi âm kiểm tra, vẽ ngưỡng nghe, lặp lại với âm che khác. PHÂN T PHÂN T Í Í CH TÂM LÝ ÂM H CH TÂM LÝ ÂM H Ọ Ọ C C – Che thời gian (temporal masking) Thí nghiệm: Phát một âm che ở tần số 1kHz, biên ñộ 55dB, thêm một âm kiểm tra 1,1kHz, biên ñộ 20dB trước và sau âm che. Âm kiểm tra không thể nghe ñược (nó ñang bị che). Lặp lại các mức khác của âm kiểm tra và vẽ. Với thí nghiệm trên, ta thấy âm 1,1kHz với 20dB bị che trước khoảng 15ms và che sau khoảng 50ms. K K Ỹ Ỹ THU THU Ậ Ậ T N T N É É N AUDIO N AUDIO • Cơ sở Âm thanh trung thực và chất lượng dịch vụ thoả mãn thì tốc ñộ dòng dữ liệu phải lớn. Ví dụ : Hệ thống âm thanh ña kênh mã hoá 16 bits, tần số lấy mẫu 48kHz (6 kênh) sẽ có tốc ñộ: 48x16x6=4.5Mbps. Tốc ñộ cao  Khó khăn lưu trữ, truyền dẫn và giá thành thiết bị.  Nén. • Nén không tổn hao Khôi phục ñúng thông tin ban ñầu sau khi giải nén. Cơ sở: Loại bỏ dư thừa thống kê, các thông tin xuất hiện trong tín hiệu mà có thể dự báo trước. Tỷ số nén thấp, khoảng 2:1, phụ thuộc vào ñộ phức tạp của tín hiệu nguồn. Thường sử dụng kỹ thuật mã hoá dự ñoán trong miền thời gian. K K Ỹ Ỹ THU THU Ậ Ậ T N T N É É N AUDIO N AUDIO – Thuật toán vi sai: Tín hiệu âm thanh có ñặc tính lặp ñi lặp lại nên xuất hiện sự dư thừa số liệu. Thông tin lặp sẽ ñược loại bỏ trong quá trình mã hoá và ñược ñưa vào lại trong quá trình giải mã sử dụng kỹ thuật DPCM. Các tín hiệu audio ñầu tiên ñược phân tích thành tập hợp các dải băng con bao gồm một số lượng âm thanh rời rạc, sau ñó, DPCM ñược sử dụng ñể dự báo các tín hiệu lặp lại theo chu kỳ. Nếu sử dụng ADPCM còn cho kết quả tốt hơn. – Mã hoá Entropy: Tận dụng ñộ dư thừa trong cách miêu tả các hệ số băng con ñã lượng tử hoá nhằm cải thiện tính hiệu quả của quá trình mã hoá. Các hệ số lượng tử ñược gởi ñi theo sự tăng dần của tần số. Kết quả nhận ñược là bảng mã tối ưu thống kê các giá trị miền tần số thấp và cao. Sử dụng mã hoá Hufman, Lempel-Zip ñể nén. K K Ỹ Ỹ THU THU Ậ Ậ T N T N É É N AUDIO N AUDIO • Nén tổn hao Hệ thống thính giác của con người không thể phân biệt các thành phần phổ có biên ñộ nhỏ giữa các thành phần phổ có biên ñộ lớn. Hệ số nén lớn, khoảng 20:1 phụ thuộc vào quá trình nén và giải nén và chất lượng audio yêu cầu. – Các kỹ thuật ñược sử dụng: - Kỹ thuật che (masking) ñối với các thành phần tín hiệu trong miền thời gian và tần số. - Che mức tạp âm lượng tử cho từng âm ñộ của tín hiệu âm thanh bằng cách chỉ ñịnh số bit vừa ñủ ñể chắc chắn rằng mức nhiễu lượng tử luôn nằm dưới mức giá trị cần che. - Mã hoá ghép: Khai thác ñộ dư thừa trong hệ thống audio ña kênh với các thành phần số liệu trong các kênh giống nhau. Mã hoá một phần số liệu chung trên một kênh và chỉ ñịnh cho bộ giải mã lặp lại tín hiệu ñó trên các kênh còn lại. MPEG MPEG - - 1 1 • Giới thiệu ðược phát triển trên cơ sở phối hợp chuẩn ISO/IEC 11172. Sử dụng tần số lấy mẫu của CD-DA, với f s =32;44.1;48kHz, mã hoá 16bits/mẫu tín hiệu. Tốc ñộ bít: 32 - 768 kbps/channel. Các kiểu: Mono, dual-mono, dual-stereo, joint-stereo. Xác ñịnh các tham số khác nhau về tốc ñộ, dòng số sau khi nén, số mẫu trong header cho một kênh, cấu trúc thời gian khung, phương pháp mã hoá dự ñoán và các chế ñộ làm việc. MPEG-1 Lớp I Lớp II Lớp III Mono và Stereo 32, 44.1, 48kHz MPEG MPEG - - 1 1 • ðặc tính Lớp I Lớp II Lớp III Dùng cho thiết bị dân dụng Dùng cho thiết bị chuyên dụng, ña môi trường Dùng cho thiết bị chuyên dụng, ña môi trường Tốc ñộ dòng số liệu từ 32- 448kbps Tốc ñộ dòng số liệu từ 32- 384kbps Tốc ñộ dòng số liệu từ 32- 320kbps 384mẫu/khung/kênh 1152mẫu/khung/kênh 1152mẫu/khung/kênh 32 băng con ñều nhau, mỗi băng con gồm block 12 mẫu 32 băng con ñều nhau, mỗi băng con gồm block 36 mẫu 32 băng con tới hạnthành 18 MDCT Chu kỳ một khung 8ms cho kênh có f s =48kHz Chu kỳ một khung 24ms cho kênh có f s =48kHz Chu kỳ một khung 24ms cho kênh có f s =48kHz Hệ số tỷ lệ 6 bits/băng, phân phối bit theo phương thức ứng trước. Hệ số tỷ lệ 6 bits/băng, phân phối bit theo phương thức ứng trước. Hệ số tỷ lệ 6 bits/băng, phân phối bit theo phương thức ứng trước. MPEG MPEG - - 1 1 • Khung lớp I : 12x32 =384. • Khung lớp II, III: 12x32x3=1152. Lọc băng con 0 Lọc băng con 1 Lọc băng con 31 Lọc băng con 2 … Các mẫu Audio ngõ vào 12 mẫu 12 mẫu 12 mẫu 12 mẫu 12 mẫu 12 mẫu 12 mẫu 12 mẫu 12 mẫu 12 mẫu 12 mẫu 12 mẫu Khung lớp I Khung lớp II và lớp III . băng thông âm thanh thành 25 dải tới hạn. 655022050187751550025 …………… 140 7707006307 1206305705106 11051 045 040 05 10 040 035030 04 1002001501002 -10050-1 Băng thôngTần số caoTsố trung tâmTần số thấpDải PHÂN. hạnthành 18 MDCT Chu kỳ một khung 8ms cho kênh có f s =48 kHz Chu kỳ một khung 24ms cho kênh có f s =48 kHz Chu kỳ một khung 24ms cho kênh có f s =48 kHz Hệ số tỷ lệ 6 bits/băng, phân phối bit theo. chuyên dụng, ña môi trường Tốc ñộ dòng số liệu từ 32- 44 8kbps Tốc ñộ dòng số liệu từ 32- 384kbps Tốc ñộ dòng số liệu từ 32- 320kbps 384mẫu/khung/kênh 1152mẫu/khung/kênh 1152mẫu/khung/kênh 32

Ngày đăng: 07/08/2014, 21:20