mã hóa âm thanh cảm nhận

BÀI TẬP LỚN THÀNH VIỆN NHÓM: Đinh Quốc Tuấn D13VT4 Hoàng Mạnh Tuấn D13VT7 Nguyễn Văn Sáng Bài 2.1: * Ý tưởng mã hóa âm cảm nhận: - Dựa vào mô hình tâm lí thính giác để ngưỡng nghe mặt nạ -vùng bảo vệ 26db ,MNR = 26 không ảnh hưởng đến âm Băng không cần mã hóa ,không cần bit + SMR mà âm bảo hoàn toàn (chỉ mã hóa vùng bảo vệ ) Bài 2.2: a, Phân tích sơ đồ khối hệ thống mã hóa thoại: Nguồn thoại Bộ lọc Bộ lấy mẫu Bộ biến đổi A/D Bộ mã hóa nguồn Bộ mã hóa kênh Kênh truyền Bộ giải mã kênh Bộ giải mã nguồn Bộ biến đổi D/A Bộ lọc Thoại đầu Sơ đồ khối hệ thống mã hóa thoại Tín hiệu thoại tương tự liên tục theo thời gian từ nguồn cho (chưa nén) số hóa thông qua bộc lọc (loại bỏ băng tần thừa tần số cao), lấy mẫu(biến đổi thành tín hiệu rời rạc theo thời gian) biến đổi tương tự/số (lượng tử hóa) sau mã hóa (nén) Đó trình mã hóa nguồn Tín hiệu mã hóa nguồn sau tiếp tục mã hóa để thêm khả chống lỗi (mã hóa kênh) độ ưu tiên để truyền dẫn qua kênh Tại đầu thu, giải mã kênh tách sửa lỗi trình truyền dẫn giải mã nguồn giải nén tín hiệu Tín hiệu giải nén giống hệt tín hiệu ban đầu (nén không tổn thất) bị méo suy biến theo vài cách đó(nén có tổn thất) b, Ta có: SNR= 10.Log10(Ps/Pn)=10Log10(A2.12/2.∆2) Theo công thức số bước lượng tử hóa : ∆=2.Amax/L => SNR= 10.Log10(3.L2/2) (Amax=A=3V) Theo đầu ta có SNR ≥ 27dB => 10.Log10(3.L2/2) ≥ 27dB ↔ (3.L2/2) ≥ 102,7 ↔ L ≥ 18,27 (Mức) Bài 2.3 Phương pháp mã hóa dạng sóng:  Mã hoá dạng sóng: người ta chia mã hoá dạng sóng làm hai loại  Trong miền thời gian: mã hoá điều xung mã (PCM), điều biến xung mã vi sai (DPCM) điều biến xung mã vi sai thích nghi (ADPCM)  Trong miền tần số: mã hoá băng SBC (subband coding) mã hoá biến đổi thích nghi ATC (Adaptive Transform Coding) Mã hóa 64 Kbít PCM (ITU G 711) Các mã hóa điều chế xung mã PCM mã hóa dạng sóng đơn giản Thoại băng hẹp lấy mẫu với tần số 8000 Hz mẫu thoại phải lượng tử hoá Nếu lượng tử hoá tuyến tính sử dụng cần thiết phải dùng 12 bit mã hóa cho mẫu dẫn đến tốc độ bit 96 Kbit/s Tuy nhiên, tốc độ giảm xuống cách dễ dàng cách sử dụng lượng tử hoá phi tuyến tính Trong việc mã thoại người ta thấy với việc lượng tử hoá phi tuyến, bit mã hóa cho xung mẫu đủ đảm bảo chất lượng thoại gần khó mà phân biệt so với thoại gốc ban đầu Điều dẫn đến tốc độ bit chuẩn 64 Kbit/s hai loại mã hóa phi tuyến PCM trở thành tiêu chuẩn vào năm 60 kỷ 20 Ở Bắc Mỹ, người ta dùng mã hóa theo luật µ, Châu Âu, mã hóa theo luật A áp dụng Do tính đơn giản, chất lượng thoại đảm bảo độ trễ thấp, hai loại mã hóa PCM sử dụng rộng rãi ngày Một kỹ thuật sử dụng phổ biến việc mã thoại cố gắng dự đoán giá trị mẫu từ mẫu trước Điều khả thi có tương quan mẫu thoại tác dụng quan phát âm rung động dây âm giới thiệu 2.2.1 Nếu dự đoán có hiệu quả, tín hiệu sai lệch mẫu dự đoán mẫu thoại thực có khác biệt thấp so với mẫu thoại nguyên gốc Bởi vậy, lượng tử hoá tín hiệu sai lệch với số lượng bit so với tín hiệu mẫu thoại gốc Đây sở mô hình điều chế xung mã vi sai – DPCM (Differential Pulse Code Modulation)- chúng lượng tử hoá khác biệt tín hiệu gốc tín hiệu dự đoán Kết từ mã hoá cải thiện dự đoán lượng tử có tương thích cho chúng thay đổi phù hợp với đặc tính thoại mã hoá Điều dẫn tới kỹ thuật điều chế xung mã vi sai thích ứng – ADPCM (Adaptive Differential Pulse Code Modulation) Vào năm 1980, CCITT chuẩn hoá mã hóa ADPCM hoạt động tốc độ 32Kbps với chất lượng thoại tương đương với phương pháp điều chế mã xung 64Kbps Sau đó, mã hóa ADPCM hoạt động tốc độ 16, 24 40Kbps chuẩn hóa Sơ đồ mã hóa giải mã ADPCM minh họa hình 2.12 Hình 2.1: Bộ mã hóa giải mã ADPCM Mã hóa ADPCM (ITUG.721, G.726, G.727) Bộ mã hóa điều chế xung mã vi sai thích nghi (ADPCM) mã hóa dạng sóng thay lượng tử hoá trực tiếp tín hiệu thoại, giống phương pháp PCM, lượng tử hóa khác tín hiệu thoại tín hiệu dự đoán Nếu dự đoán xác khác mẫu thật mẫu dự đoán nhỏ hơn, khác biệt so với mẫu thoại thực, khác biệt lượng tử hoá xác cần số bit so với việc phải lượng tử hoá mẫu thoại gốc Tại giải mã, tín hiệu khác biệt mà lượng tử hóa cộng với tín hiệu dự đoán để khôi phục lại tín hiệu thoại ban đầu Hiệu mã hóa cải thiện thông qua việc sử dụng dự đoán lượng tử thích nghi cho dự đoán lượng tử phải thích ứng với đặc tính thay đổi thoại mã hoá Vào năm 1980, CCITT chuẩn hoá ADPCM 32Kbps biết đến với tên G721, cho phép khôi phục thoại tốt phương pháp PCM 64 Kbps Các khuyến nghị sau đó: mã hóa G726 G727 hoạt động tốc độ 40, 32, 24 16 Kbps chuẩn hoá Các mã hóa dạng sóng mô tả mã hóa thoại hoàn toàn miền thời gian Tuy nhiên, tiếp cận theo miền tần số thực có số ưu điểm Ví dụ mã hóa băng - SBC (Sub – Band Coding), tín hiệu thoại đầu vào phân chia thành số dải băng tần thoại gọi băng thông qua lọc số sau băng mã hóa độc lập việc sử dụng mã hóa ADPCM Ở đây, băng tương ứng với phổ tần số thấp chứa hầu hết lượng tín hiệu thoại cấp phát với số bit mã hóa lớn, băng tương ứng với phổ tần số cao, chứa lượng tín hiệu mã hóa với số bit nhỏ Kết tổng số bit dùng cho mã hóa băng so với trường hợp mã hóa toàn dải phổ tín hiệu Tại phía thu, tín hiệu băng giải mã kết hợp lại để khôi phục lại tín hiệu thoại ban đầu (G 722 1988) Ưu điểm mã hóa băng nhiễu băng phụ thuộc vào mã hóa sử dụng băng Bởi cấp phát nhiều bit cho băng quan trọng cho nhiễu vùng tần số thấp, băng khác, cho phép có nhiễu mã hóa cao nhiễu tần số có tầm quan trọng thấp Các mô hình cấp phát bit thích ứng sử dụng để khai thác thêm ý tưởng Các mã hóa băng cho chất lượng thoại tốt phạm vi tốc độ từ 16 – 32 Kbps Do phải cần đến lọc để tách tín hiệu thoại băng nên mã hóa băng phức tạp mã hóa DPCM thông thường có thêm độ trễ mã hóa Tuy nhiên, độ phức tạp độ trễ tương đối thấp so với mã hóa lai Bài 2.4: Phương pháp mã hóa tham số theo mô hình LPC: Mô hình toán học LPC Tín hiệu thoại số đầu lọc số - lọc LPC có đầu vào dãy xung chuỗi nhiễu trắng Nói cách khác, cuống họng đặc trưng lọc biến đổi theo thời gian bị kích thích với nguồn nhiễu trắng khác cho phân đoạn thoại vô dãy xung phân tách theo chu kỳ âm cho âm hữu Do thông tin phải gửi đến giải mã tham số đặc trưng cho lọc; âm vô thanh/hữu thanh; thay đổi cần thiết tín hiệu kích thích, chu kỳ âm Quá trình cập nhật liên tục 10–20 ms theo chất không dừng (non-stationary) tín hiệu thoại Các tham số mô hình xác định mã hóa theo số cách khác sử dụng kỹ thuật miền thời gian tần số Đồng thời thông tin mã hóa để truyền dẫn theo cách khác Bài 2.5: Phương pháp mã hóa lai theo mô hình AbS: Cấu trúc mã hóa giải mã lai AbS + Sử dụng công nghệ mã hóa sóng mã hóa vocoder + đạt chất lương thoại tốt tốc độ bit 2-16Kbps +Mã hóa lai phổ biến mã hoá phân tích cách tổng hợp AbS (Analysis-by-Synthesis), RPE-LTP, CELP, ACELP, CS-CELP…vv +Mã hóa lai có nhiều phương pháp phương pháp phổ biến mã hoá phân tích cách tổng hợp AbS (Analysis-by-Synthesis) Bộ mã hoá sử dụng mô hình quan phát âm người giống mã hoá tham số Tuy nhiên, thay sử dụng mô hình tín hiệu kích thích đơn giản tín hiệu kích thích chọn cho cố gắng đạt dạng sóng tiếng nói tái tạo giống với dạng sóng tiếng nói ban đầu tốt Đây đặc tính phân biệt khác mã hoá kiểu AbS +Thuật toán tìm dạng sóng kích thích định tới độ phức tạp mã hoá Bài 2.6: a, Phương pháp mã hóa âm thanh: Mã hóa âm Mã hóa âm nhằm mục tiêu giảm tốc độ bit nhờ sử dụng mã hóa giải mã, hình Bộ mã hóa có nén tín hiệu âm đầu vào (tín hiệu nguồn), yêu cầu bit Các bit nén phân phát qua kênh truyền thông kênh lưu trữ tới giải mã, thực khôi phục lại thành tín hiệu âm ban đầu từ nén nhận Khi tín hiệu âm khôi phục đầu giải mã giống hệt tín hiệu âm nguồn đầu vào mã hóa (từng bit một), trình mã hóa âm gọi không tổn thất Ngược lại, tồn thất Nén âm thực theo hai cách Cách thứ mã hóa dạng sóng, tín hiệu biến đổi toán học phép biến đổi Fourier thành thành phần tần số Các biên độ thành phần sau mã hóa Mục tiêu để tái tạo lại dạng sóng cách xác với số lượng bit mã hóa thấp b, Khái niệm ngưỡng nghe ngưỡng đau: *Ngưỡng nghe: Tai người phát âm biến đổi cục áp suất không khí đo mức áp suất âm- SPL (Sound Pressure Level) Nếu biến đổi mức áp suất âm (SPL) ngưỡng biên độ tai người phát Ngưỡng nghe giá trị nhỏ cường độ âm gây cảm giác âm tai người Ngưỡng nghe phụ thuộc vào tần số âm *Ngưỡng đau: Là giá trị lớn cường độ âm gây cảm giác đau tai người Ngưỡng đau không phụ thuộc vào tần số âm *Ảnh hưởng chúng mã hóa âm thanh: Bài 2.7: a, Tổng quan chuẩn mã hóa âm MPEG: MPEG mô tả nén tín hiệu âm sử dụng mô hình nén theo nhận thức, đưa hệ với ba mô hình nén âm đơn giản Layer I, Layer II Layer III theo mức độ tăng lên độ phức tạp khả thực (chất lượng âm theo dòng bít) mã hóa Ba mã hóa tương thích với theo cách có thứ tự, có nghĩa giải mã Layer N có khả giải mã dòng liệu mã hóa Layer N tất Layer thấp N b, Điểm giống ba lớp âm thanh: - Dùng chung cấu trúc lọc dải- filerband - Dùng chung thông tin phần đầu-header information dòng liệu - Đều có khả nhạy lỗi bít tương tự nhau, sử dụng cấu trúc dòng bít với phần nhạy với lỗi bite (“header”, “bit location”, “scale factor”, “side information”) phần nhạy (dữ liệu thành phần phổ “data of spectral components”) - Hỗ trợ khả chèn thông tin chương trình vào dòng liệu âm - Có thể sử dụng tần số lấy mẫu 32,44.1 48 kHz - Cho phép hoạt động với dòng bít giống Bài 2.8: Hiệu ứng mã hóa âm : a: Hiệu ứng che khuất âm thanh: Là tượng âm mà ngưỡng nghe thấy âm tăng lên có mặt âm khác (khó nghe hơn) Được sử dụng kỹ thuật nén c, Băng bị che 15dB, thực chất có 14dB => băng nằm ngưỡng nghe => không cần mã hóa Băng bị che 12dB, thực chất có 20dB => băng mã hóa bit nằm ngưỡng nghe=> 20-12=8dB cần mã hóa Theo công thức tính: SNR= 6,02.n Nếu ta tăng giảm 1bit => SNR tăng giảm 6dB Vì băng bị che 12dB => bị che 2bit Mà tín hiệu gốc mã hóa 8bit/mẫu/băng => cần 8-2=6 (bit) để mã hóa Bài 2.9: Các giai đoạn xử lý ảnh: Thu nhận hình ảnh: Đây giai đoạn quan trọng tòan trình xử lý ảnh Ảnh nhận ảnh gốc để đưa vào xử lý giai đoạn sau, trường hợp ảnh gốc có chất lượng hiệu bước xử lý bị giảm Thiết bị thu nhận ống ghi hình chân không (vidicon, plumbicon ) CCD (Charge-Coupled Device) Tiền xử lý ảnh: Giai đoạn xử lý tương đối đơn giản nhằm nâng cao chất lượng ảnh để trợ giúp cho trình xử lý nâng cao tiếp theo, ví dụ: tăng độ tương phản, làm đường biên, khử nhiễu … Phân đoạn: trình tách hình ảnh thành phần vật thể riêng biệt Đây vấn đề khó giải lĩnh vực xử lý ảnh Nếu thực tách chi tiết toán nhận dạng thành phần tách trở nên phức tạp, ngược lại trình phân đoạn thực thô phân đoạn sai kết nhận cuối không xác Biểu diễn mô tả: trình xử lý tiếp sau khâu phân đoạn hình ảnh Các vật thể sau phân đoạn mô tả dạng chuỗi điểm ảnh tạo nên ranh giới vùng, tập hợp tất điểm ảnh nằm vùng Phương pháp mô tả thông qua ranh giới vùng thường sử dụng cần tập trung ý vào hình dạng bên ngòai chi tiết ảnh độ cong, góc cạnh… Biểu diễn vùng thường sử dụng => Mã hóa = 0.03001 b, Rn+1 = (0.59375 – 0)/1 = 0.59375 Rn+1 = (0.59375 – 0.5)/(0.75 – 0.5) = 0.375 Rn+1 = (0.375 – 0)/(0.5 – 0) = 0.75 Rn+1 = (0.75 – 0.75)/(1-0.75) =0 => giải mã {BACA} Bài 3.12: Cho hệ thống truyền hình chất lượng cao với số dòng z=1080, tỷ lệ khuôn hình 16:9, tần số quét 60 mành/giây (quét đan xen) Tín hiệu video số hóa với độ phân giải theo chiều ngang chiều dọc giống Mức lượng tử 256 cho thành phần chói 128 cho hai thành phần màu Tính khối lượng thông tin số có sau thực số hóa chương trình truyền hình có thời gian với khuôn dạng lấy mẫu : 4:2:0? Giải Số pixel ảnh là: 1080*1080*16/9= 1080*1920 = 2.073*106 Dung lượng ảnh 8*2.073*106 + 7*2.073*106/2 = 23.84 Mbit Lượng thông tin 2h là: 60*60*120*23.84*106 = 10.3*1012 =10.3 Tbit Bài 3.18: a Xác định số bít trung bình cho điểm ảnh ( bao gồm chói màu) Biết ảnh sử dụng chuẩn lấy mẫu 4:2:2 với 16 bít/mẫu tỷ số nén chói màu 25 b Cần bít để lưu trữ ảnh sử dụng chuẩn lấy mẫu 4:2:0 độ phân giải chói 720x576, tỷ số nén chói 20 tỷ số nén màu gấp lần chói? c Xác định phương pháp điều chế đơn giản dùng để truyền băng tần 2MHz, tần số 25hz ảnh mã hóa theo định dang câu b ? giải : a Số bit trung bình cho điểm ảnh là: (16 +16/2 + 16/2)/25 = 32/25 b Số bit cần để lưu trữ là: = 331776 + 82080 = 413.856 kbit c Tốc độ bit cần để truyền: 413.856*103*25 = 10.346 Mbit => 10.346*106< 2*106 log2M => log2M = => m = 64 => số mức điều chế 64 mức Có thể dùng 64 – QAM; 64 – PSK; … Bải 3.19: Dữ liệu đa phương tiện truyền qua mạng với tốc độ 1.5 Mbps Dữ liệu bao gồm video audio số Audio có tốc độ bít trung bình 300kbps Biết Video số có định dạng chuẩn PAL nén dùng MPEG1 Khung video có cấu trúc IBBPBBPBBPBBI…Tỷ số nén 10:1 20:1 tương ứng cho khung I khung P Tính tỷ số nén khung B để đảm bảo truyền liệu đa phương tiện với tốc độ 1.5 Mbps Giả sử chuẩn PAL tín hiệu chói có độ phân giải 352x288 tín hiệu màu lấy mẫu nửa độ phân giải chói Tần số quét hình 25Hz Mào đầu ghép kênh đóng gói không vượt 15% luồng liệu video MPEG- Giải Dung lượng ảnh chưa nén là: 8*(352*288)+8*(352*288)/2 + 8*(352*228)/2 =642408 + 321024 + 321024 = 1.284 Mbit Giả sử tỷ số nén ảnh B x ta có: 1.284*106(1/10 + 3/20 + 8/x)*25/12 = 1.5*106 => x = 26 Bài 3.20: Chuẩn mã hóa Video Mpeg với tốc độ mã hóa 1.15Mbit/s tần số quét 25hz với M=4 N=16 (IBBBPBBBPBBBPBBBIBBBPB) Nếu khung I có số bít gấp lần khung P khung P có số bít gấp lần khung B Tính số bít trung bình cho mỗi macroblock tương ứng với mỗi kiểu khung giả sử mỗi khung có 396 macroblock Giải : Cấu trúc GOP IBBBPBBBPBBBPBBB Có 12 ảnh B, ảnh P ảnh I Giả sử số bit ảnh B x ta có Số bit MB ảnh B là: 15.66*103/396 =39.55 bit Ảnh P là: 39.55*5 = 197.72 bit Ảnh I 39.55*20 = 791 bit Bài 3.22 A, Bù trừ chuyển động bước nén video đại (H.264), bao gồm đánh giá chuyển động (Motion Estimation - ME), bù trừ chuyển động (Motion Compensation - MC), mã hóa biến đổi (transform coding) mã hóa entropy[1] Các chuẩn mã hóa video ngày nhiều thực trình này, MPEG-2, đến MPEG4/Visual, H.263, H.264/MPEG-4 AVC, B, Để đơn giản việc ước lượng chuyển động bù chuyển động sử dụng khối có hình dạng tùy ý, kỹ thuật ánh xạ khối đề xuất Jain (1981) dựa mô hình đơn giản sau: Ảnh chia thành tập khối hình chữ nhật nhỏ, kích thước cố định, cách không chồng lấn; chuyển động dịch khối giả thiết Các vector di chuyển khối ước lượng qua việc tìm khối ánh xạ tốt ảnh trước Kích cỡ khối cần chọn cách thích hợp Nhìn chung, khối có kích thước nhỏ ước lượng xác Song không nhỏ có nhiều vector chuyển động cần ước lượng mã hóa Thông thường, kích thước 16x16 lựa chọn phù hợp Hình 3.63: Ánh xạ khối Hình 3.63 minh họa kỹ thuật ánh xạ khối Trong hình 3.63(a) ảnh thời điểm tn chia thành khối chữ nhật pxq không chồng lấn (p=q=16) Xét khối có tâm (x,y) Giả thiết khối dịch chuyển Vì cần ước lượng vector di chuyển cho khối Hình 3.63(b) cho thấy ảnh trước đó: thời điểm tn-1 Để ước lượng vector di chuyển, cửa sổ tìm kiếm hình chữ nhật mở ảnh tn-1 có tâm (x,y) Xét điểm ảnh cửa sổ tìm kiếm, cửa sổ tương quan chữ nhật có kích thước pxq mở với điểm ảnh nằm vị trí tâm Khi số đo tương quan tính toán Sau tình ánh xạ hoàn thành tất điểm ảnh ứng cử cửa sổ tìm kiếm, cửa sổ tương quan tương ứng có độ tương quan lớn trở thành ánh xạ tốt khối xem xét ảnh tn Vị trí tương quan khối (khối xét khối ánh xạ tốt nhất) cho ta vector di chuyển Kích thước cửa sổ tìm kiếm xác định kích thước cửa sổ tương quan di chuyển lớn theo hướng: trên, dưới, trái, phải Trong Hình bên cạnh, đại lượng giả thiết giống ký hiệu d Chú ý, d ước lượng từ thông tin có chuyển động dịch, bao gồm tốc độ chuyển động lớn khoảng thời gian ảnh liên tiếp Bài 3.23 a Nhóm ảnh (GOP): Các ảnh I, P, B-pictures thường xuất theo thứ tự lặp lặp lại cách tuần hoàn, ta có khái niệm nhóm ảnh GOP (Group of Pictures) Đối với chuẩn nén MPEG, chất lượng ảnh phụ thuộc vào tỷ lệ nén khuôn hình mà phụ thuộc vào độ dài nhóm ảnh GOP Nhóm ảnh khái niệm MPEG, đơn vị mang thông tin độc lập MPEG GOP bắt buộc phải bắt đầu ảnh I cho phép xác định điểm bắt đầu để tìm kiếm biên tập (thông tin đầu gồm 25 bit chứa mã định thời điều khiển) tiếp sau loại ảnh P B Một ví dụ GOP dạng ảnh tự nhiên xuất theo thứ tự sau: B1 B2 I3 B4 B5 B7 B8 P9 B10 B11 P12 Thứ tự xuất chúng đường truyền bị thay đổi xếp lại mã hoá sau: I3 B1 B2 P6 B4 B5 P9 B7 B8 P12 B10 B11 Cấu trúc GOP mô tả hai tham số: N số ảnh GOP M khoảng cách ảnh P-pictures Nhóm GOP miêu tả N = 12 M = Các loại ảnh MPEG:(3.2a) b) Chuỗi GOP: IBBPBBPBBPBB Có ảnh I, ảnh P ảnh B Ta có dung lượng ảnh B: 50*396=19800 Tốc độ bit (19800*8 +19800*3*4 + 19800*3*4)* 25/16 = 990 kbps Bài 3.22 Dưa vào kỹ thuật ánh xạ khối xác định véc tơ chuyển động MB in đậm hình vẽ Biết cửa số tìm kiếm có kích thước 4x4 Sử dụng thuật toán bước (2,-2) 1 1 1 1 1 1 1 3 1 1 1 1 2 2 1 1 2 1 1 1 1 1 1 1 3 1 1 1 3 1 1 1 3 1 1 2 Bài 3.24 a, Quá trình phát triển chuản nén video MPEG-1 Chuẩn đưa MPEG, có tên gọi phổ biến MPEG-1, thiết kế để cung cấp việc nén video audio cho việc lưu trữ phát lại CD-ROM Chuẩn MPEG-1 bao gồm phần Phần đề cập tới vấn đề hệ thống (bao gồm ghép kênh video audio mã hóa), phần đề cập tới video nén phần audio nén Phần (video) phát triển với mục đích hỗ trợ việc mã hóa có hiệu video cho ứng dụng phát lại CD tạo chất lượng video tương đương tốt băng video VHS tốc độ bit CD (khoảng 1,2 Mbps video) Khi mà hầu hết ứng dụng người tiêu dùng đòi hỏi cần giải mã phát lại, không bao gồm mã hóa nảy sinh yêu cầu phải tối thiểu hóa phức tạp giải mã Do đó, trình giải mã MPEG-1 xem đơn giản so với mã hóa (không giống JPEG, mã hóa giải mã có mức độ phức tạp tương tự nhau) MPEG-2 Ứng dụng giải trí quan trọng video mã hóa (sau lưu trữ CDROM) truyền hình số Để cung cấp lựa chọn cải tiến cho truyền hình tương tự, vài đặc tính chủ yếu yêu cầu nguyên lý mã hóa video Nó phải hỗ trợ hiệu kích thước khung lớn (thường 720×576 hay 720×480 pixel cho độ phân giải ITU-R 601) mã hóa video kết hợp Với độ phân giải chất lượng truyền hình, video kết hợp tạo hình ảnh video mịn MPEG-2 đời nhằm đáp ứng yêu cầu MPEG-2 bao gồm phần chính: Video, Audio (dựa mã hóa audio MPEG-1) Systems (định nghĩa, phần chi tiết MPEG-1, ghép kênh truyền luồng audio/visual mã hóa) MPEG-4 Các chuẩn MPEG-1 MPEG-2 xử lý khung video hoàn chỉnh, khung mã hóa đơn vị riêng lẻ Chuẩn MPEG-4 phát triển với mục đích mở rộng khả chuẩn trước theo số hướng MPEG-7 Mục tiêu MPEG-7 xác định tập hợp chuẩn mô tả dùng để mô tả nhiều loại thông tin đa phương tiện với codec chuẩn, sở liệu khác chí thông tin nghe-nhìn tương tự Các mô tả với chế mô tả kết hợp với thân nội dung để tạo phương pháp tìm kiếm tài liệu nhanh có hiệu người dùng MPEG-21 Ngày công nghệ đa phương tiện trở nên tiên tiến đến mức truy cập vào lượng lớn thông tin dịch vụ từ đâu lúc thông qua mạng thiết bị đầu cuối phổ biến Tuy nhiên, tranh hoàn chỉnh cho việc làm để nhóm người khác tương tác cách tốt với sở hạ tầng phức tạp Những ví dụ nhóm người người cung cấp nội dung, tài chính, truyền thông, máy tính phận điện tử người sử dụng khách hàng Việc phát triển khung đa phương tiện chung làm cho liên kết phận trở nên thuận tiện hỗ trợ hoạt động tích hợp hiệu cho mô hình, nguyên tắc, lợi nhuận khuôn dạng nội dung Đây nhiệm vụ dự án khung đa phương tiện tên MPEG-21 Các chuẩn nén Video H26x ITU Hiệp hội viễn thông quốc tế (ITU) tổ chức tiêu chuẩn quốc tế/ Uỷ ban kỹ thuật điện tử quốc tế (ISO/IEC) hai tổ chức phát triển tiêu chuẩn mã hoá Video Những khuyến nghị ITU thiết kế dành cho ứng dụng truyền thông Video thời gian thực Video Conferencing hay điện thoại truyền hình Các chuẩn mã hóa video MPEG ISO nhằm vào việc lưu trữ phân phối video cho lĩnh vực giải trí cố gắng đạt yêu cầu người cung cấp người tiêu dùng ‘nền công nghiệp phương tiện’ Trong ITU quan tâm nhiều tới công nghiệp viễn thông, chuẩn mã hóa video tổ chức (H.261, H.263, H.264) hướng tới truyền thông thời gian thực, điểm-điểm đa điểm Chuẩn mã hóa video ITU-T, H.261, phát triển suốt cuối thập kỷ 80 đầu thập kỷ 90 kỷ 20 với ý ứng dụng kênh truyền dẫn đặc biệt Ứng dụng hội nghị truyền hình (truyền thông hai chiều qua ‘đường nối’ video) kênh truyền ISDN H.261 thành công tiếp tục sử dụng nhiều ứng dụng hội nghị truyền hình mang tính di sản Những cải tiến hiệu suất xử lý, công nghệ mã hóa video lên modem tương tự mạng IP kênh truyền dẫn tới phát triển nó, H.263, vào thập kỷ 90 kỷ 20 Bằng việc tạo cải tiến so với H.261, H.263 cung cấp hiệu suất nén tốt nhiều độ linh động cao Chuẩn H.263 ban đầu (phiên 1) có chế độ tùy chọn Các chế độ xem hữu dụng phiên (H.263+) thêm vào 12 chế độ tùy chọn Phiên gần (có thể phiên cuối) (v3) chứa tổng cộng 19 chế độ, chế độ cung cấp hiệu suất nén cải thiện, phục hồi lỗi và/hoặc độ linh động Phát triển nhóm chuyên môn ITU-T chuẩn H.264 H.264 dự án kết hợp gần ITU-T VCEG ISO/IEC MPEG Đây chuẩn sử dụng số đặc tính tốt H.263 nhằm cải thiện hiệu suất nén lên khoảng 50% tốc độ bit thấp Ngoài ra, H.264, thông qua phần chuẩn MPEG-4, thường gọi MPEG-4 AVC (Advanced Video Coding) MPEG-4 part 10 H.264 giảm yêu cầu băng thông chất lượng ảnh tương đương MPEG-2 MPEG-4 Công nghệ giúp cho tăng cường khả nén không gian nén thời gian, cho hình ảnh truyền nhanh mạng LAN, Internet Với ưu việt mình, H.264 ứng dụng rộng rãi b, So sánh chuản nén ứng dụng đa phương tiện MPEG-4 Part 14 MP4: định dạng đa phương tiện kỹ thuật số thường sử dụng để lưu trữ video âm thanh, sử dụng để lưu trữ liệu khác phụ đề hình ảnh MP4 cho phép streaming qua Internet H.263: sử dụng rộng rãi ứng dụng internet nội dung Video Flash (như sử dụng trang web YouTube, Google Video, MySpace, vv), hội nghị, truyền hình, máy tính để bàn, điện thoại video, giám sát theo dõi H.264/MPEG-4 Part 10 hay AVC (Advanced Video Coding - Mã hóa video cao cấp), thường gọi tắt H.264, chuẩn mã hóa/giải mã video định dạng video sử dụng rộng rãi để ghi, nén chia sẻ video phân giải cao Có dung lượng thấp mang lại chất lượng cao H.265 hay gọi High Efficiency Video Coding - HEVC ( codec video hiệu suất cao ) định dạng video mang lại khả nén cao gần gấp đôi (tức bitrate giảm nửa) so với codec H.264/AVC dùng phổ biến, giúp giảm băng thông cần thiết để truyền tải phim, đặc biệt thiết bị di động Nhờ đó, trả nhiều tiền cho việc xem phim với kết nối 3G/4G mà thưởng thức video chất lượng cao, thời gian tải nội dung giảm Bài 3.25 Quá trình ãm hóa giải nén MPEG4 Các chuẩn MPEG-1 MPEG-2 xử lý khung video hoàn chỉnh, khung mã hóa đơn vị riêng lẻ Chuẩn MPEG-4 phát triển với mục đích mở rộng khả chuẩn trước theo số hướng Hỗ trợ ứng dụng có tốc độ bit thấp: MPEG-1 MPEG-2 có hiệu chấp nhận mã hóa tốc độ bit khoảng Mbps Tuy nhiên, nhiều ứng dụng bật (đặc biệt ứng dụng dựa Internet) yêu cầu tốc độ bit truyền thấp nhiều MPEG-1 không hỗ trợ việc nén hiệu tốc độ bit thấp Hỗ trợ mã hóa dựa đối tượng: Có thể nói hầu hết thay đổi nguyên tắc chuẩn MPEG-4 hướng đến mã hóa dựa đối tượng hay dựa nội dung, cảnh video xử lý tập đối tượng đối tượng cận cảnh chuỗi khung hình chữ nhật Loại mã hóa mở dải rộng khả năng, ví dụ mã hóa độc lập đối tượng khác cảnh, dùng lại thành phần cảnh, ghép lại (các vật thể từ số nguồn kết hợp cảnh) độ tương tác cao Khái niệm sở sử dụng MPEG-4 Visual VO (Video Object) Một cảnh video (VS) (một chuỗi khung video) tạo thành từ số VO MPEG-4 cung cấp công cụ cho phép VO mã hóa cách độc lập, mở nhiều khả Dưới dạng VO, ‘khung’ tương đương với mặt phẳng đối tượng video (VOP – Video Object Plane) Một cảnh hoàn chỉnh mã hóa VOP đơn hình chữ nhật điều tương đương với ảnh dạng MPEG-1 Mã hóa dựa công cụ: MPEG-1 có độ linh động hạn chế, MPEG2 đưa khái niệm ‘bộ công cụ’ gồm profile level mà kết hợp theo nhiều cách cho ứng dụng khác MPEG-4 mở rộng đặc điểm thành tập hợp công cụ mã hóa có độ linh hoạt cao phép dải ứng dụng khung chuẩn hóa cho phép công cụ thêm vào ‘bộ công cụ’ Chuẩn MPEG-4 thiết lập nhờ công cụ mã hóa chức tăng thêm phiên chuẩn phát triển, danh sách công cụ tiếp tục tăng lên

Định dạng
Số trang	58
Dung lượng	671,47 KB