Kỹ thuật mã hóa độ dài thay đổi VLC dựa trên xác suất các giá trị biên độ giống nhau trong một ảnh để lựa chọn các từ mã để mã hoá
Trang 1NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN
Tên đề tài : “Tổng quan về chuẩn nén MPEG-4 H.264/AVC và khả năng ứng dụng
trong thực tiễn”
GVHD : TS TRẦN DŨNG TRÌNH
SVTH : NGUYỄN QUANG HOÀNG SƠN
MSSV : 103101088
LỚP : 03DDT2
Tp.HCM ngày tháng năm 2008
GVHD
TS Trần Dũng Trình
NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN
Tên đề tài : “Tổng quan về chuẩn nén MPEG-4 H.264/AVC và khả năng ứng dụng
trong thực tiễn”
GVHD : TS TRẦN DŨNG TRÌNH
GVPB : KS TRẦN DUY CƯỜNG
Trang 2SVTH : NGUYỄN QUANG HOÀNG SƠN
MSSV : 103101088
LỚP : 03DDT2
Tp.HCM ngày tháng năm 2008 GVPB KS Trần Duy Cường MỤC LỤC LỜI GIỚI THIỆU 6
CÁC THUẬT NGỮ TIẾNG ANH 8
LỜI MỞ ĐẦU 10
CHƯƠNG I CƠ SỞ VỀ NÉN TÍN HIỆU VIDEO 11
I.1 SỰ CẦN THIẾT CỦA NÉN TÍN HIỆU 11
Trang 3I.2 QUÁ TRÌNH SỐ HÓA TÍN HIỆU 12
I.2.1 LẤY MẪU 12
I.2.2 LƯỢNG TỬ HÓA 12
I.2.3 MÃ HÓA 13
I.3 TỐC ĐỘ BIT VÀ THÔNG LƯỢNG KÊNH TRUYỀN TÍN HIỆU SỐ 14
I.3.1 TỐC ĐỘ BÍT 14
I.3.2 THÔNG LƯỢNG KÊNH TRUYỀN 14
I.4 QUÁ TRÌNH BIẾN ĐỔI TÍN HIỆU MÀU 14
I.5 CÁC TIÊU CHUẨN LẤY MẪU TÍN HIỆU VIDEO SỐ 16
I.6 MÔ HÌNH NÉN TÍN HIỆU VIDEO 17
I.6.1 NÉN TÍN HIỆU VIDEO 17
I.6.2 LƯỢNG TIN TRUNG BÌNH (ENTROPY) 18
CHƯƠNG II CÁC KỸ THUẬT NÉN VIDEO 21
II.1 PHÂN LOẠI CÁC KỸ THUẬT NÉN 21
II.2 QUÁ TRÌNH BIẾN ĐỔI 21
II.2.1 ĐIỀU XUNG MÃ VI SAI DPCM 22
II.2.2 MÃ HÓA BIẾN ĐỔI 22
II.2.2.1 Biến đổi cosin rời rạc DCT 22
II.2.2.2 Biến đổi Hadamard 23
II.3 QUÁ TRÌNH LƯỢNG TỬ 24
II.3.1 LƯỢNG TỬ HÓA VÔ HƯỚNG 24
II.3.2 LƯỢNG TỬ HÓA VECTOR 25
II.4 QUÁ TRÌNH MÃ HÓA 25
II.4.1 MÃ HÓA ĐỘ DÀI THAY ĐỔI 25
II.4.1.1 Mã hóa Huffman 26
II.4.1.2 Mã hoá mức dọc chiều dài RLC 26
II.4.2 MÃ HÓA SỐ HỌC 27
II.5 TIÊU CHUẨN ĐÁNH GIÁ CHẤT LƯỢNG ẢNH NÉN 30
CHƯƠNG III CÁC CHUẨN NÉN THUỘC HỌ MPEG TRƯỚC MPEG-4 H.264/AVC 31
III.1 GIỚI THIỆU VỀ LỊCH SỬ PHÁT TRIỂN CỦA KỸ THUẬT MPEG 31
III.2 CÁC TIÊU CHUẨN NÉN TRƯỚC MPEG-4 H.264/AVC 31
III.2.1 TIÊU CHUẨN MPEG-1 31
III.2.1.1 Các đặc điểm của tiêu chuẩn MPEG-1 32
III.2.1.2 Cấu trúc dòng bit của MPEG-1 33
III.2.2 TIÊU CHUẨN MPEG-2 34
III.2.2.1 Các đặc điểm của tiêu chuẩn MPEG-2 34
III.2.2.2 Sự khác nhau chính giữa MPEG-1 và MPEG-2 35
Trang 4III.2.3 TIÊU CHUẨN MPEG-4 36
III.2.4 SO SÁNH ĐẶC ĐIỂM NỔI BẬT CỦA CÁC CHUẨN NÉN 37
CHƯƠNG IV CHUẨN NÉN MPEG-4 H.264/AVC 38
IV.1 TỔNG QUAN VỀ CHUẨN NÉN MPEG-4 H.264/AVC 38
IV.1.1 LỊCH SỬ PHÁT TRIỂN CỦA MPEG-4 H.264/AVC 38
IV.1.2 CÁC PROFLIES VÀ LEVELS TRONG H.264/AVC 39
IV.1.2.1 CÁC PROFILES 39
IV.1.2.2 CÁC LEVELS 40
IV.2 NHỮNG ĐẶC TÍNH NỔI BẬT CỦA CHUẨN NÉN H.264/AVC 41
IV.3 KỸ THUẬT NÉN VIDEO H.264/AVC 44
IV.3.1 GIẢI THÍCH NGUYÊN LÝ HOẠT ĐỘNG CƠ BẢN 44
IV.3.1.1 Sơ đồ mã hóa 44
IV.3.1.2 Sơ đồ giải mã 45
IV.3.2 KHỐI NÉN THỜI GIAN 46
IV.3.2.1 Dự đoán một chiều (mã hóa ảnh Prediction) 46
IV.3.2.2 Dự đoán hai chiều( mã hóa ảnh Bidiriectional Prediction) 47
IV.3.2.3 Dự đoán liên ảnh (Inter-Frame) 51
IV.3.2.4 Mã hóa ảnh SP (switching P) và SI (switching I) 53
IV.3.3 KHỐI NÉN KHÔNG GIAN 54
IV.3.3.1 Chia ảnh thành các MacroBlock 55
IV.3.3.2 Dự đoán trong ảnh (Intra-frame) 56
IV.3.3.3 Dự đoán trọng số: 62
IV.3.3.4 Kỹ thuật tiên đoán bù chuyển động và ước lượng chuyển động 63
IV.3.3.5 Phép biến đổi nguyên ICT (Integer Discrete Cosin Transform) 71
IV.3.3.6 Quá trình lượng tử 75
IV.3.3.7 Quá trình giải lượng tử: 77
IV.3.3.8 Quét Zig-Zag 78
IV.3.3.9 Mã hóa xen kẽ 80
IV.3.3.10 Sắp xếp thứ tự Slice 80
IV.3.4 MÃ HÓA ENTROPY 81
IV.3.4.1 Mã hóa Entropy Exp-Golomb 82
IV.3.4.2 Mã hóa độ dài biến đổi thích nghi nội dung CAVLC 84
IV.3.4.3 Mã hóa số học nhị phân thích nghi nội dung CABAC 87
IV.3.5 BỘ LỌC TÁCH KHỐI TRONG VÒNG 89
IV.3.5.1 Nguyên tắc của lọc tách khối 90
IV.3.5.2 Quá trình lọc khối 91
IV.3.6 CẤU TRÚC VÀ CÚ PHÁP CHUẨN H.264/AVC 94
IV.3.6.1 Lớp trừu tượng mạng NAL 95
IV.3.6.2 Lớp mã hóa video VCL (Video Coding Layer) 96
IV.3.6.3 Kỹ thuật FMO và Data Partitioned Slices 96
IV.3.6.4 Kỹ thuật Arbitrary Slice Ordering 96
IV.3.6.5 Cấu trúc dòng bit H.264/AVC 97
CHƯƠNG V MỘT SỐ ỨNG DỤNG CHUẨN H.264/AVC 99
Trang 5V.1 TRUYỀN HÌNH INTERNET IPTV 99
V.2 TRUYỀN HÌNH VỆ TINH DVB-S2 100
V.3 TRUYỀN HÌNH DI DỘNG 100
CHƯƠNG VI MÔ PHỎNG QUÁ TRÌNH NÉN-GIẢI NÉN CỦA H.264/AVC BẰNG MATLAB 103
VI.1 LƯU ĐỒ GIẢI THUẬT 103
VI.2 CHƯƠNG TRÌNH MÔ PHỎNG: 103
VI.3 KẾT QUẢ MÔ PHỎNG 104
PHỤ LỤC 106
TÀI LIỆU THAM KHẢO 113
LỜI GIỚI THIỆU
iện nay, chúng ta đang sống trong một kỷ nguyên mới “Kỷ nguyên truyền
thông đa phương tiện” các thiết bị mới, các kỹ thuật mới lần lượt ra đời
nhằm mục đích đáp ứng nhu cầu giải trí cho con người ngày một tốt hơn Các ứng dụng đa phương tiện thời gian thực truyền trên mạng di động, mạng Internet, mạng truyền hình…ngày càng phát triển rầm rộ, các nhà sản xuất thiết bị chú trọng áp dụng các công nghệ nén tiên tiến vào thiết bị của mình nhằm thõa mãn nhu cầu “chất lượng trung thực về âm thanh, hình ảnh” của con người cũng như khả năng đáp ứng yêu cầu
H
Trang 6thực tế của công nghệ Thế nhưng không phải nhu cầu nào của chúng ta đều có thểđược đáp ứng một cách thuận lợi, vì sự gắn liền giữa độ phức tạp, tốn kém chi phí đầu
tư cơ sở hạ tầng, thiết bị đầu cuối…, luôn đi kèm với công nghệ cao Bên cạnh đó vấn
đề truyền thông nội dung đa phương tiện hiện nay đang gặp một số khó khăn: băng thông đường truyền, nhiễu kênh, giới hạn của pin cho các ứng dụng… Trong khi băng
thông kênh truyền phải chờ đợi một công nghệ mới của tương lai mới có thể cải thiện,còn việc cải thiện giới hạn của pin dường như không đáp ứng được sự phát triển củacác dịch vụ trong tương lai, thì phương pháp giảm kích thước dữ liệu bằng các kỹthuật nén là một cách giải quyết hiệu quả các khó khăn trên
Cho đến nay có rất nhiều kỹ thuật nén dữ liệu đa phương tiện như: chuẩn JPEG, chuẩn JPEG2000 và chuẩn MPEG… tuy nhiên hiệu quả nén của các tiêu chuẩn này cũng
chưa được cao, và vẫn chưa đáp ứng tốt yêu cầu của truyền hình HDTV…cũng nhưviệc lưu trữ dung lượng còn rất lớn Gần đây nhất là sự thành công của tiêu chuẩn mãhóa MPEG-2 được đánh dấu nổi bật từ những lần phóng thương mại đầu tiên các hệthống vệ tinh DTH vào giữa những năm 1990 và thành công của chuẩn nén MPEG-4Part 2 trong ứng dụng truyền hình số, các ứng dụng đồ họa… Nhưng với yêu cầu bộ
mã hóa có thể tương thích với các ứng dụng tốc độ bit thấp, thì nó không đáp ứng hiệuquả Từ việc nghiên cứu khắc phục nhược điểm của MPEG-2, phát triển bổ sung choMPEG-4 Part 2 để cho ra đời những chuẩn nén tiên tiến hơn, mà nổi bật là MPEG-4H.264/AVC Nó là sự kết hợp hoàn hảo giữa 2 tổ chức nổi tiếng: nhóm chuyên gia mãhóa video của tổ chức ITU và nhóm chuyên gia xử lý ảnh động ISO/IEC Ta thử xétmột ví dụ minh họa trong truyền hình số, nếu sử dụng kỹ thuật nén MPEG-2 cung cấpđịnh dạng SDTV với độ phân giải 640x480 pixel thì cần băng thông 4.3Mbps trên mộtkênh truyền còn đối với HDTV thì cần 19Mbps, nhưng nếu sử dụng chuẩn nén H.264thì băng thông cho truyền hình SDTV chỉ có 1.5 – 2 Mbps hoặc 6-9 Mbps đối vớiHDTV Chính vì những ưu điểm đó mà MPEG-4 H.264/AVC đã dần dần chứng tỏ vịthế số 1 của mình, những ưu việt mà chuẩn nén này mang lại chắc chắn sẽ có ảnhhưởng tích cực đến thị trường phim ảnh, cũng như ngành công nghiệp chế tạo thiết bịđầu cuối Để có thể hiểu biết hơn về tiêu chuẩn nén tiên tiến này, em đã chọn đề tài
“Tổng quan về chuẩn nén MPEG-4 H.264/AVC và khả năng ứng dụng trong thực
Trang 7tiễn” làm đề tài tốt nghiệp của mình Sau hơn 3 tháng nỗ lực hết mình, về cơ bản Đồ
án cũng đã cho ta cái nhìn tổng quát về chuẩn nén MPEG-4 H.264/AVC, đồng thời với
sự minh họa bằng chương trình Matlab 7.01, cũng giúp cho ta hiểu rõ hơn những ưuđiểm của chuẩn nén này, tuy nhiên do cĩ sự hạn chế về kinh nghiệm, thời gian,…nên
sẽ khơng tránh khỏi sai sĩt, kính mong Quý Thầy Cơ, bạn bè, đồng nghiệp tham khảođĩng gĩp ý kiến
Em xin chân thành cảm ơn TS Trần Dũng Trình đã bỏ ra chút thời gian quý báu,
hướng dẫn tận tình và cung cấp tài liệu bổ ích trong quá trình làm Đồ án Đồng thờicũng xin cảm ơn Quý Thầy Cơ Trường Đại Học Kỹ Thuật Cơng Nghệ Thành Phố HồChí Minh, đã tận tình dạy dỗ, truyền thụ kiến thức và kinh nghiệm cho em trong suốthơn bốn năm qua, cảm ơn các bạn bè đã quan tâm, chia xẻ, đĩng gĩp ý kiến
Kính chúc Quý Thầy Cô và bạn bẻ được nhiều sức khỏe.
Tp.hcm, tháng 01/2008 Sinh viên thực hiện
Nguyễn Quang Hoàng Sơn
CÁC THUẬT NGỮ TIẾNG ANH
BAC Mã hĩa số học nhị phân (Binary Arithmetic Coding)
CA Mã hĩa thích nghi theo nội dung (Context Adaptive)
CC Mã xĩa (Clear code)
CIF Định dạng mã hĩa hình ảnh cĩ kích thước 352 x 288 (Common
Intermediate Format)
DAB Phát quảng bá âm thanh số (Digital Audio Broadcasting)
DCT Biến đổi Cosine rời rạc (Discrete Cosine Transform)
DFT Biến đổi Fourier rời rạc (Discrete Fourier Transform)
DPCM Điều xung mã vi sai (Differential Pulse Code Modulation)
DS Thuật tốn tìm kiểu hình thoi (Diamond Search)
Trang 8DWT Biến đổi Wavelet rời rạc (Discrete Wavelet Transform)
EOI Mã kết thúc (End Of Information)
ES Dòng cơ bản (Elemenatary Stream)
Exp-Golomb Mã Exponential Golomb
FLC Mã hóa có chiều dài cố định (Fixed-Length Code)
FMO Thứ tự MB mềm dẻo (Flexible Macroblock Order)
GOP Nhóm ảnh (Group Of Pictures)
GMC Bù chuyển động toàn phần (Global Motion Compensation)
HDS Thuật toán tìm hình thoi nằm ngang (Horizontal Diamond search)
HDTV Truyền hình phân giải cao (High Definition Television)
HEXBS Thuật toán tìm kiểu hình lục giác (Hexagon-Based Search)
ICT Biến đổi nguyên Cosine rời rạc (Integer Discrete Cosine Transform)
IDR Ảnh làm tươi tức thời bộ giải mã (Instantaneous Decoder Refresh
Picture)
IDCT Biến đổi ngược Cosine rời rạc (Inverse Discrete Cosine Transform)
IP Giao thức Internet ( Internet Protocol)
ISDN Mạng tích hợp dịch vụ số (Integrated Service Digital Network)
JPEG Chuẩn nén ảnh của ủy ban JPEG quốc tế (Joint Photographic Experts
Group)
JPEG2000 Chuẩn nén ảnh JPEG2000
LOSSLESS Kỹ thuật nén ảnh không tổn hao (không mất dữ liệu)
LOSSY Kỹ thuật nén ảnh có tổn hao (có mất dữ liệu)
MBAFF Mã hóa khung mành thích nghi (Macroblock-Adaptive Frame-Field
coding)
MC Bù chuyển động (Motion Compensation)
ME Ước lượng chuyển động(Motion Estimate)
MMS Dịch vụ tin nhắn đa phương tiện (Multimedia Messaging Services)
MSE Sai số bình phương trung bình (Mean Square Error)
MPEG Nhóm chuyên gia nén ảnh động (Moving Pictures Experts Group)
NAL Lớp trừu tượng mạng (Network Abstraction Layer)
NNS Tìm ở khối gần nhất (Nearest Neighbors Search)
PCM Điều xung mã (Pulse Code Modulation)
PF Hệ số co dãn (Parameter Factor)
MF Hệ số nhân(Multipy Factor)
PSNR Tỷ số tín hiệu đỉnh trên nhiễu (Peak Signal to Noise Ratio)
QCIF Định dạng hình ảnh có kích thước 176 x 144 (Quarter Common
Intermediate Format)
QP Thông số lượng tử (Quantization Parameter)
RBSP (Raw Byte Sequence Payload)
RGB Ba màu cơ bản màu đỏ/Xanh/Lam (Red/Green/Blue)
RLC Mã hoá dọc chiều dài (Run Length Coding)
Trang 9RSVP Giao thức dành riêng tài nguyên mạng (Resource Reservation
Protocol)
RTP Giao thức truyền tải thời gian thực (Real Time Transport Protocol)
SDTV Truyền hình tiêu chuẩn ( Standard Televison)
SMIL Ngôn ngữ tích hợp Multimedia đồng bộ (Synchronized Multimedia
Integration Language)
SRC Điều khiển tốc độ bit biến đổi được ( Scalable Rate Control)
TSS Thuật toán tìm ba bước (Three-Step search)
UMTS (Universal Mobile Telecommications System)
VCL Lớp mã hóa Video (Video Coding Layer)
VLC Mã có chiều dài thay đổi (Variable Length Code)
VO Đối tượng Video (Video Object)
VOP Đối tượng mặt phẳng Video (Video Object Plane)
YCbCr Độ chói, màu lam, màu đỏ (Luminance, Blue chrominance, Red
JTC1 Ủy ban kỹ thuật 1 (Joint Technical Committee 1)
SC29 Ủy ban phụ 29 (Sub-committee 29)
WG11 Nhóm làm việc 11( Work Group 11)
Trang 10TỔ CHỨC ĐỒ ÁN
Đồ án được trình bày thành 6 chương và 1 phụ lục
Chương I: Trình bày cơ sở về nén tín hiệu video, các thông số đặc trưng của tín hiệu
số và quá trình biến đổi tín hiệu màu, phân loại các nguyên lý nén
Chương II: Trình bày các kỹ thuật được sử dụng trong nén Video, các phép biến đổi
và các kỹ thuật mã hóa, các tiêu chuẩn đáng giá chất lượng ảnh nén MSE, PSNR,MAE,SAE …
Chương III: Trình bày các chuẩn nén thuộc họ MPEG, cấu trúc dòng bit, các ưu điểm
đã đạt được
Chương IV: Cũng là chương quan trọng nhất, trình bày chuẩn nén tiên tiến nhất hiện
nay: MPEG-4 H.264/AVC, các đặc tính nổi bật và các kỹ thuật mới trong chuẩn nénnày
Chương V: Các ứng dụng của MPEG-4 H.264/AVC trong thực tế và tương lai.
Chương VI: Mô phỏng một phần quá trình nén và giải nén của MPEG-4 H.264/AVC,
mô phỏng kiểu mã hóa tiên tiến như bù chuyển động với kích thước 4x4, sử dụng bảnglượng tử vô hướng 52 giá trị…
Tuy nhiên, do kinh nghiệm còn hạn chế, đồng thời MPEG-4 H.264/AVC là một kỹthuật còn trong giai đoạn nghiên cứu và phát triển, nên chắc chắn Đồ án sẽ khôngtránh khỏi sai sót, kính mong Quý Thầy Cô, và bạn bè đồng nghiệp đóng góp ý kiếnnhằm hoàn thiện tốt Đồ án tốt nghiệp này
CHƯƠNG I CƠ SỞ VỀ NÉN TÍN HIỆU VIDEO
Một tín hiệu video số thường chứa một lượng lớn dữ liệu, do đó sẽ gặp rất nhiều khókhăn trong việc lưu trữ và truyền đi trong một băng thông kênh truyền hạn chế Với sựphát triển của khoa học kỹ thuật, ngày nay đã sản xuất được bộ cảm biến màu có độphân giải lên đến 16 triệu pixel tương đương với một bức ảnh có độ phân giải4096x4096 pixels, nhưng thực tế ứng dụng cần độ phân giải cao nhất hiện nay cũngchỉ dùng lại ở 1920x1080 pixel, do đó để có thể tiết kiệm không gian lưu trữ và băng
Trang 11Quá trình nén ảnh thực hiện được là do thông tin trong bức ảnh có tổ chức, có trật tự,
vì vậy nếu xem xét kỹ tính trật tự, cấu trúc ảnh sẽ phát hiện và loại bỏ được các lượngthông tin dư thừa, chỉ giữa lại các thông tin quan trọng nhằm giảm số lượng bit khi lưutrữ cũng như khi truyền mà vẫn đảm bảo tính thẩm mỹ của bức ảnh Tại đầu thu, bộgiải mã sẽ tổ chức, sắp xếp lại được bức ảnh xấp xỉ gần chính xác so với ảnh gốcnhưng vẫn đảm bảo thông tin cần thiết Tín hiệu video thường chứa đựng một lượnglớn các thông tin dư thừa, chúng thường được chia thành 5 loại như sau:
Có sự dư thừa thông tin về không gian: giữa các điểm ảnh lân cận trong phạm
vi một bức ảnh hay một khung video, còn gọi là thừa tĩnh bên trong từng frame
Có sự dư thừa thông tin về thời gian: giữa các điểm ảnh của các khung videotrong chuỗi ảnh video, còn gọi là thừa động giữa các frame
Có sự dư thừa thông tin về phổ: giữa các mẫu của các dữ liệu thu được từ các
bộ cảm biến trong camera, máy quay…
Có sự dư thừa do thống kê: do bản thân của các ký hiệu xuất hiện trong dòng bitvới các xác suất xuất hiện không đồng đều
Có sự dư thừa tâm thị giác: thông tin không phù hợp với hệ thống thị giác conngười, những tần số quá cao so với cảm nhận của mắt người
Ưu điểm của việc nén tín hiệu:
Tiết kiệm băng thông kênh truyền ( trong thời gian thực hoặc nhanh hơn)
Kéo dài thời giản sử dụng của thiết bị lưu trữ, giảm chi phí đầu tư cho thiết bịlưu trữ
Giảm dung lượng thông tin mà không làm mất tính trung thực của hình ảnh
Có nhiều phương pháp nén tín hiệu, phương pháp nén bằng cách số hóa tín hiệu vẫn
tỏ ra hữu hiệu trong mọi thời đại, một mặt nó có thể làm giảm lượng thông tin khôngquan trọng một cách đáng kể, mặt khác nó còn giúp cho tín hiệu được bảo mật hơn
Quá trình số hoá tín hiệu tương tự, bao gồm quá trình lọc trước (prefiltering), lấy mẫu,lượng tử và mã hoá minh họa như hình I.1 Quá trình lọc trước nhằm loại bỏ các tần sốkhông cần thiết ở tín hiệu cũng như nhiễu, bộ lọc này còn gọi là bộ lọc chống nhiễuxuyên kênh Aliasing
Trang 12I.2.1 LẤY MẪU
Thực chất đây là một phép toán rời rạc hay là một phép điều biên xung PAM và đượcthực hiện bằng các mạch Op-amp có cực khiển strobe Nó tạo ra giá trị tín hiệu tương
tự tại một số hữu hạn các giá trị có biến rời rạc gọi là các mẫu Các mẫu được lấy cáchđều nhau gọi là chu kỳ lấy mẫu Tần số lấy mẫu phải thoả mãn định lý Nyquist-Shannon :
maz
f 2
Trong đó: + fs là tần số lấy mẫu
+ fmax là tần số cực đại của phổ tín hiệu tương tự
I.2.2 LƯỢNG TỬ HÓA.
Quá trình lượng tử là quá trình chuyển một xung lấy mẫu thành một xung có biên độbằng mức lượng tử gần nhất hay nói cách khác là lượng tử chuyển đổi các mức biên độcủa tín hiệu đã lấy mẫu sang một trong các giá trị hữu hạn các mức nhị phân Lượng tửhoá biến đổi tín hiệu liên tục theo thời gian thành tín hiệu có biên độ rời rạc, nhằm làmgiảm ảnh hưởng của tạp âm trong hệ thống, hạn chế các mức cho phép của tín hiệu lấymẫu và chuẩn bị truyền tín hiệu gốc từ tương tự sang số Giá trị thập phân của các mẫusau khi lượng tử hoá sẽ được biểu diễn dưới dạng số nhị phân n bit (N= 2n), với n là độphân giải lượng tử hoá, n càng lớn thì độ chia càng mịn, do đó độ chính xác càng cao
Do làm tròn các mức nên tín hiệu bị méo dạng do sai số lượng tử gọi là méo lượng tử,
tỷ số tín hiệu trên méo lượng tử (S/N) được xác định bởi:
) ( 76 , 1 02
Trang 13Lượng tử hóa có hai loại:
Lượng tử tuyến tính: phép nén tín hiệu theo quy luật đường cong đồng đều,bước lượng tử bằng nhau
Lượng tử phi tuyến: phép nén tín hiệu theo quy luật đường cong không đồngđều, tập trung nhiều mức lượng tử ở những vùng tín hiệu nhỏ Trong kỹ thuậtnén ảnh, nén video thì loại lượng tử phi tuyến được dùng nhiều hơn vì nó giảmdung lượng đến mức tối đa với độ méo lượng tử có thể chấp nhận được
I.2.3 MÃ HÓA
Là quá trình thay thế mỗi mức điện áp cố định sau khi lượng tử bằng một dãy nhị phângọi là từ mã Tất cả các từ mã đều chứa số xung nhị phân cố định và được truyền trongkhoảng thời gian giữa 2 thời điểm lấy mẫu cạnh nhau Bộ mã được sử dụng để tái tạocác xung nhị phân hoặc các từ mã từ các giá trị đã lượng tử xuất hiện ở đầu ra của bộlượng tử hoá
Trang 14I.3.2 THƠNG LƯỢNG KÊNH TRUYỀN
Là tốc độ số liệu cực đại cĩ thể truyền được trên kênh truyền cĩ độ rộng băng tần B
)1
+ S N là tỷ số tín hiệu trên nhiễu trắng.
+ B là băng thơng kênh truyền (Hz)
Tốc độ bit càng lớn thì tín hiệu tương tự khơi phục lại càng trung thực tuy nhiên nĩ sẽ
là cho dung lượng lưu trữ và băng thơng kênh truyền càng lớn Trong thực tế để truyền
tín hiệu cĩ tốc độ bit là C (bps) thì cần băng thơng kênh truyền là: B C
Một bức ảnh được chuyển từ RGB sang YUV nhằm giảm dung lượng lưu trữ cũngnhư truyền đi, trong quá trình giải mã, trước khi hiển thị ảnh thì nĩ được biến đổingược lại thành RGB Cơng thức minh họa quá trình biến đổi như sau:
Hình II.2 Minh họa quá trình biến đổi màu.
R, G, B
Hình I.2 Quá trình biến đổi màu
Trang 15) (
(
Y R
k
C
Y B
k
C
B k G k k R
b r
R Y
R C
B G
R Y
B C
B G
Kiểu lấy mẫu cho ảnh video cũng là một vấn đề khá quan trọng của kỹ thuật nén ảnh.Một số kiểu lấy mẫu phổ biến minh họa như hình I.3 và có đặc điểm như sau:
Tốc độ lấy mẫu 4:1:1 - tần số lấy mẫu tín hiệu chói là 13,5MHz, và mỗi tínhiệu hiệu màu là 3,375MHz
Tốc độ lấy mẫu 4:2:2 - tần số lấy mẫu tín hiệu chói là 13,5MHz, và mỗi tínhiệu hiệu màu là 6,75MHz
Tốc độ lấy mẫu 4:4:4 - cả 3 thành phần có cùng độ phân giải, nghĩa là tần
số lấy mẫu tín hiệu chói là 13,5MHz, và mỗi tín hiệu hiệu màu là 13,5MHz
Tốc độ lấy mẫu 4:2:0 - là kiểu phổ biến, tần số lấy mẫu tín hiệu chói là13,5MHz, và mỗi tín hiệu hiệu màu là 6,75MHz theo cả 2 chiều
Ví dụ : Một bức ảnh có độ phân giải 720 × 576 pixels
Độ phân giải của thành phần Y là 720 × 576 pixels được mã hóa bằng từ mã 8 bits
Nếu sử dụng kiểu lấy mẫu 4:4:4 thì độ phân giải của thành phần Cb, Cr là 720 ×
576 mẫu cũng được mã hóa bằng từ mã 8 bits
=> Vậy tổng số bits sử dụng để mã hóa bức ảnh là 720 × 576 × 8 × 3 = 9 953 280 bits
Trang 16 Nếu sử dụng kiểu lấy mẫu 4:2:0 thì độ phân giải của thành phần Cb, Cr là 360 ×
288 mẫu, cũng được mã hóa bằng từ mã 8 bits
=> Vậy tổng số bits sử dụng là (720 × 576 × 8) + (360 × 288 × 8) × 2 = 4 976 640 bits
Trong kiểu 4:4:4, tổng số mẫu cần thiết là 12 mẫu, do đó tổng số bit là 12 × 8 = 96
bits, và trung bình là 96/4 = 24 bits/pixel
Trong kiểu 4:2:0, tín hiệu được quét xen kẽ, do đó chỉ cần thiết 6 mẫu, 4 mẫu chothành phần Y, 1 mẫu cho thành phần Cb, 1 mẫu cho thành phần Cr, do đó tổng số bits
cần thiết là 6 × 8 = 48 bits, và trung bình là 48/4 = 12 bits/pixel
Ta thấy kiểu lấy mẫu 4:2:0 giảm một ½ số lượng bits so với 4:4:4, đó cũng chính là lý
do mà kiểu lấy mẫu này được sử dụng phổ biến
Nén thời gian Nén không gian
Lưu trữ ảnh
Bộ mã hóa ENTROPY
Hình I.4 Sơ đồ khối nén tín hiệu Video cơ bản Hình I.3 Các tiêu chuẩn lấy mẫu phổ biến
Trang 17 Xắp xếp lại trật tự và mã hóa Entropy
I.6.1 NÉN TÍN HIỆU VIDEO
Tín hiệu video có dải phổ nằm trong khoảng 0 -> 6Mhz, do thành phần tần số cao chỉxuất hiện ở các đường viền của hình ảnh nên năng lượng phổ rất ít tập trung ở miền tần
số cao mà chủ yếu tập trung ở miền tần số thấp Điều đó có nghĩa là số lượng bit ởmiền tần số thấp sẽ nhiều hơn ở miền tần số cao
Trong các hệ thống nén, tỉ số nén chính là tham số quan trọng đánh giá khả năng néncủa hệ thống, ta gọi n1, n2 là số lượng bit của tín hiệu trước và sau khi nén nên ta cócông thức như sau:
% 100 1
1
2 1 1
n
n n x
Nếu n1= n2 thì ta có C =1, và R = 0 nghĩa là không có sự dư thừa dữ liệu
Nếu n2<<n1 thì C , R 1, ta nói rằng có sự dư thừa dữ liệu lớn
Ví dụ : n1 = 100Mb/s, n2 = 20Mb/s thì C = 5:1, R = 80% Tức là ảnh có sự dư thừalớn, hiệu quả nén đạt 80%
I.6.2 LƯỢNG TIN TRUNG BÌNH (ENTROPY)
Trước khi nghiên cứu các phương pháp nén, ta cần đánh giá lượng thông tin chủ yếuđược chứa đựng trong hình ảnh, từ đó xác định dung lượng tối thiểu cần sử dụng đểmiêu tả, truyền tải thông tin về hình ảnh
Trang 18Thông tin được ký hiệu là ai và có xác suất p(ai) thì lượng tin được xác định theo côngthức sau:
) ( log ]
) (
1 [
Theo công thức trên ta thấy lượng tin chứa đựng trong một hình ảnh sẽ tỉ lệ nghịch vớikhả năng xuất hiện của ảnh đó, nghĩa là sự kiện ít xảy ra sẽ chứa đựng nhiều thông tinhơn và bằng tổng số lượng thông tin của từng phần tử ảnh
Gọi lượng tin trung bình của hình ảnh là H(X) và được tính bằng công thức sau:
i i
i
a p a
1 [ log
* ) ( )
(
Xác suất phân bố càng nhiều thì lượng tin trung bình entropy càng nhỏ Entropy đạtgiá trị cực đại đối với phân bố đều, do đó nếu một ký hiệu có xác suất lớn sẽ có sốEntropy nhỏ
Ví dụ: Giả sử có một ảnh đen trắng với độ phân giải lượng tử 8 bit Ký hiệu i là mứcxám của pixel và bộ ký hiệu A là tập hợp tất cả các mức xám từ 0->255, mức xám 0tương ứng với màu đen, mức xám 255 tương ứng với màu trắng Do đó, Entropy của
255 0
log)()
Ta sẽ xét các độ dư thừa của các pixel trong ảnh, hoặc giữa các ảnh liên tiếp như sau
Giả sử các mức xám của tín hiệu hình đen trắng độc lập thống kê với nhau, dựavào số liệu thống kê cụ thể là
Mức xám Số lượng pixel Xác suất
Trang 191 log 8
1 8
1 log 8
1 8
3 log 8
3
2 2
2 8
3 log 8
x 1 , 58 3 1 , 815 / 75
1 log 4
1 8
1 log 8
1 8
1 log 8
1 8
1 log 8
1 4
1 log 4
1
2 2
2 2
4 4
1 log 4
/ 5
Trang 20H(x) = log 83
8
3 2
1 log 2
1 8
1 log 8
1
2 2
pixel bits
x 1 , 58 3 1 , 41 / 75
CHƯƠNG II CÁC KỸ THUẬT NÉN VIDEO
II.1 PHÂN LOẠI CÁC KỸ THUẬT NÉN
Nén video được chia thành hai họ lớn: Nén không tổn hao và nén tổn hao
Nén không tổn hao là quy trình biểu diễn các ký hiệu trong dòng bit nguồnthành dòng các từ mã sao cho ảnh được khôi phục hoàn toàn giống ảnh gốc, cácthuật toán chỉ phụ thuộc vào cách thống kê nội dung dữ liệu và thường dựa trênviệc thay thế một nhóm các ký tự trùng lặp bởi một nhóm các ký tự đặc biệtkhác ngắn hơn mà không quan tâm đến ý nghĩa của dòng bit dữ liệu, nên đòihỏi phải có thiết bị lưu trữ và đường truyền lớn hơn
Nén có tổn hao, tức là ảnh được khôi phục không hoàn toàn giống ảnh gốc,dạng nén này thích hợp cho việc lưu trữ và truyền ảnh tĩnh, ảnh video qua mộtmạng có băng thông hạn chế Các dạng nén này thường có hệ số nén cao hơn(từ 2:1 đến 100:1) và gây nên tổn hao dữ liệu và sự suy giảm ảnh sau khi giảinén do việc xóa và làm tròn dữ liệu trong một khung hay giữa các khung Nóliên quan đến việc dùng các phép biến đổi tín hiệu từ miền này sang miền khác
Trang 21Trong thực tế phương pháp nén tổn hao thường được sử dụng nhiều hơn và các kỹthuật nén tổn hao thường sử dụng như: mã hĩa vi sai, biến đổi cosin rời rạc DCT,lượng tử vơ hướng, quét zig-zag, mã hĩa Entropy…
II.2 QUÁ TRÌNH BIẾN ĐỔI
Tín hiệu ngõ vào được biến đổi nhằm mục đích biểu diễn một số liệu khác thích hợp
để nén hơn so với tín hiệu nguồn Ở phía giải mã tín hiệu nén sẽ được biến đổi ngượclại để thu tín hiệu gốc Một số phép biến đổi được áp dụng phổ biến hiện nay như:
II.2.1 ĐIỀU XUNG MÃ VI SAI DPCM
Các phương pháp nén dùng DPCM dựa trên nguyên tắc phát hiện sự giống nhau vàkhác nhau giữa các điểm ảnh gần nhau để loại bỏ các thơng tin dư thừa Trong DPCMchỉ cĩ phần khác nhau giữa mẫu - mẫu được truyền đi, sự khác nhau này được cộngvào giá trị mẫu đã giải mã hiện hành ở phía giải mã để tạo ra giá trị mẫu phục hồi.Hình II.2 mơ tả sơ đồ khối của bộ mã hĩa và giải mã DPCM
Ví dụ
Mẫu tín hiệu vào 115 117 116 117 118 117 115 116
Sự khác nhau 2 -1 1 1 -1 -2 1
Hình II1 Mô hình hệ thống nén tổn hao.
Biến đổi ngược
T-1
Giải lượng tử hóa R Giải mã D
Biến đổi T
Lượng tử hóa Q
Mã hóa CGiải nén
Bộ lượng tử Mã hóa entropy
Bộ tiên đoán
Hình II.2 Bộ mã hóa và bộ giải mã DPCM
Trang 22Dòng bit được nén như sau: 115 2 -1 1 1 -1 -2 1
II.2.2 MÃ HÓA BIẾN ĐỔI
Nhằm biến đổi các hệ số trong miền thời gian (video số), không gian 2D (bức ảnh
tĩnh) thành các hệ số trong miền tần số Các hệ số này ít tương quan hơn có phổ năng
lượng tập trung hơn, thuận tiện cho việc loại bỏ thông tin dư thừa
II.2.2.1 Biến đổi cosin rời rạc DCT
Vì ảnh gốc có kích thước rất lớn cho nên trước khi đưa vào biến đổi DCT, ảnh được
phân chia thành các MB biểu diễn các mức xám của điểm ảnh Việc phân khối này sẽ
làm giảm được một phần thời gian tính toán các hệ số chung, mặt khác biến đổi cosin
đối với các khối nhỏ sẽ làm tăng độ chính xác khi tính toán với dấu phẩy tĩnh, giảm
thiểu sai số do làm tròn sinh ra Phép biến đổi DCT cơ bản hoạt động dựa trên cơ sở
ma trận vuông của mẫu sai số dự đoán, kết quả cho ta một ma trận Y là những hệ số
DCT được minh họa như sau:
Y = AXAT
Trong đó A là ma trận hệ số biến đổi, các thành phần của A như sau:
N
i j C
A i j i
2
) 1 2 (
N C
i
i
2 1
)12(
N i
N
J i j y
x y x
N
x i Cos N
y j Cos X C
co s 2
8 15
co s 2
8 9 cos 2
8 3
c os 2
8
1 4 cos
2 8
10
co s 2
8 6 cos 2
8 2
c os 2
8 7 cos 2
8 5 cos 2
8 3
co s 2
8
c os 2
0
c os 2
0 cos 2
0 cos 2
0
co s 2
2
) 1 2 ( 2
) 1 2 (
i
N
x i Cos N
y j Cos Y C C
Nếu i = 0Nếu i > 0
Trang 23II.2.2.2 Biến đổi Hadamard
Là một ví dụ tổng quát hóa của biến đổi Fourier rời rạc, nó thực hiện các phép toáncộng và trừ trên các ma trận 2m x 2m trực giao, đối xứng, tuyến tính…được định nghĩatheo công thức sau:
1 1 2
1
II.3 QUÁ TRÌNH LƯỢNG TỬ
Sau khi thực hiện biến đối DCT, các hệ số sẽ được lượng tử hoá dựa trên một bảng
lượng tử Q(u,v) với 0≤u, v≤ n-1, n là kích thước khối Bảng này được định nghĩa bởi
từng ứng dụng cụ thể, các phần tử trong bảng lượng tử có giá trị từ 1 đến 255 được gọi
là các bước nhảy cho các hệ số DCT Quá trình lượng tử được coi như là việc chia các
hệ số DCT cho bước nhảy lượng tử tương ứng, kết quả này sau đó sẽ được làm trònxuống số nguyên gần nhất Các hệ số năng lượng thấp này, tượng trưng cho các sựthay đổi pixel - pixel cỡ nhỏ, có thể bị xóa mà không ảnh hưởng đến độ phân giải củaảnh phục hồi Tại bộ mã hoá sẽ có một bảng mã và bảng các chỉ số nội bộ, từ đó có thểánh xạ các tín hiệu ngõ vào để chọn được các từ mã tương ứng một cách tốt nhất chotập hợp các hệ số được tạo ra Có 2 loại lượng tử hóa chủ yếu:
II.3.1 LƯỢNG TỬ HÓA VÔ HƯỚNG
Lượng tử từng giá trị một cách độc lập hay nói cách khác là ánh xạ một mẫu của tínhiệu ngõ vào tạo thành một hệ số lượng tử ở ngõ ra Đây là một quá trình tổn hao vìkhi giải lượng tử, không thể xác định chính xác giá trị gốc từ số nguyên đã được làmtròn Lượng tử hóa thuận theo công thức FQ = round(X/QP)
Lượng tử hóa ngược theo công thức Y = FQ*QP Với QP là bước nhảy lượng tử Ví dụquá trình giải lượng tử cho một tín hiệu ngõ vào như sau:
Y
X QP = 1 QP = 2 QP = 3 QP = 5
Trang 24-4 -4 -4 -3 -5 -3 -3 -2 -3 -5 -2 -2 -2 -3 0
II.3.2 LƯỢNG TỬ HÓA VECTOR
Là một quá trình biểu diễn một tập vector (mỗi vector gồm nhiều giá trị) bằng một tậpcác số hữu hạn các ký hiệu ở ngõ ra, bảng mã ánh xạ sẽ có các giá trị xấp xỉ với giá trịgốc Vector lượng tử sẽ được lưu ở cả bộ mã hóa và bộ giải mã, quá trình nén một bứcảnh sử dụng lượng tử vector bao gồm các bước sau
Phân chia bức ảnh gốc thành các phân vùng MxN pixel
Chọn vector thích ứng nhất từ bảng mã
Truyền chỉ số của vector thích ứng đến bộ giải mã
Tại bộ giải mã, ảnh cấu trúc lại sẽ xấp xỉ với phân vùng đã lựa chọn vector lượng tử
Và sơ đồ khối của lượng tử vector như sau:
Hình II.3 Quá trình lượng tử vector
Trang 25II.4 QUÁ TRÌNH MÃ HÓA
Bộ mã hóa có chức năng loại bỏ độ dư thừa trong các ký tự ở ngõ ra lượng tử hóa vàánh xạ các ký tự này thành các từ mã tạo thành dòng bit ở ngõ ra bằng các loại mã hóanhư: mã hóa dự đoán, mã hóa VLC, mã hóa số học nhị phân, mã hóa theo hình dạng…
II.4.1 MÃ HÓA ĐỘ DÀI THAY ĐỔI
Kỹ thuật mã hóa độ dài thay đổi VLC dựa trên xác suất các giá trị biên độ giống nhautrong một ảnh để lựa chọn các từ mã để mã hoá Bộ mã hóa có độ dài thay đổi ánh xạcác ký hiệu ngõ vào thành một chuỗi từ mã có độ dài thay đổi ở ngõ ra nhưng chứa sốlượng bít nguyên Các ký hiệu có xác suất cao sẽ được gán từ mã có độ dài ngắn, còncác ký hiệu có xác suất thấp sẽ được gán từ mã có độ dài lớn hơn, do đó nó sẽ làm tốithiểu chiều dài trung bình của từ mã Tại phía giải nén có các chỉ định mã giống nhauđược dùng để khôi phục lại các giá trị dữ liệu gốc Các loại mã hóa VLC cơ bản như:
mã hóa Huffman, mã hoá RLC, mã hóa Exp-Golomb…
II.4.1.1 Mã hóa Huffman
Mã hóa Huffman là mã hóa thõa mãn tối ưu tính prefix và phương pháp mã hóathường dựa vào mô hình thống kê Dựa vào dữ liệu gốc, người ta tính xác suất xuấthiện của các ký tự Việc tính toán xác suất được thực hiện bằng cách duyệt tuần tự tệpgốc từ đầu đến cuối và các ký tự nào có xác suất càng cao thì từ mã càng ngắn nêngiảm chiều dài trung bình của từ mã một cách rõ rệt, mã hóa Huffman thường đượcbiểu diễn dưới dạng cây mã như sau:
1 1
Các bước thực hiện mã hóa Huffman
Bước 1: Các nguồn tin được liệt kê trong cột theo thứ tự xác suất xuất hiện giảm dần
Hình II.4 Cây mã Huffman
Trang 26Hình II.5 Minh họa mã hóa RLC
Bước 2: Hai tin cuối cĩ xác suất nhỏ nhất được hợp thành tin phụ mới cĩ xác suất bằngtổng xác suất các tin hợp thành
Bước 3: Các tin cịn lại (N-2) với tin phụ mới được liệt kê trong cột phụ thứ nhất theothứ tự xác suất giảm dần
Bước 4: Quá trình cứ thế tiếp tục cho đến khi hợp thành một tin phụ cĩ xác suất xuấthiện bằng 1
II.4.1.2 Mã hố mức dọc chiều dài RLC
Thơng thường dữ liệu hay cĩ sự trùng lặp, chẳng hạn nếu một bức ảnh cĩ cùng mộtmàu, độ chĩi thì những vùng bên cạnh ảnh đĩ cũng giống như vậy Do đĩ cĩ thể mãhĩa bằng một từ mã đặc biệt nhằm chỉ báo sự bắt đầu và kết thúc của giá trị lặp lại,mỗi hệ số khác 0 sau giá trị DC được phát hiện sẽ được gán một từ mã gồm 2 thơngsố: số lượng bit 0 đứng trước đĩ và mức của nĩ sau khi lượng tử, để tạo ra từ mã làmột đơi (level và run), trong đĩ Level biểu thị giá trị của bit và Run biểu thị số lần lặplại của bit Khi dữ liệu truyền cĩ sự trùng lặp thì truyền từ mã này thay cho nĩ HìnhII.5 minh họa mã hĩa RLC như sau :
Từ dữ liệu đầu vào, giá trị 028 lặp lại 5 lần được mã hĩa bằng 3 từ mã ở dữ liệu đầu ra.Giá trị đầu tiên 255 đại diện cho cách mã hĩa RLC, giá trị thứ 2 là giá trị được lặp lại,giá trị thứ 3 là số lần lặp lại, nên thay vì truyền từ mã dài, ta chỉ cần truyền 255 028 3
II.4.2 MÃ HĨA SỐ HỌC
Điểm bất lợi cơ bản của mã hĩa dọc chiều dài là việc tạo ra bảng tra chứa tồn bộ sốlượng bit trên mỗi mẫu nên khơng thật sự tối ưu, vì số lượng bit tối ưu nhất cho một ký
tự tùy thuộc vào nội dung thơng tin, mà thường là những số rất nhỏ Đối với những ký
tự cĩ xác xuất lớn hơn 0.5 thì hiệu suất nén khơng cao, nĩ chỉ hiệu quả khi mã hĩa
Trang 27những ký hiệu này bằng một từ mã bit đơn Còn mã hóa số học thì dựa vào xác suấtcủa nội dung thông tin nên còn có tên gọi là mã hóa số học thích nghi theo nội dung,
mã hóa số học sử dụng các đặc tính về không gian và thời gian để ước lượng khoảngxác suất Nó biến đổi luồng dữ liệu vào thành một phân số đơn lẻ, và sử dụng phân sốtối ưu nhất để mã hóa dữ liệu, do đó hiệu quả nén của nó có thể đạt mức tối đa màgiảm chi phí đầu tư cho lưu trữ
Giả sử ta có 5 giá trị vector chuyển động (−2, −1, 0, 1, 2) và xác suất của nó như bảngdưới đây Mỗi vector sẽ được gán một ngưỡng trong khoảng từ 0.0 đến 1.0 tùy thuộcvào xác suất xuất hiện của chúng Ví dụ giá trị “-2” có xác suất là 0.1 sẽ nằm trongkhoảng từ 0->0.1 tức là bằng 10% của khoảng [0 1], tương tự giá trị “-1” có xác suất là0.2 sẽ nằm trong khoảng từ 0.1->0.3 tức là bằng 20% … Như vậy việc phân chia vùngriêng cho từng giá trị xác suất sẽ thuận tiện cho việc mã hóa
Vector Xác suất Lượng tin trung bình = log2(1/P) Khoảng chia nhỏ
Các vector sẽ được chia nhỏ thành các khoảng nhỏ theo xác suất như sau:
Ví dụ quá trình mã hóa cho chuỗi vector (0, −1, 0, 2) như sau:
Quá trình mã hóa Phạm vi(L H)
Ký hiệu (L H)
Khoảng chia nhỏ Chú thích
Cài phạm vi bắt đầu 0 1.0
Tìm khoảng con tương
Cài lại khoảng mới cho
Tìm khoảng con tương
ứng cho ký hiệu tiếp
theo
(-1) 0.1 0.3
Trang 28mới nằm trong khoảng
trước đó
0.42 = 30%
Cài lại khoảng bắt đầu
mới nằm trong khoảng
trước đó
0.364→0.396 0.364 = 30%
0.396 = 70%
Cài lại khoảng bắt đầu
mới nằm trong khoảng
trước đó
0.3928→ 0.396 0.3928 = 90%
0.396 = 100%
Sau mỗi lần mã hóa một ký hiệu thì phạm vi Low High càng nhỏ dần như minh họa
ở hình II.6 Số lượng bit cần thiết để nén chuỗi dữ liệu được tính bởi công thức:
log2(1/P0) + log2(1/P−1) + log2(1/P0) + log2(1/P2) = 8.28bits
Toàn bộ chuỗi dữ liệu có thể được truyền đi bởi bất kỳ một giá trị phân số nào nằmtrong khoảng 0.3928-0.396, giả sử giá trị 0.394 có thể được mã hóa như là một phân
số có dấu chấm tĩnh bằng từ mã 9 bit, do đó chuỗi vector (0, -1, 0, 2) sẽ được nén bằng
từ mã 9bits
Hiệu quả của mã hóa Entropy có được như mong muốn hay không là tùy thuộc vào độchính xác trong xác suất của ký hiệu
Hình II.6 Minh họa sự sắp xếp trong khoảng [0-1] thành những vùng nhỏ
hơn sau mỗi ký hiệu được mã hóa.
Trang 29Quá trình giải mã số học.
Quá trình giải mã Phạm vi Khoảng chia nhỏ Ký hiệu giải mã
Tìm khoảng con tương ứng cho ký
Cài lại khoảng mới cho khoảng con 0.3 0.7
Tìm khoảng con tương ứng cho ký
Cài lại khoảng bắt đầu mới nằm
Cài lại khoảng bắt đầu mới nằm
II.5 TIÊU CHUẨN ĐÁNH GIÁ CHẤT LƯỢNG ẢNH NÉN
Đánh giá chất lượng video thông qua các giá trị cung cấp bởi hệ thống xử lý, và việcsuy giảm chất lượng tín hiệu có thể nhìn thấy được ( thông thường chúng được so sánhvới tín hiệu gốc Qua hệ thống ta có thể thấy được những thay đổi về hình dạng, việcđịnh chuẩn chất lượng video là rất quan trọng Để đánh giá chất lượng của bức ảnh(hay khung ảnh video) ở đầu ra của bộ mã hoá, người ta thường sử dụng các tham sốtruyền thống sau để đánh giá:
Sai số bình phương trung bình – MSE (mean square error) định nghĩa cho
cường độ sai khác giữa ảnh gốc và ảnh dự đoán
2 1
0
1 :
N j
j j N
i
R C N
MSE Error
Squared Mean
Tỉ số tín hiệu trên nhiễu đỉnh – PSNR (peak to signal to noise ratio).
MSE PSNR 10 log10 (2b 1)2 (dB)Trong đó NxN kích thước bù chuyển động
hệ số Ci, j và Ri, j tương ứng với mẫu hiện tại và vùng mẫu tham khảo
b số lượng bit/ mẫu
Thông thường, nếu PSNR ≥ 40dB thì hệ thống mắt người gần như
không phân biệt được giữa ảnh gốc và ảnh khôi phục, tức là ảnh nén
có chất lượng xuất sắc
Trang 30 30 dB PSNR < 33 dB thì chất lượng ảnh nén bình thường, mắt người
có sự phân biệt được
1 0 2
1
j
j j N
i
R C N
MAE Error
Absolute Mean
Tổng của các sai số tuyệt đối- SAE (Sum of Absolute Errors)
1 0
j
j j N
i
R C SAE
Errors Absolute
of Sum
CHƯƠNG III CÁC CHUẨN NÉN THUỘC HỌ MPEG TRƯỚC
MPEG-4 H.264/AVC
III.1 GIỚI THIỆU VỀ LỊCH SỬ PHÁT TRIỂN CỦA KỸ THUẬT MPEG
Thuật ngữ MPEG viết tắt của cụm từ Moving Picture Experts Group là 1 nhóm chuyênnghiên cứu phát triển các tiêu chuẩn về hình ảnh số và nén âm thanh theo chuẩnISO/IEC từ năm 1988 Cho đến nay nhóm làm việc MPEG đã phát triển và phát hànhnhiều tiêu chuẩn nén cho các loại ứng dụng khác nhau, nhưng nổi bật là các chuẩnMPEG-1, MPEG-2, MPEG-4, và H.264/AVC MPEG chỉ là một tên riêng, tên chínhthức của nó là: ISO/IEC JTC1 SC29 WG11
1993 1995 1997 1999 2000 2001 2003 2005
MPEG-1
(11/1992)
MPEG-4 H.264
Trang 31III.2 CÁC TIÊU CHUẨN NÉN TRƯỚC MPEG-4 H.264/AVC
Vì thời gian có hạn nên trong Đồ án tốt nghiệp này, chúng ta lướt qua một số nét nổibật nhất của 2 chuẩn MPEG-1 và MPEG-2, còn chuẩn nén MPEG-4 part 2 là nền tảngphát triển của chuẩn nén H.264/AVC nên có rất nhiều điểm giống nhau sẽ được trìnhbày ở chương sau
III.2.1 TIÊU CHUẨN MPEG-1
Chuẩn MPEG-1 xuất hiện vào 11/1992 là chuẩn khởi đầu cho việc nén các ảnh động
và đây cũng là nền tảng phát triển cho các chuẩn nén khác trong họ MPEG, nó được
mệnh danh là chuẩn “khởi động thiết bị số“ MPEG-1 định nghĩa một tiêu chuẩn
chuẩn mã hoá video và âm thanh lưu trữ trong CD-ROM, đĩa Winchester với tốc độvào khoảng 1,5Mbit/s, độ phân giải hình ảnh là 352 x 240 (30 frame/s) hay 352x288(25 frame/s) Chuẩn MPEG-1 được ứng dụng trong các phần mềm huấn luyện bằngmáy tính, các game hành động, video chất lượng VHS, Karaoke
Tín hiệu video số MPEG-1 bao gồm một tín hiệu chói Y và 2 tín hiệu màu Cr, Cb với
tỷ số lấy mẫu là 2:1 Trước khi mã hóa các ảnh có thể được sắp xếp lại theo trật tự giải
mã mới vì bộ giải mã chỉ có thể giải mã được ảnh B sau khi đã giải mã ảnh P và I Sauquá trình giải mã, các ảnh được sẽ được sắp xếp lại như cũ
Sau khi chọn kiểu ảnh, bộ mã hoá sẽ đánh giá chuyển động cho mỗi khối MB và tạo ramột vector chuyển động cho một ảnh P và 2 vector chuyển động cho ảnh B
Tùy thuộc kiểu ảnh mà tín hiệu sai số được phát hiện bằng cách tìm ra sai số giữa dựđoán bù chuyển động và dữ liệu hiện tại trong mỗi MB Tín hiệu sai số dự đoán đượcchuyển đến khối DCT 8x8 và bộ lượng tử để tạo hệ số lượng tử Một bộ điều khiển tốc
độ bit có nhiệm vụ điều chỉnh dữ liệu ngõ ra thông qua điều chỉnh bước lượng tử Các
hệ số này được quét theo ma trận Zig-Zag và mã hoá bằng mã Entropy rồi mới đưa rakênh truyền
III.2.1.1 Các đặc điểm của tiêu chuẩn MPEG-1
Cấu trúc lấy mẫu 4:2:0
Chỉ có khả năng quét liên tiếp
Biểu diễn mẫu bằng từ mã 8 bits, độ chính xác của quá trình lượng tử và biếnđổi DCT là 9 bits
Trang 32 Sử dụng phương pháp DPCM để lượng tử hóa cho hệ số DC Bù chuyển độngcho các MB 16x16 trong cùng một khung hình hoặc giữa các khung với nhau.
Độ chính xác dự đoán chuyển động là 1 pixel
Chuẩn MPEG-1 có 4 kiểu ảnh đó là Intra, Predicted, Bidirectional và ảnh D(DC coded picture) Nó gần giống ảnh I nhưng chỉ có thành phần một chiều ởđầu ra DCT được thể hiện Nó cho phép dò nhanh nhưng cho chất lượng ảnhthấp
III.2.1.2 Cấu trúc dòng bit của MPEG-1
Chuẩn MPEG-1 định nghĩa một kiểu phân cấp cấu trúc trong dữ liệu Video và đâycũng là cấu trúc dữ liệu chung cho cả chuẩn MPEG về sau Cấu trúc dữ liệu như sau:+ Khối (Block) gồm 8x8 pixels tín hiệu chói và màu được định nghĩa dùng cho nénDCT
+ Tổ hợp khối (Macroblock) gồm các khối Y, Cb và Cr tương ứng với nội dung thôngtin của một khối 16x16 pixel của thành phần chói hoặc khối 8x8 của 2 thành phần màutrong hình ảnh gốc Một MB bao gồm 6 khối trong đó có 4 khối Y, 1 khối Cb và 1 Crnhư hình vẽ, các khối sẽ được đánh số thứ tự bắt đầu bằng 1
+ Mảng (Slice) gồm nhiều MB Kích thước slice lớn nhất là 1 ảnh, nhỏ nhất là 1 MBThứ tự các MB bên trong slice được xác định từ trái qua phải, trên xuống dưới Phầnheader của slice chứa thông tin về vị trí của mảng trong toàn bộ ảnh và hệ số của bộlượng tử Slice rất quan trọng trong việc định lỗi, nếu dòng dữ liệu có chứa lỗi, bộ giải
mã có thể bỏ qua và tiếp tục ở slice kế tiếp Nhiều slice trên dòng dữ liệu cho phép chegiấu lỗi tốt hơn và được dùng để cải thiện chất lượng hình ảnh
+ Ảnh (Picture): gồm nhiều slice cho phép bộ giải mã xác định loại mã hóa khung.Thông tin header để chỉ thứ tự truyền khung để bộ giải mã sắp xếp lại các ảnh đúngthứ tự, ngoài ra thông tin header còn chứa các thông tin về đồng bộ, độ phân giải,phạm vị của vector chuyển động …
Trang 33Hình III.2 Cấu trúc chuỗi video MPEG
+ Nhóm ảnh (GOP): gồm nhiều ảnh bắt đầu từ ảnh I Chỉ báo điểm bắt đầu cho việcbiên tập và việc tìm kiếm Phần header chứa mã điều khiển và mã thời gian 25 bit chothông tin định thời.Cấu trúc của một GOP được mô tả bằng 2 tham số:
- N: là các ảnh trong GOP
- M: là khoảng cách giữa các ảnh P-pictures
Ví dụ: Ta có 1 GOP như sau :
B1 B2 I3 B4 B5 B7 B8 P9 B10 B11 P12
Tức N = 12 và M = 3
+ Chuỗi ảnh (Sequence): bắt đầu là một Sequence Header, 1 hay nhiều GOP và 1 mãkết thúc chuỗi End-of-Sequence Thông tin header chứa kích thước mỗi chiều của bứcảnh, kích thước điểm ảnh, tốc độ bit của dòng video số, tần số ảnh, bộ đệm tối thiểucần có Chuỗi ảnh và thông tin header còn được gọi chung là dòng cơ bản ES
Tiêu chuẩn nén MPEG-1 cho phép truy cập các khung hình ngẫu nhiên video, tìmkiếm thuận nghịch trên dònh tín hiệu nén biên tập và phát lại trên dòng tín hiệu nén.Các công cụ của nó đều có trong các tiêu chuẩn MPEG-2, nên MPEG-2 vẫn có thể giải
mã các dòng tín hiệu MPEG-1
III.2.2 TIÊU CHUẨN MPEG-2
III.2.2.1 Các đặc điểm của tiêu chuẩn MPEG-2
Kỹ thuật nén MPEG-2 xuất hiện vào 1995, định nghĩa cho một tiêu chuẩn kỹ thuật
“truyền hình số” MPEG-2 có thể tạo hình ảnh lớn gấp 4 lần MPEG-1 với độ nét cao
hơn và rõ hơn (720 x 480 và 1280 x 720) cho phép mã hoá ở nhiều mức độ phân giảikhác nhau đáp ứng cho nhiều ứng dụng như ứng dụng 2-5Mbps trong SDTV và 6-8Mbps trong DVD, 20Mbps trong HDTV, đặc biệt được ứng dụng trong truyền hình
Trang 34số mặt đất với mỗi thiết bị khác nhau, sẽ có các bộ mã hoá và giải mã khác nhau nhằmgiảm băng thông đường truyền.
Những cải tiến của nó như sau:
Chuẩn nén MPEG-2 có tốc độ bit > 4 Mbit/s
Cấu trúc lấy mẫu 4:4:4, 4:2:2, 4:2:0
Các giá trị hệ số DCT có thể biểu thị với mức độ chính xác cao
Các ma trận lượng tử có thể thay đổi theo mức frame, thành phần màu
Có khả năng quét xen kẽ và liên tục, cho phép xấp xỉ bù chuyển động, xâydựng cơ sở dự báo trên cơ sở mành
Khả năng tách lỗi và giảm độ nhạy tín hiệu nén đối với các lỗi truyền, nếu tỷ sốnén cao bị ảnh hưởng
Độ chính xác mẫu vào là 10 bit Dùng lượng tử DPCM chính xác cho các hệ sốDC
Có tính tương hợp và co dãn cao theo không gian, thời gian
Độ phân giải ước lượng chuyển động là ½ pixel, 1 pixel
MPEG-2 định nghĩa các profile và các level khác nhau cho phù hợp với nhiều loại ứngdụng Có 5 định nghĩa profile và 4 level như sau.
Simple Main SNR Spatially High Low 4:2:0, 352 x 288
4Mbps
4:2:0, 352 x 288 4Mbps, I, P ,B Main 4:2:0 720 x 576
Trang 35Băng thông ở mức trung bình (tối đa 1.5
1.25 Mbits/sec video 352 x 240 x 30 Hz Kích thước khổ rộng
2 kênh âm thanh 250 Kbits/sec Lên đến 5 kênh âm thanh (như surroundsound)
Thích hợp cho lưu trữ CD Có thể dùng trong truyền hình phân giải cao
HDTV
III.2.3 TIÊU CHUẨN MPEG-4
Phiên bản đầu tiên của MPEG-4 xuất hiện vào 2/1999 Cuối 1999 MPEG-4 v2 ra đời
và trở thành tiêu chuẩn quốc tế vào đầu năm 2000 So với MPEG-1, MPEG-2 thìMPEG-4 có nhiều nổi bật hơn như hiệu suất nén cao, vận hành trên cơ sở nội dung…
và rõ ràng có nhiều ứng dụng hơn MPEG-4 định nghĩa một tiêu chuẩn cho các ứngdụng truyền thông đa phương tiện, các hình ảnh, âm thanh và dữ liệu đồ hoạ và việc táihợp chúng trên thiết bị thu, hay nói cách khác nó là sự hội ngộ giữa truyền hình vàWeb Đặc điểm chính của MPEG-4 là mã hóa video và audio ở tốc độ bit rất thấp.Thực tế tiêu chuẩn này tối ưu ở ba ngưỡng tốc độ bit sau:
Các đối tượng khác nhau trong ảnh gốc được mã hóa và truyền đi một cách riêng biệt,như ta đã biết không có một phương pháp mã hóa nào là tối ưu hoàn toàn DCT vàphép lượng tử chỉ tối ưu với các ứng dụng có băng thông hạn chế, các ảnh có độ chói ítthay đổi, nhưng với ảnh nhiều chi tiết, có kích thước nhỏ thì không tối ưu Lấy ví dụ
Trang 36nếu một cảnh có chứa các dòng text, nếu mã hóa bằng MPEG-1, MPEG-2 thì sẽ khônghiệu quả vì nó chỉ xem đó như là chi tiết ảnh thông thường.
Trái lại, MPEG-4 cho phép giải mã luồng text kết hợp với video và các thông tin trongluồng bit có thể hiện thị nhiều dạng khác nhau tùy thuộc vào lựa chọn của người sửdụng ví dụ như tùy chọn ngôn ngữ nên mang lại hiệu suất cao hơn
Tuy nhiên MPEG-4 cũng có một số nhược điểm là bộ giải mã phải có khả năng giải
mã hết tất cả các luồng bit mà nó hỗ trợ và có khả năng kết hợp Do đó phần cứng bộgiải mã MPEG-4 phức tạp hơn MPEG-2 rất nhiều Cũng chính vì vậy mà các nhànghiên cứu luôn nỗ lực tìm tòi, phát minh những công cụ mã hóa tối ưu hơn
III.2.4 SO SÁNH ĐẶC ĐIỂM NỔI BẬT CỦA CÁC CHUẨN NÉN
Trong tiến trình phát triển của chuẩn nén MPEG, các chuẩn nén sau ra đời là sự kế thừa và phát triển của chuẩn trước, chính vì vậy các chuẩn nén tiên tiến hơn phải có sự phân cấp, mềm dẻo để có thể đáp ứng các ứng dụng của chuẩn nén cũ Bảng sau so sánh sự khác biệt và sự tối ưu giữa các chuẩn nén thuộc họ MPEG
Block size 8 x 8 8 x 8 16 x 16, 8 x 8 16x16, 16x8, 8x168x8,8x4,4x8,4x4
CABAC
Trang 37CHƯƠNG IV CHUẨN NÉN MPEG-4 H.264/AVC
IV.1 TỔNG QUAN VỀ CHUẨN NÉN MPEG-4 H.264/AVC
IV.1.1 LỊCH SỬ PHÁT TRIỂN CỦA MPEG-4 H.264/AVC
Từ các bộ mã hoá đơn giản, hoạt động tốt nhưng đôi khi có một số hình ảnh mà nókhông thể nén được, điều này đã thúc đẩy các nhà thiết kế phát triển các công cụ nénmới dựa trên nền của các chuẩn trước, trong đó hiệu quả mã hóa là vấn đề được quantâm nhất, vì thế MPEG-4 ra đời là điều tất yếu trong tiến trình phát triển Sự phát triểncủa MPEG-4 H.264/AVC trải qua nhiều giai đoạn như: MPEG-4 part 2 được ISO công
bố vào 1999, nó là tiêu chuẩn cho những ứng dụng truyền thông đa phương tiện vớitốc độ bit thấp và cho ứng dụng truyền hình quảng bá trong tương lai Tuy nhiên chấtlượng của nó vẫn chưa đạt được như mong muốn, chính vì vậy mà ISO/IEC (MPEG)
và ITU đã cùng nhau hợp tác và thành lập nhóm Joint Video Team (JVT), để nghiêncứu phát triển chuẩn mã hóa tiên tiến là Advanced Video Coding (AVC) Và đến 2003
đã cho ra đời chuẩn MPEG-4 part 10, tên theo tiêu chuẩn ISO/IEC 14496-10 và H.246AVC trong ITU hay còn gọi là MPEG-4 H.264/AVC, gọi tắt là H.264/AVC
Phiên bản thứ 2 được tổ chức JVT phát triển mở rộng và phổ biến với tên gọi Fidelity Range Extensions (FRExt) có độ phân giải video mang tính trung thực cao được công bố vào tháng 3/2005 với các đặc tính như:
Coding Tools High High 10 High 4:2:2 High 4:4:4
Trang 384:2:2 Chroma Format X X
Bảng IV.1 Những công cụ mới trong H.264/AVC FRExt.
Sự mở rộng này cho phép mã hoá chất lượng hình ảnh cao hơn bằng việc tăng độchính xác chiều sâu bit lấy mẫu và thông tin độ phân giải màu, bao gồm các cấu trúclấy mẫu như YUV 4:2:2 và YUV 4:4:4 Ngoài ra còn bổ xung một số đặc tính nhưchuyển mạch thích nghi giữa phép biến đổi nguyên 4x4 và 8x8, bộ mã hoá theo giácquan dựa trên ma trận lượng tử, kỹ thuật mã hoá tổn hao trong khối và kỹ thuật lọctách khối
IV.1.2 CÁC PROFLIES VÀ LEVELS TRONG H.264/AVC
Để tạo điều kiện cho người sử dụng lựa chọn công cụ H.264/AVC, các thiết bị đượcchia thành các nhóm công cụ (profile) Mỗi profile lại có các mức levels khác nhau thểhiện mức độ phức tạp xử lý tính toán dữ liệu của công cụ đó (thông qua việc xác địnhtốc độ bit, con số tối đa của các đối tượng trong frame, độ phức tạp của quá trình giải
I Slices I Slices I Slices I Slices
P Slices P Slices P Slices P Slices
4x4 Transform 4x4 Transform 4x4 Transform 4x4 Transform
Weighted Prediction Weighted
Prediction
Weighted Prediction
B Slices B Slices B Slices
CABAC CABAC
Quantization Matrix 8x8 Transform
Trang 39Max video bit rate (VCL) for Baseline, Extended and Main Profiles
Max video bit rate (VCL) for High Profile
Max video bit rate (VCL) for High 10 Profile
Max video bit rate (VCL) for High 4:2:2 and High 4:4:4 Predictive Profiles
Examples for high resolution @ frame rate (max stored frames)
in Level
1 1485 99 64 kbit/s 80 kbit/s 192 kbit/s 256 kbit/s 176x144@15.0 (4)128x96@30.9 (8)
1b 1485 99 128 kbit/s 160 kbit/s 384 kbit/s 512 kbit/s 176x144@15.0 (4)128x96@30.9 (8)
1.1 3000 396 192 kbit/s 240 kbit/s 576 kbit/s 768 kbit/s 176x144@30.3 (9)320x240@10.0 (3)
352x288@7.5 (2)
1.2 6000 396 384 kbit/s 480 kbit/s 1152 kbit/s 1536 kbit/s 320x240@20.0 (7)352x288@15.2 (6)
1.3 11880 396 768 kbit/s 960 kbit/s 2304 kbit/s 3072 kbit/s 320x240@36.0 (7)352x288@30.0 (6)
2 11880 396 2 Mbit/s 2.5 Mbit/s 6 Mbit/s 8 Mbit/s 320x240@36.0 (7)352x288@30.0 (6)
2.1 19800 792 4 Mbit/s 5 Mbit/s 12 Mbit/s 16 Mbit/s 352x480@30.0 (7)352x576@25.0 (6)
352x480@30.7(10) 352x576@25.6 (7) 720x480@15.0 (6) 720x576@12.5 (5)
352x480@61.4 (12) 352x576@51.1 (10) 720x480@30.0 (6) 720x576@25.0 (5)
3.1 108000 3600 14 Mbit/s 17.5 Mbit/s 42 Mbit/s 56 Mbit/s 720x480@80.0 (13)720x576@66.7 (11)
1280x720@30.0 (5)
3.2 216000 5120 20 Mbit/s 25 Mbit/s 60 Mbit/s 80 Mbit/s 1280x1024@42.2 (4)1280x720@60.0 (5)
Trang 401920x1088@30.1 (4) 2048x1024@30.0 (4)
1280x720@68.3 (9) 1920x1088@30.1 (4) 2048x1024@30.0 (4)
4.2 522240 8704 50 Mbit/s 62.5 Mbit/s 150 Mbit/s 200 Mbit/s 1920x1088@64.0 (4)2048x1088@60.0 (4)
1920x1088@72.3 (13) 2048x1024@72.0 (13) 2048x1088@67.8 (12) 2560x1920@30.7 (5) 3680x1536/26.7 (5)
5.1 983040 36864 240 Mbit/s 300 Mbit/s 720 Mbit/s 960 Mbit/s 1920x1088@120.5 (16)4096x2048@30.0 (5)
4096x2304@26.7 (5)
H.264/AVC trở thành một tiêu chuẩn xử lý tốt với tốc độ bit thấp hơn so với các chuẩn
cũ mà không quá phức tạp trong khi thiết kế Mặt khác nó cũng có tính mềm dẻo chophép hoạt động trên nhiều hệ thống và mạng khác nhau mà vẫn có tốc độ bit, độ phângiải, như nhau H.264/AVC được ứng dụng rộng rãi trong nén ảnh kỹ thuật truyềnhình số, các ứng dụng về đồ họa và Video tương tác 2 chiều như Games, VideoConferencing, World Wide Web hoặc các ứng dụng nhằm phân phát dữ liệu Videonhư truyền hình cáp, Internet TV…H.264/AVC trở thành tiêu chuẩn công nghệ trongquá trình sản xuất, phân phối và truy nhập vào hệ thống Video
Mã hoá H.264/AVC ngoài việc quan tâm đến hiệu quả mã hoá giống như các tiêuchuẩn mã hoá trước đây, còn bổ sung thêm một số công cụ cho các chức năng khácnhư: Mã hoá các đối tượng có hình dạng bất kỳ, nén hiệu quả các tín hiệu video liêntục và hình ảnh trên một phạm vi rộng của tỷ lệ bit, phân cấp về không gian, thời gian
và chất lượng, khả năng truyền dẫn tốt trong môi trường khắc nghiệt
IV.2 NHỮNG ĐẶC TÍNH NỔI BẬT CỦA CHUẨN NÉN H.264/AVC
Dự đoán không gian định hướng trong kiểu mã hóa Intra: hỗ trợ tới 17 kiểu dựđoán, làm cho việc dự đoán mẫu được chính xác hơn, đạt hiệu quả nén cao hơn
Bù chuyển động với kích thước nhỏ có thể thay đổi Tiêu chuẩn này mang lại sựmềm dẻo cho sự lựa chọn kích thước và hình dạng, kích thước bù chuyển độngnhỏ nhất là 4x4 Điều này đã mang lại hiệu suất 15% so với MPEG-2 Bù