Để có thể thực hiện việc tổ hợp khung hình, MPEG-4 sử dụng một ngôn ngữ mô tả khung hình riêng, được gọi là Định dạng nhị phân cho các khung hình BiFS (Binary Format for Scenes). BiFS không chỉ mô tả ở đâu và khi nào các đối tượng xuất hiện trong khung hình, nó cũng mô tả cách thức hoạt động của đối tượng (làm cho một đối tượng xoay tròn hay chồng mờ hai đối tượng lên nhau) và cả điều kiện hoạt động đối tượng và tạo cho MPEG-4 có khả năng tương tác. Trong MPEG-4, tất cả các đối tượng có thể được mã hoá với sơ đồ mã hoá tối ưu riêng của nó - video được mã hoá theo kiểu video, text được mã hoá theo kiểu text, các đồ hoạ được mã hoá theo kiểu đồ hoạ - thay vì việc xử lý tất cả các phần tử ảnh pixels như là mã hoá video ảnh động. Do các quá trình mã hoá đã được tối ưu hoá cho từng loại dữ liệu thích hợp, nên chuẩn MPEG-4 sẽ cho phép mã hoá với hiệu quả cao tín hiệu ảnh video, audio và cả các nội dung tổng hợp như các bộ mặt và cơ thể hoạt hình.
3.1.2.2. MPEG-4 Part 10
Cuối năm 2001, VCEG và MPEG đã thành lập JVT (Joint Video Team) có nhiệm vụ hoàn thành chuẩn nén mới và chính thức được thông qua với tên gọi là MPEG-4 Part 10 hoặc H.264/AVC vào tháng 3 năm 2003 [6].
3.1.2.2.1. Cấu trúc phân lớp của H.264/AVC
Với sự gia tăng các ứng dụng và dịch vụ trên nhiều mạng thì câu hỏi đặt ra là làm thế nào quản lí được các ứng dụng đó. Do vậy, chuẩn H.264/AVC phải có độ linh hoạt cao và có thể ứng dụng trên nhiều mạng khác nhau. Do đó, chuẩn H.264/AVC được thiết kế theo phân lớp mã hóa video VCL (Video Coding Layer) và lơp NAL làm nhiệm vụ tương thích với môi trường mạng khác nhau.
Lớp mã hóa Video
Phân chia dữ liệu Điều khiển Dữ liệu Lớp thích ứng mạng H.320 MP4FF H.323/IP MPEG-2 ... Macroblock mã hóa Phần chia và Slice mã hóa