Chuẩn nộn MPEG 4

Một phần của tài liệu Ứng dụng của chuẩn nén trong công nghệ IPTV luận văn tốt nghiệp đại học (Trang 67)

MPEG4 bao gồm cỏc bộ phận riờng rẻ cú quan hệ chặt chẽ với nhau và cú thể triển khai ứng dụng riờng hay tổ hợp cỏc phần khỏc.Cỏc phần cơ bản ở đõy là:

- Phần 1: System.

- Phần 2: MPEG4 ASP (Avanced Simple Profile) - Phần 3: Audio

- Phần 4: Conformance Xỏc định triển khai một MPEG 4 như thế nào? - Phần 5: Cỏc phần tham chiếu,đưa ra một nhúm cỏc phần mềm tham chiếu quan trọng được sử dụng triển khai MPEG4 sử dụng như một video demo về cỏc bước phải thực hiện khi triển khai.

Phần 6: Khung chuẩn cung cấp truyền thụng đa phương tiện tớch hợp DMIF (Delivery Multimedia Integration Framework) xỏc định một giao diện giữa ứng dụng và mạng lưu trữ.

- Phần 7: Cỏc đặc tớnh của một bộ mó húa Video tối ưu

- Phần 8: Giao vận,cần để như thế nào cỏc dũng giao vận MPEG4 và giao vận IP.

- Phần 9: Mụ tả phần cứng tham chiếu (Reference Hardware Description). - Phần 10: MPEG 4 Advanced Video Coding/H.264 (mó húa video tiờn tiến tương ứng với tiờu chuẩn H.264 của ITU).

- Phần 11: Mụ tả khung hỡnh.

- Phần 12: Định dạng file truyền thụng ISO (ISO Media File Format). - Phần 13: Quản lý bản quyền nội dung IPMP.

- Phần 14: Định dạng file MP4. - Phần 15: Định dạng file AVC

Phần 16: AFX (Animation Framwork eXtenstions) và MuW (Multi-user Worlds)

Chuẩn MPEG-4 là một chuẩn động dễ thay đổi: với MPEG-4, cỏc đối tượng khỏc nhau trong một khung hỡnh cú thể được mụ tả, mó hoỏ và truyền đi một cỏch riờng biệt đến bộ giải mó trong cỏc dũng cơ bản ES (Elementary

Stream) khỏc nhau. Cũng nhờ xỏc định, tỏch và sử lý riờng cỏc đối tượng (như nhạc nền, õm thanh xa gần, đồ vật, đối tượng ảnh video như con người hay động vật, nền khung hỡnh),nờn người sử dụng cú thể loại bỏ riờng từng đối tượng khỏi khuụn hỡnh. Sự tổ hợp lại thành khung hỡnh chỉ được thực hiện sau khi giải mó cỏc đối tượng này.

Trờn hỡnh 3.5 thể hiện một trường hợp điển hỡnh của tổ hợp khuụn hỡnh MPEG-4, cho thấy nhiều đối tượng (bàn, quả cầu, bảng đen, người hướng dẫn và audio) được đặt vào một hệ thống toạ độ khụng gian 3 chiều (3-D) đối với vị trớ người xem giả định. Cỏc thiết bị mó hoỏ và giải mó video đều ỏp dụng sơ đồ mó hoỏ như nhau cho mỗi đối tượng video VO (Video Object) riờng biệt (hỡnh 2), nhờ vậy người sử dụng cú thể thực hiện cỏc hoạt động tương tỏc riờng với từng đối tượng (thay đổi tỷ lệ, di chuyển, kết nối, loại bỏ, bổ xung cỏc đối tượng…) ngay tại vị trớ giải mó hay mó hoỏ.

Cỏc bộ phận chức năng chớnh trong cỏc thiết bị MPEG-4 bao gồm: • Bộ mó hoỏ hỡnh dạng ngoài Shape Coder dựng để nộn đoạn thụng tin, giỳp xỏc định khu vực và đường viền bao quanh đối tượng trong khung hỡnh.

• Bộ dự đoỏn và tổng hợp động để giảm thụng tin dư thừa theo thời gian.

• Bộ mó kết cấu mặt ngoài Texture coder dựng để xử lý dữ liệu bờn trong và cỏc dữ liệu cũn lại sau khi đó bự chuyển động.

Mó hoỏ và tổng hợp khung hỡnh video sử dụng trong MPEG-4. Nhiều đối tượng, như người, xe ụ tụ, nhà cửa, được tỏch ra khỏi video đầu vào. Mỗi đối tượng video sau đú được mó hoỏ bởi bộ mó hoỏ đối tượng video VO (video object) và sau đú được truyền đi trờn mạng. Tại vị trớ thu, những đối tượng này được giải mó riờng rẽ nhờ bộ giải mó VO và gửi đến bộ tổ hợp. Để cú thể thực hiện việc tổ hợp khung hỡnh, MPEG-4 sử dụng một ngụn ngữ mụ tả khung hỡnh riờng, được gọi là Định dạng nhị phõn cho cỏc khung hỡnh BiFS (Binary Format for Scenes). BiFS khụng chỉ mụ tả ở đõu và khi nào cỏc đối tượng xuất hiện trong khung hỡnh, nú cũng mụ tả cỏch thức hoạt động của đối

tượng (làm cho một đối tượng xoay trũn hay chồng mờ hai đối tượng lờn nhau) và cả điều kiện hoạt động đối tượng và tạo cho MPEG-4 cú khả năng tương tỏc. Trong MPEG-4, tất cả cỏc đối tượng cú thể được mó hoỏ với sơ đồ mó hoỏ tối ưu riờng của nú - video được mó hoỏ theo kiểu video, text được mó hoỏ theo kiểu text, cỏc đồ hoạ được mó hoỏ theo kiểu đồ hoạ - thay vỡ việc xử lý tất cả cỏc phần tử ảnh pixels như là mó hoỏ video ảnh động. Do cỏc quỏ trỡnh mó hoỏ đó được tối ưu hoỏ cho từng loại dữ liệu thớch hợp, nờn chuẩn MPEG-4 sẽ cho phộp mó hoỏ với hiệu quả cao tớn hiệu ảnh video, audio.

Trờn hỡnh là cấu trỳc bộ mó húa và giải mó video MPEG4, cỏc thiết bị mó húa và giải mó đều ỏp dụng sơ đồ mó húa như nhau cho mỗi đồi tượng video riờng biệt. Vớ dụ khi ta muốn mó húa và tổng hợp một khung hỡnh nhiều đối tượng đầu vào như ụtụ, nhà, người… được tỏch ra khỏi video đầu vào. Mỗi đối tượng video sau đú được mó húa riờng rẽ bởi bộ mó húa đối tượng video VO (Video Object) và được truyền đi trờn mạng.Tại vị trớ thu, những đối tượng này được giải mó riờng rẽ nhờ bộ giải mó VO decoder và gửi đến bộ tổng hợp Compositor. Vỡ vậy người sử dụng cú thể thực hiện cỏc hoaatj động tương tỏc riờng với từng đối tượng (thay đổi tỉ lệ, đi chuyển, kết nối, loại bỏ, bổ sung cỏc đối tượng…) ngay tại vị trớ giải mó hay mó húa. Ngoài ra, người dựng cú thể download cỏc đối tượng khỏc nhau từ thư viện cơ sở dữ liệu để chốn thờm vào hay thay thế cỏc đối tượng cú trong khung hỡnh gốc…

Hỡnh 3.6. Cấu trỳc mó húa và giải mó video MPEG 4

Trong MPEG 4, tất cả cỏc đối tượng cú thể được mó húa với sơ đồ mó húa tối ưu riờng của nú: video được mó húa theo kiểu video, text được mó húa theo kiểu text,cỏc đồ họa được theo kiểu đồ họa… thay vỡ việc xử lý tất cả cỏc phần tử ảnh pixels như là mó húa ảnh động.Do cỏc quỏ trỡnh mó húa được tối

ưu húa cho từng loại dữ liệu thớch hợp nờn chuẩn MPEG 4 sẽ cho phộp mó húa với hiệu quả cao.

3.4 Chuẩn nộn MPEG-4 Part 10

Đầu năm 1998, 2 tổ chức ITU-T và VCEG đó cựng đưa ra một chuẩn nộn mới H.26L nhằm tăng gấp đụi hiệu suất nộn. Do đú chuẩn nộn này sẽ mở ra nhiều ứng dụng mới như truyền hỡnh qua mạng Internet, truyền hỡnh di động và phỏt triển cỏc ứng dụng hiện cú.

Cuối năm 2001, VCEG và MPEG đó thành lập JVT (Joint Video Team) cú nhiệm vụ hoàn thành chuẩn nộn mới và chớnh thức được thụng qua với tờn gọi là MPEG-4 Part 10 hoặc H.264/AVC vào thỏng 3 năm 2003.

3.4.1 Cấu trỳc phõn lớp của H.264/AVC

Với sự gia tăng cỏc ứng dụng và dịch vụ trờn nhiều mạng thỡ cõu hỏi đặt ra là làm thế nào quản lớ được cỏc ứng dụng đú. Do vậy, chuẩn H.264/AVC phải cú độ linh hoạt cao và cú thể ứng dụng trờn nhiều mạng khỏc nhau. Do đú, chuẩn H.264/AVC được thiết kế theo phõn lớp mó húa video VCL (Video Coding Layer) và lơp NAL làm nhiệm vụ tương thớch với mụi trường mạng khỏc nhau.

Hỡnh 3.7. Cấu trỳc phõn lớp của H.264

a) Lớp mạng NAL (Network Abstration Layer) (adsbygoogle = window.adsbygoogle || []).push({});

+ RTP/IP cho dịch vụ thời gian thực qua mạng Internet (conversational và streaming).

+ Định dạng file: ISO MP4 cho lưu trữ và truyờng tải MMS. + H32x cho cỏc dịch vụ đàm thoại cú dõy và khụng dõy. + Dũng truyền tải MPEG-2 cho cỏc dịch vụ quảng bỏ.

Gúi NAL: dữ liệu video được mó húa được tổ chức trong một đơn vị NAL(hay gúi NAL). Mỗi gúi cú độ dài tớnh theo byte. Byte đầu tiờn của mỗi gúi NAL là byte mào đầu, nú chỉ rừ loại dữ liệu được chứa trong NAL, cỏc byte cũn lại chứa dữ liệu.

Phần dữ liệu của NAL được ghộp xen.

Cấu trỳc của đơn vị NAL cú định dạng chung cho việc sử dụng truyền trong hệ thống hướng bit và hướng gúi.

b) Lớp mó húa video:

Lớp mó húa video của H.264/AVC thỡ tương tự với cỏc tiờu chuẩn khỏc như MPEG-2 video. Nú là sự kết hợp dự đoỏn theo thời gian và theo khụng gian,vàvới mó chuyển vị.

Ảnh được tỏch thành cỏc khối. Ảnh đầu tiờn của dóy hoặc điểm truy nhập ngẫu nhiờn thỡ được mó húa “Intra”, cú nghĩa là khụng dựng thụng tin nào ngoài thụng tin chứa trong bản thõn ảnh. Mỗi mẫu của một khối trong một frame Intra được dự đoỏn nhờ dựng cỏc mẫu khụng gian bờn cạnh của cỏc khối đó mó húa trước đú. Đối với tất cả cỏc ảnh cũn lại của dóy hoặc giữa cỏc điểm truy cập ngẫu nhiờn, mó húa “Inter” được sử dụng, dựng dự đoỏn bự chuyển động từ cỏc ảnh được mó húa trước.

c) Khỏi niệm về ảnh, khung, bỏn ảnh, macroblock

Tớn hiệu video được mó húa trong H.264 bao gồm tập hợp cỏc ảnh được mó húa cú trật tự. Một ảnh cú thể biểu diễn bằng cả một khung hoặc một bỏn ảnh. Nhỡn chung, một khung gồm cú hai bỏn ảnh xen kẽ nhau: bỏn ảnh trờn và bỏn ảnh dưới. Bỏn ảnh trờn gồm cỏc dũng chẵn 0, 2, 4, …, H/2 -1, với

H là tổng số dũng trong một khung. Bỏn ảnh dưới gồm cỏc dũng lẻ và bắt đầu từ dũng thứ 2.

Cỏc macroblock: Mỗi ảnh video, frame hoặc field, được chia thành

cỏc macroblock cú kớch thước cố định bao trựm một diện tớch ảnh hỡnh chữ nhật gồm 16 x 16 mẫu thành phần luma và 8 x 8 mẫu cho mỗi một trong hai thành phần chroma. Tất cả cỏc mẫu macroblock luma hoặc chroma được dự đoỏn theo khụng gian hoặc thời gian, và dự đoỏn tại chỗ hợp thành được truyền đi nhờ dựng mó chuyển vị. Do vậy mỗi thành phần màu dự đoỏn tại chỗ được chia nhỏ thành cỏc khối. Mỗi khối được biến đổi nhờ dựng biến đổi nguyờn (an integer transform), và cỏc hệ số biến đổi được lượng tử húa và được truyền đi bằng phương phỏp mó húa entropy.

Cỏc macroblock được tổ chức thành cỏc slice, biểu diễn cỏc tập con của ảnh đó cho và cú thể được giải mó độc lập. Thứ tự truyền cỏc macroblock trong dũng bit phụ thuộc vào bản đồ phõn phối Macroblock (Macroblock Allocation Map) và khụng nhất thiết phải theo thứ tự quột. H.264 / AVC hỗ trợ năm dạng mó húa slice khỏc nhau. Đơn giản nhất là slice I (Intra), trong đú tất cả macroblock được mó húa khụng cú tham chiếu tới cỏc ảnh khỏc trong dóy video. Tiếp theo là cỏc slice P và B, ở đú việc mó húa cú tham chiếu tới cỏc ảnh trước nú (slice P) hoặc cả ảnh trước lẫn ảnh sau (slice B). Hai dạng slice cũn lại là SP (switching P) và SI (switching I), được xỏc định cho chuyển mạch hiệu quả giữa cỏc dũng bit được mó húa ở cỏc tốc độ bit khỏc nhau.

3.4.2 H.264 CODEC

Giống như cỏc tiờu chuẩn nộn trước đõy (vớ dụ như MPEG-1, MPEG- 2 và MPEG-4),H.264 khụng được định nghĩa là bộ CODEC (một cặp encoder và decoder) mà H.264 định nghĩa cỏc cỳ phỏp của luồng nộn video. Trong thực tế, bộ mó húa và giải mó bao gồm cỏc thành phần cơ bản như trong hỡnh 3.8 và hỡnh 3.9. So với cỏc chuẩn nộn trước bao gồm cỏc thành phần như bộ dự đoỏn, biến đổi, lượng tử, mó húa entropy, H.264 CODEC

cũn bao gồm bộ lọc deblocking và cú nhiều thay đổi quan trọng trong cỏc chi tiết về chức năng của cỏc thiết bị.

Hỡnh 3.8. Sơ đồ bộ mó húa video H264/MPEG 4 part 10

Bộ mó húa dũng forward

Một khung hoặc trường lối vào Fn được xử lớ trong cỏc khối của một macroblock (đỏp ứng cho 16x16 pixel trong một hỡnh bỡnh thường). Mỗi macroblock được mó húa ở chế độ trong ảnh hoặc liờn ảnh, với từng block trong macroblock. Một dự doỏn PRED (kớ hiệu là P trong hỡnh 3.8) được định dạng dựa trờn cỏc mẫu ảnh được tỏi tạo lại.

Trong chế độ nộn liờn ảnh, PRED được hỡnh thành từ slice hiện thời vừa được mó húa, giải mó và tỏi tạo lại (uF′

n trong hỡnh, chỳ ý rằng cỏc mẫu khụng được lọc được sủ dụng để tạo nờn PRED)

bự chuyển động từ một hoặc hai ảnh tham khảo được. Trong hỡnh 3.8, ảnh tham khảo là ảnh F′

n −1 vừa được mó húa. Nhưng, dự đoỏn tham chiếu đối với mỗi macroblock cú thể được chọn từ cỏc hỡnh ảnh trong quỏ khứ hoặc trong tương lai vừa được mó húa, tỏi tạo và lọc (theo thứ tự hiển thị).

Dự đoỏn PRED trừ với block hiện tại đer tỡm ra sự khỏc biệt, được biến đổi và lượng tử húa để thu được hệ số lưởng tử X sẽ được sắp xếp lại và mó húa entropy. Hệ số được mó húa entropy cựng với thụng tin về cạnh được mó húa trong mỗi block trong macroblock (chế độ dự đoỏn, mức lượng tử, thụng tin về vector chuyển động, …) định dạng nờn cỏc dũng bit để truyền tơi lớp mạng trừu tượng để truyền hoặc lưu trữ.

Bộ mó húa dũng tỏi tạo

Bờn cạnh việc mó húa và truyền tải cỏc block trong macroblock, bộ mó húa cũn giải mó (tỏi tạo) chỳng để làm tham khảo cho cỏc dự đoỏn trong tương lai. Hệ số X được giải lượng tử (Q−1) và biến đổi ngược (T−1) để thu được sụ khỏc biệt block D′

n. Block dự đoỏn PRED được cộng vào để tạo thành block tỏi tạo uF′n. Bộ lọc được ứng dụng để giảm ảnh hưởng của mộo và cỏc ảnh tham khảo dự đoỏn được tạo từ 1 chuỗi cỏc block F′n.

Mục đớch chớnh của bộ giải mó dũng tỏi tạo trong bộ mó húa là để chắc chắn rằng cả bộ mó húa và giải mó đều sử dụng cỏc tham số khung đó xỏc định để tạo ra dự đoỏn P. Nếu khụng cú cỏc tham số này, dự bỏo P ở bộ mó húa và giải mó sẽ khụng được xỏc định, dẫn đến lỗi giữa bộ mó húa và giải mó.

Bộ giải mó (adsbygoogle = window.adsbygoogle || []).push({});

Bộ giải mó nhận được cỏc dũng bit được nộn từ NAL. Cỏc thành phần dữ liệu được giải mó entropy để tỡm ra hệ số lượng tử X. Sử dụng giải lượng tử và biến đổi ngược để thu được Dn. Sử dụng cỏc thụng tin header đươc giải mó từ cỏc dũng bit, bộ mó húa tạo ra block dự đoỏn, giống hệt với PRED được tạo ra ở bộ mó húa. PRED được cộng với D′ n để tạo ra uF′n , sau đú được lọc để tạo ra cỏc block F′n.

Hinh 3.9. Sơ đồ giải mó video H264/MPEG 4 part 10

3.4.3 Cỏc đặc điểm chớnh của MPEG-4 Part 10a) Kớch thước block ảnh cú thể thay đổi được: a) Kớch thước block ảnh cú thể thay đổi được:

Thành phần độ chúi của macroblock (16*16 mẫu) cú thể được chia theo 4 cỏch: một macro block 16 *16 phần macroblock, hai macroblock 16*8 phần, hai 8* 16 phần hoặc bốn macroblock 8*8 phần. Nếu kiểu 8*8 phần được chọn, mỗi bốn 8*8 sub-macroblock trong một macro block cú thể được chia theo 4 cỏch: một phần sub-macro block 8*8, hai phần sub-macroblock 4*8, hai phần sub- macroblock 8*4 hoặc bốn phần sub-macroblock 4*4. Cỏc phần này và cỏc sub- macroblock tạo ra nhiều cỏch kết hợp giữa trong mỗi macroblock.

Trong thực tế, phần cú kớch thước lớn phự hợp với những vị trớ khụng chi tiết, và phần kớch thước nhỏ phự hợp với cỏc vị trớ cú độ chi tiết cao.

b)Độ chớnh xỏc của vector bự chuyển động cao

Mỗi phần hay mỗi phần sub-macroblock trong một macro được mó húa trong ảnh được dự đoỏn từ một vựng cú cựng kớch thước trong ảnh tham khảo. hầu hết cỏc chuẩn nộn trước đú chỉ đạt được độ chớnh xỏc ẵ của vector bự chuyển động, nhưng với H.264 cú thể đạt được tới ẳ.

c)Tham chiếu nhiều ảnh bự chuyển động:

Ảnh P trong MPEG-2 là ảnh dự đoỏn được tham chiếu từ một ảnh trước đú, cũn ảnh B là ảnh dự đoỏn 2 chiều được tham chiếu từ nhiều ảnh I hoặ P trước và sau nú.

Trong chuẩn nộn H.264, ảnh hiện tại cú thể tham chiếu bởi nhiều ảnh, điều này cho phộp tăng hiệu suất nộn. Một lượng lớn cỏc ảnh được giải nộn và lưu trong bộ giải nộn.

Hỡnh 3.11. Tham chiếu đa ảnh

Một phần của tài liệu Ứng dụng của chuẩn nén trong công nghệ IPTV luận văn tốt nghiệp đại học (Trang 67)