MPEG4 Visual (Part 2) - Truyền hình số có độ phân- 123docz.net

MPEG 4 Visual cho phép mã hoá ghép lai giữa các hình ảnh và video tự nhiên với các cảnh nhân tạo (từ máy tính). MPEG 4 Visual bao gồm các công cụ và thuật toán hỗ trợ việc mã hoá các ảnh tĩnh tự nhiên và các chuỗi video cũng nhƣ hỗ trợ nén các thông số đồ hoạ của các hình ảnh 2-D và 3-D.

2.4.3.1 Các định dạng hỗ trợ

- Bitrate: từ 5 Kbps đến hơn 1Gbps. - Định dạng: quét liên tục và quét xen kẽ.

- Độ phân giải: từ QCIF (Quarter Common Intermediate Format) đến độ phân giải cấp studio (4k x 4k pixel).

2.4.3.2 Đối tượng video

Một trong những đóng góp quan trọng của MPEG 4 Visual là loại bỏ cách nhìn truyền thống về chuỗi video nhƣ là một tập hợp các khung hình chữ nhật. Thay vì đó MPEG 4 Visual xem chuỗi video nhƣ là 1 tập hợp gồm 1 hay nhiều đối tƣợng video (Video object-VO). MPEG 4 Visual định nghĩa các VO là các thực thể linh hoạt mà ngƣời sử dụng có thể truy cập, thao tác với nó. Một VO có thể có thể có hình dạng tuỳ ý, ví dụ là một hình ngƣời đang nói mà không có hình nền. Hình ảnh hình chữ nhật chỉ là một trƣờng hợp đặc biệt của VO. Các VO cũng có thể từ các ảnh I, B, P và mang đặc tính giống nhƣ các loại ảnh trên.

2.4.3.3. Mã hoá co giãn các VO

MPEG 4 Visual cung cấp mã hoá các đối tƣợng hình ảnh, video với sự co giãn về không gian, thời gian và chất lƣợng, cho cả các hình ảnh chữ nhật và hình ảnh tuỳ ý. Sự co giãn trong mã hoá sẽ cho phép khả năng giải mã một phần dòng bit và khôi phục lại chuỗi hình ảnh với các cấp độ khác nhau:

Co giãn mức độ phức tạp tại mã hoá: cho phép mã hoá với các cấp độ phức tạp khác nhau, tạo ra dòng bit hợp lý với các bề mặt, hình ảnh hay video đã cho.

Co giãn mức độ phức tạp tại bộ giải mã: cho phép bộ giải mã có thể giải mã các bề mặt, hình ảnh, video với các cấp độ phức tạp khác nhau, tuỳ thuộc vào khả năng của bộ giải mã và nhu cầu phía đầu thu.

Co giãn độ phân giải không gian: cho phép bộ giải mã có thể giải mã một phần dòng bit để khôi phục lại hình ảnh, hay bề mặt, video với độ phân giải thấp đi.

Co giãn độ phân giải thời gian: cho phép bộ giải mã có thể giải mã một phần dòng bít để khôi phục lại các bề mặt, hình ảnh, video với độ phân giải thời gian suy giảm.

Co giãn chất lƣợng: Giữ độ phân giải không gian và thời gian nhƣng giảm chất lƣợng.

Chức năng này đƣợc thiết kế cho mã hoá các hình ảnh quét xen kẽ và phù hợp với các ứng dụng mà phía thu không có khả năng thể hiện độ phân giải đầy đủ hay chất lƣợng đầy đủ.

2.4.3.4. Cấu trúc các công cụ trình diễn video tự nhiên

Các thuật toán mã hoá hình ảnh và video của MPEG 4 mang đến sự trình diễn hiệu quả các đối tƣợng video của các hình dạng tuỳ ý, đồng thời cũng hỗ trợ các chức năng đƣợc gọi là nội dung cơ sở (conten based). MPEG 4 cũng hỗ trợ phần lớn các chức năng đƣợc cung cấp bởi MPEG 1 và MPEG 2 bao gồm cả chuẩn nén các chuỗi hình ảnh chữ nhật với rất nhiều các định dạng đầu vào, tốc độ khung, độ sâu điểm, tốc độ bit và rất nhiều cấp co giãn không gian, thời gian, chất lƣợng.

VLBL core (Vere Low Bit-rate Video) cung cấp các thuật toán và các công cụ để thực hiện các ứng dụng có tốc độ từ 5 đến 64Kbps, hỗ trợ chuối hình ảnh có độ phân giải không gian thấp (chất lƣợng CIF) và tốc độ khung thấp (15Hz). Các chức năng của cá ứng dụng cơ bản đƣợc hỗ trợ bởi VBVL Core là:

Mã hoá chuỗi hình ảnh kích thƣớc chữ nhật với hiệu quả mã hoá cao. Các thao tác truy cập ngẫu nhiên, tua đi, tua ngƣợc cho lƣu trữ dữ liệu đa phƣơng tiện VLB và cho các ứng dụng truy cập.

2.4.3.5. Cấu trúc mã hoá hình ảnh video MPEG 4

Hình sau đây mô tả tổng quan về thuật toán của MPEG 4 để mã hoá các chuỗi hình ảnh có dạng chữ nhật và dạng tuỳ ý.

Hình 2.9: Thuật toán của MPEG 4 để mã hoá các chuỗi hình ảnh

Cấu trúc mã hoá cơ bản bao hàm mã hoá hình dạng (cho các VO có hình dạng tuỳ ý) và bù chuyển động cũng nhƣ mã hoá bề mặt DCT ( sử dụng DCT tiêu chuẩn 8x8 hoặc DCT tƣơng thích hình dạng).

Một cải tiến quan trọng của phƣơng pháp mã hoá theo nội dung MPEG 4 là hiệu quả nén có thể cải thiện đƣợc đáng kể với một số chuỗi video bằng cách sử dụng các công cụ dự đoán chuyển động đối tƣợng cho mỗi đối tƣợng trong 1 cảnh. MPEG 4 đƣa ra một số kỹ thuật dự đoán chuyển động để tăng hiệu quả mã hoá và sự trình diễn mềm dẻo các đối tƣợng.

 Dự đoán và bù chuyển động dựa trên các block 8x8 hoặc 16x16 với độ chính xác lên đến ¼ pel

 Bù chuyển động toàn thể cho các đối tƣợng video (Global Motion Compensation-GMC): mã hoá chuyển động toán thể cho một đối tƣợng sử dụng một số ít thông số. GMC dựa trên dự đoán chuyển động toàn thể, sự méo hình, mã hoá đƣờng cong chuyển động và mã hoá bề mặt cho các lỗi dự đoán.

 Bù chuyển động toàn thể cho các “sprite” tĩnh. Một “sprite” tĩnh có thể là một ảnh tĩnh rộng, mô tả nền bao quát. Với mỗi ảnh tiếp theo trong chuỗi ảnh, chỉ có 8 thông số mô tả chuyển động đƣợc mã hoá để khôi phục lại đối tƣợng.

 Bù chuyển động ở mức ¼ pel làm cải thiện lƣợc đồ bù cho dự đoán chuyển động

 Biến đổi DCT hình dạng tƣơng thích: tại các vùng bề mặt mã hoá, biến đổi DCT tƣơng thích (Shape adaptive DCT : SA-DCT) sẽ cải thiện hiệu quả mã hoá các đối tƣợng hình dáng tuỳ ý.

Hình sau mô tả ý tƣởng mã hoá cơ bản cho chuỗi video MPEG 4, sử dụng 1 hình ảnh bao quát sprite (Sprite panorama image). Trong đó có thể thấy rằng, các đối tƣợng tiền cảnh (Foreground object) - trong trƣờng hợp này là ngƣời chơi tennis, có thể tách ra khỏi hình nền và do đó hình ảnh bao quát sprite cũng có thể tách ra khỏi chuỗi để mã hoá độc lập (một hình bao quát sprite là một hình tĩnh mô tả nội dung của hình nền trong tất cả các khung của chuỗi video).

Hình 2.10: Ý tƣởng mã hoá cơ bản cho chuỗi video MPEG 4

Hình ảnh bao quát sprite đƣợc mã hoá và truyền đi 1 lần duy nhất trong khung đầu tiên của chuỗi để mô tả cảnh nền, sau đó ảnh này đƣợc lƣu lại trong bộ nhớ đệm sprite tại phía đầu thu. Trong các khung hình tiếp theo, chỉ có các thông số camera liên quan đến hình nền, nhƣ hình ảnh ngƣời chơi chuyển động, là đƣợc truyền đi. Điều này cho phép phía thu khôi phục lại hình nền cho tất cả các khung hình tiếp theo bằng cách lấy hình nền từ bộ nhớ đệm. Đối tƣợng tiền cảnh chuyển động (ngƣời chơi) sẽ đƣợc truyền đi độc lập nhƣ là 1 đối tƣợng video (VO) hìnhdạng tuỳ ý. Hình ảnh khôi phục sẽ bao gồm cả hình nền và các hình tiền cảnh.

Sprite panorama image Foreground object