Mã hóa bù chuyển động cho hình dạng tùy biến VOPs

Một phần của tài liệu Tiểu luận môn truyền thông đa phương tiện multimedia (Trang 50 - 67)

Một P-VOP hoặc B-VOP được dự đoán từ một tài liệu tham khảo I- hoặc P-VOP đền bù chuyển động. Nó có thể cho một vector chuyển động để trỏ đến một vùng tham chiếu mà kéo dài bên ngoài các khu vực mờ đục của các tài liệu tham khảo VOP, tức là một số của các điểm ảnh trong vùng tham chiếu có thể được "minh bạch". Hình 5.36 minh họa ba ví dụ. Sơ đồ bên trái cho thấy một tài liệu tham khảo VOP (với các điểm ảnh đục màu xám), sơ đồ bên phải cho thấy một VOP hiện tại bao gồm chín macroblocks. MB1 là hoàn toàn mờ đục nhưng điểm MV của mình cho một khu vực trong VOP tham chiếu có chứa điểm ảnh trong suốt. MB2 là một MB ranh giới và phần mờ đục của vùng tham chiếu bồi thường chuyển động của nó nhỏ hơn so với các phần mờ đục của MB2. MB3 cũng là một MB ranh giới và một phần của khu vực tham chiếu của nó nằm trong một MB hoàn toàn minh bạch trong các VOP tham khảo. Trong mỗi trường hợp này, một số các điểm ảnh đục trong MB hiện đang motion- bồi thường từ các điểm ảnh trong suốt trong VOP tham khảo. Các giá trị của điểm ảnh trong suốt không de fi ned và do đó, nó là cần thiết để đối phó với những trường hợp đặc biệt. Điều này được thực hiện bằng việc đệm vị trí điểm ảnh trong suốt trong ranh giới và macroblocks minh bạch trong các VOP tham khảo.

Điểm ảnh trong suốt trong mỗi MB ranh giới trong một VOP tham chiếu được ngoại suy theo chiều ngang và theo chiều dọc từ điểm ảnh đục như thể hiện trong hình 5.37.

c3 c2 c1 c0 X c 8 c 7 c 6 c 5 c 4

1. pixels đục ở rìa của BAB (màu xám đen trong hình 5.37) được ngoại suy hori- zontally fi vị trí điểm ảnh ll minh bạch trong cùng một hàng. Nếu một hàng được bao bọc bởi các điểm ảnh đục tại chỉ có một phía, giá trị của các điểm ảnh đục gần nhất là sao chép tất cả các vị trí điểm ảnh trong suốt. Nếu một hàng được giáp hai bên bằng điểm ảnh mờ (ví dụ hàng đầu trong hình 5.37 (a)), các vị trí điểm ảnh trong suốt là thỏa mản với giá trị trung bình của hai điểm ảnh đục lân cận. Các kết quả của padding ngang được thể hiện trong hình 5.37 (b).

2. Điểm ảnh đục (bao gồm cả những ‘thỏa mản’ của giai đoạn đầu tiên kinh của padding ngang) được ngoại suy theo chiều dọc để phù hợp các vị trí trong suốt điểm ảnh còn lại. Cột minh bạch.

VOP tham chiếu VOP hiện tại

Hình 5.36 Ví dụ về các lĩnh vực tài liệu tham khảo có chứa điểm ảnh trong suốt

a) Đệm ngang b) Sau khi đệm ngang c) Đệm dọc

Hình 5.37 đệm ngang và dọc trong MB ranh giới

Điểm với một điểm lân cận là được rải đầy với giá trị của điểm ảnh đó và cột với hai điểm lân cận đục (như ở hình 5.37 (c)) là rải đầy với giá trị trung bình của các điểm ảnh đục ở trên cùng và dưới cùng của cột.

Ví dụ:

Hình 5.38 cho thấy một khối mẫu ranh giới từ một VOP với điểm ảnh trong suốt trong dải màu đen. Các điểm ảnh đục được ngoại suy theo chiều ngang (bước 1) để tạo ra Hình 5.39 (lưu ý rằng các vị

Reference area for MB3 Reference area for MB2 Reference area for MB1 Reference area for MB3 Reference area for MB2 Reference area for MB1

trí điểm ảnh trong suốt có hai điểm lân cận ngang đục). Kết quả của bước 1 sau đó được ngoại suy theo chiều dọc (bước 2) để tạo ra Hình 5.40.

Đệm của MBS được thể hiện rằng:

Tất cả MBs cũng phải được rải đầy với các giá trị điểm ảnh độn bởi vì họ có thể giảm một phần hoặc toàn bộ trong một vùng tham chiếu bù chuyển động (ví dụ như các khu vực tham chiếu cho MB3 trong hình 5.36). MBS trong suốt với một đơn MB ranh giới lân cận đang rải bằng phép ngoại suy theo chiều ngang hoặc theo chiều dọc của các ảnh điểm biên của MB. Ví dụ, trong hình 5.41, một MB trong suốt bên trái của MB ranh giới thể hiện trong hình 5.38 được đệm bởi mỗi vị trí điểm ảnh trong suốt MB với giá trị của các liền kề theo chiều ngang

Mô tả mã hóa vùng

Hình 5.39 MB ranh giới sau khi đệm ngang

Hình 5.40 MB ranh giới sau khi đệm dọc cạnh pixel. MBS suốt luôn đệm sau khi tất cả MBs ranh giới đã được độn đầy đủ.

Nếu một MB trong suốt có nhiều hơn một MB ranh giới lân cận, một lân cận được chọn cho phép ngoại suy theo các nguyên tắc sau đây. Nếu trái MB là một MB ranh giới, nó được chọn; ngược lại đầu MB là một MB ranh giới, nó được chọn; khác nếu các bên phải MB là một MB ranh giới, nó được chọn; khác các MB thấp hơn được chọn.

MBS không có lân cận là không trong dải với 2N giá trị pixel -1,

trong đó N là số bit cho mỗi pixel. Nếu N là 8 (trường hợp thông thường), các MBS là dải với các giá trị điểm ảnh 128.

Mã hóa kết cấu trong ranh giới Macroblocks

Các kết cấu trong một MB đục (giá trị pixel trong một MB nội bộ mã hóa hoặc chuyển động bồi thường còn sót lại trong một MB liên mã hóa) được mã hóa bởi quá trình bình thường của 8 × 8 DCT, lượng tử hóa, mã hóa mức run- và entropy mã hóa (xem Phần 5.3.2). Một MB ranh giới bao gồm một phần của các điểm ảnh texture (bên trong ranh giới) và một phần không xác định, điểm ảnh trong suốt (bên ngoài ranh giới). Trong một lõi mô tả đối tượng, mỗi 8 × 8 khối kết cấu trong một MB ranh giới được mã hóa bằng cách sử dụng một 8 × 8 DCT tiếp theo là lượng tử hóa, chạy cấp mã hóa và mã hóa entropy như bình thường (xem phần 7.2 cho một ví dụ). (The Shape-DCT thích ứng, một phần của chi tiết mã hóa hiệu quả và mô tả trong Phần 5.4.3, cung cấp một phương pháp hiệu quả hơn của mã hóa kết cấu ranh giới.)

Mô tả mã hóa vùng

Hình 5.41 Đệm của MB trong suốt từ các điểm lân cận

5.4.2 Phần nội dung chính

Một phần chính CODEC hỗ trợ đơn giản và tập trung đối tượng cộng với đối tượng kết cấu (xem phần 5.6.1) và các đối tượng chính. Các đối tượng chính cho biết thêm các công cụ sau đây:

• Liên kết (mô tả trong phần 5.3.3);

• Đối tượng dựa trên mã hóa với màu xám (‘alpha plane’) hình dạng; • Mô hình mã hóa.

Trong phần chính, hình dạng đối tượng được mô tả bởi một mặt nạ alpha nhị phân như vậy mà mỗi vị trí điểm ảnh được đánh dấu là 'đục' hoặc 'trắng'. Phần chính thêm hỗ trợ cho các mặt nạ màu xám hình dạng, trong đó mỗi vị trí điểm ảnh có thể lấy mức độ khác nhau của phần trắng từ hoàn toàn trong suốt đến mờ toàn. Điều này cũng tương tự như khái niệm về Planes Alpha được sử dụng trong đồ họa máy tính và cho phép các lớp phủ của nhiều đối tượng bán trong suốt trong một (render) cảnh dựng lại.

Mô hình mã hóa được thiết kế để hỗ trợ mã hóa trong các đối tượng nền. Trong nhiều video, nền không thay đổi và những thay đổi đó xảy ra thường do di chuyển máy. Một ' Mô hình ' là một đối tượng video (chẳng hạn như các nền cảnh) được hoàn toàn hoặc một phần truyền vào lúc bắt đầu của một cảnh và sau đó có thể thay đổi trong một số cách hạn chế trong bối cảnh đó.

5.4.2.1 Mã hóa hình xám

Nhị phân hình dạng mã hóa (mô tả trong mục 5.4.1.1) có hạn chế nhất định trong việc thể hiện những cảnh video được thực hiện từ nhiều đối tượng. Các đối tượng hoặc khu vực trong một cảnh video "tự nhiên" có thể được hình dạng mờ (trong suốt một phần) nhưng nhị phân chỉ mã hóa hỗ trợ các khu vực ("vô hình") hoặc hoàn toàn mờ đục hoàn toàn trắng. Nó thường rât khó khăn hoặc không thể đến các đối tượng hình phân khúc gọn gàng (kể từ ranh giới đối tượng có thể không chính xác tương ứng với vị trí điểm ảnh), đặc biệt là khi phân khúc được thực hiện tự động hoặc bán tự động.

Hình 5.42 Mặt nạ alpha màu xám quy mô cho MB ranh giới

Hình 5.43 MB ranh giới với tính trắng xám

Ví dụ, các cạnh của các VOP thể hiện trong hình 5.30 là không hoàn toàn "sạch" và điều này có thể dẫn đến các đồ tạo tác không mong muốn xung quanh các cạnh VOP khi nó được trả lại với VOS khác.

Hình xám dạng mã hóa cho phép kiểm soát linh hoạtl hơn của đối tượng trắng. Một chiếc máy bay alpha màu xám quy mô được mã hoá cho mỗi macroblock, trong đó mỗi vị trí điểm ảnh có một giá trị mặt nạtrong khoảng từ 0 đến 255, trong đó 0 chỉ ra rằng vị trí điểm ảnh là hoàn toàn minh bạch, 255 chỉ ra rằng nó là hoàn toàn mờ đục và các giá trị khác chỉ định một trung gian mức độ minh bạch. Một ví dụ về một mặt nạ màu xám quy mô cho một MB ranh giới được thể hiện trong hình 5.42. Sự trong suốt khoảng từ hoàn toàn minh bạch (mask pixel màu đen) để đục (mask điểm ảnh màu trắng). Kết quả MB thu được thể hiện trong hình 5.43 và cạnh của đối tượng doanh nghiệp 'mờ dần' (so sánh hình vẽ này với Hình 5.32). Hình 5.44 là một cảnh xây dựng một nền VO (hình chữ nhật) và hai cận VOS. Các cận VOS là giống hệt nhau, ngoại trừ cho tính minh bạch của họ, trái VO sử dụng một mặt nạ alpha nhị phân và các bên phải VO có một mặt nạ alpha màu xám giúp các VO bên phải để pha trộn dễ dàng hơn với nền. Các ứng dụng khác của hình dạng màu xám mã hóa bao gồm đại diện các đối tượng mờ, hoặc cố tình làm thay đổi đối tượng để làm cho họ bán trong suốt (ví dụ như các cảnh tổng hợp trong hình 5.45).

Hình 5.44 Video cảnh với đối tượng nhị phân-alpha (trái) và đối tượng màu xám-alpha (bên phải)

Hình 5.45 Video cảnh với đối tượng bán trong suốt

Mặt nạ alpha quy mô xám được mã hóa bằng cách sử dụng hai thành phần, một mặt nạ hỗ trợ nhị phân mà chỉ ra mà pixel là hoàn toàn minh bạch (bên ngoài để các VO) và đó là điểm ảnh bán hoặc hoàn toàn đục (nội bộ đến VO), và một chiếc máy bay alpha màu xám quy mô . Hình 5.33 là mặt nạ hỗ trợ nhị phân cho các mặt nạ alpha màu xám quy mô của Hình 5.42. Mặt nạ hỗ trợ nhị phân được mã hóa theo cách tương tự như một BAB (xem Phần 5.4.1.1). Chiếc máy bay alpha thang xám (chỉ ra mức độ minh bạch của các điểm ảnh bên) được mã hóa độc lập trong cùng một cách như đối tượng kết cấu (tức là mỗi 8 × 8 khối trong mặt phẳng alpha được biến đổi bằng cách sử dụng DCT, lượng tử hóa,

sắp xếp lại, chạy cấp và entropy mã hóa). Các bộ giải mã tái cấu trúc mặt phẳng alpha màu xám quy mô (mà có thể không giống với mặt phẳng alpha ban đầu do lượng tử hóa biến dạng) và mặt nạ hỗ trợ nhị phân. Nếu mặt nạ hỗ trợ nhị phân chỉ ra rằng một điểm ảnh là ngoài VO, các màu xám quy mô giá trị mặt phẳng alpha tương ứng được thiết lập để không. Bằng cách này, ranh giới đối tượng được bảo quản một cách chính xác (kể từ mặt nạ hỗ trợ nhị phân được mã hóa không tổn thất) trong khi mặt phẳng được giải mã màu xám quy mô alpha (và do đó các thông tin trắng) có thể không giống với bản gốc.

Việc tăng cường tính linh hoạt cung cấp bởi quy mô màu xám hình dạng alpha mã hóa được thực hiện với chi phí giảm nén hiệu quả. Nhị phân hình dạng mã hóa đòi hỏi sự truyền Babs cho mỗi MB ranh giới và ngoài ra, hình thang xám mã hóa đòi hỏi việc truyền tải dữ liệu của mặt phẳng alpha màu xám quy mô cho mỗi MB mà là bán trong suốt.

5.4.2.2 Mã hóa hình tĩnh

Ba khung hình từ một chuỗi video được thể hiện trong hình 5.46. Rõ ràng, nền không thay đổi trong quá trình tự (vị trí camera là cổ định). Các nền (Hình 5.47) có thể được mã hóa như là một hình tĩnh. Một hình tĩnh được coi là một hình ảnh kết cấu có thể di chuyển hoặc dọc theo những cách hạn chế nhất định, để bù đắp cho những thay đổi camera như pan, độ nghiêng, xoay và phóng to. Trong một kịch bản điển hình, một sprite có thể lớn hơn nhiều so với các vùng hiển thị của cảnh. Khi thay đổi các camera 'xem điểm', bộ mã hóa truyền thông số cho thấy làm thế nào các sprite nên được di chuyển và biến dạng để tái tạo các vùng hiển thị thích hợp trong cảnh giải mã. Hình 5.48 cho thấy một sprite nền (khu vực lớn) và các khu vực xem bằng máy ảnh ở ba thời điểm khác nhau trong một chuỗi video. Là trình tự tiến triển, các sprite được di chuyển, xoay và uốn cong sao cho diện tích có thể nhìn thấy những thay đổi thích hợp. Một sprite có thể có hình dạng tùy ý (Hình 5.48) hoặc có thể là hình chữ nhật.

Việc sử dụng các hình tĩnh mã hóa được chỉ định bằng cách thiết lập ma cho phép để 'tĩnh' trong một tiêu đề VOL, sau đó tĩnh sprite mã hóa được sử dụng trong suốt VOP. Các VOP fi đầu tiên trong một sprite VOL tĩnh là một I-VOP và điều này được theo sau là một loạt các S-VOPs (Static Sprite VOPs). Lưu ý rằng một tĩnh Sprite S-VOP được mã hoá khác nhau từ một Chuyển động toàn phần bồi thường S (GMC) - VOP (mô tả trong Phần 5.3.3) .There hai phương pháp truyền và thao tác hình, một hình 'cơ bản' (gửi nó toàn bộ vào lúc bắt đầu của một chuỗi) và một "độ trễ thấp ' (nó cập nhật bởi mảnh trong suốt quá trình mã hóa).

Hình 5.47 Bối cảnh nền

Hình 5.48 Hình nền và ba điểm ảnh khác nhau Hình cơ bản

Đầu tiên kính VOP (I-VOP) chứa toàn bộ hình, mã hóa trong cùng một cách như là một 'bình thường' I-VOP. Các hình có thể lớn hơn kích thước màn hình hiển thị có thể nhìn thấy (để chứa camera ments move- trong quá trình tự). Đồng bộ giải mã, ma được đặt trong một hình đệm và không được hiển thị ngay lập tức. Tất cả VOPs hơn nữa trong VOL là S-VOPs. An S-VOP chứa lên đến bốn thông số cong vênh được sử dụng để di chuyển và (tùy chọn) Wrap nội dung của hình đệm để sản xuất màn hình nền mong muốn. Số lượng các thông số cong vênh mỗi S-VOP (lên đến bốn) được chọn trong tiêu đề VOL và xác định ảnh của việc chuyển đổi hình đệm. Một tham số duy nhất cho mỗi S-VOP phép tuyến tính bản dịch tion (tức là một vector chuyển động duy nhất cho toàn bộ hình), hai hoặc ba thông số cho phép chuyển đổi của ma (ví dụ như xoay, cắt) và bốn thông số cho phép một góc nhìn biến đổi.

Độ trễ hình thấp

Truyền toàn bộ hình trong chế độ cơ bản hình vào lúc bắt đầu của một VOL có thể giới thiệu Sigmani độ trễ không thể vì các sprite có thể lớn hơn nhiều so với một cá nhân hiển thị VOP. Các hình cho phép một bộ mã hóa để gửi ban đầu một kích thước tối thiểu và / hoặc phiên bản chất lượng thấp của ma và sau đó cập nhật nó trong quá trình truyền của VOL. Đầu tiên I-VOP chứa một phần hoặc tất cả các sprite (tùy chọn mã hóa ở một chất lượng giảm xuống còn tiết kiệm băng thông) cùng với chiều cao và chiều rộng của toàn bộ hình.

Mỗi tiếp S-VOP có thể chứa các thông số cong vênh (như trong chế độ cơ bản hình) và một hoặc nhiều hình 'miếng'. Một hình 'mảnh' bao gồm một khu vực hình chữ nhật của hình và chứa dữ liệu macroblock rằng (a) xây dựng một phần của ma mà trước đây vẫn chưa được giải mã ('tĩnh-hình-đối tượng' mảnh) hoặc (b) cải thiện chất lượng của phần của ma đó đã được giải mã trước đó ("tĩnh- hình-cập nhật 'mảnh). Macroblocks trong một 'đối tượng tĩnh-hình' mảnh được mã hóa như macroblocks nội (bao gồm cả thông tin hình nếu sprite là không hình chữ nhật). Macroblocks trong một 'tĩnh-hình-cập nhật' mảnh được mã hóa như macroblocks liên tiếp sử dụng dự đoán từ các nội dung trước đó của bộ đệm hình (nhưng không có vectơ chuyển động hoặc hình dạng thông tin).

Ví dụ

Hình thể hiện trong hình 5.47 là được truyền trong chế độ trễ thấp. Các ban đầu I-VOP chứa một phiên bản chất lượng thấp của một phần của ma và Hình 5.49 cho thấy nội dung của bộ hình đệm sau khi giải mã các I-VOP. An S-VOP chứa một mảnh mới của hình, mã hóa trong chế độ chất lượng cao (Hình 5.50) và điều này mở rộng các nội dung của bộ hình đệm (Hình 5.51). Cần thêm một S- VOP chứa một mảnh còn sót lại (Hình 5.52) có thể cải thiện chất lượng của các phần trên bên trái

Một phần của tài liệu Tiểu luận môn truyền thông đa phương tiện multimedia (Trang 50 - 67)

Tải bản đầy đủ (DOC)

(90 trang)
w