Phương pháp nén ảnh động bằng băng lọc wavelet

MỤC LỤC

Tham sè nÐn Video

Tham số nén Video đ−ợc đề cập đến ở đây là định dạng ảnh và tỉ số nén, tỉ số nén cho phép đánh giá hiệu quả của hệ thống nén. Khi so sánh tỉ số nén của các hệ thống nén khác nhau, thì định dạng ảnh của các hệ thống nén trên phải giống nhau.

Giới thiệu chung về chuẩn MPEG

Tuy nhiên, chuẩn MPEG-7 đ−ợc mô tả về phần nội dung giống nh− MPEG-4, và đ−ợc gọi chính thức là “Giao thức mô tả nội dung. MPEG-7 đặc tr−ng cho một tập tiêu chuẩn biểu diễn nhiều loại thông tin multimedia khác nhau.

Các khái niệm cơ bản trong nén Video theo chuẩn MPEG

Căn cứ vào đặc tính của Video có sự d− thừa không gian và d− thừa thời gian để đưa ra hai phương pháp nén giảm độ dư thừa không gian (mã hoá. “intraframe”) và nén giảm độ dư thừa thời gian tương ứng (mã hoá. “intrerframe”), và do đó chia các frame Video thành 3 loại là: frame I, frame P, frame B. Công nghệ MPEG sử dụng 3 loại ảnh I, P và B, trong đó P, B không phải là một ảnh hoàn chỉnh mà chỉ chứa sự khác biệt giữa ảnh đó và ảnh xuất hiện trước đó (đối với P), hay sự khác biệt đối với cả ảnh xuất hiện trước và sau nó (đối với B).

Ph−ơng pháp nén ảnh Video theo chuẩn MPEG

L−ợng tử hoá đ−ợc thực hiện bằng cách chia mỗi hệ số DCT cho các giá trị kích thước bước lượng tử tương ứng trong bảng lượng tử, sau đó làm tròn về số nguyên gần nhất. Quá trình khôi phục một ảnh bằng cách dùng các phần ảnh từ ảnh tr−ớc cùng với thông tin về chuyển động (véctơ chuyển động) nh− ở trên gọi là bù chuyển động (Motion Compensation).

Hình 1.12. Nguyên lý mã hoá Hybrid DCT/DPCM

Quá trình nén Video theo chuẩn MPEG-1

• Đồng thời, các hệ số l−ợng tử hoá đ−ợc l−ợng tử hoá ng−ợc, biến đổi ng−ợc, và cùng với frame dự đoán bù chuyển động để tạo ra frame tham chiếu mới. Chú ý: Bộ mã hoá và bộ giải mã phải sử dụng thứ tự frame tham chiếu giống nhau trong vùng đệm frame để tránh trường hợp bị lệch hình (drift), do các frame tham chiếu bị sai trật tự trong bù chuyển động. và giải mã frame B).

Hình 1.15. Sơ đồ khối bộ mã hoá video theo chuẩn MPEG-1

Quá trình nén Video theo chuẩn MPEG-2

MAIN Profile cung cấp khả năng mã hoá Non-scalable cho ảnh Video số với các tham số gần giống TV đó là mật độ lấy mẫu cực đại là 720 mẫu với mỗi dòng và 576 dòng cho mỗi frame, tốc độ frame cực đại là 30 frame mỗi giây và tốc độ bit tối đa là 15 Mbit/s. Có thể kết hợp các công cụ scalability khác nhau thành một sơ đồ mã hoá hybrid, có nghĩa là sự tương tác giữa các dịch vụ kể cả độ phân giải không gian và tỉ lệ frame khác nhau có thể đ−ợc hỗ trợ bằng cách kết hợp Spatial scalability và Temporal scalability.

Bảng 1.1. Các thuật toán và các tính năng hỗ trợ với mỗi Profile

Băng lọc 1/2 pixel biến đổi ng−ợc theo thời gian - tính toán bù chuyển

Ch−ơng này xin giới thiệu một hệ thống mã hoá Video 3 chiều mới, kết hợp giữa băng lọc MC-3D và thuật toán mã hoá mặt phẳng bit EZBC sẽ đ−ợc trình bày trong ch−ơng tiếp theo. (a) Một cặp khung liền kề (b) Phân tích tín hiệu Video (A: khung trước đó. B: khung hiện thời. Lt: Đồ thị thời gian của đầu ra thông thấp. Ht: Đồ thị thời gian của đầu ra thông cao.). Nó dựa trên sự quan sát l−ới nhị tố của 2 khung đan xen sát cạnh nhau và ghép 2 khung phân giải về không gian sau khi bù điểm ảnh chính xác trong đặc tính quét Video bởi véctơ bù chuyển động 1/2 điểm ảnh.

Nếu tất cả các khung của tín hiệu Video lấy mẫu đ−ợc sắp xếp theo khung tham chiếu, điểm ảnh trong l−ới con của khung tham chiếu có thể đ−ợc lấp đầy trong khung lấy mẫu từ vị trí l−ới giống nhau của các khung khác sau khi bù chuyển động. Quét luỹ tiến Video với véctơ chuyển động chính xác 1/2 điểm ảnh Xem xét quá trình quét luỹ tiến tín hiệu Video với 1/2 điểm ảnh vận tốc không đổi, với bốn mẫu tồn tại trong lưới lattices (mắt cáo) của 2 khung liên tiếp sau khi bù chuyển động của toàn bộ điểm ảnh nh− hình 2.6. Sau đó với các điểm ảnh kết nối connected pixels, l−ợc đồ phân tích tổng hợp (2.5) – (2.7) có thể hình thành từng khối theo không gian đ−ợc quyết định bởi lớp chuyển động theo mô hình 2.6.

Để đánh giá l−ợc đồ băng lọc theo thời gian cho mã hoá Video, đề xuất hợp lý nhất băng lọc trong hệ thống mã hoá Video 3 chiều IMC3D-FSSQ với khối giống nhau tới bộ mã hoá 3 chiều MC3D-FSSQ.

Mã hoá scalable video

So sánh với không gian và thời gian băng lọc truyền thống (không có bù chuyển động), biến đổi 3-D có thể loại bỏ d− thừa về không gian trong tín hiệu Video trong trạng thái chuyển động cao. Kết quả là chúng ta có thể chọn bất kỳ thành phần v màu nào của tín hiệu Video mã hoá khôi phục lại trong sự phân giải không gian khác nhau, tốc độ khung và mức chất l−ợng, (R’t, R’s, Qn’), nhờ sự lựa chọn đơn vị mã hoá. Với nhóm 8 tần số phân chia trong cả không gian và thời gian, việc phân giải tín hiệu Video giải mã (tốc độ khung và kích thước ảnh) cho phép chia tỷ lệ bởi luỹ thừa 2 trong khuôn dạng các tham số.

Với khả năng mềm dẻo của luồng bit, hệ thống mã hoá của chúng ta là lý t−ởng cho môi tr−ờng ứng dụng hỗn hợp, nơi mà mạng bao gồm các băng thông khác nhau và hệ thống đầu cuối với độ phức tạp khác nhau. Thông tin sai khác giữa lớp cơ sở (ký hiệu là BL trong hình 2.21) và nguồn Video ban đầu đ−ợc chứa trong lớp tăng c−ờng (ký hiệu là EL0 và EL1 trong hình 2.8) và luồng bit mã hoá lớp thấp hơn đ−ợc chia sẻ cao với ng−ời sử dụng đầu cuối. Trái với việc hình thành băng con/hình kim tự tháp – cơ sở của thuật toán đa phân giải trong tài liệu này, hệ thống trong t−ơng lai cung cấp chất l−ợng/tốc độ mong muốn cho ứng dụng mạng.

Trên hình 2.28, chúng ta chỉ ra khung đầu tiên từ Video khôi phục Mobile Calendar tại tốc độ bit mã hoá trung bình 0.505 bit/pixel (bpp) cho tất cả các mức phân giải hỗ trợ theo không gian và thời gian. Người sử dụng có thể tác động tới bộ mã hoá, hoặc là phân bố điều khiển mã hoá trong trường hợp tốc độ bit được điều khiển khác nhau hoặc là tác động đa thành phần nhờ thay đổi các tham số nh− là các thành phần ngữ. Với mục đích cung cấp kỹ thuật chuẩn trong lưu trữ, truyền dẫn và điều khiển tốc độ tại môi trường dữ liệu phim ảnh, nhóm chuyên gia về ảnh Moving Picture Expert Group (MPEG) đã đề xuất kỹ thuật mã hoá đối t−ợng Video nh− là hạt nhân trong chuẩn MPEG-4.

Hình 2.14. L−ợc đồ khối chung của hệ thống mã hoá lai Video SNR

Kết quả thực nghiệm

Trên hình 3.6, chúng ta so sánh hình thức của OB-EZBC với hình thức truyền thống (frame-based) EZBC cho AKIYO tại tốc độ bit mã hoá 0.1 và 0.5 bpp. Kết quả là EZBC đ−ợc phát sinh bởi miền mã hoá hình chữ nhật bao trùm đối t−ợng ảnh cận cảnh với các điểm ảnh nền tảng bên trong ranh giới miền thiết lập giá trị 0. Nh− chúng ta thấy, hình thức đề xuất OB-EZBC hình thành tốt hơn cả.

Trong hình 3.7, chúng ta giới thiệu đối t−ợng mã hoá Foreman tại tốc dộ bit khác nhau và kết hợp phân giải. Trong hình 3.8, chúng ta chỉ ra chất l−ợng ảnh cho bề mặt của ảnh kiểm tra MISS AMERICA cải thiện đ−ợc tăng c−ờng tại cung giá của bit. Trên hình 3.9, đối t−ợng giải mã từ luồng bit mã hoá tạo nên cho ảnh cuối cùng.

Điều này minh hoạ rằng, với luồng bit mã hoá cao, chúng ta có thể cho phép hiệu quả trong đối t−ợng ảnh riêng lẻ trong phạm vi phân giải khác nhau và chất l−ợng mức nén sử dụng nén đơn.

Chương trình thử nghiệm và đánh giá kết quả

Xây dựng ch−ơng trình 1. Khái quát chung

Cửa sổ hiển thị cho phép hiển thị thông tin về file *.mp4 đầu ra gồm số track,loại track,thông tin của từng track. Chương trình wavelet thực hiện nén file Video đầu vào định dạng RAW(*.raw) sử dụng Wavelet, ghi ra file đầu ra WAVELET(*.wl). Trong ch−ơng trình có sử dụng một số cấu trúc dữ liệu, các module thực hiện thuật toán cho quá trình nén và quá trình giải nén..Do mã nguồn cho ch−ơng trình khá dài, vì vậy tôi chỉ đ−a một số phần vào trong phần phụ lục của luận v¨n.

Đánh giá kết quả thử nghiệm 1 Dữ liệu thử nghiệm

RGB YUV YUV YUV YUV Tệp gốc air.rgb air.yuv air.yuv air.yuv air.yuv. Đánh giá cho tệp Demo.mp3 và Sound.mp3 tốc độ 30 frames/s thu đ−ợc kết quả. Với tệp đầu vào MP3 đầu ra chúng ta có tệp định dạng MPEG4.ở đây chúng ta chú ý đến chất l−ợng của đầu ra hơn là chất l−ợng nén.File MPEG4 ở đây có chất l−ợng cao không có nhiễu ứng dụng trong truyền thông đa ph−ơng tiện.