Kỹ thuật nén hình ảnh và Video kỹ thuật số.

Một phần của tài liệu Giáo trình truyền thông và đa phương tiện (Trang 44 - 47)

L: Cường độ sáng nhỏ nhất,

4. Kỹ thuật nén hình ảnh và Video kỹ thuật số.

Các nhân tố có thể khai thác để nén ảnh / video:

– Có sự phụ thuộc không gian, thời gian giữa các giá trị pixel – Các giá trị pixel có tần số xuất hiện khác nhau.

– Các giá trị pixel có vai trò quan trọng khác nhau đối với nhận thức con người. – Dữ liệu ảnh lớn nhưng tương quan cao nhiều dư thừa. Trong một ảnh, các

pixels trong một vùng ảnh có giá trị tương tự (dư thừa không gian). Các ảnh trong dãy ảnh liên tiếp của một video (25 ảnh/s) không có nhiều khác biệt Dư thừa thời gian cao.

– Đích của nén ảnh là xóa bỏ nhiều, có thể như các dư thừa không gian với chất lượng ảnh tái tạo chấp nhận được. Đối với video, xóa bỏ dư thừa thời gian (giữa các ảnh) và dư thừa không gian (trong 1 ảnh) cho một tỷ suất nén cao.

– Các đặc trưng thị giác con người cũng được khai thác để tăng tỷ suất nén ảnh / video.

4.1. Mã hóa mu đại din không gian & thi gian (spatial and temporal subsampling coding) subsampling coding)

Trong một số áp dụng không đòi hỏi độ phân giải cao, có thể sử dụng lấy mẫu đại diện không gian và thời gian:

– Mã hóa: một pixel trong mỗi cụm pixels, một frame trong dãy frame (video)

được chọn và truyền đi.

– Giải mã: các pixels thiếu (các frame khuyết) được nội suy dựa trên pixels nhận

được và các frame nhận được để tái sinh dãy ảnh gốc với độ phân giải thấp.

Nếu pixels được biểu diễn bởi các thành phần độ chói (luminance) và độ màu (chrominance), thành phần độ màu có thể được lấy mẫu đại diện với tỷ lệ cao hơn và

được lượng hóa thô hơn (thị giác con người kém nhạy cảm với độ màu)

4.2. Mã hóa tiên đoán (predictive coding)

Giá trị mẫu của các phần tử ảnh kế cận tương quan với nhau. Các phần tử ảnh trong các frame liên tiếp của dãy video tương quan với nhau. Thuật toán tiên đoán một chiều sử

dụng tương quan của các phần tử ảnh kề nhau trên dòng quét. Các sơ đồ phức tạp hơn khai thác thêm tương quan dòng-dòng (tiên đoán hai chiều), frame-frame (tiên đoán ba chiều).

Sự thay đổi nhỏ của tín hiệu được lượng hóa, mã hóa và truyền đi. Giảm khoảng biên độ lượng hóa, giảm số mức lượng hóa, giảm số bit trên phần tử ảnh không làm giảm tỷ số tín hiệu / nhiễu lượng hóa. Làm phù hợp khoảng không đều của mức lượng hóa với che mặt nạ nhiễu của hệ thống thị giác con người làm tăng hệ số nén.

4.3. B xung có điu kin (Conditional Replenishment)

Bộ phát hiện chuyển động áp dụng một ngưỡng để định vị các khác biệt có ý nghĩa giữa các khung. Các pixels với thay đổi có ý nghĩa có xu hướng xảy ra trong các cụm dọc theo dòng quét. Các pixels cô lập, các cụm quá nhỏ bị bỏ.

Truyền đi: địa chỉ bắt đầu cụm, biên độ được lượng hóa của các khác biệt có ý nghĩa giữa các khung và mã kết thúc cụm.

4.4. Ước lượng chuyn động và bù (Motion Estimation and Compensation)

Khai thác sự dư thừa thời gian trong video.

Mỗi hình được chia thành các khối kích thước cố định. Tìm khối ở hình trước tương hợp nhất cho mỗi khối. Sự thay thế vị trí giữa hai khối tương hợp gọi là vector chuyển

động. Các khối sai khác nhận được, bằng tính từng pixel sai khác. Vector chuyển động và khối pixel sai khác được mã hóa và truyền.

4.5. Mã hóa biến đổi (Transform Coding)

Ảnh được chia thành các ảnh con. Áp dụng một phép biến đổi toán học lên mỗi ảnh con. Phép biến đổi sẽ biến đổi các ảnh con từ miền không gian sang miền tần số. Phần lớn năng lượng tập trung vào một số ít mẫu trong vùng tần số thấp.

Dữ liệu trong miền không gian tương quan cao, dữ liệu kết quả trong miền tần số sẽ ở dạng phù hợp với các kỹ thuật suy giảm dữ liệu như mã hóa Huffman, mã hóa độ dài run.

Các phép biến đổi thường được dùng: Karhunen-Loeve Transform (KLT), Biến đổi Cosin rời rạc (DCT - Discrete Cosine Transform), Walsh-Hadamard Transform (WHT), Biến đổi Fourrier rời rạc (DFT - Discrete Fourrier Transform).

Thực thi mã hóa biến đổi gồm bốn bước chính: 1. Chọn phép biến đổi.

2. Chọn kích thước ảnh con và áp dụng phép biến đổi trên các ảnh con (kích thước quá nhỏ, không khai thác tốt tương quan, kích thước quá lớn, tăng độ phức tạp

thực thi – kích thước thỏa hiệp thường là 8x8)

3. Chọn và lượng hóa các hệ sốđược biến đổi

4. Sử dụng mã hóa Huffman / độ dài run để cấp phát bít cho các hệ số được lượng hóa.

4.6. Mã hóa lai (Hybrid Coding)

Tổ hợp kỹ thuật mã hóa biến đổi và mã hóa tiên đoán. Hai dạng mã hóa lai:

– Áp dụng biến đổi (một chiều) trên các dòng quét theo một trong các chiều của

ảnh. Mỗi dãy hệ số biến đổi được mã hóa độc lập bởi kỹ thuật tiên đoán một chiều

– Áp dụng biến đổi (hai chiều) trên mỗi ảnh con. Thực hiện mã hóa tiên đoán (DPCM) theo hướng thời gian trên ma trận các hệ sốđã được biến đổi

YR R

:

Q K

4.7. Lượng t hóa vector (Vector Quantization)

Lượng tử hóa vector được định nghĩa là một ánh xạ Q từ không gian Euclide k chiều Rk vào một tập con hữu hạn Y của Rk:

Y được xem như một mảng các từ mã (codeword) và được gọi là VQ codebook / bảng VQ

Mã hóa: ảnh được chia thành các khối pixel kích thước cố định. Mỗi khối pixel

được xem như một vector X ∈ Rk . Tìm trong codebook từ mã xấp xỉ với X. Các chỉ số

của các từ mã (trong codebook) được truyền đi

Gii mã: Tra trong codebook các từ mã ứng với các chỉ số nhận được, các từ mã là dữ liệu cho phép dựng lại các ảnh con. “Ghép” các ảnh con để nhận được ảnh.

Vấn đềđặt ra cho VQ là thiết kế codebook hiệu quả

4.8. Mã hóa nh fractal (Fractal Image Coding)

Một fractal là một hình ảnh của một kết cấu / hình dạng được biểu diễn bằng một hoặc nhiều công thức toán học.

Một fractal là một dạng hình học, các chi tiết bất quy tắc của nó tái hiện ở quy mô và góc độ khác có thểđược mô tả bởi các biến đổi afin hoặc fractal (hình học fractal.

Nén ảnh fractal:

– Tìm trong một ảnh digital một tập các fractals mô tả biểu diễn toàn bộảnh.

– Các fractal được biểu diễn bởi các mã biến đổi fractal / các công thức (Các mã này là các quy tắc để tái tạo các tập fractals, các fractals được tái tạo cho phép tái sinh ra ảnh (gốc)).

– Vì chỉ cần một lượng bit rất nhỏ để biểu diễn các mã biến đổi fractal, nén fractal cho một tỷ suất nén rất cao.

Phần lớn các kỹ thuật nén ảnh fractal đựa trên các hệ thống hàm lặp (Iterated Function Systems – IFS – Barnsley 1988). IFS là một tập các biến đổi, mỗi một phép biến đổi biểu diễn mối quan hệ giữa một bộ phận của ảnh với toàn bộ ảnh: bộ phận của

ảnh có thể nhận được bởi áp dụng phép biến đổi trên toàn bộảnh.

Mục tiêu của mã hóa ảnh dựa trên IFS là phân hoạch một ảnh thành các ảnh con và tìm các phép biến đổi ánh xạ toàn bộ ảnh vào các ảnh con. Tập các phép biến đổi tìm thấy biểu diễn toàn bộ ảnh. Vấn đề khó khăn là tìm tập các phép biến đổi. Jacquin đề

nghị kỹ thuật kỹ thuật IFS phân hoạch: tìm các phép biến đổi ánh xạ một bộ phận của ảnh vào phần khác của ảnh.

Mã hóa fractal phi đối xứng: mã hóa khó khăn hơn, phức tạp hơn giải mã.

4.9. Mã hóa da trên mô hình và tri thc (Models and knowledge Based Coding)

Nén ảnh dựa trên mô hình ảnh mức cao hơn mô hình pixel là một hướng nghiên cứu mới. Ý tưởng: Y R : Q K →

– Bộ truyền và bộ nhận thỏa thuận trên mô hình ảnh cơ sở.

– Bộ truyền gửi các tham sốđể thao tác mô hình thỏa thuận theo các phần tử ảnh. Hiện tại, bộ mã hóa là bộ phát hiện đặc điểm, bộ giải mã là chương trình trình diễn ba chiều. Phương pháp đòi hỏi nhiều kỹ thuật khác nhau: trích đặc điểm, nhận dạng đối tượng, … và trí tuệ nhân tạo.

4.10. Mã hóa băng con (Subband Coding)

Thực hiện một tập các hoạt động lọc trên một ảnh để chia ảnh thành các thành phần phổ. Mỗi thành phần biểu diễn một ảnh con.

Mỗi dải tần số có thể được biểu diễn với SNR khác nhau. Một số dải tần số có thể bị

loại bỏ (không nhạy cảm với thị giác con người). Các dải tần số khác thường được nén với vector. Dải tần số cao hơn được lượng hóa thô hơn.

Biến đổi wavelet được sử dụng để phân tích ảnh thành một tập các kênh tần số có cùng độ rộng băng trên một mức thang logarithm.

4.11. Các k thut hướng kết cu–đường vin (contour-texture oriented techniques)

Phân đoạn hình ảnh thành các vùng kết cấu được bao quanh bởi các đường viền sao cho mỗi “đoạn ảnh” ứng với một đối tượng trong ảnh.

Thông tin về kết cấu và đường viền được mã hóa riêng biệt.

Các kỹ thuật được sử dụng để trích đường viền: phát triển vùng, các kỹ thuật phát hiện cạnh (edge detection techniques)

4.12. Các k thut khác

Có nhiều kỹ thuật mã hoá, trong đó sử dụng các kỹ thuật phù hợp để loại bỏ nhiều hơn các video dư thừa. Có nhiều sơ đồ như: mã hoá dự đoán và mã hoá biến đổi phù hợp. Gần đây, mạng neuron được dùng để mã hoá hình ảnh như: Mạng neuron cơ sở lượng hoá vector, mạng neuron nhân tạo để tính toán một biến đổi không trực giao phi tuyến (nonlinear nonorthogonal transform) cho nén ảnh.

Một phần của tài liệu Giáo trình truyền thông và đa phương tiện (Trang 44 - 47)

Tải bản đầy đủ (PDF)

(96 trang)