3/ Nén trong ảnh (Intra-frame Compression).- 123docz.net

∑ Bộ lượng tử hoá ∑

2.2. 3/ Nén trong ảnh (Intra-frame Compression).

Nén trong ảnh là loại nén nhằm giảm bớt thông tin d thừa trong miền không gian, nó bao gồm cả hai quá trình có và không tổn hao để giảm bớt dữ liệu trong một ảnh.Quá trình này không sử dụng thông tin của các ảnh trớc và sau ảnh đang xét.

Thuật ngữ ảnh ở đây cần đợc hiểu một cách chính xác bởi lẽ trong kĩ thuật nén ảnh cho phép sử dụng mành (field) hoặc ảnh (frame) nh một ảnh gốc. Nếu kĩ thuật nén dùng mành thì nén trong ảnh sẽ tạo ra hai ảnh trong một ảnh. Vì vậy, khi bàn về nén, thuật ngữ ”ảnh” không luôn luôn đồng nghĩa với thuật ngữ ảnh trong lĩnh vực truyền hình.

Hình 2.20 : Nén theo ảnh (Frame).

Hình 2.21 : Nén theo mành (Field).

Sơ đồ nguyên lý chung của quá trình nén trong ảnh nh sau: DCT thuận Lượng tử hoá Mã hoá entropy Mạch trộn Khuếch đại đệm Tiền xử lý Điều khiển tốc độ bit Bảng lượng tử Nguồn ảnh Tín hiệu

Hình 2.22 : Nén trong ảnh (Intra-frame Compression)

Tiền xử lý.

Trớc khi thực hiện DCT cả ảnh đợc chia thành các khối lớn MB (Macro Block) riêng biệt không chồng nhau. Mỗi MB bao gồm 4 block các mẫu tín hiệu chói và một số các block của tín hiệu hiệu màu phụ thuộc vào tiêu chuẩn lấy mẫu tín hiệu video.

(a) 4:2:0 (4:1:1) (b) 4:2:2 (c) 4:4:4 Hình 2.23 : Cấu tạo của MB theo các chuẩn lấy mẫu

Tất cả các block đều có cùng kích thớc và là một ma trận 8*8 điểm ảnh đợc lấy từ một ảnh màn hình theo chiều từ trái sang phải, từ trên xuống dới. Số đánh trên mỗi block xác định thứ tự của block đó trong chuỗi gửi đến bộ mã hoá DCT. Kích thớc block là 8*8 đợc chọn bởi hai lý do:

• Từ nghiên cứu cho thấy hàm hiệp phơng sai suy giảm rất nhanh khi khoảng cách từ pixel mà ở đó nó đợc định nghiã vợt quá 8.

• Nếu kích thớc block tăng sẽ gây khó khăn cho việc tính toán và thiết kế mạch cứng.

Thực hiện DCT thuận.

Công đoạn đâu tiên của hầu hết các quá trình nén là xác định thông tin d thừa trong miền không gian của một mành hoặc một ảnh trong tín hiệu video. Nén không gian đ-

ợc thực hiện bởi biến đổi cosin rời rạc. DCT biến đổi dữ liệu dới dạng biên độ thành dữ liệu dới dạng tần số. Mục đích của quá trình biến đổi là tách liên kết các pixel của từng ảnh con họăc gói càng nhiều năng lợng của ảnh con vào một phần nhỏ các hệ số hàm truyền. Việc mã hoá và truyền chỉ thực hiện với các hệ số năng lợng này và có thể cho kết quả tốt khi tạo lại tín hiệu video có chất lợng cao.

Hiện nay, DCT đã trở thành tiêu chuẩn quốc tế cho các hệ thống mã chuyển vị bởi nó có đặc tính gói năng lợng tốt, cho kết quả là số thực và có các thuật toán nhanh để thể hiện chúng.

Các phép tính DCT đợc thực hiện trong phạm vi các khối đã đợc chia ở phần tiền xử lý. Hiệu quả của việc chia này là một trong những hớng quan trọng của mã hoá video có chất lợng cao.

Lợng tử hoá.

Các hệ số F(u,v) nhận đợc sau khi thực hiện DCT có giá trị khác nhau nên chúng có thể đợc lợng tử hoá bằng phơng pháp khác nhau. Những hệ số tơng ứng với tần số thấp có giá trị lớn, chứa phần lớn năng lợng chính của tín hiệu đợc lợng tử hoá với độ chính xác cao. Hệ số DC đòi hỏi độ chính xác cao nhất do nó biểu thị giá trị độ chói trung bình của từng khối phần tử ảnh. Bất kì một sai sót nào trong quá trình lợng tử hoá hệ số DC đều có thể nhận biết dễ dàng bởi nó làm thay đổi mức chói trung bình của khối. Lợng tử hoá đợc thực hiện bằng việc chia các hệ số F(u,v) cho các hệ số ở vị trí tơng ứng trong bảng lợng tử Q(u,v). Các hệ số có tần số thấp đợc chia cho các giá trị nhỏ, các hệ số ứng với tần số cao đợc chia cho các giá trị lớn hơn, sau đó các hệ số đợc làm tròn (bỏ đi phần thập phân). Kết quả nhận đợc là bảng Fq(u,v) mới trong đó phần lớn các hệ số tần số cao sẽ bằng 0.

Mức độ tổn hao thông tin của quá trình lợng tử phụ thuộc vào giá trị các hệ số trên bảng lợng tử. Với sự lựa chọn các giá trị của Q(u,v) thích hợp sự khác nhau giữa ảnh gốc và ảnh biểu diễn sẽ nhỏ đến mức mắt ngời không cảm nhận đợc.

Mã hoá entropy.

Khi dùng mã hoá entropy có hai vấn đề đợc đặt ra: thứ nhất là nó làm tăng độ phức tạp và yêu cầu bộ nhớ hơn so với mã độ dài cố định, thứ hai là nó gắn liền với tính không ổn định của tín hiệu video do đó sẽ làm tốc độ bit thay đổi theo thời gian. Bởi vậy cần có một cơ cấu điều khiển bộ đệm khi mã hoá nguồn tốc độ bit biến đổi đ ợc ghép với kênh tốc độ bit hằng. Trong qua trình mã hoá này mã Huffman đợc dùng phổ biến, ngoài ra còn sử dụng thêm mã RLC để tăng hiệu suất nén.

Để mã hoá entropy các hệ số đợc lợng tử hoá, trớc hết cần biến đổi mảng hai chiều các hệ số thành một chuỗi số một chiều bằng cách quét zig-zag.

Hình 2.24 : Quét zig-zag các hệ số lợng tử hoá DCT.

Việc xử lý 64 hệ số của khối bằng cách quét zig-zag làm tăng tối đa chuỗi các giá trị 0 liên tiếp và do vậy làm tăng hiệu quả nén khi dùng RLC.

Sau khi thực hiện RLC, các từ mã RLC có tần suất xuất hiện cao đợc mã hoá bằng các từ mã ngắn, các từ mã RLC có tần suất xuất hiện thấp đợc mã hoá bằng các từ mã dài. Quá trình này đợc gọi là mã hoá với độ dài từ mã thay đổi (VLC). Tại đầu ra VLC tất cả các từ mã của cùng một khối DCT đợc kết hợp tạo thành một dòng tín hiệu ra.

Từ mã VLC đợc tạo ra với tốc độ thay đổi phụ thuộc vào độ phức tạp của ảnh và đợc ghi vào bộ nhớ đệm. Bit đọc ra từ bộ nhớ đệm tại một tốc độ cố định tuỳ theo thiết kế. Điều khiển bộ đệm thờng là một cơ cấu hồi tiếp, cơ chế của nó là luôn đảm bảo bộ nhớ không trống hoặc không tràn bằng cách thay đổi hệ số thang độ dùng cho bảng trọng số (thay đổi hệ số nén). Khi số liệu trong bộ nhớ đệm gần bằng dung lợng cực đại thì các hệ số biến đổi DCT đợc lợng tử hoá ít chính xác hơn (tăng tỷ số nén). Ngợc lại, khi bộ nhớ đệm gần cạn số liệu thì độ chính xác của việc lợng tử hoá các hệ số sẽ tăng lên (giảm tỷ số nén). Quá trình này đợc thực hiện khi biến đổi DCT một cách tự động bằng mạch phản hồi điều khiển tốc độ bit một cách thích hợp.

Quá trình giải nén trong ảnh dựa trên cơ sở thực hiện thuật toán ngợc với quá trình nén. Các bảng lợng tử và bảng mã Huffman xác định tại bộ mã hoá DCT đợc sử dụng để phục hồi các giá trị hệ số DCT của khối 8*8 điểm ảnh. Sau giải nén ta thu đợc ảnh khác biệt rất ít so với ảnh gốc, sự khác nhau này không làm ảnh hởng nhiều đến sự nhận biết của mắt. Tuy nhiên việc làm giảm mức lợng tử hoá sẽ dẫn đến việc làm giảm lợng thông tin của ảnh đợc truyền, nếu tăng mức nén sẽ gây ra méo ảnh, chính vì vậy các họ nén sử dụng DCT đợc xếp vào nhóm có mất thông tin.

Nh vậy có thể khái quát quá trình nén trong ảnh và giải nén trong ảnh cơ bản theo sơ đồ sau: Định dạng và cấu trúc khối DCT Lượng tử hoá Quét zig-zag RLC VLC Bộ đệm Bảng trọng số Bảng Huffman Hệ số cân bằng Mã DPCM hệ số DC Phân lớp

năng lượng khối

Điều khiển đệm Xác định khối Lựa chọn tốc độ dòng bit ra Dòng tín hiệu nén Y CR CB

Hình 2.25 : Quá trình nén trong ảnh.

Hình 2.26 : Quá trình giải nén trong ảnh.

2.2.4 / Nén liên ảnh (Inter-frame Compression).

Một phơng pháp mạnh của việc giảm tốc độ bit thông tin là dự đoán các phần tử ảnh từ các khung hình trớc đó, sau đó sẽ so sánh sự khác nhau giữa hình ảnh thực tế và hình ảnh dự đoán và truyền đi sự sai khác đó. Đây chính là quá trình loại bỏ thông tin d thừa trong miền thời gian của tín hiệu video.

Trong hầu hết các hình ảnh giá trị khác nhau giữa các hình ảnh gần nhau là rất nhỏ nh vậy việc mã truyền các thông tin sai khác này sẽ tốn rất ít số bit, điều này cho phép giảm tốc độ bit một cách đáng kể. Tại bộ giải mã quá trình dự đoán đợc làm giống nh bộ mã hóa, giá trị dự đoán sẽ đợc thêm vào giá trị sai khác đợc truyền để nhận đợc giá trị phần tử ảnh nguyên gốc. Bảng Huffman VLC RLC (zig-zag)-1 Lượng tử hoá IDCT Tách khối và cấu trúc khối Giải mã DPCM hệ số DC Bảng lượng tử Y CR CB

Để cải thiện quá trình dự đoán, các khối 16x16 điểm ảnh trong mành hiện thời đợc so sánh với các khối trong vùng tìm kiếm đợc xác định trong mành trớc đó. Khối nào có giá trị gần giống nhất sẽ đợc lựa chọn và trừ đi giá trị của khối hiện thời.

Quá trình này sẽ giảm tối thiểu giá trị khác nhau đợc phát. Nó đợc xem nh là quá trình bù cho sự chuyển động của các đối tợng trong hình ảnh. Giá trị véc tơ xác định vị trí liên quan đến khung phù hợp nhất với khung hiện thời về mặt không gian sẽ đợc mã hoá và truyền đi đến bộ giải mã.

Hình 2.27 : Sự bù chuyển động.

Để giảm quá trình tính toán vector chuyển động, độ phân giải của ảnh có thể đợc giảm xuống theo cả hai chiều ngang và chiều thẳng đứng. Bằng cách này có thể làm giảm số bit cần xử lý và dự đoán các phần tử chính đợc thay thế trọng khung hình. Dự báo bù chuyển động dựa trên các khung hình trớc là dự đoán một chiều đơn giản và thờng gọi là dự đoán thuận. Các khung hình dự đoán đợc gọi là các khung P (Predicted Frame). Vị trí của khối hiện thời trong khung hình n-1 Vị trí của khối hiện thời trong khung hình n-1 Véc tơ chuyển động Cửa số tìm kiếm

Dự báo nội suy bù chuyển động là dự đoán hai chiều, sử dụng thông tin trong một khung hình trớc và một khung hình tơng lai sau khung hình hiện tại để dự báo khung hình hiện tại gọi là khung hình B (Bidirectionally Predicted Frame). Dự báo hai chiều cho khả năng nén số liệu cao hơn dự đoán một chiều, tuy nhiên dự đoán ngợc chỉ thực hiện đợc khi khung hình tơng lai đợc truyền đi trớc khung hình hiện tại B.

Khung hình I là khung hình mã hoá dự đoán trong mành, khung hình P là khung hình dự đoán giữa các mành, khung hình B là khung hình dự đoán hai chiều giữa khung I và khung P.

Hình 2.28 : Các khung hình I, B và P .

Khung đợc dự đoán (5) nhận đợc từ khung I (1) đã đợc gửi. Trong ví dụ này 3 khung B đợc gửi giữa khung P và khung I. Khung (2), (3), (4) đợc nội suy từ khung hình trớc (1) và khung hình tơng lai (5). Để thực hiện tìm kiếm trong khung hình tơng lai tất cả các khung đợc lu trữ trớc khi xử lý. Một điểm thuận lợi của nội suy hai chiều là khung hình tiếp sau có thể cung cấp thông tin về cảnh thay đổi cho khung hình hiện tại mà khung hình trớc đó không cung cấp. Do khung B có thể nhận đợc ở bộ giải mã mà không cần gửi thêm nhiều thông tin nh các khung hình khác nên tốc độ bit có thể đợc

I B B B P B B B I 1 2 3 4 5 6 7 8 1 Forward Prediction Bidirectional Prediction Dự đoán trước

giảm rất nhiều. Điểm không thuận lợi của việc sử dụng khung hình B là yêu cầu xử lý phức tạp, yêu cầu nhiều bộ nhớ hơn, đặc biệt gía thành của bộ giải mã sẽ đắt hơn.

Hình 2.29 : Nén liên ảnh.

Trên hình vẽ là sơ đồ khối nguyên lý của mạch nén liên ảnh (với ảnh dự đoán trớc) và mạch nén liên ảnh (với ảnh dự doán hai chiều). Sự khác nhau cơ bản giữa hai mạch, mạch tạo ảnh B và mạch tạo ảnh P ở bộ nhớ ảnh so sánh. Để tạo ảnh P chỉ cần nhớ ảnh trớc đó, trong khi đó để tạo ảnh B phải nhớ cả hai ảnh: ảnh trớc và sau ảnh đang xét. Thông thờng sau quá trình nén liên ảnh, để tăng hiệu quả nén cần sử dụng kĩ thuật nén trong ảnh để xử lý độ d thừa không gian của phần thừa bù chuyển động. Sự kết hợp giữa nén trong ảnh và nén liên ảnh là cơ sở cho công nghệ nén video MPEG (Motion Piture Expert Group).