Sai lệch bình phương trung bình

Một đánh giá thống kê khác có thể đánh giá cho nhiều giải thuật nén là sai lệch bình phương trung bình so với ảnh gốc RMS (Root Mean square ) được tính bởi biểu thức: ∑ = − × = n i i Xi n RMS 1 2 ' ) ( 1 X Trong đó:

RMS – sai lệch bình phương trung bình Xi – Giá trị điểm ảnh ban đầu

Xi’ – Giá trị điểm ảnh sau khi nén n - Tổng số điểm ảnh trong một ảnh

RMS chỉ ra sự khác nhau thống kê giữa ảnh ban đầu và ảnh sau khi nén. Đa số trường hợp khi nén chất lượng của ảnh nén là tốt với RMS thấp. Tuy nhiên, trong một số trường hợp có thể xảy ra là chất lượng ảnh nén với RMS cao tốt hơn ảnh với RMS thấp hơn.

1.4. Lí thuyết thông tin Entropy .

Trước khi nghiên cứu các phương pháp ta cần đánh giá lượng thông tin chủ yếu chứa đựng trong hình ảnh, để từ đó xác định dung lượng dữ liệu tối thiểu cần sử dụng để miêu tả, truyền tải thông tin về hình ảnh.

Lượng thông tin chứa đựng trong hình ảnh tỷ lệ nghịch với khả năng xuất hiện hình ảnh. Nói cách khác, một sự kiện ít xảy ra sẽ chứa đựng nhiều thông tin hơn một sự kiện có nhiều khả năng xuất hiện. Đối với hình ảnh , lượng thông tin của một hình ảnh bằng tổng số lượng thông tin của từng phần tử ảnh (Pixel ).

Lượng thông tin của từng ảnh được tính theo công thức: I(xi)=log2(1/P(xi)) = -log2P(xi)

Trong đó:

I(xi)= lượng thông tin của phần tử ảnh xi (được tính bằng bit ) P(xi)= Xác suất xuất hiện của phần tử ảnh xi

Nếu một hình ảnh được biểu thị bằng các phần tử x1, x2, x3,… Xác suất xuất hiện của từng phần tử tương ứng sẽ là P(x1), P(x2), P(x3),…

Biết được lượng tin tức của từng phần tử ảnh chưa đủ, còn cần phải biết được lượng tin tức bình quân của cả tập hợp các phần tử của hình ảnh . Lượng tin tức bình quân ấy người ta gọi là entropy.

Entropy của hình ảnh là một giá trị có ý nghĩa quan trọng bởi xác định số lượng bit trung bình tối thiểu cần thiết để biểu diễn một phần tử ảnh. Trong công nghệ nén không tổn hao (Lossless Compression ) Entropy là giới hạn dưới của tỷ số bit/pixel. Nếu tín hiệu video được nén với tỷ số bit/pixel nhỏ hơn Entropy , hình ảnh sẽ bị mất thông tin và quá trình nén sẽ có tổn hao (lossy).

1.5. Các phương pháp nén.

Các hệ thống nén số liệu là sự phối hợp của rất nhiều các kỹ thuật xử lý nhằm giảm tốc độ bit của tín hiệu số mà vẫn đảm bảo chất lượng hình ảnh phù hợp ứng với một ứng dụng nhất định. Nhiều kỹ thuật nén mất và không mất thông tin (loss/lossless data reduction techniques) đã được phát triển trong nhiều năm qua. Chỉ có một số ít trong chúng có thể áp dụng cho nén video số.

Nén không

mất thông tin Nén mất

thông tin

Video số

DCT VLC RLC khoảng Loai bỏ

xoá Mẫu con DPCM Lượng tử hoá

JPEG MPEG –1 MPEG –2

Hình 1.3 minh hoạ kỹ thuật nén được sử dụng để tạo thành các tín hiệu nén JPEG (Joint Photographic Expert Group ) và MPEG (Moving picture Expert Group). Sử dụng các kỹ thuật này một cách riêng rẽ thực tế không đưa lại một kết quả nào về giảm tốc độ dòng tín hiệu .

Tuy nhiên, phối hợp một số các kỹ thuật này sẽ đem lại những hệ thống nén vô cùng hiệu quả như hệ thống nén JPEG, MPEG-1, MPEG-2.

1.5.1. Nén không tổn hao.

Nén không mất thông tin cho phép phục hồi lại đúng tín hiệu ban đầu sau khi giải nén. Đây là một quá trình mã hoá có tính thuận nghịch. Hệ số nén phụ thuộc vào chi tiết ảnh được nén. Hệ số nén của phương pháp nén không mất thông tin nhỏ hơn 2:1. Các kỹ thuật nén không mất thông tin bao gồm:

a) Mã hoá với độ dài thay đổi (VLC).

Phương pháp này còn được gọi là mã hoá Huffman và mã hoá Entropy, dựa trên khả năng xuất hiện của các giá trị biên độ trùng hợp trong một bức ảnh và thiết lập một từ mã ngắn cho các giá trị có tần suất xuất hiện cao nhất và từ mã dài cho các giá trị còn lại. Khi thực hiện giải nén, các thiết lập mã trùng hợp sẽ được sử dụng để tái tạo lại giá tri tín hiệu ban đầu.

b) Mã hoá với độ dài động (RLC).

Phương pháp này dựa trên sự lặp lại của cùng giá trị mẫu để tạo ra các mã đặc biệt biểu diễn sự bắt đầu và kết thúc của giá trị được lặp lại.

Chỉ các mẫu có giá trị khác không mới được mã hoá. Số mẫu có giá trị bằng không sẽ được truyền đi dọc theo cùng dòng quét.

c) Sử dụng khoảng xoá dòng, xoá mành.

Vùng thông tin xoá được loại bỏ khỏi dòng tín hiệu để truyền đi vùng thông tin tích cực của ảnh. Theo phương pháp đó, thông tin xoá dòng và xoá mành sẽ không được ghi giữ và truyền đi. Chúng được thay bằng các dữ liệu đồng bộ ngắn hơn tuỳ theo ứng dụng.

d) Biến đổi cosin rời rạc (DCT).

Quá trình DCT thuận và nghịch được coi là không mất thông tin nếu độ dài từ mã hệ số là 13 hoặc 14 băng tần đối với dòng video số sử dụng 8 bit biểu diễn mẫu. Nếu độ dài từ mã hệ số của phép biến đổi DCT nhỏ hơn, quá trình này trở nên có mất thông tin .

Trong truyền hình, phương pháp nén không tổn hao được kết hợp trong các phương pháp nén có tổn hao sẽ cho tỷ lệ nén tốt mà không gây mất mát về độ phân giải.

1.5.2. Nén có tổn hao

Nén có tổn hao chấp nhận mất mát một ít thông tin để gia tăng hiệu quả nén, rất thích hợp với nguồn thông tin là hình ảnh và âm thanh. Như vậy, nén có tổn hao mới thật sự có ý nghĩa đối với truyền hình. Nó có thể cho tỷ lệ nén ảnh cao để truyền dẫn, phát sóng. Đồng thời cho một tỷ lệ nén thích hợp cho xử lí và lưu trữ ảnh trong studio.

Nén tổn hao thường thực hiện theo 3 bước liên tục:

-Bước 1: Biến đổi tín hiệu từ miền thời gian (không gian) sang miền tần số bằng cách sử dụng các thuật toán chuyển vị như biến đổi cosin rời rạc DCT. Bước này thực hiện việc giảm độ dư thừa của pixel trong ảnh, tuy nhiên quá trình này không gây tổn hao.

-Bước 2: Thực hiện lượng tử hoá các hệ số DCT, số liệu được “làm trơn” bằng cách làm tròn. Việc mất mát số liệu xảy ra ở giai đoạn làm trơn này.

Bước 3: Nén số liệu đã biến đổi và làm trơn bằng cách mã hoá Entropy , ở đây sử dụng các mã không tổn hao như mã Huffman, RLC,…

CHƯƠNG II: CÁC DẠNG MÃ HOÁ SỬ DỤNG TRONG CÔNG NGHỆ NÉN

2.1. Mã RLC (Run Length coding).

Sự liên tiếp lặp đi lặp lại các điểm ảnh trong ảnh số xuất hiện là do sự tương quan giữa các điểm ảnh. Từ sự lặp đi lặp lại này, một phương pháp nén đã được xây dựng trên cơ sở sử dụng tần số lặp lại của các điểm ảnh, phương pháp này được gọi là RLC. RLC tách chuỗi các giá trị giống nhau và biểu diễn như là một tổng. Khi giãn giá trị này tạo lại tần số biểu diễn tổng. Kỹ thuật này chỉ có thể áp dụng cho các chuỗi symbol tuyến tính. Do đó, khi áp dụng cho số liệu ảnh hai chiều, hình ảnh được tách thành một chuỗi các dòng quét.

2.2. Mã shannon.

Theo lý thuyết thông tin của shannon thì tỷ lệ nén tốt nhất mà chúng ta có thể đạt được chính là Entropy nguồn. Vào cuối những năm 40, Shannon và Fano đã tìm ra một phương pháp nén mới và dựa trên xác suất xuất hiện của những symbol nguồn bên trong một lượng thông tin .

Về cơ bản thì phương pháp này sử dụng những từ mã có độ dài thay đổi để mã hoá các symbol nguồn thông qua xác suất của chúng. Với những symbol có xác suất xuất hiện càng lớn thì từ mã dùng để mã hoá chúng càng ngắn.

2.3. Mã huffman.

Mã Huffman thuộc loại mã Entropy hoặc mã thống kê. Tư tưởng chính là dùng VLC (Variable Length Coding), sử dụng ít bít để mã hoá các giá trị hay xảy ra (xác suất xuất hiện cao) và nhiều bit để mã hoá các giá trị hay xảy ra (xác suất xuất hiện thấp).Từ đó tốc độ bit sẽ giảm một cách đáng kể.

2.4. Phương pháp mã dự đoán (DPCM).

Phương pháp mã dự đoán hay còn gọi là điều xung mã vi sai (DPCM- Differential Pulse Code Modulation ) không mã hoá thông tin có biên độ ở mỗi mẫu, mà chỉ mã hoá thông tin có biên độ vi sai (biên độ chênh lệch) giữa mẫu đã cho và vị trí dự báo (được tạo từ các mẫu trước đó). Phân tích thống kê về phân bố tín hiệu video , ta thấy phân bố biên độ các mẫu tương ứng với các điểm ảnh (pixel) về nguyên tắc là phân bố đều, ngược lại phân bố về độ chênh lệch biên

độ các điểm ảnh có đồ thị hình chuông xung quanh điểm 0. Nếu dựa trên các đặc trưng thống kê ảnh, thì sự khác nhau này là không lớn lắm và để mã hoá nó chỉ cần giảm số bit là đủ( so với việc mã hoá toàn bộ biên độ các mẫu).

Phương pháp DPCM còn sử dụng đặc điểm của mắt người ( kém nhạy với mức lượng tử có chênh lệch về độ chói giữa các điểm ảnh gần nhau, so với mức lượng tử hoá chênh lệch nhỏ), và cho phép dùng đặc trưng phi tuyến về lượng tử hoá.

2.5. Phương pháp chuyển vị.

Đối với việc mã hoá riêng rẽ từng điểm một rẽ không đạt được hiệu quả bởi vì chúng ta không tận dụng được hết mối quan hệ giữa các khối điểm trong ảnh số. Phương pháp mã chuyển vị là một cách có hiệu quả trong việc mã hoá khối điểm thông qua biến đổi thông qua biến đổi tuyến tính các điểm này thành các hệ số chuyển vị và mã hoá các hệ số chuyển vị đó. Phương pháp này tập trung vào một số các hệ số chuyển vị mà không phải là các điểm ảnh của ảnh gốc và lượng thông tin chỉ trong một số ít hệ số chuyển vị. Như vậy, số bit dùng cho quá trình mã hoá sẽ ít đi. Một lý do nữa là do hệ thống thị giác của con người không thể nhận biết được hoàn toàn các chi tiết của ảnh khi các chi tiết đó biến đổi nhanh so với các biến đổi chậm, bởi vậy để mã hoá các hệ số chuyển vị ở tần số cao, ta chỉ cần một số ít bit mà chất lượng hình ảnh xem vẫn cao.

CHƯƠNG III: MỘT SỐ CÔNG NGHỆ NÉN VIDEO.

Hai công nghệ nén được sử dụng phổ biến nhất hiện nay là: công nghệ nén “Điều xung mã vi sai” (Differential pulse code modulation_DPCM) và “mã hoá chuyển đổi” (Transform Coding_TD). Chúng đóng vai trò quan trọng trong rất nhiều tiêu chuẩn nén như: JPEG, JBIG, MPEG.

3.1. Nén Video công nghệ điều xung mã vi sai – DPCM.

Đây là một phương pháp nén ảnh quan trọng và hiệu quả. Nguyên lý cơ bản của nó là: chỉ truyền tải tín hiệu vi sai giữa mẫu đã cho và dự báo (được tạo ra từ các mẫu trước đó).

3.1.1. Xử lý giải tương hỗ trong công nghệ DPCM.

Công nghệ DPCM thực hiện loại bỏ tính có nhớ và các thông tin dư thừa của nguồn tín hiệu bằng một bộ lọc đặc biệt có đầu ra là hiệu số giữa mẫu đầu vào và giá trị dự báo của chính nó. Rất nhiều giá trị vi sai này gần 0 nếu các điểm ảnh biến đổi không đều. Còn với ảnh có nhiều chi tiết, giá trị sai số dự báo có thể lớn. Khi đó có thể lượng tử hoá chúng bằng bước lượng tử cao hơn do đặc điểm của mắt người không nhạy cảm với những chi tiết có độ tương phản cao, thay đổi nhanh. Sự giảm tốc độ bit ở đây thu được từ quá trình lượng tử hoá và mã hoá.

Hình vẽ sau đây minh hoạ quá trình suy giảm Entropy của nguồn tín hiệu:

3.1.2. Kỹ thuật tạo dự báo.

Như đã đề cập, nếu trực tiếp lượng tử hoá các mẫu của một nguồn ảnh với đầy đủ thông tin dư thừa và quan hệ tương hỗ giữa các điểm ảnh thì hiệu suất nén sẽ rất thấp do lượng thông tin của nguồn phát quá lớn. Do vậy trong các công nghệ nén, cần loại bỏ đi tính có nhớ của nguồn tín hiệu, tức thực hiện “giảm tương hỗ” (deccorelation) giữa các mẫu có điểm lân cận nhau.

Trong công nghệ “điều xung mã vi sai” DPCM, quá trình giải tương hỗ được thực hiện bằng một bộ lộc có đáp ứng đầu ra là hiệu số giữa các điểm đầu vào liên tiếp và một giá trị “dự báo” của mẫu điểm đó tạo được dựa trên các giá trị lân cận theo một quy luật nhất định.

3.1.3. Lượng tử hoá sai số dự báo.

Giá trị biên độ vi sai phụ thuộc vào tính chất ảnh. Trong vùng ảnh thuần nhất, giá trị này thường nhỏ.

Đối với các rìa ảnh và ảnh có nhiều chi tiết, giá trị dự báo sẽ kém chính xác đi dẫn tới sai số dự báo sẽ lớn lên. Do những đặc điểm này, nếu sử dụng bộ lượng tử hoá tuyến tính với một bước lượng tử, sẽ gây ra nhiều lỗi:

• Tại vùng ảnh thuần nhất, giá trị dự báo vi sai sấp xỉ bằng 0. Bước Biên độ

0 t

a) Biên độ các điểm ảnh ban đầu

b) Chênh lệch biên độ giữa các điểm kề cận

Vùng ảnh nhiều chi tiết Vùng ảnh đồng đều Vùng ảnh đồng đều -255 255 Sai số dự báo e=V-P

lượng tử lớn gây ra nhiều hạt.

• Tại vùng ảnh có rìa hoặc nhiều chi tiết, bậc độ tương phản giữa các

điểm ảnh cao dẫn tới một sai số dự báo lớn làm quá tải tham lượng tử. Độ dốc tín hiệu giải mã không theo kịp độ dốc tín hiệu thực tế tại các rìa. Bởi vậy các nét ảnh không rõ ràng, nhoè nhoẹt.

Tất cả vấn đề này sẽ giải quyết được nếu sử dụng bộ lượng tử phi tuyến có bước lượng tử lớn dần theo độ lớn mẫu lượng tử.

Mặt khác sử dụng lượng tử hoá phi tuyến còn tận dụng được đặc tính của mắt người là kém nhậy cảm với các sai số tại vùng ảnh có rìa và nhiều chi tiết. Do vậy tiết kiệm được số bit cần dùng để mã hoá thông tin.

Hình 3.2: Ảnh hưởng của lượng tử hoá

3.1.4. Khái niệm bù chuyển động (motion compensatio) và vecto chuyểnđộng (motion vector). động (motion vector).

Trong dòng tín hiệu video thông thường, các khung liền nhau thường giống nhau. Do vậy trong dự báo Interframe một chiều (tức lấy khung liền trước làm ảnh dự báo cho khung liền sau), giá trị dự báo rất gần giá trị ảnh thực tế dẫn tới sai số dự báo nhỏ, tốc độ dòng bit dữ liệu nhỏ.

Khi có chuyển động xảy ra, các điểm có cùng vị trí trong hai khung liền nhau là rất khác biệt. Do vậy sai số dự báo tăng lên, tốc độ bit tăng lên và hiệu suất nén giảm. Với trường hợp ảnh động, nếu chọn ảnh dự báo là khung liền

Bước lượng tử quá lớn_Nhiễu hạt

Bước lượng tử quá nhỏ_tràn

Tín hiệu giải mã S1(n) Tín hiệu đầu vào

trước sẽ không hợp lý. Để tạo một khung dự báo tối ưu ở đây ta phải sử dụng khái niệm “bù chuyển động” (motion compensation).

Do chuyển động, sự tương đồng giá trị của hai khung kề nhau sẽ giảm nhưng nội dung ảnh chỉ thay đổi theo nguyên tắc: vật thể đã xuất hiện ở khung trước chỉ thay đổi vị trí ở khung ảnh kế sau.

Quá trình tìm kiếm hướng chuyển động của vật thể gọi là “ước lượng chuyển động” (motion estimation). Kết quả về sự chuyển dịch của vật thể theo hai hướng x, y được phản ánh bằng giá trị vectơ gọi là “vectơ chuyển động” (motion vector).

Khi có chuyển động, ảnh dự báo không phải là ảnh trước đó mà là ảnh có bù chuyển động.

Giá trị sai số dự báo:

P=khung trước đó- khung hiện hành + vectơ chuyển động Nên vẫn giữ được giá trị rất nhỏ.

Nếu quan sát sai số dự báo, ta dễ thấy được chất lượng dự báo có bù chuyển động. Ảnh tạo bởi tín hiệu sai số biến đổi có bù chuyển động đen hơn rất nhiều trường hợp dự báo không bù chuyển động.

Chọn tần số lấy mẫu:

Các thông số lấy mẫu tối ưu