Nén ảnh động dùng wavelet

124 656 1
Tài liệu đã được kiểm tra trùng lặp
Nén ảnh động dùng wavelet

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Nén ảnh động dùng wavelet

Trang 2

Trang

Lời nói đầu 4

Chương 1 TổNG QUAN Về NéN ảNH Video THEO CHUẩN MPEG 6

1.1 Khái niệm về Video và phương pháp nén Video 5

1.1.1 Khái niệm Video 5

1.1.1.1 Không gian mầu (Color Space) 5

1.1.1.2 Các cơ cấu số hoá tín hiệu Video 6

1.1.2 Các phương pháp nén Video 8

1.1.2.1 Giảm tốc độ dòng bit 9

1.1.2.2 Nén dòng tín hiệu Video số theo không gian 10

1.1.2.3 Nén dòng tín hiệu theo thời gian 11

1.1.2.4 Nén hỗn hợp sử dụng tổ hợp các phương pháp trên 11

1.1.3 Tham số nén Video 11

1.2 Giới thiệu chung về chuẩn MPEG 12

1.3 Các khái niệm cơ bản trong nén Video theo chuẩn MPEG 14

1.3.1 Cấu trúc phân cấp Video theo chuẩn MPEG 14

1.3.2 Phân loại frame Video 17

1.3.3 Nhóm ảnh (GOP: Group Of Picture) 19

1.4 Phương pháp nén ảnh Video theo chuẩn MPEG 21

1.4.1 Mô hình tổng quát bộ mã hoá Video theo chuẩn MPEG 21

1.4.2 Lấy mẫu thông tin về màu 22

1.4.3 Lượng tử hoá 23

1.4.4 Nội suy ảnh 23

1.4.5 Dự đoán bù chuyển động 24

1.4.5.1 Đánh giá chuyển động (motion estimation) 24

1.4.5.2 Bù chuyển động (Motion Compensation) 24

1.4.6 Biến đổi Cosine rời rạc 26

Trang 3

Chương 2 M∙ hoá SCALABLE VIDEO 42

2.1 Băng lọc 1/2 pixel biến đổi ngược theo thời gian - tính toán bù chuyển động 42

2.2.1.2 Embedded Coding and Fine Granularity Scalability 66

2.2.1.3 Mã hoá sử dụng băng con 3 chiều và mã hoá Wavelet 69

Trang 4

3.3 Kết quả thực nghiệm 104

3.4 Tóm tắt và kết luận 106

Chương 4: Chương trình thử nghiệm và đánh giá kết quả 111

2 Hướng phát triển cho tương lai 119

TàI LIệU THAM KHảO 120

PHụ LụC 122

THUậT NGữ tiếng anh 122

Trang 5

đề truyền dữ liệu trên mạng đặc biệt là truyền ảnh và âm thanh được quan tâm Do đó việc nén dữ liệu đặc biệt dữ liệu phim ảnh là cần thiết hơn bao giờ hết Trong phạm vi luận văn này tôi tập trung vào việc nén dữ liệu video

Đối với nén ảnh động, chuẩn MPEG(Moving Photographic Experts Group) đã được xác lập bởi ISO và IEC Đây là một kỹ thuật nén ảnh động đã mang lại nhiều thành công Nó có thể đạt tỷ lệ nén khá cao 10:1 mà mắt thường khó phân biệt được Tuy nhiên đây vẫn chưa phải là tỷ lệ cao tối ưu

Sự ra đời của Wavelet đã mở ra một công nghệ mới Đó là chuẩn MJPEG2000 Sự ra đời của MJPEG2000 mở ra một tương lai mới cho kỹ thuật nén ảnh với những tính năng cao Kỹ thuật Wavelet cũng được nghiên cứu trong nhiều phần mềm như Matlap

Mục đích của luận văn này nhằm nghiên cứu một số phương pháp nén ảnh động đang được quan tâm Luận văn này được trình bày thành bốn chương và một phụ lục Chương Một làtổng quan về nén ảnh động Chương này giới thiệu một số chuẩn nén ảnh động là MPEG1,MPEG2,MPEG4 và MPEG7 Đồng thời cũng trình bày cấu trúc của video Chương Hai trình bày phương pháp nén Scalable video Chương này đề cập đến thuật toán LZC và 3D-SPIHT Chương Ba đi sâu vào nghiên cứu đối tượng mã hoá của video dựa trên biến đổi Wavelet Chương Bốn nêu khái quát cách thiết kế và cài đặt chương trình Chương này mang tính chất minh hoạ cho những gì đã được trình bày ở các chương trước Phần phụ lục nêu một số chương trình nguồn thông dụng viết trên Visual C + + 6 0

Do thời gian có hạn nên tôi chỉ mới nghiên cứu được phần nào trong kỹ thuật nén ảnh động do vậy chắc chắn không tránh khỏi thiếu sót Cuối cùng tôi xin chân thành cảm ơn sự giúp đỡ nhiệt tình và hiệu quả của PGS TS Hồ Anh Tuý đã giúp đỡ tôi hoàn thành luận văn này

Hà nội ngày 20/10/2005

Trang 6

Chương 1

TổNG QUAN Về NéN ảNH Video THEO CHUẩN MPEG

1.1 Khái niệm về Video và phương pháp nén Video

1.1.1 Khái niệm Video

Video là sự biểu diễn điện tử của một chuỗi các ảnh liên tiếp Những

ảnh này là những ảnh tĩnh và được gọi là các frame Chuỗi các frame xuất

hiện với tốc độ rất nhanh sẽ cho ta cảm giác chuyển động liên tục (tối thiểu là

25frame/giây) Mặc dù mỗi frame có sự khác nhau, cần thiết phải có tốc độ

frame cao để đạt được cảm giác chuyển động thực sự Tốc độ frame và độ

phân giải của mỗi frame là các nhân tố quan trọng ảnh hưởng trực tiếp đến chất lượng Video Trong truyền hình, độ phân giải của truyền hình là 720x576 và tốc độ frame là 25 hoặc 30 Hz

1.1.1.1 Không gian mầu (Color Space)

Dựa theo lý thuyết về ảnh màu, cảm thụ về màu của mắt trên cơ sở 3

màu cơ bản: màu đỏ (Red), màu lục (Green) và màu lam (Blue)

Trong hệ màu RGB, các màu có thể được mô tả là các điểm bên trong hình lập phương đơn vị, với gốc toạ độ (0, 0, 0) là màu đen; 3 thành phần R

(đỏ), G (lục), B (lam) biểu diễn cho 3 trục

Một hệ thống biểu diễn màu khác được sử dụng chính trong lĩnh vực truyền hình nhằm giúp việc số hóa được thuận lợi hơn là hệ màu YUV, miêu

tả mỗi ảnh trong Video gồm các thành phần độ chói (Y) và sắc màu (UV) Hệ

màu này nhằm đạt được hiệu suất truyền cao hơn, và giữ nguyên tính tương

thích với hệ số truyền hình màu đen trắng Thành phần chói (luminance) cung

cấp giá trị mức xám của ảnh, hai thành phần còn lại mang thông tin về màu

sắc (chrominance) để chuyển đổi từ ảnh xám sang ảnh màu

Trang 7

Chuyển đổi RGB sang YUV đ−ợc thực hiện theo chuẩn CCIR 601 nh− sau:

Y = 0.299R + 0.587G + 0.114B U = 0.493 (B - Y)

Do đó, màu CB, CR luôn nằm trong khoảng [0, 1]

Với −u điểm trên hệ YCBCR đ−ợc áp dụng rộng rãi trong việc số hoá

Video

1.1.1.2 Các cơ cấu số hoá tín hiệu Video

Hình 1.1 Cấu trúc lấy mẫu

Trang 8

Trong truyền hình, các frame trong chuỗi Video có độ phân giải là 720 x 576 điểm và có tốc độ frame là 25 hoặc 30Hz Mỗi ảnh trong chuỗi Video

được lấy số hoá như hình 1.1 Cấu trúc 4: 2: 2

Giả sử một dòng ngang của TV gồm 720 điểm ảnh

Hình 1.2 Cấu trúc lấy mẫu 4: 2: 2

Việc lấy mẫu sẽ tuần tự diễn ra như sau:

- Điểm đầu lấy mẫu tín hiệu chói (Y) và lấy mẫu 2 màu (CB, CR) - Điểm tiếp theo chỉ lấy mẫu tín hiệu chói (Y) và không lấy mẫu 2 tín

hiệu Khi giải mã, màu suy ra từ điểm ảnh trước

Tuần tự như vậy, cứ 4 lần lấy mẫu Y, có 2 lần lấy mẫu CR, 2 lần lấy mẫu CB

Cấu trúc 4: 1: 1

Hình 1.3 Cấu trúc lấy mẫu 4: 1: 1

Điểm ảnh đầu tiên lấy mẫu đủ Y, CR, CB, 3 điểm kế tiếp chỉ lấy mẫu Y, không lấy mẫu tín hiệu màu Khi giải mã, mầu của 3 điểm ảnh phải suy ra từ điểm ảnh đầu Tuần tự như vậy, cứ 4 lần lấy mẫu Y, có 1 lần lấy mẫu CR, 1 lần lấy mẫu CB

Cấu trúc lấy mẫu 4: 2: 0

Trang 9

Lấy mẫu tín hiệu Y tại tất cả các điểm ảnh của dòng, còn tín hiệu màu thì cứ 4 Y, có 2 màu CR và CB cách nhau theo từng hàng

Hình 1.4 Cấu trúc lấy mẫu 4: 2: 0

Cấu trúc lấy mẫu 4: 4: 4

Lấy mẫu tín hiệu Y, CR, CB tại tất cả các điểm ảnh của dòng

Hình 1.5 Cấu trúc lấy mẫu 4: 4: 4

1.1.2 Các phương pháp nén Video

Mục tiêu chính của việc nén tín hiệu Video là biểu diễn một nguồn tín hiệu Video bằng một số bit ít nhất có thể được mà vẫn đảm bảo yêu cầu chất lượng cảm thụ Với tín hiệu Video, giới hạn dải thông của tín hiệu tương tự khoảng 6MHz, trong khi tín hiệu Video số hoá theo tiểu chuẩn CCIR 601 với tốc độ bit là 270Mbit/s chiếm dải thông không dưới 189MHz, tức là lớn hơn

31,5 lần so với dải thông của tín hiệu tương tự Chính vì vậy, giảm dải thông là

vấn đề quan trọng với công nghệ Video số

Về cơ bản giảm dải thông được thực hiện bằng 4 cách:

- Giảm tốc độ dòng bit (bit Rate Reduction - BRR)

Trang 10

- Nén dòng tín hiệu Video số theo không gian, tức giảm độ dư thừa trong một số frame (spatial redundancy)

- Nén dòng tín hiệu theo thời gian, tức giảm độ dư thừa theo thời

gian (temporal redundancy)

- Nén hỗn hợp sử dụng tổ hợp các phương pháp trên

1.1.2.1 Giảm tốc độ dòng bit

Có hai phương pháp giảm tốc độ dòng bit

Cách thứ nhất dựa trên đặc điểm sinh lý của mắt người Mắt người không nhạy cảm với các tín hiệu màu nên trong phương pháp này, người ta giảm bớt độ phân giải các tín hiệu màu

Cách thứ hai dựa trên ý nghĩa của các bit lượng tử hoá các điểm ảnh Với 8 bit lượng tử hoá, các bit của byte này được chia làm hai nhóm: nhóm có

ý nghĩa hơn (MMB-More Meaning Bit) và nhóm ít ý nghĩa hơn (LMB-Less Meaning Bit) Việc ta cắt giảm các bit của nhóm LMB sẽ không ảnh hưởng

nhiều tới chất lượng của ảnh Tuy nhiên, phương pháp này không được chấp nhận trong các giải pháp giảm dải thông hiện tại, nên cũng sẽ không được đề cập đến

Phần lớn các định dạng số thành phần hiện nay đều sử dụng tần số lấy

mẫu 13.5MHz đối với tín hiệu chói Theo chuẩn CCIR 601, nếu 2 tín hiệu màu

được lấy màu được lấy mẫu với tần số như tín hiệu chói, chúng ta sẽ có định dạng 4: 4: 4.Định dạng này được sử dụng trong các thiết bị dựng phim phi tuyến và trong đồ hoạ vi tính liên quan đến phim nhựa Tốc độ bit của định dạng này cho hệ PAL là:

Với lượng tử hoá 8 bit: (720 + 720 +720) x 576 x 8 x 25 = 249 Mbit/s

Với lượng tử hóa 10 bit: (720 + 720 +720) x 576 x 10 x 25 = 311

Mbit/s

Trong đó: 720 x 576 là độ phân giải màn hình (576 là số dòng /frame) 25 là tốc độ chuyển ảnh (25 frames/s)

Trang 11

Hiện nay, các thiết bị sử dụng kỹ thuật số ở thị trường thiết bị Video

chuyên dụng thường sử dụng chuẩn CCIR 601 4: 2: 2 Theo định dạng số hoá

này, tín hiệu Video thành phần được lấy mẫu với tần số 13.5 MHz đối với tín hiệu chói, và 6,75 MHz đối với hai tín hiệu màu

Tốc độ dòng dữ liệu của định dạng này được tính như sau:

Khi lấy mẫu 8 bit: (720 +360 +360) x 576 x 8 x 25 = 166 Mbit/s 10 bit: (720 +360 +360) x 576 x 10 x 25 = 207 Mbit/s

Như vậy, so với phương pháp lẫy mẫu không cắt giảm (4: 4: 4), phương pháp này cho phép cắt giảm được 33% tốc độ dòng bit

Với định dạng 4: 1: 1 và 4: 2: 0, tốc độ dòng bit còn được cắt giảm nhiều hơn Với 8 bit lấy mẫu, tốc độ dòng bit tính cho PAL là:

(720 +180 +180) x 576 x 8 x 25 = 124.4 Mbit/s

tức là giảm được 50% so với nguyên mẫu 4: 4: 4

1.1.2.2 Nén dòng tín hiệu Video số theo không gian

Gần như tất cả các ảnh đều chứa một số lượng lớn các giá trị dữ liệu thông tin giống nhau Trong các hệ thống không giảm dữ liệu, các dữ liệu

giống nhau này được lặp lại để tạo lại các vùng đều nhau trong một ảnh (ví dụ,

bầu trời xanh), và do đó có thông tin dư thừa trong dòng dữ liệu

Để giảm độ dư thừa trong một frame, ta sử dụng các phương pháp nén

ảnh Các phương pháp nén ảnh có thể chia làm 2 loại:

Nén không tổn hao (lossless compression): là phương pháp nén mà tín hiệu

gốc đối chiếu với tín hiệu được nén (mã hoá), sau đó giải nén (giải mã) thì không có sự phân biệt

Nén có tổn hao (lossy compression): là phương pháp nén mà tín hiệu gốc

có sự khác biệt với tín hiệu được khôi phục sau khi nén và giải nén

• Chất lượng hình ảnh của các thiết bị dùng phương pháp nén không tổn hao là rất tốt, có thể so sánh được với chất lượng ảnh không nén Tuy nhiên, tỉ số nén của phương pháp này rất thấp Chính vì vậy, các ưu điểm của việc

Trang 12

nén tín hiệu không được phát huy một cách tối đa, giá thành thiết bị vẫn còn rất cao

Để nâng tỉ số nén, phát huy tối đa ưu điểm của việc nén tín hiệu, phương pháp nén có tổn hao được sử dụng trong hầu hết các thiết bị hiện nay Có hai định dạng nén được áp dụng rộng rãi trong các thiết bị truyền hình, nén

Video là JPEG và MPEG, cùng các phiên bản của nó 1.1.2.3 Nén dòng tín hiệu theo thời gian

Các frame trong Video có quan hệ mật thiết với nhau, thậm chí các frame hiện tại chỉ thay đổi chút ít so với các frame trước và sau đó Để giảm

bớt thông tin truyền tải, người ta chỉ truyền những phần thông tin sai lệch và kết hợp với thông tin cũ Có nhiều phương pháp khác nhau để xác định sự thay

đổi giữa các frame, đó là các phương pháp xác định véctơ chuyển động Ngoài

ra còn nhiều phương pháp khác, những giải thuật này có chất lượng cao, nhưng mức độ tính toán phức tạp và còn đang trong giai đoạn nghiên cứu

1.1.2.4 Nén hỗn hợp sử dụng tổ hợp các phương pháp trên

Để đạt được hiệu quả nén cao mà vẫn đảm bảo chất lượng hình ảnh,

người ta sử dụng tổ hợp các phương pháp trên Phương pháp nén Video theo

chuẩn MPEG là một phương pháp nén tổ hợp của các phương pháp trên

1.1.3 Tham số nén Video

Tham số nén Video được đề cập đến ở đây là định dạng ảnh và tỉ số

nén, tỉ số nén cho phép đánh giá hiệu quả của hệ thống nén Khi so sánh tỉ số nén của các hệ thống nén khác nhau, thì định dạng ảnh của các hệ thống nén trên phải giống nhau

Định dạng bao gồm:

• Số dòng/ảnh và số pixel/dòng

Trang 13

Số frame/s

Và cấu trúc lấy mẫu bao gồm: 4: 4: 4, 4: 2: 2, 4: 2: 0, 4: 1: 1, độ phân giải của mẫu là 8/10 bit (hoặc 12 bit)

Tốc độ bit của ảnh gốc (trước khi nén) có thể rút ra từ công thức:

Ví dụ: với tốc độ bit dữ liệu ảnh gốc 166 Mbit/s ở trên áp dụng vào máy

ghi hình đĩa PDR-100 (Tektronix), và giả sử chất lượng nén tương đương 24Mbit/s, thì tỉ số nén là 166/24 = 6.92

1.2 Giới thiệu chung về chuẩn MPEG

Chuẩn MPEG (Moving Picture Expert Group) được xây dựng và phát triển bởi các tổ chức ISO và IEC (International Electrotechnical Commission) với mục đích mã hoá tín hiệu hình ảnh và âm thanh cho DSM (Digital Storage Media), DSS (Digital Satellite System), HDTV (High Definition Television),

VideoConferencing, Internet Video, và các ứng dụng Video số Chuẩn MPEG

ngày càng được sử dụng rộng rãi trong nhiều ứng dụng lưu trữ, truyền thông đa phương tiện, và được biết đến với các chuẩn MPEG-1, MPEG-2, MPEG-4, MPEG-7

• MPEG-1 (~1992): mã ISO/IEC 11172, là chuẩn đầu tiên của MPEG nhằm

mục đích nén Video có kích thước khuôn hình 320x240 cho dòng dữ liệu có tốc độ từ 1 đến 1.5 Mb/s trong các ứng dụng DSM (như công nghệ ghi

Tốc độ dữ liệu ảnh gốcTỉ số nén =

Tốc độ dữ liệu ảnh nén

Trang 14

• MPEG-4 (~1998): mã ISO/IEC 14496, là chuẩn chủ yếu dành cho các ứng dụng đa phương tiện tương tác, phân loại khung cảnh đa phương tiện thành các đối tượng nội dung media, tập trung vào dồn kênh, đồng bộ dữ liệu với các đối tượng media để truyền qua mạng MPEG-4 sử dụng tốc độ bit

(Video) rất thấp: 5ữ64 Kb/s Vai trò nén ít được đề cập trong phiên bản

này

• MPEG-7 (~2001): MPEG-7 là chuẩn mô tả thông tin của rất nhiều loại phương tiện Mô tả này cho khả năng tìm kiếm nhanh và hiệu quả theo yêu cầu người dùng Tuy nhiên, chuẩn MPEG-7 được mô tả về phần nội dung giống như MPEG-4, và được gọi chính thức là “Giao thức mô tả nội dung

đa phương tiện” (Multimedia Content Description Interface) MPEG-7 đặc

trưng cho một tập tiêu chuẩn biểu diễn nhiều loại thông tin multimedia khác nhau MPEG-7 không phải là chuẩn nén

Sơ đồ giới thiệu các chuẩn nén và các công nghệ nén xem hình 1.6:

Hình 1.6 Các chuẩn, các công nghệ nén, truyền thông đa phương tiện

Trang 15

1.3 Các khái niệm cơ bản trong nén Video theo chuẩn MPEG

1.3.1 Cấu trúc phân cấp Video theo chuẩn MPEG

Cấu trúc dòng bit Video được chia thành phân cấp các lớp (layer) để hỗ trợ quản lý lỗi, truy cập ngẫu nhiên, dựng hình (editting) và đồng bộ với dòng

bit audio

Block: Là các khối kích thước 8x8 điểm ảnh của tín hiệu chói và màu được

dùng để biến đổi DCT

thông tin) trong ảnh gốc Header của Marcroblock chứa thông tin về các

khối độ chói và độ màu, và thông tin bù chuyển động Có ba loại

Macroblock (phân loại theo phương pháp mã hoá Macroblock):

u Skipped MB: sử dụng dự đoán từ frame giải mã trước đó với véctơ chuyển động bằng 0 Không có thông tin về Macroblock được giải

mã cũng như được truyền đến nơi nhận

u Inter MB: sử dụng dự đoán bù chuyển động từ frame trước đó Do

đó, cần truyền đi kiểu MB, địa chỉ MB, vectơ chuyển động, các hệ số DCT và kích thước bước lượng tử

u Intra MB: không dùng dự đoán từ frame trước đó Nên chỉ cần

truyền kiểu MB, địa chỉ MB, các hệ số DCT và kích thước bước lượng tử đến nơi nhận

Slice: Slice cung cấp khả năng phòng ngừa sự sai lệch dữ liệu Khi gặp lỗi

trong dòng bit của một ảnh, bộ giải mã có thể khôi phục bằng cách đợi

Slice tiếp theo mà không phải huỷ bỏ toàn bộ ảnh Slice chứa header và một

hoặc nhiều Macroblock liên tiếp Kích thước Slice cực đại có thể là toàn cảnh, kích thước cực tiểu có thể là một Macroblock Header của Slice chứa

thông tin về vị trí của nó trong ảnh và hệ số thang độ của bộ lượng tử hoá

Trang 16

Picture (frame): Một ảnh tương ứng với một frame của Video Có ba kiểu

ảnh chính là: ảnh I, P và B Các ảnh này không độc lập nhau, nên thứ tự dòng bit (tức là thứ tự các cảnh được truyền, lưu trữ và khôi phục) không theo thứ tự hiển thị, mà là thứ tự cho phép bộ giải mã có thể giải mã dòng

bit Lớp ảnh bao gồm phần header và một hoặc nhiều Slice Header chỉ thị sự sắp xếp để truyền frame, cho phép bộ giải mã hiển thị frame đúng theo

bậc, kiểu ảnh và thông tin mã hoá

nhiên (random access point), là đơn vị mã hoá nhỏ nhất mà có thể được

giải mã độc lập, bao gồm phần header và các ảnh Header chứa thông tin

thời gian và dựng hình (editting) Một nhóm ảnh GOP hình thành từ liên kết một hoặc nhiều frame I, và các frame P, và/hoặc frame B Cấu trúc GOP được biểu diễn thông qua hai tham số: n (số frame trong GOP) và m

(khoảng cách dự đoán), thông thường n=15, m = 3 Mỗi GOP bắt đầu bằng

một frame I Thứ tự các ảnh dòng mã là thứ tự mà qua quá trình giải mã

đưa chúng trở lại bình thường Đặc biệt, ảnh B trong dòng giải mã được đưa ngay ra màn hình; ảnh mã cuối cùng của nhóm ảnh (trong thứ tự trình diễn) là ảnh I hoặc P

Chuỗi Video (Video sequence): Là lớp cao nhất của phân cấp mã hoá

Chuỗi chứa một header, một hoặc nhiều GOP và một mã kết thúc chuỗi Thông tin quan trọng nhất chứa trong header là kích thước theo chiều ngang và đứng của mỗi ảnh, tỉ lệ pixel, tốc độ bit của ảnh trong chuỗi, tốc độ ảnh và các kích thước tối thiểu của bộ nhớ cho bộ giải mã, để khởi

gán trạng thái của bộ giải mã Chuỗi Video và thông tin header tạo thành dòng bit mã hoá, được gọi là dòng sơ cấp Video ES (elementary stream)

Trang 17

H×nh 1.7 C¸c líp video theo chuÈn MPEG

H×nh 1.8 CÊu tróc dßng d÷ liÖu MPEG

Trang 18

1.3.2 Phân loại frame Video

Căn cứ vào đặc tính của Video có sự dư thừa không gian và dư thừa thời

gian để đưa ra hai phương pháp nén giảm độ dư thừa không gian (mã hoá

“intraframe”) và nén giảm độ dư thừa thời gian tương ứng (mã hoá “intrerframe”), và do đó chia các frame Video thành 3 loại là: frame I, frame P, frame B

Frame I (Intra Coded Picture):

Frame I là frame đầu tiên trong mỗi nhóm ảnh của chuỗi Video, frame này được mã hoá tương tự như mã hoá ảnh tĩnh theo chuẩn JPEG

Các frame I được mã hoá độc lập, không cần tham chiếu đến các frame khác trong chuỗi Video Mã hoá các frame I chỉ làm giảm độ dư thừa không gian và cho một tỉ lệ nén vừa phải Frame I có thể dùng làm

điểm truy cập ngẫu nhiên trong chuỗi cho bộ giải mã, và có thể dùng

như như là frame tham chiếu (reference frame) để dự đoán các frame

khác

Frame P (Predictive Code Picture):

Qua frame I, bộ mã hoá có thể dự đoán thuận (forward

predection) frame tiếp theo Frame được dự đoán gọi là frame P

(predicted frame), và frame P cũng có thể được dự đoán từ các frame trước đó Như vậy, mỗi frame P được dự đoán từ frame I hoặc P trước

đó Việc mã hoá ảnh P có sử dụng bù chuyển động Thông tin ước lượng chuyển động của các khối nằm trong véctơ chuyển động véctơ

này xác định một Macroblock (MB) nào đó được sử dụng từ ảnh gốc

Frame P cho hệ số nén cao hơn, và có thể sử dụng làm một frame so

sánh, tham chiếu cho việc bù chuyển động cho các frame P và B khác

Trang 19

Hình 1.9 Nội suy bù chuyển động

Frame B (Bidirectionally Predicted 0icture):

Bộ mã hoá cũng có thể sử dụng đồng thời dự đoán thuận và ngược Những

frame này gọi là frame dự đoán nội suy 2 chiều (Bi-directional Interpolated Prediction), hay frame B Không như frame I (được dự đoán

độc lập) và frame P (được dự đoán dựa vào frame I hoặc P trước đó), frame B được dự đoán 2 chiều dựa vào cặp frame I và P, hoặc P và P, hoặc P và I (với frame I của nhóm ảnh tiếp theo) Việc sử dụng thông tin lấy từ ảnh

trong tương lai hoàn toàn có thể thực hiện được vì tại thời điểm mã hoá thì

bộ mã hoá đã sẵn sàng truy cập tới ảnh phía sau Frame B cho tỉ lệ nén cao nhất, và không được dùng làm frame tham chiếu

Theo phương pháp nén này, frame I gọi là frame intra (sử dụng kỹ thuật mã hoá intraframe), frame P và B gọi là các frame Inter (sử dụng kỹ thuật mã hoá interframe)

Trang 20

Một thuận lợi khi sử dụng nhiều loại frame là để theo dõi dữ liệu trong quá trình truyền, nếu có frame bị mất (thường là frame P hoặc frame B) thì chất lượng Video cũng không bị ảnh hưởng nhiều

Kích thước các frame được minh hoạ trong hình vẽ sau:

Hình 1.10 Kích thước các loại frame

1.3.3 Nhóm ảnh (GOP: Group Of Picture)

Công nghệ MPEG sử dụng 3 loại ảnh I, P và B, trong đó P, B không phải là một ảnh hoàn chỉnh mà chỉ chứa sự khác biệt giữa ảnh đó và ảnh xuất hiện trước đó (đối với P), hay sự khác biệt đối với cả ảnh xuất hiện trước và sau nó (đối với B) Để có một khuôn hình hoàn chỉnh ảnh P và B cần có dữ liệu từ các ảnh lân cận, chính vì vậy đối với MPEG có một khái niêm là GOP (nhóm ảnh) Mỗi nhóm phải bắt đầu bằng một ảnh hoàn chỉnh I và tiếp theo là một loạt các ảnh B, P Có hai loại nhóm là mở và đóng Nhóm mở bắt đầu bằng một ảnh I và kết thúc bằng một ảnh I, việc dự đoán ảnh phụ thuộc cả vào thông tin của các GOP khác Nhóm đóng có cấu trúc khép kín, việc dự đoán ảnh không phụ thuộc vào thông tin của nhóm khác và ảnh cuối cùng của một nhóm bao giờ cũng là một ảnh P

Trang 21

Chuỗi ảnh MPEG thường có cấu trúc IBBPBBPBBI nhưng thứ tự truyền dẫn và thứ tự hiển thị ảnh là khác nhau do khi tạo ảnh B cần thông tin từ cả khung quá khứ và tương lai ảnh tương lai cần phải được truyền dẫn trước, khi

hiển thị phải theo đúng thứ tự nguồn Để thực hiện điều này, lớp ảnh (Picture

layer) của dòng dữ liệu MPEG có thông tin về số thứ tự ảnh để trợ giúp hiển

thị Hình dưới trình bày thứ tự truyền dẫn và thứ tự hiển thị ảnh

Một cấu trúc nhóm ảnh thông thường được mô tả bởi hai tham số: n - số

ảnh trong một nhóm và m - số khoảng cách cho ảnh B Như ví dụ trên n=9 và

m=3

Trang 22

1.4 Phương pháp nén ảnh Video theo chuẩn MPEG

1.4.1 Mô hình tổng quát bộ mã hoá Video theo chuẩn MPEG

Nén Video số nhằm mục đích loại bỏ dư thừa không gian và dư thừa

thời gian trong chuỗi Video mà không ảnh hưởng đến mức độ cảm thụ của mắt

Kỹ thuật mã hoá “Inter frame”: nhằm giảm độ dư thừa thời gian giữa các

frame ảnh: Kỹ thuật mã hoá “Inter frame” tính giá trị của một điểm ảnh

riêng biệt bằng cách dự đoán từ các điểm ảnh trong ảnh lân cận Kỹ thuật này xuất phát từ mối tương quan thời gian giữa các điểm ảnh trong các ảnh lân cận Phương pháp để giảm độ dư thừa thời gian là kỹ thuật mã hoá

DPCM dựa trên dự đoán bù chuyển động giữa các frame

Trong mô hình nén Video theo chuẩn MPEG, để đạt được hiệu quả nén cao

cần kết hợp cả hai kỹ thuật nén ở trên để giảm dư thừa không gian và thời

gian Mô hình nén Video Hybrid DPCM/DCT là sự kết hợp của hai kỹ

thuật trên (xem hình 1.12)

Mô hình Hybrid DPCM/DCT gồm có các kỹ thuật:

Lấy mẫu (subsampling) thông tin về màu để thích hợp với độ nhậy cảm của

mắt người

Trang 23

Lượng tử hoá (Quantization-Q)

Nội suy ảnh (picture interpolation)

Dự đoán bù chuyển động bao gồm: đánh giá chuyển động (motion

estimation) và bù chuyển động (motion compensation-MC)

• Biến đổi Cosine rời rạc (DCT) để khai thác tính dư thừa không gian • Mã hoá chiều dài thày đổi (VLC-Variable length coding)

Hình 1.12 Nguyên lý mã hoá Hybrid DCT/DPCM

1.4.2 Lấy mẫu thông tin về màu

Lấy mẫu với tần số lấy mẫu thấp hơn là để giảm kích thước của Video

đầu vào và như thế sẽ giảm số lượng các điểm trước khi mã hoá

Lấy mẫu màu nghĩa là lấy mẫu màu ở tần số thấp hơn tần số lấy mẫu theo lý thuyết Nyquist hoặc Shannon

Mắt người nhạy cảm nhất với độ phân giải thành phần độ chói của ảnh và ít nhạy cảm với thông tin về màu Lấy mẫu là một phương pháp giảm dữ

Trang 24

liệu rất có hiệu quả, nhưng sự tổn thất độ phân giải ảnh và các thành phần chồng phổ sẽ làm giảm chất lượng nội dung ảnh gốc Vì lý do này, nên không dùng lấy mẫu thấp cho tín hiệu chói Cấu trúc lấy mẫu thường dùng là 4: 2: 2 và 4: 2: 0 MPEG dùng cấu trúc 4: 2: 0

1.4.3 Lượng tử hoá

Lượng tử hoá được thực hiện bằng cách chia mỗi hệ số DCT cho các giá trị kích thước bước lượng tử tương ứng trong bảng lượng tử, sau đó làm tròn về số nguyên gần nhất

( , )( , )

( , )

S u vS u v

Giải lượng tử hoá được thực hiện bởi:

Trang 25

1.4.5 Dự đoán bù chuyển động

1.4.5.1 Đánh giá chuyển động (motion estimation)

Đánh giá chuyển động là quá trình đánh giá xấp xỉ các điểm của frame hiện tại từ frame tham chiếu

Đánh giá chuyển động phải xác định các véctơ chuyển động, và được thực hiện tại bộ mã hoá với nhiều sự tính toán phức tạp Có nhiều chiến lược tìm kiếm để xác định véctơ chuyển động Với mỗi chiến lược tìm kiếm, bộ mã

hoá cố gắng đối sánh các điểm trong một Macroblock với các điểm trong ảnh

được mã hoá trước hoặc sau đó (theo thứ tự hiển thị) Khi quá trình tìm kiếm

kết thúc, sẽ tạo ra véctơ chuyển động (motion véctơ) thích hợp nhất (xem hình

1.13)

Hình 1.13 Xác định vectơ chuyển động mv (motion vector)

1.4.5.2 Bù chuyển động (Motion Compensation)

Trong thực tế thì không phải khối tương thích lúc nào cũng giữ nguyên trạng thái cân bằng sau khi dịch chuyển mà trong quá trình dịch chuyển nó bị

Trang 26

quay đi một góc nào đó Với góc quay như vậy sẽ làm cho ảnh sau khi xây dựng lại sẽ bị lệch đi một góc nào đó (lệch hình) Để khắc phục tình trạng đó người ta đưa vào khái niệm ảnh lỗi dự đoán ảnh sai số dự đoán là phần khác nhau nhỏ nhất giữa ảnh hiện tại được truyền và ảnh dự đoán tốt nhất có thể đạt được ảnh đó được xác định bằng cách lấy ảnh hiện tại trừ đi đi ảnh sau khi dự đoán Quá trình xây dựng lại ảnh được thực hiện bằng cách lấy ảnh dự đoán thông qua véctơ chuyển động cộng với sai số dự đoán Khi mã hoá thay vì phải mã hoá toàn bộ ảnh người ta chỉ cần mã hoá véctơ chuyển động và ảnh sai số dự đoán ảnh sai số dự đoán có kích cỡ nhỏ hơn rất nhiều so với toàn bộ ảnh vì phần ảnh giống nhau sẽ bị triệt tiêu (có giá trị bằng 0) khi xác định ảnh sai số dự đoán, do đó việc mã hoá sẽ đòi hỏi ít byte hơn

Quá trình khôi phục một ảnh bằng cách dùng các phần ảnh từ ảnh trước

cùng với thông tin về chuyển động (véctơ chuyển động) như ở trên gọi là bù

chuyển động (Motion Compensation)

Trong nhóm ảnh trên (hình 1.11), ảnh I1 được giải mã mà không cần xét đến véctơ chuyển động, nhưng ảnh P4 được giải mã phải sử dụng véctơ chuyển động từ ảnh I1 Bù chuyển động này gọi là bù chuyển động thuận vì xuôi theo trình tự thời gian Các ảnh P luôn dùng bù chuyển động thuận từ ảnh I hoặc P được truyền trước đó Các ảnh B được giải mã sử dụng bù chuyển động từ ảnh I hoặc ảnh P trước hoặc sau đó (theo thứ tự hiển thị)

Dự đoán được gọi là thuận nếu ảnh tham chiếu (ảnh I hoặc ảnh P) là ảnh trước ảnh đang xét; và được gọi là ngược nếu ảnh tham chiếu là ảnh sau đang xét (theo thứ tự hiển thị)

Ví dụ trong hình 1.11 ảnh B2 dùng bù chuyển động thuận từ ảnh I1 và bù chuyển động ngược từ ảnh P4 .Do đó, ảnh B2 dùng bù chuyển động hai chiều và kết quả lấy trung bình, nên được gọi là bù chuyển động nội suy

Bù chuyển động được thực hiện tại bộ mã hoá và giải mã

Trang 27

Quá trình khôi phục frame (với loại frame inter) sử dụng bù chuyển

động gồm hai bước:

+ Cộng véctơ chuyển động vào frame tham chiếu

+ Cộng sai số dự đoán và kết quả trên

Hình 1.14 minh hoạ quá trình khôi phục frame

Giữa những điểm kế tiếp nhau có liên quan lẫn nhau dẫn đến sự dư thừa Mã dự đoán được dùng để loại bỏ sự dư thừa đó Dựa trên quá trình tạo các điểm tuần tự và luật dự đoán, mỗi giá trị của điểm có thể được dự đoán để thay thế điểm hiện tại Phần chênh lệch giữa điểm dự đoán và điểm hiện tại được mã hoá Thành công trong mã hoá ít bit hơn so với mã hoá trực tiếp điểm hiện tại

Mã hoá dự đoán đóng vai trò quan trọng trong các chuẩn nén ảnh như JPEG và MPEG để có hiệu suất nén và đơn giản hơn

Hình 1.14 Minh hoạ quá trình khôi phục frame

1.4.6 Biến đổi Cosine rời rạc

Tương tự như biến đổi DCT

Trang 28

1.4.7 Mã VLC

Mã hoá VLC là phương pháp mã hoá thống kê, gán các từ mã cho các giá trị được mã hoá Các giá trị có tần số xuất xuất hiện cao được gán từ mã ngắn, các từ mã có tần xuất xuất hiện thấp được gán từ mã dài hơn sao cho xâu biểu diễn mã ngắn hơn so với dữ liệu gốc Với cách gán trên, mã hoá được gọi là mã hoá có độ dài thay đổi nhằm tối ưu việc mã hoá với số lượng bit ít nhất

1.5 Quá trình nén Video theo chuẩn MPEG-1

Kỹ thuật nén Video theo chuẩn MPEG -1 chủ yếu ứng dụng cho việc lưu trữ trên CD-ROM và truyền trên mạng Đầu vào Video theo chuẩn bao gồm một định dạng ảnh Video liên tục (non-interlaced)

1.5.1 Tham số đặc trưng

Tham số đặc trưng đề cập đến ở đây là định dạng ảnh đầu vào và cấu trúc lấy mẫu Định dạng đầu vào là: 720 điểm mỗi dòng, 576 dòng mỗi ảnh và 30 ảnh mỗi giây

Tỉ lệ bit lớn nhất là 1.86 Mbit/s

Cấu trúc lấy mẫu là 4: 2: 0

Trang 29

1.5.2 Quá trình m∙ hoá

Hình 1.15 Sơ đồ khối bộ mã hoá video theo chuẩn MPEG-1

Quy trình hoạt động của bộ đánh giá xấp xỉ chuyển động và bù chuyển động theo chuẩn MPEG-1 gồm:

1.5.2.1 Bộ đánh giá chuyển động

• Thao tác cho từng khối tại mỗi thời điểm • Với mỗi khối của frame hiện tại:

Tìm kiếm khối giống nhất trong frame trước

• Tính toán vectơ chuyển động từ khối giống nhất đó

Xác định sai lệch giữa khối thuộc frame hiện tại và khối thuộc frame

trước đó

• Mã hóa véctơ chuyển động • Mã hoá khối sai lệch

• Phép tìm kiếm thực hiện trên một vùng giới hạn, gọi là vùng tìm kiếm

Trang 30

1.5.2.2 Bộ bù chuyển động

Bộ mã hoá dùng véctơ chuyển động và frame tham chiếu để tạo ra

frame dự đoán bù chuyển động của frame hiện tại

Mỗi khối của frame hiện tại (tức mỗi Macroblock 16x16 điểm) được dự

đoán dựa vào thông tin về chuyển động (tức vectơ chuyển động) và

frame tham chiếu

• Khối hiện tại trừ đi khối dự đoán để tạo ra khối sai lệch bù chuyển động

• Khối sai lệch này được biến đổi DCT, lượng tử hoá và mã hoá

• Sau khi mã hoá, khối sai lệch này cùng với véctơ chuyển động được truyền đi

1.5.2.3 Quá trình mã hoá

Một bản sao khôi phục từ frame đã mã hoá được lưu trữ trong vùng đệm

frame (frame store), để frame này được dùng như frame tham chiếu cho

đánh giá chuyển động Thứ tự lưu trữ trong FS của bộ mã hoá phải đồng nhất với thứ tự này trong bộ giải mã

• Bộ đánh giá chuyển động tính toán véctơ chuyển động cho mỗi khối

bằng cách đối sánh frame đầu vào hiện tại với frame tham chiếu gần

Trang 31

• Đồng thời, các hệ số lượng tử hoá được lượng tử hoá ngược, biến đổi

ngược, và cùng với frame dự đoán bù chuyển động để tạo ra frame tham

chiếu mới

Cách hoạt động của bộ mã hoá phụ thuộc vào từng loại frame

Frame I được xử lý theo cách thức tương tự như phương pháp nén ảnh

tĩnh theo chuẩn JPEG Frame I được lưu trữ trong bộ đệm frame để làm

frame tham chiếu dùng cho đánh giá chuyển động và tạo ra các frame P

và B

Frame P không được mã hoá trực tiếp như frame I, mà mã hoá frame

sai lệch giữa frame P hiện tại và frame dự đoán (thuận) của nó Frame dự đoán được tạo ra nhờ sử dụng véctơ chuyển động và frame I, hoặc P

được tham chiếu gần nhất

Tương tự như frame P, frame B không được mã hoá trực tiếp mà mã hoá

frame sai lệch giữa frame B hiện tại và frame dự đoán (hai chiều) của

nó Frame dự đoán được tạo ra nhờ sử dụng véctơ chuyển động hai chiều và cặp frame I và P, hoặc P và P, hoặc P và I được tham chiếu gần

nhất

Quá trình mã hoá frame I:

Trang 32

Hình 1.16 Quá trình mã hoá frame I

Quá trình mã hoá frame sai lệch:

Hình 1.17 Quá trình bù chuyển động và mã hoá frame sai lệch

Tốc độ bit của tín hiệu Video đ−ợc nén không cố định, phụ thuộc vào

nội dung ảnh đang xét Ng−ợc lại, tại đầu ra bộ mã hoá, dòng bit phải cố định

Trang 33

để xác định tốc độ cho dung lượng kênh truyền Do đó, trước khi truyền đi, tại đầu ra bộ mã hoá phải có bộ nhớ đệm đủ lớn Bộ mã hoá phải kiểm tra trạng

thái đầy (overflow) của bộ nhớ đệm Khi số liệu trong bộ nhớ đệm gần bằng

dung lượng cực đại, thì các hệ số biến đổi DCT được lượng tử hoá ít chính xác hơn Trong trường hợp ngược lại, có nghĩa là bộ đệm chứa số liệu quá ít

(underflow), thì độ chính xác của việc lượng tử hoá các hệ số sẽ tăng lên Bộ

nhớ đệm được thiết kế theo kiểu FIFO (First In First Out) và có kích thước

khai báo trong dòng dữ liệu ra để giải mã

1.5.3.Quá trình giải m∙

Sơ đồ giải mã:

Hình 1.18 Sơ đồ khỗi bộ giải mã video MPEG-1

Giải mã là phép biến đổi ngược của mã hoá, nhưng đơn giản hơn do không cần thực hiện đánh giá chuyển động, và cũng ít lựa chọn hơn

Bộ giải mã thực hiện như sau:

Trang 34

- Khôi phục frame hiện tại bằng cách cộng frame sai lệch với frame bù

chuyển động

- Frame hiện tại lại được lưu trữ trong vùng đệm frame để xây dựng

frame tham chiếu mới

Trước khi các cảnh được trình diễn, chúng cần phải được sắp xếp lại theo thứ tự trình diễn tự nhiên của nó Sau khi sắp xếp, các ảnh được trình diễn theo phương pháp mà mỗi ứng dụng lựa chọn

Hình 1.19 Sắp xếp thứ tự hiển thị

Chú ý: Bộ mã hoá và bộ giải mã phải sử dụng thứ tự frame tham chiếu

giống nhau trong vùng đệm frame để tránh trường hợp bị lệch hình (drift), do các frame tham chiếu bị sai trật tự trong bù chuyển động

Hình 1.18 và 1.15 là sơ đồ khối đơn giản (không xét trường hợp mã hoá

và giải mã frame B) Trong trường hợp đối với frame B, cần có 2 vùng đệm

frame và 2 mạch xác định véctơ chuyển động và bù chuyển động

1.6 Quá trình nén Video theo chuẩn MPEG-2

Kỹ thuật nén Video theo chuẩn MPEG-2 là siêu tập hợp (superset) các

kỹ thuật của chuẩn 1 và nó được thiết kế trên cơ sở kế thừa

MPEG-1.Rất nhiều giải thuật mã hoá Video đã được tích hợp và một cú pháp đơn

nhằm thoả mãn yêu cầu của các ứng dụng

Trang 35

Điểm đặc trưng mới của phương pháp nén Video theo chuẩn MPEG-2 là mã hoá được Video xen kẽ (interlaced Video) Hơn nữa những mở rộng của mã hoá Video scalable đã được thực hiện để cung cấp thêm các chức năng như là mã hoá nhúng của TV và HDTV số, và sự giảm chất lượng ít (graceful

degradation) khi xuất hiện các lỗi truyền dẫn

Tuy nhiên trên thực tế không thể thực hiện được cú pháp đầy đủ cho

hầu hết các ứng dụng MPEG-2 đưa ra hai khái niệm “Profiles” và “Level” qui

định sự phù hợp giữa thiết bị không hỗ trợ khả năng thực hiện đầy đủ Các

Profile và Level cung cấp một phương tiện cho việc định nghĩa các tập con cú

pháp và như vậy bộ giải mã có khả năng giải mã một luồng bit cá biệt Khái niệm này được minh hoạ bằng bảng 1.1 và 1.2

Theo nguyên tắc chung, mỗi Profile định nghĩa một tập mới các giải thuật được thêm như là một siêu tập hợp vào các giải thuật trong Profile ở dưới Một Level xác định dải các tham số được cung cấp khi thực hiện như kích thước ảnh, tốc độ frame và tốc độ bit Nòng cốt hạt nhân của MPEG-2 tại MAIN Profile mô tả những nét nổi bật mã hoá Non-scalable của cả nguồn ảnh Video liên tục (progressive) và xen kẽ (interlaced) Người ta mong đợi rằng hầu hết các thực hiện MPEG-2 sẽ phù hợp với MAIN Profile tại MAIN

Level MAIN Profile cung cấp khả năng mã hoá Non-scalable cho ảnh Video

số với các tham số gần giống TV đó là mật độ lấy mẫu cực đại là 720 mẫu với

mỗi dòng và 576 dòng cho mỗi frame, tốc độ frame cực đại là 30 frame mỗi giây và tốc độ bit tối đa là 15 Mbit/s

Trang 36

Profile Thuật toán

HIGH

Hỗ trợ tất cả các tính năng đ−ợc cung cấp bởi Spatial

Scalable Profile cộng với sự cung cấp các hỗ trợ sau:

• 3 lớp với các chế độ mã hoá SNR và Spatial

scalable

• Biểu diễn YUV với cấu trúc 4: 2: 2 cho cải thiện các yêu cầu chất l−ợng

SPATIAL Scalable

Hỗ trợ tất cả các tính năng cung cấp bởi SNR Scalable

Profile cộng với một thuật toán cho:

Mã hoá Spatial Profile (cho phép 2 lớp)

• Biểu diễn YUV với cấu trúc 4: 0: 0

Hỗ trợ tất cả các tính năng cung cấp bởi MAIN Profile

cộng với một thuật toán cho:

Mã hoá SNR Scalable (cho phép 2 lớp)

• Biểu diễn YUV với cấu trúc 4: 2: 0

MAIN

Thuật toán mã hoá Non-scalable hỗ trợ các tính năng cho:

Mã hoá ảnh Video xen kẽ

Truy cập ngẫu nhiên

Trang 37

Level C¸c tham sè

HIGH

• 1920 mÉu/dßng • 1152 dßng/frame

60 frames/gi©y

80 Mbit/s/

HIGH 1440

• 1440 mÉu/dßng • 1152 dßng/frame

60 frames/gi©y

60 Mbit/s

MAIN

• 720 mÉu/dßng • 576 dßng/frame

30 frames/gi©y

15 Mbit/s

LOW

• 352 mÉu/dßng • 288 dßng/frame

Trang 38

cho mỗi frame và 30 frame (ảnh) mỗi giây cho Main Profile và Main Level Tỉ lệ bit lớn nhất là 15 Mbit/s Cấu trúc lấy mẫu là 4: 2: 2

1.6.2 Mô hình m∙ hoá Non-scalable theo MPEG-2

Đối với MAIN Profile: Nguyên tắc mã hoá ở đây là sự mở rộng trực tiếp của nguyên lý mã hoá trong MPEG-1 để điều chỉnh mã hoá Video xen kẽ,

trong khi vẫn duy trì phạm vi đầy đủ của các chức năng cung cấp bởi 1

MPEG-Cũng giống như chuẩn MPEG-1, thuật toán mã hoá MPEG-2 dựa trên nguyên lý mã hoá Hybrid DCT/DPCM như hình 1.12

Đối với SIMPLE Profile: Nguyên lý mã hoá cũng tương tự như MAIN

Profile, nhưng nó không sử dụng các mô hình dự đoán cho frame B ở bộ mã

hoá Như vậy, độ phức tạp khi thực hiện và khối lưu trữ các frame tham chiếu

cho việc giải mã ảnh B không cần cho bộ giải mã của chuẩn MPEG-2 (chỉ đối

vơi SIMPLE Profile)

Để thoả mãn cho việc mã hoá cả Video liên tục và xen kẽ, MPEG-2 đưa vào khái niệm frame picture và field picture tương ứng với hai chế độ dự đoán là frame prediction và field prediction để điều tiết mã hoá ảnh Video liên tục và xen kẽ Đối với chuỗi xen kẽ (interlaced sequence), một frame gồm hai trường: một trường chẵn (even field-bottom field) và một trường lẻ (odd field-

top field) Cả hai trường này có thể được mã hoá độc lập Khi đó một trường

được chia thành các Macroblock và áp dụng mã hoá như một frame trong

MPEG-1 Hai trường cũng có thể được mã hoá đồng thời, khi đó việc mã hoá

trở thành mã hoá truyền thống của chuỗi Video liên tiếp

Trang 39

Hình 1.20 Khái niệm frame picture, field picture và dự đoán trường

(field prediction)

Các nguyên lý dự đoán trường bù chuyển động (motion compensated

field prediction) để dự đoán chuyển động của field picture tương ứng (xem

hình 1.20) Trong field prediction, dự đoán được tạo ra một cách độc lập cho mỗi trường dựa trên một hoặc nhiều trường tham chiếu Trong đó trường top được dự đoán từ trường top trước đó hoặc từ một trường bottom trước đó thuộc cùng một ảnh Trong một field picture tất cả các dự đoán là dự đoán trường (field prediction) Dự đoán frame có thể sử dụng như trong MPEG-1 hoặc có thể sử dụng như hai dự đoán field kết hợp Như vậy trong frame picture có thể sử dụng dự đoán frame hoặc field

1.6.3 Mô hình m∙ hoá scalable theo MPEG-2

Mục đích của mã hoá scalable là cung cấp sự thao tác giữa các dịch vụ

khác nhau và hỗ trợ các dịch vụ một cách linh hoạt với các khả năng biểu diễn khác nhau

Các bộ thu nhận hoặc không có khả năng hoặc sẵn sàng xây dựng lại

Video với độ phân giải đầy đủ có thể giải mã các tập con của dòng bit đã phân

lớp để biểu diễn Video trong độ phân giải không gian hoặc thời gian thấp hơn

hoặc với chất lượng thấp hơn

Trang 40

Một ứng dụng quan trọng cho mã hoá scalable gồm có việc liệt kê cơ sở dữ liệu Video và biểu diễn lại đa phân giải của Video trong các môi trường đa phương tiện Chuẩn MPEG-2 chuẩn hoá 3 nguyên lý mã hoá scalable là: SNR

scalability, Spatial scalability và temporal scalability Mỗi nguyên lý có một

chức năng riêng nhằm hỗ trợ cho các ứng dụng có yêu cầu riêng biệt Có thể

kết hợp các công cụ scalability khác nhau thành một sơ đồ mã hoá hybrid, có

nghĩa là sự tương tác giữa các dịch vụ kể cả độ phân giải không gian và tỉ lệ

frame khác nhau có thể được hỗ trợ bằng cách kết hợp Spatial scalability và

Temporal scalability Ngoài ra sự tương tác giữa các dịch vụ HDTV và SDTV

có thể được cung cấp kèm theo khả năng hiệu chỉnh các lỗi kênh truyền bằng

cách kết hợp sự mở rộng Spatial scalability với công cụ SNR scalability

Spatial scalability:

u Được phát triển để hỗ trợ hiển thị các độ phân giải khác nhau tại bộ thu

nhận Nghĩa là ảnh Video có độ phân giải không gian thấp có thể được khôi

phục từ lớp cơ sở Tính năng này rất hữu hiệu cho rất nhiều ứng dụng bao gồm mã hoá nhúng cho các hệ thống HDTV/TV, cho phép chuyển các dịch vụ TV số đến các dịch vụ HDTV với độ phân giải không gian cao hơn u Thuật toán dựa trên phương pháp tiếp cận hình chóp truyền thống cho mã

hoá ảnh liên tục

u Có khả năng hỗ trợ một cách linh hoạt cho một phạm vi rộng độ phân giải

nhưng khi đó độ phức tạp tính toán trong MAIN Profile cũng sẽ tăng SNR scalability:

u Công cụ này được phát triển để cung cấp sự suy giảm chất lượng uyển

chuyển (graceful degradation) của chất lượng Video trong môi trường

truyền ưu tiên

Ngày đăng: 20/11/2012, 11:33