Nén ảnh động dùng wavelet
Trang 2Trang
Lời nói đầu 4
Chương 1 TổNG QUAN Về NéN ảNH Video THEO CHUẩN MPEG 6
1.1 Khái niệm về Video và phương pháp nén Video 5
1.1.1 Khái niệm Video 5
1.1.1.1 Không gian mầu (Color Space) 5
1.1.1.2 Các cơ cấu số hoá tín hiệu Video 6
1.1.2 Các phương pháp nén Video 8
1.1.2.1 Giảm tốc độ dòng bit 9
1.1.2.2 Nén dòng tín hiệu Video số theo không gian 10
1.1.2.3 Nén dòng tín hiệu theo thời gian 11
1.1.2.4 Nén hỗn hợp sử dụng tổ hợp các phương pháp trên 11
1.1.3 Tham số nén Video 11
1.2 Giới thiệu chung về chuẩn MPEG 12
1.3 Các khái niệm cơ bản trong nén Video theo chuẩn MPEG 14
1.3.1 Cấu trúc phân cấp Video theo chuẩn MPEG 14
1.3.2 Phân loại frame Video 17
1.3.3 Nhóm ảnh (GOP: Group Of Picture) 19
1.4 Phương pháp nén ảnh Video theo chuẩn MPEG 21
1.4.1 Mô hình tổng quát bộ mã hoá Video theo chuẩn MPEG 21
1.4.2 Lấy mẫu thông tin về màu 22
1.4.3 Lượng tử hoá 23
1.4.4 Nội suy ảnh 23
1.4.5 Dự đoán bù chuyển động 24
1.4.5.1 Đánh giá chuyển động (motion estimation) 24
1.4.5.2 Bù chuyển động (Motion Compensation) 24
1.4.6 Biến đổi Cosine rời rạc 26
Trang 3Chương 2 M∙ hoá SCALABLE VIDEO 42
2.1 Băng lọc 1/2 pixel biến đổi ngược theo thời gian - tính toán bù chuyển động 42
2.2.1.2 Embedded Coding and Fine Granularity Scalability 66
2.2.1.3 Mã hoá sử dụng băng con 3 chiều và mã hoá Wavelet 69
Trang 43.3 Kết quả thực nghiệm 104
3.4 Tóm tắt và kết luận 106
Chương 4: Chương trình thử nghiệm và đánh giá kết quả 111
2 Hướng phát triển cho tương lai 119
TàI LIệU THAM KHảO 120
PHụ LụC 122
THUậT NGữ tiếng anh 122
Trang 5đề truyền dữ liệu trên mạng đặc biệt là truyền ảnh và âm thanh được quan tâm Do đó việc nén dữ liệu đặc biệt dữ liệu phim ảnh là cần thiết hơn bao giờ hết Trong phạm vi luận văn này tôi tập trung vào việc nén dữ liệu video
Đối với nén ảnh động, chuẩn MPEG(Moving Photographic Experts Group) đã được xác lập bởi ISO và IEC Đây là một kỹ thuật nén ảnh động đã mang lại nhiều thành công Nó có thể đạt tỷ lệ nén khá cao 10:1 mà mắt thường khó phân biệt được Tuy nhiên đây vẫn chưa phải là tỷ lệ cao tối ưu
Sự ra đời của Wavelet đã mở ra một công nghệ mới Đó là chuẩn MJPEG2000 Sự ra đời của MJPEG2000 mở ra một tương lai mới cho kỹ thuật nén ảnh với những tính năng cao Kỹ thuật Wavelet cũng được nghiên cứu trong nhiều phần mềm như Matlap
Mục đích của luận văn này nhằm nghiên cứu một số phương pháp nén ảnh động đang được quan tâm Luận văn này được trình bày thành bốn chương và một phụ lục Chương Một làtổng quan về nén ảnh động Chương này giới thiệu một số chuẩn nén ảnh động là MPEG1,MPEG2,MPEG4 và MPEG7 Đồng thời cũng trình bày cấu trúc của video Chương Hai trình bày phương pháp nén Scalable video Chương này đề cập đến thuật toán LZC và 3D-SPIHT Chương Ba đi sâu vào nghiên cứu đối tượng mã hoá của video dựa trên biến đổi Wavelet Chương Bốn nêu khái quát cách thiết kế và cài đặt chương trình Chương này mang tính chất minh hoạ cho những gì đã được trình bày ở các chương trước Phần phụ lục nêu một số chương trình nguồn thông dụng viết trên Visual C + + 6 0
Do thời gian có hạn nên tôi chỉ mới nghiên cứu được phần nào trong kỹ thuật nén ảnh động do vậy chắc chắn không tránh khỏi thiếu sót Cuối cùng tôi xin chân thành cảm ơn sự giúp đỡ nhiệt tình và hiệu quả của PGS TS Hồ Anh Tuý đã giúp đỡ tôi hoàn thành luận văn này
Hà nội ngày 20/10/2005
Trang 6Chương 1
TổNG QUAN Về NéN ảNH Video THEO CHUẩN MPEG
1.1 Khái niệm về Video và phương pháp nén Video
1.1.1 Khái niệm Video
Video là sự biểu diễn điện tử của một chuỗi các ảnh liên tiếp Những
ảnh này là những ảnh tĩnh và được gọi là các frame Chuỗi các frame xuất
hiện với tốc độ rất nhanh sẽ cho ta cảm giác chuyển động liên tục (tối thiểu là
25frame/giây) Mặc dù mỗi frame có sự khác nhau, cần thiết phải có tốc độ
frame cao để đạt được cảm giác chuyển động thực sự Tốc độ frame và độ
phân giải của mỗi frame là các nhân tố quan trọng ảnh hưởng trực tiếp đến chất lượng Video Trong truyền hình, độ phân giải của truyền hình là 720x576 và tốc độ frame là 25 hoặc 30 Hz
1.1.1.1 Không gian mầu (Color Space)
Dựa theo lý thuyết về ảnh màu, cảm thụ về màu của mắt trên cơ sở 3
màu cơ bản: màu đỏ (Red), màu lục (Green) và màu lam (Blue)
Trong hệ màu RGB, các màu có thể được mô tả là các điểm bên trong hình lập phương đơn vị, với gốc toạ độ (0, 0, 0) là màu đen; 3 thành phần R
(đỏ), G (lục), B (lam) biểu diễn cho 3 trục
Một hệ thống biểu diễn màu khác được sử dụng chính trong lĩnh vực truyền hình nhằm giúp việc số hóa được thuận lợi hơn là hệ màu YUV, miêu
tả mỗi ảnh trong Video gồm các thành phần độ chói (Y) và sắc màu (UV) Hệ
màu này nhằm đạt được hiệu suất truyền cao hơn, và giữ nguyên tính tương
thích với hệ số truyền hình màu đen trắng Thành phần chói (luminance) cung
cấp giá trị mức xám của ảnh, hai thành phần còn lại mang thông tin về màu
sắc (chrominance) để chuyển đổi từ ảnh xám sang ảnh màu
Trang 7Chuyển đổi RGB sang YUV đ−ợc thực hiện theo chuẩn CCIR 601 nh− sau:
Y = 0.299R + 0.587G + 0.114B U = 0.493 (B - Y)
Do đó, màu CB, CR luôn nằm trong khoảng [0, 1]
Với −u điểm trên hệ YCBCR đ−ợc áp dụng rộng rãi trong việc số hoá
Video
1.1.1.2 Các cơ cấu số hoá tín hiệu Video
Hình 1.1 Cấu trúc lấy mẫu
Trang 8Trong truyền hình, các frame trong chuỗi Video có độ phân giải là 720 x 576 điểm và có tốc độ frame là 25 hoặc 30Hz Mỗi ảnh trong chuỗi Video
được lấy số hoá như hình 1.1 Cấu trúc 4: 2: 2
Giả sử một dòng ngang của TV gồm 720 điểm ảnh
Hình 1.2 Cấu trúc lấy mẫu 4: 2: 2
Việc lấy mẫu sẽ tuần tự diễn ra như sau:
- Điểm đầu lấy mẫu tín hiệu chói (Y) và lấy mẫu 2 màu (CB, CR) - Điểm tiếp theo chỉ lấy mẫu tín hiệu chói (Y) và không lấy mẫu 2 tín
hiệu Khi giải mã, màu suy ra từ điểm ảnh trước
Tuần tự như vậy, cứ 4 lần lấy mẫu Y, có 2 lần lấy mẫu CR, 2 lần lấy mẫu CB
Cấu trúc 4: 1: 1
Hình 1.3 Cấu trúc lấy mẫu 4: 1: 1
Điểm ảnh đầu tiên lấy mẫu đủ Y, CR, CB, 3 điểm kế tiếp chỉ lấy mẫu Y, không lấy mẫu tín hiệu màu Khi giải mã, mầu của 3 điểm ảnh phải suy ra từ điểm ảnh đầu Tuần tự như vậy, cứ 4 lần lấy mẫu Y, có 1 lần lấy mẫu CR, 1 lần lấy mẫu CB
Cấu trúc lấy mẫu 4: 2: 0
Trang 9Lấy mẫu tín hiệu Y tại tất cả các điểm ảnh của dòng, còn tín hiệu màu thì cứ 4 Y, có 2 màu CR và CB cách nhau theo từng hàng
Hình 1.4 Cấu trúc lấy mẫu 4: 2: 0
Cấu trúc lấy mẫu 4: 4: 4
Lấy mẫu tín hiệu Y, CR, CB tại tất cả các điểm ảnh của dòng
Hình 1.5 Cấu trúc lấy mẫu 4: 4: 4
1.1.2 Các phương pháp nén Video
Mục tiêu chính của việc nén tín hiệu Video là biểu diễn một nguồn tín hiệu Video bằng một số bit ít nhất có thể được mà vẫn đảm bảo yêu cầu chất lượng cảm thụ Với tín hiệu Video, giới hạn dải thông của tín hiệu tương tự khoảng 6MHz, trong khi tín hiệu Video số hoá theo tiểu chuẩn CCIR 601 với tốc độ bit là 270Mbit/s chiếm dải thông không dưới 189MHz, tức là lớn hơn
31,5 lần so với dải thông của tín hiệu tương tự Chính vì vậy, giảm dải thông là
vấn đề quan trọng với công nghệ Video số
Về cơ bản giảm dải thông được thực hiện bằng 4 cách:
- Giảm tốc độ dòng bit (bit Rate Reduction - BRR)
Trang 10- Nén dòng tín hiệu Video số theo không gian, tức giảm độ dư thừa trong một số frame (spatial redundancy)
- Nén dòng tín hiệu theo thời gian, tức giảm độ dư thừa theo thời
gian (temporal redundancy)
- Nén hỗn hợp sử dụng tổ hợp các phương pháp trên
1.1.2.1 Giảm tốc độ dòng bit
Có hai phương pháp giảm tốc độ dòng bit
Cách thứ nhất dựa trên đặc điểm sinh lý của mắt người Mắt người không nhạy cảm với các tín hiệu màu nên trong phương pháp này, người ta giảm bớt độ phân giải các tín hiệu màu
Cách thứ hai dựa trên ý nghĩa của các bit lượng tử hoá các điểm ảnh Với 8 bit lượng tử hoá, các bit của byte này được chia làm hai nhóm: nhóm có
ý nghĩa hơn (MMB-More Meaning Bit) và nhóm ít ý nghĩa hơn (LMB-Less Meaning Bit) Việc ta cắt giảm các bit của nhóm LMB sẽ không ảnh hưởng
nhiều tới chất lượng của ảnh Tuy nhiên, phương pháp này không được chấp nhận trong các giải pháp giảm dải thông hiện tại, nên cũng sẽ không được đề cập đến
Phần lớn các định dạng số thành phần hiện nay đều sử dụng tần số lấy
mẫu 13.5MHz đối với tín hiệu chói Theo chuẩn CCIR 601, nếu 2 tín hiệu màu
được lấy màu được lấy mẫu với tần số như tín hiệu chói, chúng ta sẽ có định dạng 4: 4: 4.Định dạng này được sử dụng trong các thiết bị dựng phim phi tuyến và trong đồ hoạ vi tính liên quan đến phim nhựa Tốc độ bit của định dạng này cho hệ PAL là:
Với lượng tử hoá 8 bit: (720 + 720 +720) x 576 x 8 x 25 = 249 Mbit/s
Với lượng tử hóa 10 bit: (720 + 720 +720) x 576 x 10 x 25 = 311
Mbit/s
Trong đó: 720 x 576 là độ phân giải màn hình (576 là số dòng /frame) 25 là tốc độ chuyển ảnh (25 frames/s)
Trang 11Hiện nay, các thiết bị sử dụng kỹ thuật số ở thị trường thiết bị Video
chuyên dụng thường sử dụng chuẩn CCIR 601 4: 2: 2 Theo định dạng số hoá
này, tín hiệu Video thành phần được lấy mẫu với tần số 13.5 MHz đối với tín hiệu chói, và 6,75 MHz đối với hai tín hiệu màu
Tốc độ dòng dữ liệu của định dạng này được tính như sau:
Khi lấy mẫu 8 bit: (720 +360 +360) x 576 x 8 x 25 = 166 Mbit/s 10 bit: (720 +360 +360) x 576 x 10 x 25 = 207 Mbit/s
Như vậy, so với phương pháp lẫy mẫu không cắt giảm (4: 4: 4), phương pháp này cho phép cắt giảm được 33% tốc độ dòng bit
Với định dạng 4: 1: 1 và 4: 2: 0, tốc độ dòng bit còn được cắt giảm nhiều hơn Với 8 bit lấy mẫu, tốc độ dòng bit tính cho PAL là:
(720 +180 +180) x 576 x 8 x 25 = 124.4 Mbit/s
tức là giảm được 50% so với nguyên mẫu 4: 4: 4
1.1.2.2 Nén dòng tín hiệu Video số theo không gian
Gần như tất cả các ảnh đều chứa một số lượng lớn các giá trị dữ liệu thông tin giống nhau Trong các hệ thống không giảm dữ liệu, các dữ liệu
giống nhau này được lặp lại để tạo lại các vùng đều nhau trong một ảnh (ví dụ,
bầu trời xanh), và do đó có thông tin dư thừa trong dòng dữ liệu
Để giảm độ dư thừa trong một frame, ta sử dụng các phương pháp nén
ảnh Các phương pháp nén ảnh có thể chia làm 2 loại:
• Nén không tổn hao (lossless compression): là phương pháp nén mà tín hiệu
gốc đối chiếu với tín hiệu được nén (mã hoá), sau đó giải nén (giải mã) thì không có sự phân biệt
• Nén có tổn hao (lossy compression): là phương pháp nén mà tín hiệu gốc
có sự khác biệt với tín hiệu được khôi phục sau khi nén và giải nén
• Chất lượng hình ảnh của các thiết bị dùng phương pháp nén không tổn hao là rất tốt, có thể so sánh được với chất lượng ảnh không nén Tuy nhiên, tỉ số nén của phương pháp này rất thấp Chính vì vậy, các ưu điểm của việc
Trang 12nén tín hiệu không được phát huy một cách tối đa, giá thành thiết bị vẫn còn rất cao
Để nâng tỉ số nén, phát huy tối đa ưu điểm của việc nén tín hiệu, phương pháp nén có tổn hao được sử dụng trong hầu hết các thiết bị hiện nay Có hai định dạng nén được áp dụng rộng rãi trong các thiết bị truyền hình, nén
Video là JPEG và MPEG, cùng các phiên bản của nó 1.1.2.3 Nén dòng tín hiệu theo thời gian
Các frame trong Video có quan hệ mật thiết với nhau, thậm chí các frame hiện tại chỉ thay đổi chút ít so với các frame trước và sau đó Để giảm
bớt thông tin truyền tải, người ta chỉ truyền những phần thông tin sai lệch và kết hợp với thông tin cũ Có nhiều phương pháp khác nhau để xác định sự thay
đổi giữa các frame, đó là các phương pháp xác định véctơ chuyển động Ngoài
ra còn nhiều phương pháp khác, những giải thuật này có chất lượng cao, nhưng mức độ tính toán phức tạp và còn đang trong giai đoạn nghiên cứu
1.1.2.4 Nén hỗn hợp sử dụng tổ hợp các phương pháp trên
Để đạt được hiệu quả nén cao mà vẫn đảm bảo chất lượng hình ảnh,
người ta sử dụng tổ hợp các phương pháp trên Phương pháp nén Video theo
chuẩn MPEG là một phương pháp nén tổ hợp của các phương pháp trên
1.1.3 Tham số nén Video
Tham số nén Video được đề cập đến ở đây là định dạng ảnh và tỉ số
nén, tỉ số nén cho phép đánh giá hiệu quả của hệ thống nén Khi so sánh tỉ số nén của các hệ thống nén khác nhau, thì định dạng ảnh của các hệ thống nén trên phải giống nhau
Định dạng bao gồm:
• Số dòng/ảnh và số pixel/dòng
Trang 13• Số frame/s
Và cấu trúc lấy mẫu bao gồm: 4: 4: 4, 4: 2: 2, 4: 2: 0, 4: 1: 1, độ phân giải của mẫu là 8/10 bit (hoặc 12 bit)
Tốc độ bit của ảnh gốc (trước khi nén) có thể rút ra từ công thức:
Ví dụ: với tốc độ bit dữ liệu ảnh gốc 166 Mbit/s ở trên áp dụng vào máy
ghi hình đĩa PDR-100 (Tektronix), và giả sử chất lượng nén tương đương 24Mbit/s, thì tỉ số nén là 166/24 = 6.92
1.2 Giới thiệu chung về chuẩn MPEG
Chuẩn MPEG (Moving Picture Expert Group) được xây dựng và phát triển bởi các tổ chức ISO và IEC (International Electrotechnical Commission) với mục đích mã hoá tín hiệu hình ảnh và âm thanh cho DSM (Digital Storage Media), DSS (Digital Satellite System), HDTV (High Definition Television),
VideoConferencing, Internet Video, và các ứng dụng Video số Chuẩn MPEG
ngày càng được sử dụng rộng rãi trong nhiều ứng dụng lưu trữ, truyền thông đa phương tiện, và được biết đến với các chuẩn MPEG-1, MPEG-2, MPEG-4, MPEG-7
• MPEG-1 (~1992): mã ISO/IEC 11172, là chuẩn đầu tiên của MPEG nhằm
mục đích nén Video có kích thước khuôn hình 320x240 cho dòng dữ liệu có tốc độ từ 1 đến 1.5 Mb/s trong các ứng dụng DSM (như công nghệ ghi
Tốc độ dữ liệu ảnh gốcTỉ số nén =
Tốc độ dữ liệu ảnh nén
Trang 14• MPEG-4 (~1998): mã ISO/IEC 14496, là chuẩn chủ yếu dành cho các ứng dụng đa phương tiện tương tác, phân loại khung cảnh đa phương tiện thành các đối tượng nội dung media, tập trung vào dồn kênh, đồng bộ dữ liệu với các đối tượng media để truyền qua mạng MPEG-4 sử dụng tốc độ bit
(Video) rất thấp: 5ữ64 Kb/s Vai trò nén ít được đề cập trong phiên bản
này
• MPEG-7 (~2001): MPEG-7 là chuẩn mô tả thông tin của rất nhiều loại phương tiện Mô tả này cho khả năng tìm kiếm nhanh và hiệu quả theo yêu cầu người dùng Tuy nhiên, chuẩn MPEG-7 được mô tả về phần nội dung giống như MPEG-4, và được gọi chính thức là “Giao thức mô tả nội dung
đa phương tiện” (Multimedia Content Description Interface) MPEG-7 đặc
trưng cho một tập tiêu chuẩn biểu diễn nhiều loại thông tin multimedia khác nhau MPEG-7 không phải là chuẩn nén
Sơ đồ giới thiệu các chuẩn nén và các công nghệ nén xem hình 1.6:
Hình 1.6 Các chuẩn, các công nghệ nén, truyền thông đa phương tiện
Trang 151.3 Các khái niệm cơ bản trong nén Video theo chuẩn MPEG
1.3.1 Cấu trúc phân cấp Video theo chuẩn MPEG
Cấu trúc dòng bit Video được chia thành phân cấp các lớp (layer) để hỗ trợ quản lý lỗi, truy cập ngẫu nhiên, dựng hình (editting) và đồng bộ với dòng
bit audio
• Block: Là các khối kích thước 8x8 điểm ảnh của tín hiệu chói và màu được
dùng để biến đổi DCT
thông tin) trong ảnh gốc Header của Marcroblock chứa thông tin về các
khối độ chói và độ màu, và thông tin bù chuyển động Có ba loại
Macroblock (phân loại theo phương pháp mã hoá Macroblock):
u Skipped MB: sử dụng dự đoán từ frame giải mã trước đó với véctơ chuyển động bằng 0 Không có thông tin về Macroblock được giải
mã cũng như được truyền đến nơi nhận
u Inter MB: sử dụng dự đoán bù chuyển động từ frame trước đó Do
đó, cần truyền đi kiểu MB, địa chỉ MB, vectơ chuyển động, các hệ số DCT và kích thước bước lượng tử
u Intra MB: không dùng dự đoán từ frame trước đó Nên chỉ cần
truyền kiểu MB, địa chỉ MB, các hệ số DCT và kích thước bước lượng tử đến nơi nhận
• Slice: Slice cung cấp khả năng phòng ngừa sự sai lệch dữ liệu Khi gặp lỗi
trong dòng bit của một ảnh, bộ giải mã có thể khôi phục bằng cách đợi
Slice tiếp theo mà không phải huỷ bỏ toàn bộ ảnh Slice chứa header và một
hoặc nhiều Macroblock liên tiếp Kích thước Slice cực đại có thể là toàn cảnh, kích thước cực tiểu có thể là một Macroblock Header của Slice chứa
thông tin về vị trí của nó trong ảnh và hệ số thang độ của bộ lượng tử hoá
Trang 16• Picture (frame): Một ảnh tương ứng với một frame của Video Có ba kiểu
ảnh chính là: ảnh I, P và B Các ảnh này không độc lập nhau, nên thứ tự dòng bit (tức là thứ tự các cảnh được truyền, lưu trữ và khôi phục) không theo thứ tự hiển thị, mà là thứ tự cho phép bộ giải mã có thể giải mã dòng
bit Lớp ảnh bao gồm phần header và một hoặc nhiều Slice Header chỉ thị sự sắp xếp để truyền frame, cho phép bộ giải mã hiển thị frame đúng theo
bậc, kiểu ảnh và thông tin mã hoá
nhiên (random access point), là đơn vị mã hoá nhỏ nhất mà có thể được
giải mã độc lập, bao gồm phần header và các ảnh Header chứa thông tin
thời gian và dựng hình (editting) Một nhóm ảnh GOP hình thành từ liên kết một hoặc nhiều frame I, và các frame P, và/hoặc frame B Cấu trúc GOP được biểu diễn thông qua hai tham số: n (số frame trong GOP) và m
(khoảng cách dự đoán), thông thường n=15, m = 3 Mỗi GOP bắt đầu bằng
một frame I Thứ tự các ảnh dòng mã là thứ tự mà qua quá trình giải mã
đưa chúng trở lại bình thường Đặc biệt, ảnh B trong dòng giải mã được đưa ngay ra màn hình; ảnh mã cuối cùng của nhóm ảnh (trong thứ tự trình diễn) là ảnh I hoặc P
• Chuỗi Video (Video sequence): Là lớp cao nhất của phân cấp mã hoá
Chuỗi chứa một header, một hoặc nhiều GOP và một mã kết thúc chuỗi Thông tin quan trọng nhất chứa trong header là kích thước theo chiều ngang và đứng của mỗi ảnh, tỉ lệ pixel, tốc độ bit của ảnh trong chuỗi, tốc độ ảnh và các kích thước tối thiểu của bộ nhớ cho bộ giải mã, để khởi
gán trạng thái của bộ giải mã Chuỗi Video và thông tin header tạo thành dòng bit mã hoá, được gọi là dòng sơ cấp Video ES (elementary stream)
Trang 17H×nh 1.7 C¸c líp video theo chuÈn MPEG
H×nh 1.8 CÊu tróc dßng d÷ liÖu MPEG
Trang 181.3.2 Phân loại frame Video
Căn cứ vào đặc tính của Video có sự dư thừa không gian và dư thừa thời
gian để đưa ra hai phương pháp nén giảm độ dư thừa không gian (mã hoá
“intraframe”) và nén giảm độ dư thừa thời gian tương ứng (mã hoá “intrerframe”), và do đó chia các frame Video thành 3 loại là: frame I, frame P, frame B
• Frame I (Intra Coded Picture):
Frame I là frame đầu tiên trong mỗi nhóm ảnh của chuỗi Video, frame này được mã hoá tương tự như mã hoá ảnh tĩnh theo chuẩn JPEG
Các frame I được mã hoá độc lập, không cần tham chiếu đến các frame khác trong chuỗi Video Mã hoá các frame I chỉ làm giảm độ dư thừa không gian và cho một tỉ lệ nén vừa phải Frame I có thể dùng làm
điểm truy cập ngẫu nhiên trong chuỗi cho bộ giải mã, và có thể dùng
như như là frame tham chiếu (reference frame) để dự đoán các frame
khác
• Frame P (Predictive Code Picture):
Qua frame I, bộ mã hoá có thể dự đoán thuận (forward
predection) frame tiếp theo Frame được dự đoán gọi là frame P
(predicted frame), và frame P cũng có thể được dự đoán từ các frame trước đó Như vậy, mỗi frame P được dự đoán từ frame I hoặc P trước
đó Việc mã hoá ảnh P có sử dụng bù chuyển động Thông tin ước lượng chuyển động của các khối nằm trong véctơ chuyển động véctơ
này xác định một Macroblock (MB) nào đó được sử dụng từ ảnh gốc
Frame P cho hệ số nén cao hơn, và có thể sử dụng làm một frame so
sánh, tham chiếu cho việc bù chuyển động cho các frame P và B khác
Trang 19Hình 1.9 Nội suy bù chuyển động
• Frame B (Bidirectionally Predicted 0icture):
Bộ mã hoá cũng có thể sử dụng đồng thời dự đoán thuận và ngược Những
frame này gọi là frame dự đoán nội suy 2 chiều (Bi-directional Interpolated Prediction), hay frame B Không như frame I (được dự đoán
độc lập) và frame P (được dự đoán dựa vào frame I hoặc P trước đó), frame B được dự đoán 2 chiều dựa vào cặp frame I và P, hoặc P và P, hoặc P và I (với frame I của nhóm ảnh tiếp theo) Việc sử dụng thông tin lấy từ ảnh
trong tương lai hoàn toàn có thể thực hiện được vì tại thời điểm mã hoá thì
bộ mã hoá đã sẵn sàng truy cập tới ảnh phía sau Frame B cho tỉ lệ nén cao nhất, và không được dùng làm frame tham chiếu
Theo phương pháp nén này, frame I gọi là frame intra (sử dụng kỹ thuật mã hoá intraframe), frame P và B gọi là các frame Inter (sử dụng kỹ thuật mã hoá interframe)
Trang 20Một thuận lợi khi sử dụng nhiều loại frame là để theo dõi dữ liệu trong quá trình truyền, nếu có frame bị mất (thường là frame P hoặc frame B) thì chất lượng Video cũng không bị ảnh hưởng nhiều
Kích thước các frame được minh hoạ trong hình vẽ sau:
Hình 1.10 Kích thước các loại frame
1.3.3 Nhóm ảnh (GOP: Group Of Picture)
Công nghệ MPEG sử dụng 3 loại ảnh I, P và B, trong đó P, B không phải là một ảnh hoàn chỉnh mà chỉ chứa sự khác biệt giữa ảnh đó và ảnh xuất hiện trước đó (đối với P), hay sự khác biệt đối với cả ảnh xuất hiện trước và sau nó (đối với B) Để có một khuôn hình hoàn chỉnh ảnh P và B cần có dữ liệu từ các ảnh lân cận, chính vì vậy đối với MPEG có một khái niêm là GOP (nhóm ảnh) Mỗi nhóm phải bắt đầu bằng một ảnh hoàn chỉnh I và tiếp theo là một loạt các ảnh B, P Có hai loại nhóm là mở và đóng Nhóm mở bắt đầu bằng một ảnh I và kết thúc bằng một ảnh I, việc dự đoán ảnh phụ thuộc cả vào thông tin của các GOP khác Nhóm đóng có cấu trúc khép kín, việc dự đoán ảnh không phụ thuộc vào thông tin của nhóm khác và ảnh cuối cùng của một nhóm bao giờ cũng là một ảnh P
Trang 21Chuỗi ảnh MPEG thường có cấu trúc IBBPBBPBBI nhưng thứ tự truyền dẫn và thứ tự hiển thị ảnh là khác nhau do khi tạo ảnh B cần thông tin từ cả khung quá khứ và tương lai ảnh tương lai cần phải được truyền dẫn trước, khi
hiển thị phải theo đúng thứ tự nguồn Để thực hiện điều này, lớp ảnh (Picture
layer) của dòng dữ liệu MPEG có thông tin về số thứ tự ảnh để trợ giúp hiển
thị Hình dưới trình bày thứ tự truyền dẫn và thứ tự hiển thị ảnh
Một cấu trúc nhóm ảnh thông thường được mô tả bởi hai tham số: n - số
ảnh trong một nhóm và m - số khoảng cách cho ảnh B Như ví dụ trên n=9 và
m=3
Trang 221.4 Phương pháp nén ảnh Video theo chuẩn MPEG
1.4.1 Mô hình tổng quát bộ mã hoá Video theo chuẩn MPEG
Nén Video số nhằm mục đích loại bỏ dư thừa không gian và dư thừa
thời gian trong chuỗi Video mà không ảnh hưởng đến mức độ cảm thụ của mắt
• Kỹ thuật mã hoá “Inter frame”: nhằm giảm độ dư thừa thời gian giữa các
frame ảnh: Kỹ thuật mã hoá “Inter frame” tính giá trị của một điểm ảnh
riêng biệt bằng cách dự đoán từ các điểm ảnh trong ảnh lân cận Kỹ thuật này xuất phát từ mối tương quan thời gian giữa các điểm ảnh trong các ảnh lân cận Phương pháp để giảm độ dư thừa thời gian là kỹ thuật mã hoá
DPCM dựa trên dự đoán bù chuyển động giữa các frame
• Trong mô hình nén Video theo chuẩn MPEG, để đạt được hiệu quả nén cao
cần kết hợp cả hai kỹ thuật nén ở trên để giảm dư thừa không gian và thời
gian Mô hình nén Video Hybrid DPCM/DCT là sự kết hợp của hai kỹ
thuật trên (xem hình 1.12)
Mô hình Hybrid DPCM/DCT gồm có các kỹ thuật:
• Lấy mẫu (subsampling) thông tin về màu để thích hợp với độ nhậy cảm của
mắt người
Trang 23• Lượng tử hoá (Quantization-Q)
• Nội suy ảnh (picture interpolation)
• Dự đoán bù chuyển động bao gồm: đánh giá chuyển động (motion
estimation) và bù chuyển động (motion compensation-MC)
• Biến đổi Cosine rời rạc (DCT) để khai thác tính dư thừa không gian • Mã hoá chiều dài thày đổi (VLC-Variable length coding)
Hình 1.12 Nguyên lý mã hoá Hybrid DCT/DPCM
1.4.2 Lấy mẫu thông tin về màu
Lấy mẫu với tần số lấy mẫu thấp hơn là để giảm kích thước của Video
đầu vào và như thế sẽ giảm số lượng các điểm trước khi mã hoá
Lấy mẫu màu nghĩa là lấy mẫu màu ở tần số thấp hơn tần số lấy mẫu theo lý thuyết Nyquist hoặc Shannon
Mắt người nhạy cảm nhất với độ phân giải thành phần độ chói của ảnh và ít nhạy cảm với thông tin về màu Lấy mẫu là một phương pháp giảm dữ
Trang 24liệu rất có hiệu quả, nhưng sự tổn thất độ phân giải ảnh và các thành phần chồng phổ sẽ làm giảm chất lượng nội dung ảnh gốc Vì lý do này, nên không dùng lấy mẫu thấp cho tín hiệu chói Cấu trúc lấy mẫu thường dùng là 4: 2: 2 và 4: 2: 0 MPEG dùng cấu trúc 4: 2: 0
1.4.3 Lượng tử hoá
Lượng tử hoá được thực hiện bằng cách chia mỗi hệ số DCT cho các giá trị kích thước bước lượng tử tương ứng trong bảng lượng tử, sau đó làm tròn về số nguyên gần nhất
( , )( , )
( , )
S u vS u v
Giải lượng tử hoá được thực hiện bởi:
Trang 251.4.5 Dự đoán bù chuyển động
1.4.5.1 Đánh giá chuyển động (motion estimation)
Đánh giá chuyển động là quá trình đánh giá xấp xỉ các điểm của frame hiện tại từ frame tham chiếu
Đánh giá chuyển động phải xác định các véctơ chuyển động, và được thực hiện tại bộ mã hoá với nhiều sự tính toán phức tạp Có nhiều chiến lược tìm kiếm để xác định véctơ chuyển động Với mỗi chiến lược tìm kiếm, bộ mã
hoá cố gắng đối sánh các điểm trong một Macroblock với các điểm trong ảnh
được mã hoá trước hoặc sau đó (theo thứ tự hiển thị) Khi quá trình tìm kiếm
kết thúc, sẽ tạo ra véctơ chuyển động (motion véctơ) thích hợp nhất (xem hình
1.13)
Hình 1.13 Xác định vectơ chuyển động mv (motion vector)
1.4.5.2 Bù chuyển động (Motion Compensation)
Trong thực tế thì không phải khối tương thích lúc nào cũng giữ nguyên trạng thái cân bằng sau khi dịch chuyển mà trong quá trình dịch chuyển nó bị
Trang 26quay đi một góc nào đó Với góc quay như vậy sẽ làm cho ảnh sau khi xây dựng lại sẽ bị lệch đi một góc nào đó (lệch hình) Để khắc phục tình trạng đó người ta đưa vào khái niệm ảnh lỗi dự đoán ảnh sai số dự đoán là phần khác nhau nhỏ nhất giữa ảnh hiện tại được truyền và ảnh dự đoán tốt nhất có thể đạt được ảnh đó được xác định bằng cách lấy ảnh hiện tại trừ đi đi ảnh sau khi dự đoán Quá trình xây dựng lại ảnh được thực hiện bằng cách lấy ảnh dự đoán thông qua véctơ chuyển động cộng với sai số dự đoán Khi mã hoá thay vì phải mã hoá toàn bộ ảnh người ta chỉ cần mã hoá véctơ chuyển động và ảnh sai số dự đoán ảnh sai số dự đoán có kích cỡ nhỏ hơn rất nhiều so với toàn bộ ảnh vì phần ảnh giống nhau sẽ bị triệt tiêu (có giá trị bằng 0) khi xác định ảnh sai số dự đoán, do đó việc mã hoá sẽ đòi hỏi ít byte hơn
Quá trình khôi phục một ảnh bằng cách dùng các phần ảnh từ ảnh trước
cùng với thông tin về chuyển động (véctơ chuyển động) như ở trên gọi là bù
chuyển động (Motion Compensation)
Trong nhóm ảnh trên (hình 1.11), ảnh I1 được giải mã mà không cần xét đến véctơ chuyển động, nhưng ảnh P4 được giải mã phải sử dụng véctơ chuyển động từ ảnh I1 Bù chuyển động này gọi là bù chuyển động thuận vì xuôi theo trình tự thời gian Các ảnh P luôn dùng bù chuyển động thuận từ ảnh I hoặc P được truyền trước đó Các ảnh B được giải mã sử dụng bù chuyển động từ ảnh I hoặc ảnh P trước hoặc sau đó (theo thứ tự hiển thị)
Dự đoán được gọi là thuận nếu ảnh tham chiếu (ảnh I hoặc ảnh P) là ảnh trước ảnh đang xét; và được gọi là ngược nếu ảnh tham chiếu là ảnh sau đang xét (theo thứ tự hiển thị)
Ví dụ trong hình 1.11 ảnh B2 dùng bù chuyển động thuận từ ảnh I1 và bù chuyển động ngược từ ảnh P4 .Do đó, ảnh B2 dùng bù chuyển động hai chiều và kết quả lấy trung bình, nên được gọi là bù chuyển động nội suy
Bù chuyển động được thực hiện tại bộ mã hoá và giải mã
Trang 27Quá trình khôi phục frame (với loại frame inter) sử dụng bù chuyển
động gồm hai bước:
+ Cộng véctơ chuyển động vào frame tham chiếu
+ Cộng sai số dự đoán và kết quả trên
Hình 1.14 minh hoạ quá trình khôi phục frame
Giữa những điểm kế tiếp nhau có liên quan lẫn nhau dẫn đến sự dư thừa Mã dự đoán được dùng để loại bỏ sự dư thừa đó Dựa trên quá trình tạo các điểm tuần tự và luật dự đoán, mỗi giá trị của điểm có thể được dự đoán để thay thế điểm hiện tại Phần chênh lệch giữa điểm dự đoán và điểm hiện tại được mã hoá Thành công trong mã hoá ít bit hơn so với mã hoá trực tiếp điểm hiện tại
Mã hoá dự đoán đóng vai trò quan trọng trong các chuẩn nén ảnh như JPEG và MPEG để có hiệu suất nén và đơn giản hơn
Hình 1.14 Minh hoạ quá trình khôi phục frame
1.4.6 Biến đổi Cosine rời rạc
Tương tự như biến đổi DCT
Trang 281.4.7 Mã VLC
Mã hoá VLC là phương pháp mã hoá thống kê, gán các từ mã cho các giá trị được mã hoá Các giá trị có tần số xuất xuất hiện cao được gán từ mã ngắn, các từ mã có tần xuất xuất hiện thấp được gán từ mã dài hơn sao cho xâu biểu diễn mã ngắn hơn so với dữ liệu gốc Với cách gán trên, mã hoá được gọi là mã hoá có độ dài thay đổi nhằm tối ưu việc mã hoá với số lượng bit ít nhất
1.5 Quá trình nén Video theo chuẩn MPEG-1
Kỹ thuật nén Video theo chuẩn MPEG -1 chủ yếu ứng dụng cho việc lưu trữ trên CD-ROM và truyền trên mạng Đầu vào Video theo chuẩn bao gồm một định dạng ảnh Video liên tục (non-interlaced)
1.5.1 Tham số đặc trưng
Tham số đặc trưng đề cập đến ở đây là định dạng ảnh đầu vào và cấu trúc lấy mẫu Định dạng đầu vào là: 720 điểm mỗi dòng, 576 dòng mỗi ảnh và 30 ảnh mỗi giây
Tỉ lệ bit lớn nhất là 1.86 Mbit/s
Cấu trúc lấy mẫu là 4: 2: 0
Trang 291.5.2 Quá trình m∙ hoá
Hình 1.15 Sơ đồ khối bộ mã hoá video theo chuẩn MPEG-1
Quy trình hoạt động của bộ đánh giá xấp xỉ chuyển động và bù chuyển động theo chuẩn MPEG-1 gồm:
1.5.2.1 Bộ đánh giá chuyển động
• Thao tác cho từng khối tại mỗi thời điểm • Với mỗi khối của frame hiện tại:
• Tìm kiếm khối giống nhất trong frame trước
• Tính toán vectơ chuyển động từ khối giống nhất đó
• Xác định sai lệch giữa khối thuộc frame hiện tại và khối thuộc frame
trước đó
• Mã hóa véctơ chuyển động • Mã hoá khối sai lệch
• Phép tìm kiếm thực hiện trên một vùng giới hạn, gọi là vùng tìm kiếm
Trang 301.5.2.2 Bộ bù chuyển động
• Bộ mã hoá dùng véctơ chuyển động và frame tham chiếu để tạo ra
frame dự đoán bù chuyển động của frame hiện tại
• Mỗi khối của frame hiện tại (tức mỗi Macroblock 16x16 điểm) được dự
đoán dựa vào thông tin về chuyển động (tức vectơ chuyển động) và
frame tham chiếu
• Khối hiện tại trừ đi khối dự đoán để tạo ra khối sai lệch bù chuyển động
• Khối sai lệch này được biến đổi DCT, lượng tử hoá và mã hoá
• Sau khi mã hoá, khối sai lệch này cùng với véctơ chuyển động được truyền đi
1.5.2.3 Quá trình mã hoá
• Một bản sao khôi phục từ frame đã mã hoá được lưu trữ trong vùng đệm
frame (frame store), để frame này được dùng như frame tham chiếu cho
đánh giá chuyển động Thứ tự lưu trữ trong FS của bộ mã hoá phải đồng nhất với thứ tự này trong bộ giải mã
• Bộ đánh giá chuyển động tính toán véctơ chuyển động cho mỗi khối
bằng cách đối sánh frame đầu vào hiện tại với frame tham chiếu gần
Trang 31• Đồng thời, các hệ số lượng tử hoá được lượng tử hoá ngược, biến đổi
ngược, và cùng với frame dự đoán bù chuyển động để tạo ra frame tham
chiếu mới
Cách hoạt động của bộ mã hoá phụ thuộc vào từng loại frame
• Frame I được xử lý theo cách thức tương tự như phương pháp nén ảnh
tĩnh theo chuẩn JPEG Frame I được lưu trữ trong bộ đệm frame để làm
frame tham chiếu dùng cho đánh giá chuyển động và tạo ra các frame P
và B
• Frame P không được mã hoá trực tiếp như frame I, mà mã hoá frame
sai lệch giữa frame P hiện tại và frame dự đoán (thuận) của nó Frame dự đoán được tạo ra nhờ sử dụng véctơ chuyển động và frame I, hoặc P
được tham chiếu gần nhất
• Tương tự như frame P, frame B không được mã hoá trực tiếp mà mã hoá
frame sai lệch giữa frame B hiện tại và frame dự đoán (hai chiều) của
nó Frame dự đoán được tạo ra nhờ sử dụng véctơ chuyển động hai chiều và cặp frame I và P, hoặc P và P, hoặc P và I được tham chiếu gần
nhất
Quá trình mã hoá frame I:
Trang 32Hình 1.16 Quá trình mã hoá frame I
Quá trình mã hoá frame sai lệch:
Hình 1.17 Quá trình bù chuyển động và mã hoá frame sai lệch
Tốc độ bit của tín hiệu Video đ−ợc nén không cố định, phụ thuộc vào
nội dung ảnh đang xét Ng−ợc lại, tại đầu ra bộ mã hoá, dòng bit phải cố định
Trang 33để xác định tốc độ cho dung lượng kênh truyền Do đó, trước khi truyền đi, tại đầu ra bộ mã hoá phải có bộ nhớ đệm đủ lớn Bộ mã hoá phải kiểm tra trạng
thái đầy (overflow) của bộ nhớ đệm Khi số liệu trong bộ nhớ đệm gần bằng
dung lượng cực đại, thì các hệ số biến đổi DCT được lượng tử hoá ít chính xác hơn Trong trường hợp ngược lại, có nghĩa là bộ đệm chứa số liệu quá ít
(underflow), thì độ chính xác của việc lượng tử hoá các hệ số sẽ tăng lên Bộ
nhớ đệm được thiết kế theo kiểu FIFO (First In First Out) và có kích thước
khai báo trong dòng dữ liệu ra để giải mã
1.5.3.Quá trình giải m∙
Sơ đồ giải mã:
Hình 1.18 Sơ đồ khỗi bộ giải mã video MPEG-1
Giải mã là phép biến đổi ngược của mã hoá, nhưng đơn giản hơn do không cần thực hiện đánh giá chuyển động, và cũng ít lựa chọn hơn
Bộ giải mã thực hiện như sau:
Trang 34- Khôi phục frame hiện tại bằng cách cộng frame sai lệch với frame bù
chuyển động
- Frame hiện tại lại được lưu trữ trong vùng đệm frame để xây dựng
frame tham chiếu mới
Trước khi các cảnh được trình diễn, chúng cần phải được sắp xếp lại theo thứ tự trình diễn tự nhiên của nó Sau khi sắp xếp, các ảnh được trình diễn theo phương pháp mà mỗi ứng dụng lựa chọn
Hình 1.19 Sắp xếp thứ tự hiển thị
Chú ý: Bộ mã hoá và bộ giải mã phải sử dụng thứ tự frame tham chiếu
giống nhau trong vùng đệm frame để tránh trường hợp bị lệch hình (drift), do các frame tham chiếu bị sai trật tự trong bù chuyển động
Hình 1.18 và 1.15 là sơ đồ khối đơn giản (không xét trường hợp mã hoá
và giải mã frame B) Trong trường hợp đối với frame B, cần có 2 vùng đệm
frame và 2 mạch xác định véctơ chuyển động và bù chuyển động
1.6 Quá trình nén Video theo chuẩn MPEG-2
Kỹ thuật nén Video theo chuẩn MPEG-2 là siêu tập hợp (superset) các
kỹ thuật của chuẩn 1 và nó được thiết kế trên cơ sở kế thừa
MPEG-1.Rất nhiều giải thuật mã hoá Video đã được tích hợp và một cú pháp đơn
nhằm thoả mãn yêu cầu của các ứng dụng
Trang 35Điểm đặc trưng mới của phương pháp nén Video theo chuẩn MPEG-2 là mã hoá được Video xen kẽ (interlaced Video) Hơn nữa những mở rộng của mã hoá Video scalable đã được thực hiện để cung cấp thêm các chức năng như là mã hoá nhúng của TV và HDTV số, và sự giảm chất lượng ít (graceful
degradation) khi xuất hiện các lỗi truyền dẫn
Tuy nhiên trên thực tế không thể thực hiện được cú pháp đầy đủ cho
hầu hết các ứng dụng MPEG-2 đưa ra hai khái niệm “Profiles” và “Level” qui
định sự phù hợp giữa thiết bị không hỗ trợ khả năng thực hiện đầy đủ Các
Profile và Level cung cấp một phương tiện cho việc định nghĩa các tập con cú
pháp và như vậy bộ giải mã có khả năng giải mã một luồng bit cá biệt Khái niệm này được minh hoạ bằng bảng 1.1 và 1.2
Theo nguyên tắc chung, mỗi Profile định nghĩa một tập mới các giải thuật được thêm như là một siêu tập hợp vào các giải thuật trong Profile ở dưới Một Level xác định dải các tham số được cung cấp khi thực hiện như kích thước ảnh, tốc độ frame và tốc độ bit Nòng cốt hạt nhân của MPEG-2 tại MAIN Profile mô tả những nét nổi bật mã hoá Non-scalable của cả nguồn ảnh Video liên tục (progressive) và xen kẽ (interlaced) Người ta mong đợi rằng hầu hết các thực hiện MPEG-2 sẽ phù hợp với MAIN Profile tại MAIN
Level MAIN Profile cung cấp khả năng mã hoá Non-scalable cho ảnh Video
số với các tham số gần giống TV đó là mật độ lấy mẫu cực đại là 720 mẫu với
mỗi dòng và 576 dòng cho mỗi frame, tốc độ frame cực đại là 30 frame mỗi giây và tốc độ bit tối đa là 15 Mbit/s
Trang 36Profile Thuật toán
HIGH
Hỗ trợ tất cả các tính năng đ−ợc cung cấp bởi Spatial
Scalable Profile cộng với sự cung cấp các hỗ trợ sau:
• 3 lớp với các chế độ mã hoá SNR và Spatial
scalable
• Biểu diễn YUV với cấu trúc 4: 2: 2 cho cải thiện các yêu cầu chất l−ợng
SPATIAL Scalable
Hỗ trợ tất cả các tính năng cung cấp bởi SNR Scalable
Profile cộng với một thuật toán cho:
• Mã hoá Spatial Profile (cho phép 2 lớp)
• Biểu diễn YUV với cấu trúc 4: 0: 0
Hỗ trợ tất cả các tính năng cung cấp bởi MAIN Profile
cộng với một thuật toán cho:
• Mã hoá SNR Scalable (cho phép 2 lớp)
• Biểu diễn YUV với cấu trúc 4: 2: 0
MAIN
Thuật toán mã hoá Non-scalable hỗ trợ các tính năng cho:
• Mã hoá ảnh Video xen kẽ
• Truy cập ngẫu nhiên
Trang 37Level C¸c tham sè
HIGH
• 1920 mÉu/dßng • 1152 dßng/frame
• 60 frames/gi©y
• 80 Mbit/s/
HIGH 1440
• 1440 mÉu/dßng • 1152 dßng/frame
• 60 frames/gi©y
• 60 Mbit/s
MAIN
• 720 mÉu/dßng • 576 dßng/frame
• 30 frames/gi©y
• 15 Mbit/s
LOW
• 352 mÉu/dßng • 288 dßng/frame
Trang 38cho mỗi frame và 30 frame (ảnh) mỗi giây cho Main Profile và Main Level Tỉ lệ bit lớn nhất là 15 Mbit/s Cấu trúc lấy mẫu là 4: 2: 2
1.6.2 Mô hình m∙ hoá Non-scalable theo MPEG-2
Đối với MAIN Profile: Nguyên tắc mã hoá ở đây là sự mở rộng trực tiếp của nguyên lý mã hoá trong MPEG-1 để điều chỉnh mã hoá Video xen kẽ,
trong khi vẫn duy trì phạm vi đầy đủ của các chức năng cung cấp bởi 1
MPEG-Cũng giống như chuẩn MPEG-1, thuật toán mã hoá MPEG-2 dựa trên nguyên lý mã hoá Hybrid DCT/DPCM như hình 1.12
Đối với SIMPLE Profile: Nguyên lý mã hoá cũng tương tự như MAIN
Profile, nhưng nó không sử dụng các mô hình dự đoán cho frame B ở bộ mã
hoá Như vậy, độ phức tạp khi thực hiện và khối lưu trữ các frame tham chiếu
cho việc giải mã ảnh B không cần cho bộ giải mã của chuẩn MPEG-2 (chỉ đối
vơi SIMPLE Profile)
Để thoả mãn cho việc mã hoá cả Video liên tục và xen kẽ, MPEG-2 đưa vào khái niệm frame picture và field picture tương ứng với hai chế độ dự đoán là frame prediction và field prediction để điều tiết mã hoá ảnh Video liên tục và xen kẽ Đối với chuỗi xen kẽ (interlaced sequence), một frame gồm hai trường: một trường chẵn (even field-bottom field) và một trường lẻ (odd field-
top field) Cả hai trường này có thể được mã hoá độc lập Khi đó một trường
được chia thành các Macroblock và áp dụng mã hoá như một frame trong
MPEG-1 Hai trường cũng có thể được mã hoá đồng thời, khi đó việc mã hoá
trở thành mã hoá truyền thống của chuỗi Video liên tiếp
Trang 39Hình 1.20 Khái niệm frame picture, field picture và dự đoán trường
(field prediction)
Các nguyên lý dự đoán trường bù chuyển động (motion compensated
field prediction) để dự đoán chuyển động của field picture tương ứng (xem
hình 1.20) Trong field prediction, dự đoán được tạo ra một cách độc lập cho mỗi trường dựa trên một hoặc nhiều trường tham chiếu Trong đó trường top được dự đoán từ trường top trước đó hoặc từ một trường bottom trước đó thuộc cùng một ảnh Trong một field picture tất cả các dự đoán là dự đoán trường (field prediction) Dự đoán frame có thể sử dụng như trong MPEG-1 hoặc có thể sử dụng như hai dự đoán field kết hợp Như vậy trong frame picture có thể sử dụng dự đoán frame hoặc field
1.6.3 Mô hình m∙ hoá scalable theo MPEG-2
Mục đích của mã hoá scalable là cung cấp sự thao tác giữa các dịch vụ
khác nhau và hỗ trợ các dịch vụ một cách linh hoạt với các khả năng biểu diễn khác nhau
Các bộ thu nhận hoặc không có khả năng hoặc sẵn sàng xây dựng lại
Video với độ phân giải đầy đủ có thể giải mã các tập con của dòng bit đã phân
lớp để biểu diễn Video trong độ phân giải không gian hoặc thời gian thấp hơn
hoặc với chất lượng thấp hơn
Trang 40Một ứng dụng quan trọng cho mã hoá scalable gồm có việc liệt kê cơ sở dữ liệu Video và biểu diễn lại đa phân giải của Video trong các môi trường đa phương tiện Chuẩn MPEG-2 chuẩn hoá 3 nguyên lý mã hoá scalable là: SNR
scalability, Spatial scalability và temporal scalability Mỗi nguyên lý có một
chức năng riêng nhằm hỗ trợ cho các ứng dụng có yêu cầu riêng biệt Có thể
kết hợp các công cụ scalability khác nhau thành một sơ đồ mã hoá hybrid, có
nghĩa là sự tương tác giữa các dịch vụ kể cả độ phân giải không gian và tỉ lệ
frame khác nhau có thể được hỗ trợ bằng cách kết hợp Spatial scalability và
Temporal scalability Ngoài ra sự tương tác giữa các dịch vụ HDTV và SDTV
có thể được cung cấp kèm theo khả năng hiệu chỉnh các lỗi kênh truyền bằng
cách kết hợp sự mở rộng Spatial scalability với công cụ SNR scalability
Spatial scalability:
u Được phát triển để hỗ trợ hiển thị các độ phân giải khác nhau tại bộ thu
nhận Nghĩa là ảnh Video có độ phân giải không gian thấp có thể được khôi
phục từ lớp cơ sở Tính năng này rất hữu hiệu cho rất nhiều ứng dụng bao gồm mã hoá nhúng cho các hệ thống HDTV/TV, cho phép chuyển các dịch vụ TV số đến các dịch vụ HDTV với độ phân giải không gian cao hơn u Thuật toán dựa trên phương pháp tiếp cận hình chóp truyền thống cho mã
hoá ảnh liên tục
u Có khả năng hỗ trợ một cách linh hoạt cho một phạm vi rộng độ phân giải
nhưng khi đó độ phức tạp tính toán trong MAIN Profile cũng sẽ tăng SNR scalability:
u Công cụ này được phát triển để cung cấp sự suy giảm chất lượng uyển
chuyển (graceful degradation) của chất lượng Video trong môi trường
truyền ưu tiên