Mô hình mV hóa video kết hợp DPCM/DCT

Mô hình kết hợp giữa ph−ơng pháp nén trong miền thời gian DPCM kết hợp với nén trong miền không gian DCT đ−ợc áp dụng rộng rZi trong các chuẩn nén videọ Mô hình này đ−ợc gọi là mô hình kết hợp DPCM/DCT. Cấu trúc mô hình bộ mZ hóa và giải mZ đ−ợc mô tả nh− trong hình 3.17 và hình 3.18.

Hình 3.17. Sơ đồ cấu trúc bộ mZ hóa video DPCM/DCT

Hình 3.18. Sơ đồ cấu trúc bộ giải mZ video DPCM/DCT 3.5.1. Bộ mã hóa

Quá trình mZ hóa đ−ợc thực hiện theo sơ đồ nh− sau:

- ảnh Fn của tín hiệu video đ−ợc biểu diễn thành các macroblock (độ chói Y và tín hiệu hiệu màu Cr, Cb).

- ảnh Fn đ−ợc so sánh với ảnh tham chiếu đZ mZ hóa F’n-1. Khối xác định h−ớng chuyển dịch tìm trong F’n-1 vùng ảnh giống nhất với macroblock hiện tại để xác định vector chuyển dịch MV.

Dựa vào vector chuyển dịch và dữ liệu từ ảnh tham chiếu F’n-1, khối bù chuyển dịch tính toán để tạo ra macroblock dự đoán. Macroblock hiện tại trừ đi macroblock dự đoán cho ra macroblock phần d− (residual) D.

Macroblock D đ−ợc biến đổi DCT, l−ợng tử hóa, sắp xếp lại theo thứ tự quy −ớc tr−ớc khi mZ hóa entropỵ Mặt khác, chuỗi giá trị sau khi l−ợng tử hóa đ−ợc giải l−ợng tử, biến đổi DCT ng−ợc, cộng với phần d− để tái tạo macroblock và tái tạo ảnh làm ảnh tham chiếu cho ảnh tiếp theọ

Ví dụ: Một macroblock phần d− có các giá trị nh− trong bảng 3.4. Sau khi thực hiện biến đổi DCT, ta đ−ợc các hệ số nh− trong bảng 3.5 ạ

Bảng 3.4. Các giá trị mẫu của một macroblock phần d−

L−ợng tử hóa các hệ số DCT với mức l−ợng tử Qstep=12 ta đ−ợc bảng hệ số l−ợng tử nh− trong bảng 3.5b.

Bảng 3.5 Các hệ số sau khi thực hiện chuyển đổi DCT và các hệ số sau khi l−ợng tử hóa

a). b).

- Quét các hệ số theo cấu trúc quét liên tục, ta đ−ợc chuỗi giá trị nh− sau: -1,2,1,-1,-1,2,0,-1,1,-1,2,-1,-1,0,0,-1,0,0,0,-1,-1,0,0,0,0,0,1,0,0,0……0,0,0.

- Biểu diễn theo cấu trúc Run-Level Encoding ta đ−ợc:

(0,-1,0),(0,2,0),(0,1,0),(0,-1,0), (0,-1,0), (0,2,0),(1,-1,0), (0,1,0), (0,-1,0), (0,2,0), (0,-1,0), (0,-1,0), (2,-1,0), (3,-1,0), (0,-1,0), (5,1,1).

100

MZ hóa theo bảng mZ TCOEF, ta đ−ợc chuỗi bit đầu ra nh− trong bảng 3.6.

Bảng 3.6. Chuỗi mZ hóa TCOEF của macroblock phần d−

3.5.2. Bộ giải mã

Quá trình giải mZ đ−ợc thực hiện nh− sau:

- Luồng tín hiệu video thu đ−ợc đ−ợc giải mZ entropy và thu đ−ợc thông tin về vector chuyển dịch MV.

- Thông tin đ−ợc sắp xếp thành các macroblock, theo thứ tự quét quy −ớc nhờ khối Sắp xếp lạị

- Macroblock đ−ợc giải l−ợng tử và đ−a vào bộ biến đổi DCT ng−ợc IDCT.

- Từ vector chuyển dịch, xác định khối điểm ảnh trong ảnh tham chiếu đZ đ−ợc tái tạo F’n-1, khối điểm ảnh này đ−ợc tịnh tiến theo vector chuyển dịch để tạo ra macroblock dự đoán.

- Macroblock dự đoán đ−ợc cộng với macroblock phần d− để tạo ra macroblock hiện tạị

- Ghép các macroblock để tạo nên ảnh giải mZ.

Ví dụ với chuỗi tín hiệu thu đ−ợc ở trên, bộ giải mZ sẽ tái tạo các hệ số và thực hiện giải l−ợng tử với mức Qstep=12 nh− trong bảng 3.7.

101

Bảng 3.7. Các hệ số của macroblock phần d− sau khi đ−ợc sắp xếp lại và giải l−ợng tử

- Thực hiện biến đổi ng−ợc IDCT ta đ−ợc các giá trị mẫu phần d− tái tạo nh− trong bảng 3.8.

Bảng 3.8. Macroblock phần d− đ−ợc giải mZ IDCT

3.6. Các chuẩn nén video

Nén video (mZ hóa và giải mZ video) là một trong những vấn đề quan trọng trong các ứng dụng đa ph−ơng tiện và đZ không ngừng đ−ợc các tổ chức nghiên cứu, chuẩn hóa quan tâm phát triển. Hiện tại có hai hệ thống tiêu chuẩn chính trong việc thiết lập các tiêu chuẩn nén videọ Đó chính là ITU (International Telecommunications Union) và MPEG (Motion Picture Experts Group). Trong quá trình phát triển, hai hệ thống tiêu chuẩn này đZ đ−a ra hệ thống nhiều tiêu chuẩn nén video đ−ợc ứng dụng trong nhiều lĩnh vực khác nhaụ

102

Hình 3.19.Quá trình phát triển các chuẩn nén video

Đ−ợc thiết lập từ năm 1998, MPEG (Motion Picture Experts Group) là một nhóm nghiên cứu thuộc ISO/IEC, có nhiệm vụ phát triển các tiêu chuẩn mZ hóa cho hình ảnh và âm thanh kỹ thuật số. Cho đến nay, nhóm nghiên cứu này đZ phát triển đ−ợc một số các tiêu chuẩn cho việc nén âm thanh và hình ảnh. Mỗi tiêu chuẩn đ−ợc áp dụng cho những ứng dụng cụ thể và t−ơng ứng có tốc độ bit khác nhaụ

MPEG-1: Đ−ợc thiết kế tốc độ tối đa đến 1.5Mbps. Tiêu chuẩn nén cho âm thanh và hình ảnh động. Đ−ợc dùng phổ biến cho các ứng dụng video CD- ROM. Một phần mở rộng của tiêu chuẩn (level 3) áp dụng cho mZ hóa và nén âm thanh đ−ợc sử dụng phổ biến với tên MP3.

MPEG-2: Đ−ợc thiết kế cho các ứng dụng có tốc độ bit từ 1.5Mbps đến 15Mbps. Tiêu chuẩn MPEG-2 áp dụng cho Truyền hình kỹ thuật số SDTV và HDTV, Video theo yêu cầu (VoD) và các ứng dụng DVD. MPEG-2 đ−ợc thiết kế dựa trên MPEG-1, nh−ng có những yêu cầu đặc biệt cho việc nén và truyền tải Truyền hình kỹ thuật số. Một trong những khác biệt so với MPEG-1 đó là việc nén hiệu quả cho video tích hợp.

MPEG-4: Đ−ợc thiết kế cho các ứng dụng có tốc độ bit rất thấp cho đến các ứng dụng có tốc độ bit rất caọ ứng dụng của MPEG-4 là các ứng dụng đa ph−ơng tiện trên các môi tr−ờng truyền tải khác nhau nh− Truyền hình số,

103

Internet, mạng không dây … Kỹ thuật nén trong MPEG-4 dựa trên việc nén theo đối t−ợng, các đối t−ợng trong các hoạt cảnh video đ−ợc theo dõi riêng rẽ và đ−ợc nén lại cùng nhaụ

Bên cạnh các tiêu chuẩn đZ công bố, MPEG cũng đang tích cực nghiên cứu và chuẩn hóa tiêu chuẩn MPEG-7 (Multimedia Content Description Interface) với mục tiêu đ−a ra chuẩn cung cấp qui định khung cho các nội dung đa ph−ơng tiện bao gồm cả nội dung video và thông tin điều khiển (phục vụ cho các thao tác, lọc hay cá nhân hóa,…). Ngoài ra, tiêu chuẩn MPEG-21 (Multimedia Framework): cũng đang đ−ợc phát triển. MPEG-21 mô tả các thành phần cần thiết và mối quan hệ giữa chúng, để tạo nên cơ sở hạ tầng cho việc chuyền tải và sử dụng nội dung đa ph−ơng tiện.

Nhóm chuyên gia mZ hóa video VCEG (Video Coding Experts Group) thuộc tổ chức ITU-T cũng đZ nghiên cứu và chuẩn hóa nhiều tiêu chuẩn nén video với mục tiêu ban đầu là phục vụ cho các ứng dụng trong thông tin viễn thông. Các chuẩn nén video mà tổ chức này đ−a ra bao gồm:

Chuẩn H.261 với mục đích ban đầu sử dụng cho các ứng dụng điện thoại truyền hình (videotelephony) và hội nghị truyền hình (videoconferencing) trên mạng chuyển mạch kênh ISDN.

Chuẩn H.263 ra đời nhằm cải thiện tính năng nén của H.261. Chuẩn này hỗ trợ video với tốc độ thấp d−ới 30kbps và phù hợp với cả mạng chuyển mạch kênh và chuyển mạch góị

Trong quá trình phát triển, với nỗ lực xây dựng các tiêu chuẩn thống nhất, cả hai tổ chức đZ trao đổi và cho ra đời các chuẩn chung bao gồm chuẩn MPEG2/H.262 và chuẩn MPEG4 AVC/H.264.

104

Ch−ơng 4

Kỹ thuật nén video MPEG4 AVC/H.264 4.1. Tổng quan về H.264

4.1.1. Sơ đồ tổng quát cấu trúc bộ mã hóa và giải mã H.264

Sơ đồ cấu trúc tổng quát của bộ mZ hóa và giải mZ H.264 đ−ợc trình bày trong hình 4.1.

Hình 4.1. Cấu trúc bộ mZ hóa và giải mZ H.264.

Điểm khác biệt của H.264 so với các bộ mZ hóa khác là có sự lựa chọn chế độ mZ hóa liên ảnh (Inter) và trong ảnh (Intra). Chế độ mZ hóa trong ảnh cho phép một MB có thể đ−ợc nội suy từ giá trị các điểm ảnh ở các MB lân cận trong cùng ảnh và nhờ đó làm tăng hiệu quả nén trong miền không gian.

4.1.2. Cấu trúc tiêu chuẩn H.264

Tiêu chuẩn nén video H.264 bao gồm 3 profiles: Baseline Profile, Main Profile và Extended Profilẹ Mỗi profile bao gồm một tập hợp các chức năng hỗ

105

trợ cho kỹ thuật mZ hóạ Mỗi profile có những đặc điểm, độ phức tạp và khả năng nén khác nhau đ−ợc dùng trong các ứng dụng phù hợp.

Hình 4.2. mô tả mối quan hệ và các chức năng chính trong ba profile của tiêu chuẩn nén video H.264.

Hình 4.2. Cấu trúc và quan hệ giữa các profile của tiêu chuẩn H.264 4.1.3. Định dạng tín hiệu video

Chuẩn nén H.264 hỗ trợ mZ hóa và giải mZ tín hiệu video cả ở chế độ quét liên tục và quét xen kẽ với chuẩn lấy mẫu: 4:2:0.

Với mục tiêu hỗ trợ các ứng dụng truyền tín hiệu video thời gian thực, H.264 tạo ra sự phân cách rõ ràng giữa lớp nén video (VCL – Video Coding Layer) và lớp t−ơng thích mạng (NAL – Network Abstraction Layer). Tín hiệu đầu ra của lớp VCL là chuỗi bít liên tục đ−ợc ánh xạ vào các đơn vị dữ liệu của lớp NAL. Luồng tín hiệu video mZ hóa có thể truyền qua mạng chuyển mạch gói, một kênh truyền dẫn hoặc l−u trữ thành tệp tin trên các thiết bị l−u trữ.

106

4.2. Một số vấn đề cơ bản của H.264

4.2.1. ảnh tham chiếu và quản lý ảnh tham chiếu trong H.264

Trong kỹ thuật nén video H.264, cả ở phía mZ hóa và giải mZ, các ảnh đZ đZ đ−ợc mZ hóa hoặc đZ đ−ợc giải mZ đ−ợc dùng làm ảnh tham chiếu cho việc mZ hóa, giải mZ các ảnh tiếp theọ Điểm đáng chú ý là H.264 sử dụng nhiều ảnh tham chiếu cùng lúc, do đó nó cần phải có cơ chế quản lý các ảnh tham chiếụ Các ảnh này đ−ợc l−u trữ trong bộ nhớ đệm và đ−ợc đánh số nằm trong hai danh sách list0 và list1.

Các MB, MB con và các phần của MB trong mảnh loại P đ−ợc tham chiếu từ các ảnh trong danh sách list0, đối với slile loại B, đ−ợc tham chiếu trong danh sách cả list0 và list1.

4.2.2. Macroblock(MB) và mảnh (slice)

Để tăng c−ờng hiệu quả áp dụng kỹ thuật dự đoán và bù chuyển dịch, H.264 xử lý MB không chỉ với kích th−ớc cố định 16x16 đối với tín hiệu chói, 8x8 đối với tín hiệu hiệu màu mà còn xử lý đối với từng phần nhỏ trong MB (macroblock partitions). Ví dụ đối với tín hiệu chói, tùy theo tính chất, giá trị của các mẫu, mà MB kích th−ớc 16x16 có thể đ−ợc xử lý theo một trong các cách d−ới đây:

- Một phần 16x16. - Hai phần 8x16. - Hai phần 16x8. - Bốn phần 8x8.

Phần MB có kích th−ớc 8x8 có cấu trúc hình vuông nên đ−ợc coi là một macroblock con (sub-macroblock). MB con này cũng có thể đ−ợc chia nhỏ và xử lý từng phần của MB con, có thể là 1 phần 8x8, 2 phần 4x8, 2 phần 8x4 hoặc 4 phần 4x4. Hình 4.3:

107

Hình 4.3. Các phần MB và các phần MB con sử dụng trong H.264

Với cách chia nhỏ MB nh− vậy, quá trình xử lý MB của H.264 rất mềm dẻọ Đối với các vùng ảnh có cấu trúc đồng nhất, MB đ−ợc xử lý với khối điểm ảnh có kích th−ớc lớn; đối với các vùng ảnh chi tiết, phức tạp, MB đ−ợc chia thành các phần có kích th−ớc nhỏ tạo nên cấu trúc hình cây trong xử lý MB. Trong một khung hình, các MB gần nhau theo thứ tự quét hình và có tính chất giống nhau đ−ợc gộp lại với nhau nhằm dễ dàng quản lý và xử lý tạo thành mảnh (slice). Các loại mảnh của H.264 đ−ợc liệt kê trong bảng 4.1.

Bảng 4.1. Các loại mảnh đ−ợc định nghĩa trong H.264

Loại mảnh Đặc điểm

I (Intra) - Chỉ chứa MB loại I, tức là các MB hoặc các phần của MB đ−ợc dự đoán từ dữ liệu đZ đ−ợc mZ hóa trong cùng mảnh.

P (Predicted) - Chứa các MB loại I hoặc loại P. MB loại P là MB hoặc các phần của MB đ−ợc dự đoán từ danh sách tham chiếu list0.

B (Bi- direction

- Chứa các MB loại I hoặc loại B. MB loại B là MB hoặc các phần của MB đ−ợc dự đoán từ danh sách tham chiếu list1 hoặc cả hai

108

predicted) danh sách tham chiếu list1 và list0. SP

(Switching P)

- Cho phép chuyển đổi giải mZ giữa các luồng tín hiệu mZ hóa khác nhau chứa MB loại P và (hoặc) loại Ị

SI (Switching I)

- Cho phép chuyển đổi giải mZ giữa các luồng tín hiệu mZ hóa khác nhau chứa MB loại SỊ

4.3. Cấu trúc Baseline Profile của H.264

Baseline Profile hỗ trợ chuỗi tín hiệu video chứa slice I và slice P. Do đó chuỗi tín hiệu video mZ hóa chỉ chứa MB loại P, loại I hoặc MB Bỏ trống (Skipped). Khi MB Skipped xuất hiện trong chuỗi tín hiệu, điều đó có nghĩa không có dữ liệu cho MB hiện tạị Bộ giải mZ sẽ tính toán và giải mZ cho MB theo ph−ơng pháp dự đoán và bù chuyển dịch và lấy ảnh đầu tiên trong danh sách list0 làm ảnh tham chiếụ

Sau khi dự đoán, giá trị phần d− của mỗi macroblock hoặc khối điểm ảnh con của macroblock đ−ợc cấu trúc lại và thực hiện chuyển đổi DCT với kích th−ớc 4x4.

Baseline Profile thực hiện mZ hóa entropy:

+ Sử dụng bảng mZ chiều dài biến đổi thích nghi CAVLC (Context- Adaptive Variable Length Coding) đối với các hệ số l−ợng tử DCT.

+ Sử dụng mZ có chiều dài cố định hoặc mZ có chiều dài biến đổi Exponential-Golomb đối với các phần tử cú pháp của MB.

4.3.1. Độ phân giải trong xác định vector chuyển dịch

Mỗi khối của MB đ−ợc xử lý và dự đoán từ một vùng có cùng kích th−ớc trong ảnh tham chiếụ Độ lệch về vị trí giữa hai vùng đó chính là vector chuyển dịch.

109

- Vector chuyển dịch đ−ợc tính toán với độ phân giải điểm ảnh đối với tín hiệu chói và 1/8 điểm ảnh đối với tín hiệu hiệu màụ Để cho kết quả với độ phân giải nh− vậy, ảnh tham chiếu phải đ−ợc nội suy với độ phân giải t−ơng ứng. Quá trình nội suy các điểm ảnh từ các điểm ảnh đZ có đ−ợc thực hiện nh− sau:

- Nội suy những điểm độ phân giải 1/2 điểm ảnh: (Hình 4.4) Đ−ợc nội suy từ 6 giá trị của các mẫu trên cùng hàng với trọng số là các hệ số của bộ lọc FIR tuyến tính nh− sau:

b = round((E - 5F + 20G + 20H – 5I + J)/32) (4.1)

Hình 4.4. Nội suy các điểm ảnh ở độ phân giải 1/2 điểm ảnh

- Nội suy những điểm độ phân giải 1/4 điểm ảnh: (Hình 4.5) Các giá trị mẫu ở độ phân giải đ−ợc nội suy từ các điểm độ phân giải nguyên và các điểm độ phân giải 1/2 theo công thức trung bình cộng giá trị của hai điểm ảnh liền kề theo chiều ngang, chiều dọc hoặc đ−ờng chéọ Trong ví dụ ở hình 4.5.

a = round((G+b)/2) d = round((G+h)/2)

110

Hình 4.5. Nội suy các giá trị ở độ phân giải 1/4 điểm ảnh

- Nội suy các điểm ảnh độ phân giải 1/8 đ−ợc tính bằng trung bình theo khoảng cách của các điểm độ phân giải nguyên lân cận. Hình 4.6.

a = round([(8-dx)(8-dy)A + dx(8-dy)B + (8-dx) dy A + dx.dỵD]) (4.3) Trong hình 4.6 dx=2, dy=3, do đó:

a = round[(30A + 10B + 18C + 6D)/64] (4.4)

Hình 4.6. Nội suy các giá trị ở độ phân giải 1/8 điểm ảnh 4.3.2. Dự đoán vector chuyển dịch

Vector chuyển dịch của các khối điểm ảnh gần nhau có tính t−ơng quan với nhaụ Do đó vector chuyển dịch của một khối MB có thể đ−ợc dự đoán từ các vector chuyển dịch của các khối MB lân cận. Nhằm tăng hiệu quả nén, H.264 còn áp dụng kỹ thuật dự đoán vector chuyển dịch. Thay vì phải truyền cả vector chuyển dịch của MB hiện thời, bộ mZ hóa tính toán và chỉ truyền đi vector

111

chuyển dịch chênh lệch (DMV) giữa vector chuyển dịch thực (MV) và vector chuyển dịch dự đoán (PMV). Khi đó l−ợng thông tin sẽ ít hơn và làm tăng hiệu quả nén.

Vector chuyển dịch dự đoán (PMV) đ−ợc tính toán từ các vectors của các khối MB lân cận đ−ợc chỉ ra nh− trong hình 4.7.

Hình 4.7. Các khối MB lân cận của MB hiện thời

E là MB hiện thời, A, B, C là các MB đZ đ−ợc mZ hóa, vector chuyển dịch của E đ−ợc tính từ các vector chuyển dịch của A, B và C. Nếu có nhiều phần MB trong A thì phần nào nằm trên nhất sát bên trái E sẽ đ−ợc tính. T−ơng tự, nếu có

Mô hình mV hóa video kết hợp DPCM/DCT

Thiết bị đầu cuối ng−ời sử dụng

Cấu trúc của IPTV Set-top box