Tham số đặc tr−ng

Tham số đặc tr−ng đề cập đến ở đây là định dạng ảnh đầu vào và cấu trúc lấy mẫụ Định dạng đầu vào là: 720 điểm mỗi dòng, 576 dòng mỗi ảnh và 30 ảnh mỗi giâỵ

Tỉ lệ bit lớn nhất là 1.86 Mbit/s. Cấu trúc lấy mẫu là 4: 2: 0.

1.5.2. Quá trình m∙ hoá.

Hình 1.15. Sơ đồ khối bộ mã hoá video theo chuẩn MPEG-1

Quy trình hoạt động của bộ đánh giá xấp xỉ chuyển động và bù chuyển động theo chuẩn MPEG-1 gồm:

1.5.2.1. Bộ đánh giá chuyển động.

• Thao tác cho từng khối tại mỗi thời điểm.

• Với mỗi khối của frame hiện tại:

• Tìm kiếm khối giống nhất trong frame tr−ớc.

• Tính toán vectơ chuyển động từ khối giống nhất đó.

• Xác định sai lệch giữa khối thuộc frame hiện tại và khối thuộc frame tr−ớc đó.

• Mã hóa véctơ chuyển động.

• Mã hoá khối sai lệch.

1.5.2.2. Bộ bù chuyển động.

• Bộ mã hoá dùng véctơ chuyển động và frame tham chiếu để tạo ra

frame dự đoán bù chuyển động của frame hiện tạị

• Mỗi khối của frame hiện tại (tức mỗi Macroblock 16x16 điểm) đ−ợc dự đoán dựa vào thông tin về chuyển động (tức vectơ chuyển động) và

frame tham chiếụ

• Khối hiện tại trừ đi khối dự đoán để tạo ra khối sai lệch bù chuyển động.

• Khối sai lệch này đ−ợc biến đổi DCT, l−ợng tử hoá và mã hoá.

• Sau khi mã hoá, khối sai lệch này cùng với véctơ chuyển động đ−ợc truyền đị

1.5.2.3. Quá trình mã hoá.

• Một bản sao khôi phục từ frame đã mã hoá đ−ợc l−u trữ trong vùng đệm

frame (frame store), để frame này đ−ợc dùng nh− frame tham chiếu cho đánh giá chuyển động. Thứ tự l−u trữ trong FS của bộ mã hoá phải đồng nhất với thứ tự này trong bộ giải mã.

• Bộ đánh giá chuyển động tính toán véctơ chuyển động cho mỗi khối bằng cách đối sánh frame đầu vào hiện tại với frame tham chiếu gần nhất.

• Bộ bù chuyển động tạo ra frame dự đoán bù chuyển động (là frame giống frame hiện tại nhất).

• Frame hiện tại trừ đi frame bù chuyển động để tạo ra frame sai lệch bù

chuyển động.

• Các hệ số sau khi l−ợng tử hoá và các véctơ chuyển động đ−ợc mã hoá và truyền đị

• Đồng thời, các hệ số l−ợng tử hoá đ−ợc l−ợng tử hoá ng−ợc, biến đổi ng−ợc, và cùng với frame dự đoán bù chuyển động để tạo ra frame tham chiếu mớị

Cách hoạt động của bộ mã hoá phụ thuộc vào từng loại frame.

• Frame I đ−ợc xử lý theo cách thức t−ơng tự nh− ph−ơng pháp nén ảnh tĩnh theo chuẩn JPEG. Frame I đ−ợc l−u trữ trong bộ đệm frame để làm

frame tham chiếu dùng cho đánh giá chuyển động và tạo ra các frame P

và B.

• Frame P không đ−ợc mã hoá trực tiếp nh− frame I, mà mã hoá frame

sai lệch giữa frame P hiện tại và frame dự đoán (thuận) của nó. Frame dự đoán đ−ợc tạo ra nhờ sử dụng véctơ chuyển động và frame I, hoặc P đ−ợc tham chiếu gần nhất.

• T−ơng tự nh− frame P, frame B không đ−ợc mã hoá trực tiếp mà mã hoá

frame sai lệch giữa frame B hiện tại và frame dự đoán (hai chiều) của

nó. Frame dự đoán đ−ợc tạo ra nhờ sử dụng véctơ chuyển động hai chiều và cặp frame I và P, hoặc P và P, hoặc P và I đ−ợc tham chiếu gần nhất.

Hình 1.16. Quá trình mã hoá frame I

Quá trình mã hoá frame sai lệch:

Hình 1.17. Quá trình bù chuyển động và mã hoá frame sai lệch

Tốc độ bit của tín hiệu Video đ−ợc nén không cố định, phụ thuộc vào nội dung ảnh đang xét. Ng−ợc lại, tại đầu ra bộ mã hoá, dòng bit phải cố định

để xác định tốc độ cho dung l−ợng kênh truyền. Do đó, tr−ớc khi truyền đi, tại đầu ra bộ mã hoá phải có bộ nhớ đệm đủ lớn. Bộ mã hoá phải kiểm tra trạng thái đầy (overflow) của bộ nhớ đệm. Khi số liệu trong bộ nhớ đệm gần bằng dung l−ợng cực đại, thì các hệ số biến đổi DCT đ−ợc l−ợng tử hoá ít chính xác hơn. Trong tr−ờng hợp ng−ợc lại, có nghĩa là bộ đệm chứa số liệu quá ít (underflow), thì độ chính xác của việc l−ợng tử hoá các hệ số sẽ tăng lên. Bộ nhớ đệm đ−ợc thiết kế theo kiểu FIFO (First In First Out) và có kích th−ớc khai báo trong dòng dữ liệu ra để giải mã.

1.5.3.Quá trình giải m∙.

Sơ đồ giải mã:

Hình 1.18. Sơ đồ khỗi bộ giải mã video MPEG-1

Giải mã là phép biến đổi ng−ợc của mã hoá, nh−ng đơn giản hơn do không cần thực hiện đánh giá chuyển động, và cũng ít lựa chọn hơn.

Bộ giải mã thực hiện nh− sau:

- Giải mã các véctơ chuyển động và các hệ số.

- Các hệ số đ−ợc l−ợng tử hoá ng−ợc và biến đổi ng−ợc để tạo ra frame sai lệch.

- Frame đ−ợc khôi phục tr−ớc đó (l−u trữ trong vùng đệm frame) kết hợp với các véctơ chuyển động để tạo ra frame bù chuyển động.

- Khôi phục frame hiện tại bằng cách cộng frame sai lệch với frame bù

chuyển động.

- Frame hiện tại lại đ−ợc l−u trữ trong vùng đệm frame để xây dựng

frame tham chiếu mớị

Tr−ớc khi các cảnh đ−ợc trình diễn, chúng cần phải đ−ợc sắp xếp lại theo thứ tự trình diễn tự nhiên của nó. Sau khi sắp xếp, các ảnh đ−ợc trình diễn theo ph−ơng pháp mà mỗi ứng dụng lựa chọn.

Hình 1.19. Sắp xếp thứ tự hiển thị

Chú ý: Bộ mã hoá và bộ giải mã phải sử dụng thứ tự frame tham chiếu

giống nhau trong vùng đệm frame để tránh tr−ờng hợp bị lệch hình (drift), do các frame tham chiếu bị sai trật tự trong bù chuyển động.

Hình 1.18 và 1.15 là sơ đồ khối đơn giản (không xét tr−ờng hợp mã hoá và giải mã frame B). Trong tr−ờng hợp đối với frame B, cần có 2 vùng đệm

frame và 2 mạch xác định véctơ chuyển động và bù chuyển động.

1.6. Quá trình nén Video theo chuẩn MPEG-2.

Kỹ thuật nén Video theo chuẩn MPEG-2 là siêu tập hợp (superset) các kỹ thuật của chuẩn MPEG-1 và nó đ−ợc thiết kế trên cơ sở kế thừa MPEG- 1.Rất nhiều giải thuật mã hoá Video đã đ−ợc tích hợp và một cú pháp đơn nhằm thoả mãn yêu cầu của các ứng dụng.

Điểm đặc tr−ng mới của ph−ơng pháp nén Video theo chuẩn MPEG-2 là mã hoá đ−ợc Video xen kẽ (interlaced Video). Hơn nữa những mở rộng của

mã hoá Video scalable đã đ−ợc thực hiện để cung cấp thêm các chức năng nh− là mã hoá nhúng của TV và HDTV số, và sự giảm chất l−ợng ít (graceful

degradation) khi xuất hiện các lỗi truyền dẫn.

Tuy nhiên trên thực tế không thể thực hiện đ−ợc cú pháp đầy đủ cho hầu hết các ứng dụng. MPEG-2 đ−a ra hai khái niệm “Profiles” và “Level” qui định sự phù hợp giữa thiết bị không hỗ trợ khả năng thực hiện đầy đủ. Các

Profile và Level cung cấp một ph−ơng tiện cho việc định nghĩa các tập con cú pháp và nh− vậy bộ giải mã có khả năng giải mã một luồng bit cá biệt. Khái niệm này đ−ợc minh hoạ bằng bảng 1.1 và 1.2.

Theo nguyên tắc chung, mỗi Profile định nghĩa một tập mới các giải thuật đ−ợc thêm nh− là một siêu tập hợp vào các giải thuật trong Profile ở d−ớị Một Level xác định dải các tham số đ−ợc cung cấp khi thực hiện nh− kích th−ớc ảnh, tốc độ frame và tốc độ bit. Nòng cốt hạt nhân của MPEG-2 tại MAIN Profile mô tả những nét nổi bật mã hoá Non-scalable của cả nguồn

ảnh Video liên tục (progressive) và xen kẽ (interlaced). Ng−ời ta mong đợi rằng hầu hết các thực hiện MPEG-2 sẽ phù hợp với MAIN Profile tại MAIN

Level. MAIN Profile cung cấp khả năng mã hoá Non-scalable cho ảnh Video

số với các tham số gần giống TV đó là mật độ lấy mẫu cực đại là 720 mẫu với mỗi dòng và 576 dòng cho mỗi frame, tốc độ frame cực đại là 30 frame mỗi giây và tốc độ bit tối đa là 15 Mbit/s.

Profile Thuật toán

HIGH

Hỗ trợ tất cả các tính năng đ−ợc cung cấp bởi Spatial

Scalable Profile cộng với sự cung cấp các hỗ trợ sau:

• 3 lớp với các chế độ mã hoá SNR và Spatial

scalable.

• Biểu diễn YUV với cấu trúc 4: 2: 2 cho cải thiện các yêu cầu chất l−ợng.

SPATIAL Scalable

Hỗ trợ tất cả các tính năng cung cấp bởi SNR Scalable

Profile cộng với một thuật toán cho:

• Mã hoá Spatial Profile (cho phép 2 lớp).

• Biểu diễn YUV với cấu trúc 4: 0: 0.

Hỗ trợ tất cả các tính năng cung cấp bởi MAIN Profile cộng với một thuật toán cho:

• Mã hoá SNR Scalable (cho phép 2 lớp).

• Biểu diễn YUV với cấu trúc 4: 2: 0.

MAIN

Thuật toán mã hoá Non-scalable hỗ trợ các tính năng cho:

• Mã hoá ảnh Video xen kẽ.

• Truy cập ngẫu nhiên.

• Các chế độ dự đoán ảnh B.

• Biểu diễn YUV với cấu trúc 4: 2: 0.

SIMPLE

Bao gồm tất cả các tính năng cung cấp bởi MAIN Profile nh−ng:

• Không cung cấp các chế độ dự đoán ảnh B.

• Biểu diễn YUV với cấu trúc 4: 2: 0.

Level Các tham số HIGH • 1920 mẫu/dòng. • 1152 dòng/frame. • 60 frames/giâỵ • 80 Mbit/s/ HIGH 1440 • 1440 mẫu/dòng • 1152 dòng/frame. • 60 frames/giâỵ • 60 Mbit/s. MAIN • 720 mẫu/dòng • 576 dòng/frame. • 30 frames/giâỵ • 15 Mbit/s. LOW • 352 mẫu/dòng • 288 dòng/frame. • 30 frames/giâỵ • 4 Mbit/s.

Bảng 1.2. Các giới hạn trên của các tham số tại mỗi Level của một Profilẹ

1.6.1. Tham số đặc tr−ng.

Tham số đặc tr−ng đề cập đến ở đây là định dạng ảnh đầu vào và cấu trúc lấy mẫụ Định dạng đầu vào là: 720 điểm ảnh cho mỗi dòng, 576 dòng

cho mỗi frame và 30 frame (ảnh) mỗi giây cho Main Profile và Main Level. Tỉ lệ bit lớn nhất là 15 Mbit/s. Cấu trúc lấy mẫu là 4: 2: 2.

1.6.2. Mô hình m∙ hoá Non-scalable theo MPEG-2.

Đối với MAIN Profile: Nguyên tắc mã hoá ở đây là sự mở rộng trực tiếp của nguyên lý mã hoá trong MPEG-1 để điều chỉnh mã hoá Video xen kẽ, trong khi vẫn duy trì phạm vi đầy đủ của các chức năng cung cấp bởi MPEG- 1.

Cũng giống nh− chuẩn MPEG-1, thuật toán mã hoá MPEG-2 dựa trên nguyên lý mã hoá Hybrid DCT/DPCM nh− hình 1.12.

Đối với SIMPLE Profile: Nguyên lý mã hoá cũng t−ơng tự nh− MAIN

Profile, nh−ng nó không sử dụng các mô hình dự đoán cho frame B ở bộ mã hoá. Nh− vậy, độ phức tạp khi thực hiện và khối l−u trữ các frame tham chiếu cho việc giải mã ảnh B không cần cho bộ giải mã của chuẩn MPEG-2 (chỉ đối vơi SIMPLE Profile).

Để thoả mãn cho việc mã hoá cả Video liên tục và xen kẽ, MPEG-2 đ−a vào khái niệm frame picture và field picture t−ơng ứng với hai chế độ dự đoán là frame prediction và field prediction để điều tiết mã hoá ảnh Video liên tục và xen kẽ. Đối với chuỗi xen kẽ (interlaced sequence), một frame gồm hai tr−ờng: một tr−ờng chẵn (even field-bottom field) và một tr−ờng lẻ (ođ field-

top field). Cả hai tr−ờng này có thể đ−ợc mã hoá độc lập. Khi đó một tr−ờng đ−ợc chia thành các Macroblock và áp dụng mã hoá nh− một frame trong MPEG-1. Hai tr−ờng cũng có thể đ−ợc mã hoá đồng thời, khi đó việc mã hoá trở thành mã hoá truyền thống của chuỗi Video liên tiếp.

Hình 1.20. Khái niệm frame picture, field picture và dự đoán tr−ờng (field prediction).

Các nguyên lý dự đoán tr−ờng bù chuyển động (motion compensated

field prediction) để dự đoán chuyển động của field picture t−ơng ứng (xem hình 1.20). Trong field prediction, dự đoán đ−ợc tạo ra một cách độc lập cho mỗi tr−ờng dựa trên một hoặc nhiều tr−ờng tham chiếụ Trong đó tr−ờng top đ−ợc dự đoán từ tr−ờng top tr−ớc đó hoặc từ một tr−ờng bottom tr−ớc đó thuộc cùng một ảnh. Trong một field picture tất cả các dự đoán là dự đoán tr−ờng (field prediction). Dự đoán frame có thể sử dụng nh− trong MPEG-1 hoặc có thể sử dụng nh− hai dự đoán field kết hợp. Nh− vậy trong frame picture có thể sử dụng dự đoán frame hoặc field.

1.6.3. Mô hình m∙ hoá scalable theo MPEG-2.

Mục đích của mã hoá scalable là cung cấp sự thao tác giữa các dịch vụ khác nhau và hỗ trợ các dịch vụ một cách linh hoạt với các khả năng biểu diễn khác nhaụ

Các bộ thu nhận hoặc không có khả năng hoặc sẵn sàng xây dựng lại

Video với độ phân giải đầy đủ có thể giải mã các tập con của dòng bit đã phân

lớp để biểu diễn Video trong độ phân giải không gian hoặc thời gian thấp hơn hoặc với chất l−ợng thấp hơn.

Một ứng dụng quan trọng cho mã hoá scalable gồm có việc liệt kê cơ sở dữ liệu Video và biểu diễn lại đa phân giải của Video trong các môi tr−ờng đa ph−ơng tiện. Chuẩn MPEG-2 chuẩn hoá 3 nguyên lý mã hoá scalable là: SNR

scalability, Spatial scalability và temporal scalability. Mỗi nguyên lý có một

chức năng riêng nhằm hỗ trợ cho các ứng dụng có yêu cầu riêng biệt. Có thể kết hợp các công cụ scalability khác nhau thành một sơ đồ mã hoá hybrid, có nghĩa là sự t−ơng tác giữa các dịch vụ kể cả độ phân giải không gian và tỉ lệ

frame khác nhau có thể đ−ợc hỗ trợ bằng cách kết hợp Spatial scalability và

Temporal scalability. Ngoài ra sự t−ơng tác giữa các dịch vụ HDTV và SDTV có thể đ−ợc cung cấp kèm theo khả năng hiệu chỉnh các lỗi kênh truyền bằng cách kết hợp sự mở rộng Spatial scalability với công cụ SNR scalability.

Spatial scalability:

u Đ−ợc phát triển để hỗ trợ hiển thị các độ phân giải khác nhau tại bộ thu nhận. Nghĩa là ảnh Video có độ phân giải không gian thấp có thể đ−ợc khôi phục từ lớp cơ sở. Tính năng này rất hữu hiệu cho rất nhiều ứng dụng bao gồm mã hoá nhúng cho các hệ thống HDTV/TV, cho phép chuyển các dịch vụ TV số đến các dịch vụ HDTV với độ phân giải không gian cao hơn.

u Thuật toán dựa trên ph−ơng pháp tiếp cận hình chóp truyền thống cho mã hoá ảnh liên tục.

u Có khả năng hỗ trợ một cách linh hoạt cho một phạm vi rộng độ phân giải nh−ng khi đó độ phức tạp tính toán trong MAIN Profile cũng sẽ tăng. SNR scalability:

u Công cụ này đ−ợc phát triển để cung cấp sự suy giảm chất l−ợng uyển chuyển (graceful degradation) của chất l−ợng Video trong môi tr−ờng truyền −u tiên.

u Thuật toán th−ờng sử dụng để có đ−ợc sự suy giảm uyển chuyển (graceful

degradation) dựa trên kỹ thuật scalability tuần tự (DCT-domain).

u Tại lớp cơ sở, các hệ số DCT đ−ợc l−ợng tử hoá và truyền thô để đạt đ−ợc chất l−ợng vừa phải và giảm tỉ số bit (xem hình 1.21).

u Lớp nâng cao mã hoá và truyền sự khác nhau giữa các hệ số DCT không đ−ợc l−ợng tử và hệ số DCT đã đ−ợc l−ợng tử từ lớp cơ sở với kích cỡ b−ớc l−ợng tử tốt (xem hình 1.21).

u Tại bộ giải mã, tín hiệu Video chất l−ợng cao nhất đ−ợc xây dựng lại bằng cách giải mã dòng bit ở cả lớp cơ sở và lớp nâng cao (xem hình 1.22).

Temporal scalability:

u Công cụ đ−ợc phát triển với mục đích t−ơng tự nh− Spatial scalability. Phân vùng dữ liệu:

u Công cụ này nhằm trợ giúp huỷ bỏ lỗi có mặt trong khi truyền đạt hoặc lỗi kênh truyền trong ATM, truyền thông hoặc các môi tr−ờng thu âm hấp dẫn.

u Thuật toán là t−ơng tự nh− công cụ SNR scalability, dựa trên sự phân chia các hệ số và đ−ợc thực hiện với độ phức tạp thấp so với các sơ đồ scalable mã hoá khác.

u Cung cấp sự bảo vệ lỗi, các hệ số DCT mã hoá trong dòng bit đ−ợc chia và truyền một cách đơn giản trong hai lớp với khả năng xảy ra lỗi khác nhaụ

Hình 1.21. Bộ mã hoá hai lớp cho mã hoá SNR scalable của video

Đánh giá chuyển động (motion estimation)

Mô hình Video phổ biến