những yêu cầu đặc biệt cho việc nén và truyền tải Truyền hình kỹ thuật số. Một trong những khác biệt so với MPEG-1 đó là việc nén hiệu quả cho video tích hợp.
MPEG-4
Được thiết kế cho các ứng dụng có tốc độ bit rất thấp cho đến các ứng dụng có tốc độ bit rất cao. Ứng dụng của MPEG-4 là các ứng dụng đa phương tiện trên internet hay trên mạng không dây. Kỹ thuật nén trong MPEG-4 dựa trên việc nén theo đối tượng, các đối tượng trong các cảnh video được theo dõi riêng rẽ và được nén lại cùng nhau.
MPEG-7
Multimedia Content Description Interface: tiêu chuẩn này hiện đang được phát triển. Tiêu chuẩn này cung cấp qui định khung cho các nội dung đa phương tiện bao gồm cả nội dung video và thông tin điều khiển (các thao tác, lọc hay cá nhân hóa,…).
MPEG-21
Multimedia Framework: hiện tại tiêu chuẩn này đang được phát triển. MPEG- 21 mô tả các thành phần cần thiết và mối quan hệ giữa chúng, để tạo nên cơ sở hạ tầng cho việc chuyền tải và sử dụng nội dung đa phương tiện.
MPEG-4 được thiết kế đặc biệt cho việc nén hình ảnh và âm thanh, tiêu chuẩn này cho phép cung cấp các dịch vụ và nội dung có chất lượng từ thấp cho đến chất lượng cao qua các môi trường truyền tải khác nhau như: băng rộng, không dây, chuyển mạch gói. MPEG-4 thực sự là một tập các tiêu chuẩn công nghệ nhằm đảm bảo chất lượng dịch vụ từ nhà cung cấp dịch vụ nội dung đến người dùng cuối
MPEG-1 và MPEG-2 đã được chuẩn hoá trong khi MPEG-4 và MPEG-7 đang được phát triển.
2.3.2. Kỹ thuật nén cơ bản trong MPEGMPEG-1 MPEG-1
Khái niệm
Chuẩn MPEG thứ nhất được ra đời bởi nhóm các nhà chuyên môn về hình ảnh động, mà mọi người đã được biết đến với tên gọi là MPEG-1, được thiết kế để cung cấp phương pháp nén âm thanh video và âm thanh để lưu trữ và phát lại trên những đĩa CD-ROM. Một Đĩa CD-ROM được phát với ‘tốc độ đơn’ có tốc độ truyền là 1,4 Mbps. Mục đích MPEG-1 để nén hình ảnh và âm thanh tới một tốc độ bit 1,4 Mbps với một chất lượng có thể so sánh được với băng từ VHS.
MPEG-1 được phát triển và thừa nhận năm 1992 để lưu trữ video dạng CIF và kết hợp với audio khoảng 1.5Mbps trên nhiều môi trường lưu trữ số khác nhau như CD-ROM, DAT, Winchester, đĩa quang với ứng dụng chính là các hệ thống đa môi trường trực tuyến.
đầu
Mục tiêu thị trường là đĩa ‘video CD’, một tiêu chuẩn CD được cất giữ video và âm thanh với nội dung chứa lên trên tới 70 phút. CD Video chưa bao giờ thành công về mặt thương mại: sự cải tiến chất lượng băng VHS không có khả năng để lôi cuốn những khách hàng để thay thế của họ những máy ghi băng hộp và độ dài cực đại 70 phút tạo ra một sự kích thích tấn công vào chiều dài đặc tính của ngành điện ảnh.
Tuy nhiên, MPEG-1 là quan trọng bởi hai lý do: nó có được lợi ích sử dụng phổ biến trong bộ lưu trữ video khác và những ứng dụng truyền hình (bao gồm đĩa CD- ROM như là một bộ phận của những ứng dụng tương tác lẫn nhau và phát lại video qua Internet), và những chức năng của nó được sử dụng và được mở rộng trong chuẩn MPEG-2 được nhiều người ưa chuộng.
Chuẩn MPEG-1 gồm có ba phần. Phần116 giải quyết những vấn đề hệ thống (bao gồm bộ ghép của việc mã hóa video và âm thanh), Phần Z4 giải quyết vấn đề nén video và Phần 317 nén âm thanh. Phần 2 (videow) như được phát triển với mục đích hỗ trợ có hiệu quả của sự mã hóa video cho những ứng dụng phát lại của đĩa CD và đang đạt được chất lượng video có thể so sánh được tới, hay tốt hơn so với băng từ VHS tương ứng với đĩa CD có tốc độ bit khoảng 1,2 Mbps cho video.
Có một yêu cầu để giảm thiểu sự phức tạp của việc giải mã một khi đa số những ứng dụng khách hàng được vạch ra bao gồm sự giải mã và chỉ phát lại, không phải mã hóa. Kể từ đây MPEG – 1 được giải mã đơn giản hơn so với lập mã một cách đáng kể (không giống JPEG, ở đâu bộ có mã hóa và giải mã là có những mức tương tự của sự phức tạp).
Những đặc tính của MPEG-1
• Là tiêu chuẩn tổng quát cú pháp, hỗ trợ ước lượng chuyển động, dự đoán bù chuyển động, DCT, lượng tử và VLC.
• Không định nghĩa các thuật toán xác định cụ thể mà thiết kế bộ mã hoá linh hoạt.
• Khả năng phục vụ các ảnh khác nhau, hoạt động trên các thiết bị, tốc độ khác nhau.
• Truy cập ngẫu nhiên dựa vào các điểm truy cập độc lập (khung I).
• Tìm nhanh xem như quét dòng bit mã hoá, chỉ hiển thị các khung được chọn.
• Trễ mã hoá và giải mã hợp lý (1s), gây ấn tượng tốt cho truy cập video đơn công.
Tín hiệu video vào được đưa tới một bộ mã hóa video MPEG-1 là dạng 4: 2: 0 Y:Cr:Cb với một độ phân giải không gian tiêu biểu là 352x288 hay 352x240 pixels (điểm ảnh). Mỗi khung của video được xử lý trong các đơn vị của một macro block, tương ứng tới một vùng 16x16 pixels trong khung được hiển thị. Vùng này được tạo ra
đầu
tới 16x16 mẫu độ chói, 8x8 mẫu Cr và 8x8 mẫu Cb (vì Cr and Cb có nửa độ phân giải theo chiều dọc và chiều ngang của thành phần độ chói). Một macroblock gồm có sáu khối 8x8: bốn độ chói(Y) một khối Cr và một khối Cb (hình 3.14).
Hình 2.14. Macroblock gồm sáu khối 8x8 và cấu trúc của một macroblock
Mỗi khung của video được mã hóa thành sản phẩm là một hình ảnh đã được mã hóa. Có ba kiểu chủ yếu: các hình ảnh I, các hình ảnh P và các hình ảnh B (tiêu chuẩn chỉ rõ kiểu hình ảnh thứ tư, các hình ảnh D, nhưng ở đây ít khi được sử dụng trong những ứng dụng thực tế.)
Ảnh I Ảnh P Ảnh B
Intra Intra Intra Inter-D Inter-F Inter-DA Inter-FD Inter-F Inter-FDA Inter-FD Inter-B Inter-FDA Inter-BD Skipped Inter-BDA Inter-I Inter-ID Inter-IDA Skipped
Những hình ảnh Iđược mã hóa intra không có bất kỳ sự chuyển động nào-là sự dự đoán được bù (một cách tương tự tới một ảnh JPEG đường gốc). Hình ảnh I được sử dụng như một sự tham khảo cho những hình ảnh được dự đoán về sau (những hình ảnh P và B).
Những ảnh Pđược mã hóa đang sử dụng là sự dự đoán được bù đến từ một hình ảnh tham khảo (ảnh P hoặc ảnh I là mào đầu dòng ảnh P). Do đó ảnh P được dự báo
đầu
dùng dự báo phía trước và một ảnh P có thể được sử dụng bình thường như một sự tham khảo cho các hình dự báo xa hơn nữa (các hình ảnh P và B).
Những hình ảnh B được mã hóa intra đang sử dụng để dự đoán bù sự chuyển động từ hai ảnh tham khảo, các ảnh P và/hoặc I trước và sau dòng ảnh B. Hai vectơ chuyển động được tạo ra cho mỗi macroblock trong ảnh B (hình 2.15): một trỏ vào một vùng thích ứng trong hình tham khảo trước đây (một vectơ phía trước) và một trỏ vào một vùng thích ứng trong hình tham khảo tương lai (một vectơ ngược lại).
Dự báo bù chuyển động macroblock có thể được hình thành trong ba cách: dự báo phía trước đang dùng vectơ phía trước, sự dự báo lùi dùng vectơ ngược lại hay sự dự đoán hai chiều (ở đâu có sự tham khảo dự đoán được hình thành bởi việc tính trung bình theo sự tham khảo dự báo phía trước và ngược lại). Điển hình, một bộ mã hóa chọn kiểu dự đoán (phía trước, ngược lại hay hai chiều) điều đó đưa cho năng lượng thấp nhất trong macroblock khác nhau . Các ảnh B không tự chúng sử dụng như sự tham khảo dự báo cho bất kỳ khung dự báo nào thêm nữa.
Hình 2.15. Dự đoán macroblock ảnh B đang sử dụng véc tơ forward và backward
Hình 2.16. Một nhóm hình IBBPBBPBB của MPEG-4
Hình 2.16 cho thấy một loạt đặc trưng của các ảnh I-B và P. Để mã hóa một ảnh B, hai ảnh I hoặc P ở gần bên cạnh (hình ảnh ‘mỏ neo’ hay hình ảnh ‘chìa khóa’) phải được xử lý và được cất giữ trong bộ nhớ dự báo, giới thiệu sự trễ của vài khung vào trong thủ tục mã hóa. Trước khi khung B2 trong hình 2.16 có thể được mã hóa, hai
khung ‘mỏ neo’ đó I1 và P4 phải được xử lý và cất giữ, thí dụ những khung 1-4 phải là những khung được xử lý trước các khung 2 và 3 có thể được mã hóa. Trong ví dụ này,
Véctơ tiến tới
Vùng tham khảo phía
trước Véctơ lùi lại
Vùng tham khảo phía sau Dòng macroblock Ảnh B
đầu
có trễ của ít nhất ba khung trong thời gian đang mã hóa (khung 3 và 4 cần phải được lưu trữ trước khi B2 được mã hóa) và sự trễ này sẽ lớn hơn nếu hình ảnh B được sử dụng hơn nữa.
Tóm lại: Bộ mã hoá MPEG-1 tiến hành các bước sau: - Quyết định nhãn của các khung I, P và B trong một GOP.
- Đánh giá chuyển động cho mỗi MB (Macroblock) trong các ảnh P, B. - Xác định kiểu nén MTYPE cho mỗi MB.
- Đặt tỷ số lượng tử MQUANT nếu lượng tử thích ứng được chọn.
Để hạn chế trễ trong giải mã, hình ảnh được mã hóa được sắp đặt lại (reordered) trước khi truyền dẫn, tất cả những ảnh mỏ neo đòi hỏi giải mã ảnh B là vị trí trước đây của ảnh B. Hình 2.17 cho ta thấy một loạt các khung như vậy, sắp đặt lại ưu tiên cho sự truyền. P4 bây giờ được đặt trướcB2 và B3.
Sự giải mã được bắt đầu: P4 được giải mã ngay lập tức sau I1 và được cất giữ bởi bộ giải mã. Bây giờ B2 và B3 có thể được giải mã và hiển thị (bởi vì các tham khảo dự báo của chúng I1 và P4 ), sau đó nó được hiển thị với P4. Có nhiều nhất một khung bị trễ giữa sự giải mã và hiển thị và chỉ bộ giải mã cần lưu giữ hai khung được giải mã. Đây là một ví dụ về ‘sự không đối xứng’ giữa bộ mã hóa và bộ giải mã: sự trễ và lưu giữ trong bộ giải mã một cách đáng kể thấp hơn so với trong bộ mã hóa.
Hình 2.17. Một nhóm hình IBBPBBPBB của MPEG-4 được phát đi
Ví dụ:
Một GOP như hình vẽ được kết hợp bởi 9 ảnh. Chú ý rằng khung đầu của mỗi GOP luôn là một ảnh I. Trong MPEG, trật tự trong các ảnh không cần thiết giống nhau theo thứ tự liên tiếp. Nghĩa là thứ tự truyền ảnh và thứ tự ảnh hiện lên màn hình là không giống nhau. Ảnh trong hình vẽ có thể được mã hoá trong một trật tự như sau: 0, 4, 1, 2, 3, 8, 5, 6, 7 hay 0, 1, 4, 3, 8, 5, 6, 7. Khi dự đoán với các ảnh P và B nên dựa trên các ảnh đã được truyền.
đầu
Hình 2.18. Dự đoán các ảnh được truyền
Những hình I là những điểm không đồng đều hữu ích trong dòng bit được mã hóa: bởi vì nó được mã hóa không diễn tả, một hình I có thể được giải mã độc lập với bất kỳ hình ảnh mã hóa nào khác. Những hỗ trợ này được truy xuất một cách ngẫu nhiên bởi một bộ giải mã (một bộ giải mã có thể bắt đầu giải mã dòng bit tại bất kỳ một vị trí của hình I) và khả năng phục hồi lỗi.
Tuy nhiên, một hình I có hiệu quả nén nghèo nàn bởi vì không có được sự dự đoán thời gian sử dụng. Những ảnh P cung cấp hiệu quả nén tốt hơn vì dự báo bù chuyển động và có thể được sử dụng như những dự đoán tham khảo. Hình B có hiệu quả nén cao nhất cho mỗi loạt ba hình một.
Tiêu chuẩn MPEG-1 thậm chí không định nghĩa về kiểu mẫu bộ mã hóa. Thay vào đó, tiêu chuẩn mô tả cú pháp mã hóa và một giả thuyết ‘tham khảo’ bộ giải mã. Trong thực tế, cú pháp và chức năng mô tả bởi tiêu chuẩn trung bình mà một bộ mã hóa phải phục tùng và phải chứa đựng những chức năng nhất định.
Các bộ CODEC cơ bản tương tự như nhau. Một ‘đầu cuối’ thực hiện ước lượng chuyển động và sự bù gốc dựa vào một khung tham khảo (hình ảnh P) hoặc hai khung tham khảo (hình ảnh B). Phần dư bù chuyển động (hoặc bản chính vẽ dữ liệu trong trường hợp của ảnh I) được mã hóa dùng DCT, được lượng tử hóa những hệ số biến đổi tỷ lệ và làm thay đổi hoàn toàn DCT ngược lại để đưa ra một khung tham khảo được lưu giữ cho dự báo xa hơn của hình P hoặc B. Trong bộ giải mã, dữ liệu mã hóa là entropi được giải mã, thay đổi tỷ lệ, sự thay đổi ngược và được bù chuyển động. Phần phức tạp hơn cả của CODEC thường là đánh giá chuyển động vì ước lượng chuyển động hai chiều thì tính toán cường độ cao. Ước lượng Chuyển động thì duy nhất yêu cầu trong bộ mã hóa và đây là ví dụ khác (của) sự không đối xứng giữa bộ mã hóa và bộ giải mã.
Các ứng dụng của MPEG-1
Phụ thuộc vào các ứng dụng, các thiết bị chơi video cũng mã hóa nhiều dạng MPEG mức cao hơn - như CD-i (sách vàng), Video CD (sách trắng) và karaoke - ngoài định dạng mẫu số chung nhỏ nhất ISO 9660 mà tất cả các bộ giải mã sử dụng.
đầu
Mặc dù phần lớn các bộ giải mã hỗ trợ các định dạng này, nhưng chúng làm việc với các mức độ phức tạp khác nhau. Tuy nhiên không phải tất cả các bộ giải mã đều hỗ trợ bộ chọn rãnh, một đặc điểm đáng giá để đẩy qua các video trên tiêu đề CD-i.
MPEG-2
Khái niệm
Tiếp theo ứng dụng giải trí quan trọng cho mã hóa video (sau đó lưu trên đĩa CD-ROM) là sự truyền hình số. Theo đó để cung cấp dich vụ truyền hình có thể chọn lựa được có thể thay thế đối với truyền hình tương tự, đặc tính quan trọng riêng được yêu cầu cho thuật toán mã hóa video.
Nó có hỗ trợ những khung có kích thước lớn hơn một cách hiệu quả điển hình là 720x480 pixels (theo khuyến nghị ITU- R 601) và sự mã hóa của video được kết hợp với nhau. MPEG-1 chủ yếu được thiết kế để hỗ trợ video, mỗi khung được quét như một đơn vị trong trường quét. Việc quyết định chất lượng truyền hình, video kết hợp với nhau đưa ra một ảnh video mịn hơn. Vì hai trường được bắt tại những khoảng thời gian riêng biệt (điển hình là cách nhau một khoảng 1/50 hay 1/60 trong một giây), việc thực hiện tốt hơn hơn có thể đạt được bởi việc mã hóa những trường riêng rẽ.
Những đặc tính của MPEG-2
MPEG-2 gồm có ba phần chính: Video (được mô tả ở dưới), âm thanh (được dựa vào MPEG-1 âm thanh đang mã hóa) và hệ thống (được xác định chi tiết hơn so với hệ thống MPEG- 1, bộ đa hợp và sự truyền của âm thanh được mã hóa trực quan). Video MPEG-2 (gần như) một tập hợp của Video MPEG-1. Thí dụ đa số Video MPEG-1 cần phải tuần tự giải mã bởi một bộ giải mã MPEG-2. Sự nâng cao chính bổ sung cho chuẩn MPEG2 như sau:
Hiệu quả của mã hóa của video truyền hình chất lượng cao
Đa số ứng dụng quan trọng của MPEG-2 là truyền hình số phát quảng bá. Những chức năng ‘cốt lõi’ của MPEG-2 (như ‘profile chính/ mức chính’) là tối ưu hóa cho sự mã hóa có hiệu quả cho truyền hình tại một tốc độ truyền theo bit khoảng 3- 5 Mbps.
Hỗ trợ cho việc mã hóa video kết hợp
Video MPEG-2 có vài đặc tính hỗ trợ mã hóa linh hoạt của video kết hợp. Hai trường làm trên một khung được kết hợp với nhau đầy đủ có thể được mã hóa như những bức ảnh riêng biệt (những bức ảnh trường), mỗi cái được mã hóa như một hình I , P và B. Trường những ảnh P và B có thể dự đoán từ một trường trong khung khác hay từ trường khác trong khung hiện thời. Cách khác, hai trường được xử lý như một ảnh đơn (một khung hình) với những mẫu độ chói trong mỗi macroblock (của) một khung ảnh được thu xếp một trong hai cách.
đầu