Nguyên tắc mã hoá và giải mã MPEG-

- khung hiện hành + vecto chuyển động

525 CSIF 4:2:0 CCIR 601 625 CCIR 601

2.3.3.2. Nguyên tắc mã hoá và giải mã MPEG-

MPEG-4 là sản phẩm của nhóm MPEG được thành lập tháng 1/1988 với nhiệm vụ phát triển các chuẩn xử lý, mã hoá và hiển thị các ảnh động, audio và các tổ hợp của chúng. Sản phẩm đầu tiên của nhóm này là MPEG-1 được sử dụng cho việc mã hoá các dữ liệu nghe nhìn với tốc độ 1,5 Mbps. Sản phẩm thứ hai của

nhóm là MPEG-2 nổi tiếng hiện nay, mang tính tổng quát hơn và đang được áp dụng cho một loạt các ứng dụng nghe nhìn trong phạm vi tốc độ từ 3 – 40 Mbps.

Không giống các chuẩn MPEG trước đó, ví dụ như trong MPEG-2, nơi mà nội dung được tạo ra từ nhiều nguồn như video ảnh động, đồ hoạ, văn bản… và được tổ hợp thành chuỗi các khung hình phẳng, mỗi khung hình (bao gồm các đối tượng như người, đồ vật, âm thanh, nền khung hình…) được chia thành các phần tử ảnh pixels và xử lý đồng thời, giống như cảm nhận của con người thông qua các giác quan trong thực tế. Các pixels này được mã hoá như thể tất cả chúng đều là các phần tử ảnh video ảnh động. Tại phía thu của người sử dụng, quá trình giải mã diễn ra ngược lại với quá trình mã hoá không khó khăn. Vì vậy có thể coi MPEG-2 là một công cụ hiển thị tĩnh, và nếu một nhà truyền thông phát lại chương trình của một nhà truyền thông khác về một sự kiện, thì logo của nhà sản xuất chương trình này không thể loại bỏ được. Với MPEG-2, bạn có thể bổ xung thêm các phần tử đồ hoạ và văn bản vào chương trình hiển thị cuối cùng (theo phương thức chồng lớp), nhưng không thể xoá bớt các đồ hoạ và văn bản có trong chương trình gốc.

Chuẩn MPEG-4 khắc phục được hạn chế này và là một chuẩn động dễ thay đổi. Với MPEG-4, các đối tượng khác nhau trong một khung hình có thể được mô tả, mã hoá và truyền đi một cách riêng biệt đến bộ giải mã trong các dòng cơ bản ES (Elementary Stream) khác nhau. Cũng như xác định, tách và xử lý riêng các đối tượng (như nhạc nền, âm thanh xa gần, đồ vật, đối tượng ảnh video như con người hay động vật, nền khung hình…), nên người sử dụng có thể loại bỏ riêng từng đối tượng khỏi khuôn hình. Sự tổ hợp lại thành khung hình chỉ được thực hiện sau khi giải mã các đối tượng này.

Hình 2.12. Sự tổng hợp khung hình trong MPEG-4

Trên hình 2.12 thể hiện một trường hợp điển hình của tổ hợp khuôn hình MPEG-4, cho thấy nhiều đối tượng (bàn, quả cầu, bảng đen, người hướng dẫn và audio) được đặt vào một hệ thống toạ độ không gian 3 chiều (3-D) đối với vị trí người xem giả định.

Các thiết bị mã hoá và giải mã video đều áp dụng sơ đồ mã hoá như nhau cho mối đối tượng video VO (Video Object) riêng biệt (hình 2.13), nhờ vậy người sử dụng có thể thực hiện các hoạt động tương tác riêng với từng đối tượng (thay đổi, di chuyển, kết nối, loại bỏ, bổ xung các đối tượng…) ngay tại vị trí giải mã hay mã hoá.

Video Information Video Object Composition

Video Object Formation VO 0 Coding VO 1 Coding VO n Coding MUX VO 0 Decoding VO 1 Decoding VO n Decoding DMUX User Interaction Video Output User Interaction Bitstream

Hình 2.13: Cấu trúc bộ mã hoá và giải mã video MPEG-4

Các bộ phận chức năng chính trong thiết bị MPEG-4 tại đầu thu bao gồm:

 Bộ mã hoá hình dạng ngoài Shape Coder dùng để nén đoạn thông tin, giúp xác định khu vực và đường viền bao quanh đối tượng trong khung hình scene.

 Bộ dự đoán và tổng hợp động để giảm thông tin dư thừa theo thời gian.

 Bộ mã kết cấu mặt ngoài Texture coder dùng để xử lý dữ liệu bên trong và các dữ liệu còn lại sau khi đã bù chuyển động.

Bitstream Video Out

Shape Decoding

Decoding Texture Decoding Motion Compensation VOP Memory Reconstructed VOP Compositor DEMULTIPLEXER Shape Information

Hình 2.14. Nguyên lý giải mã video MPEG-4 tại đầu thu

Hình 2.14 là một ví dụ về tổng hợp khung hình video sử dụng trong MPEG- 4. Nhiều đối tượng như người, bản đồ, bản tin, được tách ra khỏi video đầu vào.

Mỗi đối tượng video sau đó được mã hoá bởi bộ mã hoá đối tượng video VO (Video Object) và sau đó được truyền đi trên mạng. Tại vị trí thu, những đối tượng này được giải mã riêng nhờ bộ giải mã riêng VO và gửi khung hình gốc, hay để xử lý các đối tượng tạo ra một khung hình khác. Ngoài ra, người sử dụng có thể download các đối tượng khác từ các thư viện cơ sở có sẵn dữ liệu để chèn thêm vào hay thay thế các đối tượng có trong khuôn hình gốc.

Để có thể tổ hợp khung hình, MPEG-4 sử dụng một ngôn ngữ mô tả khung hình riêng, được gọi là định dạng nhị phân cho khung hình BiFS (Binary Format for Scenes). BiFS không chỉ mô tả ở đâu và khi nào các đối tượng xuất hiện trong khung hình, nó cũng mô tả cách thức hoạt động của đối tượng và cả điều kiện hoạt động đối tượng và tạo cho MPEG-4 có khả năng tương tác. Trong MPEG-4 tất cả các đối tượng có thể được mã hoá với sơ đồ mã hoá riêng của nó – video được mã hoá theo kiểu video, text được mã hoá theo kiểu text, các đồ hoạ được mã hoá theo đồ hoạ - thay vì việc xử lý tất cả các phần tử ảnh pixels như là mã hoá video ảnh động. Do các quá trình mã hoá đã được tối ưu hoá cho từng loại dữ liệu thích hợp, nên chuẩn MPEG-4 sẽ cho phép mã hoá với hiệu quả cao tín hiệu ảnh video, audio và cả các nội dung tổng hợp như các bộ mặt và cơ thể hoạt hình.

Tiêu chuẩn nén video MPEG-

Cấu trúc dòng bit video MPEG-