Tiểu luận công nghệ MPEG4 tìm HIỂU về CÔNG NGHỆ MPEG4
Trang 1TÌM HIỂU VỀ CÔNG NGHỆ MPEG4
I.Lời nói đầu
Với sự phát triển của công nghệ thông tin, và cùng với đó là sự phát triển ngàycàng mạnh mẽ của các ứng dụng truyền thông đa phương tiện , đòi hỏi con ngườikhông ngừng tìm tòi sáng tạo để đáp ứng kịp với xu thế phát triển ấy Nhờ vào sựphát triển của các ứng dụng truyền thông đa phương tiện mà chúng ta có thể đưa
âm thanh, hình ảnh, hay các đoạn video đi xa một cách nhanh chóng và thuận tiện.Song với việc truyền tải một đoạn video có dung lượng lớn đi xa gặp khá nhiềukhó khăn bởi khả năng có hạn của kênh dẫn.Vì vậy các nhà sản xuất đã áp dụngmột số kỹ thuật nén để giúp tối ưu hóa các đoạn video trên, làm giảm dung lượngphải truyền đi mà chất lượng hình ảnh tương đương với hình ảnh gốc Một trongcác kỹ thuật nén được sử dụng rộng rãi đó là kỹ thuật nén chuyển động mà tiêubiểu là chuẩn nén MPEG Qua quá trình nghiên cứu các chuyên gia đã cho ra đờichuẩn nén MPEG-4 với nhiều tính năng ưu việt và nó đã nhanh chóng được ứngdụng rộng rãi trong hệ thống thông tin video nén MPEG-4 sử dụng một phươngpháp mã hóa video theo từng đối tượng thay vì mã hóa toàn bộ cả một đoạn video,
vì vậy dung lượng video được giảm đi đáng kể mà chất lượng lại không có nhiềuthay đổi
II Tổng quan về MPEG4
Tại sao chúng ta cần phải nén video ?
Để xem được 1 đoạn video có chất lượng cao mà dung lượng không quá lớn là 1điều rất quan trọng và cần thiết Đó chính là lí do cần phải sử dụng 1 công cụ nénvideo nhằm giảm tối đa dung lượng của đoạn video mà chất lượng vẫn đáp ứngđược yêu cầu
Nhu cầu truyền phát các dịch vụ Multimedia mới trên hạ tầng kỹ thuật mạng
Trang 2với truyền thông nghe nhìn trên mạng internet, tạo ra một phương thức sản xuất,cung cấp và ứng dụng mới các nội dung video trên cơ sở nội dung và hướng đốitượng (content/object-based) Đây chính là một công nghệ trình diễn truyền thông
đa phương tiện phức hợp, có khả năng truyền thông trong các môi trường băngthông rất khác nhau nhờ kết hợp tốt 3 môi trường: Truyền hình số, đồ hoạ tươngtác và World Wide Web
** Nhược điểm của MPEG2
Tiêu chuẩn video MPEG-2 bị hạn chế bởi hai yếu tố trong định nghĩa ban đầu(original definition) của nó:
* Tốc độ bit nhắm tới của video được nén là khoảng 2–15 Mb/s (đối với mainprofile ở mail level) Tiêu chuẩn này không chứa giới hạn tốc độ bit thấp hơn bất
kỳ vì điều này không được yêu cầu trong định nghĩa của bộ mã hóa tương thích.Hiển nhiên MPEG-2 cũng không hiệu quả với tốc độ bit thấp hơn
* Silicon cho thực hiện MPEG-2 đã bị giới hạn đến trình độ công nghệ của nhữngngày đó Điều này có nghĩa là trong năm 1994 ASIC (application SpecificIntegrated Circuit) được sử dụng trong thiết kế bộ giải mã với mật độ 120.000gate/chip với kích thước gate 0.5 - 1 m Trong khi đó công nghệ tiên tiến ngày nay
đã đạt 25.000.000 gate/ASIC với kích thước gate nhỏ hơn 0.1 m Như vậy các kỹthuật dựa trên MPEG-2 đã bị hạn chế trong việc thực hiện thực tế trong công nghệngày hôm nay
* Hạn chế đối với mạng băng thông thấp (tốn nhiều băng thông)
1.Khái niệm và đặc điểm của MPEG4
Hiệp hội viễn thông quốc tế (ITU) và tổ chức tiêu chuẩn quốc tế/ Uỷ ban kỹthuật điện tử quốc tế (ISO/IEC) là hai tổ chức phát triển các tiêu chuẩn mã hoáVideo Theo ITU-T, các tiêu chuẩn mã hoá Video được coi là các khuyến nghị gọitắt là chuẩn H.26x (H.261, H.262, H.263 và H.264) Với tiêu chuẩn ISO/IEC,chúng được gọi là MPEG-x (như MPEG-1, MPEG-2 và MPEG-4)
Trang 3MPEG-4 là sản phẩm của nhóm MPEG (Moving Picture Expert Group) đượcthành lập tháng 01/1988 với nhiệm vụ phát triển các chuẩn xử lý, mã hoá và hiểnthị các ảnh động, audio và các tổ hợp của chúng
Mpeg-4 là chuẩn cho các ứng dụng MultiMedia Mpeg-4 trở thành một tiêuchuẩn cho nén ảnh kỹ thuật truyền hình số, các ứng dụng về đồ hoạ và Videotương tác hai chiều(Games,Videoconferencing) và các ứng dụng Multimediatương tác hai chiều (World Wide Web hoặc các ứng dụng nhằm phân phát dữ liệuVideo như truyền hình cáp, Internet Video )
Mpeg-4 đã trở thành một tiêu chuẩn công nghệ trong quá trình sản xuất, phânphối và truy cập vào các hệ thống Video Nó đã góp phần giải quyết vấn đề vềdung lượng cho các thiết bị lưu trữ, giải quyết vấn đề về băng thông của đườngtruyền tín hiệu Video hoặc kết hợp cả hai vấn đề trên
Với MPEG-4, các đối tượng khác nhau trong một khung hình có thể được mô
tả, mã hoá và truyền đi một cách riêng biệt đến bộ giải mã trong các dòng cơ bản
ES (Elementary Stream) khác nhau Cũng nhờ xác định, tách và xử lý riêng cácđối tượng (như nhạc nền, âm thanh xa gần, đồ vật, đối tượng ảnh video như conngười hay động vật, nền khung hình …), nên người sử dụng có thể loại bỏ riêngtừng đối tượng khỏi khuôn hình Sự tổ hợp lại thành khung hình chỉ được thựchiện sau khi giải mã các đối tượng này
H.264 ( MPEG-4 AVC hay MPEG-4 part 10), hiện đang là phương thức tiêntiến nhất trong lĩnh vực nén video H.264 cho chất lượng hình ảnh tốt nhất khi cócùng dung lượng so với các chuẩn nén khác H.264 cũng được ứng dụng như thuậtnén chính trong video độ phân giải cao (HD)
Mục tiêu chính của chuẩn nén H.264 đang phát triển nhằm cung cấp Video cóchất lượng tốt hơn nhiều so với những chuẩn nén Video trước đây Điều này có thể
Trang 42.Ưu điểm
Kĩ thuật mã hóa video nén theo hướng đối tượng MPEG-4 mà hiện nay đangđuợc sử dụng rất nhiều như 1 công cụ mã hóa với nhiều tính năng ưu việt
a Tính mềm dẻo và có khả năng nâng cấp.
Các nhà thiết kế bộ mã hoá MPEG phải đối mặt với rất nhiều vấn đề, nhưngvấn đề quan trọng nhất là làm sao thiết kế được một thuật toán nén mềm dẻo và cókhả năng nâng cấp được trong tương lai Họ thường mong muốn có được các bộ
mã hoá MPEG thích hợp cho nhiều ứng dụng, từ TV màn ảnh rộng, chất lượng caotới các hệ thống nhỏ, tín hiệu video đen trắng cho các hệ thống camera an ninh.Hiển nhiên là một hệ thống nén thiết kế dành cho các phim màn ảnh rộng phải cóphần cứng mạnh, bộ nhớ lớn hơn là một hệ thống được thiết kế cho hệ thốngcamera dành cho mục đích an ninh Các nhà thiết kế giải quyết vấn đề này bằngcách định nghĩa "Level" và "Profile" cho hệ thống Các "Level" xác định giới hạnnăng lực xử lý của phần cứng và bộ nhớ cần thiết để mã hoá tín hiệu Các "Profile"xác định độ phức tạp của quá trình mã hoá và giải mã Đối với MPEG-4 thì có 19profile (nhưng đối với H.264 chỉ có 3 profile)
Về khả năng nâng cấp của bộ mã hoá MPEG, họ thiết kế theo hai bước Bướcthứ nhất là thay cho xác định chỉ tiêu của bộ mã hoá và giải mã, họ xác định loạitín hiệu nằm giữa hai thiết bị này Bước thứ hai là thực hiện các cải tiến trong bộ
mã hoá và giải mã mới sao cho nó tương thích với các chuẩn cũ (backwardcompatible).Chuẩn MPEG có các qui tắc và giao thức cho tín hiệu truyền giữa bộ
mã hoá và giải mã Các quy tắc này, thực chất giống như là một loại ngôn ngữdành riêng cho bộ mã hoá và giải mã Các bộ mã hoá tương thích phải có khả năng
“nói” được ngôn ngữ này Các bộ giải mã tương thích phải có khả năng hiểu đượctoàn bộ các "từ vựng" mà bộ mã hoá đã phát ra trong một ngữ cảnh nhấtđịnh.MPEG-4 thực hiện điều này bằng cách tạo ra một bộ các công cụ dùng để néntín hiệu trong các trường hợp khác nhau Một trong các công cụ này, chuyển đổicosine rời rạc (DCT - discrete cosine transform), có nhiệm vụ chuyển đổi một khối8x8 pixel thành một tập các hệ số
Trang 5b MPEG-4 đem lại công cụ nén mới.
Ta hãy xem xét các cộng cụ nén mới mà chuẩn MPEG-4 mang tới lĩnh vựcnén ảnh Hình 1 so sánh các công cụ của chuẩn MPEG-2 và MPEG-4
Hình 2.1: công cụ nén mới của MPEG-4 so với MPEG-2.
Chuẩn MPEG-4 đi xa hơn, theo hình 2, nó có thể dự đoán hệ số của toàn bộcác khối trên một hàng hay hệ số của các khối ở cột bên trái từ một khối đầu tiên
Trang 6Việc dự đoán các hệ số của hàng hay của cột dựa trên nội dung của hình ảnh.
Ví dụ, một ảnh chứa một vật thể theo chiều đứng như cái cọc chẳng hạn Khi đóquét ảnh này theo chiều ngang sẽ tạo ra sự thay đổi lớn trong các hệ số sau DCTkhi gặp hình ảnh cái cọc này Trái lại, khi quét theo chiều đứng thì các khối nằmtrong một cột có các hệ số DCT gần giống nhau, từ đó có thể nén với tỉ lệ nén caohơn
MPEG-4 mở rộng cách dự đoán vector chuyển động MPEG-4 có thể dự đoánvector cho một macroblock từ các macroblock ở trên hay ở bên trái, và nó chỉ gửi
đi sự sai khác so với các vector cũ mà thôi Do đó giảm đi dữ liệu cần thiết dùng
để mã hoá một vector, cho phép có thể dùng một vector cho mỗi khối DCT Việc
dự đoán chuyển động sẽ tốt hơn với 4 vector, giảm nhỏ lỗi khi dự đoán
Chất lượng hình ảnh có thể được cải thiện đáng kể bằng cách dùng tỉ lệ nén dữliệu lớn hơn mà không cần thay đổi độ phân giải Mpeg không phải là một công cụnén đơn lẻ mà ưu điểm của nén Mpeg chính là ở chỗ nó có một tập hợp các công
cụ mã hoá chuẩn, chúng có thể được kết hợp với nhau một cách linh động để phục
vụ cho một loạt các ứng dụng khác nhau, khả năng truyền dẫn tốt trong môitrường truyền dẫn khắc nhiệt
c Tiềm năng của chuẩn MPEG-4.
Trong khi các chuẩn MPEG-1 và MPEG-2 thao tác với một ảnh toàn vẹn, thìchuẩn MPEG-4 có thể làm việc được với các hình ảnh được tạo ra, hay đã đượcmáy tính xử lý và đó là một thế mạnh của chuẩn MPEG-4 So với chuẩn MPEG-2thì MPEG-4 có những ưu thế hơn về xử lý đồ họa trực tiếp
Trang 7Hình 2.3.a : Đầu vào của bộ mã hóa MPEG-2 là một ảnh hoàn
chỉnh được lặp lại theo tần số ảnh (frame rate)
Hình 2.3.b : Bộ mã hóa MPEG-4 có thể xử lý các lệnh đồ họa một cách trực tiếp ,
do đó công cụ biểu diễn hình ảnh thực sự nằm trong bộ giải mã MPEG-4 Hình 2.3 : so sánh giữa chuẩn MPEG-2 và MPEG-4 về xử lý đồ
Trang 8Hình 2.4: MPEG4 đã chuẩn hóa phương pháp truyền các đối
tượng 3 chiều nhờ các đối tượng lưới.
d Audio, video và tất cả các đối tượng khác có thể được đồng bộ chặt
chẽ với độ chính xác cao và có khả năng tương tác.
Truyền thông multimedia theo dòng (Multimedia stream), trong đó dòng audio
và video sẽ được biến đổi thích nghi với yêu cầu băng thông và chất lượng hìnhnhờ loại bỏ những đối tượng (hình ảnh, âm thanh) không cần thiết khỏi dòng dữliệu và đồng bộ các thông tin được nhúng trong dòng dữ liệu đó Thêm vào đó,MPEG-4 sẽ cho phép người sử dụng khả năng tương tác trực tiếp với dòng dữ liệu(dừng tiến hay lùi nhanh, kích chuột để kích hoạt các tuỳ chọn video và audio…)Lưu giữ và phục hồi dữ liệu audio và video: do MPEG-4 phân chia các khunghình thành các đối tượng, việc trình duyệt Browser trên cơ sở nội dung (đối tượng)mong muốn sẽ được thực hiện một cách dễ dàng và nhờ vậy, các ứng dụng lưu giữhay phục hồi thông tin trên cơ sở nội dung MPEG-4 sẽ được thuận lợi hơn
Trang 9Truyền thông báo đa phương tiện: các thông báo dưới dạng text, audio vàvideo MPEG-4 sẽ được truyền đi với yêu cầu băng thông ít hơn, và có khả năng tựđiều chỉnh chất lượng cho phù hợp với khả năng băng thông của thiết bị giải mã.Thông tin giải trí: những sự trình diễn nghe nhìn tương tác (thế giới ảo, tròchơi tương tác …) có thể được triển khai trên cơ sở chuẩn MPEG-4 sẽ làm giảmyêu cầu về băng thông và làm cho thế giới ảo trở nên sinh động và giống như thực
tế trên các trang web
3.Nhược điểm
Tuy nhiên cũng có một số nhược điểm là bộ giải mã phải có khả năng giải mã hếttất cả các luồng bit mà nó hổ trợ và có khả năng kết hợp Do đó phần cứng của bộ giải mã MPEG-4 phức tạp hơn so với bộ giải mã MPEG-2 Và ngày nay thì càng có nhiều bộ mã thực hiện giải mã bằng phần mềm nhưng bộ giải mã bằng phần cứng có thể bị hạn chế về khả năng linh hoạt
Trang 10III Công nghệ mã hóa video trong MPEG-4
MPEG-4 là sản phẩm của nhóm MPEG (Moving Picture Expert Group)
được thành lập tháng 1/1988 với nhiệm vụ phát triển các chuẩn xử lý, mã hoá vàhiển thị các ảnh động, audio và các tổ hợp của chúng
Sản phẩm đầu tiên của nhóm này là MPEG-1 được sử dụng cho việc mã hoácác dữ liệu nghe nhìn với tốc độ 1,5 Mbps Sản phẩm thứ hai của nhóm là chuẩnMPEG-2 nổi tiếng hiện nay, mang tính tổng quát hơn và đang được áp dụng chomột loạt các ứng dụng nghe nhìn trong phạm vi tốc độ từ 3-40 Mbps
Không giống các chuẩn MPEG trước đó, ví dụ như trong MPEG-2, nơi mànội dung được tạo ra từ nhiều nguồn như video ảnh động, đồ họa, văn bản… vàđược tổ hợp thành chuỗi các khung hình phẳng, mỗi khung hình (bao gồm các đốitượng như người, đồ vật, âm thanh, nền khung hình…) được chia thành các phần
tử ảnh pixels và xử lý đồng thời, giống như cảm nhận của con người thông qua cácgiác quan trong thực tế Các pixels này được mã hoá như thể tất cả chúng đều làcác phần tử ảnh video ảnh động Tại phía thu của người sử dụng, quá trình giải mãdiễn ra ngược với quá trình mã hoá không khó khăn Vì vậy có thể coi MPEG-2 làmột công cụ hiển thị tĩnh, và nếu một nhà truyền thông truyền phát lại chươngtrình của một nhà truyền thông khác về một sự kiện, thì logo của nhà sản xuấtchương trình này không thể loại bỏ được Với MPEG-2, bạn có thể bổ xung thêmcác phần tử đồ hoạ và văn bản vào chương trình hiển thị cuối cùng (theo phươngthức chồng lớp), nhưng không thể xoá bớt các đồ hoạ và văn bản có trong chươngtrình gốc
Chuẩn MPEG-4 khắc phục được hạn chế này và là một chuẩn động dễ thayđổi Với MPEG-4, các đối tượng khác nhau trong một khung hình có thể được mô
tả, mã hoá và truyền đi một cách riêng biệt đến bộ giải mã trong các dòng cơ bản
ES (Elementary Stream) khác nhau Cũng nhờ xác định, tách và xử lý riêng các
Trang 11đối tượng (như nhạc nền, âm thanh xa gần, đồ vật, đối tượng ảnh video như conngười hay động vật, nền khung hình …), nên người sử dụng có thể loại bỏ riêngtừng đối tượng khỏi khuôn hình Sự tổ hợp lại thành khung hình chỉ được thựchiện sau khi giải mã các đối tượng này.
Hình 3.1 Cấu trúc của bộ mã hoá và giải mã video MPEG-4
3.1.Các bộ phận chức năng chính trong các thiết bị MPEG-4 bao gồm:
- Bộ mã hoá hình dạng ngoài Shape Coder dùng để nén đoạn thông tin, giúpxác định khu vực và đường viền bao quanh đối tượng trong khung hình scene
- Bộ dự đoán và tổng hợp động để giảm thông tin dư thừa theo thời gian
- Bộ mã kết cấu mặt ngoài Texture coder dùng để xử lý dữ liệu bên trong vàcác dữ liệu còn lại sau khi đã bù chuyển động
Trang 12Hình 3.2 Sơ đồ cấu trúc giải mã video MPEG-4
Hình 3.2 là một ví dụ về tổng hợp khung hình video sử dụng trong MPEG-4.Nhiều đối tượng được tách ra khỏi video đầu vào Mỗi đối tượng video sau đóđược mã hóa bởi bộ mã hoá đối tượng video VO (Video Object) và sau đó đượctruyền đi trên mạng Tại vị trí thu, những đối tượng này được giải mã riêng rẽ nhờ
bộ giải mã riêng VO và gửi tới bộ compositor Người sử dụng có thể tương tác vớithiết bị để cấu trúc lại khung hình gốc, hay để xử lý các đối tượng tạo ra mộtkhung hình khác Ngoài ra, người sử dụng có thể download các đối tượng khác từcác thư viện cơ sở dữ liệu (có sẵn trên thiết bị hay từ xa thông qua mạng LAN,WAN hay Internet) để chèn thêm vào hay thay thế các đối tượng có trong khuônhình gốc
Để có thể thực hiện việc tổ hợp khung hình, MPEG-4 sử dụng một ngôn ngữ
mô tả khung hình riêng, được gọi là định dạng nhị phân cho khung hình BiFS(Binary Format for Scenes) BiFS không chỉ mô tả ở đâu và khi nào các đối tượngxuất hiện trong khung hình, nó cũng mô tả cách thức hoạt động của đối tượng (làmcho một đối tượng xoay tròn hay chồng mờ hai đối tượng lên nhau) và cả điềukiện hoạt động đối tượng và tạo cho MPEG-4 có khả năng tương tác Trong
Trang 13MPEG4 tất cả các đối tượng có thể được mã hoá với sơ đồ mã hoá riêng của nó video được mã hoá theo kiểu video, text được mã hoá theo kiểu text, các đồ hoạđược mã hoá theo kiểu đồ hoạ - thay vì việc xử lý tất cả các phần tử ảnh pixelsnhư là mã hoá video ảnh động Do các quá trình mã hoá đã được tối ưu hoá chotừng loại dữ liệu thích hợp, nên chuẩn MPEG-4 sẽ cho phép mã hoá với hiệu quảcao tín hiệu ảnh video, audio và cả các nội dung tổng hợp như các bộ mặt và cơthể hoạt hình.
-3.2 Mã hoá hình dạng ngoài (Shape Coder )
-Khung hình : là thành phần mã hoá chính Thường thường chúng ta có thể
phân biệt sự thay đổi về độ sáng của ảnh tốt hơn so với sự thay đổi về màu Do đótrước hết các sơ đồ nén Mpeg sẽ tiến hành chia khung hình thành các thành phần
độ sáng Y và thành phần độ màu Cb, Cr (một thành phần về độ sáng và hai thànhphần về độ màu) Một khung hình sẽ gồm có 3 ma trận ứng với các thành phần về
độ sáng (Y) và hai thành phần về độ màu Cb và Cr
Các bộ lọc tiền xử lý sẽ lọc ra những thông tin không cần thiết từ tín hiệuVideo và những thông tin khó mã hoá nhưng không quan trọng cho sự cảm thụ củamắt người Kỹ thuật đoán chuyển động dựa trên nguyên tắc là các khung hìnhtrong một cảnh Video dường như có liên quan mật thiết với nhau theo thời gian:Mỗi khung hình tại một thời điểm nhất định sẽ có nhiều khả năng giống với cáckhung hình đứng ngay phía trước và ngay phía sau nó Do vậy ở phía bộ mã hoá,chỉ cần gửi những khung hình có thay đổi so với những khung hình trước, sau đódùng phương pháp nén về không gian để loại bỏ sự dư thừa về không gian trongchính khung hình sai khác này Trong MPEG-4 là yếu tố ít có sự thay đổi nhất, cácbước mã hóa khung hình cũng tương tư như mã hóa ảnh Thuật toán mã hoá biếnđổi gồm các bước:
+Biến đổi Cosine rời rạc (DCT)
Trang 14Hình 3.3 sơ đồ thuật toán nén ảnh (a)
Hình 3.4 sơ đồ thuật toán nén ảnh (b)
3.3 Dự đoán và tổng hợp động
Mỗi lớp video bao gồm các đối tượng riêng rẽ Mỗi đối tượng riêng rẽ ấy gọi
là VOP Khi 1 VOP được tách ra,VOP đó sẽ được đưa vào bộ mã hóa và đượcthực hiện mã hóa như sau :
Trang 15Hình 3.6 Cấu trúc mã hóa một VOP
3.3.1 Ước lượng chuyển động
Nén Mpeg là sự kết hợp hài hoà của bốn kỹ thuật cơ bản: Tiền xử lý(Preprocessing), đoán trước sự chuyển động của các khung hình (Picture) ở bộ mãhoá (Temporal Prediction), bù chuyển động ở bộ giải mã (Motion Compensation)
và mã lượng tử hoá (Quatization Coding).Các bộ lọc tiền xử lý sẽ lọc ra nhữngthông tin không cần thiết từ tín hiệu Video và những thông tin khó mã hoá nhưngkhông quan trọng cho sự cảm nhận của mắt người Kỹ thuật đoán chuyển độngdựa trên nguyên tắc là các khung hình trong một cảnh Video (Video Sequence)dường như có liên quan mật thiết với nhau theo thời gian: Mỗi khung hình tại mộtthời điểm nhất định sẽ có nhiều khả năng giống với các khung hình đứng ngayphía trước và ngay phía sau nó Các bộ mã hoá sẽ tiến hành quét lần lượt từngphần nhỏ trong mỗi khung hình gọi là MB, sau đó nó sẽ phát hiện MB nào khôngthay đổi từ khung hình này tới khung hình khác Bộ mã hoá sẽ dự đoán trước sự