1.6.1.Chuẩn MPEG-2
Khái niệm
MPEG 2 là một công nghệ đạt đƣợc thành công lớn và là một chuẩn nén có ƣu thế vƣợt trội dành cho truyền hình số đƣợc truyền qua nhiều mạng truyền thông băng rộng. MPEG-2 có khả năng mã hoá tín hiệu truyền hình ở tốc độ 3-15 Mbit/s và truyền hình độ nét cao ở tốc độ tới 15-30 Mbit/s. MPEG-2 cho phép mã hoá tín hiệu video với nhiều mức độ phân giải khác nhau, chúng có khả năng đáp ứng cho nhiều ứng dụng khác nhau. Nén hình với MPEG - 2: Video ở dạng cơ bản là 1 chuỗi các ảnh liên tục. 1 frame đƣợc định nghĩa với 1 chuỗi bit header. Mắt ngƣời thƣờng thấy thoải mái khi xem TV với tốc độ 25 hình/s. Sẽ không có lợi nếu phát với tốc độ nhanh hơn vì ngƣời xem không thể nhận ra sự khác biệt. do đó có thể dung lƣợng của những hình ảnh bằng cách nén chúng lại. Các bộ nén hình đƣợc sử dụng với mỗi frame mà vẫn giữ chất lƣợng hình ảnh cao.
Cấu trúc dòng bit video MPEG – 2
Chuỗi video.
Đƣợc mã hóa bắt đầu bằng Sequence Header, sau đó là chuỗi mở rộng (nếu có) và các nhóm ảnh. Nếu phần chuỗi mở rộng(Sequence extension) không đƣợc xác định (không có mã báo có thành phần mở rộng), các lớp tiếp theo khi đó sẽ thực hiện một quy trình giống nhƣ MPEG-1 và đó là tƣơng hợp thuận. Khi có thêm phần mở rộng thì phải có thêm các đặc tính mở rộng để mã hóa hữu hiệu hơn.
Header của nhóm ảnh (GOP).
Có chức năng tƣơng tự nhƣ header của MPEG-1. Các thông số quan trọng dùng để mã hóa ảnh mở rộng đƣợc định nghĩa trong extension header của ảnh. Vì có hai loại
19
ảnh, liên tục và xen kẻ nên cấu trúc ảnh cần phải đƣợc xác định rõ field trên hay field dƣới hoặc frame.
Khả năng co giãn của MPEG-2
Một trong những đặc điểm quan trọng của MPEG-2 là sự phù hợp với nhiều ứng dụng video. Có thể sử dụng MPEG-2 cho phân phối truyền hình tiêu chuẩn (SDTV:Standard Television), truyền hình phân giải cao (HDTV: High Definition Television) hoặc cho truyền dẫn tín hiệu truyền thông qua các mạng truyền thông.Tính co giãn của dòng bit MPEG-2 là khả năng giãi mã đƣợc một phần dòng bit MPEG-2 độc lập với phần còn lại của dòng bit đó nhằm khôi phục video với chất lƣợng hạn chế (hạn chế độ phân giải không gian, độ phân giải thời gian hoặc hạn chế về SNR…). Dựa theo tính co giãn, dòng bit đƣợc phân thành hai hay nhiều lớp. Tập con nhỏ nhất của cú pháp dòng bit có thể giải mã một cách độc lập đƣợc gọi là lớp cơ bản. Các lớp còn lại đƣợc gọi là các lớp nâng cao. Có nhiều loại co giãn khác nhau :
Co giãn không gian : dòng bit gồm hai hay nhiều lớp video có độ phân giải không gian khác nhau.
Co giãn SNR : dòng bit gồm hai hay nhiều lớp video có cùng độ phân giải không gian nhƣng tỉ số tín hiệu trên nhiễu là khác nhau.
Co giãn thời gian : dòng bit gồm hai hay nhiều lớp video có cùng độ phângiải không nhƣng có độ phân giải thời gian khác nhau.
Co giãn phân chia số liệu: dòng bit video đƣợc chia làm hai phần: phần ƣu tiên cao (lớp cơ bản) gồm các hệ số DCT tần số thấp, phần ƣu tiên thấp (lớp nâng cao) gồm các hệ số DCT tần số cao. Co giãn phân chia số liệu chính là một phần của co giãn tần số. Tiêu chuẩn MPEG-2 qui định chính thức hai loại co giãn : co giãn không gian và co giãn SNR. Các dạng co giãn khác chỉ mới ở dạng dự thảo.
Hệ thống ghép kênh và phân kênh MPEG-2
Hệ thống MPEG-2 sử dụng cấu trúc dữ liệu dạng gói nhƣ dữ liệu của các mạng truyền thống. Các gói dữ liệu luôn bao gồm phần đầu đề header và phần truyền tải payload, Phần header chứa thông tin cần thiết để xử lý dữ liệu ở phần payload (ví dụ thông tin phân loại ảnh trong phần header gói ảnh). Kích thƣớc phần payload có thể cố định hoặc thay đổi.
20
Trong tiêu chuẩn MPEG-2, dòng bit tại đầu ra bộ mã hóa Video/Audio đƣợc gọi là dòng sơ cấp ES (Elementary Stream) có đơn vị truy cập là một ảnh.Các dòng ES sẽ đƣợc đóng gói thành các gói PES (Packetized Elementary Stream).Cũng nhƣ mọi dạng gói thông tin khác, PES bao gồm phần header và phần payload. Phần payload của PES có độ dài thay đổi. Các gói PES sau đó đƣợc chia thành các gói nhỏ hơn có độ dài cố định gọi là gói truyền tải TSP (Transport Steam Packet).
a/ Mã hóa
Tín hiệu video số dạng thức CCIR-601 sau khi nén MPEG-2 có dạng một dòng dữ liệu cơ sở video (Elementary Stream-ES) với chiều dài gần nhƣ vô tận và chỉ chứa những thông tin cần thiết để có thể khôi phục lại hình ảnh ban đầu. Tƣơng tự, bộ mã hóa audio mã hóa tín hiệu audio số dạng thức AES/ABU (Tần số lấy mẫu 48 KHz, số bit mẫu 24 bit và tốc độ bit là 1152 Kbit/s) thành dòng cơ sở audio (audio ES) cóchiều dài tùy ý. Để có thể truyền với độ tin cậy cao, các dòng cơ sở video, audio đƣợc đóng gói lại thành các dòng cơ sở đóng gói PES (Packetized ES) tƣơng ứng với các gói có độ dài thay đổi. Mỗi gói PES gồm một header và số liệu của các dòng cơ sở. Các gói PES này đƣợc ghép kênh với nhau tạo ra dòng truyền tải TS(Transport Stream) hoặc dòng chƣơng trình.
b/ Giải mã
Gồm các quy trình ngƣợc lại. Dòng chƣơng trình hay dòng truyền tải đƣợc phân kênh để trả lại các dòng gói cơ sở đóng gói, rồi đƣợc mở gói để trả lại các dòng cơ sở video, audio, dữ liệuv.v... Các dòng cơ sở ES này sau đó đƣợc giải mã để trả lại tín hiệu video số, audio số v.v... Việc phát lại các dòng audio, video cũng đƣợc kiểm soát bởi các “nhãn thời gian trình diễn” PTS. Các nhãn thời gian trình diễn này đƣợc truyền đi trong dòng ghép kênh MPEG-2.
c/ Đồng bộ
Trong hệ thống ghép kênh MPEG-2, đồng bộ đƣợc thực hiện thông qua các nhãn thời gian(Time Stamps) và các chuẩn đồng hồ (Clock Reference).
Chuẩn đồng hồ: đồng hồ đƣợc sử dụng tại bộ ghép kênh và bộ giải mã không đo thời gian theo giờ, phút, giây mà đo thời gian theo đơn vị của 27 MHz, đƣợc biểu diễn theo số nhị phân 42 bit. Trong dòng chƣơng trình, thông tin về đồng bộ đƣợc
21
truyền đi tối thiểu 0.7 giây một lần, đƣợc gọi là chuẩn đồng hồ hệ thống (System Reference). Còn trong dòng truyền tải, thông tin về đồng bộ đƣợc truyền đi tối thiểu 0.1 giây một lần và đƣợc gọi là chuẩn đồng hồ chƣơng trình (Programme Clock Reference). Các chƣơng trình trên cùng một dòng truyền tải có thể sử dụng các chuẩn đồng hồ chƣơng trình khác nhau.
Nhãn thời gian: nhãn thời gian là một giá trị nhị phân 32 bit, đƣợc biểu diễn theo đơn vị của 90 KHz. Có hai nhãn thời gian là: Nhãn thời gian trình diễn (Presentation Time Stamps-PTS) là loại nhãn thời gian cơ bản dùng để chỉ định thời điểm mà khi đó một đơn vị truy cập sẽ đƣợc trích ra khỏi bộ đệm phía giải mã, đƣợc giải mã và đƣợc trình diễn cho ngƣời xem.
Nhãn thời gian giải mã (Decoding Time Stamps-DTS) chỉ định thời điểm mà khi đó một đơn vị truy cập sẽ đƣợc trích ra từ bộ đệm phía giải mã, đƣợc giải mã nhƣng chƣa đƣợc trình chiếu cho ngƣời xem. Hình ảnh đã đƣợc giải mã này sẽ đƣợc lƣu trữ tạm thời trong bộ nhớ tạm để trình chiếu sau đó một thời gian ngắn.
1.6.2.Chuẩn MPEG - 4
Chuẩn MPEG-4 là một chuẩn động dễ thay đổi: với MPEG-4, các đối tƣợng khác nhau trong một khung hình có thể đƣợc mô tả, mã hoá và truyền đi một cách riêng biệt đến bộ giải mã trong các dòng cơ bản ES (Elementary Stream) khác nhau. Cũng nhờ xác định, tách và xử lý riêng các đối tƣợng (nhƣ nhạc nền, âm thanh xa gần, đồ vật, đối tƣợng ảnh video nhƣ con ngƣời hay động vật, nền khung hình…), nên ngƣời sử dụng có thể loại bỏ riêng từng đối tƣợng khỏi khuôn hình. Sự tổ hợp lại thành khung hình chỉ đƣợc thực hiện sau khi giải mã các đối tƣợng này.
Đặc điểm chính của MPEG-4 là mã hóa video và audio với tốc độ bit rất thấp. Thực tế tiêu chuẩn đƣa ra với 3 dãy tốc độ bit :
+Dƣới 64 Kbps +64 đến 384 Kbps +384 Kbps đến 4Mbps
Đặc điểm quan trọng của chuẩn MPEG-4 là cho phép khôi phục lỗi tại phía đầu thu, vì vậy chuẩn nén đặc biệt thích hợp với môi trƣờng dễ xảy ra lỗi nhƣ truyền dữ liệu qua các thiết bị cầm tay. MPEG-4 là chuẩn quốc tế đầu tiên dành cho mã hóa các
22
đối tƣợng video. Với độ linh động và hiệu quả do mã hóa từng đối tƣợng video, MPEG-4 đạt ứng dụng cho các dịch vụ nội dung video có tính tƣơng tác và các dịch vụ truyền thong video trực tiếp hay lƣu trữ. Trong MPEG-4, khung cảnh của một đối tƣợng video đƣợc mã hóa riêng lẽ. Sự cách ly các đối tƣợng video nhƣ vậy mang đến độ mềm dẻo hơn cho việc thực hiện mã hóa thích nghi làm tăng hiệu quả nén tin hiệu. Mặc dù tập trung vào những ứng dụng tốc độ bit thấp nhƣng MPEG-4 cũng bao gồm cả studio chất lƣợng cao và HDTV.
Hình 1.3: Cấu trúc bộ mã hóa và giải mã MPEG-4 Các bộ phận chức năng chính trong các thiết bị MPEG-4 bao gồm:
Bộ mã hoá hình dạng ngoài Shape Coder dùng để nén đoạn thông tin, giúp xác định khu vực và đƣờng viền bao quanh đối tƣợng trong khung hình scene.
Bộ dự đoán và tổng hợp động để giảm thông tin dƣ thừa theo thời gian.
Bộ mã kết cấu mặt ngoài Texture coder dùng để xử lý dữ liệu bên trong và các dữ liệu còn lại sau khi đã bù chuyển động.
23
Nhiều đối tƣợng, ngƣời, xe, nhà cửa, đƣợc tách ra khỏi video đầu vào. Mỗi đối tƣợng video sau đó đƣợc mã hóa bởi bộ mã hóa đối tƣợng video VO (video object) và sau đó đƣợc truyền đi trên mạng. Tại đầu thu, những đối tƣợng này đƣợc giải mã riêng rẽ nhờ bộ giải mã VO và gửi đến bộ tổ hợp (compositor). Ngƣời sử dụng có thể tƣơng tác với thiết bị để cấu trúc lại khung hình gốc, hay để xử lý các đối tƣợng tạo ra một khung hình khác. Ngoài ra, ngƣời sử dụng có thể tải các đối tƣợng khác từ các thƣ viện cơ sở dữ liệu (có sẵn trên thiết bị hay từ xa thông qua mạng LAN, WAN hay Internet) để ch n thêm vào hay thay thế các đối tƣợng có trong khuôn hình gốc.
Để có thể thực hiện việc tổ hợp khung hình, MPEG-4 sử dụng một ngôn ngữ mô tả khung hình riêng, đƣợc gọi là định dạng nhị phân cho các khung hình BiFS (Binary Format for Scenes). BiFS không chỉ mô tả ở đâu và khi nào các đối tƣợng xuất hiện trong khung hình, nó cũng mô tảcách thức hoạt động của đối tƣợng (làm cho một đối tƣợng xoay tròn hay chồng mờ hai đối tƣợng lên nhau) và cả điều kiện hoạt động đối tƣợng và tạo cho MPEG-4 có khả năng tƣơng tác. Trong MPEG-4, tất cả các đối tƣợng có thể đƣợc mã hoá với sơ đồ mã hoá tối ƣu riêng của nó – video đƣợc mã hoá theo kiểu video, text đƣợc mã hoá theo kiểu text, các đồ hoạ đƣợc mã hoá theo kiểu đồ hoạ - thay vì việc xử lý tất cả các phần tử ảnh pixels nhƣ là mã hoá video ảnh động. Do các quá trình mã hoá đã đƣợc tối ƣu hoá cho từng loại dữ liệu thích hợp, nên chuẩn MPEG-4 sẽ cho phép mã hoá với hiệu quả cao tín hiệu ảnh video, audio và cả các nội dung tổng hợp nhƣ các bộ mặt và cơ thể hoạt hình.
1.6.3.Chuẩn H.264/AVC
Hiệp hội viễn thông quốc tế (ITU) và tổ chức tiêu chuẩn quốc tế/ Uỷ ban kỹ thuật điện tử quốc tế (ISO/IEC) là hai tổ chức phát triển các tiêu chuẩn mã hoá Video. Theo ITU-T, các tiêu chuẩn mã hoá Video đƣợc coi là các khuyến nghị gọi tắt là chuẩn H.26x (H.261, H.262,H.263 và H.264). Với tiêu chuẩn ISO/IEC, chúng đƣợc gọi là MPEG-x (nhƣ MPEG-1, MPEG-2và MPEG-4). Những khuyến nghị của ITU đƣợc thiết kế dành cho các ứng dụng truyền thông Video thời gian thực nhƣ Video Conferencing hay điện thoại truyền hình. Mặt khác, những tiêu chuẩn MPEG đƣợc thiết kế hƣớng tới mục tiêu lƣu trữ Video chẳng hạn nhƣ trên đĩa quang DVD, quảng bá Video số trên mạng cáp, đƣờng truyền số DSL, truyền hình vệ tinh hay những ứng
24
dụng truyền dòng Video trên mạng Internet hoặc thông qua mạng không dây (wireless).
Với đối tƣợng để truyền dẫn Video là mạng Internet thì ứng cử viên hàng đầu là chuẩn nén MPEG-4 AVC, còn đƣợc gọi là H.264, MPEG-4 part 10, H.26L hoặc JVT.
Tính kế thừa của chuẩn nén H.264
Mục tiêu chính của chuẩn nén H.264 đang phát triển nhằm cung cấp Video có chất lƣợng tốt hơn nhiều so với những chuẩn nén Video trƣớc đây. Điều này có thể đạt đƣợc nhờ sự kế thừa các lợi điểm của các chuẩn nén Video trƣớc đây. Không chỉ thế, chuẩn nén H.264 còn kế thừa phần lớn lợi điểm của các tiêu chuẩn trƣớc đó là MPEG- 4 bao gồm 4 đặc điểm chính sau:
+Phân chia mỗi hình ảnh thành các Block (bao gồm nhiều điểm ảnh), do vậy quá trình xử lý từng ảnh có thể đƣợc tiếp cận tới mức Block.
+Khai thác triệt để sự dƣ thừa về mặt không gian tồn tại giữa các hình ảnh liên tiếp bởi một vài mã của những Block gốc thông qua dự đoán về không gian, phép biến đổi, quá trình lƣợng tử và mã hoá Entropy (hay mã có độ dài thay đổi VLC).
+Khai thác sự phụ thuộc tạm thời của các Block của các hình ảnh liên tiếp bởi vậy chỉ cần mã hoá những chi tiết thay đổi giữa các ảnh liên tiếp. Việc nàyđƣợc thực hiện thông qua dự đoán và bù chuyển động. Với bất kỳ Block nàocũng có thể đƣợc thực hiện từ một hoặc vài ảnh mã hoá trƣớc đó hay ảnh đƣợcmã hoá sau đó để quyết định véc tơ chuyển động, các véc tơ này đƣợc sử dụngtrong bộ mã hoá và giải mã để dự đoán các loại Block.
+Khai thác tất cả sự dƣ thừa về không gian còn lại trong ảnh bằng việc mã các block dƣ thừa. Ví dụ nhƣ sự khác biệt giữa block gốc và Block dự đoán sẽ đƣợc mã hoá thông qua quá trình biến đổi, lƣợng tử hoá và mã hoá Entropy
25
Mã hóa H.264/AVC
Hình 1.5: Sơ đồ mã hóa H.264/AVC Mpeg 4 part 10
Lớp mã hoá video của H264/MPEG Part 10 là sự kết hợp của mã hoá không gian, mã hoá thời gian và mã chuyển vị. Ảnh đƣợc tách thành các khối, ảnh đầu tiên của dãy hoặc điểm truy cập ngẫu nhiên thì đƣợc mã hoá “Intra”- mã hoá trong ảnh, có nghĩa là không dùng thông tin của các ảnh khác mà chỉ dùng thông tin chứa trong ảnh đó. Mỗi mẫu của một khối trong một Frame Intra đƣợc dự đoán nhờ dùng các mẫu không gian bên cạnh của các khối đã mã hoá (hình 1.5).
Đối với tất cả các ảnh còn lại của dãy hoặc giữa các điểm truy cập ngẫu nhiên, mã hoá“Inter” đƣợc sử dụng, dùng dự đoán bù chuyển động từ các ảnh đƣợc mã hoá trƣớc đó. Quá trình mã hoá cho dự đoán liên ảnh (bù chuyển động) gồm việc lựa chọn dữ liệu chuyển động, các ảnh tham chiếu và sự dịch chuyển không gian đƣợc ứng dụng cho tất cả việc lấy mẫu của khối. Bộ mã hoá có thể lựa chọn giữa mã hoá Intra và Inter cho miền hình dạng khối của mỗi ảnh. Mã hoá Intra có thể chỉ ra điểm truy cập của chuỗi đƣợc mã hoá, tại đó việc giải mã có thể bắt đầu và tiếp tục một cách chính xác. Mã hoá Intra sử dụng các mode dự đoán không gian riêng rẽ để làm giảm độ dƣ thừa không gian trong tín hiệu gốc của mỗi ảnh đơn. Mã hoá Inter (dự đoán một chiều hay nhiều chiều) thì việc sử dụng dự đoán liên ảnh hiệu quả hơn cho mỗi block của giá trị lấy mẫu từ một vài ảnh đƣợc giải mã trƣớc đó. Mã hoá Inter sử dụng các Vector
26
chuyển động cho các block cơ sở dự đoán liên ảnh(Inter prediction) để làm giảm sự dƣ thừa thời gian giữa các ảnh (picture) khác nhau. Việc dự đoán đƣợc thu đƣợc từ tín hiệu đã lọc tách khối của các ảnh đƣợc thiết lập lại trƣớc đó. Bộ lọc tách khối làm giảm sự nhiễu khối tại các đƣờng biên của block. Các vector chuyển động và các mode dự đoán trong ảnh (intra prediction) có thể (theo lý thuyết) làm biến đổi kích thƣớc block trong ảnh. Sự dự đoán thặng dƣ đƣợc nén tốt hơn bằng việc sử dụng một phép