Nó được cải tiến dựa trên phương pháp nén video cơ sở theo chuẩn MPEG-1.MPEG-4 Part 10 /H264 hay AVC Advanced Video Coding là một định dạng nén video, hay một chuẩn nén video hay được bi
Trang 1VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
──────── * ───────
BÁO CÁO MÔN HỌC
XỬ LÝ DỮ LIỆU ĐA PHƯƠNG TIỆN
ĐỀ TÀI 13: Phương pháp tiên tiến nén video AVC và ứng dụng
Trang 2Mục lục
Lời mở đầu 3
1 Tìm hiểu chung 4
1.1 Khái niệm 4
1.2 Lịch sử phát triển 4
1.3 Ứng dụng 5
1.4 Đặc điểm của chuẩn nén MPEG4 Part 10 /H264 hay AVC 5
2 MPEG-4/H264 AVC 8
2.1 Kiến trúc phân lớp của MPEG-4/H264 AVC 8
2.2 Cấu trúc dòng bit 8
2.3 Sơ đồ mã hóa 9
2.4 Các kỹ thuật trong H.264/AVC 12
3 So sánh phương pháp nén MPEG-1 và MPEG-4 20
3.1 Mô hình tổng quát 20
3.2 Nén video theo chuẩn MPEG-1 20
3.3 Nén video theo chuẩn MPEG-4 24
4 Ứng dụng thử nghiệm 26
Tài liệu tham khảo 31
Trang 3L i m đ u ời mở đầu ở đầu ầu
Cuộc sống ngày nay luôn gắn liền với công nghệ thông tin Chiếc máy tính nói riêng, hayngành công nghệ thông tin nói chung không còn xa lại gì với mỗi người Công nghệthông tin không chỉ đóng vai trò then chốt trong sản xuất, xây dựng… mà còn trở thànhmột công cụ thường xuyên trong các lĩnh vực giải trí giúp con người thư giãn sau nhữnggiờ làm việc căng thẳng
Chắc hẳn ai trong chúng ta cũng đã từng xem một video trên đĩa DVD, trên máy vi tínhhay trên các trang web chia sẻ trực tuyến như youtube.com, clip.vn… Chúng ta thươngnghe đến các thuật ngữ như mã hóa hay nén chuẩn MPEG-2, H264… Vậy chúng là gì và
có tác dụng như thế nào đối với việc lưu trữ, truyền nhận?
Trong vài năm trở lại đây chuẩn mã hóa MPEG và H26x là chuẩn nén được sử dụng rộng
rãi Để rõ hơn điều này nhóm chúng em chọn đề tài: “Phương pháp tiên tiến nén video
AVC và ứng dụng”.
Phân công công việc:
- Phần 1: Tìm hiểu chung về phương pháp nén AVC – Sok Sereirathana
- Phần 2: Tìm hiểu chuẩn MPEG-4/H264 AVC – Trần Thị Tình
- Phần 3: So sánh phương pháp nén MPEG-1 và MPEG-4 – Bùi Thị Hường
- Phần 4: Ứng dụng thử nghiệm nén video theo chuẩn MPEG-4 và đo lường hiệu năng giải pháp – Bùi Kim Khánh
Trong quá trình tìm hiểu và hoàn thành bài báo cáo, chúng em đã được sự giúp đỡ và giảng dạy của cô Nguyễn Thị Hoàng Lan Do kiến thức chưa vững và tìm hiểu còn hạn chế nên không tránh khỏi thiếu sót, rất mong sự góp ý của cô
Chúng em xin chân thành cảm ơn!
Trang 41 Tìm hiểu chung
1.1 Khái niệm
AVC (Advanced Video Coding): là phương pháp nén video tiên tiến thuộc chuẩn MPEG-4 Nó được cải tiến dựa trên phương pháp nén video cơ sở theo chuẩn MPEG-1.MPEG-4 Part 10 /H264 hay AVC (Advanced Video Coding) là một định dạng nén video, hay một chuẩn nén video (hay được biết dưới cái tên CODEC), và hiện đang là một trong những định dạng đang được dùng phổ biến nhất hiện nay trong công nghệ mã hóa, phân phối và xử lý video nói chung.H264 được phát triển bởi ITU-T Video Coding Experts Group (VCEG) và ISO/IEC JTC1 Moving Picture Experts Group (MPEG), 2 nhóm thuộc tổ chức chuẩn hóa quốc tế.Mục đích ra đời của H264 nhằm tạo ra một định dạng video chất lượng cao với chi phí lưu trữ và truyền phát thấp so với các định dạng trước đó (MPEG1, MPEG2, H263,…) mà không yêu cầu quá phức tạp về mặt thiết kế ứng dụng cũng như phần cứng Cũng chính vì yêu cầu như vậy nên bản thân H264 cũng được chia làm nhiều “chuẩn” (profile level) để phù hợp với các thiết bị khác nhau Giới thiệu vấn đề :
Cần truyền tải dữ liệu video trong môi trường mạng không thuần nhất
“Heterogeneity” đến nhiều máy client với các điều kiện thể hiện khác nhau với nhiều mức về tốc độ dữ liệu mà vẫn đảm bảo chất lượng trình diễn video
Một số khái niệm chủ yếu hay gặp:
Heterogeneity: Không thuần nhất về mạng Không thuần nhất về môi trường máy client
Simulcast: Khả năng mã hóa và truyền tải video đến từng client theo một tốc độ dữ liệu
Transcoding: Khả năng truyền tải dữ liệu video với tốc độ thấp hơn, và đa tốc độ tùy theo yêu cầu
Scalability: Khả năng phân mảnh tốc độ dòng video để có thể truyền dòng
dữ liệu video với đa tốc độ tùy theo yêu cầu
Kỹ thuật SVC (Scalable Video Coding) được sử dụng trong phương pháp này để thể hiện
sự tiên tiến
1.2 Lịch sử phát triển
MPEG-4 part 2 được ISO công bố vào 1999, nó là tiêu chuẩn cho nhũng ứng dụngtruyền thông đa phương tiện với tốc độ bit thấp và cho ứng dụng truyền hình quảng
Trang 5bá trong tương lai Tuy nhiên chất lượng của nó vẫn chưa đạt được như mong muốn,chính vì vậy mà ISO/ĨEC (MPEG) và ITU đã cùng nhau họp tác và thành lập nhómJoint Video Team (JVT), đề nghiên cứu phát triên chuấn mã hóa tiên tiến làAdvanced Video Coding (AVC) Và đến 2003 đã cho ra đời chuẩn MPEG-4 part 10,tên theo tiêu chuẩn ĨSO/IEC 14496-10 và H.246 AVC trong ITƯ hay còn gọi làMPEG-4 H.264/AVC, gọi tắt là H.264/AVC.
1.3 Ứng dụng
MPEG4 Part 10 /H264 hay AVC là một định dạng video, tất nhiên nhiệm vụ chính của H264 là đóng vai trò chuẩn mã hóa và nén video Hiện H264 được sử dụng trong rất nhiều thiết bị, dịch vụ Đơn cử là các thiết bị đầu Blu-ray, các dịch vụ phát video trực tuyến qua internet như YouTube, iTunes Store, Vimeo,… các phần mềm như Adobe Flash Player, Silverlight, VLC, và các dịch vụ truyền hình HDTV, truyền hình vệ tinh
Ngoài ra H264 còn được các hãng công nghệ phát triển để phục vụ cho các mục đích khác như:
XAVC: Định dạng thu video có thể hỗ trợ độ phân giải lên tới 4K (4096×2160)
và tốc độ khung hình lên tới 60 FPS
AVCHD: Được phát triển bởi Sony và Panasonic, dùng để thu video độ phân giải cao, được sử dụng trong nhiều đĩa Blu-ray và máy PlayStation 3 Về cơ bản là H264 nhưng được thêm một số tính năng đặc biệt phục vụ cho các thiết bị của hãng
1.4 Đặc điểm của chuẩn nén MPEG4 Part 10 /H264 hay AVC
Dự đoán không gian định hướng trong kiểu mã hóa Intra: hồ trợ tới 17 kiều dựđoán, làm cho việc dự
đoán mẫu được chính xác hơn, đạt hiệu quả nén cao hơn
Bù chuyển động với kích thước nhỏ có thể thay đổi Tiêu chuẩn này mang lại
sự mềm dẻo cho sự lựa chọn kích thước và hình dạng, kích thước bù chuyếnđộng nhỏ nhất là 4x4 Điều này đã mang lại hiệu suất 15% so với MPEG-2
Bù chuyển động % làm giảm tính phức tạp của xử lý nội suy so với các tiêu
Trang 6 Tách riêng hình tham khảo và hình hiển thị: ở các tiêu chuân trước có sự phụthuộc giữa hình tham khảo và hình hiển thị, còn trong H.264/AVC bộ mã hóa
có thể chọn hình ảnh đổ tham khảo gần nhất với hình ảnh được mã hóa chomục đích tham khảo dự đoán nên có thê hiển thị với tính linh hoạt cao, do đókhoảng thời gian trễ sẽ được loại bỏ
Giảm dư thừa về không gian tốt hơn: sử dụng phép biến đổi nguyên thay vì sửdụng phép biến đổi DCT như MPEG-2, làm giảm ảnh hưởng do sai số làmtròn
Lượng tử hóa thích nghi: trong quá trình mã hóa với tốc độ bit biến thiên, khi
sử dụng lượng tử hóa thích nghi, mỗi frame có thể được nén với những bộlượng tử khác nhau phụ thuộc vào bản chất hình ảnh của chúng thông quaviệc điều khiển tốc độ bit Ví dụ những phần chuyển động hay những phầnhình ảnh sẫm màu khó nhận biết sẽ được xử lý với hệ số lượng tử lớn hơn (độnén cao hơn, dung lượng nhỏ hon), những phần hay được hệ thống mắt ngườichú ý nhiều hơn sẽ được xử lý với hệ số lượng tử thấp hơn (độ nén nhỏ hơn,dung lượng lớn hơn) H.264/AVC cho phép sử dụng tới 52 mức lượng tửtrong khi MPEG-2 chỉ có 31 mức
Sử dụng bộ lọc tách khối: Trái ngược với bộ tiền xử lý hay bộ hậu xử lý, bộlọc tách khối được áp dụng trong suốt quá trình mã hóa trên mọi frame đơn lẻ,nhưng trước đó nó sẽ được sử dụng đế tham khảo cho những frame đến sau.Cải tiến mới này sẽ giúp tránh được hiện tượng kết khối làm ảnh hưởng đếnchất lượng hình ảnh, đặc biệt là với tốc độ bit thấp Nhưng tốc độ mã hóa, giải
Trang 7mã sẽ bị giảm sút.
Kiểu dự đoán trọng so H.264/AVC có thể hỗ trợ quá trình mờ dần hay tối dần khung hình trong những đoạn film có hiệu ứng mò' dần (những frame đến sau rất giống so với những frame ngay trước nó, chỉ có sắc độ là khác một chút),
Mã hóa Entropy thích nghi: trong H.264/AVC sử dụng 2 phương pháp mã hóa phức tạp hơn đó là CAVLC và CABAC thay vì biến đồi VCL tĩnh trong MPEG-2,nên hiệu quả mã hóa cũng cao hơn rõ rệt
Một số đặc tính làm tăng cường khả năng chống sai số và mất dữ liệu như :
Thông số cài đặt cấu trúc: tập họp các thông số nhằm tăng cường cho thông tinđầu mục của quá trình truyền được hiệu quả hơn Ở những tiêu chuẩn trước,nếu mất một số thông tin quan trọng như thông tin đầu mục của chuỗi ảnh sẽảnh hưởng rất lớn đến quá trình giải mã Còn trong H.264/AVC thì các thôngtin này được tách riêng tạo tính linh hoạt và chuyên dụng hơn
Cấu trúc cú pháp của NAL: Mồi cấu trúc cú pháp trong H.264/AVC được đặt trong gói dừ liệu vật lý gọi là NAL
Hỗ trợ kỳ thuật sắp xếp thứ tự mềm dẻo FMO và sắp xếp thứ tự slice bất kỳ ASO
Hỗ trợ 2 ảnh chuyển mạch đồng bộ SI/SP và kỳ thuật phân vùng dữ liệu (Data Partitioning)
Chức năng của H.264/AVC có thể tổng hợp trong những chức năng chính như sau:
Hiệu suất nén: hiệu suất nén là mục tiêu chính trong MPEG-1, MPEG-2 Do
đó ở H.264/AVC, việc cải tiến hiệu suất mã hóa các luồng dừ liệu sè mở rộngkhả năng ứng dụng của nó trong thực tiễn Tiêu chuẩn H.264/AVC tiết kiệmlên đến 50% tốc độ bit so với MPEG-1, MPEG-2, MPEG-4 part 2 khi mã hóacùng một cấp độ
Khả năng tương tác: cho phép người sử dụng có thể tương tác trực tiếp các nộidung chương trình đang xem
Trang 8 Kiêu truy nhập phố biến: tăng cường khả năng chống lỗi trong mội truờngkhắc nhiệt, cung cấp các công cụ cần thiết để giải quyết việc mất mát gói dữliệu trong khi truyền trong mạng gói và lỗi bit trong môi trường không dây.
Trang 92 MPEG-4/H264 AVC
2.1 Kiến trúc phân lớp của MPEG-4/H264 AVC
H.264/AVC Codec bao gồm 2 khối : video coding layer ( VCL) và network abstractionlayer ( NAL)
Hình 2.1: Cấu trúc phân lớp của bộ mã hóa H.264/AVC
Tín hiệu vào được nén trước tiên ở khối VCL thành một dòng bit- bitstream Chứcnăng của khối VCL là nén nội dung video hiệu quả Network abstraction layer ( NAL) làmột khái niệm mới, được thiết kế cho việc truyền tải dòng bit nén trong môi trường mạnghoặc lưu trữ khác nhau Những ứng dụng bao gồm : quảng bá trên các mạng mặt đất, dâycáp và vệ tinh; mạng IP, wireless và kênh ISDN Trong lớp này, thông tin header đượcthêm vào dòng bit được nén để điều khiển một loại của tầng giao vận và phương tiện lưutrữ Giao diện của NAL được thiết kế để cho phép dữ liệu video nén phù hợp với các giaothức và kiến trúc mạng khác nhau
2.2 Cấu trúc dòng bit
Dòng bit có thể ở một trong hai dạng: dòng NAL unit ( NALU) hoặc dòng byte.Dòng NALUs bao gồm một chuỗi các NALU Định dạng của một NALU được biểudiễn như sau:
Trang 10Hình 2.2: Cấu trúc dòng bit
Trong header của một NALU:
- Bit đầu tiên là bit 0
- 2 bits tiếp theo được sử dụng để chỉ ra rằng có hay không NALU chứa chuỗi (tậphợp) các tham số picture hoặc một mảnh của một picture tham chiếu
- 5 bits tiếp theo được sử dụng để chỉ ra loại của NALU units, cái tương ứng với loại
dữ liệu được mang trong NALU unit
Có tổng cộng 32 loại NALUs 32 loại này có thể được chia làm 2 dạng: VCL NALUs
và non-VCL NALUs
- VCL units mang dữ liệu tương ứng với VCL
- Trái lại non-VCL NALUs mang thông tin như : thông tin tăng cường bổ sung (SEI),chuỗi và tập hợp các tham số picture, dấu giới hạn truy cập và những thông tin khác Trong dòng NALU, NALUs được giải mã theo trình tự
Dòng byte - bytestream- có thể khởi tạo từ dòng NALU bằng cách sắp xếp NALUstrong trình tự giải mã và thêm mọi NALU một mã bắt đầu Dòng NALU có thể đượclấy ra từ các dòng byte bằng cách loại bỏ mã bắt đầu
2.3 Sơ đồ mã hóa
Sơ đồ mã hóa của H.264/AVC cũng tương tự so với các chuẩn video khác Bộ mã hóatheo chuẩn MPEG4/H264 đều có các khối cơ bản trong (khối dự đoán, khối biến đổi,khối lượng tự hóa, mã hóa entropy) giống như trong các chuẩn trước đó (MPEG-1,MPEG-2, MPEG-4, H.261, H.263), nhưng trong từng khối chức năng đều có những thayđổi quan trọng
Trang 11Hình 2.3: Sơ đồ mã hóa theo chuẩn H.264/AVC
Lớp mã hoá video của H264/AVC là sự kết hợp của mã hoá không gian, mã hoá thờigian và mã chuyển vị Ảnh được tách thành các khối, ảnh đầu tiên của dãy hoặc điểm truycập ngẫu nhiên thì được mã hoá “Intra”- mã hoá trong ảnh, có nghĩa là không dùng thôngtin của các ảnh khác mà chỉ dùng thông tin chứa trong ảnh đó Mỗi mẫu của một khốitrong một Frame Intra được dự đoán nhờ dùng các mẫu không gian bên cạnh của các khối
đã mã hoá trước đó Đối với tất cả các ảnh còn lại của dãy hoặc giữa các điểm truy cậpngẫu nhiên, mã hoá “Inter” được sử dụng, dùng dự đoán bù chuyển động từ các ảnh được
mã hoá trước đó.Quá trình mã hoá cho dự đoán liên ảnh (bù chuyển động) gồm việc lựachọn dữ liệu chuyển động, các ảnh tham chiếu và sự dịch chuyển không gian được ứngdụng cho tất cả việc lấy mẫu của khối
Bộ mã hoá có thể lựa chọn giữa mã hoá Intra và Inter cho miền hình dạng khối củamỗi ảnh Mã hoá Intra có thể chỉ ra điểm truy cập của chuỗi được mã hoá, tại đó việc giải
mã có thể bắt đầu và tiếp tục một cách chính xác Mã hoá Intra sử dụng các mode dựđoán không gian riêng rẽ để làm giảm độ dư thừa không gian trong tín hiệu gốc của mỗi
Trang 12ảnh đơn Mã hoá Inter (dự đoán một chiều hay nhiều chiều) thì việc sử dụng dự đoán liênảnh hiệu quả hơn cho mỗi block của giá trị lấy mẫu từ một vài ảnh được giải mã trước đó.
Mã hoá Inter sử dụng các Vector chuyển động cho các block cơ sở dự đoán liên ảnh(Inter prediction) để làm giảm sự dư thừa thời gian giữa các ảnh (picture) khác nhau.Việc dự đoán được thu được từ tín hiệu đã lọc tách khối của các ảnh được thiết lập lạitrước đó
Bộ lọc tách khối làm giảm sự nhiễu khối tại các đường biên của block Các vectorchuyển động và các mode dự đoán trong ảnh (intra prediction) có thể (theo lý thuyết) làmbiến đổi kích thước block trong ảnh Sự dự đoán thặng dư được nén tốt hơn bằng việc sửdụng một phép biến đổi để loại bỏ sự tương quan theo không gian trong một block trướckhi được lượng tử hoá
Cuối cùng, Vector chuyển động hay các mode dự đoán liên ảnh được liên kết vớithông tin của hệ số biến đổi lượng tử hóa và được mã hoá sử dụng mã Entropy như mãhoá chiều dài biến đổi thích ứng theo tình huống CAVLC (context-adaptive variablelength code) hay mã hoá theo số học nhị phân thích ứng theo tình huống CABAC(context-adaptive binary arithmetic coding)
Ngoại trừ những công cụ thông thường, H.264/AVC bao gồm nhiều tính năng cảithiện đáng kể hiệu suất mã hóa và tăng khả năng chống lỗi và tính linh hoạt trong nhiềumôi trường mạng
Tính năng cải thiện hiệu suất mã hóa có thể chia làm 2 loại: đầu tiên là cải thiện tínhchính xác của dự đoán picture được mã hóa và thứ hai bao gồm những phương thứcchuyển đổi và mã hóa entropy Một vài công cụ được dùng trong H.264/AVC để cải thiện
dự đoán inter và intra sẽ được miêu tả trong phần sau:
- Bù chuyển động với khối có kích thước nhỏ được sử dụng, thường sử dụng khối4x4
- Bù chuyển động với độ chính xác ¼ pixel được sử dụng trong H.264/AVC Bùchuyển động được sử dụng trong MPEG-4 Part2 nhưng H.264 còn làm giảm độ phức tạpcủa quá trình nội suy
- Picture đa tham chiếu được sử dụng trong bù chuyển động và dự đoán : P- và picture Số lượng picture tham chiếu có thể lên tới 15 cho mức 3.0 hoặc thấp hơn và 4picture tham chiếu cho mức cao hơn 3.0 khi picture đa tham chiếu được sử dụng cho dựđoán bù chuyển động, sự đóng góp của dự báo từ các tham chiếu khác nhau nên được coitrọng và được bù bằng lượng định trước bởi bộ mã hóa Điều này có thể cải thiện hiệunăng nén cho những cảnh mờ
B Định hướng không gian dự đoán cho mã hóa intra được sử dụng để nâng cao hiệuquả nén Trong kỹ thuật này, các vùng intracoded được dự đoán với các vùng tham chiếu
Trang 13được mã hóa trước đó Bằng cách này cạnh của vùng được giải mã trước đó của picturehiện tại có thể được ngoại suy vào vùng của intracoded hiện hành.
- Skip mode trong P-picture và direct mode trong B-picture được sử dụng để giảmbớt vấn đề về dùng quá nhiều bits để mã hóa vecto chuyển động trong mã hóa interframe.H.264 sử dụng skip mode cho P-picture và direct mode cho B-picture Trong những chế
độ này, tín hiệu tái tạo được lấy trực tiếp từ fram trước đó với vecto bù chuyển động bắtnguồn từ thông tin mã hóa trước đó bằng cách khai thác sự tương quan về không gian( skip mode ) và tương quan về thời gian ( direct mode ) của vecto chuyển động giữa cácmacro-blocks hoặc các picture Bằng cách đó tiết kiệm bit cho việc mã hóa vecto chuyểnđộng có thể đạt được
- Việc sử dụng bộ lọc tách khối vòng ( DFs) là một tính năng khác để giảm sự giảtưởng block và cải thiện chất lượng video Sự khác biệt giữa MPEG-1/2 và H.264 làtrong H.264 sử dụng DF (deblocking filter) trong vòng lặp bù chuyển động, vì vậy nó cóthể được sử dụng để cải thiện dự đoán interframe và cải thiện hiệu quả nén
- H.264 biến đổi khối có kích thước 4x4 thay vì sử dụng 8x8 như trong môt số chuẩnnén thông thường giá trị của việc sử dụng biến đổi khối có kích thước nhỏ là mã hóapicture … Tuy nhiên việc sử dụng khối có kích thước nhỏ có thể làm giảm hiệu năng nén
do những tương quan của khu vực lớn có thể không được khai thác H.264 có 2 cách đểgiải quyết vấn đề này:
+ sử dụng chuyển đổi phân cấp để mở rộng hiệu quả của khối kích thước lớn…
+ Cho phép bộ mã hóa chọn một bộ mã hóa đặc biệt của intracoding cho phép mở rộng
độ dài cảu …
- Hai phương pháp mã hóa entropy mạnh: mã hóa độ dài thay đổi thích nghi với nộidung ( CAVLC ) và mã hóa nhị phân số học thích nghi với nội dung ( CABAC ) được sửdụng trong H.264 để nâng cao hiệu năng nén
- Trong H.264 một vài công cụ được sử dụng để nâng cao khả năng chống lỗi
- Sự linh hoạt trong kích thước các mảnh cho phép bộ mã hóa lựa chọn thích hợp kíchthước của các mảnh để tăng khả năng chống lỗi
2.4 Các kỹ thuật trong H.264/AVC
Chi tiết về một số tính năng quan trọng của H.264
Instantaneous Decoding Refresh Picture
Trong chuẩn MPEG, chuỗi video đầu vào được tổ chức thành group: GOP MỗiGOP chứa 3 loại frame đó là : frame I, frame P và frame B
Trang 14Trong H.264/AVC không dùng khái niệm về I-picture, P-picture, B-picture màthay vào đó là I-slice, P-slice , B-slice Tuy nhiên một picture có thể chứa I-slice, P-slice , B-slice.
Để đáp ứng môt số ứng dụng, H.264 sử dụng một loại picture mới, instantaneousdecoding refresh ( IDR ) picture IDR picture là một picture được mã hóa trong đó tất
cả các slices : I- hoặc SI-slices làm cho quá trình giải mã đánh dấu tất cả các picturetham chiếu như là “không sử dụng tham chiếu” ngay lập tức sau khi giải mã IDRpicture Điều này có nghĩa là sau khi giải mã một IDR, tất cả những picture nén sau
đó có thể được giải mã mà không cần dự đoán inter từ bất kỳ picture giải mã trướcIDR picture Hình ảnh đầu tiên của chuỗi là một IDR picture
Sự khác biệt chính giữa IDR-picture của H.264 và I-picture của MPEG-2 là : trongH.264, sau khi gửi một IDR picture bộ mã hóa không thể sử dụng được bất picturenào trước IDR ( trong thứ tự giải mã ) làm tham chiếu cho dự đoán inter của mộtpicture bất kỳ sau IDR Vì vậy sự có mặt của IDR trong H.264 tương tự như sự cómặt của GOP header trong MPEG-2 trong đó cờ closed_gop được thiết lập 1
Switching I – slices and switching P-slices
Ngoài việc thêm loại picture mới là IDR picture, H.264 còn thêm loại slice mới :SP- và SI-slices Mục đích chính của SP-slice và SI-slice là cho phép chuyển mạchhiệu quả giữa các video stream và truy cập ngẫu nhiên hiệu quả dòng giải mã
Video stream là một trong những ứng dụng quan trọng trong mạng IP và mạngkhông dây 3G Tuy nhiên do nhiều điều kiện mạng khác nhau nên băng thông tớingười dùng sẽ phải thay đổi cho phù hợp Vì vậy server video phải thay đổi tốc độdòng bit cho phù hợp Có một số cách để đạt được điều này như chuyển mã video,nhưng cách đơn giản nhất cho ứng dụng thời gian thực là tạo ra một số dòng bit riêngbiệt được mã hóa trước cho cùng một chuỗi video với tốc độ dòng bit khác nhau vớichất lượng khác nhau ở cùng một thời điểm Các máy chủ có thể tự động chuyển từtốc độ dòng bit cao sang tốc độ thấp khi băng thông giảm
Trang 15Hình 2.4: Quá trình switching.
Trong hình này ta giả sử rằng mỗi frame được mã hóa như là một loại slice duynhất và dự đoán từ một frame tham chiếu Ngoài ra, dòng A được mã hóa với tốc độdòng bit cao hơn, dòng B được mã hóa với tốc độ dòng bit thấp hơn
Sau khi giải mã P-slice A1 và A2 trong dòng A, bộ giải mã muốn chuyển sangdòng B và giải mã B3, B4 Trong trường hợp này, rõ ràng B3 được mã hóa như là mộtI-slice Nếu B3 được mã hóa như một P-slice thì các bộ giãi mã sẽ giải mã sẽ không
có được picture tham chiếu chính xác để tái tạo lại B3
Vì vậy chuyển mạch bitstream có được thực hiện bằng cách chèn thêm một I-silcevào trong chuỗi mã hóa để tạo ra điểm chuyển mạch Tuy nhiên, một I-slice khôngkhai thác được bất cứ dư thừa nào và nó cần nhiều bit để mã hóa hơn P-slice Điềunày sẽ cho kết quả như một đỉnh trong bitstream được mã hóa tai mỗi điểm chuyểnmạch Để giải quyết vấn đề này, các SP-slice được đề xuất để hỗ trợ chuyển mạch màkhông ảnh hưởn tới tốc độ dòng bit của I-slice
Trang 16Hình 2.5: Quá trình switching sử dụng SP-slice
Điểm mấu chốt là AB3(SP-slice) được mã hóa như P-slice khi B3 là picture đầuvào và được tái tạo với A2 làm tham chiếu dự đoán Quá trình mã hóa và giải mã củaAB3 được chỉ ra trong hình sau:
Hình 2.6: Quá trình mã hóa và giải mã SP-slice