Chuan nén video MPEG-4 Part10/H.264 là một trong những định dạng hav được sử dụng nhất hiệnnay để ghi, nén, phân phối video độ nét c „ với nhiều ứng dụng rộngrãi từ các ứng dụng video st
Trang 1HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
VŨ THỊ HUONG £ «ANG
NGHIÊN CUU UNG” 'NG CUA SUAN NEN MPEG-4
CHUY ' GANH: KY THUẬT VIÊN THONG
MA SO: 60.52.02.08
TOM TAT LUAN VAN THAC SI
HÀ NỘI - 2014
Trang 2Luận văn được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THONG
Phản biện 1: TS.Nguyễn Ngoc Mi:
Phản biện 2: PGS.1s LEM, Tú
Luận van sé duoc bảo vệ trước Hội đông cham luận văn thạc sĩ
tại Học viện Công nghệ Bưu chính Viễn thông
Vào lúc: 9 g10 30 ngày 09 tháng 08 năm 2014
Có thê tìm hiêu luận văn tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn thông
Trang 3MỞ ĐẦU
Với sự phát triển nhanh chóng của mạng Internet băng rộng làm
thay đổi cả về nội dung và kĩ thuật truyền hình Hiện nay truyền hình
có nhiều dạng khác nhau: truyền hình số, truyền hình vệ tinh, truyền
hình cáp, truyền hình Internet và IPTV IPTV đang là cấp độ cao nhất
và là công nghệ truyền hình của tương lai
Vì đữ liệu video thô chiếm một lượng lớn băng thông nên thường
sử dụng nén dé thu được hiệu quả truyền dẫn Nén cho phép các nhà cung cấp dịch vụ IPTV quảng bá các kênh video và audio chất lượng
cao qua một mang IP băng rộng Chuan nén video MPEG-4 Part10/H.264 là một trong những định dạng hav được sử dụng nhất hiệnnay để ghi, nén, phân phối video độ nét c „ với nhiều ứng dụng rộngrãi từ các ứng dụng video streaming © a ¬ternet tốc độ bit thấp tớiquảng bá HDTV Chuan MPEG-4 Part 10/H ^4 kế thừa các ưu điểmcủa các chuẩn nén trước đó như M: 7G-2, MPE 4 nhưng MPEG-
4 Part 10/H.264 có hiệu suất en tốt 1 + và linh hoạt hon trong việclưu trữ và truyền dẫn
Với đề tài:" Nghiên cứu tm, dung của chuẩn nén MPEG-4 Part
10/H.264 kết hợp -_ “ideo stre +ing", luận văn của em gồm 3
chương:
Chương 1: Tu + qu’ về các chuẩn nén trong video streaming
Chương 2: Chua ‘én video MPEG.
Chương 3: Ung du - của bộ mã hóa MPEG-4 Part 10/H.264 va
video streaming vào IPTV.
Trang 4CHƯƠNG 1 - TONG QUAN VE CÁC CHUAN NEN
TRONG VIDEO STREAMING
1.1 Giới thiệu
Có 2 mô hình truyền dẫn video lưu trữ trên mạng Internet đó làchế độ download và chế độ streaming Video streaming có các yêu
cầu về băng thông, độ trễ và mất mát Tuy nhiên, mạng Internet nỗ
lực tối đa hiện nay không cung cấp bất kỳ đảm bảo về QoS
Nén video làm giảm số bit dùng dé biểu diễn từng pixel trong anh.Các thuật toán nén ảnh sinh ra các tạp nhiễu (artifact) nhìn thấy được
Nén luôn là sự được- mat giữa mức artifact và băng thông.
1.2 Các yêu cầu kỹ thuật của các chya nén trong video
streaming
e Bang thong: Dé thu được cha ‘rong chap nhan duoc
theo cảm giác, một ứng dung sti wing điển inh cần có yêu cầu
băng thông tối thiéu
e Tré: Streamine ‡eo yêu ca ‘ré end-to-end giới hạn dé
gói có thê tới phía thu de aig lúc 4 giải mã va hién thị.
e Mất gói: “+ gói là k “ng thé tránh được trên Internet.
Do đó, mong mv “¿¡ một x_ Jeo stream mạnh tránh mat gol
e Chức ¬ăng .nu video-cassette-recoder (VCR): Một số
ứng dung streaming su cầu các chức năng giống như VCR như là
dừng, tạm dừng/tiếp tụ‹ “i,
¢ Độ phức tạp giải mã hóa: Một số thiết bị như điện thoại
di động, thiết bị số cá nhân (PDA) yêu cầu tốn ít năng lượng Do đó,
yêu cầu độ phức tạp giải mã hóa thấp.
1.3 Các chuẩn nén trong video streaming
Trang 5s* Nén liên khung
Một chuỗi các ảnh video có sự thay đổi nhỏ từ một ảnh này tớiảnh tiếp theo, ngoại trừ một số thay đổi cảnh Nén theo thời gian hoặcliên khung loại bỏ dư thừa giữa các khung liên tiếp nhau
“+ Thị giác
Võng mạc và vỏ não cùng nhau xử lý cảnh nhìn thấy theo cáchphát hiện các biên và các đường Một kiến trúc nén tốt là phải tậndụng được cơ chế của thị giác
1.3.2 Các thuật toản nén
Có 4 loại dư thừa chính trong tín hiệu video là: không gian, thời
gian, giác quan, thống kê
s* Mã hóa trong khung hay nén” ông gian
Mã hóa biến đổi, trong đó một ble «c >» các pixel được biến đồisang miền tần số, sau đó lượng tử hóa và mã › 2 entropy
Mã hóa biến đổi
Mã hóa biến đổi chuyển Z ¡ mảng k *ng gian của các pixel block,một bản đồ bit sang miề ta số Biến a cosin rời rac DCT đượcthông qua rộng rãi cho video ¬dec Một số biến đổi khác được
nghiên cứu là DFT a WHT.
Nén wavelet
Cung cấp suv *u 7 en lại thời gian-tần số của ảnh va có thé thu
được cùng chất lượn, ảnh như DCT ở tỉ số nén cao hơn nhiều
vị và sau đó áp dụng thuật toán chia nhỏ.
Mã hóa dựa trên doi twong
Mã hóa đối tượng được thông qua là cơ sở cho mã hóa MPEG-4.Một cảnh được biểu diễn lại bằng một số đối tượng video Mỗi đối
Trang 6tượng được miéu tả bởi hình dạng, kết cau và di chuyền Thuật toán
như DCT và wavelet có thé được sử dụng dé nén các đối tượng
Mã hóa entropy
Mã hóa entropy có thê mang lại biểu diễn ảnh ngắn hơn nhiều vớibang cách sử dụng các từ mã ngắn hon cho các chuỗi bit có khả năng
hơn và từ mã dài hơn cho các chuỗi ít khả năng hơn.
Biến đổi cosin rời rac
Biến đổi này là cơ sở cho tat cả các codec video phổ biến Ảnhđược chia thành các block thông thường và sau đó mỗi block biến đôi
thành block hệ số biến đổi Các hệ số được chuẩn hóa và lượng tử
hóa.
s* Mã hóa độ dài thay doi (VI „
Bằng cách quét các hệ số theo due zg >zag thì kết quả dần chạy tới 0 Các hệ số sau đó được ch"yên đổi t xh một chuỗi các cặp cường độ chạy Các hệ số cườnz đọ hay này sac *6 được mã hóa với
từ mã độ dài thay đôi
s* Nón liên kh' g +y nén the 'hời gian
Co sở của loại nén nay là c ˆ phát sự sai khác giữa các khung.
Hau hết sự sai khae | ¬áckhung ` từ đối tượng chuyền động
% Uớ ánh ch yên động
Để tạo ra vec + ch yên động, bộ mã hóa phải ước tính chuyển
động của các phần i anh Dự đoán chuyển động so sánh một khung
trước đó với khung hig ‘tai, va sau đó ước tính bao nhiêu block của
anh đã di chuyên
1.3.3 Các bộ codec nén
1) H.261 - hội nghị video
Đây là chuẩn mã hóa video đầu tiên và là khởi đầu cho chuẩn
MPEG-1 H.261 cho điện thoại video và hội nghị video qua đường
ISDN Chuẩn định nghĩa kích thước màn hình là định dạng trung
bình chung (CIF) 352 x 288 va Quarter CIF 176 x 144 pixel, sử dung
quét tiến lên va lay mau 4:2:0 Tốc độ dữ liệu từ 64 kb/s tới 2 Mb/sđược chuẩn hỗ trợ Nén dựa trên DCT với mã hóa độ dài thay đôi
2) MPEG-I
Trang 7Độ phân giải thông thường là nguồn hoặc định dạng đầu vàochuẩn (SIF) Độ phân giải không gian khác nhau : 352 x 288 ở 25 fpscho PAL va 351 x 240 ở 30 fps cho NTSC Chuan này sử dụng quéttiến lên Nén video giống như H.261 sử dung DCT với mã độ daithay đối
Chuan này được thiết kế cho các ứng dụng lưu trữ như CD-ROM,tốc độ dữ liệu lên tới 1.5 Mb/s và không hỗ trợ streaming
3) H.263
H.263 là sự phát triển của H.261 hướng tới các ứng dụng tốc độbit thấp, có từ năm 1992 Chuẩn H.263 hỗ trợ độ phân giải SQCIF,QCIF, CIF, 4CIF, 16 CIF H.263 hiện nay 1 chuẩn cơ sở cho mã hóa
video tự nhiên MPEG-4.
4) MPEG-2
Một hệ thống độ phân giải ca hơn, cha tượng cao cho truyềnhình quảng bá, MPEG-2 dành dé ay thế ch hệ thống tổng hoptương tự (NTSC, PAL) bane ệ thống -uyén dẫn số, mã hóa DVD
Ứng dụng chính sử dune „¿+ thông ke lớn hơn 4 Mb/s Profile
chính ở mức chính (MP@ML) › TV độ nét chuẩn với tốc độ dữ liệu
lên tới 15 Mb/s Ch uu Ay dành chỗ trợ tốc độ bit TV độ nét cao
(lên tới 80 Mb/s’ va một ofile studio chỉ có khung I (50 Mb/s).
6) AVC (Advanced Video Codec, H.264)
Nhóm video kết hợp (JVT - Joint Video Team) được thành lập déphát triển video codec tiên tiến hay AVC Nó được gọi là H.264 bởi
ITU và MPEG-4 Part 10 bởi tổ chức MPEG
“+ Các chuẩn MPEG khác
MPEG-7
Trang 8Đây là hệ thống được chuẩn hóa để mô tả nội dung âm
thanh-hình ảnh Điều này cho phép tìm kiếm nhanh và hiệu quả Các ảnh và
âm thanh có thê được trình bày trong các trừu tượng: bố cục, mô tảvăn bản của nội dung, màu sắc
MPEG-21 MPEG-21 là một framework cho các tai nguyên da phương tiện
tích hợp qua một dải rộng các nền tang va dịch vu Streaming media
là một phan quan trọng của framework này Một trọng tâm của
MPEG-2I là bán nội dung Chia khóa là quản lý sở hữu trí tuệ.
“ Chuan VC-1VC-1 là viết tắt của Video Codec 1, đrợc chuẩn hóa bởi cộngđồng kỹ sư truyền hình va ảnh động SM” £ Chuan được phát hànhvào 2006 Một trong những triển kh“ p ‘ile cao nhất được thôngqua bởi nền tảng mã hóa đa phươns tiện WN 79 của Microsoft Một
số đặc điểm của VC-1 như sau:
e Triển khai qua một ở rộng ne “Aang
e Hỗ trợ 3 profiler ag 'êt: simple, »>ain, advanced.
e Hỗ trợ ASF để cau trúcc ¬ø IPTV
e Hỗ trợmô“ sain hthướcb ^k.
e Loaikk 1g bố s' g:VC-1 đưa ra một loại khung mới là BI
e Hoạt động "“ ,nột dải rộng các công nghệ truyền tải mạng
1.4 Kết luận
Chương | trình bày , cu cầu kỹ thuật của nén video trong videostreaming, cơ sở của nén video và một số chuẩn nén phổ biến Cáccông nghệ nén khác nhau được phát triển cho các mục đích khácnhau Đối với ứng dụng video streaming, bộ video codec phải đảmbảo được các yêu cầu về băng thông, độ trễ, mat gói, độ phức tạp
Trang 9Chương 2 - CHUAN NEN VIDEO MPEG VÀ
MPEG-4 PART 10/ H.26MPEG-4
2.1 Giới thiệu
MPEG là nhóm chuyên gia về hình ảnh, được thành lập vào năm
1288 với nhiệm vụ xây dựng tiêu chuẩn cho tín hiệu audio và video
SỐ Ngày nay, MPEG đã trở thành một kỹ thuật nén audio và video
phô biến nhất, tùy thuộc vào yeu cầu cụ thé của từng thiết bị sẽ có
một tiêu chuẩn thích hợp nhưng vẫn trên một nguyên lý thống nhất.
2.2 Mã hóa và giải mã MPEG
2.2.1 Cầu trúc dòng bit video MPEG
Bitstream QTs,Params_ Misc ae
2.2.2 Nguyên lý nén MPEG
Nén MPEG chia một chuỗi video thành các nhóm ảnh Từng ảnh
trong nhóm sẽ được chia thành các slice macroblock Một
macroblock bao gồm 4 block độ chói và 1 block U và V
MPEG định nghĩa 3 loại khung trong nhóm: khung I (Intraframe),
khung dự đoán hay khung P, khung hai hướng hay khung B.
Cơ sở của công nghệ nén MPEG là kết hợp nén trong khung
(intra-frame) và nén liên khung (inter-frame).
Trang 10Điều khiến tốc độ
| "= Dòng bit đã
Video vào ^ - Hệ số ; aig ma hoa
+ (4) DCT > Luong tu | lwong tr | Mã hóa ; Bộ ;
RPA :
chuyên động anh
Vector chuyền động
Hình 2.2: ơ đô ‘un MPEG
Sơ đồ nén MPEG như *ø hình 2.2 Ảnh hiện tại được so sánh
với ảnh trước tạo ra ảnh sai kha Ảnh này sau đó được nén trong ảnh
qua các bước: biến 7 CT, lượn tử hóa, mã hóa Dữ liệu của ảnh
sai khác và vect“ chuyc động mang thông tin về anh sau nén liên
khung được dua “i bộ £ „m đầu ra
Trang 11ảnh sẽ được giải lượng tử hoa và biến đổi DCT ngược Nếu anh là
ảnh loại I bắt đầu ở mỗi nhóm ảnh trong chuỗi, ở đầu ra sẽ nhận được
ảnh hoàn chỉnh bằng cách trên Nếu ảnh là ảnh loại P thì cũng thực
hiện giải lượng tử hóa và biến đổi DCT ngược kết hợp với việc sử
dụng vector chuyển động và lưu vào bộ nhớ ảnh trước Ta nhận được
ảnh sau khi cộng dự đoán anh và kết quả biến đổi DCT ngược
2.3 Chuẩn nén MPEG-4
Vào tháng 10 năm 1998, MPEG-4 đã ra đời, với tốc độ mã hóakhoảng 1.5 Mb/s, chuan nén MPEG-4 đã giải quyết phần nào van đề
tắc nghẽn mạng và sự hạn chế về băng thông MPEG-4 bao gồm các
bộ phận riêng rẽ, có quan hệ chặt chẽ với r¬au và có thể được triển
khai ứng dụng riêng hoặc tô hợp với các -ˆ an khác
2.3.1 Công nghệ mã hóa và giải rv vi `9 trong MPEG-4
Bộ mã hóa [| E——] | Bộ giải mã _
-VO-I | -VO-I
ideo đã ân chia cá ộ | nạ Video da
Video đầu vào Phân chia các Bộ mã b’ j Bo L Bộ Hộ giải mã T ông đạp ideo dau ra
—————> đôi tượng x—> ghép hân ry, ———>
VŒ R VO-2 các VO
video (VO) L— kênh
Bê .hóa Bộ giải mã
.O-n VO-n
Hình 2.4: Cau 1 ac bộ mã hóa và giải mã MPEG-4Với MPEG-4, các đối tượng khác nhau trong một khung hình có
thé được mô tả, mã hóa và truyền đi một cách riêng biệt đến bộ giải
mã trong các dòng cơ bản ES khác nhau.
- _ Mã hóa hình dạng: dùng để nén đoạn thông tin, giúp xácđịnh khu vực và đường viền bao quanh đối tượng trong khung hình
- Mã hóa kết cấu: kết cấu của một đối tượng video thường
được mã hóa bang DCT Có thé mã hóa sử dụng biến đổi wavelet
- _ Mã hóa chuyền động: Nếu đối tượng chuyên động, thông sốchuyên động cho toàn bộ đối tượng được truyền
Trang 122.3.2 Các profile và level trong chuẩn MPEG-4
Object Descriptor
Profile
Hình 2.5: Cac profil” à mu_ level tron, MPEG-4
MPEG-4 chia thành c4 nhóm côn, ¬^ụ gọi là các profile, mỗi
profile chỉ chứa một va’ nh ¬g cần thic của chuẩn mã hóa thích
hợp cho một phạm +“ ng dung ào đó Mỗi profile lại có một SỐ
mức level khác nk vu.
Có nhiều mm pro“.e như media profile, scene graph profile,
MPEG-J profile,
Nhóm media pro > có: audio profile, visual profile, graphics
profile Trong đó visua profile gồm có các profile sau: Simple
profile Simple scalable profile, Core profile (profile 161), Main
profile, N-bit profile, Scalable texture profile Simple face, Hybrid
profile, Basic animated texture profile.
2.4 Chuẩn nén MPEG-4 Part 10/H.264
2.4.1 Giới thiệu chung về MPEG-4 part 10/H.264
Dé cung cấp nén video tốt hơn các chuẩn nén trước đó, chuẩnMPEG-4 part 10/H.264 hay H.264/AVC được phát triển bởi nhóm
video kết hợp JVT bao gồm các chuyên gia đến từ MPEG và VCEG
của ITU-T H.264/AVC dap ứng hiệu qua mã hóa, đặc tả cú pháp đơn
giản, tích hợp mã hóa video với tất cả các giao thức và kiến trúc ghép
Trang 13kênh hiện tại Do đó, H.264/AVC có thé hỗ trợ các ứng dụng như
video broadcasting, video streaming, video conferencing qua mạng
cô định, không dây va qua các giao thức truyền tải khác nhau
Tính kế thừa của chuẩn nén MPEG-4 Part 10/H.264:
= Phân chia hình ảnh thành các block bao gồm nhiều pixel
= Khai thác triệt dé sự dư thừa về mặt không gian tồn tại giữa
H.264 có những sự thay đổi quan trọn ưong chỉ tiết của các phần
tử chức năng như dự đoán trong ảnh - se đổi số nguyên 4 x 4 mới,nhiều ảnh tham chiếu, các kích thước block hay đôi, độ chính xác
1/4 cho bù chuyển động, bộ lọc tác hối, cải tic nd hóa entropy
H.264 sử dụng một số r' ương pi > để phục hồi lỗi Thiết lậptham số, thứ tự macroblo › *m dẻo, slic =huyển đổi, phương pháp
slice dư thừa được thêm vào.
2.4.2 Cầu trúc bê úa MPE 4 part 10/H.264
Lớp mã hóa ideo củ_MPEG-4/H.264 là sự kết hợp của mã hóakhông gian và m 62° aời gian Bộ mã hóa có thé lựa chọn mã hóatrong anh hoặc mã I > liên ảnh cho miền khối Bộ lọc tách khối làmgiảm sự nhiễu khối tại ‹ + đường biên của block Các vector chuyền
động và các mode dự đoán trong ảnh có thé làm biến đổi kích thướcblock trong ảnh Cuối cùng, vector chuyển động hay các mode dựđoán liên ảnh được liên kết với thông tin của hệ số biến đồi lượng tử
hóa và được mã hóa sử dụng mã entropy như CAVLC hay CABAC.
2.4.2.1 Các ảnh và bù chuyển động dùng trong MEG-4 Part
10/H.264
‹
s* Chia ảnh thành các macro-block
Mỗi ảnh video, frame được chia thành các macroblock có kích
thước cố định bao phủ một diện tích ảnh hình chữ nhật gồm 16 x 16mẫu cho các thành phan chói và 8 x 8 mẫu cho một trong hai thànhphần màu
Trang 14Các macroblock được tổ chức thành các slice MPEG-4 Part
10/H.264 hỗ trợ 5 dạng mã hóa slice khác nhau Slice I, B, P như các
chuẩn trước Hai dạng mới là SI và SP
s* Dự đoán trong ảnh Intra-frame H.264 sử dụng phương pháp dự đoán các macroblock mã hóa
trong ảnh đề giảm một lượng các bit được mã hóa băng chính tín hiệu
Hình 2.6: So `ầ mã hóa của MPEG-4 part 10/H.264
“ Bu chuyên ‘dng trong các slice P (dự đoán liên ảnh)
Các dạng mã hóa bù chuyền động được xác định cho các
macroblock slice P Dự đoán liên ảnh làm giảm sự tương quan theo
thời gian với sự trợ g1úp của việc ước tính vector chuyên động và bù
Quyết định Intra/
inter mode
chuyên động
- Chia các macroblock thành các block
- Cae gia trị dự đoán cho thành phan chói va thành phần màu