2.4.4.1 Giới thiệu
Sự gia tăng của các loại dịch vụ và số lượng TV độ phân giải cao đã thúc đẩy nhu cầu có một công cụ nén hiệu quả hơn.
Vào năm 2001, VCEG và MPEG cộng tác với nhau thành nhóm JVT (Join Video Team) để phát triển một chuẩn mã hoá video mới. Kết quả ra đời chuẩn nén ITU-T H.264/AVC, tương đương với tiêu chuẩn MPEG 4 Part 10/AVC về mã hoá video tiên tiến (Advance Video Coding), được cả ITU và ISO phát hành năm 2003. Nhằm không ngừng nâng cao hiệu quả mã hoá, rất nhiều kỹ thuật được áp dụng vào trong MPEG 4/AVC nhằm khai thác tối đa sự tương quan giữa các khung hình video và xử lý linh hoạt các tham số theo nội dung của cảnh video cần nén. MPEG 4/AVC cũng đã áp dụng rất nhiều công cụ đã được giới thiệu trong MPEG 4 Visual.
Trong các phần sau đây, ta sẽ gọi chuẩn này dưới tên MPEG 4/H.264.
2.4.4.2 Phạm vi ứng dụng và các điểm tiêu biểu của MPEG 4/H.264
Chuẩn này được thiết kế cho các giải pháp kỹ thuật của các lĩnh vực ứng dụng sau đây:
Quảng bá trên các kênh vệ tinh, cáp, sóng mặt đất, DSL (Digital Subscriber Line)…
Lưu trữ nối tiếp hoặc tương tác trên các thiết bị quang và từ, trên DVD… Các dịch vụ hội nghị trên ISDL, Ethernet, LAN, DSL, không dây và mạng di động…
Các dịch vụ đã phương tiện hoặc video theo yêu cầu trên ISDL, cáp, DSL, LAN, mạng không dây…
Các dịch vụ nhắn tin đa phương tiện (Multimedia Messaging Service- MMS) trên ISDL, DSL, Ethernet, LAN, mạng di động và mạng không dây.
Hơn nữa, các dịch vụ mới cũng có thể được thực hiện trên các mạng hiện tại hoặc tương lai. Điều này dẫn đến yêu cầu về việc làm thế nào để quản lý sự đa dạng trong ứng dụng và khai thác mạng.
Trang 51
Để thực hiện việc này, MPEG 4/H.264 đưa ra lớp mã hoá video (Video Coding Layer-VCL), được thiết kế để trình diễn hiệu quả các nội dung video, và đưa ra lớp mạng trừu tượng (Network Abstraction Layer-NAL) để định dạng sự trình diễn video của lớp VCL và cung cấp các thông tin mào đầu (Header) theo cách thích hợp cho việc truyền dữ liệu tại lớp truyền tải hoặc cho việc lưu trữ dữ liệu.
Tương quan với các giải pháp mã hoá trước đây, ví dụ như MPEG 2, một số điểm tiêu biểu của MPEG 4/H.264 cho phép tăng hiệu quả nén, bao gồm cả khả năng dự đoán giá trị nội dung ảnh được trình bầy sau đây:
Kích thước Block bù chuyển động nhỏ hơn: Chuẩn này cho phép lựa chọn kích thước block bù chuyển động và hình dạng một cách mềm dẻo hơn tất cả các chuẩn trước đó, với kích thước block bù chuyển động tối thiểu đạt tới 4x4.
Bù chuyển động chính xác đến ¼ mẫu: các chuẩn trước cho phép độ chính xác bù chuyển động đến tối đa là ½ mẫu. Chuẩn mới cho phép điều này đạt đến mức ¼ mẫu, như có thế thấy ở MPEG 4 Visual. Tuy nhiên độ phức tạp trong xử lý việc này đã giảm đi với MPEG 4/H.264.
Vector chuyển động tại đường bao ảnh: trong khi vector chuyển động tại MPEG 2 cần phải chỉ đúng vào vùng ảnh đã được giải mã trước đó thì MPEG 4/H.264 cho phép chỉ tới đường bao của ảnh.
Bù chuyển động đa ảnh: các ảnh P trong MPEG 2 chỉ sử dụng 1 ảnh I hoặc P trước đó để dự đoán ảnh tiếp theo. Với MPEG 4/H.264, dự đoán bù chuyển động từ nhiều ảnh trước đó được lưu trong bộ nhớ. Tương tự như vậy với ảnh B.
Tách riêng thứ tự mã hoá khỏi thứ tự trình diễn: trong MPEG 2, có một sự phụ thuộc chặt chẽ giữa thứ tự mã hoá và thứ tự trình diễn. MPEG 4/H.264 cho phép bộ mã hoá có thể lựa chọn thứ tự mã hoá hoàn toàn độc lập với thứ tự trình diễn, miễn là dung lượng bộ nhớ của bộ giải mã đủ lớn. Điều này sẽ giảm được thời gian trễ khi mã hoá các ảnh dự đoán 2 chiều.
Tách riêng các giải pháp trình diễn ảnh khỏi khả năng làm ảnh chuẩn: trong các chuẩn trước, các ảnh B là các ảnh được mã hoá từ việc dự đoán 2 chiều các ảnh khác, không thể được sử dụng như một ảnh chuẩn để dự đoán các ảnh khác trong chuỗi video. Chuẩn mới loại trừ việc này, do đó làm tăng tính mềm dẻo cho việc dự đoán chuyển động.
Dự đoán có trọng số: bước đột phá mới trong MPEG 4/H.264 là cho phép tín hiệu dự đoán bù chuyển động được kết hợp với một giá trị trọng số được mô tả bởi bộ mã hoá. Chế độ dự đoán này là hỗ trợ cần thiết khi nén các cảnh có sự mờ đi (khi 1 cảnh được mờ đi vào cảnh khác), nhờ vậy mà tăng được hiệu quả nén.
Suy đoán chuyển động trực tiếp: với các chuẩn trước, một khu vực bị bỏ qua sẽ không chuyển động trong nội dung cảnh. Điều này sẽ có ảnh hưởng không tốt khi mã hoá video có chứa chuyển động toàn thể. Thay vì suy luận vùng bị bỏ qua, MPEG 4/H.264 đưa ra giải pháp suy đoán chuyển động mới, gọi là bù chuyển động trực tiếp (Direct).
Switching slices (còn được gọi là SP và SI): là chức năng cho phép bộ mã hoá có thể chỉ thị cho bộ giải mã xâm nhập vào dòng bít để chuyển tốc độ bit hay có thể giải mã được ảnh tại đúng vị trí xâm nhập đó mà không cần sử dụng các ảnh khác.
Ảnh dự phòng (Redundant Picture): MPEG 4/H.264 có khả năng cho phép bộ mã hoá gửi đi hình ảnh dự phòng của vùng ảnh được truyền, nhằm khôi phục lại vùng ảnh bị mất ở trên đường truyền.
Nhằm cải tiến các giải pháp dự đoán, một số phần khác của chuẩn cũng được nâng cao để tăng hiệu quả nén:
Biến đổi với kích thước block nhỏ: tất cả các chuẩn trước đều sử dụng kích thước block biến đổi là 8x8, trong khi MPEG 4/H.264 dựa trên kích thước 4x4. Do có kích thước block nhỏ hơn nên sẽ độ sai khác giữa ảnh thật và ảnh dự đoán giảm đi, nhờ vậy tăng hiệu quả nén.
Thực hiện các biến đổi với kích thước block phân cấp: cho phép kích thước block có thể tăng lên trong một số trường hợp.
Phép biến đổi ngược chính xác: trong các chuẩn mã hoá video trước đây, các phép biến đổi được sử dụng cho trình diễn video thường có ngưỡng chấp nhận lỗi cho phía thu, do không thể đạt được phép biến đổi ngược lý tưởng trên lý thuyết. Vì thế, mỗi bộ giải mã sẽ có tín hiệu video khác một chút so với bộ mã hoá, điều này làm ảnh hưởng đến chất lượng video. MPEG 4/H.264 là tiêu chuẩn đầu tiên đạt được sự chính xác về chất lượng của tín hiệu video giải mã từ tất cả các bộ giải mã.
Trang 53
Mã hoá entropy số học: một phép mã hoá entropy tiên tiến được áp dụng trong MPEG 4/H.264 là mã hoá số học nhị phân theo nội dung CABAC (Context Adaptive Binary Arithmetic Coding). Phương pháp mã hoá này dựa trên khả năng chọn lựa các chế độ cho mỗi cú pháp dựa vào nội dung.
Mã hoá entropy theo nội dung: phương pháp mã hoá entropy thứ 2 được áp dụng trong MPEG 4/H.264 là mã hoá độ dài thay đổi theo nội dung (CAVLC- Context Adaptive Variable Length Coding). Phương pháp này được thiết kế để mã hoá độ dư thừa các hệ số chuyển đổi của các khối 4x4 và 2x2.
Một số cải tiến nhằm nâng cao việc truyền dữ liệu trên các mạng cũng được thêm vào MPEG 4/H.264
Cấu trúc bộ thông số: được thiết kế để truyền các bit có tính chìa khoá trong dòng dữ liệu như thông tin header, một cách độc lập và mềm dẻo hơn, nhằm đảm bảo có thể khôi phục chính xác dữ liệu tại đầu thu.
Cấu trúc cú pháp đơn vị NAL: mỗi cấu trúc cú pháp trong MPEG 4/H.264 được đặt trong một gói dữ liệu logic, được gọi là đơn vị NAL. Điều này cho phép sự tuỳ biến lớn hơn trong các giải pháp truyền nội dung video.
Kích thước Slice mềm dẻo: khắc phục nhược điểm trong MPEG 2, khi có nhiều header trong slice làm giảm hiệu quả mã hoá.
Thứ tự macroblock mềm dẻo (FMO) và thứ tự macroblock tuỳ ý (AMO): là kỹ thuật cho phép khôi phục lại thứ tự trình diễn của các MB khi không đúng như thứ tự trình diễn..
2.4.4.3 VCL (Video Coding Layer)
Trong các chuẩn mã hóa video trước của ITU-T và ISO/IEC, VCL dựa trên đơn vị mã hoá là các block, tại đó các ảnh được mã hoá sẽ được thể hiện dưới dạng các macroblock. Thuật toán mã hoá là sự kết hợp của nén liên ảnh để loại trừ dư thừa thời gian và phép biến đổi DCT để loại trừ dư thừa không gian.
Với VCL của MPEG 4/H.264, không có cải tiến nào mang tính đột phá, nhưng có một số điểm bổ sung nhỏ được kết hợp lại để nâng hiệu quả nén.
a. Ảnh, khung và mành
Một chuỗi video được mã hoá trong MPEG 4/H.264 bao gồm chuỗi các ảnh được mã hoá. Một bức ảnh được mã hoá có thể trình diễn dưới 1 trong 2 dạng là
khung hình hoặc mành đơn. Một khung hình quét liên tục bao gồm 2 mành quét xen kẽ. Mã hoá tại VCL không dựa trên thời gian mà dựa trên cơ sở về hình học.
b. Chia ảnh vào các Macroblock
Một bức ảnh có thể được chia vào các MB có kích thước cố định là một khu vực gồm 16x16 mẫu chói và 8x8 mẫu mầu. MPEG 4/H.264 cũng định nghĩa các MB như các chuẩn trước đây.
c. Slice và nhóm Slice
Một slice là nột chuỗi các MB được xử lý theo thứ tự quét. Trong mỗi slice có chứa các thông tin cần thiết để giải mã ra vùng ảnh chứa trong slice đó.
Nếu có sử dụng kỹ thuật FMO, việc chia nội dung ảnh vào các MB và các slice sẽ mềm dẻo hơn với cơ sở nhóm slice. Nhóm slice là một tập hợp các MB được xác định từ bản đồ xắp xếp MB vào nhóm slice . Bản đồ này cũng chứa con số nhận dạng nhóm slice mà các MB đó thuộc về
Hình 2.14 - Phân chia Slice và nhóm slice
Tuỳ theo việc có sử dụng kỹ thuật FMO hay không, mỗi slice có thể được mã hoá với kỹ thuật khác nhau sau đây:
I slice: là slice mà tất cả các MB của nó đều được mã hoá theo phương pháp dự đoán trong ảnh.
P slice: một số MB trong slice được mã hoá theo phương pháp dự đoán liên ảnh.
Trang 55
B slice: một số MB được mã hoá từ các MB khác theo 2 chiều Một số kỹ thuật mới được thêm vào như sau:
SP, SI slice: là kỹ thuật cho phép đầu thu có thể truy cập ngẫu nhiên vào dòng bit để thay đổi tốc độ, khôi phục lỗi hay các mục đích khác.
d. Chu trình mã hoá và giải mã MB
Tất cả các mẫu mầu và chói của các MB được dự đoán không gian và thời gian. Kết quả dự đoán sẽ được mã hoá biến đổi. Để thực hiện mã hoá biến đổi, các tín hiệu dự đoán được chia thành các block 4x4. Sau đó được biến đổi bằng phép biến đổi cái nguyên. Kết quả được lượng tử hoá và mã hoá entropy.
Hình 2.15 - Sơ đồ mã hoá MacroBlock
e. Dự đoán trong ảnh
Có 2 kích thước để dự đoán là 4x4 và 16x16. Chế độ dự đoán với kích thước 4x4 phù hợp với các phần ảnh có độ chi tiết cao còn chế độ dự đoán với kích thước 16x16 phù hợp với các phần ảnh mịn.
MPEG 4/H.264 còn có thêm chế độ mã hoá trong ảnh I_PCM, chế độ này không thực hiện mã hoá theo các giá trị đã được biến đổi. I_PCM cho phép truyền trực tiếp các giá trị được mã hoá.
Cho phép bộ mã hoá có thể biểu thị một cách chính xác giá trị của các mẫu. Đưa ra phương thức để biểu thị một cách chính xác nội dung bất thường của ảnh mà không làm tăng đáng kể dữ liệu.
Nó cho phép giới hạn tuyệt đối số lượng bit trong MB mà không làm ảnh hưởng đến chất lượng hình ảnh.
Các chuẩn mã hoá trước đây đều thực hiện trên một miền đã biến đổi, còn MPEG 4/H.264 với chế độ mã hoá I_PCM vẫn thực hiện hoàn toàn trên miền không gian.
f. Dự đoán liên khung
Dự đoán liên khung với slice P
MPEG 4/H.264 hỗ trợ nhiều kích thước dự đoán nhỏ hơn, từ 16x16 đến 4x4. Mỗi MB có thể chia thành 4 phân đoạn 8x8, mỗi phân đoạn 8x8 lại có thể chia thành 4 phân đoạn 4x4. Mỗi phân đoạn đều yêu cầu phải có vector chuyển động riêng. Như vậy 1 MB có thể có tối đa là 16 vector chuyển động.
Hình 2.16 - Kích thước dự đoán MB
Việc bù chuyển động để khôi phục lại ảnh yêu cầu cả phía phát và phía thu phải lưu trữ các ảnh chuẩn để dự đoán.
Hình 2.17 - Dự đoán bù chuyển động
Khi giải mã bù chuyển động, đầu thu sẽ đọc các thông số ảnh tham chiếu trong bộ nhớ đệm. Trên cơ sở đó sẽ khôi phục lại ảnh gốc
Trang 57
Ảnh P cũng có thể được mã hoá theo chế độ P_skip. Với chế độ mã hoá này, không phải bảng các giá trị lượng tử sai số, hay vector bù chuyển động, hay các thông số trình diễn được truyền đi, mà tín hiệu khôi phục ảnh tại đầu thu chính là tín hiệu dự đoán chuyển động của microblock P_16x16 lưu tại vị trí đầu tiên của chuỗi trong bộ nhớ đêm của đầu thu.
Chế độ P_skip phù hợp với các trường hợp có một vùng ảnh rộng không có thay đổi.
Dự đoán liên khung với ảnh B
Dự đoán khung ảnh B sử dụng 2 danh sách: Danh sách 0 chứa các ảnh gần nhất trước đó Danh sách 1 chứa các ảnh gần nhất sau đó
Dự đoán khung ảnh B có thể theo 1 trong 4 phương thức: dự đoán từ các ảnh trong danh sách 0, từ các ảnh trong danh sách 1, dự đoán 2 chiều và dự đoán trực tiếp.
Với chế độ dự đoán 2 chiều, tín hiệu dự đoán được tạo nên từ giá trị trung bình của các tín hiệu bù chuyển động theo danh sách 0 và danh sách 1, có bổ sung trọng số.
Chế độ dự đoán trực tiếp, ảnh được suy ra từ các cú pháp dự đoán ảnh truyền trước đó, có thể là theo danh sách 0 hoặc 1 hoặc theo chế độ 2 chiều.
Các slice B cũng sử dụng phân chia MB như slice P. Dự đoán liên khung với ảnh B cũng có chế độ B_skip tương tự như với ảnh P.
g.Biến đổi Cosin
MPEG 4/H.264 cũng sử dụng biến đổi cosin để loại trừ các dư thừa trong ảnh. Tuy nhiên khác với MPEG 2, phép biến đổi DCT được thực hiện với các block 4x4. Thay vì sử dụng DCT cho khối 4x4, một phép biến đổi thứ nguyên với các đặc tính tương tự như phép DCT cho block 4x4 được sủ dụng.
Việc sử dụng DCT với block có kích thước nhỏ sẽ đem lại một số lợi ích sau:
Giảm tương quan về không gian trong khối
Giảm nhiễu đường biên của phần ảnh mà block đó mang thông tin. Giảm sự phức tạp trong tính toán và sai lệch giữ mã hoá và giải mã. h. Mã hoá Entropy.
MPEG 4/H.264 sử dụng 2 loại mã hoá có cấu trúc phức tạp hơn nhưng hiệu quả hơn là:
Mã hoá độ dài thay đổi theo nội dung (Context Adaptive Variable Length Coding – CAVLC)
Mã hoá nhị phân tương thích nội dung (Context Adaptive Binary Arithmetic Coding – CABAC).
Kết luận chƣơng 2:
Chương 2 trình bày về những kỹ thuật cơ sở trong truyền hình độ phân giải cao HDTV. Những kỹ thuật này được áp dụng trong quá trình mã hóa và nén tín hiệu truyền hình độ phân giải cao HDTV. Có nhiều tiêu chuẩn kỹ thuật có thể được lựa chọn đề phù hợp với công nghệ và hệ thống thiết bị của đơn vị cung cấp dịch vụ. Chương tiếp theo sẽ đi sâu vào các kỹ thuật truyền dẫn phát sóng tín hiệu HDTV.
Trang 59
CHƢƠNG 3: CÁC PHƢƠNG THỨC QUẢNG BÁ HDTV
Việc truyền phát tín hiệu HDTV thường có sự tham gia của rất nhiều thành