1. Trang chủ
  2. » Công Nghệ Thông Tin

Nghiên cứu và đánh giá chuẩn mã hóa video HEVC

82 702 7

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 82
Dung lượng 789,26 KB

Nội dung

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT AVC Advanced Video Coding Mã hóa video tiên tiến ALF Adaptive loop filter Bộ lọc vòng lặp thích ứng AMVP Advanced motion vector prediction Dự đoán

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

-

ĐINH CÔNG MINH

NGHIÊN CỨU VÀ ĐÁNH GIÁ CHUẨN MÃ HÓA VIDEO HEVC

Chuyên ngành : Kỹ thuật máy tính và truyền thông

LUẬN VĂN THẠC SĨ KỸ THUẬT

KỸ THUẬT MÁY TÍNH VÀ TRUYỀN THÔNG

NGƯỜI HƯỚNG DẪN: TS Nguyễn Kim Khánh

Hà Nội , tháng 4 năm 2016

Trang 2

MỤC LỤC

MỤC LỤC 2

LỜI CAM ĐOAN 6

LỜI CẢM ƠN 7

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT 8

DANH MỤC CÁC BẢNG 11

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ 12

MỞ ĐẦU 13

CHƯƠNG I: TỔNG QUAN VỀ NÉN VIDEO SỐ VÀ CÁC CHUẨN NÉN 16

1.1 Tổng quan về nén video số 16

1.1.1 Khái niệm về kỹ thuật nén video số 16

1.1.1.1 Khái niệm 16

1.1.1.2 Mô hình nén ảnh 16

1.1.2 Các đặc điểm của nén tín hiệu số 17

1.1.2.1 Độ dư thừa số liệu 17

1.1.2.2 Sai lệch bình phương trung bình 18

1.1.3 Các phương pháp nén 19

1.1.3.1 Nén không mất thông tin 19

1.1.3.2 Nén có không mất thông tin 20

1.1.4 Tiêu chuẩn nén MPEG 21

1.1.4.1 Cấu trúc ảnh 21

1.1.4.2 Nhóm ảnh (GOP-Group Of Picture) 23

1.1.4.3 Cấu trúc dòng bit MPEG Video 23

Trang 3

1.2.1 Chuẩn H.261 27

1.2.2 Chuẩn H.262 27

1.2.3 Chuẩn H.263 27

1.2.4 Chuẩn H.264 28

CHƯƠNG II: CHUẨN NÉN HEVC 29

2 1 Những điểm nổi bật thiết kế và tính năng của mã hóa HEVC 29

2.1.1.1 Cấu trúc đơn vị cây mã hóa (CTU) và khối cây mã hóa (CTB) 30

2.1.1.2 Đơn vị mã hóa(CU) và khối mã hóa (CB) 31

2.1.1.3 Đơn vị dự đoán (PU) và khối dự đoán (PB) 31

2.1.1.4 Đơn vị biến đổi (TU) và khối biến đổi (TB) 31

2.1.1.5 Tín hiệu hóa vector chuyển động 32

2.1.1.6 Bù chuyển động 32

2.1.1.7 Dự đoán trong ảnh 32

2.1.1.8 Điều khiển lượng tử hóa 32

2.1.1.9 Mã hóa Entropy 33

2.1.1.10 Bộ lọc bỏ khối trong-vòng 33

2.1.1.11 Bù thích ứng mẫu (SAO) 33

2.2 Cú pháp mức cao 33

2.3 Các kỹ thuật mã hóa video HEVC 34

2.3.1 Biểu diễn lấy mẫu của ảnh 34

2.3.2 Phân chia hình ảnh thành đơn vị cây mã hóa 35

2.3.3 Phân chia CTB thành CB 35

2.3.4 Khối dự đoán (PB) và đơn vị dự đoán (PU) 35

2.3.5 Phân chia cây cấu trúc thành các đơn vị biến đổi và các khối biến đổi 37

Trang 4

2.3.6 Mảng (Slice) và Tile 38

2.3.7 Dự đoán trong ảnh 40

2.3.7.1 Phân chia khối dự đoán (PB) 41

2.3.7.2 Dự đoán Intra_Angular 42

2.3.7.3 Dự đoán Intra-Planar and Intra-DC 43

2.3.8 Dự đoán liên ảnh 43

2.3.8.1 Phân chia PB 43

2.3.8.2 Phép nội suy mẫu phân đoạn 44

2.3.9 Mã hóa entropy 49

2.3.9.1 Mô hình hóa ngữ cảnh 49

2.3.9.2 Quét hệ số thích ứng 50

2.3.9.3 Mã hóa hệ số 50

2.3.10 Bộ lọc trong-vòng 51

2.3.10.1 Bộ lọc bỏ khối 51

2.3.10.2 SAO 53

2.4 Cấu hình, Tiers và Mức 54

2.4.1 Khái niệm cấu hình, tiers, mức 54

2.4.2 Định nghĩa cấu hình và mức HEVC 55

CHƯƠNG III: THỬ NGHIỆM , ĐÁNH GIÁ CHUẨN NÉN HEVC VÀ SO SÁNH VỚI CHUẨN NÉN H.264 57

3.1 Các công cụ sử dụng để thử nghiệm và đánh giá 57

3.1.1 FFmpeg 57

3.1.2 MediaInfo 57

3.1.3 Matlab 57

Trang 5

3.1.4 Bjontegaard metric 58

3.2 Thử nghiệm và đánh giá 58

3.2.1 Thử nghiệm 1: Đánh giá chất lượng video thông qua quá trình mã hóa H.265/HEVC ở các tốc độ bit khác nhau so với chuẩn H.264/AVC 58

3.2.2 Thử nghiệm 2: Mối quan hệ giữa các tham số điều khiển tốc độ và tốc độ bit đầu ra giữa 2 chuẩn H264 và H265 62

3.2.3 Thử nghiệm 3: Sử dụng phép đo lường Bjøntegaard-Delta Bit-Rate BD-BR 65

3.2.4 Thử nghiệm 4: Tính toán so sánh tốc độ mã hóa giữa chuẩn HEVC với chuẩn AVC ở cùng 1 yếu tố tốc độ không đổi tương ứng 74

3.3 Kết luận 79

CHƯƠNG IV KẾT LUẬN VÀ KIẾN NGHỊ 80

Kết luận 80

Kiến nghị 80

TÀI LIỆU THAM KHẢO 81

Trang 6

LỜI CAM ĐOAN

Tôi cam đoan các kết quả nghiên cứu được đưa ra trong luận văn này dựa trên các kết quả thu được trong quá trình nghiên cứu của riêng tôi, không sao chép bất kỳ kết quả nghiên cứu nào của các tác giả khác Nội dung của luận văn có tham khảo và sử dụng một số thông tin, tài liệu từ các nguồn sách, tạp chí được liệt kê trong danh mục các tài liệu tham khảo

Trang 7

LỜI CẢM ƠN

Luận văn thạc sỹ kỹ thuật này được thực hiện tại Viện Công Nghệ Thông tin

và Truyền Thông, trường Đại Học Bách Khoa Hà Nội Tôi xin chân thành cảm ơn

TS Nguyễn Kim Khánh đã trực tiếp tận tình hướng dẫn, giúp đỡ, tạo mọi điều kiện thuận lợi cho tôi trong suốt quá trình nghiên cứu Tôi xin cảm ơn Ban lãnh đạo trường Đại Học Bách Khoa Hà Nội, Viện Công Nghệ Thông Tin và Truyền Thông, Viện Đào Tạo Sau Đại Học đã giúp đỡ tôi rất nhiều trong quá trình nghiên cứu, tạo mọi điều kiện thuận lợi về mặt thủ tục cho hoạt động nghiên cứu của tôi

Cuối cùng, tôi xin được bày tỏ lòng biết ơn sâu sắc tới toàn thể gia đình, bạn

bè đã luôn động viên, khích lệ tinh thần để tôi có đủ nghị lực hoàn thành luận văn

Trang 8

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

AVC Advanced Video Coding Mã hóa video tiên tiến

ALF Adaptive loop filter Bộ lọc vòng lặp thích ứng

AMVP Advanced motion vector

prediction

Dự đoán vector chuyển động tiên tiến

BD-BR Bjøntegaard-Delta Bit-Rate Tốc độ bit delta Bjøntegaard

BLA Broken Link Access Truy cập liên kết bị phá vỡ

CABAC Context Adaptive Binary

Arithmetic Coding

Mã hóa số học nhị phân thích ứng ngữ cảnh

CPB Coded Picture Buffer Bộ đệm ảnh mã hóa

CRA Clean Random Access Truy cập ngẫu nhiên sạch

CRF Constant Rate Factor Yếu tố tốc độ không đổi

CTB Coding tree block Khối cây mã hóa

CTU Coding Tree Unit Đơn vị cây mã hóa

DBF Deblocking Filter Bộ lọc bỏ khối

DCT Discrete Cosine Transform Biến đổi Cosin rời rạc

DPB Decoded Picture Buffer Bộ đệm ảnh giải mã

DPCM Differential Pulse Code

Modulation

Điều chế xung mã vi sai

DST Discrete sine transform Biến đổi sin rời rạc

HEVC High Efficiency Video

Coding

Mã hóa video hiệu suất cao

HPVC High Performance Video

Coding

Mã hóa video hiệu suất cao

Trang 9

IDR Instantaneous Decoder

Refresh

Làm tươi bộ giải mã tức thời

IEC International Electrotechnical

Commission

Ủy ban điện tử quốc tế

IEEE Institute of Electrical and

Electronic Engineers

Viện kỹ sư điện và điện tử

ISO International Standardization

Organization

Tổ chức tiêu chuẩn hóa quốc tế

ITU-T ITU Telecommunication

Standardization Sector

Đơn vị tiêu chuẩn hóa viễn thông của ITU

JCT-VC Joint Collaborative Team on

Video Coding

Đội hợp tác chung về mã hóa video

JPEG Joint Photographic Expert

Group

Nhóm hợp tác các chuyên gia đồ họa

JVT Joint Video Team Đội video hợp tác

KTA Key Technical Areas Các khu vực kỹ thuật chủ yếu

MC Motion Compensation Bù chuyển động

MPEG Moving Picture Experts Group Nhóm chuyên gia về hình ảnh động

MPM Most Probable Modes Chế độ có thể xảy ra nhất

MSE Mean Square Error Sai số bình phương trung bình

NAL Network Abstraction Layer Lớp trừu tượng hóa mạng

NGVC Next-Generation Video

Coding

Mã hóa video thế hệ tiếp theo

POC Picture Order Count Số đếm thứ tự ảnh

PSNR Peak Signal To Noise Ratio Tỉ số tín hiệu đỉnh trên nhiễu

Trang 10

PU Prediction Unit Đợn vị dự đoán

QP Quantization Parameter Tham số lượng tử hóa

RADL Random Access Decodable

Leading

Cách quãng có thể giải mã truy cập ngẫu nhiên

RAP Random Access Point Điểm truy cập ngẫu nhiên

RASL Random Access Skipped

RPS Reference Picture Set Tập hợp ảnh tham chiếu

RTP Real-time Transport Protocol Giao thức vận chuyển thời gian thực SAO Sample Adaptive Offset Bù đắp thích ứng mẫu

SEI Supplemental Enhancement

Information

Thông tin tăng cường bổ sung

SPS Sequence Parameter Set Bộ tham số trình tự

STSA Stepwise TSA Truy cập lớp con theo thời gian bậc thang SVC Scalable Video Coding Mã hóa video có khả năng mở rộng

TSA Temporal Sublayer Access Truy cập lớp con theo thời gian

URQ Uniform Reconstruction

Quantization

Lượng tử hóa tái thiết đồng nhất

VCEG International Electrotechnical

Commission

Ủy ban điện tử quốc tế

VCL Variable Length Coding Mã hóa với độ dài ( của từ mã) thay đổi VPS Video Parameter Set Bộ tham số video

VUI Video Usability Information Thông tin khả dụng video

WPP Wavefront Parallel Processing Xử lý song song wavefront

Trang 11

DANH MỤC CÁC BẢNG

Bảng 2.1 Phân loại, ý nghĩa và các lớp kiểu đơn vị NAL 34

Bảng 2.2 Các hệ số bộ lọc cho phép nội suy lấy mẫu phân đoạn chói 46

Bảng 2.3 Các hệ số bộ lọc cho phép nội suy lấy mẫu phân đoạn chroma 48

Bảng 2.4 Các loại mẫu EdgeIdx trong các lớp cạnh biên SAO 54

Bảng 3.1 Kết quả tính toán PSNR của các chuỗi video thử nghiệm ở các tốc độ bit khác nhau 60

Bảng 3.2 Kết quả thử nghiệm mối quan hệ giữa yếu tố tốc độ không đổi và tốc độ bit đầu ra giữa 2 chuẩn H.264 và H.265 63

Bảng 3 3 Các chuỗi video thử nghiệm 66

Bảng 3 4 Kết quả tính toán PSNR và đo tốc độ bit của các chuỗi video đầu ra 67

Bảng 3 5 Tiết kiệm tốc độ bit HEVC ( bao gồm tiết kiệm BD-BR) với PSNR YUV bằng nhau 71

Bảng 3 6 Kết quả của tốc độ mã hóa các chuỗi video thử nghiệm với các yếu tố tốc độ không đổi tương ứng 75

Bảng 3 7 Tốc độ mã hóa của HEVC so với AVC với các chuỗi video có PSNR tương ứng bằng nhau 78

Trang 12

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

Hình 1 1 Mô hình hệ thống nén Video 16

Hình 1 2 Dự đoán bù chuyển động một chiều và hai chiều 23

Hình 1 3 Kiến trúc dòng Video MPEG 25

Hình 1 4 Cấu trúc số liệu nén ảnh MPEG 26

Hình 2.1 Sơ đồ khối bộ mã hóa HEVC 29

Hình 2.2 Chế độ chia tách một CB thành PBs.Đối với những dự đoán trong ảnh chỉ có M × M và M / 2 × M / 2 được hỗ trợ 36

Hình 2.3 Chia nhỏ một CTB thành các CB [khối biến đổi (TB)].Đường liền chỉ ra các biên CB và đường chấm chỉ ra các biên TB 38

Hình 2.4 Chia nhỏ của một ảnh thành mảng (a) và tile (b), minh họa quá trình xử lý song song wavefront (c) 40

Hình 2.5 Các chế độ và các hướng cho dự đoán hình trong ảnh 41

Hình 2.6 Vị trí lấy mẫu số nguyên và phân đoạn cho phép nội suy thành phần chói 44

Hình 2.7 Ba chế phương pháp quét hệ số trong HEVC.(a) Quét đường chéo lên- bên phải (b) Quét theo chiều ngang.(c) Quét theo chiều dọc 50

Hình 2.8 Bốn dạng gradient sử dụng trong SAO 52

Hình 3.1 Đồ thị thể hiện PSNR của chuỗi video thử nghiệm ở các tốc độ bit khác nhau 61

Hình 3 2 Đồ thị biểu diễn mối quan hệ giữa yếu tố tốc độ không đổi và tốc độ bit đầu ra giữa 2 chuẩn H.264 và H.265 64

Hình 3 3 Tính toán tiết kiệm tốc độ bit BD-BR 70

Hình 3 4 (a)(c) Các đường cong R-D và (b)(d) biểu đồ tiết kiệm tốc độ bit tương ứng cho một số ví dụ điển hình của chuỗi thử nghiệm 73

Trang 13

MỞ ĐẦU

1 Lý do chọn đề tài

Trong những năm trở lại đây, việc truyền tải và lưu trữ video càng trở lên phổ biến hơn do yếu tố giá thành các sản phẩm liên quan như máy quay video HD,

TV màn hình lớn, các thiết bị lưu trữ… đang giảm rất nhanh Ngoài ra, các bộ vi xử

lý mới ngày càng có tốc độ cao hơn rất nhiều, cùng với tốc độ internet được cải thiện đáng kể đã giúp việc truyền tải một bộ phim nhanh chóng và xem chúng được mượt mà hơn Nhưng chừng đó là chưa đủ, do nhu cầu cuộc sống luôn ngày càng lớn Trước đây việc thưởng thức các bộ phim ở độ phân giải 480p rồi đến mHD 720p đã là thỏa mãn, thì giờ đây các bộ phim độ phân giải Full HD 1080p đã tràn ngập Nhu cầu đó càng thể hiện mạnh mẽ hơn khi 3 năm gần đây xuất hiện các TV với công nghệ hình ảnh 4K cùng độ phân giải siêu cao làm người xem phải ngẩn ngơ như lạc vào thế giới thực Các thiết bị lưu trữ và đường truyền internet với áp lực lớn hơn đã không kịp đáp ứng Vì thế nhu cầu cần một chuẩn nén video mới hiệu quả hơn nhằm giảm tải áp lực cho hệ thống ngày càng bức thiết hơn Và H265/HEVC đã được cho ra đời nhằm đáp ứng những nhu cầu trên H.265/HEVC

là một chuẩn tiên tiến ra đời chính thức vào năm 2013 Nó tạo ra sự đột phá, cho phép nén video một cách tốt hơn đồng thời cải thiện được chất lượng so với các chuẩn trước đó

HEVC tăng gấp đôi tỉ lệ nén dữ liệu so với H.264/AVC tại cùng một chất lượng video Các tập tin nén video sẽ là một nửa kích thước của tệp video nén với H.264 Nó cũng có thể cải thiện chất lượng video tại cùng một tốc độ bit Ngoài ra H.265 có thể hỗ trợ lên đến 8 K UHD và độ phân giải tối đa để 8192 x 4320

Vì vậy, tôi đã chọn việc nghiên cứu và đánh giá chuẩn H.265/HEVC làm luận văn với đề tài: “Nghiên cứu và đánh giá chuẩn mã hóa video HEVC”

Trang 14

2 Lịch sử nghiên cứu

Nhóm các chuyên gia mã hóa video ITU-T (VCEG) đã bắt đầu nghiên cứu

về thế hệ tiếp theo của chuẩn H.264/MPEG-4 AVC từ năm 2004, bằng cách phát triển ra 1 chuẩn nén video mới hoàn toàn, hoặc chọn tiếp tục phát triển từ H.264 Các kĩ thuật khác nhau để nâng cao tiềm năng của chuẩn H.264/MPEG-4 AVC được khảo sát trong tháng 10 năm 2004 Tại cuộc họp tiếp theo của VCEG trong tháng 1 năm 2005, VCEG bắt đầu chỉ định một số khu vực kĩ thuật quan trọng (Key Technical Areas – KTA) cho mã hóa video thế hệ tiếp theo ( Next-generation Video

đã được phát triển dựa trên mô hình chung của MPEG và VCEG cho H.264 Yêu cầu về chất lượng của NGVC được đề ra là giảm bitrate còn một nửa mà vẫn giữ nguyên chất lượng so với H.264, ở tất cả các profile, hoặc giảm 25% tốc độ bit cùng với độ phức tạp giảm 50%, hoặc thậm chí giảm tốc độ bit hơn nữa và tăng mức độ phức tạp trong khi mã hóa lên Công nghệ của năm 2009 chưa đủ mạnh nên HEVC được định nghĩa như là phần mở rộng của H.264, chứ không phải là hướng phát triển mới hoàn toàn MPEG đã bắt đầu nghiên cứu dự án tương tự vào năm 2007, lấy tên là HPVC - High Performance Video Coding, nhưng tốc độ bit trung bình chỉ giảm 20% so với AVC High Profile, điều này đã dẫn đến sự hợp tác với VCEG của MPEG Cuộc họp vào tháng 4 năm 2010 đã tiến hành lập ra nhóm JCT-VC và các

kĩ thuật mã hóa được đem ra bàn thảo, tổng cộng có hơn 27 đề xuất được gửi [5] Các thử nghiệm cho thấy rằng H.265 có thế đạt tỉ suất nén cao gấp đôi so với H.264 Cũng tại cuộc họp, 2 dự án NGVC và HPVC được kết hợp lại, lấy tên là HEVC, chính thức được gọi tắt là H.265 Ngay sau đó, JCT-VC đã kết hợp những tính năng tốt nhất của 2 dự án trên vào một codebase duy nhất cho HEVC

3 Mục đích nghiên cứu của luận văn, đối tượng, phạm vi nghiên cứu

Mục đích nghiên cứu

Tìm hiểu các khái niệm về nén video và một số chuẩn mã hóa video tiền nhiệm của HEVC Đồng thời tìm hiểu tổng quan về chuẩn mã hóa HEVC và tiến

Trang 15

hành thử nghiệm đánh giá hiệu suất mã hóa của H.265/HEVC so với chuẩn H.264/AVC

Đối tượng nghiên cứu

Nghiên cứu và đánh giá hiệu suất của chuẩn mã hóa video HEVC so với chuẩn mã hóa tiền nhiệm

Phạm vi nghiên cứu

Luận văn tập trung đưa ra một cái nhìn tổng quan về chuẩn mã hóa HEVC bao gồm : những điểm nổi bật trong thiết kế và tính năng, cú pháp mức cao, các kỹ thuật mã hóa, cấu hình, tầng và mức của chuẩn mã hóa HEVC Từ đó đưa ra các thử nghiệm nhằm đánh giá hiệu suất mã hóa của chuẩn HEVC so với các chuẩn mã hóa tiền nhiệm , cụ thể ở đây là chuẩn mã hóa H.264/AVC ngay trước nó

4 Tóm tắt cô đọng các luận điểm cơ bản và đóng góp mới của tác giả

Luận văn trình bày tổng quan về nén video số và một số chuẩn nén tiền nhiệm của HEVC Trình bày những điểm nổi bật về thiết kế và các tính năng của chuẩn mã hóa HEVC, cú pháp mức cao và các kỹ thuật mã hóa video Tiến hành thử nghiệm và đánh giá hiệu suất HEVC, nhằm làm rõ mục tiêu của HEVC là giảm một nửa bitrate so với H.264/AVC mà vẫn đạt chất lượng tương đương

5 Phương pháp nghiên cứu

Trong luận văn tôi sử dụng phương pháp thu thập và xử lý thông tin bao gồm:

Phương pháp thu thập thông tin: phương pháp nghiên cứu tài liệu kết hợp với kết quả thực nghiệm

Phương pháp xử lý thông tin: xử lý toán học đối với các thông tin định lượng, sử dụng phương pháp thống kê để xác định xu hướng diễn biến của tập hợp

số liệu thu thập được, tức là xác định quy luật thống kê của tập hợp số liệu

Trang 16

CHƯƠNG I: TỔNG QUAN VỀ NÉN VIDEO SỐ VÀ CÁC CHUẨN NÉN

1.1 Tổng quan về nén video số

1.1.1 Khái niệm về kỹ thuật nén video số

1.1.1.1 Khái niệm

Nén về cơ bản là một quá trình trong đó lượng số liệu (data) biểu diễn lượng

thông tin của một ảnh hoặc nhiều ảnh được giảm bớt bằng cách loại bỏ những số

liệu dư thừa trong tín hiệu video Các chuỗi ảnh truyền hình có nhiều phần ảnh

giống nhau, vậy tín hiệu truyền hình có chứa nhiều dữ liệu dư thừa, ta có thể bỏ qua

mà không làm không mất thông tin hình ảnh Đó là các phần xoá dòng, xoá mành,

vùng ảnh tĩnh hoặc chuyển động rất chậm, vùng ảnh nền giống nhau, mà ở đó các

phần tử liên tiếp giống nhau hoặc khác nhau rất ít Thường thì chuyển động trong

ảnh truyền hình có thể được dự báo, do đó chỉ cần truyền các thông tin về chuyển

động Các phần tử lân cận trong ảnh thường giống nhau, nên chỉ cần truyền các

thông tin biến đổi Các hệ thống nén sử dụng đặc tính này của tín hiệu Video và các

đặc trưng của mắt người là kém nhậy với sai số trong hình ảnh có nhiều chi tiết,các

phần tử chuyển động Quá trình sau nén ảnh là giãn (giải nén) ảnh để tạo lại ảnh gốc

Giải

từ

Giải L.T.

H

Biểu diễn thuận lợi

Trang 17

Ở tầng đầu tiên của bộ mã hoá video, tín hiệu video được trình bày dưới dạng thuận tiện để nén có hiệu quả nhất Điểm cốt yếu là chỉ xác định cái gì được

mã hoá Sự biểu diễn có thể chứa nhiều mẩu thông tin để mô tả tín hiệu hơn là chính tín hiệu, nhưng hầu hết thông tin quan trọng chỉ tập trung trong một phần nhỏ của

sự mô tả này Trong cách biểu diễn có hiệu quả, chỉ có phần nhỏ dữ liệu là cần thiết

để truyền cho việc tái tạo lại tín hiệu video

Hoạt động thứ hai của bộ mã hoá là lượng tử hoá, giúp rời rạc hoá thông tin được biểu diễn Để truyền tín hiệu video qua một kênh số, những thông tin biểu diễn được lượng tử hoá thành một số hữu hạn các mức

Hoạt động thứ ba là gán các từ mã Các từ mã này là một chuỗi bit dùng để biểu diễn các mức lượng tử hoá Các quá trình sẽ ngược lại trong bộ giải mã video

Mỗi hoạt động cố gắng loại bỏ phần dư thừa trong tín hiệu video và tận dụng

sự giới hạn của khả năng nhìn của mắt người Nhờ bỏ đi các phần dư thừa, các thông tin giống nhau hoặc có liên quan đến nhau sẽ không được truyền đi Những thông tin bỏ đi mà không ảnh hưởng đến việc nhìn cũng không được truyền đi.[11] 1.1.2 Các đặc điểm của nén tín hiệu số

1.1.2.1 Độ dư thừa số liệu

Nén số liệu là quá trình giảm lượng số liệu cần thiết để biểu diễn cùng một lượng thông tin cho trước Số liệu và thông tin không đồng nghĩa với nhau, số liệu chỉ là phương tiện dùng để truyền tải thông tin Cùng một lượng thông tin cho trước

có thể biểu diễn bằng các lượng số liệu khác nhau

Độ dư thừa số liệu [11] là vấn đề trung tâm trong nén ảnh số Đánh giá cho quá trình thực hiện giải thuật nén là tỷ lệ nén (CN) được xác định như sau: Nếu N1

và N2 là lượng số liệu trong hai tập hợp số liệu cùng được biểu diễn một lượng thông tin cho trước thì độ dư số liệu tương đối RD của tập hợp số liệu thứ nhất so với tập hợp số liệu thứ hai có thể được định nghĩa như sau:

Trang 18

RD=1-1/ CNTrong đó:

CN=N1/N2Trong trường hợp N1=N2 thì CN=1 và RD=0, có nghĩa là so với tập số liệu thứ hai thì tập số liệu thứ nhất không chứa số liệu dư thừa Khi N2<<N1 thì CN tiến tới

vô cùng và RD tiến tới 1, có nghĩa là độ dư thừa số liệu tương đối của tập số liệu thứ nhất là khá lớn hay tập số liệu thứ hai đã được nén khá nhỏ

Ở đây có sự kết hợp giữa tỉ lệ nén và chất lượng hình ảnh Tỉ lệ nén càng cao

sẽ làm giảm chất lượng hình ảnh và ngược lại Chất lượng và quá trình nén có thể thay đổi tùy theo đặc điểm của hình ảnh nguồn và nội dung ảnh Đánh giá chất lượng ảnh được đề nghị tính số bit cho một điểm trong ảnh nén ( Nb) Nó được xác định là tổng số bit ở ảnh nén chia cho tổng số điểm:

Nb= Số bit nén / Số điểm 1.1.2.2 Sai lệch bình phương trung bình

Một đánh giá thống kê khác có thể đánh giá cho nhiều giải thuật nén là sai lệch bình phương trung bình so với ảnh gốc RMS (Root Mean Square) được tính bởi biểu thức:

n

i=1

Trong đó: RMS – sai lệch bình phương trung bình

Xi – Giá trị điểm ảnh ban đầu

Xi’ – Giá trị điểm ảnh sau khi nén

n – Tổng số điểm ảnh trong một ảnh

Trang 19

RMS chỉ ra sự khác nhau thống kê giữa ảnh ban đầu và ảnh sau khi nén Đa

số trường hợp khi nén chất lượng của ảnh nén là tốt với RMS thấp Tuy nhiên, trong một số trường hợp có thể xảy ra là chất lượng ảnh nén với RMS cao tốt hơn ảnh nén với RMS thấp hơn.[11]

1.1.3 Các phương pháp nén

1.1.3.1 Nén không mất thông tin

Nén không không mất thông tin [11] cho phép phục hồi lại đúng tín hiệu ban đầu sau khi giải nén Đây là một quá trình mã hoá có tính thuận nghịch Hệ số nén phụ thuộc vào chi tiết ảnh được nén Hệ số nén của phương pháp nén không không mất thông tin nhỏ hơn 2:1 Các kỹ thuật nén không không mất thông tin bao gồm:

a Mã hoá với độ dài ( của từ mã ) thay đổi (VLC)

Phương pháp này còn được gọi là mã hoá Huffman và mã hoá Entropy, dựa trên khả năng xuất hiện của các giá trị biên độ trùng hợp trong một bức ảnh và thiết lập một từ mã ngắn cho các giá trị có tần suất xuất hiện cao nhất và từ mã dài cho các giá trị còn lại Khi thực hiện giải nén, các thiết lập mã trùng hợp sẽ được sử dụng để tái tạo lại giá tri tín hiệu ban đầu Mã hóa và giải mã Huffman có thể được thực hiện một cách dễ dàng bằng cách sử dụng các bảng tìm kiếm

b Mã hoá với độ dài ( của từ mã ) động (RLC)

Phương pháp này dựa trên sự lặp lại của cùng giá trị mẫu để tạo ra các mã đặc biệt biểu diễn sự bắt đầu và kết thúc của giá trị được lặp lại Chỉ các mẫu có giá trị khác không mới được mã hoá Số mẫu có giá trị bằng không sẽ được truyền đi dọc theo cùng dòng quét Cuối cùng, các chuỗi 0 được tạo ra bằng quá trình giải tương quan như phương pháp DCT hay DPCM

c Sử dụng khoảng xoá dòng, xoá mành

Trang 20

Vùng thông tin xoá được loại bỏ khỏi dòng tín hiệu để truyền đi vùng thông tin tích cực của ảnh Theo phương pháp đó, thông tin xoá dòng và xoá mành sẽ không được ghi giữ và truyền đi Chúng được thay bằng các dữ liệu đồng bộ ngắn hơn tuỳ theo các ứng dụng

d Biến đổi cosin rời rạc (DCT)

Quá trình DCT thuận và nghịch được coi là không không mất thông tin nếu

độ dài từ mã hệ số là 13 hoặc 14 băng tần đối với dòng video số sử dụng 8 bit biểu diễn mẫu Nếu độ dài từ mã hệ số của phép biến đổi DCT nhỏ hơn, quá trình này trở nên có không mất thông tin

1.1.3.2 Nén có không mất thông tin

Nén có mất thông tin sử dụng hai hoặc nhiều hơn các kỹ thuật xử lý nhằm đạt được một sự biểu diễn mã hóa thuận lợi tín hiệu hình ảnh Nén có mất thông tin đạt được hệ số nén cao hơn so với phương pháp nén không mất thông tin, vào cỡ 2:1 đến 100:1 Sau khi nén, một số thông tin sẽ bị mất và chất lượng ảnh bị suy hao

do quá trình làm tròn và loại bỏ giá trị trong phạm vi khung hình hay giữa các khung hình.Suy hao chất lượng ảnh sẽ không trầm trọng khu kỹ thuật nén nằm trong giới hạn của sự cảm nhận của mắt người Hệ số nén có thể thay đổi theo chi tiết ảnh,

và cho phép tạo ra dòng bit có tốc độ không đổi, phục vụ cho các ứng dụng lưu trữ

và truyền dẫn Tốc độ dòng số liệu đạt được trong hệ thống nén có mất thông tin phụ thuộc vào yêu cầu chất lượng ảnh cần có

a Lấy mẫu con (Subsampling)

Đây là một phương pháp nén rất có hiệu quả, song độ phân giải của ảnh sau khi giải nén giảm so với ảnh ban đầu Vì vậy, kỹ thuật lấy mẫu con không áp dụng cho tín hiệu chói Phương pháp lấy mẫu con tín hiệu màu, chẳng hạn như cấu trúc lấy mẫu 4:2:0 hay 4:1:1 được dùng trong ứng dụng ghi, trong khi cấu trúc 4:2:0 được

sử dụng trong các ứng dụng sản xuất và truyền dẫn chương trình MPEG

Trang 21

b Điều xung mã vi sai (DPCM)

Là một phương pháp mã hóa dự đoán, thay vì truyền đi toàn bộ các mẫu, kỹ thuật này chỉ mã hóa và truyền đi sự khác nhau giữa các giá trị mẫu Giá trị sai lệch được cộng vào giá trị mẫu đã được giải mã trong quá trình giải nén để tạo lại giá trị mẫu cần thiết

Quá trình DPCM làm giảm lượng entropy của tín hiệu ban đầu Tất cả các giá trị sai lệch giữa các mẫu tập trung quanh giá trị 0 vì trong các ảnh sự xuất hiện các vùng đều có khả năng cao Với các ảnh có độ chi tiết cao, các giá trị sai lệch lớn giữa các mẫu có thể được lượng tử hóa thô ( bằng lượng tử hóa tuyến tính ), do cảm nhận của mắt người giảm theo độ chi tiết của ảnh Các phương pháp nén kết hợp sử dụng lượng tử hóa thô các giá trị sai lệch và kỹ thuật mã hóa VLC cho các tín hiệu thu được

Nhằm tránh các lỗi có thể xuất hiện trong khi truyền, một mẫu đầy đủ được gửi đi theo chu kỳ nhất định, cho phép cập nhật được các giá trị chính xác Mã hóa DPCM cũng sử dụng thêm các kỹ thuật dự đoán và lượng tử hóa thích nghi để hoàn thiện thêm kỹ thuật nén này

c Lượng tử hóa và mã hóa VLC các hệ số DCT

Phối hợp ba kỹ thuật này cho phép biểu diễn một khối các điểm ảnh bằng một

số ít các bit, do đó tạo được một hiệu quả nén rất cao

1.1.4 Tiêu chuẩn nén MPEG

1.1.4.1 Cấu trúc ảnh

a Ảnh I (Intra- Picture)

Là loại ảnh được mã hóa riêng, tương tự việc mã hóa ảnh tĩnh trong JPEG Ảnh I chứa đựng dữ liệu để tái tạo toàn bộ hình ảnh vì chúng được tạo thành bằng

Trang 22

thông tin của chỉ một ảnh Ảnh I cho phép truy cập ngẫu nhiên , tuy nhiên đạt được

tỷ lệ nén thấp nhất

b Ảnh P (Predicted - Picture)

Là ảnh được mã hóa có bù chuyển động từ ảnh I hoặc ảnh P phía trước ( ảnh

dự đoán trước ) Ảnh P cung cấp cho hệ số nén cao hơn ảnh I và có thể được sử dụng làm một ảnh so sánh cho việc bù chuyển động cho các ảnh P và B khác

d Ảnh B (Bi-directional predicted Picture)

Là ảnh được mã hóa sử dụng bù chuyển động từ các ảnh I hoặc P ở phía trước và ở phía sau ( ảnh dự đoán hai chiều ) Ảnh B cho tỷ lệ nén cao nhất, bên cạnh đó việc sử dụng ảnh B còn có thêm một số ưu điểm sau:

 Giải quyết được các vấn đề thay đổi ảnh cũng như không dự báo được sự thay đổi về nội dung hình ảnh

 Việc sử dụng bù chuyển động từ hai ảnh cho tỉ số tín hiệu trên tạp âm tốt hơn nếu như chỉ sử dụng bù chuyển động từ một ảnh

 Vì ảnh B không sử dụng là ảnh so sánh cho các ảnh khác, nó có thể mã hóa với

số lượng bit thấp và không gây lỗi trễ đường truyền

Khung hình trước (n) Khung hình hiện tại (n+1)

Khung dự đoán (P) = Khung trước – Khung hiện tại + Vec tơ chuyển động

a) Khung dự đoán chuyển động ảnh P

Trang 23

Hình 1 2 Dự đoán bù chuyển động một chiều và hai chiều 1.1.4.2 Nhóm ảnh (GOP-Group Of Picture)

Đối với chuẩn MPEG, chất lượng ảnh không những phụ thuộc vào tỉ lệ nén trong từng khuân hình mà còn phụ thuộc vào độ dài của nhóm ảnh Nhóm ảnh (GOP – Group of picture ) là khái niệm cơ bản của MPEG Nhóm ảnh là đơn vị mang thông tin độc lập của MPEG Mỗi GOP bắt buộc phải bắt đầu bằng một ảnh hoàn chỉnh I và tiếp sau nó là một loạt các ảnh P và B Nhóm ảnh có thể mở ( Open) hoặc đóng (Closed)

Nhóm ảnh mở luôn bắt đầu từ một ảnh I và kết thúc bằng một ảnh I tiếp theo, tức là ảnh cuối cùng của GOP dùng ảnh đầu tiên của GOP tiếp theo làm chuẩn Đối với cấu trúc khép kín, việc dự đoán ảnh không sử dụng thông tin của GOP khác Ảnh cuối cùng của một GOP bao giờ cũng là ảnh P

1.1.4.3 Cấu trúc dòng bit MPEG Video

Cấu trúc số liệu video MPEG-1 và MPEG-2 bao gồm 6 lớp [11] như sau:

Khung hình

trước (n-1)

Khung hình hiện tại (n)

Khung hình tiếp (n+1)

Khung (B) = Khung trước – Khung hiện tại + Vec tơ chuyển động hai hướng

b) Khung dự đoán chuyển động ảnh B

Vị trí nội suy

Trang 24

 Khối : Khối 8x8 các điểm ảnh tín hiệu chói và tín hiệu màu dùng cho phương pháp nén DCT

 Tổ hợp ( cấu trúc ) khối (Macroblock): Là một nhóm các khối tương ứng với lượng thông tin chứa đựng trong kích thước 16x16 điểm trên bức ảnh Cấu trúc khối này cũng xác định lượng thông tin chứa trong đó sẽ thay đổi tùy theo cấu trúc mẫu được sử dụng Thông tin đầu tiên trong cấu trúc khối dạng của nó ( là cấu trúc khối Y hay CR , CB) và các vector bù chuyển động tương ứng

 Mảng (slice) : bao gồm một vài cấu trúc khối kề nhau Kích thước lớn nhất của mảng có thể bao gồm toàn bộ bức ảnh và kích thước nhỏ nhất của mảng

là một cấu trúc khối Thông tin đầu của mảng chứa đựng vị trí của mảng trong toàn bộ ảnh, và hệ số cân bằng lượng tử Kích thước thông tin đầu của mảng được xác định bằng số lỗi cho phép xuất hiện trong mảng đối với một ứng dụng nhất định, theo đó, bộ giải mã có thể bỏ qua các mảng có nhiều lỗi,

và xác định bằng tính hiệu quả của phương pháp nén ảnh, theo đó hệ số cân bằng lượng tử có thể được điều chỉnh thường xuyên với việc sử dụng các mảng có kích thước nhỏ hơn Hệ số DC tham chiếu, dùng trong mã hóa DCPM, sẽ được so chuẩn tại đầu mỗi mảng

 Ảnh : Lớp ảnh cho phép bộ giải mã xác định loại của ảnh được mã hóa là ảnh P,I hay ảnh B Thông tin đầu dùng để chỉ thứ tự truyền khung để bộ giải

mã có thể sắp xếp các ảnh lại theo một thứ tự đúng Trong thông tin đầu của ảnh còn chứa các thông tin về đồng bộ, độ phân giải và phạm vi của vector chuyển động

 Nhóm ảnh (GOP):Nhóm ảnh là tổ hợp của nhiều khung I,P và B Cấu trúc nhóm ảnh được xác định bằng hai tham số m và n Mỗi một nhóm ảnh bắt đầu bằng một khung I và xác định điểm bắt đầu để tìm kiếm và biên tập Thông tin đầu bao gồm 25 bit chứa mã định thời và điều khiển

Trang 25

Hình 1 3 Kiến trúc dòng Video MPEG

 Đoạn (chương trình) video: Đoạn video bao gồm thông tin đầu, một số nhóm ảnh và thông tin kết thúc đoạn Thông tin đầu của đoạn video chứa đựng kích thước mỗi chiều của ảnh, kích thước của điểm ảnh, tốc độ bit của dòng video

số, tần số ảnh và bộ đệm tối thiểu cẩn có Đoạn video và thông tin đầu tạo thành một dòng bit được mã hóa gọi là dòng cơ bản

Trang 26

Hình 1 4 Cấu trúc số liệu nén ảnh MPEG

Đoạn video thứ

n-1

Thông tin kết thúc đoạn

GOP #p GOP #p+1 GOP #p+2 GOP #p+3 GOP #p+4

Thông tin đầu

khung ảnh

Thông tin đầu

động

Hệ số DCT LOB Khối 8x8 điểm chói Dòng số theo tiêu chuẩn CCIR 601

Trang 27

1 2 Một số tiêu chuẩn video

1.2.1 Chuẩn H.261

Chuẩn H.261 là chuẩn nén video hoàn chỉnh đầu tiên trên thế giới, được giới thiệu vào năm 1993 bởi tổ chức ITU H.261 nằm trong chuẩn khuyến nghị H.323 của ITU Ban đầu H.261 được thiết kế cho mạng ISDN, cho những ứng dụng hội nghị trực tuyến video hai chiều với tốc độ truyền dữ liệu bằng cấp số nhân của 64Kbit/s, độ trễ đầu cuối thấp và bitrate cố định H.261 hỗ trợ hai độ phân giải là CIF (352x288) và QCIF (176x144), sử dụng kĩ thuật lấy mẫu 4:2:0 Thuật toán nén của chuẩn này không phức tạp do yêu cầu việc nén và giải nén phải được thực hiện theo thời gian thực

1.2.2 Chuẩn H.262

Chuẩn H.262 là một chuẩn mã hóa video số ITU-T Chuẩn này liên quan đến phần video của chuẩn ISO/IEC MPEG-2 (được biết dưới cái tên ISO/IEC 13818-2) Chuẩn này được phát triển do sự hợp tác của ITU-T và các tổ chức ISO/IEC JTC 1,

và trở thành chuẩn chung cho cả hai tổ chức này ITU-T Recommendation H.262 và ISO/IEC 13818-2 được phát triển và phát hành dưới dạng là chuẩn quốc tế

Trang 28

1.2.4 Chuẩn H.264

Chuẩn H.264, MPEG-4 Part 10, hay AVC (dùng cho Advanced Video Coding), là một chuẩn mã hóa video số với độ nén cực cao, là kết quả của ITU-T Video Coding Experts Group (VCEG) kết hợp với ISO/IEC Moving Picture Experts Group (MPEG), được xem là sản phẩm thương mại Joint Video Team (JVT) Chuẩn ITU-T H.264 và ISO/IEC MPEG-4 Part 10(ISO/IEC 14496-10) ứng dụng các công nghệ lý tưởng Phiên bản nháp đầu tiên được hoàn thành vào tháng 05 năm 2003

Chuẩn H.264 được đặt tên theo cùng dòng ITU-T H.26x của các chuẩn video, trong khi tên AVC được đặt tên dựa theo tên dự án hợp tác, với tên của dự án

là H.26L Chuẩn còn được gọi bằng các tên khác H.264/AVC, AVC/H.264, H.264/MPEG-4 AVC, MPEG-4/H.264 AVC nhằm nhấn mạnh tính kế thừa Đôi khi, còn được gọi là “mã hóa JVT” với lý do là tổ chức JVT phát triển

Mục đích của dự án H.264/AVC là tạo ra một chuẩn có khả năng cung cấp tín hiệu video chất lượng cao với các tốc độ bit truyền thấp, nhỏ hơn hay bằng một nửa so với tốc độ của các chuẩn trước ( như MPEG-2, H.263, hay MPEG-4 Part 2) với tính ứng dụng cao trong thực tế Ngoài ra, chuẩn phải đáp ứng yêu cầu cung cấp cách thức linh động cho phép chuẩn được ứng dụng rộng rãi trong nhiều trình ứng dụng ( ví dụ cho cả tốc độ bit cao và thấyp hoặc độ phân giải cao hoặc thấp, và chạy

ổn định trong nhiều hệ thống cũng như mạng ( cho việc broadcast, lưu trữ DVD, mạng gói RTP/IP, và các hệ thống tổng đài đang phương tiện ITU-T)

Trang 29

CHƯƠNG II: CHUẨN NÉN HEVC

2 1 Những điểm nổi bật thiết kế và tính năng của mã hóa HEVC

Lớp mã hóa video của HEVC thực hiện cách tiếp cận lai (dự đoán trong ảnh/liên ảnh và mã hóa biến đổi 2D) như được sử dụng trong tất cả các tiêu chuẩn nén video kể từ H.261 Sơ đồ khối của bộ mã hóa video HEVC được thể hiện như ở hình 2.1.[3]

Hình 2.1 Sơ đồ khối bộ mã hóa HEVC

Output Video Signal

Header Formating

& CABAC

Motion Data

Filter Control Data

Intra Precdiction Data

Coded Bitstream

General Coder Control

Transform, Scaling

&Quantization

Scaling

&Inverse Quantization

Intra-Picture Esmation

Intra-Picture Prediction

Motion Compensation

Motion Estimation

Deblocking &

SAO Filter

General Control Data

Quantized Transform Coefficients

Filter Control Analysis

Trang 30

Mỗi ảnh đầu vào được chia thành các khối ảnh, sau đó được mã hóa và được truyền tải đến các bộ giải mã Ảnh đầu tiên của một chuỗi video được mã hoá chỉ sử dụng dự đoán trong ảnh Đối với các ảnh còn lại của chuỗi sử dụng các chế độ mã hóa dự đoán liên ảnh theo thời gian Quá trình mã hóa cho dự đoán liên ảnh sẽ lựa chọn dữ liệu chuyển động bao gồm các ảnh tham chiếu và vector chuyển động (MV) dùng để dự đoán các mẫu của mỗi khối ảnh Các bộ mã hóa và giải mã tạo ra tín hiệu dự đoán liên ảnh giống nhau bằng cách sử dụng kỹ thuật bù chuyển động (MC) và thông tin phụ (side informartion) là dữ liệu quyết định chế độ

Các tín hiệu dư thừa của dự đoán trong ảnh và liên ảnh sẽ được biến đổi bởi phép biến đổi không gian tuyến tính Sau đó các hệ số biến đổi được định cỡ (scale), lượng tử hóa, mã hóa entropy, và được truyền cùng với các thông tin dự đoán

Đồng thời, bộ mã hóa cũng sao chép lại mạch vòng xử lý giải mã sao cho cả hai phía mã hóa và giải mã cùng tạo ra các dự đoán giống nhau đối với ảnh kế tiếp

Do đó, các hệ số biến đổi lượng tử hóa sẽ được tạo lại qua định cỡ ngược và sau đó

là biến đổi ngược để sao lại gần đúng tín hiệu dư thừa Sau đó các tín hiệu dư thừa này cộng với các tín hiệu dự đoán và được đưa vào một hoặc hai bộ lọc để làm trơn ảnh Ảnh biểu diễn cuối cùng (một bản sao của đầu ra của bộ giải mã) được lưu trữ trong một bộ đệm ảnh giải mã và được sử dụng để dự đoán các ảnh tiếp theo Nói chung, thứ tự của tiến trình mã hóa hoặc giải mã ảnh thường khác so với thứ tự ảnh đến từ nguồn; đòi hỏi phải có sự phân biệt giữa thứ tự giải mã (thứ tự dòng bit) và thứ tự đầu ra (thứ tự hiển thị) của một bộ giải mã

2.1.1.1 Cấu trúc đơn vị cây mã hóa (CTU) và khối cây mã hóa (CTB)

Cốt lõi của lớp mã hóa trong các tiêu chuẩn trước là macroblock, bao gồm một khối 16x 16 các mẫu thành phần chói (chói) và hai khối 8x8 các mẫu thành phần màu ( trường hợp lấy mẫu 4:2:0); trong khi đó các cấu trúc tương tự trong HEVC là đơn vị cây mã hóa (CTU) Cụ thể, ảnh được chia thành các CTU, mỗi CTU bao gồm các CTB chói và các CTB màu Một CTB có kích thước là LxL ( L

= 16, 32, hoặc 64), trong đó các kích thước lớn hơn cho phép nén tốt hơn HEVC hỗ

Trang 31

trợ việc phân chia các CTB thành các khối nhỏ hơn sử dụng cấu trúc cây và tín hiệu hóa cây tứ phân

2.1.1.2 Đơn vị mã hóa(CU) và khối mã hóa (CB)

Cú pháp cây tứ phân( quadtree syntax) chứa trong CTU cho phép chia các

CB có kích cỡ và vị trí thích hợp dựa trên đặc tính tín hiệu của vùng tạo bởi CTB

Do đó gốc của cây tứ phân là CTU Thông thường, kích cỡ của CB được xác định là: 8x8 < kích cỡ CB size < kích cỡ CTB Khi đó, đơn vị mã hóa CU sẽ gồm 1 CB chói và 2 CB mầu, cùng cú pháp đi kèm Một CTB có thể chứa chỉ một CU hoặc được phân chia thành nhiều CU, và mỗi CU có một phân vùng liên quan đến các đơn vị dự báo (PUs) và một cây các đơn vị biến đổi (TUs)

2.1.1.3 Đơn vị dự đoán (PU) và khối dự đoán (PB)

Quyết định việc mã hóa một vùng ảnh sử dụng dự đoán liên ảnh hoặc dự đoán trong ảnh được thực hiện ở mức CU Cấu trúc phân chia PU có gốc ở mức

CU

Tùy thuộc vào kiểu dự đoán mà các CB chói và mầu sau đó có thể được phân chia thành các khối dự đoán (PB): chói và mầu Mỗi một PB sẽ chứa một vector chuyển động nếu trong mảng P HEVC hỗ trợ các kích cỡ PB khác nhau từ 4x4 cho đến 64x64

2.1.1.4 Đơn vị biến đổi (TU) và khối biến đổi (TB)

Dư thừa dự đoán được mã hóa sử dụng các biến đổi khối Cấu trúc cây TU

có gốc ở mức CU Dư thừa CB chói có thể giống với khối biến đổi (TB) chói hoặc tiếp tục chia thành các TB chói nhỏ hơn Điều tương tự áp dụng cho các TB màu Hàm số nguyên tương tự như hàm biến đổi cosin rời rạc (DCT) được xác định cho các TB có kích thước 4x4, 8x8, 16x16, và 32x32 Đối với biến đổi 4x4 của dư thừa

dự đoán trong ảnh thành phần chói, một biến đổi số nguyên được dẫn xuất từ một dạng của biến đổi sin rời rạc (DST)

Trang 32

2.1.1.5 Tín hiệu hóa vector chuyển động

Dự đoán vector chuyển động tiên tiến (AMVP) được sử dụng, bao gồm cả dẫn xuất của nhiều ứng viên có khả năng nhất dựa trên dữ liệu từ các PB liền kề và hình ảnh tham chiếu Một chế độ kết hợp cho mã hóa MV cũng có thể được sử dụng, cho phép thừa kế của các MV từ các PBs lân cận theo thời gian hoặc không gian Hơn nữa, so với H.264 / MPEG-4 AVC, suy luận bỏ qua được cải thiện và suy luận chuyển động trực tiếp cũng được quy định

2.1.1.6 Bù chuyển động

Độ chính xác ¼ -mẫu được sử dụng cho các MV, và các bộ lọc 7-tap hoặc tap được sử dụng cho phép nội suy của các vị trí mẫu-phân đoạn (được so sánh với việc lọc 6-tap của vị trí ½ -mẫu theo sau bởi phép nội suy tuyến tính cho vị trí ¼-mẫu trong H.264 / MPEG-4 AVC) Tương tự như H.264 / MPEG-4 AVC, nhiều ảnh tham chiếu được sử dụng Đối với mỗi PB, một hoặc hai vectơ chuyển động có thể được truyền đi với mã hóa dự đoán đơn hoặc mã hóa dự đoán đôi tương ứng Như trong H.264 / MPEG-4 AVC, một hoạt động định cỡ (scale) và bù đắp được áp dụng cho các tín hiệu dự đoán gọi là dự đoán có trọng số

8-2.1.1.7 Dự đoán trong ảnh

Các mẫu biên được giải mã của các khối liền kề là dữ liệu tham chiếu cho dự đoán theo không gian trong các vùng dự đoán liên ảnh không được thực hiện Dự đoán trong ảnh hỗ trợ 33 chế độ có hướng (so với 8 chế độ trong H.264 / MPEG-4 AVC), cộng với chế độ dự đoán mặt phẳng và DC Các chế độ dự đoán trong ảnh được chọn sẽ được mã hóa bằng dẫn xuất chế độ có thể xảy ra nhất (ví dụ, các hướng dự đoán) dựa trên những PB lân cận giải mã trước đây đó

2.1.1.8 Điều khiển lượng tử hóa

Như trong H.264 / MPEG-4 AVC, lượng tử hóa tái thiết đồng nhất (URQ) được dùng trong HEVC, với các ma tận định cỡ (scale) lượng tử hóa được hỗ trợ cho các kích thước khối biến đổi khác nhau

Trang 33

2.1.1.9 Mã hóa Entropy

Mã hóa số học nhị phân thích ứng ngữ cảnh (CABAC) được sử dụng để mã hóa entropy Nó tương tự như các sơ đồ CABAC trong H.264 / MPEG-4 AVC, nhưng có thêm một số cải tiến để cải thiện tốc độ lưu lượng (đặc biệt là cho các kiến trúc xử lý song song), hiệu suất nén, và để giảm bộ nhớ ngữ cảnh của nó

2.1.1.10 Bộ lọc bỏ khối trong-vòng

Một bộ lọc bỏ khối giống như bộ lọc trong H.264 / MPEG-4 AVC được dùng trong vòng lặp dự đoán liên ảnh Tuy nhiên, thiết kế được đơn giản hóa về các quá trình đưa ra quyết định và lọc, và nó được làm thuận lợi hơn để xử lý song song

2.1.1.11 Bù thích ứng mẫu (SAO)

Một ánh xạ biên độ phi tuyến tính được đưa vào trong vòng lặp dự đoán liên ảnh đằng sau bộ lọc bỏ khối Mục đích là để tái tạo tốt hơn các biên độ tín hiệu ban đầu bằng cách sử dụng một bảng look-up , bảng này được mô tả bằng một vài thông

số bổ sung mà chúng có thể được xác định bằng cách phân tích biểu đồ ở phía bộ

mã hóa

2.2 Cú pháp mức cao

Cú pháp mức-cao của HEVC chứa nhiều yếu tố thừa hưởng từ NAL của H.264 / MPEG-4 AVC NAL cung cấp khả năng ánh xạ dữ liệu lớp mã hóa video (VCL) mà nó thể hiện nội dung của các ảnh lên các lớp vận chuyển khác nhau, bao gồm các hệ thống RTP / IP, ISO MP4, và H.222.0 / MPEG-2, và cung cấp một khuôn khổ cho khả năng phục hồi mất mát dữ liệu Đối với các khái niệm chung của thiết kế NAL như các đơn vị NAL, các bộ tham số, các đơn vị truy cập, định dạng dòng byte, và việc định dạng đóng gói.[10]

Các đơn vị NAL được phân loại thành các đơn vị VCL NAL và không-VCL NAL tương ứng với việc chúng có chứa ảnh được mã hóa hoặc dữ liệu có liên quan Trong chuẩn HEVC, một số loại đơn vị VLC NAL xác định các loại ảnh cho mục

Trang 34

đích khởi tạo bộ giải mã và truy cập ngẫu nhiên Bảng 2.1 liệt kê các loại đơn vị NAL và ý nghĩa liên quan và các lớp kiểu trong chuẩn HEVC

Bảng 2.1 Phân loại, ý nghĩa và các lớp kiểu đơn vị NAL

0, 1 Phân đoạn mảng của ảnh kế tiếp thông thường VCL

48-63 Không xác định (có thể sử dụng hệ thống) non-VCL 2.3 Các kỹ thuật mã hóa video HEVC

2.3.1 Biểu diễn lấy mẫu của ảnh

Để biểu diễn các tín hiệu video màu , HEVC sử dụng một không gian 3 màu

cơ bản YCbCr với lấy mẫu 4: 2: 0 Các ảnh video lấy mẫu tăng lên với kích thước

Trang 35

ảnh hình chữ nhật WxH, trong đó W là chiều rộng và H là chiều cao của ảnh theo quan điểm lấy mẫu chói, còn với lấy mẫu màu 4: 2: 0 sẽ là W/2xH /2

2.3.2 Phân chia hình ảnh thành đơn vị cây mã hóa

Một ảnh được phân chia thành các đơn vị mã hóa cây (CTU), mỗi CTU chứa các CTB chói và CTB màu Một CTB chói lấy mẫu LxL cho các thành phần chói và lấy mẫu L /2 x L/2 cho mỗi một trong hai thành phần màu L=16, 32, hoặc 64 được xác định bởi một yếu tố cú pháp mã hóa được quy định trong SPS

2.3.3 Phân chia CTB thành CB

Các khối CTB chói và màu có thể được sử dụng trực tiếp như các CB hoặc

có thể phân chia tiếp thành nhiều CB Việc phân chia được thực hiện bằng cách sử dụng cấu trúc cây Việc phân chia cấu trúc cây trong HEVC thường được áp dụng đồng thời cho cả khối chói và màu, mặc dù các ngoại lệ áp dụng khi tiến tới kích thước tối thiểu nhất định

CTU chứa cú pháp cây tứ phân cho phép chia các CB đến một kích thước phù hợp dựa trên các đặc điểm tín hiệu của vùng mà nó được bao phủ bởi các CTB Quá trình chia tách cây tứ phân có thể được lặp đến khi một CB chói đạt đến một kích thước tối thiểu cho phép Kích thước này được chọn bởi bộ mã hóa sử dụng cú pháp trong SPS và luôn là 8x8 hoặc lớn hơn

2.3.4 Khối dự đoán (PB) và đơn vị dự đoán (PU)

Chế độ dự đoán cho CU là được báo hiệu là trong ảnh hay liên ảnh, tùy vào việc nó sử dụng dự đoán trong ảnh (theo không gian) hoặc dự đoán liên ảnh (theo thời gian)

Khi chế độ dự đoán được báo hiệu là trong ảnh, kích thước PB là kích thước khối tại nơi dự đoán trong ảnh được tạo sẵn có cùng kích thước với CB cho tất cả các kích thước khối ngoại trừ kích thước CB nhỏ nhất Đối với các trường hợp sau

Trang 36

đó, một cờ xuất hiện cho biết CB được chia thành bốn phần PB mà mỗi phần đều có

dự đoán trong ảnh riêng Lý do của việc cho phép chia tách này là tạo khả năng lựa chọn dự đoán trong ảnh cho các khối nhỏ 4x 4 Khi dự đoán trong ảnh thành phần chói hoạt động với các khối 4x4, dự đoán trong ảnh thành phần màu cũng sử dụng các khối 4x4 (4 khối thành phần chói 4x 4) Kích thước vùng hiện tại có dự đoán trong ảnh ( nó là khác so với kích thước PB có dự đoán trong ảnh được tạo sẵn) phụ thuộc vào việc phân chia mã hóa dư thừa được mô tả như sau

Hình 2.2 Chế độ chia tách một CB thành PBs.Đối với những dự đoán trong ảnh chỉ

có M × M và M / 2 × M / 2 được hỗ trợ

Khi dự đoán là liên ảnh, nó xác định liệu các CB thành phần chói và màu được chia thành một, hai hoặc bốn PB Việc chia thành bốn PB chỉ được phép khi kích thước CB bằng với kích thước CB cho phép tối thiểu Khi một CB được chia thành bốn PB, mỗi PB là một góc phần tư của CB và khi một CB được chia thành hai PB, sẽ có 6 kiểu chia tách Các khả năng phân chia cho CB dự đoán liên ảnh được mô tả trong hình 2.2 Bốn loại phân chia cao hơn minh họa cho trường hợp chia tách CB thành kích thước Mx M, chia tách CB thành hai PB kích thước Mx M/2 hoặc M/2xM hoặc chia tách nó thành bốn PB có kích thước M/2xM/2 4 loại phân chia thấp hơn được gọi là phân chia chuyển động bất đối xứng (AMP - asymmetric motion partitioning ), và chỉ được phép khi M ≥ 16, đối với thành phần

M/4xM (L) M/4xM (R) MxM/4 (U) MxM/4 (D)

Trang 37

chiều rộng hoặc chiều cao là M và các PB khác lấp đầy phần còn lại của CB bởi 1 chiều cao hoặc chiều rộng của 3M/4 và chiều rộng hoặc chiều cao M Mỗi PB dự đoán liên ảnh được gán một hoặc hai vectơ chuyển động và các chỉ số ảnh tham chiếu Để tối thiểu băng thông bộ nhớ trường hợp xấu nhất, các PB của thành phần chói 4x4 là không được phép cho dự đoán liên ảnh, và các PB của thành phần chói 4x8 và 8x4 được giới hạn cho mã hóa dự đoán đơn Các PB thành phần chói và màu kết hợp với cú pháp dự đoán tạo thành PU

2.3.5 Phân chia cây cấu trúc thành các đơn vị biến đổi và các khối biến đổi

Đối với mã hóa dư thừa, một CB có thể được phân vùng 1 cách đệ quy thành các khối biến đổi (TB) Việc phân chia được báo hiệu bằng một cây tứ phân dư thừa

Phân chia CB và TB ,nơi mà một khối có thể được chia 1 cách đệ quy thành các góc phần tư, như minh họa trong hình 2.3 Đối với một CB thành phần chói MxM, một cờ báo hiệu có được chia thành bốn khối có kích thước M/2xM/2 không

Độ sâu tối đa của cây tứ phân dư thừa trong SPS sẽ báo hiệu cho việc có chia tách thêm nữa không Mỗi góc phần tư có một cờ chỉ định việc nó có được chia thành bốn góc phần tư không Các khối nút lá từ cây tứ phân dư thừa là các khối biến đổi được xử lý tiếp bằng mã hóa biến đổi Các bộ mã hóa chỉ ra kích thước TB thành phần chói tối thiểu và tối đa mà nó sẽ sử dụng Việc chia tách là ngầm mặc định khi kích thước CB lớn hơn so với kích thước TB tối đa Và việc không chia tách là ngầm mặc định khi chia tách sẽ cho kết quả là kích thước TB thành phần chói nhỏ hơn kích thước tối thiểu Kích thước TB thành phần màu bằng một nửa kích thước

TB thành phần chói ở mỗi chiều, ngoại trừ trường hơp kích thước TB chói là 4x4, trong đó trường hợp đó, một TB màu 4x4 duy nhất được bao phủ bởi bốn TB chói 4x4 Trong trường hợp các CU dự đoán trong ảnh, các mẫu được giải mã của các

TB lân cận gần nhất(trong hoặc ngoài CB) được sử dụng như là dữ liệu tham chiếu cho dự đoán trong ảnh

Trang 38

Hình 2.3 Chia nhỏ một CTB thành các CB [khối biến đổi (TB)].Đường liền chỉ ra

các biên CB và đường chấm chỉ ra các biên TB

(a) Phân chia CTB (b) Cây tứ phân tương ứng

2.3.6 Mảng (Slice) và Tile

Mảng là một chuỗi các CTU được xử lý theo thứ tự của quét mành Một ảnh được chia thành một hoặc một vài mảng như thể hiện trong hình 2.4 (a) vì thế một ảnh là một tập hợp của một hoặc nhiều mảng Mỗi mảng có thể được mã hóa sử dụng các loại mã hóa khác nhau như sau

 Mảng I: tất cả CU của mảng được mã hóa chỉ sử dụng dự đoán trong ảnh

 Mảng P: Ngoài các loại mã hóa của mảng I, một số CU của mảng P cũng có thể được mã hóa bằng dự đoán liên ảnh với nhiều nhất một tín hiệu dự đoán

bù chuyển động cho mỗi PB ( dự đoán đơn) Mảng P chỉ sử dụng danh sách

0 ảnh tham chiếu

 Mảng B: Bên cạnh các loại mã hóa có sẵn trong một mảng P, một số CU của mảng B cũng có thể được mã hóa bằng dự đoán liên ảnh với nhiều nhất hai tín hiệu dự đoán bù chuyển động cho mỗi PB (dự đoán đôi ) Mảng B sử dụng cả hai danh sách 0 và 1 ảnh tham chiếu

Trang 39

Mục đích chính của các mảng là đồng bộ lại sau khi dữ liệu mất Hơn nữa, các mảng thường được hạn chế để sử dụng số bit tối đa Vì vậy, các mảng thường có thể chứa số CTU thay đổi mức độ cao/mảng

Tile là các vùng hình chữ nhật của ảnh có khả năng giải mã độc lập Mục đích chính của tile là cho phép sử dụng các kiến trúc xử lý song song đối với mã hóa và giải mã Nhiều tile có thể chia sẻ thông tin tiêu đề được chứa trong cùng mảng Nói

CTU CTU CTU CTU CTU CTU CTU

a)

Tile 1

Tile N

b)

Trang 40

c) Hình 2.4 Chia nhỏ của một ảnh thành mảng (a) và tile (b), minh họa quá trình xử lý

song song wavefront (c) cách khác, một tile đơn lẻ có thể chứa nhiều mảng Tile gồm một nhóm các CTU xếp hình chữ nhật như hình 2.4(b)

Để hỗ trợ việc đóng gói dữ liệu, các mảng phụ thuộc được bổ sung Cuối cùng, với WPP, một mảng được chia thành các hàng CTU Việc giải mã của mỗi hàng có thể được bắt đầu ngay sau một vài quyết định dự báo và thích ứng của các

bộ mã hóa entropy được tạo ra ở hàng trước Điều này hỗ trợ xử lý song song các hàng của các CTU bằng cách sử dụng một số luồng xử lý trong bộ mã hóa hoặc giải

mã (hoặc cả hai) Một ví dụ được trình bày trong hình 2.4 (c) Đối với thiết kế đơn giản, WPP không được sử dụng kết hợp với các Tile

2.3.7 Dự đoán trong ảnh

Dự đoán trong ảnh hoạt động theo kích thước TB, và các mẫu biên giải mã trước đó từ những TB lân cận về mặt không gian được sử dụng để tạo ra tín hiệu dự đoán Dự đoán trong ảnh hỗ trợ 33 hướng khác nhau với các kích thước TB từ 4x4 đến 32x32 Các hướng dự đoán được thể hiện trong hình 2.5 Ngoài ra dự đoán mặt phẳng và dự đoán DC cũng có thể được sử dụng Đối với thành phần màu, chế độ

dự đoán ngang, dọc, mặt phẳng và DC có thể được báo hiệu một cách rõ ràng, hoặc chế độ dự đoán thành phần màu được chỉ định giống các chế độ dự đoán thành phần chói

CTU CTU CTU CTU CTU CTU CTU CTU CTU CTU

Ngày đăng: 25/07/2017, 21:48

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w