DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT AVC Advanced Video Coding Mã hóa video tiên tiến ALF Adaptive loop filter Bộ lọc vòng lặp thích ứng AMVP Advanced motion vector prediction Dự đoán
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
-
ĐINH CÔNG MINH
NGHIÊN CỨU VÀ ĐÁNH GIÁ CHUẨN MÃ HÓA VIDEO HEVC
Chuyên ngành : Kỹ thuật máy tính và truyền thông
LUẬN VĂN THẠC SĨ KỸ THUẬT
KỸ THUẬT MÁY TÍNH VÀ TRUYỀN THÔNG
NGƯỜI HƯỚNG DẪN: TS Nguyễn Kim Khánh
Hà Nội , tháng 4 năm 2016
Trang 2MỤC LỤC
MỤC LỤC 2
LỜI CAM ĐOAN 6
LỜI CẢM ƠN 7
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT 8
DANH MỤC CÁC BẢNG 11
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ 12
MỞ ĐẦU 13
CHƯƠNG I: TỔNG QUAN VỀ NÉN VIDEO SỐ VÀ CÁC CHUẨN NÉN 16
1.1 Tổng quan về nén video số 16
1.1.1 Khái niệm về kỹ thuật nén video số 16
1.1.1.1 Khái niệm 16
1.1.1.2 Mô hình nén ảnh 16
1.1.2 Các đặc điểm của nén tín hiệu số 17
1.1.2.1 Độ dư thừa số liệu 17
1.1.2.2 Sai lệch bình phương trung bình 18
1.1.3 Các phương pháp nén 19
1.1.3.1 Nén không mất thông tin 19
1.1.3.2 Nén có không mất thông tin 20
1.1.4 Tiêu chuẩn nén MPEG 21
1.1.4.1 Cấu trúc ảnh 21
1.1.4.2 Nhóm ảnh (GOP-Group Of Picture) 23
1.1.4.3 Cấu trúc dòng bit MPEG Video 23
Trang 31.2.1 Chuẩn H.261 27
1.2.2 Chuẩn H.262 27
1.2.3 Chuẩn H.263 27
1.2.4 Chuẩn H.264 28
CHƯƠNG II: CHUẨN NÉN HEVC 29
2 1 Những điểm nổi bật thiết kế và tính năng của mã hóa HEVC 29
2.1.1.1 Cấu trúc đơn vị cây mã hóa (CTU) và khối cây mã hóa (CTB) 30
2.1.1.2 Đơn vị mã hóa(CU) và khối mã hóa (CB) 31
2.1.1.3 Đơn vị dự đoán (PU) và khối dự đoán (PB) 31
2.1.1.4 Đơn vị biến đổi (TU) và khối biến đổi (TB) 31
2.1.1.5 Tín hiệu hóa vector chuyển động 32
2.1.1.6 Bù chuyển động 32
2.1.1.7 Dự đoán trong ảnh 32
2.1.1.8 Điều khiển lượng tử hóa 32
2.1.1.9 Mã hóa Entropy 33
2.1.1.10 Bộ lọc bỏ khối trong-vòng 33
2.1.1.11 Bù thích ứng mẫu (SAO) 33
2.2 Cú pháp mức cao 33
2.3 Các kỹ thuật mã hóa video HEVC 34
2.3.1 Biểu diễn lấy mẫu của ảnh 34
2.3.2 Phân chia hình ảnh thành đơn vị cây mã hóa 35
2.3.3 Phân chia CTB thành CB 35
2.3.4 Khối dự đoán (PB) và đơn vị dự đoán (PU) 35
2.3.5 Phân chia cây cấu trúc thành các đơn vị biến đổi và các khối biến đổi 37
Trang 42.3.6 Mảng (Slice) và Tile 38
2.3.7 Dự đoán trong ảnh 40
2.3.7.1 Phân chia khối dự đoán (PB) 41
2.3.7.2 Dự đoán Intra_Angular 42
2.3.7.3 Dự đoán Intra-Planar and Intra-DC 43
2.3.8 Dự đoán liên ảnh 43
2.3.8.1 Phân chia PB 43
2.3.8.2 Phép nội suy mẫu phân đoạn 44
2.3.9 Mã hóa entropy 49
2.3.9.1 Mô hình hóa ngữ cảnh 49
2.3.9.2 Quét hệ số thích ứng 50
2.3.9.3 Mã hóa hệ số 50
2.3.10 Bộ lọc trong-vòng 51
2.3.10.1 Bộ lọc bỏ khối 51
2.3.10.2 SAO 53
2.4 Cấu hình, Tiers và Mức 54
2.4.1 Khái niệm cấu hình, tiers, mức 54
2.4.2 Định nghĩa cấu hình và mức HEVC 55
CHƯƠNG III: THỬ NGHIỆM , ĐÁNH GIÁ CHUẨN NÉN HEVC VÀ SO SÁNH VỚI CHUẨN NÉN H.264 57
3.1 Các công cụ sử dụng để thử nghiệm và đánh giá 57
3.1.1 FFmpeg 57
3.1.2 MediaInfo 57
3.1.3 Matlab 57
Trang 53.1.4 Bjontegaard metric 58
3.2 Thử nghiệm và đánh giá 58
3.2.1 Thử nghiệm 1: Đánh giá chất lượng video thông qua quá trình mã hóa H.265/HEVC ở các tốc độ bit khác nhau so với chuẩn H.264/AVC 58
3.2.2 Thử nghiệm 2: Mối quan hệ giữa các tham số điều khiển tốc độ và tốc độ bit đầu ra giữa 2 chuẩn H264 và H265 62
3.2.3 Thử nghiệm 3: Sử dụng phép đo lường Bjøntegaard-Delta Bit-Rate BD-BR 65
3.2.4 Thử nghiệm 4: Tính toán so sánh tốc độ mã hóa giữa chuẩn HEVC với chuẩn AVC ở cùng 1 yếu tố tốc độ không đổi tương ứng 74
3.3 Kết luận 79
CHƯƠNG IV KẾT LUẬN VÀ KIẾN NGHỊ 80
Kết luận 80
Kiến nghị 80
TÀI LIỆU THAM KHẢO 81
Trang 6LỜI CAM ĐOAN
Tôi cam đoan các kết quả nghiên cứu được đưa ra trong luận văn này dựa trên các kết quả thu được trong quá trình nghiên cứu của riêng tôi, không sao chép bất kỳ kết quả nghiên cứu nào của các tác giả khác Nội dung của luận văn có tham khảo và sử dụng một số thông tin, tài liệu từ các nguồn sách, tạp chí được liệt kê trong danh mục các tài liệu tham khảo
Trang 7LỜI CẢM ƠN
Luận văn thạc sỹ kỹ thuật này được thực hiện tại Viện Công Nghệ Thông tin
và Truyền Thông, trường Đại Học Bách Khoa Hà Nội Tôi xin chân thành cảm ơn
TS Nguyễn Kim Khánh đã trực tiếp tận tình hướng dẫn, giúp đỡ, tạo mọi điều kiện thuận lợi cho tôi trong suốt quá trình nghiên cứu Tôi xin cảm ơn Ban lãnh đạo trường Đại Học Bách Khoa Hà Nội, Viện Công Nghệ Thông Tin và Truyền Thông, Viện Đào Tạo Sau Đại Học đã giúp đỡ tôi rất nhiều trong quá trình nghiên cứu, tạo mọi điều kiện thuận lợi về mặt thủ tục cho hoạt động nghiên cứu của tôi
Cuối cùng, tôi xin được bày tỏ lòng biết ơn sâu sắc tới toàn thể gia đình, bạn
bè đã luôn động viên, khích lệ tinh thần để tôi có đủ nghị lực hoàn thành luận văn
Trang 8DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
AVC Advanced Video Coding Mã hóa video tiên tiến
ALF Adaptive loop filter Bộ lọc vòng lặp thích ứng
AMVP Advanced motion vector
prediction
Dự đoán vector chuyển động tiên tiến
BD-BR Bjøntegaard-Delta Bit-Rate Tốc độ bit delta Bjøntegaard
BLA Broken Link Access Truy cập liên kết bị phá vỡ
CABAC Context Adaptive Binary
Arithmetic Coding
Mã hóa số học nhị phân thích ứng ngữ cảnh
CPB Coded Picture Buffer Bộ đệm ảnh mã hóa
CRA Clean Random Access Truy cập ngẫu nhiên sạch
CRF Constant Rate Factor Yếu tố tốc độ không đổi
CTB Coding tree block Khối cây mã hóa
CTU Coding Tree Unit Đơn vị cây mã hóa
DBF Deblocking Filter Bộ lọc bỏ khối
DCT Discrete Cosine Transform Biến đổi Cosin rời rạc
DPB Decoded Picture Buffer Bộ đệm ảnh giải mã
DPCM Differential Pulse Code
Modulation
Điều chế xung mã vi sai
DST Discrete sine transform Biến đổi sin rời rạc
HEVC High Efficiency Video
Coding
Mã hóa video hiệu suất cao
HPVC High Performance Video
Coding
Mã hóa video hiệu suất cao
Trang 9IDR Instantaneous Decoder
Refresh
Làm tươi bộ giải mã tức thời
IEC International Electrotechnical
Commission
Ủy ban điện tử quốc tế
IEEE Institute of Electrical and
Electronic Engineers
Viện kỹ sư điện và điện tử
ISO International Standardization
Organization
Tổ chức tiêu chuẩn hóa quốc tế
ITU-T ITU Telecommunication
Standardization Sector
Đơn vị tiêu chuẩn hóa viễn thông của ITU
JCT-VC Joint Collaborative Team on
Video Coding
Đội hợp tác chung về mã hóa video
JPEG Joint Photographic Expert
Group
Nhóm hợp tác các chuyên gia đồ họa
JVT Joint Video Team Đội video hợp tác
KTA Key Technical Areas Các khu vực kỹ thuật chủ yếu
MC Motion Compensation Bù chuyển động
MPEG Moving Picture Experts Group Nhóm chuyên gia về hình ảnh động
MPM Most Probable Modes Chế độ có thể xảy ra nhất
MSE Mean Square Error Sai số bình phương trung bình
NAL Network Abstraction Layer Lớp trừu tượng hóa mạng
NGVC Next-Generation Video
Coding
Mã hóa video thế hệ tiếp theo
POC Picture Order Count Số đếm thứ tự ảnh
PSNR Peak Signal To Noise Ratio Tỉ số tín hiệu đỉnh trên nhiễu
Trang 10PU Prediction Unit Đợn vị dự đoán
QP Quantization Parameter Tham số lượng tử hóa
RADL Random Access Decodable
Leading
Cách quãng có thể giải mã truy cập ngẫu nhiên
RAP Random Access Point Điểm truy cập ngẫu nhiên
RASL Random Access Skipped
RPS Reference Picture Set Tập hợp ảnh tham chiếu
RTP Real-time Transport Protocol Giao thức vận chuyển thời gian thực SAO Sample Adaptive Offset Bù đắp thích ứng mẫu
SEI Supplemental Enhancement
Information
Thông tin tăng cường bổ sung
SPS Sequence Parameter Set Bộ tham số trình tự
STSA Stepwise TSA Truy cập lớp con theo thời gian bậc thang SVC Scalable Video Coding Mã hóa video có khả năng mở rộng
TSA Temporal Sublayer Access Truy cập lớp con theo thời gian
URQ Uniform Reconstruction
Quantization
Lượng tử hóa tái thiết đồng nhất
VCEG International Electrotechnical
Commission
Ủy ban điện tử quốc tế
VCL Variable Length Coding Mã hóa với độ dài ( của từ mã) thay đổi VPS Video Parameter Set Bộ tham số video
VUI Video Usability Information Thông tin khả dụng video
WPP Wavefront Parallel Processing Xử lý song song wavefront
Trang 11DANH MỤC CÁC BẢNG
Bảng 2.1 Phân loại, ý nghĩa và các lớp kiểu đơn vị NAL 34
Bảng 2.2 Các hệ số bộ lọc cho phép nội suy lấy mẫu phân đoạn chói 46
Bảng 2.3 Các hệ số bộ lọc cho phép nội suy lấy mẫu phân đoạn chroma 48
Bảng 2.4 Các loại mẫu EdgeIdx trong các lớp cạnh biên SAO 54
Bảng 3.1 Kết quả tính toán PSNR của các chuỗi video thử nghiệm ở các tốc độ bit khác nhau 60
Bảng 3.2 Kết quả thử nghiệm mối quan hệ giữa yếu tố tốc độ không đổi và tốc độ bit đầu ra giữa 2 chuẩn H.264 và H.265 63
Bảng 3 3 Các chuỗi video thử nghiệm 66
Bảng 3 4 Kết quả tính toán PSNR và đo tốc độ bit của các chuỗi video đầu ra 67
Bảng 3 5 Tiết kiệm tốc độ bit HEVC ( bao gồm tiết kiệm BD-BR) với PSNR YUV bằng nhau 71
Bảng 3 6 Kết quả của tốc độ mã hóa các chuỗi video thử nghiệm với các yếu tố tốc độ không đổi tương ứng 75
Bảng 3 7 Tốc độ mã hóa của HEVC so với AVC với các chuỗi video có PSNR tương ứng bằng nhau 78
Trang 12DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1 1 Mô hình hệ thống nén Video 16
Hình 1 2 Dự đoán bù chuyển động một chiều và hai chiều 23
Hình 1 3 Kiến trúc dòng Video MPEG 25
Hình 1 4 Cấu trúc số liệu nén ảnh MPEG 26
Hình 2.1 Sơ đồ khối bộ mã hóa HEVC 29
Hình 2.2 Chế độ chia tách một CB thành PBs.Đối với những dự đoán trong ảnh chỉ có M × M và M / 2 × M / 2 được hỗ trợ 36
Hình 2.3 Chia nhỏ một CTB thành các CB [khối biến đổi (TB)].Đường liền chỉ ra các biên CB và đường chấm chỉ ra các biên TB 38
Hình 2.4 Chia nhỏ của một ảnh thành mảng (a) và tile (b), minh họa quá trình xử lý song song wavefront (c) 40
Hình 2.5 Các chế độ và các hướng cho dự đoán hình trong ảnh 41
Hình 2.6 Vị trí lấy mẫu số nguyên và phân đoạn cho phép nội suy thành phần chói 44
Hình 2.7 Ba chế phương pháp quét hệ số trong HEVC.(a) Quét đường chéo lên- bên phải (b) Quét theo chiều ngang.(c) Quét theo chiều dọc 50
Hình 2.8 Bốn dạng gradient sử dụng trong SAO 52
Hình 3.1 Đồ thị thể hiện PSNR của chuỗi video thử nghiệm ở các tốc độ bit khác nhau 61
Hình 3 2 Đồ thị biểu diễn mối quan hệ giữa yếu tố tốc độ không đổi và tốc độ bit đầu ra giữa 2 chuẩn H.264 và H.265 64
Hình 3 3 Tính toán tiết kiệm tốc độ bit BD-BR 70
Hình 3 4 (a)(c) Các đường cong R-D và (b)(d) biểu đồ tiết kiệm tốc độ bit tương ứng cho một số ví dụ điển hình của chuỗi thử nghiệm 73
Trang 13MỞ ĐẦU
1 Lý do chọn đề tài
Trong những năm trở lại đây, việc truyền tải và lưu trữ video càng trở lên phổ biến hơn do yếu tố giá thành các sản phẩm liên quan như máy quay video HD,
TV màn hình lớn, các thiết bị lưu trữ… đang giảm rất nhanh Ngoài ra, các bộ vi xử
lý mới ngày càng có tốc độ cao hơn rất nhiều, cùng với tốc độ internet được cải thiện đáng kể đã giúp việc truyền tải một bộ phim nhanh chóng và xem chúng được mượt mà hơn Nhưng chừng đó là chưa đủ, do nhu cầu cuộc sống luôn ngày càng lớn Trước đây việc thưởng thức các bộ phim ở độ phân giải 480p rồi đến mHD 720p đã là thỏa mãn, thì giờ đây các bộ phim độ phân giải Full HD 1080p đã tràn ngập Nhu cầu đó càng thể hiện mạnh mẽ hơn khi 3 năm gần đây xuất hiện các TV với công nghệ hình ảnh 4K cùng độ phân giải siêu cao làm người xem phải ngẩn ngơ như lạc vào thế giới thực Các thiết bị lưu trữ và đường truyền internet với áp lực lớn hơn đã không kịp đáp ứng Vì thế nhu cầu cần một chuẩn nén video mới hiệu quả hơn nhằm giảm tải áp lực cho hệ thống ngày càng bức thiết hơn Và H265/HEVC đã được cho ra đời nhằm đáp ứng những nhu cầu trên H.265/HEVC
là một chuẩn tiên tiến ra đời chính thức vào năm 2013 Nó tạo ra sự đột phá, cho phép nén video một cách tốt hơn đồng thời cải thiện được chất lượng so với các chuẩn trước đó
HEVC tăng gấp đôi tỉ lệ nén dữ liệu so với H.264/AVC tại cùng một chất lượng video Các tập tin nén video sẽ là một nửa kích thước của tệp video nén với H.264 Nó cũng có thể cải thiện chất lượng video tại cùng một tốc độ bit Ngoài ra H.265 có thể hỗ trợ lên đến 8 K UHD và độ phân giải tối đa để 8192 x 4320
Vì vậy, tôi đã chọn việc nghiên cứu và đánh giá chuẩn H.265/HEVC làm luận văn với đề tài: “Nghiên cứu và đánh giá chuẩn mã hóa video HEVC”
Trang 142 Lịch sử nghiên cứu
Nhóm các chuyên gia mã hóa video ITU-T (VCEG) đã bắt đầu nghiên cứu
về thế hệ tiếp theo của chuẩn H.264/MPEG-4 AVC từ năm 2004, bằng cách phát triển ra 1 chuẩn nén video mới hoàn toàn, hoặc chọn tiếp tục phát triển từ H.264 Các kĩ thuật khác nhau để nâng cao tiềm năng của chuẩn H.264/MPEG-4 AVC được khảo sát trong tháng 10 năm 2004 Tại cuộc họp tiếp theo của VCEG trong tháng 1 năm 2005, VCEG bắt đầu chỉ định một số khu vực kĩ thuật quan trọng (Key Technical Areas – KTA) cho mã hóa video thế hệ tiếp theo ( Next-generation Video
đã được phát triển dựa trên mô hình chung của MPEG và VCEG cho H.264 Yêu cầu về chất lượng của NGVC được đề ra là giảm bitrate còn một nửa mà vẫn giữ nguyên chất lượng so với H.264, ở tất cả các profile, hoặc giảm 25% tốc độ bit cùng với độ phức tạp giảm 50%, hoặc thậm chí giảm tốc độ bit hơn nữa và tăng mức độ phức tạp trong khi mã hóa lên Công nghệ của năm 2009 chưa đủ mạnh nên HEVC được định nghĩa như là phần mở rộng của H.264, chứ không phải là hướng phát triển mới hoàn toàn MPEG đã bắt đầu nghiên cứu dự án tương tự vào năm 2007, lấy tên là HPVC - High Performance Video Coding, nhưng tốc độ bit trung bình chỉ giảm 20% so với AVC High Profile, điều này đã dẫn đến sự hợp tác với VCEG của MPEG Cuộc họp vào tháng 4 năm 2010 đã tiến hành lập ra nhóm JCT-VC và các
kĩ thuật mã hóa được đem ra bàn thảo, tổng cộng có hơn 27 đề xuất được gửi [5] Các thử nghiệm cho thấy rằng H.265 có thế đạt tỉ suất nén cao gấp đôi so với H.264 Cũng tại cuộc họp, 2 dự án NGVC và HPVC được kết hợp lại, lấy tên là HEVC, chính thức được gọi tắt là H.265 Ngay sau đó, JCT-VC đã kết hợp những tính năng tốt nhất của 2 dự án trên vào một codebase duy nhất cho HEVC
3 Mục đích nghiên cứu của luận văn, đối tượng, phạm vi nghiên cứu
Mục đích nghiên cứu
Tìm hiểu các khái niệm về nén video và một số chuẩn mã hóa video tiền nhiệm của HEVC Đồng thời tìm hiểu tổng quan về chuẩn mã hóa HEVC và tiến
Trang 15hành thử nghiệm đánh giá hiệu suất mã hóa của H.265/HEVC so với chuẩn H.264/AVC
Đối tượng nghiên cứu
Nghiên cứu và đánh giá hiệu suất của chuẩn mã hóa video HEVC so với chuẩn mã hóa tiền nhiệm
Phạm vi nghiên cứu
Luận văn tập trung đưa ra một cái nhìn tổng quan về chuẩn mã hóa HEVC bao gồm : những điểm nổi bật trong thiết kế và tính năng, cú pháp mức cao, các kỹ thuật mã hóa, cấu hình, tầng và mức của chuẩn mã hóa HEVC Từ đó đưa ra các thử nghiệm nhằm đánh giá hiệu suất mã hóa của chuẩn HEVC so với các chuẩn mã hóa tiền nhiệm , cụ thể ở đây là chuẩn mã hóa H.264/AVC ngay trước nó
4 Tóm tắt cô đọng các luận điểm cơ bản và đóng góp mới của tác giả
Luận văn trình bày tổng quan về nén video số và một số chuẩn nén tiền nhiệm của HEVC Trình bày những điểm nổi bật về thiết kế và các tính năng của chuẩn mã hóa HEVC, cú pháp mức cao và các kỹ thuật mã hóa video Tiến hành thử nghiệm và đánh giá hiệu suất HEVC, nhằm làm rõ mục tiêu của HEVC là giảm một nửa bitrate so với H.264/AVC mà vẫn đạt chất lượng tương đương
5 Phương pháp nghiên cứu
Trong luận văn tôi sử dụng phương pháp thu thập và xử lý thông tin bao gồm:
Phương pháp thu thập thông tin: phương pháp nghiên cứu tài liệu kết hợp với kết quả thực nghiệm
Phương pháp xử lý thông tin: xử lý toán học đối với các thông tin định lượng, sử dụng phương pháp thống kê để xác định xu hướng diễn biến của tập hợp
số liệu thu thập được, tức là xác định quy luật thống kê của tập hợp số liệu
Trang 16CHƯƠNG I: TỔNG QUAN VỀ NÉN VIDEO SỐ VÀ CÁC CHUẨN NÉN
1.1 Tổng quan về nén video số
1.1.1 Khái niệm về kỹ thuật nén video số
1.1.1.1 Khái niệm
Nén về cơ bản là một quá trình trong đó lượng số liệu (data) biểu diễn lượng
thông tin của một ảnh hoặc nhiều ảnh được giảm bớt bằng cách loại bỏ những số
liệu dư thừa trong tín hiệu video Các chuỗi ảnh truyền hình có nhiều phần ảnh
giống nhau, vậy tín hiệu truyền hình có chứa nhiều dữ liệu dư thừa, ta có thể bỏ qua
mà không làm không mất thông tin hình ảnh Đó là các phần xoá dòng, xoá mành,
vùng ảnh tĩnh hoặc chuyển động rất chậm, vùng ảnh nền giống nhau, mà ở đó các
phần tử liên tiếp giống nhau hoặc khác nhau rất ít Thường thì chuyển động trong
ảnh truyền hình có thể được dự báo, do đó chỉ cần truyền các thông tin về chuyển
động Các phần tử lân cận trong ảnh thường giống nhau, nên chỉ cần truyền các
thông tin biến đổi Các hệ thống nén sử dụng đặc tính này của tín hiệu Video và các
đặc trưng của mắt người là kém nhậy với sai số trong hình ảnh có nhiều chi tiết,các
phần tử chuyển động Quá trình sau nén ảnh là giãn (giải nén) ảnh để tạo lại ảnh gốc
Giải
từ
mã
Giải L.T.
H
Biểu diễn thuận lợi
Trang 17Ở tầng đầu tiên của bộ mã hoá video, tín hiệu video được trình bày dưới dạng thuận tiện để nén có hiệu quả nhất Điểm cốt yếu là chỉ xác định cái gì được
mã hoá Sự biểu diễn có thể chứa nhiều mẩu thông tin để mô tả tín hiệu hơn là chính tín hiệu, nhưng hầu hết thông tin quan trọng chỉ tập trung trong một phần nhỏ của
sự mô tả này Trong cách biểu diễn có hiệu quả, chỉ có phần nhỏ dữ liệu là cần thiết
để truyền cho việc tái tạo lại tín hiệu video
Hoạt động thứ hai của bộ mã hoá là lượng tử hoá, giúp rời rạc hoá thông tin được biểu diễn Để truyền tín hiệu video qua một kênh số, những thông tin biểu diễn được lượng tử hoá thành một số hữu hạn các mức
Hoạt động thứ ba là gán các từ mã Các từ mã này là một chuỗi bit dùng để biểu diễn các mức lượng tử hoá Các quá trình sẽ ngược lại trong bộ giải mã video
Mỗi hoạt động cố gắng loại bỏ phần dư thừa trong tín hiệu video và tận dụng
sự giới hạn của khả năng nhìn của mắt người Nhờ bỏ đi các phần dư thừa, các thông tin giống nhau hoặc có liên quan đến nhau sẽ không được truyền đi Những thông tin bỏ đi mà không ảnh hưởng đến việc nhìn cũng không được truyền đi.[11] 1.1.2 Các đặc điểm của nén tín hiệu số
1.1.2.1 Độ dư thừa số liệu
Nén số liệu là quá trình giảm lượng số liệu cần thiết để biểu diễn cùng một lượng thông tin cho trước Số liệu và thông tin không đồng nghĩa với nhau, số liệu chỉ là phương tiện dùng để truyền tải thông tin Cùng một lượng thông tin cho trước
có thể biểu diễn bằng các lượng số liệu khác nhau
Độ dư thừa số liệu [11] là vấn đề trung tâm trong nén ảnh số Đánh giá cho quá trình thực hiện giải thuật nén là tỷ lệ nén (CN) được xác định như sau: Nếu N1
và N2 là lượng số liệu trong hai tập hợp số liệu cùng được biểu diễn một lượng thông tin cho trước thì độ dư số liệu tương đối RD của tập hợp số liệu thứ nhất so với tập hợp số liệu thứ hai có thể được định nghĩa như sau:
Trang 18RD=1-1/ CNTrong đó:
CN=N1/N2Trong trường hợp N1=N2 thì CN=1 và RD=0, có nghĩa là so với tập số liệu thứ hai thì tập số liệu thứ nhất không chứa số liệu dư thừa Khi N2<<N1 thì CN tiến tới
vô cùng và RD tiến tới 1, có nghĩa là độ dư thừa số liệu tương đối của tập số liệu thứ nhất là khá lớn hay tập số liệu thứ hai đã được nén khá nhỏ
Ở đây có sự kết hợp giữa tỉ lệ nén và chất lượng hình ảnh Tỉ lệ nén càng cao
sẽ làm giảm chất lượng hình ảnh và ngược lại Chất lượng và quá trình nén có thể thay đổi tùy theo đặc điểm của hình ảnh nguồn và nội dung ảnh Đánh giá chất lượng ảnh được đề nghị tính số bit cho một điểm trong ảnh nén ( Nb) Nó được xác định là tổng số bit ở ảnh nén chia cho tổng số điểm:
Nb= Số bit nén / Số điểm 1.1.2.2 Sai lệch bình phương trung bình
Một đánh giá thống kê khác có thể đánh giá cho nhiều giải thuật nén là sai lệch bình phương trung bình so với ảnh gốc RMS (Root Mean Square) được tính bởi biểu thức:
n
i=1
Trong đó: RMS – sai lệch bình phương trung bình
Xi – Giá trị điểm ảnh ban đầu
Xi’ – Giá trị điểm ảnh sau khi nén
n – Tổng số điểm ảnh trong một ảnh
Trang 19RMS chỉ ra sự khác nhau thống kê giữa ảnh ban đầu và ảnh sau khi nén Đa
số trường hợp khi nén chất lượng của ảnh nén là tốt với RMS thấp Tuy nhiên, trong một số trường hợp có thể xảy ra là chất lượng ảnh nén với RMS cao tốt hơn ảnh nén với RMS thấp hơn.[11]
1.1.3 Các phương pháp nén
1.1.3.1 Nén không mất thông tin
Nén không không mất thông tin [11] cho phép phục hồi lại đúng tín hiệu ban đầu sau khi giải nén Đây là một quá trình mã hoá có tính thuận nghịch Hệ số nén phụ thuộc vào chi tiết ảnh được nén Hệ số nén của phương pháp nén không không mất thông tin nhỏ hơn 2:1 Các kỹ thuật nén không không mất thông tin bao gồm:
a Mã hoá với độ dài ( của từ mã ) thay đổi (VLC)
Phương pháp này còn được gọi là mã hoá Huffman và mã hoá Entropy, dựa trên khả năng xuất hiện của các giá trị biên độ trùng hợp trong một bức ảnh và thiết lập một từ mã ngắn cho các giá trị có tần suất xuất hiện cao nhất và từ mã dài cho các giá trị còn lại Khi thực hiện giải nén, các thiết lập mã trùng hợp sẽ được sử dụng để tái tạo lại giá tri tín hiệu ban đầu Mã hóa và giải mã Huffman có thể được thực hiện một cách dễ dàng bằng cách sử dụng các bảng tìm kiếm
b Mã hoá với độ dài ( của từ mã ) động (RLC)
Phương pháp này dựa trên sự lặp lại của cùng giá trị mẫu để tạo ra các mã đặc biệt biểu diễn sự bắt đầu và kết thúc của giá trị được lặp lại Chỉ các mẫu có giá trị khác không mới được mã hoá Số mẫu có giá trị bằng không sẽ được truyền đi dọc theo cùng dòng quét Cuối cùng, các chuỗi 0 được tạo ra bằng quá trình giải tương quan như phương pháp DCT hay DPCM
c Sử dụng khoảng xoá dòng, xoá mành
Trang 20Vùng thông tin xoá được loại bỏ khỏi dòng tín hiệu để truyền đi vùng thông tin tích cực của ảnh Theo phương pháp đó, thông tin xoá dòng và xoá mành sẽ không được ghi giữ và truyền đi Chúng được thay bằng các dữ liệu đồng bộ ngắn hơn tuỳ theo các ứng dụng
d Biến đổi cosin rời rạc (DCT)
Quá trình DCT thuận và nghịch được coi là không không mất thông tin nếu
độ dài từ mã hệ số là 13 hoặc 14 băng tần đối với dòng video số sử dụng 8 bit biểu diễn mẫu Nếu độ dài từ mã hệ số của phép biến đổi DCT nhỏ hơn, quá trình này trở nên có không mất thông tin
1.1.3.2 Nén có không mất thông tin
Nén có mất thông tin sử dụng hai hoặc nhiều hơn các kỹ thuật xử lý nhằm đạt được một sự biểu diễn mã hóa thuận lợi tín hiệu hình ảnh Nén có mất thông tin đạt được hệ số nén cao hơn so với phương pháp nén không mất thông tin, vào cỡ 2:1 đến 100:1 Sau khi nén, một số thông tin sẽ bị mất và chất lượng ảnh bị suy hao
do quá trình làm tròn và loại bỏ giá trị trong phạm vi khung hình hay giữa các khung hình.Suy hao chất lượng ảnh sẽ không trầm trọng khu kỹ thuật nén nằm trong giới hạn của sự cảm nhận của mắt người Hệ số nén có thể thay đổi theo chi tiết ảnh,
và cho phép tạo ra dòng bit có tốc độ không đổi, phục vụ cho các ứng dụng lưu trữ
và truyền dẫn Tốc độ dòng số liệu đạt được trong hệ thống nén có mất thông tin phụ thuộc vào yêu cầu chất lượng ảnh cần có
a Lấy mẫu con (Subsampling)
Đây là một phương pháp nén rất có hiệu quả, song độ phân giải của ảnh sau khi giải nén giảm so với ảnh ban đầu Vì vậy, kỹ thuật lấy mẫu con không áp dụng cho tín hiệu chói Phương pháp lấy mẫu con tín hiệu màu, chẳng hạn như cấu trúc lấy mẫu 4:2:0 hay 4:1:1 được dùng trong ứng dụng ghi, trong khi cấu trúc 4:2:0 được
sử dụng trong các ứng dụng sản xuất và truyền dẫn chương trình MPEG
Trang 21b Điều xung mã vi sai (DPCM)
Là một phương pháp mã hóa dự đoán, thay vì truyền đi toàn bộ các mẫu, kỹ thuật này chỉ mã hóa và truyền đi sự khác nhau giữa các giá trị mẫu Giá trị sai lệch được cộng vào giá trị mẫu đã được giải mã trong quá trình giải nén để tạo lại giá trị mẫu cần thiết
Quá trình DPCM làm giảm lượng entropy của tín hiệu ban đầu Tất cả các giá trị sai lệch giữa các mẫu tập trung quanh giá trị 0 vì trong các ảnh sự xuất hiện các vùng đều có khả năng cao Với các ảnh có độ chi tiết cao, các giá trị sai lệch lớn giữa các mẫu có thể được lượng tử hóa thô ( bằng lượng tử hóa tuyến tính ), do cảm nhận của mắt người giảm theo độ chi tiết của ảnh Các phương pháp nén kết hợp sử dụng lượng tử hóa thô các giá trị sai lệch và kỹ thuật mã hóa VLC cho các tín hiệu thu được
Nhằm tránh các lỗi có thể xuất hiện trong khi truyền, một mẫu đầy đủ được gửi đi theo chu kỳ nhất định, cho phép cập nhật được các giá trị chính xác Mã hóa DPCM cũng sử dụng thêm các kỹ thuật dự đoán và lượng tử hóa thích nghi để hoàn thiện thêm kỹ thuật nén này
c Lượng tử hóa và mã hóa VLC các hệ số DCT
Phối hợp ba kỹ thuật này cho phép biểu diễn một khối các điểm ảnh bằng một
số ít các bit, do đó tạo được một hiệu quả nén rất cao
1.1.4 Tiêu chuẩn nén MPEG
1.1.4.1 Cấu trúc ảnh
a Ảnh I (Intra- Picture)
Là loại ảnh được mã hóa riêng, tương tự việc mã hóa ảnh tĩnh trong JPEG Ảnh I chứa đựng dữ liệu để tái tạo toàn bộ hình ảnh vì chúng được tạo thành bằng
Trang 22thông tin của chỉ một ảnh Ảnh I cho phép truy cập ngẫu nhiên , tuy nhiên đạt được
tỷ lệ nén thấp nhất
b Ảnh P (Predicted - Picture)
Là ảnh được mã hóa có bù chuyển động từ ảnh I hoặc ảnh P phía trước ( ảnh
dự đoán trước ) Ảnh P cung cấp cho hệ số nén cao hơn ảnh I và có thể được sử dụng làm một ảnh so sánh cho việc bù chuyển động cho các ảnh P và B khác
d Ảnh B (Bi-directional predicted Picture)
Là ảnh được mã hóa sử dụng bù chuyển động từ các ảnh I hoặc P ở phía trước và ở phía sau ( ảnh dự đoán hai chiều ) Ảnh B cho tỷ lệ nén cao nhất, bên cạnh đó việc sử dụng ảnh B còn có thêm một số ưu điểm sau:
Giải quyết được các vấn đề thay đổi ảnh cũng như không dự báo được sự thay đổi về nội dung hình ảnh
Việc sử dụng bù chuyển động từ hai ảnh cho tỉ số tín hiệu trên tạp âm tốt hơn nếu như chỉ sử dụng bù chuyển động từ một ảnh
Vì ảnh B không sử dụng là ảnh so sánh cho các ảnh khác, nó có thể mã hóa với
số lượng bit thấp và không gây lỗi trễ đường truyền
Khung hình trước (n) Khung hình hiện tại (n+1)
Khung dự đoán (P) = Khung trước – Khung hiện tại + Vec tơ chuyển động
a) Khung dự đoán chuyển động ảnh P
Trang 23Hình 1 2 Dự đoán bù chuyển động một chiều và hai chiều 1.1.4.2 Nhóm ảnh (GOP-Group Of Picture)
Đối với chuẩn MPEG, chất lượng ảnh không những phụ thuộc vào tỉ lệ nén trong từng khuân hình mà còn phụ thuộc vào độ dài của nhóm ảnh Nhóm ảnh (GOP – Group of picture ) là khái niệm cơ bản của MPEG Nhóm ảnh là đơn vị mang thông tin độc lập của MPEG Mỗi GOP bắt buộc phải bắt đầu bằng một ảnh hoàn chỉnh I và tiếp sau nó là một loạt các ảnh P và B Nhóm ảnh có thể mở ( Open) hoặc đóng (Closed)
Nhóm ảnh mở luôn bắt đầu từ một ảnh I và kết thúc bằng một ảnh I tiếp theo, tức là ảnh cuối cùng của GOP dùng ảnh đầu tiên của GOP tiếp theo làm chuẩn Đối với cấu trúc khép kín, việc dự đoán ảnh không sử dụng thông tin của GOP khác Ảnh cuối cùng của một GOP bao giờ cũng là ảnh P
1.1.4.3 Cấu trúc dòng bit MPEG Video
Cấu trúc số liệu video MPEG-1 và MPEG-2 bao gồm 6 lớp [11] như sau:
Khung hình
trước (n-1)
Khung hình hiện tại (n)
Khung hình tiếp (n+1)
Khung (B) = Khung trước – Khung hiện tại + Vec tơ chuyển động hai hướng
b) Khung dự đoán chuyển động ảnh B
Vị trí nội suy
Trang 24 Khối : Khối 8x8 các điểm ảnh tín hiệu chói và tín hiệu màu dùng cho phương pháp nén DCT
Tổ hợp ( cấu trúc ) khối (Macroblock): Là một nhóm các khối tương ứng với lượng thông tin chứa đựng trong kích thước 16x16 điểm trên bức ảnh Cấu trúc khối này cũng xác định lượng thông tin chứa trong đó sẽ thay đổi tùy theo cấu trúc mẫu được sử dụng Thông tin đầu tiên trong cấu trúc khối dạng của nó ( là cấu trúc khối Y hay CR , CB) và các vector bù chuyển động tương ứng
Mảng (slice) : bao gồm một vài cấu trúc khối kề nhau Kích thước lớn nhất của mảng có thể bao gồm toàn bộ bức ảnh và kích thước nhỏ nhất của mảng
là một cấu trúc khối Thông tin đầu của mảng chứa đựng vị trí của mảng trong toàn bộ ảnh, và hệ số cân bằng lượng tử Kích thước thông tin đầu của mảng được xác định bằng số lỗi cho phép xuất hiện trong mảng đối với một ứng dụng nhất định, theo đó, bộ giải mã có thể bỏ qua các mảng có nhiều lỗi,
và xác định bằng tính hiệu quả của phương pháp nén ảnh, theo đó hệ số cân bằng lượng tử có thể được điều chỉnh thường xuyên với việc sử dụng các mảng có kích thước nhỏ hơn Hệ số DC tham chiếu, dùng trong mã hóa DCPM, sẽ được so chuẩn tại đầu mỗi mảng
Ảnh : Lớp ảnh cho phép bộ giải mã xác định loại của ảnh được mã hóa là ảnh P,I hay ảnh B Thông tin đầu dùng để chỉ thứ tự truyền khung để bộ giải
mã có thể sắp xếp các ảnh lại theo một thứ tự đúng Trong thông tin đầu của ảnh còn chứa các thông tin về đồng bộ, độ phân giải và phạm vi của vector chuyển động
Nhóm ảnh (GOP):Nhóm ảnh là tổ hợp của nhiều khung I,P và B Cấu trúc nhóm ảnh được xác định bằng hai tham số m và n Mỗi một nhóm ảnh bắt đầu bằng một khung I và xác định điểm bắt đầu để tìm kiếm và biên tập Thông tin đầu bao gồm 25 bit chứa mã định thời và điều khiển
Trang 25Hình 1 3 Kiến trúc dòng Video MPEG
Đoạn (chương trình) video: Đoạn video bao gồm thông tin đầu, một số nhóm ảnh và thông tin kết thúc đoạn Thông tin đầu của đoạn video chứa đựng kích thước mỗi chiều của ảnh, kích thước của điểm ảnh, tốc độ bit của dòng video
số, tần số ảnh và bộ đệm tối thiểu cẩn có Đoạn video và thông tin đầu tạo thành một dòng bit được mã hóa gọi là dòng cơ bản
Trang 26Hình 1 4 Cấu trúc số liệu nén ảnh MPEG
Đoạn video thứ
n-1
Thông tin kết thúc đoạn
GOP #p GOP #p+1 GOP #p+2 GOP #p+3 GOP #p+4
Thông tin đầu
khung ảnh
Thông tin đầu
động
Hệ số DCT LOB Khối 8x8 điểm chói Dòng số theo tiêu chuẩn CCIR 601
Trang 271 2 Một số tiêu chuẩn video
1.2.1 Chuẩn H.261
Chuẩn H.261 là chuẩn nén video hoàn chỉnh đầu tiên trên thế giới, được giới thiệu vào năm 1993 bởi tổ chức ITU H.261 nằm trong chuẩn khuyến nghị H.323 của ITU Ban đầu H.261 được thiết kế cho mạng ISDN, cho những ứng dụng hội nghị trực tuyến video hai chiều với tốc độ truyền dữ liệu bằng cấp số nhân của 64Kbit/s, độ trễ đầu cuối thấp và bitrate cố định H.261 hỗ trợ hai độ phân giải là CIF (352x288) và QCIF (176x144), sử dụng kĩ thuật lấy mẫu 4:2:0 Thuật toán nén của chuẩn này không phức tạp do yêu cầu việc nén và giải nén phải được thực hiện theo thời gian thực
1.2.2 Chuẩn H.262
Chuẩn H.262 là một chuẩn mã hóa video số ITU-T Chuẩn này liên quan đến phần video của chuẩn ISO/IEC MPEG-2 (được biết dưới cái tên ISO/IEC 13818-2) Chuẩn này được phát triển do sự hợp tác của ITU-T và các tổ chức ISO/IEC JTC 1,
và trở thành chuẩn chung cho cả hai tổ chức này ITU-T Recommendation H.262 và ISO/IEC 13818-2 được phát triển và phát hành dưới dạng là chuẩn quốc tế
Trang 281.2.4 Chuẩn H.264
Chuẩn H.264, MPEG-4 Part 10, hay AVC (dùng cho Advanced Video Coding), là một chuẩn mã hóa video số với độ nén cực cao, là kết quả của ITU-T Video Coding Experts Group (VCEG) kết hợp với ISO/IEC Moving Picture Experts Group (MPEG), được xem là sản phẩm thương mại Joint Video Team (JVT) Chuẩn ITU-T H.264 và ISO/IEC MPEG-4 Part 10(ISO/IEC 14496-10) ứng dụng các công nghệ lý tưởng Phiên bản nháp đầu tiên được hoàn thành vào tháng 05 năm 2003
Chuẩn H.264 được đặt tên theo cùng dòng ITU-T H.26x của các chuẩn video, trong khi tên AVC được đặt tên dựa theo tên dự án hợp tác, với tên của dự án
là H.26L Chuẩn còn được gọi bằng các tên khác H.264/AVC, AVC/H.264, H.264/MPEG-4 AVC, MPEG-4/H.264 AVC nhằm nhấn mạnh tính kế thừa Đôi khi, còn được gọi là “mã hóa JVT” với lý do là tổ chức JVT phát triển
Mục đích của dự án H.264/AVC là tạo ra một chuẩn có khả năng cung cấp tín hiệu video chất lượng cao với các tốc độ bit truyền thấp, nhỏ hơn hay bằng một nửa so với tốc độ của các chuẩn trước ( như MPEG-2, H.263, hay MPEG-4 Part 2) với tính ứng dụng cao trong thực tế Ngoài ra, chuẩn phải đáp ứng yêu cầu cung cấp cách thức linh động cho phép chuẩn được ứng dụng rộng rãi trong nhiều trình ứng dụng ( ví dụ cho cả tốc độ bit cao và thấyp hoặc độ phân giải cao hoặc thấp, và chạy
ổn định trong nhiều hệ thống cũng như mạng ( cho việc broadcast, lưu trữ DVD, mạng gói RTP/IP, và các hệ thống tổng đài đang phương tiện ITU-T)
Trang 29CHƯƠNG II: CHUẨN NÉN HEVC
2 1 Những điểm nổi bật thiết kế và tính năng của mã hóa HEVC
Lớp mã hóa video của HEVC thực hiện cách tiếp cận lai (dự đoán trong ảnh/liên ảnh và mã hóa biến đổi 2D) như được sử dụng trong tất cả các tiêu chuẩn nén video kể từ H.261 Sơ đồ khối của bộ mã hóa video HEVC được thể hiện như ở hình 2.1.[3]
Hình 2.1 Sơ đồ khối bộ mã hóa HEVC
Output Video Signal
Header Formating
& CABAC
Motion Data
Filter Control Data
Intra Precdiction Data
Coded Bitstream
General Coder Control
Transform, Scaling
&Quantization
Scaling
&Inverse Quantization
Intra-Picture Esmation
Intra-Picture Prediction
Motion Compensation
Motion Estimation
Deblocking &
SAO Filter
General Control Data
Quantized Transform Coefficients
Filter Control Analysis
Trang 30Mỗi ảnh đầu vào được chia thành các khối ảnh, sau đó được mã hóa và được truyền tải đến các bộ giải mã Ảnh đầu tiên của một chuỗi video được mã hoá chỉ sử dụng dự đoán trong ảnh Đối với các ảnh còn lại của chuỗi sử dụng các chế độ mã hóa dự đoán liên ảnh theo thời gian Quá trình mã hóa cho dự đoán liên ảnh sẽ lựa chọn dữ liệu chuyển động bao gồm các ảnh tham chiếu và vector chuyển động (MV) dùng để dự đoán các mẫu của mỗi khối ảnh Các bộ mã hóa và giải mã tạo ra tín hiệu dự đoán liên ảnh giống nhau bằng cách sử dụng kỹ thuật bù chuyển động (MC) và thông tin phụ (side informartion) là dữ liệu quyết định chế độ
Các tín hiệu dư thừa của dự đoán trong ảnh và liên ảnh sẽ được biến đổi bởi phép biến đổi không gian tuyến tính Sau đó các hệ số biến đổi được định cỡ (scale), lượng tử hóa, mã hóa entropy, và được truyền cùng với các thông tin dự đoán
Đồng thời, bộ mã hóa cũng sao chép lại mạch vòng xử lý giải mã sao cho cả hai phía mã hóa và giải mã cùng tạo ra các dự đoán giống nhau đối với ảnh kế tiếp
Do đó, các hệ số biến đổi lượng tử hóa sẽ được tạo lại qua định cỡ ngược và sau đó
là biến đổi ngược để sao lại gần đúng tín hiệu dư thừa Sau đó các tín hiệu dư thừa này cộng với các tín hiệu dự đoán và được đưa vào một hoặc hai bộ lọc để làm trơn ảnh Ảnh biểu diễn cuối cùng (một bản sao của đầu ra của bộ giải mã) được lưu trữ trong một bộ đệm ảnh giải mã và được sử dụng để dự đoán các ảnh tiếp theo Nói chung, thứ tự của tiến trình mã hóa hoặc giải mã ảnh thường khác so với thứ tự ảnh đến từ nguồn; đòi hỏi phải có sự phân biệt giữa thứ tự giải mã (thứ tự dòng bit) và thứ tự đầu ra (thứ tự hiển thị) của một bộ giải mã
2.1.1.1 Cấu trúc đơn vị cây mã hóa (CTU) và khối cây mã hóa (CTB)
Cốt lõi của lớp mã hóa trong các tiêu chuẩn trước là macroblock, bao gồm một khối 16x 16 các mẫu thành phần chói (chói) và hai khối 8x8 các mẫu thành phần màu ( trường hợp lấy mẫu 4:2:0); trong khi đó các cấu trúc tương tự trong HEVC là đơn vị cây mã hóa (CTU) Cụ thể, ảnh được chia thành các CTU, mỗi CTU bao gồm các CTB chói và các CTB màu Một CTB có kích thước là LxL ( L
= 16, 32, hoặc 64), trong đó các kích thước lớn hơn cho phép nén tốt hơn HEVC hỗ
Trang 31trợ việc phân chia các CTB thành các khối nhỏ hơn sử dụng cấu trúc cây và tín hiệu hóa cây tứ phân
2.1.1.2 Đơn vị mã hóa(CU) và khối mã hóa (CB)
Cú pháp cây tứ phân( quadtree syntax) chứa trong CTU cho phép chia các
CB có kích cỡ và vị trí thích hợp dựa trên đặc tính tín hiệu của vùng tạo bởi CTB
Do đó gốc của cây tứ phân là CTU Thông thường, kích cỡ của CB được xác định là: 8x8 < kích cỡ CB size < kích cỡ CTB Khi đó, đơn vị mã hóa CU sẽ gồm 1 CB chói và 2 CB mầu, cùng cú pháp đi kèm Một CTB có thể chứa chỉ một CU hoặc được phân chia thành nhiều CU, và mỗi CU có một phân vùng liên quan đến các đơn vị dự báo (PUs) và một cây các đơn vị biến đổi (TUs)
2.1.1.3 Đơn vị dự đoán (PU) và khối dự đoán (PB)
Quyết định việc mã hóa một vùng ảnh sử dụng dự đoán liên ảnh hoặc dự đoán trong ảnh được thực hiện ở mức CU Cấu trúc phân chia PU có gốc ở mức
CU
Tùy thuộc vào kiểu dự đoán mà các CB chói và mầu sau đó có thể được phân chia thành các khối dự đoán (PB): chói và mầu Mỗi một PB sẽ chứa một vector chuyển động nếu trong mảng P HEVC hỗ trợ các kích cỡ PB khác nhau từ 4x4 cho đến 64x64
2.1.1.4 Đơn vị biến đổi (TU) và khối biến đổi (TB)
Dư thừa dự đoán được mã hóa sử dụng các biến đổi khối Cấu trúc cây TU
có gốc ở mức CU Dư thừa CB chói có thể giống với khối biến đổi (TB) chói hoặc tiếp tục chia thành các TB chói nhỏ hơn Điều tương tự áp dụng cho các TB màu Hàm số nguyên tương tự như hàm biến đổi cosin rời rạc (DCT) được xác định cho các TB có kích thước 4x4, 8x8, 16x16, và 32x32 Đối với biến đổi 4x4 của dư thừa
dự đoán trong ảnh thành phần chói, một biến đổi số nguyên được dẫn xuất từ một dạng của biến đổi sin rời rạc (DST)
Trang 322.1.1.5 Tín hiệu hóa vector chuyển động
Dự đoán vector chuyển động tiên tiến (AMVP) được sử dụng, bao gồm cả dẫn xuất của nhiều ứng viên có khả năng nhất dựa trên dữ liệu từ các PB liền kề và hình ảnh tham chiếu Một chế độ kết hợp cho mã hóa MV cũng có thể được sử dụng, cho phép thừa kế của các MV từ các PBs lân cận theo thời gian hoặc không gian Hơn nữa, so với H.264 / MPEG-4 AVC, suy luận bỏ qua được cải thiện và suy luận chuyển động trực tiếp cũng được quy định
2.1.1.6 Bù chuyển động
Độ chính xác ¼ -mẫu được sử dụng cho các MV, và các bộ lọc 7-tap hoặc tap được sử dụng cho phép nội suy của các vị trí mẫu-phân đoạn (được so sánh với việc lọc 6-tap của vị trí ½ -mẫu theo sau bởi phép nội suy tuyến tính cho vị trí ¼-mẫu trong H.264 / MPEG-4 AVC) Tương tự như H.264 / MPEG-4 AVC, nhiều ảnh tham chiếu được sử dụng Đối với mỗi PB, một hoặc hai vectơ chuyển động có thể được truyền đi với mã hóa dự đoán đơn hoặc mã hóa dự đoán đôi tương ứng Như trong H.264 / MPEG-4 AVC, một hoạt động định cỡ (scale) và bù đắp được áp dụng cho các tín hiệu dự đoán gọi là dự đoán có trọng số
8-2.1.1.7 Dự đoán trong ảnh
Các mẫu biên được giải mã của các khối liền kề là dữ liệu tham chiếu cho dự đoán theo không gian trong các vùng dự đoán liên ảnh không được thực hiện Dự đoán trong ảnh hỗ trợ 33 chế độ có hướng (so với 8 chế độ trong H.264 / MPEG-4 AVC), cộng với chế độ dự đoán mặt phẳng và DC Các chế độ dự đoán trong ảnh được chọn sẽ được mã hóa bằng dẫn xuất chế độ có thể xảy ra nhất (ví dụ, các hướng dự đoán) dựa trên những PB lân cận giải mã trước đây đó
2.1.1.8 Điều khiển lượng tử hóa
Như trong H.264 / MPEG-4 AVC, lượng tử hóa tái thiết đồng nhất (URQ) được dùng trong HEVC, với các ma tận định cỡ (scale) lượng tử hóa được hỗ trợ cho các kích thước khối biến đổi khác nhau
Trang 332.1.1.9 Mã hóa Entropy
Mã hóa số học nhị phân thích ứng ngữ cảnh (CABAC) được sử dụng để mã hóa entropy Nó tương tự như các sơ đồ CABAC trong H.264 / MPEG-4 AVC, nhưng có thêm một số cải tiến để cải thiện tốc độ lưu lượng (đặc biệt là cho các kiến trúc xử lý song song), hiệu suất nén, và để giảm bộ nhớ ngữ cảnh của nó
2.1.1.10 Bộ lọc bỏ khối trong-vòng
Một bộ lọc bỏ khối giống như bộ lọc trong H.264 / MPEG-4 AVC được dùng trong vòng lặp dự đoán liên ảnh Tuy nhiên, thiết kế được đơn giản hóa về các quá trình đưa ra quyết định và lọc, và nó được làm thuận lợi hơn để xử lý song song
2.1.1.11 Bù thích ứng mẫu (SAO)
Một ánh xạ biên độ phi tuyến tính được đưa vào trong vòng lặp dự đoán liên ảnh đằng sau bộ lọc bỏ khối Mục đích là để tái tạo tốt hơn các biên độ tín hiệu ban đầu bằng cách sử dụng một bảng look-up , bảng này được mô tả bằng một vài thông
số bổ sung mà chúng có thể được xác định bằng cách phân tích biểu đồ ở phía bộ
mã hóa
2.2 Cú pháp mức cao
Cú pháp mức-cao của HEVC chứa nhiều yếu tố thừa hưởng từ NAL của H.264 / MPEG-4 AVC NAL cung cấp khả năng ánh xạ dữ liệu lớp mã hóa video (VCL) mà nó thể hiện nội dung của các ảnh lên các lớp vận chuyển khác nhau, bao gồm các hệ thống RTP / IP, ISO MP4, và H.222.0 / MPEG-2, và cung cấp một khuôn khổ cho khả năng phục hồi mất mát dữ liệu Đối với các khái niệm chung của thiết kế NAL như các đơn vị NAL, các bộ tham số, các đơn vị truy cập, định dạng dòng byte, và việc định dạng đóng gói.[10]
Các đơn vị NAL được phân loại thành các đơn vị VCL NAL và không-VCL NAL tương ứng với việc chúng có chứa ảnh được mã hóa hoặc dữ liệu có liên quan Trong chuẩn HEVC, một số loại đơn vị VLC NAL xác định các loại ảnh cho mục
Trang 34đích khởi tạo bộ giải mã và truy cập ngẫu nhiên Bảng 2.1 liệt kê các loại đơn vị NAL và ý nghĩa liên quan và các lớp kiểu trong chuẩn HEVC
Bảng 2.1 Phân loại, ý nghĩa và các lớp kiểu đơn vị NAL
0, 1 Phân đoạn mảng của ảnh kế tiếp thông thường VCL
48-63 Không xác định (có thể sử dụng hệ thống) non-VCL 2.3 Các kỹ thuật mã hóa video HEVC
2.3.1 Biểu diễn lấy mẫu của ảnh
Để biểu diễn các tín hiệu video màu , HEVC sử dụng một không gian 3 màu
cơ bản YCbCr với lấy mẫu 4: 2: 0 Các ảnh video lấy mẫu tăng lên với kích thước
Trang 35ảnh hình chữ nhật WxH, trong đó W là chiều rộng và H là chiều cao của ảnh theo quan điểm lấy mẫu chói, còn với lấy mẫu màu 4: 2: 0 sẽ là W/2xH /2
2.3.2 Phân chia hình ảnh thành đơn vị cây mã hóa
Một ảnh được phân chia thành các đơn vị mã hóa cây (CTU), mỗi CTU chứa các CTB chói và CTB màu Một CTB chói lấy mẫu LxL cho các thành phần chói và lấy mẫu L /2 x L/2 cho mỗi một trong hai thành phần màu L=16, 32, hoặc 64 được xác định bởi một yếu tố cú pháp mã hóa được quy định trong SPS
2.3.3 Phân chia CTB thành CB
Các khối CTB chói và màu có thể được sử dụng trực tiếp như các CB hoặc
có thể phân chia tiếp thành nhiều CB Việc phân chia được thực hiện bằng cách sử dụng cấu trúc cây Việc phân chia cấu trúc cây trong HEVC thường được áp dụng đồng thời cho cả khối chói và màu, mặc dù các ngoại lệ áp dụng khi tiến tới kích thước tối thiểu nhất định
CTU chứa cú pháp cây tứ phân cho phép chia các CB đến một kích thước phù hợp dựa trên các đặc điểm tín hiệu của vùng mà nó được bao phủ bởi các CTB Quá trình chia tách cây tứ phân có thể được lặp đến khi một CB chói đạt đến một kích thước tối thiểu cho phép Kích thước này được chọn bởi bộ mã hóa sử dụng cú pháp trong SPS và luôn là 8x8 hoặc lớn hơn
2.3.4 Khối dự đoán (PB) và đơn vị dự đoán (PU)
Chế độ dự đoán cho CU là được báo hiệu là trong ảnh hay liên ảnh, tùy vào việc nó sử dụng dự đoán trong ảnh (theo không gian) hoặc dự đoán liên ảnh (theo thời gian)
Khi chế độ dự đoán được báo hiệu là trong ảnh, kích thước PB là kích thước khối tại nơi dự đoán trong ảnh được tạo sẵn có cùng kích thước với CB cho tất cả các kích thước khối ngoại trừ kích thước CB nhỏ nhất Đối với các trường hợp sau
Trang 36đó, một cờ xuất hiện cho biết CB được chia thành bốn phần PB mà mỗi phần đều có
dự đoán trong ảnh riêng Lý do của việc cho phép chia tách này là tạo khả năng lựa chọn dự đoán trong ảnh cho các khối nhỏ 4x 4 Khi dự đoán trong ảnh thành phần chói hoạt động với các khối 4x4, dự đoán trong ảnh thành phần màu cũng sử dụng các khối 4x4 (4 khối thành phần chói 4x 4) Kích thước vùng hiện tại có dự đoán trong ảnh ( nó là khác so với kích thước PB có dự đoán trong ảnh được tạo sẵn) phụ thuộc vào việc phân chia mã hóa dư thừa được mô tả như sau
Hình 2.2 Chế độ chia tách một CB thành PBs.Đối với những dự đoán trong ảnh chỉ
có M × M và M / 2 × M / 2 được hỗ trợ
Khi dự đoán là liên ảnh, nó xác định liệu các CB thành phần chói và màu được chia thành một, hai hoặc bốn PB Việc chia thành bốn PB chỉ được phép khi kích thước CB bằng với kích thước CB cho phép tối thiểu Khi một CB được chia thành bốn PB, mỗi PB là một góc phần tư của CB và khi một CB được chia thành hai PB, sẽ có 6 kiểu chia tách Các khả năng phân chia cho CB dự đoán liên ảnh được mô tả trong hình 2.2 Bốn loại phân chia cao hơn minh họa cho trường hợp chia tách CB thành kích thước Mx M, chia tách CB thành hai PB kích thước Mx M/2 hoặc M/2xM hoặc chia tách nó thành bốn PB có kích thước M/2xM/2 4 loại phân chia thấp hơn được gọi là phân chia chuyển động bất đối xứng (AMP - asymmetric motion partitioning ), và chỉ được phép khi M ≥ 16, đối với thành phần
M/4xM (L) M/4xM (R) MxM/4 (U) MxM/4 (D)
Trang 37chiều rộng hoặc chiều cao là M và các PB khác lấp đầy phần còn lại của CB bởi 1 chiều cao hoặc chiều rộng của 3M/4 và chiều rộng hoặc chiều cao M Mỗi PB dự đoán liên ảnh được gán một hoặc hai vectơ chuyển động và các chỉ số ảnh tham chiếu Để tối thiểu băng thông bộ nhớ trường hợp xấu nhất, các PB của thành phần chói 4x4 là không được phép cho dự đoán liên ảnh, và các PB của thành phần chói 4x8 và 8x4 được giới hạn cho mã hóa dự đoán đơn Các PB thành phần chói và màu kết hợp với cú pháp dự đoán tạo thành PU
2.3.5 Phân chia cây cấu trúc thành các đơn vị biến đổi và các khối biến đổi
Đối với mã hóa dư thừa, một CB có thể được phân vùng 1 cách đệ quy thành các khối biến đổi (TB) Việc phân chia được báo hiệu bằng một cây tứ phân dư thừa
Phân chia CB và TB ,nơi mà một khối có thể được chia 1 cách đệ quy thành các góc phần tư, như minh họa trong hình 2.3 Đối với một CB thành phần chói MxM, một cờ báo hiệu có được chia thành bốn khối có kích thước M/2xM/2 không
Độ sâu tối đa của cây tứ phân dư thừa trong SPS sẽ báo hiệu cho việc có chia tách thêm nữa không Mỗi góc phần tư có một cờ chỉ định việc nó có được chia thành bốn góc phần tư không Các khối nút lá từ cây tứ phân dư thừa là các khối biến đổi được xử lý tiếp bằng mã hóa biến đổi Các bộ mã hóa chỉ ra kích thước TB thành phần chói tối thiểu và tối đa mà nó sẽ sử dụng Việc chia tách là ngầm mặc định khi kích thước CB lớn hơn so với kích thước TB tối đa Và việc không chia tách là ngầm mặc định khi chia tách sẽ cho kết quả là kích thước TB thành phần chói nhỏ hơn kích thước tối thiểu Kích thước TB thành phần màu bằng một nửa kích thước
TB thành phần chói ở mỗi chiều, ngoại trừ trường hơp kích thước TB chói là 4x4, trong đó trường hợp đó, một TB màu 4x4 duy nhất được bao phủ bởi bốn TB chói 4x4 Trong trường hợp các CU dự đoán trong ảnh, các mẫu được giải mã của các
TB lân cận gần nhất(trong hoặc ngoài CB) được sử dụng như là dữ liệu tham chiếu cho dự đoán trong ảnh
Trang 38Hình 2.3 Chia nhỏ một CTB thành các CB [khối biến đổi (TB)].Đường liền chỉ ra
các biên CB và đường chấm chỉ ra các biên TB
(a) Phân chia CTB (b) Cây tứ phân tương ứng
2.3.6 Mảng (Slice) và Tile
Mảng là một chuỗi các CTU được xử lý theo thứ tự của quét mành Một ảnh được chia thành một hoặc một vài mảng như thể hiện trong hình 2.4 (a) vì thế một ảnh là một tập hợp của một hoặc nhiều mảng Mỗi mảng có thể được mã hóa sử dụng các loại mã hóa khác nhau như sau
Mảng I: tất cả CU của mảng được mã hóa chỉ sử dụng dự đoán trong ảnh
Mảng P: Ngoài các loại mã hóa của mảng I, một số CU của mảng P cũng có thể được mã hóa bằng dự đoán liên ảnh với nhiều nhất một tín hiệu dự đoán
bù chuyển động cho mỗi PB ( dự đoán đơn) Mảng P chỉ sử dụng danh sách
0 ảnh tham chiếu
Mảng B: Bên cạnh các loại mã hóa có sẵn trong một mảng P, một số CU của mảng B cũng có thể được mã hóa bằng dự đoán liên ảnh với nhiều nhất hai tín hiệu dự đoán bù chuyển động cho mỗi PB (dự đoán đôi ) Mảng B sử dụng cả hai danh sách 0 và 1 ảnh tham chiếu
Trang 39Mục đích chính của các mảng là đồng bộ lại sau khi dữ liệu mất Hơn nữa, các mảng thường được hạn chế để sử dụng số bit tối đa Vì vậy, các mảng thường có thể chứa số CTU thay đổi mức độ cao/mảng
Tile là các vùng hình chữ nhật của ảnh có khả năng giải mã độc lập Mục đích chính của tile là cho phép sử dụng các kiến trúc xử lý song song đối với mã hóa và giải mã Nhiều tile có thể chia sẻ thông tin tiêu đề được chứa trong cùng mảng Nói
CTU CTU CTU CTU CTU CTU CTU
a)
Tile 1
Tile N
b)
Trang 40c) Hình 2.4 Chia nhỏ của một ảnh thành mảng (a) và tile (b), minh họa quá trình xử lý
song song wavefront (c) cách khác, một tile đơn lẻ có thể chứa nhiều mảng Tile gồm một nhóm các CTU xếp hình chữ nhật như hình 2.4(b)
Để hỗ trợ việc đóng gói dữ liệu, các mảng phụ thuộc được bổ sung Cuối cùng, với WPP, một mảng được chia thành các hàng CTU Việc giải mã của mỗi hàng có thể được bắt đầu ngay sau một vài quyết định dự báo và thích ứng của các
bộ mã hóa entropy được tạo ra ở hàng trước Điều này hỗ trợ xử lý song song các hàng của các CTU bằng cách sử dụng một số luồng xử lý trong bộ mã hóa hoặc giải
mã (hoặc cả hai) Một ví dụ được trình bày trong hình 2.4 (c) Đối với thiết kế đơn giản, WPP không được sử dụng kết hợp với các Tile
2.3.7 Dự đoán trong ảnh
Dự đoán trong ảnh hoạt động theo kích thước TB, và các mẫu biên giải mã trước đó từ những TB lân cận về mặt không gian được sử dụng để tạo ra tín hiệu dự đoán Dự đoán trong ảnh hỗ trợ 33 hướng khác nhau với các kích thước TB từ 4x4 đến 32x32 Các hướng dự đoán được thể hiện trong hình 2.5 Ngoài ra dự đoán mặt phẳng và dự đoán DC cũng có thể được sử dụng Đối với thành phần màu, chế độ
dự đoán ngang, dọc, mặt phẳng và DC có thể được báo hiệu một cách rõ ràng, hoặc chế độ dự đoán thành phần màu được chỉ định giống các chế độ dự đoán thành phần chói
CTU CTU CTU CTU CTU CTU CTU CTU CTU CTU