MỤC LỤC
Ngay sau khi công bố chuẩn mã hóa video H.265/HEVC, các tổ chức, công ty đã thành lập Nhóm các chuyên gia vé video (Join Video Experts Team — JVET) và tiến hành nghiên cứu, xây dựng một chuẩn mã hóa video mới với tên gọi H.266/Versatile Video Coding (VVC) [10], với mục tiêu chính là áp dung cho các video độ phân giải cao (UHD, 4K, 8K. Nguyên nhân bởi mô hình mã hóa video này có độ phức tạp thuật toán cao (thời gian mã hóa khi. chưa phù hợp với đa số người dùng. Do đó việc nghiên cứu các giải pháp cải thiện chuẩn mã hóa video H.266/VVC là rất quan trọng và cấp thiết. Computer MPEG-4 MPEG-1. & 990+) (MPEG-2) (Advanced Video Coding (High Efficiency Video (Versatile Video Coding. developed by JVT) Coding developed by to be developed. Videotelephony JCT-VC) by JVET).
Chương này trình bày sơ lược cấu trúc của một bộ mã hóa video và chuẩn. Chương này đề xuất và kiểm thử một số phương pháp nâng cao hiệu năng cho bộ mã hóa video H.266/VVC.
Giống như các bộ mã hóa đã được chuẩn hóa trước đây, bộ mã hóa VVC có cấu trúc mã hóa lai dựa trên khối, bao gồm dự đoán liên khung, dự đoán nội khung, biến đổi, lượng tử hóa, mã hóa entropy. Khi thiết kế bộ mã hóa VVC, để tăng thêm tính linh hoạt cho cấu trúc cây chia tư, các kích thước CU, PU, TU mới đã được bổ sung thêm để trở thành cấu trúc cây đa loại (Multi-Type Tree).
Sau khi thu được các khối sai khác nhờ dự đoán nội khung và dự đoán liên khung, bộ mã hóa tiến hành biến đổi chúng sang miền tần số. Hầu hết các bộ mã hóa ảnh và mã hóa video đều sử dụng phép biến đổi cosin rời rạc (Discrete Cosine Transform - DCT) hoặc bién déi sin réi rac (Discrete Sine Transform — DST). Đặc điểm của 2 phép biến đổi này là giúp tập trung các thành phần năng lượng cao (mang nhiều thông tin) về phía trên bên phải của khối hình, thuận lợi cho việc lượng tử hóa và loại bỏ các thành phần năng lượng thấp (mang ít thông tin).
O VVC, do các khối biến đổi có kích thước lớn lên đến 64x64 được sử dụng cho các video có độ phân giải cao như HD, Full HD, 4K. Các hệ số biến đổi tần số cao được loại bỏ khỏi các khổi biến đối nếu kích thước chiều dài hoặc chiều rộng của khối bằng 64. Sau khi thực hiện biến đổi trên các khối, bộ mã hóa tiến hành chia các hệ số của khối đó cho bước lượng tử QStep và làm tròn.
Khung hình chứa các hệ số sau khi được lượng tử hóa và loại bỏ các thành phần mang it thông tin là đầu vào của quá trình mã hóa Entropy. VVC tiếp tục sử dụng công cụ mã hóa nhị phân văn bản thích ứng (Context Adaptive Binary Arithmetic Coding - CABAC) [27] da dugc chứng minh mang lại hiệu năng cao ở chuẩn mã hóa HEVC.
Bước lượng tử QStep được đặc trưng bởi hệ số lượng tử (Quantization Parameter — QP) trong bộ mã hóa. Việc lượng tử hóa làm cho các hệ số mang ít thông tin bị loại bỏ. Quá trình lượng tử hóa là quá trình gây ra tốn thất trong quá trình mã hóa.
Bước lượng tử càng cao, lượng thông tin sau mã hóa càng ít, lượng thông tin tổn thất càng nhiều. Những nghiên cứu tổng quan này là cơ sở tác giả đề xuất các thuật toán cải thiện chuẩn mã hóa video H.266/VVC sẽ được tình bày trong chương tiếp theo.
Từ đó, nhóm nghiên cứu đã đề xuất phương pháp kết thúc sớm quá trình lựa chọn hướng dự đoán nội khung thông qua việc sắp xếp lại tập các chế độ dự đoán nội khung sau khi sử dụng phép biến đổi Hadamard. Dé dat được hiệu năng mã hóa tối ưu, H.265/HEVC và H.266/VVC cho phép phân chia hình ảnh thành các đơn vị mã hóa với các kích thước khác nhau, tùy thuộc vào nội dung khung hình và hệ số lượng tử. Có thể thấy, để tìm ra được cách phân chia khối hình tối ưu nhất cho mỗi khung hình của video trong H.266/VVC phải trải qua quá trình phân chia rất phức tạp, với nhiều trường hợp thử nghiệm.
Mo hinh mang no-ron tich chap early-terminated hierarchical convolu- tional neural network (ETH-CNN). Khi H.265/HEVC được phát triển và áp dụng kỹ thuật phân chia khối hình theo cây tứ phân đã gay ra van đề lớn về độ phức tạp thuật toán. Các nghiên cứu để giải quyết vẫn đề này cũng được công bố trên các Tạp chí, Hội nghị chuyên ngành uy tín, trong đó có công bố [33] của nhóm nghiên cứu thuộc Trường Đại học Beihang, Bắc Kinh, Trung Quốc. Kết quả cho thấy, việc sử dụng mạng nơ-ron tích chập ETH-CNN cho phép giảm tới trên 50% thời gian xử lý của bộ mã hóa trong khi tốn thêm trung bình khoảng 2.25% lượng bit ở cấu hình All-Intra. Mạng nơ-ron tích chập ETH-CNN được xây dựng với mục đích dự đoán phân vùng CU trong khi mã hóa sử dụng chế độ dự đoán nội khung trong H.265/HEVC. Dựa vào cơ chế của phân chia CU theo cấu trúc cây tứ phân, mô hình mạng ETH-CNN được thiết kế như mô tả trong hình 3.3. Thanh phan Y của CŨ này là đầu vào của cả 3 nhánh của mô hình với đầu ra. Cấu trỳc của ETH-CNN. e Lớp tiền xử lý: CTU ban đầu được xử lý trước bằng cách loại bỏ trung bình và lấy mẫu xuống theo ba nhánh song song từ B1 đến B3, tương ứng với ba mức phân cấp CU. Đối với bước loại bỏ trung bình, tại mỗi nhánh, mỗi CU đầu vào được trừ bởi giá trị cường độ trung bình để giảm sự thay đổi của các mẫu CU đó. e Các lớp tích chập: Trong mỗi nhánh, tất cả các luồng dữ liệu đã được tiền xử lý đi qua ba lớp tích chập. Tại mỗi lớp tích chập, hạt nhân có kích thước giống nhau trên các nhánh khác nhau. Tương tự ở lớp thứ hai. thứ hai và 32 bộ lọc cho lớp thứ ba) để trích xuất các tính năng cấp cao hơn,. Trong đó 7Tproposea là thời gian mã hóa khi sử dụng phương pháp giảm thời gian dự đoán nội khung đề xuất, 7o;;zz„a¡ là thời gian mã hóa khi sử dụng chuẩn mã hóa video H.266/VVC ban đầu. Tuy nhiên, dé đạt được hiệu năng cao nhất đòi hỏi bộ mã hóa phải tìm kiếm tất cả các điểm trong khung hình tham chiếu khiến cho thời gian xử lý của bộ mã hóa tăng lên nhiều lần.
Trong d6 Tproposed 1& thoi gian ma héa khi st dung phuong phap giam thời gian dự đoán liên khung đề xuất, To;;zaz¡ là thời gian mã hóa khi sử dụng chuẩn mã hóa video H.266/VVC ban đầu. Một số phương pháp đã được đề xuất và ứng dụng trong kỹ thuật nội suy hình ảnh như phương pháp sử dụng ước lượng và bù chuyển động (Motion Compensation and 'Temporal Interpolation - MCTT) |ð], [25] hoặc sử dụng kỹ thuật học sâu [22], [19],. Việc đánh giá hiệu quả của thuật toán giảm thời gian dự đoán liên khung được thực hién trén tap 08 video: PeopleOnStreet, Traffic, Kimono, ParkScene, RaceHorsesC, BasketballDrill, RaceHorsesD, BlowingBubbles.
Kết quả kiểm thử cho thấy thuật toán đề xuất có hiệu năng nén tốt hơn so với các mô hình mã hoa video liên lớp thông thường, trong khi độ phức tạp thuật toán không bị ảnh hưởng quá nhiều.
Trong tương lai, các nghiên cứu trong đề tài này của Luận văn sẽ được kết hợp trong một hệ thống, đồng thời mở rộng nghiên cứu cho các ứng dụng, hệ thống truyền thông đa phương tiện thế hệ mới như hệ thống cảm biến hình ảnh trong mạng IoT, hệ thống mã hóa, video phân tán DVC. Bùi Thanh Hương, Nguyễn Quang Sang, Dinh Triều Dương, Chử Đức Trình, Hoàng Văn Xiêm. Cải tiễn thuật toán TZ Search cho tăng tốc mô hình mã hóa H.266/Versatile Video Coding.
Phương Pháp Giảm Thời Gian Dự Đoán Nội Khung Trong Chuẩn Mã Hóa Video H.266/Versatile Video Coding.
Developments in international video coding standardization after AVC, with an overview of Versatile Video Coding (VVC). Block-based image fusion using multi- scale analysis to enhance depth of field and dynamic range. In 2019 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), pages 1970-1975, 2019.
Jonathan Pfaff, Alexey Filippov, Shan Liu, Xin Zhao, Jianle Chen, Santiago De-Luxdn-Hernandez, Thomas Wiegand, Vasily Rufitskiy, Adarsh K. Low-complexity CTU partition structure decision and fast intra mode decision for Versatile Video Coding. Li Zhang, Kai Zhang, Hongbin Liu, Hsiao Chiang Chuang, Yue Wang, Jizheng Xu, Pengwei Zhao, and Dingkun Hong.