Khảo sát và đánh giá các thuật toán cải thiện chuẩn mã hóa video H.266/ Versatile Video Coding

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	6
Dung lượng	656,43 KB

Nội dung

Bài viết Khảo sát và đánh giá các thuật toán cải thiện chuẩn mã hóa video H.266/ Versatile Video Coding tiến hành khảo sát các mô hình mã hóa video được đề xuất nhằm cải thiện chuẩn mã hóa video mới nhất hiện nay, H.266/Versatile Video Coding (VVC). Mời các bạn cùng tham khảo!

Hội nghị Quốc gia lần thứ 25 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2022) Khảo sát đánh giá thuật toán cải thiện chuẩn mã hóa video H.266/ Versatile Video Coding Bùi Thanh Hương1,2, Nguyễn Quang Sang2, Hoàng Văn Xiêm2 Trường Đại học Xây dựng Hà Nội Trường Đại học Công nghệ, Đại học Quốc Gia Hà Nội huong1204@gmail.com, ngsang998@gmail.com, xiemhoang@vnu.edu.vn Abstract— Trong năm gần đây, với phát triển hệ thống truyền thông đa phương tiện, số lượng thiết bị loại hình video gia tăng cách nhanh chóng Nhằm đáp ứng nhu cầu truyền tải lưu trữ nội dung video, mô hình mã hóa video trở thành chủ đề nghiên cứu mang tính cấp thiết Vào tháng năm 2020, tiêu chuẩn mã hóa video với tên H.266/Versatile Video Coding thức chuẩn hóa thơng qua Mơ hình mã hóa video cho khả nén hiệu với video độ phân giải cao, video 360o,… nhờ việc tích hợp thuật tốn kỹ thuật đại Tuy nhiên, chuẩn mã hóa video tồn hạn chế, đặc biệt mặt thời gian xử lý Do đó, nghiên cứu nhằm cải thiện mơ hình mã hóa video liên tục đề xuất công bố Bài báo tiến hành khảo sát đánh giá số nghiên cứu bật giúp cải thiện chuẩn mã hóa video H.266/Versatile Video Coding tuệ nhân tạo Với liệu ảnh, video, kỹ thuật học máy học sâu quan tâm nhiều khả ứng dụng hiệu toán phân loại, dự đoán với video liệu lớn Trong năm gần đây, phương pháp, thuật toán với kỹ thuật học máy, học sâu tiên tiến nghiên cứu, ứng dụng nhằm cải thiện mơ hình mã hóa video đại Các thuật toán cho thấy hiệu việc giải vấn đề tồn mã hóa video cải thiện mơ hình phân chia hình ảnh; tối ưu thời gian cho trình lựa chọn chế độ hướng dự đoán nội khung; tối ưu tập ứng viên dự đốn, thu hẹp vùng tìm kiếm thích ứng để cải thiện mơ hình dự đốn liên khung Nhiều cơng trình nghiên cứu ứng dụng kỹ thuật trí tuệ nhân tạo, kỹ thuật học sâu, mạng nơ ron tích chập nâng cao chất lượng hình ảnh sau giải mã giúp cải thiện hiệu mã hóa, giảm thời gian xử lý, nâng cao trải nghiệm người dùng Trong báo này, tiến hành khảo sát mơ hình mã hóa video đề xuất nhằm cải thiện chuẩn mã hóa video nay, H.266/Versatile Video Coding (VVC) Cấu trúc báo trình bày gồm phần Phần giới thiệu tổng quan chủ đề nghiên cứu Phần trình bày cấu trúc chuẩn mã hóa video H.266/VVC Phần trình bày khảo sát thuật toán đề xuất nhằm cải thiện chuẩn mã hóa video H.266/VVC Phần kết luận định hướng nghiên cứu tương lai Keywords- Truyền thơng đa phương tiện, Mã hóa video, H.266/Versatile Video Coding I GIỚI THIỆU Ngày nay, gia tăng lưu lượng video truyền tải lưu trữ ngày cao Sự gia tăng song hành với đời thiết bị số đại nói riêng phát triển vũ bão nhiều lĩnh vực khoa học, kỹ thuật cơng nghệ nói chung, yếu tố góp phần làm tăng nhu cầu sử dụng, truyền tải video Do đó, chuẩn mã hóa video khơng ngừng phát triển với hiệu ngày cao để mã hóa hiệu video thơ chưa qua xử lý, đáp ứng nhu cầu truyền tải, lưu trữ video, đóng vai trị quan trọng cho phát triển ứng dụng truyền thông đa phương tiện truyền hình thời gian thực (streaming), thực ảo (VR: Virtual Reality), 3D-TV,… Cụ thể, theo thời gian, chuẩn mã hóa video H.264/AVC [1], H.265/HEVC [2] H.266/VVC [3], không ngừng nghiên cứu phát triển cải tiến, đảm bảo phù hợp, bắt kịp ứng dụng truyền thông đa phương tiện tiên tiến Một kỹ thuật, công nghệ quan trọng, đóng vai trị tảng phát triển lĩnh vực khoa học giai đoạn mới, cách mạng 4.0, trí ISBN 978-604-80-7468-5 II CHUẨN MÃ HÓA H.266/VERSATILE VIDEO CODING Đứng trước phát triển dịch vụ truyền thông video đáp ứng phát triển ứng dụng phục vụ nhu cầu ngày cao chất lượng video, năm 2013 chuẩn mã hóa video H.265/HEVC (High Efficiency Video Coding) thông qua [2] Sau đó, chuẩn mã hóa video H.266/VVC (Versatile Video Coding) [3] thức thơng qua vào tháng năm 2020 Chuẩn mã hóa video tích hợp kỹ thuật tiên tiến, thích hợp với ứng dụng mã hóa video độ phân giải cao 415 Hội nghị Quốc gia lần thứ 25 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2022) (HD, FullHD, 2K, 4K,…), đồng thời cho phép mã hóa video khả chuyển (Scalable Vdeo Coding), mã hóa video 360o,… Hình mơ tả kiến trúc tổng quan mã hóa H.266/VVC Tương tự với mơ hình mã hóa video đại, VVC sử dụng kiến trúc mã hóa lai theo khối (block-based hybrid coding), bao gồm mơ đun phân chia hình ảnh, dự đốn nội khung/liên khung, biến đổi, lượng tử hóa, mã hóa entropy Thơng tin khác biệt - Biến đổi / Lượng tử hóa Video nguồn Mã hóa Entropy Chuỗi bit đầu 1 00 Lượng tử/ Biến đổi ngược Dự đốn khung Khung hình dự đốn Dự đốn liên khung Bộ đệm khung hình giải mã Bộ lọc vịng lặp Hình 1: Mơ hình mã hóa video theo chuẩn H.266/VVC A Phân chia khung hình: Một khung hình video chia thành đơn vị mã hóa CTU (Coding tree unit), CU (coding unit), PU (prediction unit) Việc định kích cỡ phân chia khác nhau, tùy thuộc nội dung khung hình đảm bảo phù hợp chế độ dự đốn Trong VVC, kích thước khối hình lớn cho phép lên tới 128×128 khơng kích thước 64×64 chuẩn tiền nhiệm Thêm nữa, từ chuẩn mã hóa HEVC, cấu trúc tứ phân (quad tree) sử dụng Sau VVC chọn thêm tích hợp đa kiểu phân chia đệ quy (MTT: nested recursive MultipleType Tree), tức phân chia khối hình cho (là cấu trúc binary split) cho (là cấu trúc ternary split) (Hình 2) Ngồi ra, việc lựa chọn tỉ lệ chiều dài/chiều rộng khối hình theo chuẩn VVC cho phép linh hoạt, lên tới 1/16 chuẩn H.265/HEVC, cụ thể từ chuẩn H.261/MPEG1 Còn từ chuẩn HEVC, phép biến đổi sin rời rạc DSTVII (Discrete Sine Transform), bổ sung khối biến đổi kiến trúc HEVC [4-8] Trong kiến trúc mã hóa video hành, chuẩn VVC bổ sung thêm phép biến đổi DCT-VIII Như vậy, phép biến đổi cô sin rời rạc DCT-II, DCT-VIII, DST-VII thực linh hoạt kiến trúc VVC [9], chi phí biến dạng giảm thiểu đáng kể, đặc biệt hữu hiệu việc loại bỏ hệ số biến đổi tần số cao video có độ phân giải cao, có kích thước khối lớn (lên đến 128×128) Các thơng tin phía đầu biến đổi tiếp tục đưa vào lượng tử hóa, giúp cho số đầu có giảm bớt Tuy nhiên, tác động giảm bớt số trọng số phép tốn xấp xỉ nên có tượng tổn thất liệu phía đầu lượng tử hóa Phép lượng tử vơ hướng mà đó, hệ số xấp xỉ độc lập với giá trị xung quanh lựa chọn áp dụng kiến trúc VVC Hệ số lượng tử (QP) mở rộng, lên tới 63 Hơn nữa, để chuyển đổi QP độ xám (luma) sang QP màu sắc (chroma), ánh xạ QP linh hoạt áp dụng vào kiến trúc VVC [10] C Mã hóa dự đốn Có hai cách thức thực dự đoán dự đoán khung hay dự đoán liên khung Phép dự đoán khung tức phép dự đoán thực ảnh mã hóa, khối mẫu lân cận khối mã hóa dùng để thực dự đốn Cịn dự đốn liên khung, mã hóa tham chiếu ảnh mã hóa xong để thực dự đốn cho ảnh Vì khơng có ảnh khác phía trước để tham chiếu nên ảnh video áp dụng dự đoán khung Tùy theo mục tiêu cần đạt (như tối ưu hóa tỉ lệ méo), mã hóa định cách thức dự đoán liên khung hay dự đoán khung mã hóa ảnh • Dự đốn nội khung (dự đốn khơng gian) Trong kiến trúc VVC, dự đốn nội khung có 67 chế độ dự đốn, bao gồm chế độ Planar (0), DC (1) 65 chế độ dự dốn theo hướng (2÷67) (Hình 3) VVC sử dụng kích thước CTU lớn hình dạng khối PU khơng giới hạn khối vng N×N, 2N×2N Đối với khối hình có dạng hình chữ nhật, số hướng dự đoán bị thay thế, nhiên tổng số hướng 67 phương pháp dự đốn khơng thay đổi [11] Hình 2: Các dạng phân chia đệ quy VVC B Phép biến đổi lượng tử hóa Với mục đích giảm tương đồng khối thông tin khác biệt, phép biến đổi tác động vào hệ số, làm cho hệ số dư thừa nhỏ tốt, đó, làm lên hệ số có biên độ lớn vùng biến đổi Phép biến đổi cosin rời rạc DCT-II (Discrete Cosine Transform), dùng nhiều chuẩn trước ISBN 978-604-80-7468-5 Hình 3: Các chế độ dự đốn nội khung VVC 416 Hội nghị Quốc gia lần thứ 25 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2022) Các góc độ thay đổi qua hệ nén video nhằm tăng hiệu phép dự đoán, ngày thu hướng biên tùy ý video tự nhiên • Dự đốn liên khung (dự đốn thời gian) Việc mã hóa trực tiếp giá trị pixel thô cho block nội tại, thay cách tìm kiếm khối tương tự khung mã hố trước mã hố khối vector chuyển động Cách thao tác ước lượng chuyển động có gây lỗi hay giá trị dư thừa dự báo Vậy cần có phần tử để khôi phục pixel thô khối vector chuyển động lỗi dự báo (hay thông tin khác biệt) Bộ mã hóa HEVC sử dụng tập vector dự đoán nâng cao AMVP (advanced Motion Vector prediction), cịn VVC bổ sung thêm tập vector dự đốn dựa lịch sử (History-based Motion Vector Prediction - HMVP) [12] nhóm tác giả đề xuất mơ hình mạng nơ ron tích chập hàm mát giúp kết thúc sớm trình phân vùng hình ảnh VVC Mơ hình mạng học sâu sử dụng thơng tin kích thước nội dung khối hình để đưa định kết thúc tiếp tục trình phân chia Kết kiểm thử cho thấy phương pháp giúp giảm từ 44.65% - 66.88% thời gian mã hóa, hiệu mã hóa khơng ảnh hưởng nhiều với 1.322%-3.188% lượng BDBR tăng thêm Nhóm tác giả G Tang [15] đề xuất phương pháp kết hợp tính tốn gradient mạng học sâu CNN để kết thúc sớm trình phân chia CU VVC Đầu tiên, mã hóa tính tốn gradient CU đưa định dừng tiếp tục trình phân chia dựa ngưỡng Nếu q trình phân chia tiếp tục, mơ hình mạng học sâu CNN sử dụng để đưa định chế độ phân chia CU Kết cho thấy phương pháp giúp giảm 33% thời gian mã hóa tốn thêm 0.99% lượng BDBR Trong báo [16], nhóm tác giả N Zouidi đề xuất tái sử dụng mơ hình mạng mơ ron tích chập ETH-CNN áp dụng cho q trình phân chia khối hình có dạng hình vng VVC Mơ hình mạng ETH-CNN đề xuất nhóm tác giả Mai Xu cộng [17] áp dụng cho mơ hình mã hóa video chuẩn H.265/HEVC Mơ hình mạng học sâu sử dụng thông tin nội dung khung hình hệ số lượng tử để đưa định kết thúc tiếp tục trình phân chia CU HEVC sử dụng cấu trúc chia tư (quad-tree) Bên cạnh đó, báo đề xuất phương pháp lựa chọn nhanh chế độ dự đốn nội khung sử dụng phân tích, thống kê Kết cho thấy thời gian xử lý mã hóa VVC giảm từ 51.81% - 60.04% lượng BDBR tăng thêm khoảng 3.59% Nhóm tác giả Q Zhang cộng đề xuất báo [18] thuật tốn định nhanh kích thước CU cho VVC dựa đặc tính nội dung video kết hợp với ngưỡng động Thuật tốn bao gồm q trình: 1) xác định tiếp tục kết thúc trình phân chia CU 2) lựa chọn chế độ phân chia cho CU Kết kiểm thử cho thấy thời gian xử lý mã hóa giảm trung bình 48.58% lượng BDBR tăng thêm 0.91% D Bộ lọc Các khung hình sau tái tạo đưa qua lọc để nâng cao chất lượng hình ảnh, nâng cao hiệu mã hóa video Hai lọc lặp (In-Loop) dùng HEVC Bộ lọc nhiễu khối (DBF: Deblocking Filter) Bù mẫu thích ứng (SAO: Sample Adaptive Offset) Bộ lọc DBF lọc đầu tiên, áp dụng thực lọc tín hiệu khu vực tồn ảnh Còn lọc SAO áp dụng thực lọc phạm vi không gian cục ảnh Ngoài ra, lọc thứ ba bổ sung chuẩn VVC Bộ lọc vịng lặp thích ứng (ALF: Adaptive Loop Filter), lọc hình dạng kim cương 7×7 5×5 áp dụng để cải tiến lọc In-Loop VVC [13] E Mã hóa nhị phân thích ứng Qua khối này, để tiếp tục đạt thêm hiệu cao, thông tin dư thừa hay thông tin khác biệt mã hóa mã hóa số học, nhị phân tương thích ngữ cảnh CABAC (Context Adaptive Binary Arithmetic Coding) [10] III CÁC THUẬT TOÁN CẢI THIỆN CHUẨN MÃ HĨA VIDEO H.266/VVC B Cải thiện mơ hình dự đốn nội khung Như đề cập, VVC sử dụng 67 chế độ dự đoán nội khung so với 35 chế độ HEVC khiến cho thời gian lựa chọn chế độ dự đoán tối ưu tăng lên đáng kể Do đó, nghiên cứu liên quan đến giảm thời gian cho trình lựa chọn chế độ dự đoán nội khung trở nên quan trọng cấp thiết Nhóm tác giả H Yang đề xuất báo [19] thuật tốn tìm kiếm nhanh chế độ dự đoán nội khung tối ưu cho VVC Dựa giá trị sai khác sau biên đổi Hadamard (SATD), hướng khởi tạo cho trình tìm kiếm lựa chọn Sau đó, mã hóa tiến hành tìm kiếm cập nhật hướng dự đoán nội khung tối ưu với bước nhảy 4, Tập ứng viên dự đốn A Cải thiện mơ hình phân chia hình ảnh H.266/VVC sử dụng chế phân chia hình ảnh theo cấu trúc QTMT Cấu trúc phân chia giúp việc phân chia trở nên linh động hiệu Tuy nhiên, số lượng kích thước hình dạng khối hình lớn khiến cho thời gian phân chia tăng cao so với chuẩn mã hóa video trước Do đó, nhóm nghiên cứu giới tiến hành thử nghiệm ứng dụng mơ hình học sâu nhằm giảm thời gian phân chia hình ảnh VVC Nhóm tác giả T.Li [14] đề xuất tập liệu lớn với nội dung video đa dạng phục vụ q trình huấn luyện mơ hình học sâu cho mã hóa video Bên cạnh đó, ISBN 978-604-80-7468-5 417 Hội nghị Quốc gia lần thứ 25 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2022) cuối sử dụng cho trình RDO bao gồm chế độ Planar, chế độ DC hướng dự đốn có giá trị SATD nhỏ Kết kiểm thử cho thấy thuật toán giúp giảm 25.51% thời gian xử lý lượng BDBR tăng thêm 0.54% Trong báo [20], nhóm tác giả Y Chen đề xuất phương pháp giảm thời gian lựa chọn chế độ dự đoán nội khung cho VVC Phương pháp bao gồm trình: 1) thiết lập tập ứng viên chế độ dự đoán nội khung dựa giá trị sai khác sau biến đổi Hadamard tập MPM; 2) xếp lại tập ứng viên kết thúc sớm q trình lựa chọn chế độ dự đốn tối ưu dựa ngưỡng động Thuật toán cho thấy khả giúp giảm tới 30.59% thời gian mã hóa với lượng BDBR tăng thêm 0.86% Một kiến trúc mạng nơ ron tích chập nhóm tác giả T Lin đề xuất nghiên cứu [21] Mơ hình mạng tích chập đưa tập ứng viên dự đốn nội khung cho khối có kích thước 16×16 VVC dựa thông tin giá trị điểm ảnh khối hình khối hình tái tạo thấy phương pháp giúp giảm 30.63% thời gian xử lý mã hóa tiêu tốn thêm 3.18% lượng BDBR Input Thành phần Luma S=1 C = 16 FRESI C FConcat S=1 C = 16 S=2 C = 32 S=1 C = 32 S=1 C=2 OConfidence FMF IMF Vector chuyển động chiều Output S=2 C = 32 IRESI Thông tin sai khác Hợp đặc trưng FL IL S=1 C = 16 S=2 C = 32 Hình 5: Kiến trúc mạng CNN sử dụng thuật tốn kết thúc sớm q trình phân chia CU dự đốn liên khung Trong q trình ước lượng chuyển động, kích thước vùng tìm kiếm có ảnh hưởng lớn tới thời gian xử lý mã hóa Trên sở phân tích ảnh hưởng kích thước vùng tìm kiếm tới độ phức tạp thuật tốn, nhóm tác giả Z Pan [23] đề xuất phương pháp thu hẹp vùng tìm kiếm thích ứng dựa việc khai thác thơng tin chuyển động khối hình lân cận khối hình độ sâu phân chia trước Bên cạnh đó, nhóm tác giả đề xuất phương pháp lựa chọn khung hình tham chiếu dự đốn liên khung việc khai thác thơng tin vector dự đoán chuyển động Thuật toán giúp giảm số lượng khung hình tham chiếu cần tìm kiếm, qua giúp giảm thời gian xử lý chung mã hóa Kết kiểm thử cho thấy phương pháp đề xuất giúp mã hóa giảm 34.27% thời gian xử lý lượng bit mã hóa tăng thêm 0.49% C Cải thiện mơ hình dự đốn liên khung Đối với dự đoán liên khung, vector chuyển động CU thông tin quan trọng cho biết tương quan mặt thời gian khung hình Nhóm tác giả L Zhang đề xuất phương pháp khai thác thông tin vector chuyển động khối hình mã hóa trước để xây dựng tập ứng viên dự đoán liên khung cho CU VVC, với tên gọi tập vector dự đoán dựa lịch sử [12] Tập vector ứng viên điều khiển cập nhật với chế nhập trước xuất trước (first-in-first-out) Các vector ứng viên thêm vào vị trí cuối bảng lưu trữ Khi có vector ứng viên giống với vector ứng viên cũ, vector cũ bị loại bỏ, vector phía sau di chuyển phía trước với số giảm (Hình 4) Phương pháp giúp mã hóa VVC tiết kiệm lên tới 1.2% lượng bit mã hóa, thời gian xử lý tăng thêm khoảng 1-7% D Nâng cao chất lượng hình ảnh sau giải mã Tác giả F Zhang cộng đề xuất báo [24] phương pháp nâng cao chất lượng video sau giải mã Phương pháp trình bày kiểm thử kiến trúc mạng nơ ron tích chập bao gồm 2N+2 lớp tích chập Kết cho thấy phương pháp giúp tiết kiệm 5.84% lượng bitrate hệ số lượng tử cao, 5.8% lượng bitrate kiểm thử với hệ số lượng tử thấp Tác giả F Nasiri cộng [25] đề xuất mơ hình mạng học sâu giúp nâng cao chất lượng khung hình video Mơ hình mạng học sâu sử dụng thông tin hệ số lượng tử kết hợp với khung hình tái tạo (prediction-unaware) khung hình dự đoán (prediction-aware) Kết cho thấy phương pháp giúp tiết kiệm từ 5.8% đến 7.4% lượng bitrate kiểm thử với chuẩn mã hóa video H.266/VVC Tác giả Q Xing cộng đề xuất báo [26] mơ hình mạng học sâu kết hợp CNN BiLSTM, cho phép khai thác tương quan mặt thời gian khung hình đề nâng cao chất lượng hình ảnh video Ban đầu, phương pháp kiểm thử cho chuẩn mã hóa H.265/HEVC, sau kiểm thử cho chuẩn mã hóa H.266/VVC báo [27] Hình 4: Cơ chế cập nhật bảng ứng viên HMVP Nghiên cứu [22] lần đề xuất phương pháp sử dụng học sâu giúp tăng tốc trình phân chia CU VVC Phương pháp đề xuất kiến trúc mạng nơ ron tích chập sử dụng đầu vào thông tin thành phần Luma CU, thông tin dư thừa vector dự đốn chuyển động chiều (Hình 5) Kiến trúc mạng sử dụng cho việc dự đoán chế độ phân chia CU có kích thước lớn 16×16 Bên cạnh đó, tác giả đề xuất thuật toán định nhanh chế độ hợp (Merge mode) ước lượng chuyển động, sử dụng thông tin dư thừa sau mã hóa CU Kết cho ISBN 978-604-80-7468-5 Trích chọn đặc trưng 418 Hội nghị Quốc gia lần thứ 25 Điện tử, Truyền thông Công nghệ Thơng tin (REV-ECIT2022) Bên cạnh đó, phương pháp [28, 29] đề xuất mơ hình mạng học sâu giúp cải thiện lọc vòng (inloop filter) chuẩn mã hóa video H.266/VVC IV Một số nhận xét rút sau: - Phương pháp [14] giúp giảm thời gian xử lý mã hóa H.266/VVC nhiều với 63.79% phương pháp [20] giảm thời gian với 30.59% - Phương pháp [23] có hiệu tốt với tỉ lệ ΔT/BDBR lên tới 69.94 phương pháp [22] có hiệu với tỉ lệ ΔT/BDBR đạt 9.63 - Phương pháp [23] phương pháp tiêu tốn thêm bit với 0.49% lượng BDBR Hiệu số phương pháp nâng cao chất lượng hình ảnh mặt BDBR cho số chuỗi video thống kê Bảng Nhìn chung, phương pháp [25] có hiệu cao tiết kiệm 7.04% lượng bit mã hóa so sánh mức chất lượng Hình cho thấy đường cong RD (Rate – Distortion) số chuỗi video sử dụng thuật toán nâng cao chất lượng MFQE [27] kiểm thử với cấu hình mã hóa Low-Delay-P NHẬN XÉT VÀ ĐÁNH GIÁ Các thuật tốn nêu nhóm tác giả kiểm thử đánh giá hiệu tập liệu chuẩn gồm video Đặc tính video thống kê Bảng Bảng 1: Đặc tính chuỗi video kiểm thử Số lượng Tốc độ Chuỗi video Độ phân giải khung hình khung hình PeopleOnStreet 2560×1600 150 30 Hz Kimono 1920×1080 240 24 Hz ParkScene 1920×1080 240 24 Hz PartyScene 832×480 500 50 Hz RaceHorsesC 832×480 300 30 Hz BasketballPass 416×240 500 50 Hz BlowingBubbles 416×240 500 50 Hz RaceHorsesD 416×240 300 30 Hz Bảng 3: Hiệu số phương pháp nâng cao chất lượng hình ảnh (BDBR) Video [24] [25] [26] [27] [28] Bảng 2: Hiệu số thuật toán giảm thời gian xử lý cho chuẩn mã hóa video H.266/VVC Phương pháp ΔT (%) BDBR (%) ΔT/BDBR [14] 63.79 3.19 20.00 [15] 33.41 0.99 33.75 [16] 60.04 3.59 16.72 [18] 48.58 0.91 53.38 PeopleOnStreet N/A N/A -3.22 N/A N/A Kimono N/A N/A -4.35 N/A N/A ParkScene N/A N/A -7.10 N/A N/A PartyScene -4.3 -6.1 -6.23 -1.46 -3.91 RaceHorsesC -2.09 -4.2 -1.35 -1.68 -3.11 BasketballPass -5.61 -8.9 -6.23 -1.73 -4.59 BlowingBubbles -3.75 -7.0 -8.61 -0.8 -3.79 [19] 62.46 1.93 32.36 [20] 30.59 0.86 35.57 [22] 30.63 3.18 9.63 RaceHorsesD -4.2 -9.0 -3.84 -2.19 -4.9 [23] 34.27 0.49 69.94 Trung bình -3.99 -7.04 -5.12 -1.57 -4.06 Hiệu số thuật toán giảm thời gian mã hóa cho chuẩn H.266/VVC mơ tả Bảng Hình Trong ΔT cho biết thời gian mã hóa tiết kiệm phương pháp, số BDBR [30] cho biết lượng bit thay đổi so sánh với phương pháp tham chiếu mức chất lượng (BDBR > tức lượng bit cần cho q trình mã hóa tăng thêm) Tỉ lệ ΔT/BDBR giúp đánh giá hiệu thuật toán phương diện: thời gian tiết kiệm hiệu nén Tỉ lệ cao thuật tốn hiệu Hình 7: Đường cong RD số chuỗi video sử dụng thuật toán nâng cao chất lượng MFQE V Trong báo này, tiến hành khảo sát số nghiên cứu giúp cải thiện chuẩn mã hóa video Hình 6: Hiệu số thuật toán giảm thời gian xử lý cho chuẩn mã hóa video H.266/VVC ISBN 978-604-80-7468-5 KẾT LUẬN 419 Hội nghị Quốc gia lần thứ 25 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2022) [13] M Karczewicz et al., "VVC In-Loop Filters," in IEEE Transactions on Circuits and Systems for Video Technology, vol 31, no 10, pp 3907-3925, 2021 [14] T Li, M Xu, R Tang, Y Chen and Q Xing, "DeepQTMT: A Deep Learning Approach for Fast QTMT-Based CU Partition of Intra-Mode VVC," in IEEE Transactions on Image Processing, vol 30, pp 5377-5390, 2021 [15] G Tang, M Jing, X Zeng and Y Fan, "Adaptive CU Split Decision with Pooling-variable CNN for VVC Intra Encoding," 2019 IEEE Visual Communications and Image Processing (VCIP), 2019 [16] N Zouidi et al., "Complexity reduction of versatile video coding standard: a deep learning approach," Journal of Electronic Imaging, vol 30, no 2, 2021 [17] M Xu, T Li, Z Wang, X Deng, R Yang and Z Guan, "Reducing Complexity of HEVC: A Deep Learning Approach," in IEEE Transactions on Image Processing, vol 27, no 10, pp 5044-5059, 2018 [18] Q Zhang, Y Zhao, B Jiang, L Huang and T Wei, "Fast CU Partition Decision Method Based on Texture Characteristics for H.266/VVC," in IEEE Access, vol 8, pp 203516-203524, 2020 [19] H Yang et al., "Low-Complexity CTU Partition Structure Decision and Fast Intra Mode Decision for Versatile Video Coding," in IEEE Transactions on Circuits and Systems for Video Technology, vol 30, no 6, pp 1668-1682, 2020 [20] Y Chen et al., “A novel fast intra mode decision for versatile video coding,” in Journal of Visual Communication and Image Representation, vol 71, pp 102849-102859, 2020 [21] T Lin et al., “Intra mode prediction for H.266/FVC video coding based on convolutional neural network,” in Journal of Visual Communication and Image Representation, vol 71, pp 102686-102690, 2020 [22] Z Pan, P Zhang, B Peng, N Ling and J Lei, "A CNN-Based Fast Inter Coding Method for VVC," in IEEE Signal Processing Letters, vol 28, pp 1260-1264, 2021 [23] Z Pan et al., “Low complexity versatile video coding for traffic surveillance system,” in International Journal of Sensor Networks, vol 30, no 2, pp 116-125, 2019 [24] F Zhang, C Feng and D R Bull, "Enhancing VVC Through Cnn-Based Post-Processing" 2020 IEEE International Conference on Multimedia and Expo (ICME), 2020 [25] F Nasiri, W Hamidouche, L Morin, N Dhollande and G Cocherel, "A CNN-Based Prediction-Aware Quality Enhancement Framework for VVC," in IEEE Open Journal of Signal Processing, vol 2, pp 466-483, 2021 [26] Z Guan et al., "MFQE 2.0: A New Approach for Multi-Frame Quality Enhancement on Compressed Video," in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol 43, no 3, pp 949-963, March 2021 [27] X HoangVan and H -H Nguyen, "Enhancing Quality for VVC Compressed Videos with Multi-Frame Quality Enhancement Model," 2020 International Conference on Advanced Technologies for Communications (ATC), 2020 [28] Y Wang, Z Chen, Y Li, L Zhao, S Liu, and X Li, “Ce13: Dense residual convolutional neural network based in-loop filter (ce13-2.2 and ce13-2.3),” in the JVET meeting, no JVETN0254 ITU-T, ISO/IEC, 2019 [29] S Wan, M.-Z Wang, H Gong, C.-Y Zou, Y.-Z Ma, J.-Y Huo, Y.-F Yu, and Y Liu, “CE10: Integrated in-loop filter based on CNN (Tests 2.1, 2.2 and 2.3),” in the JVET meeting, no JVETO0079 ITU-T, ISO/IEC, 2019 [30] G Bjontegaard, “Calculation of average PSNR differences between RD curves,” document VCEG-M33, 13th ITU-T VCEG Meeting, VCEG, Austin, TX, USA, Apr 2000 H.266/VVC Các phương pháp khảo sát chủ yếu tập trung giải vấn đề giảm thời gian xử lý cho mã hóa H.266/VVC, cải thiện lọc và nâng cao chất lượng hình ảnh sau giải mã Bên cạnh phương pháp sử dụng phân tích, thống kê tốn học truyền thống, phương pháp sử dụng học sâu, học máy cho thấy hiệu cao ứng dụng việc giải vấn đề mã hóa video đại Những khảo sát phân tích nêu tiền đề, định hướng cho nghiên cứu tương lai VI LỜI CẢM ƠN Nghiên cứu tài trợ Quỹ Phát triển khoa học công nghệ Quốc gia (NAFOSTED) đề tài mã số 102.01-2020.15 TÀI LIỆU THAM KHẢO [1] T Wiegand, G.J Sullivan, G Bjontegaard, A Luthra, “Overview of the H.264/AVC video coding standard,” IEEE Trans Circuits Syst Video Technol., vol 13, no 7, pp 560– 576, 2003 [2] G.J Sullivan, et al., “Overview of the High Efficiency Video Coding (HEVC) Standard”, IEEE Transactions on Circuits and Systems for Video Technology, vol 22, no 12, pp 1649-1668, 2012 [3] B Bross et al., "Overview of the Versatile Video Coding (VVC) Standard and its Applications," in IEEE Transactions on Circuits and Systems for Video Technology, vol 31, no 10, pp 3736-3764, 2021 [4] N Ahmed, T Natarajan, and K Rao, “Discrete Cosine Transform,” in IEEE Transactions on Computers, vol C-23, no 1, pp 90–93, 1974 [5] M Budagavi, A Fuldseth, G Bjontegaard, V Sze, and M Sadafale, “Core Transform Design in the High Efficiency Video Coding (HEVC) Standard,” IEEE J Sel Topics Signal Process., pp 1029– 1041, Vol 7, No 6, Dec 2013 [6] V Britanak, P C Yip, and K R Rao, “Discrete Cosine and Sine Transforms: General Properties, Fast Algorithms and Integer Approximations,” Elsevier, Sep 2006 [7] R K Chivukula and Y A Reznik, “Fast Computing of Discrete Cosine and Sine Transforms of Types VI and VII,” in Proc SPIE 8135, Applications of Digital Image Processing XXXIV, pp 1–10, No 813505, Sep 2011 [8] Y A Reznik, “Relationship between DCT-II, DCT-VI, and DST-VII transforms,” in Proc 2013 IEEE International Conference on Acoustics, Speech and Signal Processing, pp 5642–5646, May 2013 [9] X Zhao et al., "Transform Coding in the VVC Standard," in IEEE Transactions on Circuits and Systems for Video Technology, vol 31, no 10, pp 3878-3890, 2021 [10] H Schwarz et al., "Quantization and Entropy Coding in the Versatile Video Coding (VVC) Standard," in IEEE Transactions on Circuits and Systems for Video Technology, vol 31, no 10, pp 3891-3906, Oct 2021 [11] J Pfaff et al., "Intra Prediction and Mode Coding in VVC," in IEEE Transactions on Circuits and Systems for Video Technology, vol 31, no 10, pp 3834-3847, 2021 [12] L Zhang, K Zhang, H Liu, H C Chuang, Y Wang, J Xu, P Zhao, D Hong, “History-based Motion Vector Prediction in Versatile Video Coding”, Data Compression Conference (DCC), 2019 ISBN 978-604-80-7468-5 420 ... phép mã hóa video khả chuyển (Scalable Vdeo Coding) , mã hóa video 360o,… Hình mơ tả kiến trúc tổng quan mã hóa H.266/VVC Tương tự với mơ hình mã hóa video đại, VVC sử dụng kiến trúc mã hóa lai... khác biệt mã hóa mã hóa số học, nhị phân tương thích ngữ cảnh CABAC (Context Adaptive Binary Arithmetic Coding) [10] III CÁC THUẬT TỐN CẢI THIỆN CHUẨN MÃ HĨA VIDEO H.266/VVC B Cải thiện mơ hình... MFQE V Trong báo này, tiến hành khảo sát số nghiên cứu giúp cải thiện chuẩn mã hóa video Hình 6: Hiệu số thuật toán giảm thời gian xử lý cho chuẩn mã hóa video H.266/VVC ISBN 978-604-80-7468-5

Ngày đăng: 31/12/2022, 13:36