Bài viết đề xuất phương pháp sử dụng mạng Nơ-ron để dự đoán kích thước cửa sổ tìm kiếm cho thuật toán ước lượng chuyển động trong thuật toán tạo thông tin phụ trợ tương ứng với đặc tính của chuỗi video. Các kết quả mô phỏng cho thấy hiệu năng của bộ mã hóa video phân tán được cải thiện đáng kể khi sử dụng phương pháp này.
Nguyễn Thị Hương Thảo, Vũ Hữu Tiến ỨNG DỤNG MẠNG NƠ-RON TRONG KỸ THUẬT TẠO THÔNG TIN PHỤ TRỢ CHO MÃ HÓA VIDEO PHÂN TÁN Nguyễn Thị Hương Thảo, Vũ Hữu Tiến Học viện Cơng nghệ Bưu Viễn thơng Tóm tắt: Mã hóa video phân tán (DVC) giải pháp đầy tiềm cho ứng dụng đường lên mạng giám sát video không dây hay mạng cảm biến đa phương tiện Trong mã hóa video phân tán, chất lượng thơng tin phụ trợ (SI) có ảnh hưởng quan trọng đến hiệu tốc độ bit-chất lượng khung hình sau giải mã (RD) hệ thống Tuy nhiên, chất lượng thông tin phụ trợ thay đổi theo chuỗi chí khung hình Vì vậy, để cải thiện thông tin phụ trợ, kỹ thuật tạo thơng tin phụ trợ thích ứng với nội dung chuyển động chuỗi video đề xuất báo Cụ thể, báo đề xuất phương pháp sử dụng mạng Nơ-ron để dự đốn kích thước cửa sổ tìm kiếm cho thuật tốn ước lượng chuyển động thuật tốn tạo thơng tin phụ trợ tương ứng với đặc tính chuỗi video Các kết mơ cho thấy hiệu mã hóa video phân tán cải thiện đáng kể sử dụng phương pháp Từ khóa: Video phân tán, thơng tin phụ trợ I GIỚI THIỆU Trong chuẩn mã hóa video truyền thống H.264/AVC hay HEVC [1][2], nhiệm vụ ước lượng bù chuyển động đầy phức tạp thực mã hóa Do hệ thống mã hóa video truyền thống, mã hóa phức tạp giải mã đơn giản Kiến trúc phù hợp cho hầu hết ứng dụng kiểu đường xuống mà liệu mã hóa lần giải mã hàng triệu lần giải mã Tuy nhiên, gần nhiều thứ thay đổi Nhiều ứng dụng đường lên mạng camera không dây xuất Dữ liệu video tạo xử lý thiết bị đa phương tiện hạn chế Trong ứng dụng này, mã hóa u cầu có độ phức tạp thấp chuẩn mã hóa video truyền thống khơng phù hợp Một giải pháp thay đầy tiềm mã hóa video phân tán (DVC) Nền tảng DVC mã hóa nguồn phân tán Mã hóa nguồn phân tán xây dựng hai định lý lý thuyết thông tin: định lý Slepian-Wolf [3] định lý Wyner-Ziv [4] Định lý Slepian-Wolf phát biểu hai tín hiệu phụ thuộc thống kê với mã hóa độc lập giải mã kết hợp tốc độ bit đạt tương tự hệ thống mã hóa giải mã kết hợp Định lý Wyner-Ziv mở rộng định lý Slepian-Wolf trường hợp nén có tổn thất Dựa cách tiếp cận này, nhiệm vụ ước lượng chuyển động phức tạp dịch chuyển từ mã hóa sang giải mã Dựa kết lý thuyết này, kiến trúc DVC thực tế đề xuất lên hai kiến trúc kiến trúc DVC Berkeley [5] kiến trúc DVC Stanford [6] Tuy nhiên, mã hóa DISCOVER [7] phát triển từ kiến trúc Stanford coi mã hóa DVC tham chiếu chuẩn Trong mã hóa DISCOVER, chuỗi video chia tách thành khung hình (KF) khung hình Wyner-Ziv (WZF) Trong KF mã hóa sử dụng giải pháp mã hóa video truyền thống H.264/AVC Intra hay HEVC Intra Các WZF mã hóa theo nguyên tắc mã hóa video phân tán sau Đầu tiên, biến đổi DCT dựa khối áp dụng cho WZF Sau biến đổi, hệ số DCT tồn WZF nhóm lại với nhau, tạo thành dải hệ số DCT Các dải tách thành mặt phẳng bit mặt phẳng bit đưa tới mã hóa kênh để tạo bit chẵn lẻ Sau đó, bit chẵn lẻ gửi tới giải mã theo cụm bit hệ thống loại bỏ Tại giải mã, thông tin phụ trợ, phiên nhiễu WZF, tạo cách sử dụng KF giải mã trước Bộ giải mã sử dụng bit chẵn lẻ để “sửa” sai lỗi thông tin phụ trợ cuối cùng, WZF ban đầu tái tạo Rõ ràng, SI có ảnh hưởng lớn đến hiệu RD DVC Nếu SI tạo giống với WZF, mã hóa phải gửi bit tới giải mã để sửa sai cho SI vậy, tốc độ bit giảm với chất lượng Đó lý nghiên cứu tạo SI chiếm phần lớn nghiên cứu DVC SI thường tạo cách nội suy ngoại suy khung hình tham chiếu Các phương pháp nội suy sử dụng KF giải mã trước sau phương pháp ngoại suy sử dụng KF giải mã trước Các kết mô cho thấy kỹ thuật tạo SI dựa nội suy thường cho SI chất lượng tốt độ trễ cao so với kỹ thuật tạo SI dựa ngoại suy Tuy nhiên, phương pháp thường cho kết không tốt khung hình tham chiếu cách xa trường hợp đặc tính chuyển động chuỗi video nhanh bất thường Trong nghiên cứu thời kỳ đầu [6], SI đơn giản tạo cách lấy trung bình KF giải mã trước Tuy nhiên, chất lượng SI khơng tốt khơng tính đến thơng tin chuyển động q trình tạo SI Sau đó, phương pháp tạo SI cải tiến đề xuất so sánh Tác giả liên hệ: Nguyễn Thị Hương Thảo Email: thaontth@ptit.edu.vn Đến tòa soạn: 9/2020, chỉnh sửa:10/2020 , chấp nhận đăng: 10/2020 SOÁ 03 (CS.01) 2020 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ỨNG DỤNG MẠNG NƠ-RON TRONG KỸ THUẬT TẠO THÔNG TIN PHỤ TRỢ… [8] Năm 2005, Ascenso cộng phát triển phương pháp nội suy thời gian bù chuyển động (MCTI) [9] với giải thuật làm mịn chuyển động để tạo SI Phương pháp sử dụng rộng rãi nghiên cứu DVC chấp nhận sử dụng báo Một cách tiếp cân khác lọc SI ban đầu số lần, thường sau giải mã mặt phẳng bit dải hệ số [10][11] Đề xuất [10] lọc KF lân cận để lấy vector chuyển động đề xuất [11] tìm kiếm ứng viên SI cửa sổ cho trước SI ban đầu Các giải pháp tạo SI dựa lọc liên tục thường cho SI cuối có chất lượng tốt có nhược điểm lớn độ phức tạp giải mã tăng lên Biến đổi DCT: Mỗi WZF chia thành khối không chồng có kích thước × biến đổi DCT áp dụng cho khối để tạo thành hệ số DCT tương ứng với pixel khối Bởi nội dung chuyển động thay đổi theo dọc chuỗi, cần tính đến q trình tạo SI Điều giúp tạo SI với chất lượng tốt Vì vậy, mục đích báo đề xuất phương pháp tạo SI thích ứng theo nội dung chuỗi video SI ban đầu tạo cách sử dụng khung hình tham chiếu trước sau tương tự cách tạo SI mã hóa DISCOVER Tuy nhiên, vùng tìm kiếm bước ước lượng chuyển động điều chỉnh tùy theo nội dung chuyển động chuỗi video Đối với đoạn chuyển động nhanh phức tạp, khó để tạo SI xác Do đó, SI cần ước lượng chuyển động dải tìm kiếm rộng để đạt chất lượng tốt Ngược lại, vùng chuyển động chậm, dễ dự đoán SI SI cần tìm kiếm vùng tìm kiếm nhỏ Bài báo đề xuất phương pháp để lựa chọn vùng tìm kiếm phù hợp cho đoạn video dựa kỹ thuật học máy Để đánh giá đề xuất này, thử nghiệm thực mã hóa DISCOVER với KF mã hóa sử dụng chuẩn HEVC Intra Bộ mã hóa LDPCA: Mỗi mặt phẳng bit đưa vào mã hóa LDPCA để tạo bit chẵn lẻ tương ứng Các bit chẵn lẻ lưu đệm khung hình bit hệ thống bị loại bỏ Các bit chẵn lẻ truyền tới giải mã theo cụm tùy theo yêu cầu từ giải mã Lượng tử hóa: Để giảm tốc độ bit, hệ số DCT lượng tử hóa Các hệ số DCT nhóm thành 16 dải hệ số 𝑏𝑘 (𝑘 = ̅̅̅̅̅̅ 0; 15) dải hệ số gồm hệ số có vị trí khối khác Các dải DCT lượng tử đồng với lượng tử 2𝑀𝑘 𝑀𝑘 số bit biểu diễn cho hệ số DCT dải hệ số 𝑏𝑘 Các ma trận lượng tử chọn tương ứng với mức tốc độ bit khác [7] B Quá trình giải mã Tại giải mã, KF giải mã giải mã HEVC Intra WZF giải mã với trợ giúp KF Tạo thông tin phụ trợ: Khối nội suy thời gian bù chuyển động tạo thông tin phụ trợ, ước lượng WZF mã hóa, cách sử dụng KF giải mã trước sau [9] Trong mơ-đun này, hai khung hình tham chiếu lọc thông thấp để giảm nhiễu cho q trình ước lượng chuyển động Sau thực ước lượng chuyển động trước để có vector chuyển động trước Tiếp đó, ước lượng chuyển động song hướng lọc vector chuyển động thu bước trước với ràng buộc phép chiếu tuyến tính khung hình tham chiếu trước sau Để cải thiện độ mượt khơng gian, lọc trung vị có trọng số sử dụng Cuối cùng, bù chuyển động song hướng thực để tạo thông tin phụ trợ, ước lượng WZF tương ứng Bài báo tổ chức sau: Phần II giới thiệu kisn trúc mã hóa video WZ miền biến đổi Phần III mô tả giải pháp đề xuất phần IV thảo luận hiệu RD đề xuất so sánh với nghiên cứu liên quan Cuối cùng, phần V giới thiệu kết luận hướng nghiên cứu Mơ hình nhiễu tương quan: Thống kê dư thừa hệ số DCT WZF gốc khung hình SI tương ứng giả định tuân theo phân bố Laplace sau: 𝛼 (1) 𝑓𝑋/𝑦 (𝑥) = 𝑒 −𝛼|𝑥−𝑦| 𝑓𝑋/𝑦 hàm mật độ xác suất 𝑋 với 𝑦 cho trước 𝛼 tham số phân bố Laplace xác định công thức sau: II KIẾN TRÚC MÃ HÓA VIDEO WZ MIỀN BIẾN ĐỔI Phần giới thiệu mã hóa WZ miền biến đổi với tên gọi DVC-HEVC Khác với mã hóa DISCOVER gốc [7], KF mã hóa mã hóa mã hóa HEVC-Intra Vì có tên gọi DVC-HEVC mơ tả Hình WZF giải mã Mặt phẳng bit WZF Biến đổi DCT Bộ lượng tử đồng Bộ mã hóa LDPCA Bộ đệm Bộ giải mã LDPCA Tái tạo IDCT 𝛼=√ Kênh phản hồi Mơ hình hóa nhiễu tương quan Bộ đệm khung hình Bộ mã hóa HEVC Intra KF giải mã Bộ giải mã HEVC Intra Hình Kiến trúc mã hóa DVC-HEVC A Q trình mã hóa Chuỗi video đầu vào phân tách thành KF 𝑋2𝑡−1 WZF 𝑋2𝑡 Các KF mã hóa mã hóa HEVC Intra WZF mã hóa theo nguyên tắc phân tán sau: SỐ 03 (CS.01) 2020 (2) Trong cơng thức (2), 𝜎 phương sai dư thừa khung hình WZF gốc khung hình SI tương ứng Trong mã hóa sử dụng báo này, tham số 𝛼 phân bố Laplace ước lượng trực tuyến giải mã mức dải hệ số DCT Tạo SI KF 𝜎2 Bộ giải mã LDPCA: Khi có hệ số DCT khung hình SI nhiễu tương quan dải hệ số DCT, mặt phẳng bit dải hệ số 𝑏𝑘 giải mã LDPCA với hỗ trợ bit chẵn lẻ gửi từ mã hóa thơng qua kênh phản hồi Để định có cần gửi thêm bit chẵn lẻ để giải mã thành cơng cho mặt phẳng bit đó, tiêu chí dừng yêu cầu sử dụng Để phát sửa lỗi lại mặt phẳng bit, tổng kiểm tra dư thừa vịng (CRC) tính cho mặt TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 10 Nguyễn Thị Hương Thảo, Vũ Hữu Tiến phẳng bit mã hóa gửi tới giải mã Bộ giải mã tính CRC tương ứng cho mặt phẳng bit giải mã LDPCA thành công so sánh với CRC nhận từ mã hóa để đảm bảo loại bỏ xác suất lỗi cho mặt phẳng bit giải mã Sau mặt phẳng bit giải mã LDPCA thành cơng, mặt phẳng bit cịn lại dải hệ số xử lý cách tương tự Tái tạo: Các mặt phẳng bit giải mã LDPCA với khung hình SI thống kê dư thừa cho dải hệ số DCT sử dụng để tái tạo lại hệ số DCT ban đầu Giá trị tái tạo cho hệ số DCT dải hệ số DCT cho [12]: 𝑢 𝑥 ′ = 𝐸[𝑥|𝑞 ′ , 𝑦] = ∫𝑙 𝑥𝑓𝑋/𝑦 (𝑥|𝑦)𝑑𝑥 (3) 𝑢 ∫𝑙 𝑓𝑋/𝑦 (𝑥|𝑦)𝑑𝑥 𝑥′ hệ số DCT tái tạo, 𝑦 hệ số DCT tương ứng WZF 𝐸[ ] toán tử kỳ vọng 𝑙, 𝑢 biên tương ứng 𝑞′ Biến đổi DCT ngược (IDCT): Cuối cùng, hệ số DCT tái tạo biến đổi DCT ngược để nhận khung hình miền pixel thước cửa sổ lớn làm tăng thời gian tìm kiếm, kích thước nhỏ ước lượng chuyển động khơng xác Vì vậy, báo này, phương pháp ước lượng vector chuyển động thích ứng với nội dung video dựa mạng Nơ-ron đề xuất (ME-NN) Cụ thể, để phân loại mức độ chuyển động khung hình, mạng ME-NN sử dụng để dự đốn kích thước cửa sổ tìm kiếm cho ước lượng chuyển động dựa đặc tính khung hình Kiến trúc mạng Nơ-ron mơ tả chi tiết phần A Kiến trúc mạng ME-NN Trong nghiên cứu này, kiến trúc mạng NN sử dụng để ước lượng kích thước cửa số tìm kiếm (ME-NN) có lớp bao gồm lớp đầu vào, lớp ẩn lớp đầu mơ tả hình Lớp đầu vào nhận giá trị X1, X2, X3, X4, X5 tương ứng với đặc trưng khung hình bao gồm MAD, giá trị lớn nhất, nhỏ nhất, giá trị trung bình phương sai hệ số DCT băng DC ba băng ba hệ số AC khối hình kích thước 4x4 khung hình Trong lớp ẩn, hàm kích hoạt sigmoid sử dụng nút mạng Tại lớp đầu ra, hàm softmax sử dụng để định kích thước cửa sổ tìm kiếm cho thuật tốn MCTI III PHƯƠNG PHÁP ĐỀ XUẤT WZF DCT Lượng tử hóa Bitplanes Mã hóa LDPCA Bộ đệm Giải mã LDPCA Tái tạo khung hình WZ WZ giải mã IDCT X1 8x8 Kênh phản hồi X2 Mơ hình nhiễu tương quan 16 x 16 DCT X3 Lọc SI MCTI KF Mã hóa HEVC Intra 32 x 32 X4 ME-NM KFs giải mã Giải mã HEVC Intra X5 Hình Kiến trúc mã hóa ME-NN-MCTI-HEVC Hình mơ tả mã hóa video miền biến đối dựa cấu trúc mã hóa WZ đề cập mục II Thông tin phụ trợ tạo cách sử dụng khung hình giải mã trước Chính vậy, đặc tính chuyển động khung hình ảnh hưởng trực tiếp tới chất lượng khung hình phụ trợ Cụ thể, khung hình có chuyển động chậm, tức độ tương quan khung hình lớn dẫn đến chất lượng khung hình SI cao Ngược lại, khung hình có chuyển động nhanh dẫn đến chất lượng SI bị suy giảm Để đảm bảo chất lượng khung hình SI trường hợp chuyển động nhanh, phương pháp tạo khung hình SI thích ứng với nội dung video đề xuất Cụ thể, để tạo khung hình SI từ hai khung hình chính, thuật tốn MCTI sử dụng để nội suy khung hình SI dựa kỹ thuật ước lượng chuyển động bù chuyển động song hướng Trong kỹ thuật MCTI, ước lượng chuyển động bước quan trọng nhằm xác định vector chuyển động Sau đó, khối bù chuyển động song hướng dựa vào vector chuyển động để tạo khung hình SI Như vậy, việc ước lượng chuyển động xác khung hình SI giống với khung hình WZ Trong mã hóa video truyền thống, ước lượng chuyển động cho khối hình thực thơng qua việc tìm kiếm cửa sổ tìm kiếm khung hình tham chiếu cửa sổ có kích thước cố định Kích thước cửa sổ tìm kiếm có ảnh hưởng trực tiếp tới hiệu việc giải mã Nếu kích SỐ 03 (CS.01) 2020 Lớp đầu vào Lớp ẩn Lớp ẩn Lớp đầu Hình Mơ hình mạng ME-NN B Q trình huấn luyện Để huấn luyện mơ hình, tập liệu huấn luyện trích chọn từ 10 chuỗi video Coastguard, Hall-Monitor, News, Container, Flower Garden, Mobile, Mother, Claire, Grandma Harbour với độ phân giả 176x144 (QCIF), số lượng khung hình chuỗi 300 tốc độ khung hình 15 khung hình/giây Đây chuỗi có nội dung đa dạng bao gồm chuyển động chậm, chuyển động nhanh, nội dung đơn giản, nội dung phức tạp Để lấy đặc trưng khung hình chuỗi trên, khung hình mã hóa lần mã hóa DVC với cửa sổ tìm kiếm có kích thước 8x8, 16x16 32x32 Một ba kích thước cửa sổ tìm kiếm cho hiệu nén cao chọn làm nhãn cho tập tham số khung hình Mơ hình ME-NN huấn luyện tảng Google Colaboratory [12] với số epoch 1000, batch-size 10 Mơ hình mạng ME-NN sau huấn luyện sử dụng thuật toán MCTI để tạo khung hình SI sau: Bước 1: Tính khung hình sai khác khung hình TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THOÂNG 11 ỨNG DỤNG MẠNG NƠ-RON TRONG KỸ THUẬT TẠO THƠNG TIN PHỤ TRỢ… Bước 2: Tính giá trị MAD, giá trị lớn nhất, nhỏ nhất, giá trị trung bình phương sai hệ số DCT băng DC ba băng ba hệ số AC khối hình kích thước 4x4 khung hình sai khác bước Bước 3: Các đặc trưng Bước đầu vào mơ hình ME-NN Mơ hình định kích thước cửa sổ tìm kiếm tương ứng với đặc trưng đầu vào Bước 4: Với kích thước cửa sổ tìm kiếm Bước 2, thuật tốn MCTI sử dụng để tạo khung hình SI từ hai khung hình Bốn giai đoạn MCTI bao gồm: Ước lượng chuyển động hướng tiến, ước lượng chuyển động song hướng, lọc không gian bù chuyển động song hướng IV ĐIỀU KIỆN THỬ NGHIỆM VÀ PHÂN TÍCH KẾT QUẢ A Điều kiện thử nghiệm Để đánh giá hiệu giải pháp tạo thông tin phụ trợ đề xuất so với phương pháp khác, bốn chuỗi video sau sử dụng Akiyo, Carphone, Foreman Coastguard với đặc điểm mô tả Bảng I Bốn cặp giá trị (tốc độ bit (Rate), độ méo (Distortion)) hay gọi điểm RD đo tương ứng với ma trận lượng tử kích thước 4x4 Các phần tử ma trận giá trị lượng tử tương ứng cho hệ số giá trị DCT khối hình Khi giá trị lượng tử tăng tốc độ bit chất lượng tăng Để cải thiện chất lượng video phía giải mã, khung hình mã hóa mã hóa H.265/HEVC chế độ Intra Bảng I Chuỗi Video Carphone Foreman Akiyo Coastguard Điều kiện thử nghiệm Độ phân giải 176x144 Số khung hình 300 Tham số lượng tử {25,29,34,40} {25,29,34,40} {25,29,34,40} {26,30,34,38} Bảng III NN-MCTI-HEVC MAD-MCTI-HEVC với phương pháp MCTI-HEVC theo BD-PSNR Chuỗi Video MAD-MCTIHEVC ME-NN-MCTIHEVC Carphone Foreman Akiyo Coastguard Trung bình 1.54 0.19 1.88 0.04 0.91 1.76 0.53 2.36 0.72 1.34 Bảng IV So sánh hiệu RD phương pháp đề xuất ME-NN-MCTI-H.264 MAD-MCTI-H.264 với phương pháp MCTI-H.264 theo BD-Rate Chuỗi Video MAD-MCTIH.264 ME-NN-MCTIH.264 Carphone Foreman Akiyo Coastguard Trung bình -20.59 -3.58 -25.24 -0.65 -12.51 -22.64 -7.60 -27.16 -2.89 -15.07 Bảng V So sánh hiệu RD phương pháp đề xuất ME-NN-MCTI-H.264 MAD-MCTI-H.264 với phương pháp MCTI-H.264 theo BD-PSNR Chuỗi Video MAD-MCTIH.264 ME-NN-MCTIH.264 Carphone Foreman Akiyo Coastguard Trung bình 1.36 0.24 1.96 0.04 0.9 1.48 0.50 2.13 0.16 1.07 Tại điểm RD, tốc độ bit giá trị PSNR tính cho thành phần chói khung hình Các kết phương pháp đề xuất với tên gọi NN-based-MCTI mơ hai mã hóa DVC-HEVC DVC-H.264 so sánh với số phương pháp trước bao gồm: (1) Phương pháp sử dụng cửa sổ tìm kiếm thích ứng theo giá trị MAD-MCTI [13], (2) Phương pháp MCTI với cửa sổ tìm kiếm có kích thước cố định Để đánh giá hiệu phương pháp, giá trị Bjontegaard sử dụng để đo độ khác biệt đường RD phương pháp B Kết Bảng II So sánh hiệu RD phương pháp đề xuất MENN-MCTI-HEVC MAD-MCTI-HEVC với phương pháp MCTI-HEVC theo BD-Rate Chuỗi Video MAD-MCTIHEVC ME-NN-MCTIHEVC Carphone Foreman Akiyo Coastguard Trung bình -21.44 -2.89 -24.00 -0.66 -12.25 -24.37 -7.89 -29.52 -11.56 -18.33 SOÁ 03 (CS.01) 2020 Hình So sánh hiệu RD phương pháp đề xuất với chuỗi Carphone TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 12 Nguyễn Thị Hương Thảo, Vũ Hữu Tiến video để dự đốn kích thước cửa sổ tìm kiếm vector chuyển động thuật tốn MCTI Từ giải mã tiết kiệm số bit mã hóa đồng thời tăng chất lượng thông tin phụ trợ SI, giúp cải thiện chất lượng khung hình video sau giải mã Hình So sánh hiệu RD phương pháp đề xuất với chuỗi Foreman Hình So sánh hiệu RD phương pháp đề xuất với chuỗi Coastguard V KẾT LUẬN Bài báo đề xuất phương pháp tăng cường chất lượng khung hình phụ trợ SI mã hóa video phân tán DVC Cụ thể, phương pháp đề xuất sử dụng mạng Nơron với đầu vào đặc trưng chuỗi video đầu kích thước cửa sổ tìm kiếm thuật tốn MCTI để tạo khung hình SI từ hai khung hình Các kết mơ cho thấy phương pháp đề xuất đạt kết cao số phương pháp trước phương diện tiết kiệm nhiều số lượng bit dùng mã hóa đồng thời chất lượng khung hình sau giải mã tăng lên Hình So sánh hiệu RD phương pháp đề xuất với chuỗi Akiyo Bảng II, III, IV V mô tả mức độ cải thiện hiệu (trên phương diện tốc độ bit chất lượng khung hình sau giải nén) phương pháp đề xuất so với phương pháp đề xuất trước MAD-MCTI [13] phương pháp sử dụng kỹ thuật MCTI với kích thước cửa sổ tìm kiếm cố định Kết mơ với mã hóa sử dụng HEVC, phương pháp MAD-MCTI-HEVC tiết kiệm trung bình 12.25% tổng số bit, phương pháp MENN-MCTI-HEVC tiết kiệm 18.33% tổng số bit so với phương pháp MCTI-HEVC Tương tự, khung hình mã hóa mã hóa H.264 từ phương pháp MAD-MCTI-H.264 tiết kiệm 12.51% ME-NNMCTI-H.264 tiết kiệm tới 15.07% Xét phương diện chất lượng video sau giải mã, phương pháp MAD-MCTI HEVC H.264 cải thiện 0.9dB 0.91dB ME-NN-MCTI cải thiện 1.34dB 1.07dB Hình 4, 5, 6, so sánh hiệu RD phương pháp triển khai mã hóa DVC-HEVC DVCH.264 bốn giá trị lượng tử Từ kết mô ta nhận thấy phương pháp đề xuất ME-NN-MCTI có hiệu cao so với phương pháp trước hai trường hợp sử dụng HEVC H.264 để mã hóa khung hình Kết có phương pháp đề xuất sử dụng mạng Nơ-ron dựa đặc trưng chuỗi SOÁ 03 (CS.01) 2020 LỜI CẢM ƠN Nghiên cứu tài trợ Học Viện Cơng nghệ Bưu Viễn thơng đề tài mã số 07-2020-HVĐPT-CN 03-HV-2020-ĐT1 TÀI LIỆU THAM KHẢO [1] P.L Dragotti and M Gastpar, “Distributed Source Coding: Theory, Algorithms and Applications,” Academic Press, Feb 2009 [2] X HoangVan, J Ascenso, and F Pereira, “HEVC backward compatible scalability: A low encoding complexity distributed video coding based approach,” Signal Process.: Image Commun., vol 33, no 4, pp 51-70, Apr 2015 [3] X HoangVan, J Ascenso, and F Pereira., “Adaptive Scalable Video Coding: a HEVC based Framework Combining the Predictive and Distributed Paradigms”, IEEE TCSVT, vol 99, no 00, pp 1-14, Mar 2016 [4] A Aaron, R Thang, and B Girod (2002) “Wyner-Ziv Coding of Motion Video”, in Proc Asilomar Conference on Signals and Systems, Pacific Grove, CA, USA, November 2002 [5] J Ascenso, C Brites, and F Pereira, Improving Frame Interpolation with Spatial Motion Smoothing for Pixel Domain Distributed Video Coding”in EURASIP Conference on Speech and Image Processing, Multimedia TAÏP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 13 ỨNG DỤNG MẠNG NƠ-RON TRONG KỸ THUẬT TẠO THÔNG TIN PHỤ TRỢ… Communications and Services (EC-SIPMCS), Smolenice, Slovak Republic, June 2005 [6] J Ascenso, C Brites, and F Pereira, “Motion Compensated Refinement for Low Complexity Pixel based Distributed Video Coding,” in IEEE Conference on Advanced Video and Signal Based Surveillance (AVSS), Como, Italy, September 2005 [7] R Puri and K Ramchandran, PRISM: A new robust video coding architecture based on distributed compression principles, 40th Allerton Conf Communication, Control and Computing, Allerton, IL, USA, 2002 [8] R Puri, A Majumdar, and K Ramchandran, “PRISM: a video coding paradigm with motion estimation at the decoder,” IEEE Transactions on Image Processing, vol 16, no 10, pp 2436-2448, Oct 2007 [9] T Wiegand, G J Sullivan, S Member, G Bjøntegaard, A Luthra, and S Member, “Overview of the H.264/AVC Video Coding Standard,” IEEE Trans Circuits Syst Video Technol., vol 13, no 7, pp 560–576, 2003 [10] D Slepian, J K Wolf, and D Slepian, “Noiseless Coding of Correlated Information Sources,” IEEE Trans Inf Theory, vol 19, no 4, pp 471–480, 1973, doi: 10.1109/TIT.1973.1055037 Nguyễn Thị Hương Thảo, Nhận tốt nghiệp đại học thạc sỹ Học viện Cơng nghệ Bưu Viễn thông vào năm 2003 2010 Hiện giảng dạy làm Nghiên cứu sinh Khoa Kỹ thuật Điện tử - Học viện Cơng nghệ Bưu Viễn thơng Lĩnh vực nghiên cứu: Xử lý tín hiệu Video, Xử lý Ảnh, Lý thuyết thông tin Vũ Hữu Tiến, Tốt nghiệp đại học cao học ngành Điện tử Viễn thông vào năm 2002, 2004 Đại học Bách khoa Hà nội Năm 2010 nhận Tiến sĩ Đại học Chulalongkorn (Thái Lan) ngành Điện tử Viễn thông Hiện công tác Khoa Đa phương tiện, Học viện Cơng nghệ Bưu Viễn thơng Lĩnh vực nghiên cứu nay: Xử lý tín hiệu truyền thông đa phương tiện, Phát triển ứng dụng đa phương tiện [11] A Wyner and J.Ziv, “The Rate-Distortion Function for Source Coding with Side Information at the Decoder,” IEEE Trans Inf Theory., vol 22, no 1, pp 1–10, 1976 [12] Google, Colaboratory: frequently asked questions, 2018, [Access: 6-21-2018] [Online] Available: https://research.google.com/colaboratory/fag.html [13] T Nguyen, T Huong, T V Huu and S Vu Van, "Content based side information creation for distributed video coding," 2019 6th NAFOSTED Conference on Information and Computer Science (NICS), Hanoi, Vietnam, 2019, pp 223-227, doi: 10.1109/NICS48868.2019.9023813 NEURAL NETWORK BASED SIDE INFORMATION GENERATION IN DISTRIBUTED VIDEO CODING Abstract: Distributed Video Encoding (DVC) is a potential solution for uplink applications such as wireless video surveillance networks or multimedia sensor networks In distributed video encoding, the quality of the side information (SI) has a significant effect on the bitdistortion (RD) performance However, the quality of the side information varies in video sequence and even in every frame Therefore, to improve the side information, the technique of creating side information adapted to the content of the video sequence is proposed in this article Specifically, the paper proposes a method to use neural networks to predict the search window size for motion estimation algorithm in the algorithm of side information generation The simulation results show that the performance of the distributed video codec is significantly improved using this method Keyword: DVC, Wyner-Ziv Coding SỐ 03 (CS.01) 2020 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 14 ... Distributed Video Coding”in EURASIP Conference on Speech and Image Processing, Multimedia TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 13 ỨNG DỤNG MẠNG NƠ -RON TRONG KỸ THUẬT TẠO THÔNG TIN PHỤ TRỢ….. .ỨNG DỤNG MẠNG NƠ -RON TRONG KỸ THUẬT TẠO THÔNG TIN PHỤ TRỢ… [8] Năm 2005, Ascenso cộng phát triển phương pháp nội suy thời gian bù chuyển động (MCTI) [9] với giải thuật làm mịn chuyển... DVC-HEVC A Q trình mã hóa Chuỗi video đầu vào phân tách thành KF