Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 72 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
72
Dung lượng
2,59 MB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - NGUYỄN QUANG HUY NGHIÊN CỨU VÀ ĐÁNH GIÁ MỘT SỐ THUẬT TOÁN ƯỚC LƯỢNG CHUYỂN ĐỘNG TRONG MÃ HÓA VIDEO LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) HÀ NỘI - 2021 download by : skknchat@gmail.com HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THƠNG - NGUYỄN QUANG HUY NGHIÊN CỨU VÀ ĐÁNH GIÁ MỘT SỐ THUẬT TOÁN ƯỚC LƯỢNG CHUYỂN ĐỘNG TRONG MÃ HÓA VIDEO CHUYÊN NGÀNH : KỸ THUẬT VIỄN THÔNG MÃ SỐ: LUẬN VĂN THẠC SĨ KỸ THUẬT (KỸ THUẬT VIỄN THÔNG) NGƯỜI HƯỚNG DẪN KHOA HỌC: TS VŨ HỮU TIẾN download by : skknchat@gmail.com LỜI CAM ĐOAN Tơi cam đoan cơng trình nghiên cứu riêng Các số liệu, kết mô nêu luận văn trung thực chưa cơng bố cơng trình khác Hà Nội, tháng 12 năm 2021 Tác giả luận văn Nguyễn Quang Huy download by : skknchat@gmail.com LỜI CẢM ƠN Để hồn thành luận văn lời tơi xin tỏ lòng biết ơn sâu sắc đến TS.Vũ Hữu Tiến tận tình hướng dẫn bảo suốt q trình thực Tơi chân thành cảm ơn Thầy, Cô khoa Đào Tạo Sau Đại Học, Học viện Cơng nghệ Bưu Viễn thơng Hà Nội tận tình giúp đỡ tơi q trình hai năm học tập nghiên cứu Cuối cùng, xin gửi lời cảm ơn tới gia đình, bạn bè, anh chị học viên người bên cổ vũ tinh thần, tạo điều kiện thuận lợi cho em để em học tập tốt hoàn thiện luận văn Hà Nội, ngày tháng 12 năm 2021 Nguyễn Quang Huy download by : skknchat@gmail.com i MỤC LỤC MỞ ĐẦU CHƯƠNG I: TỔNG QUAN VỀ MÃ HÓA VIDEO 1.1 Tổng quan 1.2 Nguyên tắc mã hóa video 1.2.1 Kỹ thuật giảm dư thừa thông tin miền không gian 1.2.2 Kỹ thuật giảm dư thừa thông tin miền thời gian .7 1.2.3 Sơ đồ tổng quát mã hóa video 11 1.3 Giải mã hóa video 14 1.4 Các tiêu chuẩn cho mã hóa tín hiệu video .15 1.5 Kết luận chương .17 CHƯƠNG II: NGHIÊN CỨU CÁC THUẬT TOÁN ƯỚC LƯỢNG CHUYỂN ĐỘNG TRONG MÃ HÓA VIDEO 19 2.1 Thuật tốn tìm kiếm theo khối BMA (Block Matching Algorithm) 19 2.1.1 Thuật tốn tìm kiếm đầy đủ FSA (Full Search Algorithm) .22 2.1.2 Thuật tốn tìm kiếm nhanh (Fast Search Algorithm) .23 2.2 Thuật tốn tìm kiếm ba bước TSS (Three-step search algorithm) 24 2.3 Thuật toán Diamond Search 28 2.4 Thuật toán TZ search .30 2.5 Thuật toán OTA (One-at-a-time Search Algorithm) 37 2.6 Kết Luận chương .40 CHƯƠNG III: MƠ PHỎNG VÀ ĐÁNH GIÁ CÁC THUẬT TỐN ƯỚC LƯỢNG CHUYỂN ĐỘNG TRONG MÃ HÓA VIDEO 41 3.1 Giới thiệu phần mềm mô 41 3.2 Các thông số đánh giá 42 3.2.1 Tỷ lệ tín hiệu nhiễu đỉnh (Peak Signal-to-Noise Ratio) 42 3.2.2 Số lượng bit dùng để mã hóa giây (Bitrate) thời gian mã hóa 43 3.3 So sánh đánh giá thuật tốn thơng qua phần mềm mơ 43 3.3.1 Các chuỗi video dùng để đánh giá 43 3.3.2 Kết mô 45 3.4 Kết luận 48 KẾT LUẬN VÀ KIẾN NGHỊ 49 TÀI LIỆU THAM KHẢO 50 download by : skknchat@gmail.com ii DANH MỤC HÌNH ẢNH Hình 1.1: Sơ đồ khối CODEC dpcm xử lý video Hình 1.2: Mã hóa biến đổi Hình 1.3: Biểu diễn lượng tử (a) UTQ (b) UTQ-DZ Hình 1.4: Dự đốn bù chuyển động Hình 1.5: (a) Sự khác biệt khung hình thời trước đó; (b) Khung hình dư thừa Hình 1.6: Vùng tìm vector chuyển động macroblock thời Hình 1.7: (a) Khung hình tham chiếu, (b) khung hình đích .10 Hình 1.8: Sơ đồ nguyên lý tổng quát mã hóa video 12 Hình 1.9: Sơ đồ giải mã hóa tín hiệu video 15 Hình 10: Một số tiêu chuẩn mã hóa Video .17 Hình 2.1: Ước lượng chuyển động theo khối .20 Hình 2.2: Thuật tốn tìm kiếm đầy đủ 23 Hình 2.3: Mơ tìm kiếm ba bước 26 Hình 2.4: Hai đường tìm kiếm khác MTSS 27 Hình 2.5: Thuật tốn Diamond Search .29 Hình 2.6: Mơ tả tồn thuật tốn TZ search 30 Hình 2.7: Tìm khối có RDcost nhỏ 31 Hình 2.8: Mơ hình tìm kiếm kim cương 32 Hình 2.9: vịng tìm kiếm TZ search .32 Hình 2.10: Tìm kiếm điểm lân cận 34 Hình 2.11: mẫu tìm kiếm tìm kiếm raster với khoảng cách pixel 35 Hình 2.12: ví dụ cho tìm kiếm sàng lọc raster 36 Hình 2.13: Thuật toán OTA 38 Hình 2.14: Thuật tốn NOTA .39 Hình 3.1: Giao diện mơ 41 download by : skknchat@gmail.com iii DANH MỤC CÁC TỪ VIẾT TẮT Từ/Cụm từ viết tắt AVC BD PSNR BMA BMME CABAC CAVLC CODEC DC DPCM FSA IDCT ISO MB MV MPEG MSE NAL OTA PSNR QP RDO SAD TZ TSS VCL download by : skknchat@gmail.com iv DANH MỤC BẢNG BIỂU Bảng 3.1: chuỗi video đầu vào .43 Bảng 3.2 Các tham số của môi trường mô 45 Bảng 3.3: Kết mơ so sánh thuật tốn ước lượng chuyển động 46 Bảng 3.4: Kết mô sau thay đổi Dist 48 download by : skknchat@gmail.com MỞ ĐẦU Cách mạng công nghiệp lần thứ tư bắt đầu, cách mạng tập trung vào phát triển công nghệ kỹ thuật số, thiết bị máy móc cơng nghiệp tự động hóa trở nên phổ biến Và với trợ giúp công nghệ 5G khái niệm Internet vạn vật, trí tuệ nhân tạo, big data dần quen thuộc với người dùng Các tảng giải trí, học tập online… phát triển mạnh kèm theo yêu cầu lưu trữ truyền tải dần quan trọng hơn, nhu cầu cầu sử dụng vượt qua vấn đề xem thông tin đến nhu cầu hình ảnh âm chất lượng cao tạo cảm giác sống động cho người dùng Cùng với yêu cầu chất lượng ngày khắt khe tạo nhiều chuẩn video 4K, 8K Các mạng truy cập đa dạng WLAN, mạng di động 4G, 5G nhiên với giới hạn tốc độ truyền, giới hạn băng thơng khiến việc địi hỏi liệu truyền phải thấp mà không ảnh hưởng tới chất lượng thông tin, từ chuẩn nén đời MPEG, H.264, H265… nhiều chuẩn nén nghiên cứu phát triển nhằm đem đến trải nghiệm tốt sử dụng Sự đa dạng chuẩn nén khiến việc đánh giá lựa chọn chuẩn trở thành toán mới, chuẩn nén không đáp ứng nhu cầu sử dụng hay gây lãng phí truyền tải phần cứng Vì lý học viên định chọn đề tài: “Nghiên cứu đánh giá số thuật toán ước lượng chuyển động mã hóa video” làm luận văn thạc sĩ Nội dung luận văn gồm phần: Chương I: Tổng quan mã hóa Video Chương II: Nghiên cứu thuật tốn ước lượng chuyển động mã hóa Video Chương III: Mơ đánh giá thuật tốn ước lượng chuyển động mã hóa Video download by : skknchat@gmail.com 42 trình thực nghiệm, luận văn thử nghiệm thay đổi khoảng cách tìm kiếm khối hình phương pháp tìm kiếm vector chuyển động TZ search Căn kết thử nghiệm, luận văn đánh giá hiệu mã hóa thay đổi khoảng cách tìm kiếm phương pháp TZ search 3.2 Các thông số đánh giá 3.2.1 Tỷ lệ tín hiệu nhiễu đỉnh (Peak Signal-to-Noise Ratio) Tham số PSNR sử dụng để đo mức độ giống hai chuỗi video trước nén sau giải nén Tham số PSNR phản ánh chất lượng chuỗi video sau giải mã Tham số lớn đồng nghĩa với chất lượng chuỗi video sau giải nén giống với chất lượng chuỗi video gốc Trong thực tế, chuỗi video có giá trị PSNR từ 30 dB trở lên coi có chất lượng tốt Cơng thức (3.1) biểu diễn cách tính giá trị PSNR PSNR = 20 log10( Trong đó, MAX1 giá trị mức xám lớn điểm ảnh ảnh Khi điểm ảnh biểu diễn bit giá trị 255 MSE (Mean Square Error) trung bình bình phương giá trị sai khác điểm ảnh ảnh sau giải mã ảnh gốc Để đánh giá hiệu thuật toán ước lượng chuyển động, tham số PSNR độ phức tạp thuật toán sử dụng để so sánh thuật toán Tham số PSNR đo sau: - Bước 1: Tìm vector chuyển động cho khung hình chuỗi video thuật toán ước lượng chuyển động - Bước 2: Dựa vector chuyển động khung hình 1, khung hình tái tạo (bù chuyển động) - Bước 3: Giá trị PSNR tính dựa khung hình gốc khung hình tái tạo download by : skknchat@gmail.com 43 MSE (Mean Squared Error) sai số trung bình bình phương dùng cho ảnh hai chiều có kích thước MxN Trong Org ảnh gốc cịn Rec ảnh khơi phục tương ứng MSE tính qua công thức: = ∑ ∑( ( , ) − =0 =0 3.2.2 Số lượng bit dùng để mã hóa giây (Bitrate) thời gian mã hóa Bitrate phản ánh số lượng bit trung bình dùng để mã hóa khung hình video giây Tham số bitrate lớn thể số bit để mã hóa video lớn Nếu giá trị PSNR, chuỗi video có bitrate nhỏ nghĩa hiệu nén chuỗi video cao Thời gian mã hóa video tham số thiết yếu Trong trường hợp giá trị PSNR bitrate khơng thay đổi, phương pháp pháp có thời gian nén nhỏ hiệu nén cao 3.3 So sánh đánh giá thuật tốn thơng qua phần mềm mô 3.3.1 Các chuỗi video dùng để đánh giá Luận văn sử dụng chuỗi video độ phân giải 832x480 176x144 Các chuỗi video chọn lựa với nội dung khác để tăng tính đa dạng Các chuỗi video có khác tốc độ chuyển động số lượng chuyển động Tốc độ khung hình gồm có 30, 50, 60 khung hình giây Thích hợp để thử nghiệm chất lượng nén thuật toán ước lượng chuyển động BasketballDrill_832x480_50 BQMall_832x480_60 PartyScene_832x480_50 RaceHorses_832x480_30 Bảng 3.1: chuỗi video đầu vào download by : skknchat@gmail.com 44 BasketballDrill_832x480_50 BQMall_832x480_60 PartyScene_832x480_50 RaceHorses_832x480_30 Akiyo_qcif_176_144_30 Carphone_qcif_176_144_30 Foreman_qcif_176_144_30 Coastguard_qcif_176_144_30 download by : skknchat@gmail.com 45 Tham số Số lượng chuỗi video Độ phân giải Tốc độ mã hóa Cấu hình máy tính Bảng 3.2 Các tham số của môi trường mô 3.3.2 Kết mô a Thử nghiệm hiệu số thuật tốn tìm kiếm vector chuyển động Bốn chuỗi video được lựa chọn chế độ nén với thông số lượng tử 37 Số lượng frame nén 30f Hình 3.2: Kết mơ Kết mô thể đặc điểm giống khác thuật toán ước lượng chuyển động: Full search (MT0), TZ search (MT1), Selective (MT2), Enhanced Diamond (MT3) download by : skknchat@gmail.com 46 Bảng 3.3: Kết mơ so sánh thuật tốn ước lượng chuyển động Nhận xét: Qua kết mô ta thấy nén chuỗi video kết Bitrate PSNR thuật toán ước lượng chuyển động gần nhau, không sai lệch lớn Tuy nhiên nhìn vào tham số thời gian nén ta thấy tốc độ nén thuật toán TZ search nhanh Sau thuật tốn Selective, Enhanced Diamond cuối thuật toán full search Nhưng chuỗi video RaceHorses foreman download by : skknchat@gmail.com 47 với tốc độ 30 frame/second thuật tốn Enhanced Diamond lại thể vượt trội Bitrate thời gian nén Từ q trình mơ kết thuật toán TZ search thể hiệu nén tốt nhất, dù không đạt hiệu tốt chuỗi video b Đề xuất phương pháp cải thiện thời gian mã hóa cho thuật tốn TZ search Như giới thiệu nguyên lý thực thuật toán TZ search nội dung trước (Hình 2.8), bước thuật tốn tính độ méo khối vị trí điểm theo hình Diamond hình vẽ: Trong trường hợp vị trí khối có độ méo nhỏ cách vị trí trung tâm (vị trí 1) khoảng cách từ đến mã hóa thực tìm kiếm bước Trong bước này, mã hóa tìm kiếm vịng, khoảng cách từ vòng đến vòng tăng dần theo bội số Tuy nhiên, với khoảng cách tăng theo bội số hiệu trường hợp video có nội dung phức tạp, đối tượng video thay đổi chậm Trong trường hợp nội dung video có nội dung chi tiết, đối tượng chuyển động nhanh, việc tăng khoảng cách vịng tìm kiếm giảm thời gian tìm kiếm tăng độ xác so với khoảng cách nhỏ Vì vậy, luận văn đề xuất thử nghiệm việc thay đổi khoảng cách vịng tìm kiếm để đánh giá hiệu Cụ download by : skknchat@gmail.com 48 thể, ngồi khoảng cách vịng tìm kiếm tăng theo bội số chuẩn HEVC, luận văn thử nghiệm với khoảng cách tìm kiếm vịng tìm kiếm tăng theo bội số Thử nghiệm thực chuỗi video có độ phân giải cao với độ dài 300 khung hình Kết thể bảng 3.4 VIDEO Basketball BQMall PartyScene RaceHorses Bảng 3.4: Kết mô sau thay đổi Dist Kết sau thay đổi dist từ lên 3: - BasketballDrill giảm xấp xỉ 15% thời gian mã hóa - BQMall giảm 2.13% thời gian mã hóa - PartyScene giảm 16.2% thời gian mã hóa(giảm cao nhất) - Video RaceHorse tăng nhẹ 0.5% - Thơng số cịn lại PSNR Bits không thay đổi nhiều Đây kết chấp nhận 3.4 Kết luận Chương trình bày kết so sánh thuật tốn ước lượng chuyển động, thông qua tham số thời gian nén, số bit dùng để nén video, tỉ lệ tín hiệu nhiễu đỉnh (PSNR) từ tìm thuật tốn có hiệu tốt TZ search Ngoài ra, luận văn đề xuất cải thiện thuật toán TZ search để giảm thời gian mã hóa download by : skknchat@gmail.com 49 KẾT LUẬN VÀ KIẾN NGHỊ Kết đạt Luận văn trình bày tổng quan q trình mã hóa giải mã video Nguyên lý hoạt động thuật toán ước lượng chuyển động nay, phát triển thuật tốn Qua q trình mơ mã hóa video dùng phần mềm mã nguồn mở HM, luận văn so sánh đặc điểm thuật toán ước lượng chuyển động, đánh giá ưu nhược điểm thuật toán lựa chọn thuật toán tối ưu Dựa vào kết tiếp tục nghiên cứu đề xuất cải thiện thuật toán TZ search đạt kết Sau thay đổi thông số đầu vào kết cho thấy thời gian mã hóa giảm so với ban đầu Hạn chế Kết sau cải thiện thuật toán TZ search tốt Tuy nhiên với số lượng bốn video để mô chưa đủ có liệu tăng nhẹ so với ban đầu cho thấy việc cải thiện thuật tốn chưa hồn chỉnh Cần tiếp tục nghiên cứu phát triển thêm Hướng phát triển Kết thúc luận văn với kết nghiên cứu thu làm tiền đề cho nghiên cứu cải thiện thuật toán ước lượng chuyển động sau xa đề xuất thuật toán ước lượng chuyển động có hiệu suất cao so với thuật tốn trước mặt thời gian tìm kiếm chất lượng hình ảnh download by : skknchat@gmail.com 50 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Vũ Hữu Tiến, Hà Đình Dũng, “Bài giảng: Xử lý Truyền thơng Đa phương tiện”, Học viện Cơng nghệ Bưu Viễn thông, 2016 Tiếng Anh [2] Dosovitskiy, A ;Fischer,P ;Ilg; E.; Hausser,P; Hazirbas, c ;Golkov,V ; Van Der Smagt, P.; Cremers, D.; Brox, T Flownet, (2015), “Learning optical Flow with convolutional networks,” In Proceedings of the IEEE International Conference on Computer Vision, Santiago, Chile, pp 2758-2766 [3] Hui, T.W.; Tang, X.; Change Loy, C Liteflownet, (2018), “A lightweight convolutional neural network for optical flow estimation,” In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Salt Lake City, UT, USA, pp.8981-8989 [4] Huska, J and P Kulla, (2008), “Trends in block-matching motion estimation algorithms” [5] Ilg, E.; Mayer, N.;Saikia, T.;Keuper, M.; Dosovitskiy, A.; Brox, T Flownet (2017), “Evolution of optical flow estimation with deep networks,” In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, HI, USA, pp 2462-2470 [6] Information technologyy̵, (1993) “Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s: Video” [7] J R Jain, A K Jam, (1981) "Displacement measurement and its application in interframe image coding", IEEE Trans Commun., vol COM-29, pp 1799-1808 [8] K, Suhring, H.264/AVC Software coordination, available at: http://iphome.hhi.de/suehring/tml/ [9] Mohammed Ghanbari, (1999) “Video coding: an introduction to standard codecs”, The Institution of Electrical Engineers download by : skknchat@gmail.com 51 [10] Razali Yaakob, Alihossein Aryanfar, Alfian Abdul Halin, Nasir Sulaiman, (2013), “A comparison of different block matching algorithms for motion estimation”, ICEEI 2013 [11] R Li, B Zeng, M L Liou, (1994) "A new three-step search algorithm for block motion estimation", IEEE Trans Circuits Syst Video Technol., vol 4, no 4, pp 438-442 [12] R Srinivasan, K.R Rao, (2012) “Predoctove coding based on efficient motion estimation”, IEEE Trans Commun., pp 888-896 [13] S.Metkar and S Talbar, (2013), “Motion estimation techniques for Digital Video Coding”, SpringerBriefs in Computional Intelligence [14] Sun, D.; Yang, X.; Liu, M.Y.; Kautz, J Pwc-net, (2018), “Cnns for optical flow using pyramid, warping, and cost volume,” In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Salt Lake City, UT, USA, pp 8934-8943 [15] T Koga, T Ishiguro, (2011), “Motion compensated inter-frame coding for video conferencing”, Processings of National Telecommunication Conference, New Orlean, pp G5.3.1 – G5.3.5 download by : skknchat@gmail.com ... chọn đề tài: ? ?Nghiên cứu đánh giá số thuật toán ước lượng chuyển động mã hóa video” làm luận văn thạc sĩ Nội dung luận văn gồm phần: Chương I: Tổng quan mã hóa Video Chương II: Nghiên cứu thuật toán... - NGUYỄN QUANG HUY NGHIÊN CỨU VÀ ĐÁNH GIÁ MỘT SỐ THUẬT TOÁN ƯỚC LƯỢNG CHUYỂN ĐỘNG TRONG MÃ HÓA VIDEO CHUYÊN NGÀNH : KỸ THUẬT VIỄN THÔNG MÃ SỐ: LUẬN VĂN THẠC SĨ KỸ THUẬT (KỸ THUẬT VIỄN... 14 1.4 Các tiêu chuẩn cho mã hóa tín hiệu video .15 1.5 Kết luận chương .17 CHƯƠNG II: NGHIÊN CỨU CÁC THUẬT TOÁN ƯỚC LƯỢNG CHUYỂN ĐỘNG TRONG MÃ HÓA VIDEO 19 2.1