a. Thử nghiệm hiệu năng của một số thuật toán tìm kiếm vector chuyển động
Bốn chuỗi video được được lựa chọn chế độ nén với thông số lượng tử là 37. Số lượng frame được nén là 30f.
Hình 3.2: Kết quả mô phỏng
Kết quả mô phỏng thể hiện các đặc điểm giống và khác nhau giữa các thuật toán ước lượng chuyển động: Full search (MT0), TZ search (MT1), Selective (MT2), Enhanced Diamond (MT3).
46
Bảng 3.3: Kết quả mô phỏng so sánh các thuật toán ước lượng chuyển động
Nhận xét: Qua kết quả mô phỏng ta thấy khi nén các chuỗi video kết quả Bitrate và PSNR ở các thuật toán ước lượng chuyển động gần như bằng nhau, không sai lệch quá lớn. Tuy nhiên khi nhìn vào tham số thời gian nén ta thấy tốc độ nén của thuật toán TZ search nhanh nhất. Sau đó là thuật toán Selective, Enhanced Diamond và cuối cùng là thuật toán full search. Nhưng tại chuỗi video RaceHorses và foreman
47
với tốc độ 30 frame/second thì thuật toán Enhanced Diamond lại thể hiện vượt trội hơn cả về Bitrate và thời gian nén.
Từ quá trình mô phỏng kết quả chỉ ra thuật toán TZ search thể hiện hiệu năng nén tốt nhất, dù không đạt hiệu năng tốt nhất tại 1 chuỗi video.
b. Đề xuất phương pháp cải thiện thời gian mã hóa cho thuật toán TZ search
Như đã giới thiệu nguyên lý thực hiện của thuật toán TZ search tại nội dung trước (Hình 2.8), bước đầu tiên của thuật toán là tính độ méo của các khối tại vị trí các điểm theo hình Diamond như hình vẽ:
Trong trường hợpvị trí của khối có độ méo nhỏ nhất cách vị trí trung tâm (vị trí 0) một khoảng cách từ 2 đến 5 thì bộ mã hóa sẽ thực hiện tìm kiếm 7 bước. Trong bước này, bộ mã hóa sẽ tìm kiếm 7 vòng, khoảng cách từ vòng 1 đến vòng 7 tăng dần theo bội số của 2 . Tuy nhiên, với khoảng cách tăng theo bội số của 2 có thể hiệu quả trong trường hợp video có nội dung phức tạp, các đối tượng trong video thay đổi chậm. Trong trường hợp nội dung video có nội dung ít chi tiết, các đối tượng chuyển động nhanh, việc tăng khoảng cách giữa các vòng tìm kiếm có thể giảm thời gian tìm kiếm và tăng độ chính xác so với khoảng cách nhỏ. Vì vậy, luận văn đề xuất thử nghiệm việc thay đổi khoảng cách giữa các vòng tìm kiếm để đánh giá hiệu quả. Cụ
48
thể, ngoài khoảng cách giữa các vòng tìm kiếm tăng theo bội số của 2 như của chuẩn HEVC, luận văn thử nghiệm với khoảng cách tìm kiếm giữa các vòng tìm kiếm sẽ tăng theo bội số của 3. Thử nghiệm được thực hiện trên 4 chuỗi video có độ phân giải cao với độ dài là 300 khung hình. Kết quả được thể hiện trong bảng 3.4.
VIDEO
Kết quả đo trung bình của 300 khung hình
PSNR Time Bits
Dist = 2 Dist = 3 Dist = 2 Dist = 3 Dist = 2 Dist = 3 Basketball 34.1612 34.1560 82.6266 69.786 6 16293.973 16292.346
BQMall 33.9312 33.9257 65.1933 63.8 16078.373 16083.653
PartyScene 30.6911 30.6951 91.2066 76.3933 37105.28 37038.506
RaceHorses 32.9212 32.9212 90.9066 91.3 33622.266 33628
Bảng 3.4: Kết quả mô phỏng sau khi thay đổi Dist
Kết quả sau khi thay đổi dist từ 2 lên 3:
- BasketballDrill giảm xấp xỉ 15% thời gian mã hóa. - BQMall giảm 2.13% thời gian mã hóa.
- PartyScene giảm 16.2% thời gian mã hóa(giảm cao nhất). - Video RaceHorse tăng nhẹ 0.5%.
- Thông số còn lại là PSNR và Bits không thay đổi quá nhiều. Đây là một kết quả có thể chấp nhận được.
3.4. Kết luận
Chương 3 đã trình bày kết quả so sánh các thuật toán ước lượng chuyển động, thông qua các tham số như thời gian nén, số bit dùng để nén video,tỉ lệ tín hiệu trên nhiễu đỉnh (PSNR) từ đó tìm ra được thuật toán có hiệu năng tốt nhất là TZ search. Ngoài ra, luận văn cũng đề xuất cải thiện thuật toán TZ search để giảm thời gian mã hóa.
49
KẾT LUẬN VÀ KIẾN NGHỊ 1. Kết quả đạt được
Luận văn đã trình bày tổng quan về quá trình mã hóa và giải mã video. Nguyên lý hoạt động của các thuật toán ước lượng chuyển động hiện nay, và sự phát triển của các thuật toán mới.
Qua quá trình mô phỏng mã hóa video dùng phần mềm mã nguồn mở HM, luận văn đã so sánh được các đặc điểm của các thuật toán ước lượng chuyển động, đánh giá được các ưu nhược điểm của các thuật toán này và lựa chọn ra thuật toán tối ưu nhất. Dựa vào kết quả tiếp tục nghiên cứu đề xuất cải thiện mới trong thuật toán TZ search và đã đạt được kết quả. Sau khi thay đổi thông số đầu vào kết quả cho thấy thời gian mã hóa đã giảm so với ban đầu.
2. Hạn chế
Kết quả sau khi cải thiện thuật toán TZ search khá tốt. Tuy nhiên với số lượng bốn video để mô phỏng là chưa đủ và trong đó có dữ liệu tăng nhẹ so với ban đầu cho thấy việc cải thiện thuật toán vẫn chưa hoàn chỉnh. Cần tiếp tục nghiên cứu phát triển thêm
3. Hướng phát triển
Kết thúc luận văn với kết quả nghiên cứu thu được có thể làm tiền đề cho các nghiên cứu cải thiện thuật toán ước lượng chuyển động sau này và xa hơn là đề xuất được một thuật toán ước lượng chuyển động có hiệu suất cao hơn so với các thuật toán trước đây về mặt thời gian tìm kiếm và chất lượng hình ảnh.
50
TÀI LIỆU THAM KHẢO
Tiếng Việt
[1] Vũ Hữu Tiến, Hà Đình Dũng, “Bài giảng: Xử lý và Truyền thông Đa phương tiện”, Học viện Công nghệ Bưu chính Viễn thông, 2016.
Tiếng Anh
[2] Dosovitskiy, A ;Fischer,P ;Ilg; E.; Hausser,P; Hazirbas, c ;Golkov,V ; Van Der Smagt, P.; Cremers, D.; Brox, T. Flownet, (2015), “Learning optical Flow with convolutional networks,” In Proceedings of the IEEE International Conference on Computer Vision, Santiago, Chile, pp. 2758-2766.
[3] Hui, T.W.; Tang, X.; Change Loy, C. Liteflownet, (2018), “A lightweight convolutional neural network for optical flow estimation,” In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Salt Lake City, UT, USA, pp.8981-8989.
[4] Huska, J and P. Kulla, (2008), “Trends in block-matching motion estimation algorithms”.
[5] Ilg, E.; Mayer, N.;Saikia, T.;Keuper, M.; Dosovitskiy, A.; Brox, T. Flownet (2017), “Evolution of optical flow estimation with deep networks,” In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, HI, USA, pp. 2462-2470.
[6] Information technology̵, (1993) “Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s: Video”.
[7] J. R. Jain, A. K. Jam, (1981) "Displacement measurement and its application in interframe image coding", IEEE Trans. Commun., vol. COM-29, pp. 1799-1808. [8] K, Suhring, H.264/AVC Software coordination, available at:
http://iphome.hhi.de/suehring/tml/
[9] Mohammed Ghanbari, (1999) “Video coding: an introduction to standard codecs”, The Institution of Electrical Engineers.
51
[10] Razali Yaakob, Alihossein Aryanfar, Alfian Abdul Halin, Nasir Sulaiman, (2013), “A comparison of different block matching algorithms for motion estimation”, ICEEI 2013.
[11] R. Li, B. Zeng, M. L. Liou, (1994) "A new three-step search algorithm for block motion estimation", IEEE Trans. Circuits Syst. Video Technol., vol. 4, no. 4, pp. 438-442.
[12] R. Srinivasan, K.R. Rao, (2012) “Predoctove coding based on efficient motion estimation”, IEEE Trans. Commun., pp. 888-896.
[13] S.Metkar and S. Talbar, (2013), “Motion estimation techniques for Digital Video Coding”, SpringerBriefs in Computional Intelligence.
[14] Sun, D.; Yang, X.; Liu, M.Y.; Kautz, J. Pwc-net, (2018), “Cnns for optical flow using pyramid, warping, and cost volume,” In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Salt Lake City, UT, USA, pp. 8934-8943.
[15] T. Koga, T. Ishiguro, (2011), “Motion compensated inter-frame coding for video conferencing”, Processings of National Telecommunication Conference, New Orlean, pp. G5.3.1 – G5.3.5.