CHƯƠNG 3 THAY THẾ ĐỐI TƯỢNG VÀ HOÀN THIỆN VIDEO
3.2. Mơ hình hồn thiện video
3.2.4.3. Kết quả so sánh định lượng
Chất lượng hình ảnh thu được sau khi inpainting có thể được đánh giá định lượng thông qua các chỉ số đo. Để đánh giá định lượng về chất lượng của mơ hình tái tạo, hồn thiện ảnh, luận án sử dụng các độ đo chất lượng ảnh là: chỉ số đồng nhất có cấu trúc (Structural Similarity Index - SSIM) [95] và Tỉ số tín hiệu cực đại trên nhiễu (Peak Signal-to-Noise Ratio - PSNR) [27].
SSIM là độ đo chất lượng ảnh tái tạo dựa trên đánh giá tác động trực quan lên ba đặc tính của ảnh: độ chói, độ tương phản và cấu trúc. Vì vậy chỉ số tổng thể được tổng hợp từ tích của ba thành phần: 𝑆𝑆𝐼𝑀(𝑥, 𝑦) = [𝑙(𝑥, 𝑦)]𝛼[𝑐(𝑥, 𝑦)]𝛽[𝑠(𝑥, 𝑦)]𝛾 (3.12) Trong đó: 𝑙(𝑥, 𝑦) = 2𝜇𝑥𝜇𝑦+𝐶1 𝜇𝑥2+ 𝜇𝑦2+𝐶1, (3.13) 𝑐(𝑥, 𝑦) = 2𝜎𝑥𝜎𝑦+𝐶2 𝜎𝑥2+ 𝜎𝑦2+𝐶2, (3.14) 𝑠(𝑥, 𝑦) = 2𝜎𝑥𝑦+𝐶3 𝜎𝑥𝜎𝑦+𝐶3, (3.15)
Với 𝜇𝑥, 𝜇𝑦, 𝜎𝑥, 𝜎𝑦 và 𝜎𝑥𝑦 là các trung bình cục bộ, độ lệch chuẩn và hiệp phương sai chéo của hai ảnh x, y. Nếu 𝛼 = 𝛽 = 𝛾 = 1 (giá trị mặc định) và 𝐶3 = 𝐶2/2 (giá trị mặc định cho 𝐶3), lúc này SSIM được đơn giản hóa thành:
𝑆𝑆𝐼𝑀(𝑥, 𝑦) = (2𝜇𝑥𝜇𝑦+𝐶1)(2𝜎𝑥𝑦+𝐶2)
Khối PSNR tính tốn tỷ lệ nhiễu tín hiệu cực đại, tính bằng decibel, giữa hai hình ảnh. Tỷ lệ này được sử dụng như một phép đo chất lượng giữa ảnh gốc và ảnh nén hoặc tái tạo. PSNR càng cao, chất lượng của hình ảnh được nén hoặc tái tạo càng tốt.
Lỗi trung bình bình phương (MSE) và tỷ lệ PSNR được sử dụng để so sánh chất lượng nén hình ảnh. MSE đại diện cho lỗi bình phương tích lũy giữa ảnh nén và ảnh gốc, trong khi PSNR biểu thị số đo của lỗi cực đại. Giá trị của MSE càng thấp, lỗi càng thấp.
PSNR được dùng rộng rãi trong kỹ thuật đánh giá chất lượng hình ảnh và video sau khi bị biến đổi hoặc tái tạo, đơn vị đo là logarithm decibel. Thơng thường PSNR càng cao thì độ sai khác của ảnh grounth truth và sau khi tái tạo càng thấp. Giá trị PSNR được coi là tốt ở vào trên 24dB và nhỏ hơn 20dB là khơng chấp nhận được. Cách đơn giản nhất để tính tốn PSNR là thông qua MSE được dùng cho ảnh 2 chiều có kích thước m×n trong đó I và K là ảnh gốc và ảnh được khôi phục tương ứng:
𝑀𝑆𝐸 = 1
𝑚𝑥𝑛∑𝑚−1𝑖=0 ∑𝑛−1𝑗=0⌊(𝐼(𝑖, 𝑗) − 𝐾(𝑖, 𝑗))2⌋ (3.17) Khi đó PSNR được tính theo cơng thức sau
𝑃𝑆𝑁𝑅 = 10 ∗ log10𝑀𝐴𝑋12
𝑀𝑆𝐸 (3.18)
Ở đây, MAX(I) là giá trị tối đa của điểm ảnh trên ảnh I. Khi các điểm ảnh được biểu diễn bởi 8 bit, thì giá trị của nó là 255. Trường hợp tổng quát, điểm ảnh được biểu diễn bởi B bit, MAX(I) là 2B−1. Với ảnh màu biểu diễn 3 giá trị RGB trên 1 điểm ảnh, các tính tốn cho PSNR tương tự ngoại trừ việc tính MSE là tổng của 3 giá trị (tính trên 3 kênh màu RGB) chia cho kích thước của ảnh và chia cho 3.
Bảng 3.2. Kết quả định lượng trên tập dữ liệu Places2 của các mơ hình CA [92], PConv [50] and EC [60], (*)giá trị lấy từ [50], và RBPConv.
CA PConv* EC RBPConv PSNR 21.34 24.54 24.65 25.29
SSIM 0.806 0.775 0.857 0.868
Mơ hình RBPConv được so sánh định lượng với các mơ hình inpainting ảnh được phát triển trước đó gồm CA(Contextual Attention) [92], PConv (Partial Convolution Unet) [50] và EC (EdgeConnect) [60] dựa trên các chỉ số đo PSNR và SSIM. Các giá trị cụ thể được thể hiện trong bảng 3.2. Để có được số liệu này luận án đã sử dụng các trọng số của các mạng huấn luyện tương ứng có sẵn. Kết quả của PConv được lấy từ bài viết [50] do mã nguồn chưa được nhóm tác giả cơng bố. Các số liệu thống kê có được sau khi tính tốn trên 1.000 ảnh ngẫu nhiên lấy từ tập kiểm thử. Giá trị PSNR của mơ hình RBPconv đạt ở ngưỡng hợp lý 25.29 cho thấy ảnh được tái tạo có tính chân thực cao. Cả hai chỉ số đo cho thấy mặc dù khơng có sự nổi trội nhưng mơ hình RBPconv cho hiệu năng thực thi tốt hơn các phương pháp khác.
Trong khi đó để ước lượng chất lượng video tái tạo trên phương diện nhất quán về thời gian, luận án đã sử dụng độ đo Frechet Inception Distance (FID) [32]. FID là độ đo được phát triển để ước lượng hiệu năng thực thi của các mạng sinh đối kháng (generative adversarial networks – GAN) và dùng để ước lượng chất lượng tập ảnh tái tạo so với tập ảnh gốc. Mục tiêu phát triển hệ số FID là ước lượng, đánh giá ảnh tái tạo dựa trên số liệu thống kê từ tập ảnh tái tạo so với số liệu thống kê từ tập hình ảnh thực. Chỉ số FID càng thấp thì chất lượng ảnh tái tạo càng cao tức là ảnh tái tạo càng gần với ảnh thực.
Hệ số FID được tính dựa trên mơ hình Inception v3 huấn luyện trước. Lớp đầu ra của mơ hình được loại bỏ và đầu ra là các kích hoạt lấy từ tầng pooling cuối cùng, tầng pooling tồn cục. Lớp đầu ra này có 2.048 kích hoạt,
do đó, mỗi ảnh được dự đốn là một vector đặc trưng kích hoạt 2.048 chiều. Đây cịn được gọi là vector mã hóa hoặc vector đặc trưng cho ảnh.
Tập các vector đặc trưng 2.048 chiều được tính tốn cho tập các ảnh gốc cho ra một tham chiếu tới cách ảnh gốc được biểu diễn. Tập các vector đặc trưng sau đó cũng được tính cho tập ảnh tái tạo. Kết quả thu được sẽ là hai tập vector đặc trưng 2.048 chiều cho ảnh thực và ảnh tái tạo.
Khi đó FID được tính theo cơng thức sau:
𝐹𝐼𝐷 = ‖𝜇𝑟 − 𝜇𝑔‖2+ 𝑇𝑟(Σ𝑟+ Σ𝑔 − 2(Σ𝑟Σ𝑔)1/2, (3.19)
Trong đó 𝜇𝑟, 𝜇𝑔 là vector trung bình từng thành phần của ảnh thực và ảnh tái tạo, tức là các vector 2048 chiều mà mỗi thành phần là trung bình của các thành phần trong vector đặc trưng tương ứng của ảnh. Σ𝑟Σ𝑔 là các ma trận hiệp phương sai của các vector đặc trưng của ảnh gốc và ảnh tái tạo. Tr là tổng các phần tử dọc theo đường chéo chính của ma trận.
Bảng 3.3. Kết quả định lượng trên tập dữ liệu FVI với các mơ hình: EC
[60], CombCN, 3Dgated và V- RBPConv, (*)kết quả lấy từ [14] Dạng mặt
nạ
EC* CombCN* 3DGated* V-RBPConv
FID Đường vẽ 1.033 0.766 0.609 0.598
Điểm 1.083 1.091 0.905 0.886
Các mơ hình thử nghiệm trên tập kiểm thử FVI với hai loại mặt nạ hình đường vẽ và hình điểm có kích thước khơng q lớn so với đối tượng. Kết quả thể hiện trên bảng 3.3 phù hợp với kết quả so sánh trực quan trước đó. Với dạng mặt nạ hình đường vẽ mơ hình EC có chỉ số FID trung bình cao nhất tiếp theo là CombCN, 3DGated. Trong khi đó mơ hình V-RBPConv cải tiến có chỉ số FID thấp nhất, giảm gần 50% so với mơ hình EC và khoảng 18% so với
3DGated. Chứng tỏ mơ hình V-RBPConv duy trì tốt tính kết cấu về thời gian, video tái tạo có tính chân thực cao gần với video gốc
Tuy nhiên, khi thực nghiệm trên mặt nạ dạng điểm chỉ số FID trung bình của mơ hình cải tiến V-RBPConv có thấp hơn các mơ hình khác nhưng với độ chênh lệch hẹp hơn so với dạng đường. Đồng thời chỉ số FID của khi thực nghiệm với mặt nạ hình điểm cao hơn so với mặt nạ hình đường. Nguyên nhân là do bị ảnh hưởng của kích thước mặt nạ - vùng tái tạo. Khi kích thước càng lớn thì mức độ hiệu quả, tính chân thực của video tái tạo càng giảm. Mơ hình cải tiến chỉ đặt biệt hiệu quả khi độ dày của vùng bị phá huỷ là bé.
Kết luận chương 3
Trong chương này, để trích chọn chính xác vùng chứa đối tượng, luận án đã sử dụng, kế thừa mơ hình phân vùng thực thể đối tượng được trong nghiên cứu [15]. Chi tiết mơ hình này được trình bày một cách khái quát. Mặc dù độ chính xác và thời gian phân vùng đã đáp ứng được kỳ vọng nhưng vẫn còn thấp hơn so với mạng phân vùng Mask R-CNN. Tuy nhiên, với ưu điểm tiết kiệm về chi phí và thời gian rất nhiều để tạo ra tập dữ liệu mặt nạ vùng huấn luyện nên giải thuật vẫn được luận án sử dụng để phân vùng đối tượng.
Tiếp theo, mơ hình cải tiến video inpainting V-RBPConv gồm hai bộ phận là bộ phận sinh ảnh và bộ phận đối sánh ảnh theo thời gian được được trình bày chi tiết. Trong cải tiến này mơ hình tái tạo, hồn thiện ảnh RBPconv được sử dụng thay thế cho mơ hình 3Dgated trong phần sinh ảnh. Bộ đối sánh Temporal PathGAN được sử dụng nguyên bản trong nghiên cứu [39] để duy trì tính kết cấu về mặt thời gian trong video. Hàm loss trong mạng V-RBPConv được mở rộng từ hàm loss trong mơ hình kiến trúc RBPconv bằng cách bổ sung thêm thành phần lỗi trong GAN.
Cuối cùng, các kết quả thực nghiệm cho các mơ hình cải tiến RBPConv và V-RBPCon được trình bày. Cụ thể, mơ hình RBPConv cho thấy kết quả ảnh tái tạo có tính chân thực cao thể hiện qua các kết quả định tính dựa trên ảnh tái tạo trực quan và định lượng thông qua các chỉ số đo SSIM hay PSNR. Mơ hình V-RBPCon tái tạo ra video có tính nhất qn cao về thời gian, ước lượng định tính và định lượng qua thực nghiệm trên tập dữ liệu FVI với các dạng mặt nạ hình đường và hình điểm đã minh chứng cho kết quả này.
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Luận án đã trình bày khái quát các vấn đề cơ bản liên quan đến bài toán hậu xử lý, hiểu video gồm các kỹ thuật dị tìm đối tượng, nhận dạng tư thế/hình dạng của đối tượng trong video và hoàn thiện video sau khi thay thế đối tượng. Trên cơ sở khảo sát và phân tích các nghiên cứu liên quan, luận án đã tập trung nghiên cứu, giải quyết hai vấn đề quan trọng trong lĩnh vực thị giác máy tính liên quan đến bài tốn hiểu video gồm: phát hiện đối tượng trong video và hoàn thiện video sau khi chỉnh sửa, thay thế đối tượng nhận dạng được. Cụ thể, cải tiến các kỹ thuật dị tìm đối tượng trong video dựa trên DCNN tiên tiến. Cải tiến các kỹ thuật nhận dạng tư thế/hình dạng của đối tượng trong video dựa trên cách tiếp cận lập chỉ mục, tìm kiếm và đối sánh mẫu. Sử dụng mơ hình sẵn có để phân vùng đối tượng trong ảnh. Cải tiến kỹ thuật video inpainting dựa trên DCNN sau khi hiệu chỉnh nội dung như xóa bỏ chèn đối tượng vào video. Một số kết quả đạt của luận án cụ thể như sau:
- Cải tiến hiệu năng thực thi mơ hình dị tìm đối tượng trong video theo hướng tiếp cận sử dụng mạng DCNN. Mơ hình YOLO-Adv cải tiến từ kiến trúc mạng YOLO được dùng để phân lớp, xác định vị trí bao quanh đối tượng tìm thấy và trích trọn ra vector đặc trưng của đối tượng này. Mơ hình cải tiến có tính tổng qt cao, tốc độ thực thi đáp ứng thời gian thực được áp dụng cho nhận dạng đối tượng quảng cáo trong video.
- Nâng cao độ chính xác, tốc độ thực thi phương pháp lập chỉ mục vector đặc trưng ứng dụng để nhận dạng tư thế/hình dạng của đối tượng. Tập dữ liệu các tư thế/hình dạng của đối tượng được trích chọn đặc trưng, lập chỉ mục bằng kỹ thuật PSVQ cải tiến từ PQ. Sau đó, tiến trình tìm kiếm xấp xỉ dựa trên cây phân cấp thứ bậc được sử dụng để tìm ra tư thế/hình dạng thích hợp nhất của đối tượng.
- Cải tiến mơ hình video inpainting V-RBPconv gia tăng tốc độ, độ chính xác, hiệu năng thực thi, bảo tồn tính kết cấu về khơng gian và thời gian khi
hoàn thiện, tái tạo video sau hiệu chỉnh với vùng tái tạo có hình dạng và kích thước bất kỳ, độ dày khơng q lớn. Mơ hình cải tiến là sự kết hợp giữa kỹ thuật inpainting ảnh RBPconv với bộ phân biệt Temporal PatchGAN.
Tuy nhiên, luận án còn một số hạn chế:
- Chưa xây dựng được bộ dữ liệu đặc trưng xuyên xuốt cho cả 2 pha: phát hiện, thay thế đối tượng trong video
- Vấn đề ảnh hưởng của các yếu tố liên quan đến cấu thành video để phân đoạn video, trích chọn key frame và tính nhất quán về thời gian trong nhận dạng hình thể của đối tượng chưa được xét đến;
- Chưa đề xuất được mơ hình đầu cuối cho bài toán nhận dạng, phân vùng đối tượng.
Từ những hạn chế trên, hướng nghiên cứu tiếp theo của luận án là: (1) Phát triển bộ dữ liệu huấn luyện gồm bộ ảnh huấn luyện cho bài toán phát hiện đối tượng, bộ dữ liệu video chứa các vùng trống do ảnh thay thế ảnh trong giai đoạn phát hiện.
(2) Nghiên cứu các yếu tố cấu thành video, định dạng video, tính nhất quán về thời gian trong nhận dạng hình thể của đối tượng trong video;
(3) Nghiên cứu đề xuất mơ hình DCNN để có thể đồng thời dị tìm, nhận dạng và phân vùng các đối tượng tìm thấy.
DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC CĨ LIÊN QUAN ĐẾN LUẬN ÁN
[CT1] “Cải tiến kiên trúc mạng Yolo cho bài toán nhận dạng logo” TNU
Journal of Science and Technology, vol. 200, no. 07, pp. 199-205, 2019.
[CT2] “A review of feature indexing methods for fast approximate nearest neighbor search” 5th NAFOSTED Conference on Information and Computer Science (NICS), pp. 372 – 377, 2018.
[CT3] “Hierarchical product quantization for effective feature indexing” ICT, 26th International Conference on Telecommunications, pp. 386 – 390, April 8-10-2019.
[CT4] “Product sub-vector quatization for feature indexing” Jounal of Computer Science and Cybernetics, vol. 35, no. 11, pp. 69-83, 2019.
[CT5] “Hồn thiện các vùng phá hủy hình dạng bất kỳ trong ảnh sử dụng kiến trúc mạng thặng dư và tích chập từng phần” TNU Journal of Science and
Technology, vol. 208, no. 15, pp. 19-26, 2019.
[CT6] “A study on parameter tuning for optimal indexing on large scale datasets”, Journal of Science and Technology on Information and Communications, 2020.
TÀI LIỆU THAM KHẢO Tiếng Anh
[1] Anh P. T. (2017), "Pair-wisely optimized clustering tree for feature indexing," Computer Vision and Image Understanding, vol. 154, no. 1, pp. 35-47.
[2] Anh P. T. (2018), "Improved embedding product quantization,"
Machine Vision and Applications, In Press.
[3] Anh P. T., Toan D. N. (2018), "Embedding hierarchical clustering in product quantization for feature indexing," Multimed Tools Appl.
[4] Arafat S. Y., Husain S. A., Niaz I. A., Saleem M. (2010), "Logo detection and recognition in video stream," IEEE International Conference
on Digital Information Management, pp. 163-168.
[5] Bao Y., Li H., Fan X., Liu R., Jia Q. (2016), "Region-based cnn for logo detection," ACM International Conference on Internet Multimedia Computing and Service, ICIMCS’16, p. 319–322.
[6] Barnes C., Shechtman E., Goldman D. B., Finkelstein A. (2010), "The generalized patchmatch correspondence algorithm.," European Conference on Computer Vision,Springer, pp. 29-43.
[7] Barnes C., Shechtman,E., Finkelstein A., Goldman D. B. (2009), "Patchmatch: a randomized correspondence algorithm for structural image editing," ACM Transactions on Graphics (TOG), vol. 28, p. 24.
[8] Barnes C., Zhang F. L., Lou L., Wu X., Hu S. M. (2015), "Patchtable: Efficient patch queries for large datasets and applications.," ACM Transactions on Graphics (TOG), vol. 34, no. 4, p. 97.
[9] Bay H., Ess A., Tuytelaars T., Gool L. V. (2008), "Speeded-Up Robust Features (SURF)," Computer Vision and Image Understanding, vol. 110, no. 3, pp. 346-359.
[10] Bertalmio M., Sapiro G., Ballester C., Caselles V. (2000), "Image inpainting," ACM Trans. on Graphics (SIGGRAPH), pp. 417-424.
[11] Bolya D., Zhou C., Xiao F., Lee Y. J. (2019), "Yolact: Real-time instance segmentation," arXiv preprint arXiv:1904.02689.
[12] Bombonato L., Camara-Chavez G., Silva P. (2018), "Real-time brand logo recognition," Progress in Pattern Recognition, Image Analysis, Computer Vision, and Applications, p. 111–118.
[13] Cai G., Chen L., Li J. (2003), "Billboard advertising detection in sport tv," Signal Processing and Its Applications, 2003 Proceedings. Seventh International Symposium on, vol. 1, pp. 537-540.
[14] Chang Y. L., Liu Z. Y., Hsu W. (2019), "Free-form Video Inpainting with 3D Gated Convolution and Temporal PatchGAN,"
arXiv:1904.10247v3.
[15] Chen L. C., Papandreou G., Kokkinos I., Murphy K., Yuile A. L. (2018), "Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs," PAMI, vol. 40, no. 4, pp. 834-848.
[16] Chen Y., Guan T., Wang C. (2010), "Approximate nearest neighbor search by residual vector quantization," Sensors, vol. 10, no. 12, pp. 11259- 11273.
[17] Covell M., Baluja S., Fink M. (2006), "Advertisement detection and replacement using acoustic and visual repetition," Multimedia Signal Processing, 2006 IEEE 8th workshop on, pp. 461-466.
[18] Dai A., Qi C. R., Nießner M. (2017), "Shape completion using 3d- encoder-predictor cnns and shape synthesis," Proc. IEEE Conf. on Computer
Vision and Pattern Recognition (CVPR), vol. 3.
[19] Dalal N., Triggs B. (2005), "Histograms of oriented gradients for human detection," IEEE Conference on Computer Vision and Pattern Recognition, vol. 1, p. 886–893.
[20] Deng J., Dong W., Socher R., Li L. J., Li K., and Fei-Fei L. (2009), "Imagenet: A large-scale hierarchical image database," CVPR.
[21] Efros A. A., Leung T. K. (1999), "Texture Synthesis by Non- parametric Sampling," Computer Vision, 1999. The Proceedings of the Seventh IEEE International Conference, vol. 2, pp. 1033-1038.
[22] Felzenszwalb P. F., Huttenlocher D. P. (2005), "Pictorial structures for object recognition," International Journal of Computer Vision, vol. 61, no. 1, pp. 55-79.
[23] Feng Z., Neumann J. (2013), "Real time commercial detection in videos,".
[24] Ge T., He K., Ke Q., Sun J. (2014), "Optimized product quantization," IEEE Trans. Pattern Anal. Mach. Intell, vol. 36, no. 4, pp. 744-755.
[25] Girshick R. (2015), "Fast r-cnn," ICCV.
[26] Girshick R., Donahue J., Darrell T., Malik J. (2014), "Rich feature hierarchies for accurate object detection and semantic segmentation," IEEE
Conference on Computer Vision and Pattern Recognition, p. 580–587.
[27] Gonzalez R., and Wood R. (2009), "Digital Image Processing,"
Pearson Edn.
[28] Haar A. (1910), "Zur theorie der orthogonalen funktionensysteme,"