CHƯƠNG 3 THAY THẾ ĐỐI TƯỢNG VÀ HOÀN THIỆN VIDEO
3.2. Mơ hình hồn thiện video
3.2.4.1. Môi trường thực nghiệm
Tập mặt nạ huấn luyện. Dữ liệu huấn luyện đặc biệt quan trọng cho các
phương pháp dựa trên huấn luyện. Trong nghiên cứu này, luận án ngoài việc sử dụng tập mặt nạ tạo ra trong nghiên cứu [50] để kiểm thử mơ hình RBPConv và so sánh kết quả với các mơ hình khác cịn sử dụng tập mặt nạ được tạo ra dựa trên thuật toán sinh mặt nạ trong nghiên cứu [14]. Các mặt nạ này được chia vào 3 nhóm gồm: mặt nạ hình điểm, mặt nạ dạng hình chữ nhật, mặt nạ hình đường vẽ như được minh họa trong hình 3.10. Tuy nhiên do phạm vi, đặc trưng của bài tốn nghiên cứu nhóm mặt nạ hình chữ nhật khơng được dùng để kiểm thử mà tập trung vào nhóm hình điểm và hình đường vẽ, đặc biệt là nhóm mặt nạ hình đường vẽ bất kỳ được kiểm nghiệm nhiều nhất do phù hợp nhất với bài toán thay thế đối tượng quảng cáo trong video. Tập mặt nạ ảnh huấn luyện mơ hình RBPConv gồm 55.116 mặt nạ và tập kiểm thử gồm 24.886 mặt nạ. Tập dữ liệu huấn luyện cho mơ hình video inpainting V-RBPconv gồm 28,000 video với mặt nạ bất kỳ cho từng frame cho pha huấn luyện và mỗi loại mặt nạ có 100 video được tạo ra cho pha kiểm thử.
Tập dữ liệu kiểm thử. Luận án sử dụng 2 bộ dữ liệu thực nghiệm. Bộ
dữ liệu Places2 [55] dùng để so sánh kết quả thực nghiệm của mơ hình RBPConv với các kết quả thực nghiệm của các nghiên cứu gần nhất. Để so sánh
kết quả thực nghiệm của mô hình V-RBPconv, tập dữ liệu FVI (Free-form video inpainting) được Ya-Liang Chang và các cộng sự sưu tầm trong nghiên cứu [14]. Tập dữ liệu này bao gồm các video từ tập dữ liệu YouTube-VOS [88] và YouTube-BoundingBoxes [67]. Vì vậy dữ liệu có tính đa dạng cao với nhiều kiểu đối tượng, cũng như các hành động của con người và động vật. Mặt khác, tất cả các video trong tập dữ liệu FVI có nguồn gốc từ YouTube nên ngữ cảnh của nó là thế giới thực. Ngồi ra, trong video đã cung cấp cả phân vùng đối tượng và bounding box nên FVI rất phù hợp để kiểm thử cho bài toán thay thế đối tượng khi vùng trống sinh ra là nhỏ, dài, đa dạng về mặt hình thái và bài tốn loại bỏ đối tượng.
Mơi trường thực nghiệm. Môi trường thực nghiệm được thiết lập tương
đương trong nghiên cứu [14]. Tiến trình huấn luyện được thực hiện trên máy chủ Nvidia Tesla V100 GPU (16GB). Các tham số trong mơ hình V-RBPcon được tối ưu hóa sử dụng giải thuật Adam [45] với tỷ lệ học là 0.0002, kích thước mỗi batch là 16.
GLCIC [36] CA [92] PIC [94] RBPConv