Video inpainting dựa trên lấy mẫu

6. Cấu trúc luận án

1.2.3.1. Video inpainting dựa trên lấy mẫu

Lấp đầy các vùng trống được tạo ra do bị phá hủy sử dụng tổng hợp kết cấu dựa trên lấy mẫu là kỹ thuật truyền thống được sử dụng nhiều nhất cho bài toán inpainting ảnh. Kỹ thuật này được giới thiệu lần đầu trong nghiên cứu [21], trong đó các phần ảnh bị mất được khôi phục theo cách gia tăng vùng hoàn thiện từ mép ngoài vào trong tâm vùng bằng cách tìm kiếm các bản mẫu thích hợp và ghép chúng với nhau theo một thứ tự ưu tiên nhất định.

Để tìm kiếm nhanh các mảnh ghép phù hợp, Barnes và các cộng sự đã đề xuất một thuật toán PatchMatch [7] nhằm khai thác sự kết dính trong ảnh, và được tổng quát hóa [6] để tìm ra K mẫu lân cận gần nhất. Dựa trên các nghiên cứu này, có nhiều khuynh hướng khác nhau để cải thiện việc tìm kiếm và tối ưu hóa thứ tự ghép mẫu [47] [8]. Phương pháp này cũng được điều chỉnh phù hợp với bài toán video inpainting bằng cách thay thế quá trình tổng hợp mẫu 2D bằng quá trình tổng hợp mẫu không gian-thời gian 3D qua các frame. Sự mở rộng này lần đầu tiên được đề xuất trong [86] nhằm duy trì tính nhất quán

về thời gian của video tái tạo. Sau đó chúng được cải thiện trong nghiên cứu [81] để xử lý video đầu vào phức tạp hơn. Điểm nổi bật của phương pháp này là có thể áp dụng hiệu quả cho các vùng trống kích thước lớn, nhưng chỉ cho các vùng có cấu trúc và kết cấu đơn giản và phải tìm được đầy đủ các mẫu để lấp đầy vùng trống. Đặc biệt, hiệu quả cao với video có thường nội dung lặp đi lặp lại qua các frame. Phần lớn các giải thuật dựa trên lấy mẫu đều vận dụng chiến lược tham lam xử lý vấn đề ưu tiên vị trí cần hoàn thiện trước. Vì vậy các giải thuật này chịu sự tác động của chiến lược tham lam, chiến lược tốt cho kết quả tốt và ngược lại. Chúng không thể giải quyết trường hợp các phần bị mất mát không thể được thay thế bằng nội dung tương tự từ dữ liệu đầu vào tức là thiếu mẫu ghép. Nhằm khắc phục nhược điểm này, để khôi phục một tập dữ liệu video lớn, phương pháp tối ưu là huấn luyện một mạng CNN để dự đoán các thông tin bị mất dựa trên sự thấu hiểu ngữ cảnh mức cao.

Thay thế đối tượng trong video

Dựa trên điểm đặc trưng