Kiến trúc mô hình V-RBPconv

CHƯƠNG 3 THAY THẾ ĐỐI TƯỢNG VÀ HOÀN THIỆN VIDEO

3.2. Mô hình hoàn thiện video

3.2.1. Kiến trúc mô hình V-RBPconv

Trong mô hình V-RBPconv được minh họa trong hình 3.7, trước tiên bộ sinh ảnh sử dụng kiến trúc RBPconv tận dụng tối đa các thông tin từ các frame lân cận để lấp đầy, tái tạo các vùng trống trong video có hình dạng và kích thước bất kỳ nhằm sinh ra các frame ảnh có tính chân thực. Sau đó, bộ đối sánh Temporal PatchGAN tập trung vào việc phát hiện các đặc trưng có sự khác biệt về mặt không gian và thời gian giữa ảnh sinh ra từ bộ sinh ảnh và ảnh thực (ảnh grounth-truth). Nếu sự khác biệt chưa đủ nhỏ thì tiến hành hiệu chỉnh nhằm nâng cao chất lượng ảnh cũng như video đầu ra.

Luận án mở rộng mạng RBPconv một trạng thái sử dụng cho bài toán video inpainting (Hình 3.5.a). Trong quá trình huấn luyện, mô hình kết hợp các frame ảnh ground truth trong video gốc {𝑉𝑡|𝑡 = 1 … 𝑛} và các mặt nạ {𝑀𝑡|𝑡 = 1 … 𝑛} đánh dấu vùng bị phá hủy tạo thành một video mặt nạ đầu vào {𝐼𝑡|𝑡 = 1 … 𝑛}. Mô hình hoàn thiện các ảnh dựa trên vùng mặt nạ này và tạo ra các frame đầu ra {𝑂𝑡|𝑡 = 1 … 𝑛}.

Hình 3.8. Kiến trúc mô hình RBPconv 3.2.2. Mô hình kiến trúc mạng RBPconv

Mô hình cải tiến cho bộ sinh ảnh để tạo ra video inpainting thô dựa trên kiến trúc mạng RBPconv với nền tảng là mô hình kiến trúc U-net cải tiến có tích hợp với các thành phần của các mô hình học sâu khác như: các khối Residual cải tiến, phép tích chập từng phần và các kết nối nhảy Residual. Mô hình chi tiết được minh họa trong hình 3.8.

RBPconv bắt nguồn từ mô hình kiến trúc mạng mã hoá đặc trưng-giải mã đặc trưng (encoder-decoder). Tuy nhiên để tăng tốc độ huấn luyện, các khối residual cải tiến được sử dụng thay vì các tầng tích chập thông thường cho các lớp ở giữa mạng này. Tại các mức đặc trưng thấp, cả tầng tích chập đơn giản và tầng tích chập phức tạp đều cho kết quả tương tự nhau [93]. Do đó tại tầng tích chập thứ nhất, các mặt nạ 3x3x64 được sử dụng để thu được bản đồ đặc trưng mức thấp 64 chiều. Sau đó các khối residual được thiết lập cho các tầng tích chập. Sự thay thế này làm gia tăng hiệu năng thực thi của mạng.

Mô hình RBPconv sử dụng kiến trúc mạng U-net với tổng cộng 20 tầng trong đó 10 tầng trong phần encoder và 10 tầng trong phần decoder tương ứng (chi tiết các tầng được cho trong phụ lục C). Phần encoder được dùng để học các đặc trưng ảnh, đây cũng chính là một tiến trình mô tả đặc tính của các ảnh. Phần Decoder là một tiến trình khôi phục và giải mã các đặc trưng đã học tạo ra ảnh thực. Trong nhiều trường hợp, các thông tin được cung cấp bởi các điểm

ảnh xung quanh một điểm ảnh được xem xét. Kiến trúc U-net nguyên bản gồm 2 phần giảm mẫu (down-sampling) và tăng mẫu (up-sampling). Down- sampling được sử dụng để lấy dần các thông tin môi trường và tiến trình up- sampling trộn các đặc trưng đã học và các thông tin môi trường trong down- sampling để khôi phục từng chi tiết của điểm ảnh bị mất.

Trong cải tiến này mỗi tầng tích chập con được theo sau bởi chuẩn hóa batch và hàm kích hoạt. Hàm kích hoạt ReLU được sử dụng cho các tầng encoder và LeakyReLU với alpha=0.2 được sử dụng trong các tầng decoder. Bên cạnh đó, tất cả các tầng tích chập được thay thế bằng tích chập từng phần. Zero padding với kích thước 1 được sử dụng để làm cho tất cả các bản đồ đặc trưng có cùng kích thước.

Khối Residual

Gần đây, các mạng nơron tích chập học sâu đã đạt được hiệu năng thực thi rất cao trong phân lớp và nhận dạng ảnh. Đặc biệt là mạng Resnet được cấu thành từ các khối residual và kết nối nhanh đã cho kết quả rất tốt trong cả độ chính xác và tốc độ thực thi. Tận dụng những ưu điểm của các khối residual này, luận án nghiên cứu cải tiến để áp dụng cho bài toán tái tạo ảnh. Kiến trúc của khối residual cải tiến được minh họa trong hình 3.9.

Khối residual cải tiến được hình thành từ 2 khối con. Đầu tiên bộ lọc tích chập kích thước 1x1 được áp dụng cho mỗi khối con trong kiến trúc hình tháp với mục đích làm giảm số chiều của bản đồ đặc trưng (ví dụ từ 64 chiều xuống còn 32 chiều) trước khi áp dụng bộ lọc thông dụng kích thước 3x3. Do số chiều của bản đồ đặc trưng giảm nên chi phí tính toán giảm đi một cách đáng kể. Ví dụ đầu ra của tầng trước (là đầu vào của tầng hiện tại) là 100x100x128 đi qua tầng nhân chập hiện tại cho đầu ra là 100x100x256 sau khi nhân chập với mặt nạ 3x3 với 256 kênh (stride =1, pad=2), thì các tham số sẽ là 128x3x3x256 = 294912. Nếu đầu ra của tầng trước đi qua tầng nhân chập kích thước 1x1 với 64 kênh trước và sau đó nhân chập với mặt nạ 3x3, 256 kênh thì kết quả vẫn là 100x100x256, nhưng tham số nhân chập giảm xuống 128x1x1x64 + 64x3x3x256=155648, tức là giảm gần 2 lần.

Một khối con chứa một tầng tích chập với kích thước mặt nạ 3x3. Trong khi khối còn lại chứa hai tầng tích chập kích thước mặt nạ 3x3 như trong hình 3.9. Các đặc trưng cục bộ sau khi qua các tầng tích chập của hai khối con có kích thước khác nhau được tập hợp và nối lại với nhau. Kết nối nhanh (short- cut) được áp dụng trực tiếp giữa đầu vào và đầu ra hạn chế hiện tượng mất gradient trong các mạng học sâu. Các kết nối short-cut được chứng minh trong nghiên cứu [31] không làm gia tăng thêm các tham số phụ cũng như độ phức tạp chi phí tính toán.

Partial Convolution

Khái niệm về tích chập từng phần được đề xuất lần đầu trong nghiên cứu [50] áp dụng cho bài toán inpainting với các vùng trống không phổ dụng đã thu được kết quả khả quan. Tích chập từng phần có thể được suy ra bằng các mặt nạ và có được tái chuẩn hóa chỉ dựa trên các điểm ảnh hợp lệ. Gọi W là trọng số của bộ lọc tích chập và b là độ lệch chuẩn tương ứng. X là các giá trị đặc

trưng trong cửa sổ trượt hiện tại, M là mặt nạ nhị phân tương ứng. Tích chập từng phần tại mỗi vị trí được biểu diễn như sau:

𝑥′ = {𝑊

𝑇(𝑋 ⊙ 𝑀) 1

𝑠𝑢𝑚(𝑀)+ 𝑏, 𝑠𝑢𝑚(𝑀) > 0

0, 𝑛𝑔ượ𝑐 𝑙ạ𝑖 (3.4) Trong đó ⊙ biểu diễn phép nhân từng phần tử tương ứng của hai ma trận. Có thể thấy rằng, các giá trị tính được chỉ phụ thuộc vào vùng ngoài mặt nạ. Tích chập từng phần có ảnh hưởng tốt hơn tích chập chuẩn khi xử lý chính xác với các mặt nạ kích thước bất kỳ. Khác với bài toán phân loại ảnh hay dò tìm đối tượng trong đó tất cả các điểm ảnh của ảnh đầu vào là hợp lệ, bài toán inpainting lại có nhiều điểm ảnh không hợp lệ nếu bị rơi vào vùng bị phá hủy hay các vùng trong mặt nạ. Các giá trị điểm ảnh của vùng mặt nạ thông thường được đặt là 0 hoặc 1. Tận dụng các ưu điểm của phép tích chập từng phần này, mô hình cải tiến thay thế phép tích chập chuẩn ở tất cả các tầng tích chập bằng phép tích chập từng phần.

Ngoài ra, theo sau mỗi phép tích chập từng phần là cơ chế phát sinh và cập nhật mặt nạ tự động cho các tầng tích chập tiếp theo như là một phần của mạng chuyển tiếp. Nếu như phép tích chập có thể ước định đầu ra của nó trên ít nhất một giá trị đầu vào hợp lệ thì vị trí này được đánh dấu là hợp lệ. Điều này có thể được biểu diễn bởi công thức:

𝑚′ = {1 𝑛ế𝑢 𝑠𝑢𝑚(𝑀) > 0

3.2.3. Hàm loss

Hàm loss toàn cục dùng để huấn luyện mô hình được định nghĩa như sau: 𝐿𝑡𝑜𝑡𝑎𝑙 = 𝜆𝑟𝑒𝑐ℒ𝑟𝑒𝑐 + 𝜆𝑝𝑒𝑟ℒ𝑝𝑒𝑟 + 𝜆𝑠𝑡𝑦𝑙𝑒ℒ𝑠𝑡𝑦𝑙𝑒+ 𝜆𝐺ℒ𝐺 (3.6)

Hàm loss cấu trúc. Để so sánh sự khác biệt giữa hai cấu trúc ảnh khôi phục và ảnh gốc trong hàm Loss cấu trúc sử dụng chuẩn L1 được định nghĩa như sau:

ℒ𝑟𝑒𝑐 = ‖𝑀⨀(V − O)‖1 (3.7)

Hàm loss trực quan. Hàm loss trực quan (perceptual loss) dùng để đo sự khác biệt về trực quan và ngữ nghĩa giữa hai ảnh được định nghĩa tương tự như trong [39]:

ℒ𝑝𝑒𝑟Φ,𝑗(𝑂, 𝑉) = 1

𝐶𝑗𝐻𝑗𝑊𝑗‖𝜙𝑗(O) − 𝜙𝑗(V)‖1 (3.8) Trong đó 𝜙𝑗(𝐼) là các bản đồ đặc trưng kích hoạt đầu ra của tầng thứ j của mạng 𝜙 khi xử lý ảnh 𝐼; 𝜙𝑗(𝐼) là một bản đồ đặc trưng có kích thước Cj x Hj x Wj. Perceptual loss lần đầu tiên được áp dụng cho bài toán inpainting ảnh trong nghiên cứu [90].

Hàm loss hình dáng. Hàm loss hình dáng (style loss) cũng được sử dụng để loại bỏ các thành phần lạ hình bàn cờ [60], tương tự như perceptual loss, nhưng ma trận tương quan (ma trận Gram) trên mỗi bản đồ đặc trưng được sử dụng và được định nghĩa như sau:

ℒ𝑠𝑡𝑦𝑙𝑒Φ,𝑗 (𝑂, V) = 1

𝐶𝑗𝐻𝑗𝑊𝑗‖𝐺𝑗Φ(O) − 𝐺𝑗Φ(V)‖

1 (3.9)

Trong đó, 𝜙𝑗(𝐼) là một bản đồ đặc trưng mức cao có hình dạng CjxHjxWj, đưa ra một ma trận gram 𝐺𝑗Φ kích thước Cj x Cj và 1

𝐶𝑗𝐻𝑗𝑊𝑗 là hệ số chuẩn hóa cho tầng thứ j.

Hàm loss phân biệt ảnh tái tạo và ảnh thực theo thời gian. Để giải quyết bài toán video inpainting với mặt nạ có kích thước hình dạng bất kỳ, hơn nữa mặt nạ có thể ở vị trí ngẫu nhiên trong ideo, các đặc trưng cục bộ và toàn cục cần được xem xét trong từng frame cùng với sự nhất quán về mặt thời gian của những đặc trưng trong các frame này. Một ý tưởng đơn giản là áp dụng một hàm loss chung cho từng thành phần này. Tuy nhiên, kinh nghiệm cho thấy, rất khó để cân đối các trọng số của những hàm loss này đặc biệt là khi một vài trong số chúng là các hàm loss trong mạng sinh đối kháng (generative adversarial network - GAN) thường được thêm vào để làm cho ảnh hoàn thiện có tính chân thực hơn [60] [92] [91].

Bắt nguồn từ đề xuất của Yu và các cộng sự [91] sử dụng hàm loss GAN cho các bản đồ đặc trưng phân biệt để thay thế cho việc phải sử dụng các GAN toàn cục và cục bộ nhằm giải quyết vấn đề mà các mặt nạ xuất hiện ở vị trí ngẫu nhiên trong video cũng như ở bất kỳ khuôn dạng nào. Bộ phân biệt Temporal PathGAN (T-PatchGAN) được giới thiệu trong [14] tập trung vào sự khác biệt giữa các đặc trưng không gian-thời gian nhằm tận dụng đầy đủ các đặc trưng ảnh toàn cục, cục bộ và các thông tin về thời gian với nhau. Bộ phân biệt T- PatchGAN bao gồm 6 tầng tích chập với bộ lọc kích thước 3 x 5 x 5 và bước nhảy 1 x 2 x2. Lúc này, hàm loss để phân biệt video đầu vào là thật hay giả được định nghĩa dựa trên nghiên cứu [14] như sau:

ℒ𝐷 = 𝔼𝑥~𝑃𝑑𝑎𝑡𝑎(𝑥)[𝑅𝑒𝐿𝑈(1 + 𝐷(𝑥)] + 𝔼𝑧~𝑃𝑧(𝑧)[𝑅𝑒𝐿𝑈(1 − 𝐷(𝐺(𝑧))] (3.10)

ℒ𝐺 = −𝔼𝑧~𝑃𝑧(𝑧)[𝐷(𝐺(𝑧))] (3.11)

Trong đó 𝐺 là mạng video inpainting nhận đầu vào là video z và D là bộ phân biệt T-PatchGAN.

3.2.4. Ước lượng, đánh giá mô hình hoàn thiện video

Trong quá trình thực nghiệm, mô hình tái tạo, hoàn thiện ảnh cải tiến RBPConv và mô hình video inpainting cải tiến V-RBPConv được thực hiện

độc lập trên cùng tập mặt nạ nhưng với các tập dữ liệu huấn luyện khác nhau. Chi tiết về môi trường và kết quả thực nghiệm được trình bày trong các phần sau đây.

Hình 3.10. Một số mặt nạ minh họa [14]

3.2.4.1. Môi trường thực nghiệm

Tập mặt nạ huấn luyện. Dữ liệu huấn luyện đặc biệt quan trọng cho các phương pháp dựa trên huấn luyện. Trong nghiên cứu này, luận án ngoài việc sử dụng tập mặt nạ tạo ra trong nghiên cứu [50] để kiểm thử mô hình RBPConv và so sánh kết quả với các mô hình khác còn sử dụng tập mặt nạ được tạo ra dựa trên thuật toán sinh mặt nạ trong nghiên cứu [14]. Các mặt nạ này được chia vào 3 nhóm gồm: mặt nạ hình điểm, mặt nạ dạng hình chữ nhật, mặt nạ hình đường vẽ như được minh họa trong hình 3.10. Tuy nhiên do phạm vi, đặc trưng của bài toán nghiên cứu nhóm mặt nạ hình chữ nhật không được dùng để kiểm thử mà tập trung vào nhóm hình điểm và hình đường vẽ, đặc biệt là nhóm mặt nạ hình đường vẽ bất kỳ được kiểm nghiệm nhiều nhất do phù hợp nhất với bài toán thay thế đối tượng quảng cáo trong video. Tập mặt nạ ảnh huấn luyện mô hình RBPConv gồm 55.116 mặt nạ và tập kiểm thử gồm 24.886 mặt nạ. Tập dữ liệu huấn luyện cho mô hình video inpainting V-RBPconv gồm 28,000 video với mặt nạ bất kỳ cho từng frame cho pha huấn luyện và mỗi loại mặt nạ có 100 video được tạo ra cho pha kiểm thử.

Tập dữ liệu kiểm thử. Luận án sử dụng 2 bộ dữ liệu thực nghiệm. Bộ dữ liệu Places2 [55] dùng để so sánh kết quả thực nghiệm của mô hình RBPConv với các kết quả thực nghiệm của các nghiên cứu gần nhất. Để so sánh

kết quả thực nghiệm của mô hình V-RBPconv, tập dữ liệu FVI (Free-form video inpainting) được Ya-Liang Chang và các cộng sự sưu tầm trong nghiên cứu [14]. Tập dữ liệu này bao gồm các video từ tập dữ liệu YouTube-VOS [88] và YouTube-BoundingBoxes [67]. Vì vậy dữ liệu có tính đa dạng cao với nhiều kiểu đối tượng, cũng như các hành động của con người và động vật. Mặt khác, tất cả các video trong tập dữ liệu FVI có nguồn gốc từ YouTube nên ngữ cảnh của nó là thế giới thực. Ngoài ra, trong video đã cung cấp cả phân vùng đối tượng và bounding box nên FVI rất phù hợp để kiểm thử cho bài toán thay thế đối tượng khi vùng trống sinh ra là nhỏ, dài, đa dạng về mặt hình thái và bài toán loại bỏ đối tượng.

Môi trường thực nghiệm. Môi trường thực nghiệm được thiết lập tương đương trong nghiên cứu [14]. Tiến trình huấn luyện được thực hiện trên máy chủ Nvidia Tesla V100 GPU (16GB). Các tham số trong mô hình V-RBPcon được tối ưu hóa sử dụng giải thuật Adam [45] với tỷ lệ học là 0.0002, kích thước mỗi batch là 16.

GLCIC [36] CA [92] PIC [94] RBPConv

3.2.4.2. Kết quả so sánh định tính

Hình 3.11 biểu diễn các kết quả tái tạo, hoàn thiện ảnh trực quan của RBPconv so với các phương pháp được phát triển gần đây nhất là GLCIC (Global and Local Consistent Image Completion) [36], CA(Contextual Attention) [92], PIC (Pluralistic Image Completion) [94]. Những kết quả này minh chứng rằng mặc dù không có một mạng tách biệt cho phát sinh cạnh như trong nghiên cứu [94] nhưng ảnh được khôi phục vẫn bảo toàn các cấu trúc hợp lý. Mô hình cải tiến tận dụng kiến trúc residual có thể cập nhật các mặt nạ từng bước và cũng cho phép các bộ lọc tích chập tự hoàn thiện các đường bao. Hơn nữa trong ảnh hoàn thiện các vết mờ rất cũng ít xuất hiện. Các ảnh tạo ra bởi mô hình RBPConv gần với ground truth hơn các ảnh sinh từ các phương pháp khác. Mặc dù trong một số ít trường hợp có thể xuất hiện vết mờ, nhưng nó lại thích hợp với nền của các vùng xung quanh.

(a) video đầu vào (b) Edge Connect [60] (c) CombCN [82]

(d) 3Dgated [14] (e) V-RBPconv (f) Ground Truth

Trong khi đó kết quả video inpainting trực quan được thể hiện trong hình 3.12. Kết quả trực quan này cho thấy mô hình CombCN’s cho chất lượng video thấp nhất với một số phần inpainting bị mờ. Trong khi đó, có một chút nhấp nháy xuất hiện khi hoàn thiện với các mô hình Edge-Connect. Mô hình V- RBPconv và 3Dgated cho ra kết quả rất tự nhiên hơn với tính nhất quán về thời gian cao hơn các kỹ thuật còn lại.

3.2.4.3. Kết quả so sánh định lượng

Chất lượng hình ảnh thu được sau khi inpainting có thể được đánh giá định lượng thông qua các chỉ số đo. Để đánh giá định lượng về chất lượng của mô hình tái tạo, hoàn thiện ảnh, luận án sử dụng các độ đo chất lượng ảnh là: chỉ số đồng nhất có cấu trúc (Structural Similarity Index - SSIM) [95] và Tỉ số tín hiệu cực đại trên nhiễu (Peak Signal-to-Noise Ratio - PSNR) [27].

SSIM là độ đo chất lượng ảnh tái tạo dựa trên đánh giá tác động trực quan lên ba đặc tính của ảnh: độ chói, độ tương phản và cấu trúc. Vì vậy chỉ số tổng thể được tổng hợp từ tích của ba thành phần:

Thay thế đối tượng trong video

Dựa trên điểm đặc trưng