Trong những năm gần đây, nhờ sự phát triển mạnh mẽ của các mô hình novel viewsynthesis tổng hợp góc nhìn mới sử dụng mạng nơ-ron, chúng ta có thể mô hình hoámột đối tượng hay bối cảnh tr
Trang 1MAI VĂN QUÂN
PHÁT TRIỂN MÔ HÌNH TỔNG HỢP NOVEL SPACE-TIME VIDEO TỪ TẬP
Trang 2Cán bộ hướng dẫn khoa học : TS Nguyễn Đức Dũng
2 Thư ký: TS Nguyễn Tiến Thịnh
3 Phản biện 1: TS Lê Thị Thủy
4 Phản biện 2: TS Trang Hồng Sơn
5 Ủy viên: PGS.TS Huỳnh Tường Nguyên
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành sau khi luận văn đã được sửa chữa (nếu có).
KHOA KHOA HỌC VÀ
KỸ THUẬT MÁY TÍNH
Trang 3
NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Mai Văn Quân MSHV:1970128
Ngày, tháng, năm sinh: 28/07/1995 Nơi sinh: Thanh Hoá
Chuyên ngành: Khoa học máy tính Mã số : 8480101
I TÊN ĐỀ TÀI: Phát triển mô hình tổng hợp Novel Space-Time video từ tập ảnh chụp liên tục (Tên đề tài tiếng Anh: Develop novel space-time video synthesis model from consecutive photos)
II NHIỆM VỤ VÀ NỘI DUNG: • Tìm hiểu các mô hình, các nghiên cứu nhằm biểu diễn bối cảnh và chủ thể động trong thế giới thực từ những ảnh chụp liên tục và số lượng ảnh đầu vào hạn chế • Hiện thực, xây dựng mô hình mục tiêu Sau đó, phân tích ưu, nhược điểm của các mô hình mục tiêu để đưa ra những hướng cải tiến mô hình phù hợp III NGÀY GIAO NHIỆM VỤ : 01/09/2022
IV NGÀY HOÀN THÀNH NHIỆM VỤ: 15/05/2023
V CÁN BỘ HƯỚNG DẪN : TS Nguyễn Đức Dũng
Tp HCM, ngày tháng năm 20
CÁN BỘ HƯỚNG DẪN
TRƯỞNG KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH
(Họ tên và chữ ký)
Trang 4Để hoàn thành được đề tài luận văn này, tôi xin phép được gửi lời cảm ơn sâu sắc đến
sự dẫn dắt và hỗ trợ nhiệt thành của Tiến Sĩ Nguyễn Đức Dũng Tôi kính chúc thầy dồidào sức khỏe để luôn tận tâm và tận tình hướng dẫn những thế hệ sau trưởng thành trên
cả con đường học vấn cũng như làm người Tôi cũng xin phép được cảm ơn các thầy, côtrong bộ môn Khoa Học Máy Tính và Kỹ Thuật Máy Tính, trường Đại học Bách khoa,Đại học Quốc gia thành phố Hồ Chí Minh đã giảng dạy, truyền đạt kiến thức cho tôitrong suốt chặng đường học thạc sĩ Tôi kính chúc các thầy, cô dồi dào sức khỏe, thànhcông trong sự nghiệp giảng dạy cao quý của mình
Hồ Chí Minh, ngày 06 tháng 06 năm 2023
Học viên thực hiệnMai Văn Quân
Trang 5Trong những năm gần đây, nhờ sự phát triển mạnh mẽ của các mô hình novel viewsynthesis (tổng hợp góc nhìn mới) sử dụng mạng nơ-ron, chúng ta có thể mô hình hoámột đối tượng hay bối cảnh trong không gian 3 chiều từ tập ảnh hoặc video ở các gócnhìn khác nhau Từ đó, tổng hợp hình ảnh của bối cảnh, chủ thể ở một góc nhìn hoàntoàn mới Dù đạt được nhiều kết quả ấn tượng trong việc biểu diễn đối tượng và bối cảnhtĩnh, không thay đổi theo thời gian, bài toán mô hình hoá các đối tượng và bối cảnh độngcòn gặp nhiều thách thức, đặc biệt khi số lượng ảnh đầu vào cho mô hình là hạn chế.Luận văn này đề xuất một mô hình mới giúp biểu diễn các đối tượng và bối cảnhđộng trong không gian 3 chiều từ tập ảnh chụp liên tục, từ đó tổng hợp hình ảnh củađối tượng tại thời điểm và góc nhìn bất kì Nhằm giải quyết bài toán số lượng ảnh đầuvào hạn chế, mô hình được huấn luyện để sử dụng các đặc trưng trích xuất từ những ảnhđầu vào và sử dụng thông tin này để tổng hợp hình ảnh đối tượng chủ thể Thông quacác thí nghiệm và đánh giá trên tập dữ liệu NVIDA Dynamic Dataset, mô hình đề xuấtmang lại chất lượng tổng hợp ảnh tốt hơn so với các mô hình trước đó khi số lượng ảnhđầu vào hạn chế.
Với việc đề xuất mô hình mới này, luận văn đã đóng góp vào việc phát triển các môhình novel view synthesis giúp tổng hợp hình ảnh đối tượng và bối cảnh động từ một vàiảnh đầu vào Điều này có thể ứng dụng rộng rãi trong các lĩnh vực như mạng xã hội, tròchơi điện tử, thiết kế đồ họa, và giảng dạy đa phương tiện
Trang 6Thanks to the rapid development of novel view synthesis models using neural networks
in recent years, we can easily present a scene in 3D space from various images or videosfrom different viewpoints Then, views of scenes can be synthesized at novel camera views.Despite the remarkable result of modeling static scenes, these model has limited ability
to model dynamic scenes, especially when a few input views are provided
The thesis proposes a new approach that allows our model to present dynamic scenes
in 3D space from consecutive images Our model leverages shared priors learned acrossscenes to predict appearance and geometry at static background regions, enabling the few-shots novel space-time view synthesis of dynamic scenes We conduct multiple experiments
on NVIDIA Dynamic Scenes Dataset that demonstrate our approach results in a betterrendering quality compared to prior works when a few input views are available
The thesis has developed a new model that can help synthesize dynamic scenes from
a few input images, which has potential applications in various fields such as social working, video games, graphic design, and multimedia for education
Trang 7net-Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi dưới sự hướng dẫn củaTiến Sĩ Nguyễn Đức Dũng Nội dung nghiên cứu và các kết quả thí nghiệm, đánh giáđều là trung thực và chưa từng được công bố trước đây Ngoài ra, tôi cũng có sử dụngmột số nhận xét, đánh giá, số liệu, bảng biểu, hình ảnh của các tác giả, cơ quan tổ chứctrong các công trình nghiên cứu khác và tất cả đều có trích dẫn, chú thích nguồn gốc rõràng Trong trường hợp có bất kì sự gian lận nào, tôi xin hoàn toàn chịu trách nhiệm.Trường đại học Bách Khoa thành phố Hồ Chí Minh không liên quan đến những vi phạmtác quyền, bản quyền do tôi gây ra trong quá trình thực hiện.
Hồ Chí Minh, ngày 06 tháng 06 năm 2023
Học viên thực hiệnMai Văn Quân
Trang 81 Giới thiệu 1
1.1 Giới thiệu bài toán 1
1.2 Mục tiêu nghiên cứu của đề tài 1
1.3 Đối tượng nghiên cứu chính 2
1.4 Phạm vi đề tài 2
2 Các công trình nghiên cứu liên quan 3 2.1 Tổng hợp góc nhìn mới (Novel-view synthesis) 3
2.2 Nội suy khung ảnh (Frame interpolation) 5
2.3 Tổng hợp góc nhìn với thời không mới (Space-time view synthesis) 6
3 Kiến thức nền tảng 8 3.1 Mô hình mạng Neural Radiance Fields (NeRF) 8
3.2 Mô hình mạng Neural Scene Flow Fields (NSFF) 12
4 Mô hình đề xuất: Neural Scene Flow Fields With Encoder (NSFFwE) 18 4.1 Tổng quan 18
4.2 Kiến trúc mô hình đề xuất 19
5 Hiện thực và đánh giá 22 5.1 Hiện thực và huấn luyện mô hình đề xuất 22
5.2 Đánh giá 28
6 Tổng kết 35 6.1 Hướng phát triển trong tương lai 36
Trang 92.1 Đánh giá mô hình VFIformer[1] với các mô hình khác dựa trên độ đoPSNR/SSIM 65.1 Các thông số được dùng cho mô hình bối cảnh tĩnh 285.2 Kết quả so sánh giữa mô hình đề xuất (NSFFwE) và mô hình NSFF 33
Trang 102.1 Tổng quan của mô hình Neural radiance field (NeRF) [2] 4
2.2 Mô hình pixelNeRF chỉ với 3 ảnh đầu vào đã có thể sinh được ảnh bối cảnh ở góc nhìn hoàn toàn mới [3] 4
2.3 Tổng quan kiến trúc mô hình pixelNeRF [3] 4
2.4 Vùng ảnh tại nơi có chuyển động lớn bị nhoè khi sử dụng AMBE[4], RIFE-Large[5] hay AdaCoF[6] khi so sánh với mô hình VFIformer[1] 6
2.5 Kiến trúc mô hình Nerfies - Deformable Neural Radiance Fields [7] 7
3.1 Mô hình NeRF [2] cho ra chất lượng ảnh vượt trội khi so sánh với các mô hình tốt nhất tại thời điểm đó là Scene Representation Networks[8] và Local Light Field Fusion[9] 9
3.2 Mô hình NeRF sử dụng 100 ảnh đầu để biểu diễn bối cảnh là dàn trống, từ đó tổng hợp ra hình ảnh bối cảnh ở góc nhìn hoàn toàn mới [2] 9
3.3 Kiến trúc mạng nơ-ron MLP của mô hình NeRF [2] 10
3.4 Mô hình NeRF cho kết quả tổng hợp ảnh tốt hơn khi sử dụng Positional encoding để encode toạ độ và hướng quay trước khi đưa vào mô hình [2] 11 3.5 Render khung ảnh tại thời điểm i sử dụng Volume Rendering và warping khung ảnh từ các thời điểm lân cận j ∈ N (i) theo scene flow 13
3.6 Kết quả khi so sánh mô hình NSFF với các mô hình khác trên tập dữ liệu Dynamic Scenes Dataset [10] 15
3.7 Kết quả sinh ảnh ở góc nhìn mới sử dụng riêng biệt và kết hợp mô hình biểu diễn bối cảnh tĩnh và mô hình biểu diễn bối cảnh động 16
3.8 Kết hợp mô hình biểu diễn bối cảnh tĩnh và mô hình biểu diễn bối cảnh động giúp ảnh sinh ra chi tiết hơn 16
4.1 Tổng quan kiến trúc mô hình đề xuất 19
4.2 Kiến trúc chi tiết của mạng tích chập f 21
5.1 Một số ví dụ trong tập dữ liệu Nvidia Dynamic Scenes Dataset[10] 23
5.2 Kiến trúc mô hình biểu diễn bối cảnh động 24
Trang 11trên bối cảnh "kid-running" 265.5 Mô hình đề xuất hội tụ ở các thành phần của hàm mục tiêu 275.6 Hình ảnh và depth map được mô hình tổng hợp tại mỗi bước huấn luyện 295.7 Hệ số pha màu được mô hình đưa ra sau mỗi bước huấn luyện 305.8 Độ lỗi của mô hình khi huấn luyện trên các bối cảnh trong tập dữ liệuNvidia Dynamic Scenes Dataset 315.9 Hình ảnh tổng hợp từ mô hình đề xuất, NSFF và hình ảnh tham khảo(grouth truth) 335.10 Hình ảnh tổng hợp từ mô hình đề xuất với những bối cảnh và chủ thể kháctrong tập dữ liệu 34
Trang 12Chương 1
Giới thiệu
Với sự phát triển mạnh mẽ của công nghệ camera trên thiết bị di động trong nhữngnăm gần đây, chúng ta ta dễ dàng ghi lại những khoảnh khắc ý nghĩa với chất lượng hìnhảnh chân thật và sắc nét Để chọn được bức ảnh ưng ý, việc chụp liên tục nhiều tấmảnh là cần thiết, đặc biệt là với những người dùng phổ thông, không phải nhiếp ảnh giachuyên nghiệp Điều này dẫn đến một số lượng lớn ảnh dư thừa được lưu trữ trong bộnhớ điện thoại hoặc trên các dịch vụ lưu trữ điện toán đám mây
Nếu có thể phát triển một mô hình biểu diễn được cấu trúc, vị trí, màu sắc, độ phảnchiếu, sự dịch chuyển, của bối cảnh và chủ thể từ những ảnh chụp liên tục, chúng ta cóthể tổng hợp hình ảnh của bối cảnh và chủ thể ở những góc nhìn khác với ảnh đầu vào
Từ đó kết hợp với hiệu ứng dịch chuyển camera (di chuyển từ xa tới gần, từ gần đi ra xa,hoặc di chuyển máy ảnh từ trái sáng phải, từ trên xuống dưới, ), chúng ta có thể sinhđược một bức ảnh động hoặc video ngắn về bối cảnh và chủ thể với một góc quay hoàntoàn mới
Nhận thấy việc phát triển mô hình biểu diễn chủ thể và bối cảnh trong thế giới thựctồn tại nhiều thách thức cần phải giải quyết, đặc biệt là khi đầu vào là bối cảnh động(con người, xe cộ di chuyển, ) và số lượng ảnh đầu vào hạn chế, luận văn mong muốnđóng góp những cải tiến mang lại giá trị nghiên cứu cũng như thực tiễn thông qua đề tàinghiên cứu này
1 Tìm hiểu các mô hình, các nghiên cứu nhằm biểu diễn bối cảnh và chủ thể độngtrong thế giới thực từ những ảnh chụp liên tục và số lượng ảnh đầu vào hạn chế
Từ đó phân tích ưu, nhược điểm của các mô hình để đưa ra những hướng cải tiến
Trang 13phù hợp.
2 Đề xuất mô hình học máy biểu diễn cấu trúc, vị trí, màu sắc, độ phản chiếu, sự dichuyển, của chủ thể và bối cảnh động từ những ảnh chụp liên tục và số lượng ảnhđầu vào là hạn chế
3 Xác định phương pháp đánh giá kết quả mô hình đã đề xuất và so sánh với các môhình hiện có
Đề tài luận văn tập trung vào đối tượng chính là các mô hình học máy mạng nơ-ron
có khả năng biểu diễn được cấu trúc 3D của bối cảnh và chủ thể động tại một thời điểm
t bất kì Các mô hình này sẽ mô hình hoá một ánh xạ f có đầu vào là toạ độ của mộtđiểm trong không gian 3D và thời điểm t, đầu ra là màu sắc và mật độ vật chất (density)tại điểm đó
Trong đề tài này, ảnh đầu vào là những ảnh được chụp liên tục từ máy ảnh trên điệnthoại di động Số lượng ảnh đầu vào có thể dao động từ 3 đến 10 ảnh Do những ảnhđược chụp liên tục trong khoảng thời gian ngắn, nên không có nhiều sự thay đổi về vị trí
và hướng quay của máy ảnh
Chủ thể được chụp có thể là con người, động vật hoặc xe cộ đang hoạt động hoặc dichuyển trong điều kiện thời tiết đẹp, đủ ánh sáng, không bị ảnh hưởng nhiều bởi yếu tốmôi trường và thời tiết xung quanh
Phần tiếp theo của luận văn sẽ trình bày những thông tin tổng quan về những côngtrình nguyên cứu trong nước và trên thế giới liên quan tới đề tài Từ đó lựa chọn ra những
mô hình và kiến thức nền tảng trong việc xây dựng mô hình đề xuất Ở chương 4, luậnvăn sẽ trình bày kiến trúc của mô hình đề xuất và những cải tiến của mô hình so vớinhững mô hình trước đó Chi tiết hiện thực và kết quả đánh giá mô hình đề xuất sẽ đượctrình bày tiếp theo ở Chương 5 Cuối cùng tại chương 6, luận văn sẽ tổng kết những giátrị và kết quả của việc nghiên cứu mang lại, đồng thời trình bày những điểm cần phải cảitiến và kế hoạch phát triển mô hình trong tương lai
Trang 14Chương 2
Các công trình nghiên cứu liên quan
Để sinh được hình ảnh bối cảnh và chủ thể ở góc nhìn mới, nhiều phương pháp renderhiện nay đề xuất việc biểu diễn bối cảnh và chủ thể trong không gian 3D bằng Pointcloud hoặc Triangle mesh Những phương pháp này đảm bảo chất lượng hình ảnh đượcrender tốt, tuy nhiên để xây dựng đầy đủ Point cloud hoặc Triangle mesh cho một bốicảnh cần những thiết bị đặc biệt như máy scan 3D, hoặc áp dụng các kĩ thuật trong lĩnhvực Photogrammetry Sử dụng nhiều bộ nhớ cũng là một nhược điểm của những phươngpháp biểu diễn này vì hầu như mọi điểm của bối cảnh trong không gian 3D phải đượclưu trữ
Nổi lên trong những năm gần đây, Neural Radiance Field (NeRF)[2] đề xuất sử dụngmột hàm liên tục được mô hình bởi một mạng nơ-ron multilayer perceptron (MLP) đểbiểu diễn bối cảnh trong không gian 3D Hình 2.1 mô tả tổng quan kiến trúc của mô hìnhNeRF Theo đó, mạng nơ-ron này nhận input đầu vào là toạ độ (x, y, z) của một điểm
P trong không gian, và hướng nhìn (θ, ϕ) Đầu ra của mạng là màu sắc (RGB) và mật
độ vật chất (α) tại điểm P đó Sử dụng kĩ thuật Volume Rendering [12], NeRF tổng hợptoàn bộ màu sắc và mật độ vật chất của các điểm trên cameray ray để sinh hình ảnh củabối cảnh Tại thời điểm công bố, NeRF vượt trội các kĩ thuật view synthesis tốt nhất tạithời điểm đó (Neural Volumes[13], Scene Representation Networks[8], Local Light FieldFusion[9]) về cả chất lượng render và bộ nhớ lưu trữ
Vì mô hình NeRF thực hiện quá trình huấn luyện cho từng bối cảnh riêng biệt, nêncần rất nhiều hình ảnh về bối cảnh ở nhiều góc chụp và hướng chụp khác nhau Ngoài ra,quá trình huấn luyện cũng cần nhiều thời gian và sức mạnh tính toán Thay vì sử dụngPosional Encoding như ở NeRF, pixelNeRF [3] đề xuất sử dụng một mạng CNN Encoder
để trích xuất đặc trưng của ảnh đầu vào, và sử dụng những đặc trưng này làm đầu vàocho mạng nơ-ron MLP để dự đoán màu và mật độ vật chất tại một điểm trên camera ray
Trang 15Hình 2.1: Tổng quan của mô hình Neural radiance field (NeRF) [2]
Hình 2.2: Mô hình pixelNeRF chỉ với 3 ảnh đầu vào đã có thể sinh được ảnh bối cảnh ở gócnhìn hoàn toàn mới [3]
Mạng CNN Encoder này được huấn luyện trên nhiều bối cảnh trong tập dữ liệu, để cóthể trích xuất đặc trưng cho một bối cảnh mới, không có trong tập dữ liệu Nhờ đó, vớimột bối cảnh mới, mô hình NeRF chỉ cần 2, 3 hình ảnh để có biểu diễn bối cảnh trongkhông gian 3D từ đó sinh ảnh bối cảnh bối cảnh ở như trong hình 2.2 Thời gian huấnluyện cho bối cảnh mới cũng ít hơn đáng kể so với mô hình NeRF
Hình 2.3 mô tả một cách tổng quan kiến trúc của mô hình pixelNeRF Mô hình đượcthiết kế tương đồng với NeRF, tuy nhiên đầu vào là đặc trưng được trích xuất từ mạngCNN Encoder
Dù đạt được những kết quả ấn tượng trong việc mô hình hoá cấu trúc 3D của bối
Hình 2.3: Tổng quan kiến trúc mô hình pixelNeRF [3]
Trang 16cảnh và chủ thể, và tổng hợp hình ảnh ở góc nhìn mới Những mô hình này hoạt độngtốt trên các bối cảnh tĩnh, không thay đổi theo thời gian Tuy nhiên, đa phần các bứcảnh được chụp trên điện thoại cá nhân và được chia sẻ trên mạng xã hội ngày nay là vềnhững bối cảnh và chủ thể như con người, động vật, xe cộ Những bối cảnh này có đặctính thay đổi theo thời gian Do đó chúng ta cần những mô hình khác để mô hình hoánhững bối cảnh động này.
Là kĩ thuật nội suy khung ảnh tại thời điểm t bất kì nằm giữa hai hay nhiều khungảnh liền kề trong một video Nội suy khung ảnh giúp video gốc trở nên mượt mà hơn nhờviệc tăng số lượng khung hình trên giây
Phased-based [14] là một trong những phương pháp được sử dụng trong nội suy khungảnh Theo đó, Phase-based dựa trên giả định rằng, những dịch chuyển nhỏ từ một khungảnh sang khung ảnh tiếp theo có thể được mô hình bằng sự dịch chuyển pha màu củatừng pixel riêng lẻ Phương pháp này hoạt động tốt khi sự chuyển dịch giữa các khunghình không lớn
Ngoài ra, bằng việc sử dụng mạng tích chập (Convolution Neural network), phươngpháp Kernel-based [15], [16] dự đoán màu của môt điểm ảnh tại toạ độ (x, y) ở khung ảnhmục tiêu từ việc tích chập vùng ảnh của những khung ảnh lân cận với một bộ lọc (kernel)
K Để mô hình những chuyển động lớn từ khung ảnh này qua khung ảnh tiếp theo, cầntăng kích thước bộ lọc, từ đó gia tăng số lượng tham số cần phải huấn luyện Tuy nhiên,
đa phần khung ảnh được sinh ra theo hướng tiếp cận Phased-base hoặc Kernel-based tồntại những vùng ảnh bị mờ hoặc nhoè, đặc biệt là những nơi có sự chuyển động nhanh củacác đối tượng trong ảnh
Gần đây hướng tiếp cận Motion-based [17], [6], [5] mang lại nhiều kết quả ấn tượng.Phương pháp này mô hình hoá optical flow (luồng quang) giữa hai khung ảnh sử dụngmạng học sâu, kết hợp với các kĩ thuật warping để nội suy ra khung ảnh mục tiêu Nhiều
mô hình theo hướng tiếp cận này có thể mô hình hoá một chuyển động phi tuyến tính[18], [19], hoặc việc bất đối xứng của chuyển động theo thời gian từ khung ảnh này quakhung ảnh kia [20] Được đề xuất bởi Liying Lu et al.[1], mô hình VFIformer kết hợp mạngTransformer[21] với Cross-Scale Window-based Attention để mô hình hoá các chuyển độnglớn, không đối xứng và phi tuyến tính giữa các khung ảnh Mô hình này mang lại kết quảvượt trội các mô hình khác tại thời điểm được đề xuất như AMBE[4], RIFE-Large[5] hayAdaCoF[6] Kết quả này được thể hiện trực quan ở hình 2.4 và các đánh giá ở bảng 2.1
Dù những mô hình này mang lại kết quả khả quan trong việc nội suy một khung ảnhtại thời điểm t bất kì, nhưng chỉ hoạt động giới hạn trong không gian 2D Chúng ta cần
Trang 17Hình 2.4: Vùng ảnh tại nơi có chuyển động lớn bị nhoè khi sử dụng AMBE[4], RIFE-Large[5]hay AdaCoF[6] khi so sánh với mô hình VFIformer[1]
Bảng 2.1: Đánh giá mô hình VFIformer[1] với các mô hình khác dựa trên độ đo PSNR/SSIM
ToFlow [ 22 ] 33.73/0.9682 34.58/0.9667 2.15 39.08/0.9890 34.39/0.9740 28.44/0.9180 23.39/0.8310 SepConv [ 23 ] 33.79/0.9702 34.78/0.9669 2.27 39.41/0.9900 34.97/0.9762 29.36/0.9253 24.31/0.8448 CyclicGen [ 24 ] 32.09/0.9490 35.11/0.9684 - 37.72/0.9840 32.47/0.9554 26.95/0.8871 22.70/0.8083 DAIN [ 25 ] 34.71/0.9756 34.99/0.9683 2.04 39.73/0.9902 35.46/0.9780 30.17/0.9335 25.09/0.8584 CAIN [ 26 ] 34.65/0.9730 34.91/0.9690 2.28 39.89/0.9900 35.61/0.9776 29.90/0.9292 24.78/0.8507 AdaCoF [ 6 ] 34.47/0.9730 34.90/0.9680 2.24 39.80/0.9900 35.05/0.9754 29.46/0.9244 24.31/0.8439 BMBC [ 27 ] 35.01/0.9764 35.15/0.9689 2.04 39.90/0.9902 35.31/0.9774 29.33/0.9270 23.92/0.8432 RIFE-Large [ 5 ] 36.10/0.9801 35.29/0.9693 1.94 40.02/0.9906 35.92/0.9791 30.49/0.9364 25.24/0.8621 ABME [ 4 ] 36.18/0.9805 35.38/0.9698 2.01 39.59/0.9901 35.77/0.9789 30.58/0.9364 25.42/0.8639 VFIformer [ 1 ] 36.50/0.9816 35.43/0.9700 1.82 40.13/0.9907 36.09/0.9799 30.67/0.9378 25.43/0.8643
một phương pháp có thể nội suy khung ảnh không chỉ tại thời điểm t bất kì, mà còn vớithông số camera đầu vào khác nhau như vị trí camera, góc và hướng quay
(Space-time view synthesis)
Bối cảnh và chủ thể được chụp từ camera điện thoại di động không đứng yên, mà thayđổi theo thời gian Để có thể sinh ảnh của chủ thể ở thời điểm t, và tại một góc chụp bất
kì, các phương pháp trước đây [28], [29] yêu cầu đầu vào là nhiều video được quay động
bộ về thời gian ở các góc nhìn khác nhau Không chỉ việc thu thập dữ liệu mất nhiều côngsức, các phương pháp này cũng giới hạn về khả năng biểu diễn các bối cảnh phức tạp
Trang 18Hình 2.5: Kiến trúc mô hình Nerfies - Deformable Neural Radiance Fields [7]
Yoon et al [10] đề xuất phương pháp kết hợp depth-map của một ảnh và depth-maptrên nhiều ảnh, để sinh ảnh cho bối cảnh và chủ thể tại góc nhìn và thời điểm t bất kìdựa trên 3D warping Tuy nhiên phương pháp này yêu cầu chuẩn bị foreground mask thủcông trên những ảnh đầu vào Ngoài ra quá trình tiền xử lý và huấn luyện mô hình cũngmất rất nhiều thời gian Chất lượng ảnh sinh ra cũng không được tốt, đặc biệt là nhữngvùng ảnh bị che khuất
Dựa trên những thành công của mô hình NeRF, Park et al [7] đề xuất phương pháp
sử dụng deformation field để chuyển đổi toạ độ tại một điểm P trong không gian khiquan sát bối cảnh tại thời điểm t, thành toạ độ trong không không gian "mẫu" Khônggian này không phụ thuộc vào tham số thời gian Sử dụng toạ độ mới có được, mô hìnhtruy vấn màu sắc (RGB) và mật độ vật chất (α) của điểm P trong không gian "mẫu".Tương tự như NeRF, mô hình này dùng Volume Rendering để sinh ảnh bối cảnh và chủthể ở góc quay, và thời điểm t bất kì Hình 2.5 mô tả kiến trúc của mô hình Theo đódeformation field cũng được mô hình bởi một mạng nơ-ron MLP Màu sắc và mật độ vậtchất được dự đoán từ một mạng MLP khác với tham số đầu vào là toạ độ trong khônggian "mẫu" và hướng nhìn (θ, ϕ) Dù có thể biểu diễn bối cảnh động phức tạp, mô hìnhkhông hoạt động tốt với các chuyển động lớn, hoặc bất đối xứng
Li et al [11] đề xuất Neural Scene Flow Fields (NSFF), một biến thể của NeRF nhằmbiểu diễn bối cảnh và chủ thể trong cả không gian và thời gian Theo đó, đầu vào của môhình là toạ độ (x, y, z) của một điểm P trên camera ray với hướng nhìn (θ, ϕ) và tham
số thời gian t Mô hình sẽ dự đoán ra màu sắc RGB, mật độ vật chất (α) tại điểm P Môhình NSFF dựa trên sự nhất quán của bối cảnh được quan sát ở thời điểm t với bối cảnhđược quan sát ở các thời điểm lân cận (t − 1, t + 1) theo forward và backward scene flow,
để tối ưu hoá các tham số của mạng nơ-ron trong mô hình Tương tự như NeRF, huấnluyện mô hình NSFF cho một bối cảnh mất rất nhiều thời gian và sức mạnh tính toán
Trang 19Chương 3
Kiến thức nền tảng
NeRF được đề xuất lần tiên bởi Ben et al [2], mô hình sử dụng một mạng nơ-ron MLP
để biểu diễn bối cảnh trong không gian 3D Tại thời điểm công bố, NeRF vượt trội các kĩthuật view synthesis tốt nhất tại thời điểm đó (Nerual Volumes[13], Scene RepresentationNetworks[8], Local Light Field Fusion[9]) về cả chất lượng render (hình 3.1 và bộ nhớ lưutrữ
Dựa vào đầu vào là toạ độ (x, y, z) của một điểm P trong không gian và hướng quaycamera (θ, ϕ), mô hình dự đoán màu sắc (RGB) và mật độ vật chất (α) tại điểm P đó
Mô hình tổng hợp ảnh của bối cảnh ở góc nhìn hoàn toàn mới bằng cách dự đoán màu
và mật độ vật chất của toàn bộ các điểm trên cameray ray, và sử dụng kĩ thuật VolumeRendering để render màu sắc và mật độ vật chất lên mặt phẳng ảnh
Bởi vì Volume Rendering là một hàm số khả vi, việc huấn luyện và tối ưu hoá môhình để biểu diễn một bối cảnh chỉ cần đầu vào là một tập ảnh cùng camera pose của bốicảnh Hình 3.2 mô tả việc mô hình biểu diễn bối cảnh dàn trống từ 100 ảnh đầu và tổnghợp ra hình ảnh bối cảnh ở các góc nhìn khác với ảnh đầu vào
3.1.1 Kiến trúc mô hình
Để biểu diễn một bối cảnh trong không gian 3D, NeRF sử dụng mạng nơ-ron để môhình hoá một hàm liên tục Fθ : (x, d) → (c, α) Trong đó x là toạ độ (x, y, z) của mộtđiểm P trong không gian, d là hướng quay camera, c là màu sắc (RBG) và α là mật độvật chất α tại điểm P đó
Nhằm đảm bảo tính nhất quán trên nhiều góc nhìn, trong thiết kế mô hình, tác giảchỉ sử dụng toạ độ x để dự đoán mật độ vật chất α Trong khi đó, màu sắc c (RBG) vẫnđược tính toán từ cả toạ độ x và hướng quay d Hình 3.3 biểu diễn kiến trúc mạng MLPcủa mô hình NeRF Đầu tiên mô hình đưa toạ độ x của điểm P qua một mạng nơ ron
Trang 20Hình 3.1: Mô hình NeRF [2] cho ra chất lượng ảnh vượt trội khi so sánh với các mô hình tốtnhất tại thời điểm đó là Scene Representation Networks[8] và Local Light Field Fusion[9]
Hình 3.2: Mô hình NeRF sử dụng 100 ảnh đầu để biểu diễn bối cảnh là dàn trống, từ đó tổnghợp ra hình ảnh bối cảnh ở góc nhìn hoàn toàn mới [2]
Trang 21Hình 3.3: Kiến trúc mạng nơ-ron MLP của mô hình NeRF [2]
bao gồm 8 lớp fully-connected, với 256 channel ở mỗi lớp và skip connection tại lớp thứ
5, nhằm tính toán mật độ vật chất α và một feature vector 256 chiều Feature vector nàycùng với hướng quay d được đưa qua thêm 1 lớp fully-connected với 128 channel để dựđoán màu sắc c (RBG) của điểm P đó Trong thực tế, để tối ưu hoá quá trình huấn luyện
và hiệu suất mô hình, tác giả không sử dụng trực tiếp đầu vào 5 chiều là toạ độ x vàhướng quay d Thay vào đó, các đầu vào này sẽ được ánh xạ sang một không gian nhiềuchiều khác sử dụng kĩ thuật Positional encoding (γ) Kĩ thuật này sẽ được trình bày chitiết ở các mục sau
Để tổng hợp ảnh của bối cảnh ở một góc nhìn hoàn toàn mới, mô hình tính toán màucủa toàn bộ điểm ảnh trên mặt phẳng chiếu sử dụng kĩ thuật Volume Rendering [12].Theo đó, mật độ vật chất α(x) tại điểm P có toạ tộ x trong không gian 3D biểu diễn xácsuất tại đó camera ray không thể xuyên qua
Với r là camera ray từ trung tâm của phép chiếu xuyên qua điểm ảnh trên mặt phẳngchiếu, màu sắc tại điểm ảnh được đó tính như sau:
ˆC(r) =
Z t f
t n
Trong đó: T (t) = exp(−Rtt
nα(r(s))ds) thể hiện xác suất mà camera ray đi từ tn đến t
mà không xuyên qua vật thể nào
Hàm mục tiêu của mô hình L được tính bằng mean squared error (MSE) giữa màusắc được dự đoán ˆC(r), và màu sắc đúng C(r) trong tập huấn luyện như sau:
Lphoto=X
r i
∥ ˆC(r) − C(r) ∥22 (3.2)
Trang 22Hình 3.4: Mô hình NeRF cho kết quả tổng hợp ảnh tốt hơn khi sử dụng Positional encoding đểencode toạ độ và hướng quay trước khi đưa vào mô hình [2]
3.1.3 Positional encoding
Mặc dù theo lý thuyết mạng nơ-ron MLP có khả năng mô hình hoá bất kể hàm liêntục nào, tác giả nhận thấy rằng việc huấn luện mô hình chỉ dựa trên đầu vào 5 chiều làtoạ độ x và hướng quay d không hiệu quả Điều này cũng được thể hiện ở những nghiêncứu của Rahaman et al [30] khi huấn luyện mạng nơ-rơn học sâu mô hình những hàm cótần số thấp Để tối ưu hoá chất lượng mô hình, toạ độ x và hướng quay d sẽ được ánh
xạ từ không gian R qua một không gian nhiều chiều hơn R2L sử dụng kĩ thuật Positionalencoding Với hàm encoding theo công thức sau:
γ(p) = (sin 20πp, cos 20πp, , sin 2L−1πp, cos 2L−1πp) (3.3)
Việc áp dụng kĩ thuật Positional encoding trong việc huấn luyện mô hình mang lạikết quả tổng hợp ảnh tốt hơn và được thể hiện ở hình 3.4
3.1.4 Hierarchical volume sampling
Để tổng hợp màu sắc của một điểm trên mặt phẳng ảnh, việc dự đoán màu sắc củagần như toàn bộ các điểm trên camera ray không hiệu quả Những vùng trống, hoặc bịche khuất dù không hiển thị lên mặt phẳng ảnh, vẫn được mô hình dự đoán màu sắc.Nhằm giải quyết khuyết điểm này, tác giả đã đề xuất sử dụng kĩ thuật Hierarchical volumesampling Theo đó, không giống như mô hình ban đầu chỉ sử dụng một mạng nơ-ron đểbiểu diễn bối cảnh, mô hình mới sử dụng hai mạng nơ-ron: "coarse" và "fine"
Cụ thể, mạng "coarse" sẽ tiến hành lấy các điểm được phân bố đều và thưa thớt trêncameray ray và dự đoán màu sắc và mật độ vật chất của các điểm này Sau khi xác địnhđược vùng chứa đối tượng, mạng "fine" sẽ được sử dụng để dự đoán các điểm chi tiết hơntrên cameray ở những vùng đó
Trang 233.1.5 Giới hạn của mô hình
Dù mang lại chất lượng tổng hợp ảnh tốt và tối ưu dung lượng lưu trữ cho việc biểudiễn một bối cảnh trong không gian 3D, mô hình cần nhiều thời gian cho việc huấn luyện
và tổng hợp ảnh cho mỗi bối cảnh Theo tác giả, với một bối cảnh, mô hình cần tới xấp
xỉ 12 giờ cho việc huấn luyện Ngoài ra mô hình cần phải huấn luyện mô hình lại từ đầuvới một bối cảnh mới
Tương tự mô hình NeRF, mô hình NSFF sử dụng mạng nơ-ron MLP để biểu diễnmột hàm liên tục nhằm dự đoán màu và mật độ vật chất tại một điểm P bất kì trongkhông gian 3D với hướng quay camera biết trước Tuy nhiên, mô hình NSFF sử dụngthêm thông tin đầu vào là thời gian i, đồng thời biểu diễn sự chuyển động của chủ thểtại thời điểm i tới thời điểm i + 1, hoặc từ i ngược về i − 1 Cụ thể như sau:
Tại một điểm P trong không gian 3D có toạ độ (x, y, z) ở thời điểm i, với hướng quay
d, mô hình không chỉ dự đoán màu sắc ci, và mật độ vất chất αi, mà còn dự đoán forward
và backward scene flow Fi = (fi→i+1, fi→i−1) là những offset vector trỏ tới vị trí của điểm
P tại thời điểm i + 1 và i − 1 Ngoài ra, để biểu diễn việc các điểm đang bị che khuất,sau đó xuất hiện vì sự chuyển động của chủ thể, mô hình NSFF dự đoán thêm trọng số
Wi = (wi→i+1, wi→i−1) Công thức của hàm liên tục trong mô hình NSFF như sau:
(ci, αi, Fi, Wi) = FΘ(x, y, z, d, i) (3.4)
Các trọng số Θ của hàm liên tục FΘ trong công thức 3.5 được tính toán thông quaquá trình huấn luyện mạng nơ-ron MLP theo các hàm mục tiêu sau:
3.2.1.1 Temporal photometric consistency (Lphoto)
Hàm mục tiêu này phát biểu rằng: với một điểm Pi bất kì thuộc bối cảnh tại thờiđiểm i, điểm này phải giống với các điểm Pj′ thuộc bối cảnh tại thời điểm lân cận j ∈
N (i) = {i, i ± 1, i ± 2}, khi dịch chuyển điểm Pi theo scene flow từ i tới N (i)
Theo đó, trong trường hợp j = i, khung ảnh ˆCi sẽ được render bằng kĩ thuật VolumeRendering tương tự như mô hình NeRF
Khi j ̸= i, như ở hình 3.5 (bên phải), sử dụng scene flow fi→j được dự đoán từ 3.5,với mỗi điểm trên camera ray ri, mô hình sẽ truy vấn màu sắc (RGB) và mật độ vật chất(α) từ điểm tương ứng trên camera ray rj Ta có:
Trang 24Hình 3.5: Render khung ảnh tại thời điểm i sử dụng Volume Rendering và warping khung ảnh
từ các thời điểm lân cận j ∈ N (i) theo scene flow
Hàm mục tiêu Lphoto được tính bằng mean squared error (MSE) giữa các khung ảnhđược render và ảnh tham khảo (grouth truth) như sau:
Trang 253.2.1.2 Scene flow priors (Lcyc)
Để việc dự đoán scene flow thêm chính xác, tác giả dựa trên sự nhất quán của forwardscene flow fi→j và backward scene flow fj→i tại một điểm bất kì Tiêu chí này cũng bịảnh hưởng bởi những vùng ảnh bị che khất, xuất hiện theo sự chuyển động như Lphoto,
do đó tác giả cũng áp dụng trọng số w cho hàm mục tiêu này Cụ thể như sau:
Lcyc=X
x i
X
j∈N (i)
wi→j ∥ fi→j(xi) − fj→i(xi→j) ∥1 (3.8)
3.2.1.3 Data-driven priors (Ldata)
Hàm mục tiêu này bao gồm hai thành phần là geometric consistency và single-viewdepth: Ldata = Lgeo+ βzLz Trong đó, geometric consistency kiểm tra sự nhất quán củacác khung ảnh liền kề nhau, cụ thể:
Với điểm pi trong khung ảnh tại thời điểm i, điểm tương ứng với pi trong khung ảnhliền kề tại thời điểm j được tính như sau: pi→j = pi + ui→j, với ui→j là optical flow từkhung ảnh i tới j Optical flow được dự đoán từ các mô hình pretrained [31] [32]
Với Pi tương ứng là toạ độ trong không gian 3D của pi và scene flow fi→j, mô hình
dự đoán ˆpi→j bằng cách tính Pi→j = Pi + fi→j, sau đó thực hiện phép chiếu điểm Pi→jtrong không gian 3D lên viewpoint của khung ảnh j
Geometric consistency là khoảng cách l1 giữa pi→j và ˆpi→j:
Zi∗ = là thông tin độ sâu được tính toán từ mô hình NSFF
Tuy nhiên, theo tác giả, Ldata không được ổn định vì phụ thuộc vào các mô hìnhpre-trained, nên chỉ được sử dụng trong những giai đoạn đầu của việc huấn luyện môhình
Sử dụng các hàm mục tiêu đề cập phía trên, mô hình NSFF sau khi được huấn luyện
đã vượt qua những mô hình khác tại thời điểm mô hình ra đời như ở hình 3.6
Trang 26Hình 3.6: Kết quả khi so sánh mô hình NSFF với các mô hình khác trên tập dữ liệu DynamicScenes Dataset [10]
3.2.2 Kết hợp với biểu diễn bối cảnh tĩnh
Với các khung ảnh đầu vào, nhận thấy những vùng ảnh tĩnh (như background) khôngthay đổi theo thời gian, tác giả đã đề xuất biểu diễn phần bối cảnh tĩnh (time-independent)bằng một mạng nơ-ron MLP riêng biệt:
Trong đó, v là trọng số sử dụng để pha trộn RBGα dự đoán từ mô hình biểu diễnbối cảnh tĩnh và mô hình biểu diễn bối cảnh động Theo đó, tại những vùng ảnh tĩnh,thông tin RBGα từ mô hình biểu diễn bối cảnh tĩnh sẽ có trọng số cao hơn Ngược lạitại những vùng ảnh có sự chuyển động, thông tin RBGα từ mô hình biểu diễn bối cảnhđộng sẽ có trọng số cao hơn mô hình tĩnh
Thực hiện Volume Rendering, màu của một điểm trên camera ray ri tại thời điểmđiểm i bây giờ được tính như sau: