IMAGE-GUIDED NEURAL OBJECT RENDERING

摘要

我们提出了一种学习的图像引导绘制技术，它结合了基于图像的绘制和基于GAN的图像合成的优点。我们的方法的目标是为虚拟和增强现实应用（例如，虚拟陈列室、虚拟旅游观光、历史文物的数字检查）生成重建对象的照片真实感重新渲染。我们工作的一个核心部分是处理视图相关的效果。具体来说，我们直接训练一个特定对象的深层神经网络来合成一个对象的视相关外观。作为输入数据，我们使用的是对象的RGB视频。此视频用于通过多视图立体重建对象的代理几何体。基于这个3D代理，捕捉到的视图的外观可以像经典的基于图像的渲染一样被扭曲成一个新的目标视图。这种扭曲假定为漫反射曲面，在与视图相关的效果（如镜面反射高光）的情况下，会导致瑕疵。为此，我们提出了EffectsNet，这是一种预测视相关效应的深层神经网络。基于这些估计，我们可以将观察到的图像转换为漫反射图像。这些漫反射图像可以投影到其他视图中。在目标视图中，我们的管道重新插入新的依赖于视图的效果。为了将多幅重投影图像合成为最终输出，我们学习了一个合成网络来输出照片真实感的结果。使用这种图像引导方法，网络不必分配记忆对象外观的容量，而是学习如何组合捕获图像的外观。我们证明了我们的方法的有效性，无论是定性和定量的合成以及对真实数据。

1、绪论
相反，我们的方法显式地处理视图相关的效果，以输出照片逼真的图像和视频。它是一种将基于图像的绘制与深度学习相结合的神经绘制方法。作为输入，我们捕捉一个物体的短视频来重建几何使用多视角立体。鉴于此三维重建和视频的图像集，我们能够以自我监督的方式训练我们的管道。我们的方法的核心是一个名为EffectsNet的神经网络，它以Siamese的方式进行训练，以估计与视图相关的效果，例如，镜面反射高光或反射。这使我们能够从输入图像中删除与视图相关的效果，从而生成包含与视图无关的对象外观信息的图像。这种独立于视图的信息可以使用重构的几何体投影到新的视图中，其中可以添加新的依赖于视图的效果。第二个网络CompositionNet将投影的K个最近邻图像合成为最终输出。由于CompositionNet被训练生成照片真实的输出图像，它解决了重投影错误以及填充没有可用图像内容的区域。我们使用合成数据和真实数据证明了算法的有效性，并与经典的计算机图形学和学习方法进行了比较。

综上所述，我们提出了一种新的神经图像引导绘制方法，它是经典的基于图像的绘制和机器学习的混合。其核心贡献是使用EffectsNet显式处理源视图和目标视图中与视图相关的效果，EffectsNet可以以自我监督的方式学习。使用我们称为CompositionNet的网络，可以将重新投影的视图合成为最终输出图像，而不需要手工制作的混合方案。

3、概述
提出了一种基于学习的图像引导绘制方法，实现了对任意物体的新颖视图合成。我们的方法的输入是一组具有恒定照明的物体的N个图像I=fIkgN k=1。在预处理中，我们使用COLMAP结构从运动方法获得相机姿态估计和粗略的代理几何体（Schonberger&Frahm（2016）；Sch onberger等人（2016年）。我们使用重建和相机姿态为所有输入图像Ik绘制合成深度图Dk，以获得训练语料T=f（Ik；Dk）gN k=1，见图8。
基于此输入，我们基于学习的方法根据图1所示的阶段生成新视图。首先，我们采用基于覆盖率的查找从训练语料库的子集中选择少量n个固定视图。在我们的实验中，我们使用了许多n=20帧，我们称之为参考图像。对于每个目标视图，我们从这些参考图像中选择K=4个最近的视图。我们的EffectsNet预测这些视图的视图相关效果，因此，可以通过减法获得相应的视图独立组件（第5节）。使用几何体引导的交叉投影（第6节）将独立于视图的组件显式扭曲到目标视图。接下来，预测目标视图的视图相关效果，并将其添加到扭曲视图的顶部。最后，我们的CompositionNet用于优化组合所有扭曲视图以生成最终输出（第6节）。在下面，我们将讨论细节，展示如何基于我们的训练语料库对我们的方法进行训练（第4节），并广泛评估我们提出的方法（见第7节和附录）。

图1：我们的图像引导渲染方法概述：基于最近邻视图，我们使用EffectsNet架构预测相应的视图相关效果。从原始图像中减去与视点相关的效果，得到可以重新投影到目标图像空间的漫反射图像。在目标图像空间中，我们估计新的视相关效果，并将其添加到扭曲图像中。利用编解码网络对扭曲后的图像进行融合，得到最终的输出图像。在训练过程中，我们要求输出的图像与相应的地面真值图像相匹配。

4、训练数据
我们的方法是以特定对象的方式训练的，每次都是从头开始。训练语料库T由N个图像Ik和深度图Dk组成。
综合训练数据
为了生成逼真的合成图像，我们使用Mitsuba渲染器（Jakob，2010）来模拟全局照明效果。对于N个视图中的每一个，我们光线跟踪一个彩色图像Ik及其相应的深度贴图Dk。基于物体周围的螺旋线，提取出一条稠密光滑的时间相机路径。相机朝向物体的中心。所有图像的分辨率为512 512，使用路径跟踪渲染，每像素96个样本，最大路径长度为10。训练序列的大小为920，测试集包含177个图像。

真实世界训练数据
我们的真实训练数据是用尼康D5300拍摄的，分辨率为19201080像素。因为我们依赖于足够大的一组图像，所以我们以30Hz的帧速率记录对象的视频。基于COLMAP（Schonberger&Frahm，2016；Schonberger等人，2016），我们重建了相机路径和密集点云。我们手动将目标对象与其他重建几何体隔离，并运行泊松重建（Kazhdan&Hoppe，2013）步骤来提取曲面。我们使用该网格生成与图像Ik相对应的合成深度贴图Dk（参见图8）。最后，颜色和深度图像都被裁剪并重新缩放到512像素的分辨率。训练语料库的范围从1000到1800帧，这取决于序列。

5、EffectsNet
我们工作的一个主要贡献是卷积神经网络，它以自我监督的方式学习视点相关和视点无关效应的分离（见图2）。由于我们的训练数据是由一系列从不同观察方向拍摄的图像组成，假设光照恒定，两幅不同图像中对应的两个点的反射亮度仅因视相关效果不同而不同。我们的自我监督训练程序是基于Siamese网络，从训练集中随机选取一对图像作为输入。该网络的任务是基于代理几何体的几何信息，从图像中提取与视点相关的光照效果。

网络输入：使用一个固定的投影层，我们使用摄影测量重建中已知的内、外摄像机参数，将输入的深度图像Di反投影到世界空间。基于此位置图，我们通过有限差分生成法线图以及反射观察方向图。这些输入受Phong照明模型（Phong，1975）的启发，并沿通道尺寸堆叠。注意，网络输入仅取决于几何体和当前相机参数，即视图。因此，它也可以基于代理几何体的渲染深度应用于新的目标视图。

网络架构：我们的网络Φ 是一种具有跳过连接的编码器-解码器网络，类似于U-Net（Ronneberger等人，2015b）。跳过连接可以直接将低层特征传播到解码器。编码器基于6个卷积层（内核大小4和步长2）。卷积层分别输出32、32、64、128、256和512维特征图。我们使用ReLU激活函数并基于batchnorm规范化激活。解码器镜像编码器。我们使用转置卷积（内核大小4和步幅2）与相应编码器层中相同数量的特征通道。作为最后一层，我们使用一个步长为1的4-4卷积，输出一个三维张量，该张量被馈送到一个Sigmoid，以生成与视图相关的照明效果的图像。

自监督训练：由于我们假设恒定的光照，每个图像中表面点反射的漫反射光是相同的，因此，表面点的外观只随视点相关组件的变化而变化。我们以一种自我监督的方式训练我们的网络，该网络基于Siamese网络，该网络预测两个随机视图的视点相关效果，使得漫反射对齐图像的差异最小（参见图2）。为此，我们使用重投影功能（见第6节）来对齐一对输入图像，从中删除了与视图相关的效果（原始图像减去与视图相关的效果），并训练网络以最小化两个图像重叠区域中产生的差异。
给出一个随机选择的训练对（IpIq），让Φ 表示两个Siamese塔的输出。那么，我们对这个训练样本的自我监督损失可以表示为：

这里，表示阿达玛积，Θ 是编码器-解码器网络的参数Φ, 这是两座塔共用的。M是一个二元掩码，如果曲面点在两个视图中都可见，则设置为1，否则设置为0。我们将估计的视相关效应正则化为小的w.r.t.1-范数。在我们的实验中，这个正则化器的权重是0:01。图像p到图像q的交叉投影Wqp是基于几何代理的。

图2:EffectsNet以自我监督的方式进行训练。在连体模型中，从训练集中选择两幅随机图像，并将其输入到网络中，根据当前视图和各自的深度图预测视图相关的效果。在将源图像重新投影到目标图像空间后，通过减法计算漫反射颜色。我们通过最小化有效区域内两个漫反射图像之间的差异来优化网络。
6、图像引导渲染管道
为了生成一个新的目标视图，我们在参考视图集中（n=20）选择一个基于覆盖的最近邻搜索的K=4图像子集。我们使用EffectsNet来估计这些视图的视图相关效果，计算漫反射图像。基于代理几何体的深度贴图，将每个漫反射图像交叉投影到目标视图。由于目标视图的深度图是已知的，因此我们能够预测目标图像空间中与视图相关的效果。将这些新效果添加到重新投影的漫反射图像后，我们将这些图像作为合成网络CompositionNet的输入（见第6节）。CompositionNet将最近邻图像的信息融合到单个输出图像中。在下面，我们描述了基于覆盖率的采样和交叉投影，并展示了如何使用我们的EffectsNet来实现视图相关效果的健壮重投影。

基于覆盖率的视图选择
K个最近邻帧的选择基于目标视图的表面覆盖率。目标是最大限度地覆盖目标视图，以确保整个可见几何体的纹理信息是交叉投影的。视图选择被转换为一个基于贪婪选择策略的迭代过程，该策略可以局部地最大化曲面覆盖。为此，我们从目标视图上统一网格上的64个采样点开始。在每个迭代步骤中，我们搜索与目标视图中当前未覆盖区域重叠最大的视图。我们根据重建的代理几何体和相机参数，通过将目标视图中的样本交叉投影到捕获的图像来确定该视图。如果目标视图中的采样点从另一个视点也可见，则该采样点视为已覆盖，而可见性是基于遮挡检查确定的。对于下一个迭代步骤，最终选定视图覆盖的每个采样点都将失效。重复此过程，直到选择了K个最佳视图。为了保持较低的处理时间，我们将此搜索限制为输入图像的一小部分。这组参考图像取自训练语料库，包含n=20幅图像。我们选择这些视图也是基于上述基于覆盖率的选择方案。也就是说，我们以迭代的方式在所有视图中选择覆盖率最大（看不见）的视图。请注意，此选择是在预处理步骤中完成的，与测试阶段无关。

基于代理的交叉投影
基于重建的几何代理和摄像机参数，建立了从p到q的交叉投影Wqp模型。设Kp 2 R4 3表示视图p的内参数矩阵，Tp=[Rpjtp]2 R4 4表示视图p的外参数矩阵。视图q也有类似的表示法。然后，视图p中深度为d的均匀二维屏幕空间点sp可以通过以下方式映射到视图q的屏幕空间：sq=Wqp（sp），Wp q（sp）=KqTqT p 1K p 1sp。我们使用这种映射将颜色信息从源视图交叉投影到新的目标视图。为此，我们将每个有效像素（带有深度估计）从目标视图映射到源视图。基于双线性插值对源视图中的颜色信息进行采样。在源视图中被遮挡或不在视锥中的投影点将无效。遮挡由深度测试w.r.t.源深度图确定。对所有最近邻图像进行交叉投影，得到多幅与新的目标视点相匹配的图像。

视图相关效果
基于图像的渲染方法通常存在与视图相关效果的重投影问题（见第7节）。在我们的图像引导管道中，我们使用EffectsNet解决了这个问题。在重新投影之前，我们从输入的图像中估计与视图相关的效果并将其减去。这样，依赖于视图的效果将从扭曲中排除。然后在重新投影后重新插入依赖于视图的效果，再次使用基于目标视图深度贴图的EffectsNet。

CompositionNet:图像合成
利用一种称为CompositionNet的深层神经网络对扭曲的最近视图进行融合。与EffectsNet类似，我们的CompositionNet是一个带有跳过连接的编码器网络。网络输入是一个张量，它将K个扭曲视图、相应的扭曲场以及目标位置图沿通道的维度进行叠加，输出是一个三通道RGB图像。编码器基于6个卷积层（内核大小4和步长2），分别具有64、64、128、128、256和256维特征映射。激活函数是编码器中的泄漏ReLUs（负斜率为0.2）和解码器中的ReLUs。在这两种情况下，我们都基于batchnorm规范化所有激活。解码器镜像编码器。我们使用转置卷积（内核大小4和步幅2）与相应编码器层中相同数量的特征通道。作为最后一层，我们使用步长为1的4-4卷积和输出最终图像的Sigmoid激活函数。
我们使用1损失和额外的对抗损失来测量预测输出图像和地面真实数据之间的差异。对抗性损失基于Pix2Pix中也使用的条件性PatchGAN损失（Isola等人，2016）。在我们的实验中，我们用0:01的因子来衡量对手的损失，用1:0的因子来衡量1的损失。

9、总结
在本文中，我们提出了一种新颖的图像引导渲染方法，输出物体的真实感图像。我们在各种实验中证明了该方法的有效性。与竞争方法的比较显示了相当甚至更好的结果，特别是在存在可以使用我们的EffectsNet处理的视图相关效果的情况下。希望能对进一步利用深度神经网络进行自监督重绘制的研究有所启发。