StyleRig: Rigging StyleGAN for 3D Control over Portrait Images（CVPR20 oral）

4. Semantic Rig Parameters

使用parametric face model对人脸建模based on a set of semantic control parameters $\mathbf{p}=\left ( \alpha, \beta, \delta, \mathbf{R}, \mathbf{t} \right )\in \mathbb{R}^{257}$ ，其中

facial shape $\alpha\in\mathbb{R}^{80}$
skin reflectance $\beta\in\mathbb{R}^{80}$
facial expression $\delta\in\mathbb{R}^{64}$
scene illumination $\gamma\in\mathbb{R}^{27}$
head rotation $\mathbf{R}\in SO(3)$ ， $S O (3)$ 表示三维旋转群
translation $\mathbf{t}\in\mathbb{R}^3$

文献[4]（3DMM）中的200 scans of human faces，包含53k vertices，分别提取80个facial shape和skin reflectance的主成分

文中提到了表情基的计算方式，与文献[2, 6]有关，对a set of blendshapes进行PCA，每个主成分表示vertices的位移

scene illumination表示为three bands of spherical harmonics per color channel，在MOFA论文的解释更加详细

5. Training Corpus

StyleGAN中 $\mathbf{w}$ 空间的维度是 $18\times512$ ，首先采样200k个 $\mathbf{w}$ ，并生成对应的图像 $\mathbf{I}_\mathbf{w} = StyleGAN(\mathbf{w})$

既然都已经得到了 $\left ( \mathbf{w}, \mathbf{I}_\mathbf{w} \right )$ pair，为什么作者还说 Each training sample is generated by combining up to 5 separately sampled latent vectors, similar to the mixing regularizer？
在这里插入图片描述

6. Network Architecture

Differentiable Face Reconstruction

整个框架中的一个组件叫做differentiable face reconstruction (DFR)，包含一个parameter regressor $\mathcal{F}$ 和一个differentiable render layer $\mathcal{R}$

parameter regressor $\mathcal{F}$ 的作用是将latent code转换为parameters，记作 $\mathbf{p}=\mathcal{F}(\mathbf{w})$ ，具体结构为一个3层MLP

如何衡量预测的parameter是否准确，需要将 $\mathbf{p}$ 渲染成图像 $\mathcal{R}(\mathbf{p})$ ，与 $\mathbf{I}_\mathbf{w}$ 进行比较，故有如下的rendering loss
$\mathcal{L}_\text{render}(\mathbf{I}_\mathbf{w}, \mathbf{p})=\mathcal{L}_\text{photo}(\mathbf{I}_\mathbf{w}, \mathbf{p})+\lambda_\text{land}\mathcal{L}_\text{land}(\mathbf{I}_\mathbf{w}, \mathbf{p}) \qquad(1)$

其中，第1项称为dense photometric alignment loss：
$\mathcal{L}_\text{photo}(\mathbf{I}_\mathbf{w}, \mathbf{p})=\left \| \mathbf{M}\odot\left ( \mathbf{I}_\mathbf{w}-\mathcal{R}(\mathbf{p}) \right ) \right \|_2^2 \qquad(2)$
渲染方式采用point-based rendering，背景渲染不到，所以需要使用 $\mathbf{M}$ 来指示被渲染的区域

第2项称为sparse landmark loss：
$\mathcal{L}_\text{land}(\mathbf{I}_\mathbf{w}, \mathbf{p})=\left \| \mathbf{L}_{\mathbf{I}_\mathbf{w}}-\mathbf{L}_\mathbf{M} \right \|_2^2 \qquad(3)$
$\mathbf{L}_{\mathbf{I}_\mathbf{w}}\in\mathbb{R}^{66\times2}$ 是 $\mathbf{I}_\mathbf{w}$ 上的62个关键点， $\mathbf{L}_\mathbf{M}$ 是由预测parameter -> 3D mesh -> 2D投影关键点

除此之外，其实还有第3项loss，没有明确写在公式(1)上，we also employ statistical regularization on the parameters of the face model, as done in MoFA

使用数据集 $\left ( \mathbf{w}, \mathbf{I}_\mathbf{w} \right )$ 就可以训练DFR，训练完成后就有了一个工具，将latent code翻译为parameter，Fig. 3展示了DFR的人脸重建效果

注：rendering loss体现了一种思想，就是 $\mathbf{w}$ 可以通过2条路径转换为图像（在Fig. 2中可以看到），一是由StyleGAN直接生成图像，二是先翻译为 $\mathbf{p}$ ，然后再渲染成图像，两幅生成的图像就可以衡量误差了
在这里插入图片描述
框架中的另一个组件就是本文的重点，RigNet

RigNet的作用是做信息的融合，有一个 $\mathbf{w}$ ，另外有一个 $\mathbf{v}$ ，可翻译为 $\mathbf{p_v}$ ，我们想要一个新的有head pose编辑效果的 $\hat{\mathbf{w}}$ ，那么就将 $\mathbf{w}$ 和 $\mathbf{p_v}$ 的head rotation分量送入RigNet，即可得到 $\hat{\mathbf{w}}$ ，记为 $\hat{\mathbf{w}}=RigNet\left ( \mathbf{w}, \mathbf{p_v} \right )$

RigNet Encoder

输入一个 $18\times512$ 维的 $\mathbf{w}$ ，将它的维度降到32，得到 $18\times32$ 维的 $\mathbf{l}$ ，具体结构为18个独立的FC Layer

RigNet Decoder

输入为 $\mathbf{l}$ 和 $\mathbf{p}$ （准确来说应该是 $\mathbf{p}$ 的若干个分量，如head rotation/expression/illumination），输出为 $\mathbf{d}$ ，再加上Encoder的输入 $\mathbf{w}$ ，构成残差结构 $\hat{\mathbf{w}}=\mathbf{d}+\mathbf{w}$ ，具体结构同样也是18个独立的FC Layer

7. Self-supervised Training

Our goal is to train RigNet such that we can inject a subset of parameters into a given latent code $\mathbf{w}$ .

每一次前向传播涉及2个latent code $\left ( \mathbf{w},\mathbf{v} \right )$ ，于是可根据二者是否相等分为2种情况

(1) 当 $\mathbf{w}=\mathbf{v}$ 时，相当于自己注入自己的信息来做编辑，称为Reconstruction

我们有一个 $\mathbf{w}$ ，然后注入自己的parameter $\mathcal{F}(\mathbf{w})$ ，得到的结果应该与 $\mathbf{w}$ 相等，从而有如下的reconstruction loss
$\mathcal{L}_\text{rec}=\left \| RigNet\left ( \mathbf{w},\mathcal{F}(\mathbf{w}) \right )-\mathbf{w} \right \|_2^2$

(2) 当 $\mathbf{w}\neq\mathbf{v}$ 时，可以做双向的编辑（把谁注入谁），这里以向 $\mathbf{w}$ 注入 $\mathbf{v}$ 的head rotation信息来做编辑为例

首先有 $\left \{ \mathbf{w}, \mathbf{p_w}, \mathbf{I_w}, \right \}, \left \{ \mathbf{v}, \mathbf{p_v}, \mathbf{I_v} \right \}$ ；向 $\mathbf{w}$ 中注入 $\mathbf{p_v}$ 的head rotation分量，得 $\hat{\mathbf{w}}=RigNet\left ( \mathbf{w}, \mathbf{p_v} \right )$ ；将 $\hat{\mathbf{w}}$ 翻译为 $\hat{\mathbf{p}}=\mathcal{F}(\hat{\mathbf{w}})$

此时 $\hat{\mathbf{p}}$ 的head rotation分量应该与 $\mathbf{p_v}$ 的head rotation分量相等，于是可以做L2 Loss，但在文献[33]中已经证实了在parameter空间衡量误差的方法效果并不好（直观理解，过于严格了），所以还是需要渲染成图像才能衡量 $\hat{\mathbf{p}}$ 的好坏

我们的做法是，将 $\hat{\mathbf{p}}$ 的head rotation分量抽出来，覆盖到 $\mathbf{p_v}$ 上，得到新的 $\mathbf{p_v}$ 记作 $\mathbf{p}_\text{edit}$ ，于是可以复用衡量parameter好坏的公式(1)，得到一项称为Cycle-Consistent Per-Pixel Editing Loss的损失
$\mathcal{L}_\text{edit}=\mathcal{L}_\text{render}(\mathbf{I_v}, \mathbf{p}_\text{edit})$

另一方面，对于 $\hat{\mathbf{p}}$ ，如果我们关注非head rotation分量，应该与 $\mathbf{p_w}$ 的非head rotation相等才行，所以采用同样的做法，将 $\hat{\mathbf{p}}$ 的非head rotation分量抽出来，覆盖到 $\mathbf{p_w}$ 上，得到新的 $\mathbf{p_w}$ 记作 $\mathbf{p}_\text{consist}$ ，于是有如下的Cycle-consistent Per-pixel Consistency Loss
$\mathcal{L}_\text{consist}=\mathcal{L}_\text{render}(\mathbf{I_w}, \mathbf{p}_\text{consist})$

最终的损失函数为
$\mathcal{L}_\text{totcal}=\mathcal{L}_\text{rec}+\mathcal{L}_\text{edit}+\mathcal{L}_\text{consist}$
需要注意的是， $\mathcal{L}_\text{edit}, \mathcal{L}_\text{consist}$ 是双向的编辑，并且本文并没有为每一个loss项赋予权重