从像素到肖像：讲话头部生成技术与应用的充分调研

《From Pixels to Portraits: A Comprehensive Survey of Talking Head Generation Techniques and Applications》

在这里插入图片描述
Image source: From SadTalker paper.

前言
摘要
一、背景
二、一个好的说话头像生成系统包括哪些？
- 2.1 TFG的基础知识
三、方法分类
- 3.1视觉驱动
- - 3.1.1 面部重演方法
  - 3.1.2 表情转移和属性操作方法
  - 3.1.3 3D面部模型和几何方法
  - 3.1.4 运动重定向方法
  - 3.1.5 高分辨率输出方法
- 3.2 音频驱动
- - 3.2.1 专注于唇部同步的方法
  - 3.2.2 音视频映射方法
  - 3.2.3 面部和头部运动方法
  - 3.2.4 情感表达方法
  - 3.2.5 解耦模态方法
- 3.3 其他（这篇文献综述需要改进的地方，即对3DGS和NeRF的调研比较少，偏重于GAN和Attention）
4. 数据集和评估指标
5. 评估质量
6. 未来展望？
- 6.1 应用领域
- 6.2 伦理和社会考量
- 6.3 挑战和未来方向
7. 结论

前言

这篇综述文章介绍讲话人脸生成（Talking Face Generation, TFG），分析比较多过去几年的成熟技术，针对比较新的技术如NeRF、3DGS等介绍的内容比较少，我们可以在此基础上，添加最新技术的额外介绍。感谢课题组学生Guoqing Yu的参与贡献。

摘要

深度学习和计算机视觉的最新进展，引发了对生成逼真说话头部的火热程度的激增。

本文提出了一份全面的调查，概述了说话头部生成的最新方法。作者系统地将它们归类为四种主要方法：图像驱动、音频驱动、视频驱动以及其他（包括神经辐射场（NeRF）和基于3D的方法）。

作者对每种方法进行了深入分析，突出了它们的独特贡献、优势和局限性。此外，还彻底比较了公开可用的模型，根据推理时间和人类评价的生成输出质量等关键方面进行了评估。

作者的目标是提供一个清晰而简洁的概述，阐明不同方法之间的关系，并为未来的研究方向指明有希望的方向。这份调查将作为对这一快速发展领域感兴趣的研究人员和实践者的宝贵参考。

关键词： 说话头部、面部动画、唇部运动、面部表情

一、背景

近年来，深度学习和深度神经网络[1, 2, 3]彻底改变了计算机视觉领域，并在说话头部生成等领域实现了变革性的突破。深度学习利用具有许多层的神经网络，可以学习数据的层次表示并模拟复杂函数。自21世纪初以来，深度学习的兴起使得计算机视觉模型在多样化的任务上取得了最先进的成果。由深度神经网络支持的一个迷人应用是说话头部生成——合成逼真且富有表现力的人类面部，令人信服地表达言语。这篇调查论文提供了在说话头部生成中使用的最先进技术和方法的概述，探讨了底层算法、数据集和评估指标。说话头部生成近年来获得了显著的关注，作为一个迷人的领域，突显了深度学习的能力。

早期的说话头部生成方法侧重于基于规则的技术，从音频或文本输入生成唇部运动[4, 5]。然而，深度学习的兴起和大规模面部数据集的可用性彻底改变了这个领域[6, 7, 8, 9, 10, 11]。利用神经网络的数据驱动方法成为主导范式，使得自然和同步的面部运动的合成成为可能。事实上，计算能力的快速发展激发了人们对基于深度学习的说话头部生成的极大兴趣，推动了这个领域的蓬勃发展。

在TFG中推动进展的两个关键深度学习技术是生成对抗网络（GANs）[12]和注意力机制[13]。 GANs在图像合成[14, 15, 16]、图像到图像翻译[17, 18, 19]、合成特征生成[20, 21, 22]和其他技术[23, 24, 25]等计算机视觉任务中取得了显著进展。注意力机制通过使模型能够专注于输入的重要部分，增强了计算机视觉模型在目标检测[26, 27, 28]、图像字幕[29, 30, 31]、视频字幕[32, 33, 34]和动作识别[35, 36, 37]等领域的表现。GANs利用生成和判别网络来模拟复杂数据分布，而注意力则允许模型专注于输入的重要部分。条件对抗网络[38]（cGANs）在说话头部生成中发挥了重要作用。这些模型利用生成和判别网络捕捉音频或文本输入与面部表情之间的复杂关系，从而产生高度逼真和富有表现力的面部。注意力机制也被用来[39, 40, 8]提高生成的说话头部的质量和现实感，允许模型专注于特定的面部区域并生成细粒度的细节。

评估指标对于评估生成的说话头部的质量和感知现实感至关重要。 虽然峰值信噪比（PSNR）和结构相似性指数（SSIM）等评估指标通常用于评估生成的说话头部的质量[41]，但它们可能无法准确捕捉合成面部的感知现实感和自然度。这些指标主要关注像素级相似性，并不考虑更高级别的视觉线索，如面部表情、唇部运动和整体语音动画的连贯性。此外，通过人类感知研究的主观评估为生成的说话头部的感知质量和可信度提供了宝贵的见解，但可能具有主观性和耗时性。因此，需要更全面、以感知为基础的评估指标，能够以更全面的方式有效衡量生成的说话头部的质量和真实性。

在这篇调查论文中，我们系统地将说话头部生成的方法归类为四个主要类别：图像驱动、音频驱动、视频驱动以及其他（包括神经辐射场（NeRF）和基于3D的方法）。我们深入分析了每种方法，强调了它们的独特贡献、优势和局限性。此外，我们对公开可用的模型进行了全面比较，根据推理时间和人类评价的生成输出质量等关键方面进行了评估。我们的目标是提供一个清晰而简洁的概述，阐明不同方法之间的关系，并为未来的研究方向指明有希望的方向。

推理时间的评估至关重要，因为它直接影响说话头部生成系统的实时适用性和可用性。更快的推理时间使得这些系统能够无缝集成到各种应用中，如虚拟现实、视频会议和游戏。此外，评估生成输出的人类评价质量对于确保合成的说话头部满足人类观众的感知期望至关重要。这种主观评估有助于衡量生成面部的现实感、自然度和可信度，最终确定它们在吸引和与人类用户交流中的有效性。通过考虑推理时间和人类评价的质量，我们可以全面了解说话头部生成模型在实际场景中的性能和可用性。

这份调查将作为对这一快速发展领域感兴趣的研究人员和实践者的宝贵参考，促进说话头部生成的进一步进步和创新。

二、一个好的说话头像生成系统包括哪些？

之前有研究[42]研究了什么构成了好的说话头像生成，并进行了相关方法的调查。然而，这项调查已经超过三年了，而且在该领域已经涌现了大量的新研究。 除此之外，调查中没有对方法进行人类评估，我们认为这是正确评估模型输出好坏的关键。尽管如此，我们根据论文总结了好的说话头像生成的特点。

作者指出，尽管说话头像视频生成技术已经取得了显著进展，但这些方法的评估带来了几个挑战。许多当前的评估方法使用人类受试者，这可能繁琐、不可重复，并且可能阻碍新研究的发展。为了解决这些问题，作者设计了一个用于评估说话头像视频生成方法的基准，包括标准化的数据预处理策略。
提出了一个好的合成说话头像视频的四个理想属性：保持主体的原始身份、在语义层面保持唇部同步、保持高视觉质量、包含自然的动作。作者提出了新的度量标准或选择了最合适的度量标准来评估这些属性。这些包括：

身份保持：使用ArcFace的嵌入向量之间的余弦相似度来衡量身份不匹配。
视觉质量：使用SSIM和FID在图像级别评估视觉质量，并使用CPBD判断合成视频的清晰度。
唇部同步：视频应保持语义层面的同步。这意味着视频中嘴唇的动作应与听到的语音相匹配。
自然动作：视频应包含自然、自发的动作。这指的是视频中头部和面部动作的平滑度和自然度。

2.1 TFG的基础知识

主要思想是将静态源图像（人的面部）动画化，以匹配驱动视频或音频的动态。这通常是通过结合深度学习技术实现的，包括卷积神经网络（CNN）、生成对抗网络（GAN）和循环神经网络（RNN），通常辅以注意力机制。
在这里插入图片描述
损失函数。

这是一个过程的概述，并在图1中描述了驱动媒体是视频的情况。然而，在这个基本结构上有很多变化和改进，例如使用注意力机制专注于面部的某些区域，使用不同类型的编码器和解码器，利用关键点指导动画过程等。架构和技术的选择在很大程度上取决于应用的具体要求。

三、方法分类

说话头像生成方法可以根据驱动媒体进行分类，从而形成几个突出的类别。
视觉驱动方法涵盖了广泛的技术，这些技术利用静态图像和连续帧作为主要输入。这些方法利用复杂的机器学习算法来动画化视觉内容，模拟说话、变化的表情和捕捉微妙的动作。
相比之下，音频驱动技术采用音频输入来合成相应的面部动作，特别关注与声音输入对齐的唇部同步和情感表达。

最后，一个较少见但越来越多被探索的类别包括基于NeRF（神经辐射场）和3D感知技术的方法。这些高级模型利用3D几何理解和复杂的光交互来创建非常沉浸式和逼真的动画，为进一步的研究和开发提供了巨大的潜力。

3.1视觉驱动

作者将视觉驱动方法进一步细分为图2所示的5个主要组。这种分组使我们能够根据在该领域进行的研究类型，轻松理解未来可能的工作方向。请注意，这种分组并不一定意味着一种方法不适合子组之一，而是更多地是认为它更适合所选子组。
在这里插入图片描述
图2：视觉驱动说话头像生成方法的分类。这种广泛的分组突出了技术和未来研究方向的多样性，以及从音频合成说话头像的进展。这种分类提供了音频驱动说话头像生成领域概况和演变的概览。

3.1.1 面部重演方法

说话头像生成的任务最初被定义为单目目标视频序列的实时面部重演[43]。他们提出了一种方法，实时捕捉主体的面部表情，并将这些表情转移到视频中的目标主体上，有效地创建面部重演。

3.1.2 表情转移和属性操作方法

StyleMask[52]解决了神经面部重演的问题，旨在将目标的姿势和表情转移到源图像，同时保留源的身份特征，即使面部属于不同身份。他们提出了一个框架，使用未配对的面部图像和StyleGAN2的风格空间来解耦身份和姿势。

X2Face[47]是一个深度学习模型，可以使用驱动帧中的另一张脸来控制源脸，指定一个或多个帧，以产生具有源帧身份但驱动帧中脸的姿势和表情的生成帧。该网络使用大量视频数据完全自监督训练。此外，作者展示了生成过程可以由其他模态（如音频或姿势代码）驱动，无需对网络进行进一步训练。

3.1.3 3D面部模型和几何方法

MeshG[54]提出了一种新颖的一次性面部重演方法，该方法使用网格引导的图卷积网络。该方法旨在将源人物的面部表情转移到单一输入图像中的目标人物。通过利用面部的网格表示，该方法提取局部和全局特征，并应用图卷积网络来模拟面部区域之间的关系。

HeadGAN[10]采用3D面部表示来条件合成，从而将面部身份与表情分离。它还使用音频特征来增强嘴部动作。利用3D面部表示使HeadGAN能够作为实时重演系统，面部视频压缩和重建的高效工具，面部表情编辑方法，以及包括面部正面化在内的新视角合成系统。

3.1.4 运动重定向方法

“一阶运动模型”（FOMM）[58]是一种新颖的图像动画方法，通过根据驱动视频的运动来动画源图像中的对象来生成视频序列。该框架通过自监督公式解耦外观和运动信息，使用一组自学习的地标和它们的局部仿射变换来支持复杂运动。该模型进一步结合了一个考虑遮挡的生成器网络来处理遮挡，并将从源图像提取的外观与从驱动视频派生的运动结合起来。

TS-Net[60]是一个用于视频运动重定向的双分支网络。它结合了基于变形的变换分支和无变形合成分支来保留身份并处理遮挡。引入了一个掩码感知相似性模块来提高效率。

3.1.5 高分辨率输出方法

StyleHEAT[63]利用预训练的StyleGAN的潜在特征空间来克服训练数据集的分辨率限制。他们的统一框架实现了高分辨率视频生成，通过视频或音频输入进行解耦控制，并灵活编辑面部。该框架实现了1024×1024的分辨率，超过了训练数据集的较低分辨率，并结合了运动生成模块、校准网络和领域损失以进行细化。

3.2 音频驱动

作者将音频驱动方法进一步细分为图3所示的5个主要组。这种分组使我们能够根据在该领域进行的研究类型，轻松理解未来可能的工作方向。请注意，这种分组并不一定意味着一种方法不适合子组之一，而是更多地是我们认为它更适合所选子组。

3.2.1 专注于唇部同步的方法

Wav2Lip[69]是一种唇部同步算法，可以根据输入的音频波形和一个人的静态图像生成真实的唇部运动。该模型采用两阶段过程，首先从音频预测粗略的唇形，然后使用细粒度唇形预测网络进行细化。它还使用面部地标检测模型，以准确对齐输入图像的唇形。通过结合视听信息，Wav2Lip即使在非母语者或低质量音频的挑战场景中也取得了令人印象深刻的唇部同步效果。

TalkLip[70]提出使用读唇专家来增强生成的唇部区域的清晰度，对错误的生成结果进行惩罚。为了弥补数据稀缺，这个读唇专家是以音视频自监督的方式训练的。此外，使用新颖的对比学习来提高唇语-语音同步，并部署变换器来同步编码音频和视频。团队还提出了一种使用两个不同的读唇专家来衡量所创建视频可理解性的新评估策略。

3.2.2 音视频映射方法

MakeItTalk[73]利用说话者嵌入，这些嵌入编码了特定说话者的独特特征，来合成真实的面部运动和唇部同步。该模型采用了一个两阶段架构，分别处理说话者和唇部运动生成。通过明确考虑说话者信息，生成的动画展现了说话者特定的特征，包括说话风格、面部表情和个性。

LSP[76]使用深度神经网络提取音频特征，并将这些特征投影到目标人物的语音空间。然后从这些特征中学习面部动态，预测头部和上半身的运动。最后阶段使用这些预测生成特征图，与一组候选图像一起输入到图像到图像的翻译网络中，以创建逼真的动画。该系统渲染高保真细节，如皱纹和牙齿，并允许显式控制头部姿势。

3.2.3 面部和头部运动方法

RhythmicHead[77]利用基于GAN的框架结合递归神经网络（RNN）来生成面部表情和同步头部运动。通过引入节奏运动模块，模型生成遵循真实人类说话者观察到的自然模式和节奏的头部运动。

SadTalker[7]是一个生成说话头像视频的系统，解决了不自然的头部运动、扭曲的表情和身份变化等问题。该系统使用从音频衍生的3D运动系数来隐式调制3D感知面部渲染。为了实现真实的运动，他们分别模拟音频与不同类型的运动系数之间的联系。他们使用ExpNet从音频中学习面部表情，并使用PoseVAE创建各种头部运动风格。最终视频通过将生成的3D运动系数映射到所提出面部渲染的无监督3D关键点空间来合成。

3.2.4 情感表达方法

EVP[80]利用生成对抗网络（GANs）来解码和学习情感音频线索与相应面部表情之间的相关性。使用专用的情感编码器从语音中隔离情感内容，并将其映射到合成的视频肖像上。这允许生成准确反映输入音频情感基调的视频肖像。

EmoGen[82]优先考虑情感表达，这是先前工作中经常忽视的一个方面。这种关注允许生成更真实和引人入胜的视频。该框架还受类别情感的条件，使其能够适应任意身份、情感和语言，在六个定义的情感状态中进行调整。

3.2.5 解耦模态方法

VisemeNet[83]是一个深度学习模型，它直接从音频输入预测可视序列。该模型允许动画师通过一组直观的参数轻松控制和修改生成的唇部运动。通过将动画控制与音频处理解耦，VisemeNet提供了灵活性，并赋予动画师创建视觉上吸引人的语音动画的能力。

StyleTalker[85]使用单个参考图像，制作一个同步唇形、真实头部姿势和眨眼的说话人的视频。系统使用预训练的图像生成器和编码器来估计反映给定音频的潜在代码。这个模型的独特组件包括对比唇部同步鉴别器、条件顺序变分自编码器和增强自回归先验。

3.3 其他（这篇文献综述需要改进的地方，即对3DGS和NeRF的调研比较少，偏重于GAN和Attention）

在这一部分，我们对那些我们认为不适合之前用于分组的一般框架的其他方法进行分组。

Write-a-speaker[86]引入了一个基于文本输入生成逼真说话头像视频的新框架。该框架结合了情境情感、语音节奏和停顿，以合成准确的面部表情和头部运动。它包括一个说话者独立的阶段和一个说话者特定的阶段。在说话者独立阶段，三个并行网络从文本生成嘴巴、上部面部和头部的动画参数。说话者特定阶段使用3D面部模型引导的注意力网络为不同个体定制视频。使用高精度运动捕捉数据集建立视觉运动和音频之间的真实对应关系，实现网络的端到端训练。

NerFACE[87]引入了NeRF动态神经辐射场，这是一种对人类面部的外观和动态进行建模的方法。这对于像增强现实或虚拟现实中的远程

4. 数据集和评估指标

此处可参考原文

5. 评估质量

此处可参考原文

6. 未来展望？

说话头像生成领域的最新进展在各个应用领域开辟了引人入胜的可能性。然而，与任何快速发展的技术一样，必须主动解决重要的伦理考量和潜在挑战。

随着这一领域的研究持续加速，至关重要的是，社区必须努力负责任地开发这些系统，并使其与人类价值观保持一致。

在接下来的部分中，还调查了一些有前景的应用领域，以及围绕伦理、社会影响和需要进一步研究的领域的关键问题。

尽管还有许多工作要做，说话头像生成仍然是一个激动人心的领域，它具有巨大的潜力，可以促进新形式的沟通、创造力和人机交互。通过谨慎和远见，研究人员可以确保这些系统被设计成以值得信赖和社会有益的方式增强人类能力。

6.1 应用领域

说话头像模型已展示出在广泛的应用领域中的潜力：

数字头像和虚拟助手 - 说话头像可用于创建具有面部表情和唇部同步的真实数字头像和虚拟助手/伴侣。这些在游戏、动画电影、虚拟现实和人机交互中有应用。
视频会议和直播 - 说话头像可以实时捕捉一个人的面部并重新动画化，用于视频聊天或直播。这可以远程互动中实现眼神接触、面部暗示和增强沟通。
合成媒体/内容生成 - 说话头像使得为电影、广告、播客、有声读物和其他媒体生成一个人的合成镜头成为可能。这为内容创造提供了创意应用。
视频内容的配音/翻译 - 说话头像模型可用于使用原始声音和面部表情为电影、电视、在线讲座等的外语翻译配音。
无障碍应用 - 说话头像有望将文本/语音转换为手语动画，以帮助聋哑和重听社区。
远程存在机器人 - 动画化的说话头像可以为远程游览、学习、医疗保健等的远程存在机器人互动提供更多的个性和联系。
数字欺骗 - 虽然令人担忧，但说话头像也使得创建用于潜在不道德/非法目的的深度伪造和合成媒体成为可能。

总之，说话头像生成在许多领域都有深远的潜力，从创意产业到人机交互和辅助工具。虽然令人兴奋，但研究人员必须注意这项技术部署时的伦理含义。

6.2 伦理和社会考量

虽然说话头像模型解锁了新的创意可能性，但有几个伦理和社会问题值得考虑：

深度伪造和错误信息 - 说话头像使得生成公众人物或普通公民从未实际说过或做过的事情的照片级真实视频成为可能。这使得能够大规模创建极具欺骗性的错误信息和恶意虚假内容。
隐私问题 - 说话头像模型在实现真实结果方面严重依赖于访问大量个人图像、视频和语音录音的数据集。未经适当同意收集和商业化人们的生物特征数据引发了重大隐私问题。开放性、透明度以及为个人提供对其肖像使用的控制权对于赢得公众信任至关重要。
监管和法律问题 - 合成媒体和深度伪造目前存在于法律灰色地带。政策制定者正在努力解决实施新法律和法规以应对这一快速发展的技术的难题。关于归属操纵镜头、适应版权和诽谤法以及允许合法用例同时限制有害用例的问题仍然悬而未决。
偏见和代表性 - 训练数据中的ML偏见可能导致说话头像模型对少数群体和边缘化群体的代表性不足。多样性和包容性努力以及评估系统在肤色、性别、年龄和种族方面的表现至关重要，以减轻排斥或歧视。
真实性和同意 - 说话头像使得在未经同意的情况下创建已故偶像或公众人物的镜头成为可能。未经授权使用某人的肖像或合成视频也引发了关于真实性和个人权利的伦理问题。
总体而言，说话头像对社会产生了深远的影响，包括信息真实性、隐私、伦理和法律政策问题。权衡利弊的健全公共讨论，以及使这些系统透明、公平和以人为本的多学科研究将是关键。

6.3 挑战和未来方向

尽管已经取得了快速进展，但说话头像生成仍然面临一些需要进一步研究的关键挑战：

提高模型保真度 - 需要更多的工作来实现高度真实和自然的说话头像视频，包括更好的面部运动、表情、注视控制和姿势匹配。
启用可控生成 - 当前系统缺乏对合成镜头的细粒度控制。以细粒度的方式改善对演讲、注视、姿势、表情和照明等属性的控制仍然是一个开放的问题。
减少数据偏见 - 说话头像往往会延续和放大训练数据中存在的社会偏见。开发偏见缓解技术和代表性数据集对于公平性至关重要。
高计算成本 - 最先进的说话头像模型需要大量的计算资源来训练和运行。减少计算需求将提高访问性和扩大应用范围。
验证真实性 - 需要进一步开发稳健的数字水印、媒体取证和其他认证技术，以可靠地验证原始与合成镜头。

为了解决这些差距，需要来自计算机视觉、图形学、人机交互、伦理等领域的跨学科努力。总体而言，负责任地引导研究优先事项，促进积极应用，同时主动最小化伤害将是关键。

7. 结论

在这项调查中，作者提供了说话头像生成当前状态的较为全面概述，系统地检查了图像驱动、音频驱动、视频驱动和3D方法的主要方法。

正如摘要中总结的，目标是分析合成人工说话头像的不同技术的独特的创新、优势和局限性。我们还比较了公开可用模型在速度和输出质量等关键方面的表现。

作者的分析揭示了显著的进展，最新的视频驱动方法在几个指标上接近照片级真实结果。然而，仍然需要改进的领域，包括模型的鲁棒性、控制和减轻社会风险。

作者希望这项调查为寻求利用说话头像的从业者提供了一个坚实的参考，同时也突出了开放的挑战，以帮助指导负责任的未来研究。尽管头部合成能力已经达到了令人印象深刻的复杂程度，但在这些技术能够与人类价值观保持一致地广泛部署之前，仍然有许多工作要做。

通过跨学科的积极努力，研究社区可以将这些系统引导为以公平、道德和丰富的方式来增强人类的创造力。