[ICLR-24] GPAvatar: Generalizable and Precise Head Avatar from Images(s)

[ICLR-24] GPAvatar: Generalizable and Precise Head Avatar from Images(s)

news/2024/10/20 4:04:49/

[pdf | proj | code]

提出GPAvatar，实现可驱动的单图虚拟头像重建（Head avatar reconstruction）。
重建：给定图像得到对应Tri-plane。在此基础上，本文提出了MTA，可以融合多张图片输入信息，缓解单张图片中存在遮挡的问题。
驱动：受Point-Avatar启发，给每个FLAME绑定一个特征，对于任意点，检索其K个最近邻FLAME三角面片，根据K个三角面片绑定特征的加权和计算该点的表情特征。
从实验效果上看，对跨域人像效果不错

近期工作

基于2D变形（2D-based warping）：通过稀疏关键点计算变形场，将原图片变形至新表情，通过编解码器生成外观。但是由于缺乏3D约束，这类方法的多视角一致性较差，尤其是当头部姿态变化较大时。
基于网格（mesh-based）：例如3DMM，但是3DMM对几何纹理的建模能力较较差，无法建模非面部信息（头发），表情也不是很自然。
基于神经渲染（neural rendering）：相较于前两类方法，在3D一致性和非面部信息建模上表现出色，但是部分方法需要大量人像数据用于重建，并且存在很耗时的推理阶段。

本文提出了GPAvatar，实现给定一张或多张图片，在单次推理中重建可驱动人像。主要挑战包括：保ID重建和准确表情控制。

针对第一个挑战，GPAvatar提出Multi Tri-planes Attention (MTA) 模块，在规范场中融合多张输入图片的信息；
针对第二个挑战，GPAvatar提出dynamic Point-based Expression Field（PEF）：通过点云驱动，准确有效地捕捉表情；

方法

GPAvatar的整体过程可以概括如下：

输入变量包括：输入图片I_i，对应的形状系数s_i，驱动表情e_t和位姿p_t，生成的驱动图片I_t；
映射函数包括：E（输入图片 -> 规范特征空间），PEF（FLAME模型和绑定特征theta -> 几何特征）R（体渲染），MTA（多张输入图片 -> 规范特征空间）。

规范特征编码器（Canonical Feature Encoder）

使用GDPGAN，将对齐人脸输入图像映射为Tri-planes；

基于点的表情场（Point-based Expression Field）

FLAME模型中每个三角面片绑定一个可学习特征。给定任意3D点x，检索其K个最近邻FLAME三角面片，根据K个三角面片绑定特征的加权和计算该3D点的表情特征f_exp，加权系数与3D点和面片距离成反比，具体计算如下：

其中，pi是第i个三角面片位置，f_i是对应的绑定特征，L_p是可学习的线性层，F_pos是位置编码函数。

Multi Tri-planes Attention

输入图片可能有多张，通过规范特征编码器得到多个Tri-planes。额外增加一个可学习的query tri-planes，提供权重融合多个Tri-planes，具体计算如下：

其中，Q是query tri-planes，L_q和L_k是可学习的线性层。

体渲染和超分

渲染图像为128 x 128，通过超分模块得到高质量渲染，超分模块也是端到端训练的。

训练策略和损失函数

包括重建损失和正则损失，其中重建损失为高低分辨率的L1损失和perceptual损失；正则损失为NeRF密度损失，希望密度尽可能小。具体如下

实验

数据集：VFHQ数据集，包含8013个视频切片，提取240,390帧用于训练。训练中，随机从同一ID视频中采样两帧，一帧用于驱动，另一帧用作源图像。同时，每轮训练有70%概率输入两张图片，30%概率输入一张图片。使用VFHQ和HDTF数据集测试。
Evaluation Metrics：同ID和跨ID重演。
跨ID重演：用基于ArcFace的ID编码的余弦相似度（cosine similarity of identity embeddings，CSIM）来评价ID一致性，以及平均表情距离（Average Expression Distance，AED）和平均姿态距离（Average Pose Distance，APD）评估表情和姿态驱动；
同ID重演：PSNR、SSIM、L1、LPIPS和平均关键点距离（Average Key-point Distance，AKD）
基线方法：StyleHeat、ROME、OTAvatar、Next3D、HideNeRF

同ID重演

跨ID重演

多图片输入

消融实验

http://www.ppmy.cn/news/1441299.html

相关文章

SOLIDWORKS Electrical 3D--精准的三维布线

SOLIDWORKS Electrical 3D--精准的三维布线

相信很多工程师在实际生产的时候都会遇到线材长度不准确的问题，从而导致线材浪费甚至整根线材报废的问题，这基本都是由于人工测量长度所导致的，因此本次和大家简单介绍一下SOLIDWORKS Electrical 3D布线的功能，Electrical 3D布线能…

阅读更多...

Android 开发工具使用

Android 开发工具使用

c调试在NDK调试的时候，如果找不到符号的话，我们可以在调试配置中添加符号地址的全路径一直到根目录：，xxx/armeabi-v7a： You must point the symbol search paths at the obj/local/ directory. This is also not a …

阅读更多...

《苍穹外卖》Day11部分知识点记录（数据统计——图像报表）

《苍穹外卖》Day11部分知识点记录（数据统计——图像报表）

一、Apache ECharts 介绍 Apache ECharts是一款基于javascript的数据可视化图标库，提供直观、生动、可交互、可个性化定制的数据可视化图表。官网地址：https://echarts.apache.org/zh/index.html 效果展示柱形图饼图折线图入门案例 1. 在 echart…

阅读更多...

HarmonyOS 应用开发——入门

HarmonyOS 应用开发——入门

首先当然是华为的官方文档了，要认真学习: https://developer.huawei.com/consumer/cn/doc/harmonyos-guides-V2/start-overview-0000001478061421-V2 不想花时间看，可以看我下面总结的干货，哈哈第一个问题：stage架构和fa架构的区…

阅读更多...

RabbitMQ spring boot TTL延时消费

RabbitMQ spring boot TTL延时消费

关于延时消费主要分为两种实现，一种是rabbitmq的TTL机制，一种是rabbitmq的插件实现。实现一：TTL 1、设置队列的过期时间 2、设置消息的过期时间添加相关maven依赖 <dependency><groupId>org.springframework.boot</grou…

阅读更多...

HTTP的MIME 类型（2024-04-27）

HTTP的MIME 类型（2024-04-27）

1、简介 MIME (Multipurpose Internet Mail Extensions) 是描述消息内容类型的标准，用来表示文档、文件或字节流的性质和格式。 MIME 消息能包含文本、图像、音频、视频以及其他应用程序专用的数据。浏览器通常使用 MIME 类型（而不是文件扩展名&…

阅读更多...

数据结构：树的分类及在数据库索引中的运用

数据结构：树的分类及在数据库索引中的运用

文章目录一 ：树的分类1、二叉树（Binary Tree）：2、二叉搜索树（Binary Search Tree, BST）：3、平衡二叉树：4、字典树（Trie）：5、多叉树（M…

阅读更多...

Xcode隐私协议适配

Xcode隐私协议适配

1. Privacy manifest files 1.1 简介自己App或三方SDK（通过XCFrameworks|Swift packages|Xcode projects集成的）需要包含一个隐私清单文件（privacy manifest）叫作 PrivacyInfo.xcprivacy。它是一个属性列表，记录了A…

阅读更多...

最新文章