视频级虚拟试衣技术在淘宝的产品化实践

作为一种新的商品表现形态，内容几乎存在于手淘用户动线全流程，例如信息流种草内容、搜索消费决策内容、详情页种草内容等。通过低成本、高时效的AIGC内容生成能力，能够从供给端缓解内容生产成本高的问题，通过源源不断的低成本供给倒推消费生态的建立。过去一年，我们通过在视频生成、图文联合生成、个性化文案、人设Agent等核心技术上的持续攻关，AIGC内容生成在手淘多个场景取得了规模化落地价值。本专题《淘宝的AIGC内容生成技术总结》是我们摸索出的一部分实践经验，我们将开启一段时间的内容AI专题连载，欢迎大家一起交流进步。

第一篇《淘宝内容AI团队2024年8篇论文总结》

第二篇《内容AI: 目标驱动的图像生成》

第三篇《OpenAI o1模型的前世今生》

第四篇《多模态人物视频驱动技术回顾与业务应用》

背景介绍

视频虚拟试穿任务定义为将指定服饰穿着到视频中的人物身上，以实现视频级别的服饰上身展示效果。在此之前，大多数的方法主要聚焦在基于图像的虚拟试穿领域。然而，仅仅依靠静态图像进行虚拟试穿存在一定的局限性，静态试衣图不够生动活泼，并且也无法充分展现服饰所具有的更多物理特性。当直接把基于图像的试穿方法逐帧应用到视频级别的输入时，所生成的换衣视频常常会因为帧与帧之间的不一致性，从而导致时间上出现不连续的情况。从更细节的维度来看，我们对图像换衣和视频换衣的价值进行了系统性的对比，具体内容可参见下方表格。

	图像换衣	视频换衣	评价
动态展示	❌	✅	视频虚拟换衣可以展示服装在不同角度和动作下的效果，更加立体和真实。
物理特性	❌	✅	视频虚拟换衣可以在动态展示中，让用户对衣物的质感、剪裁和摆动等物理特性有更全面的了解。
吸引力	❌	✅	视频能够吸引用户的眼球，增强用户参与感和体验感，提高他们对产品的兴趣。
信息价值	⭐️️⭐️️️️	⭐️️⭐️️⭐️️⭐️️⭐️️	在视频中，服装的移动、光影变化等细节都更容易展示，让用户对服装材质和款式有更详细的认识。
商业价值	⭐️️⭐️️️️	⭐️️⭐️️⭐️️⭐️️⭐️️	视频可以更好展示商品特性，吸引用户注意力，提升点击率促进成交；视频更容易融入丰富的营销内容，比如广告、动态展示等。
难度	⭐️️⭐️️⭐️️	⭐️️⭐️️⭐️️⭐️️⭐️️	不论是数据收集还是建模训练，视频虚拟试衣模型研发难度要远高于图像换衣。
成本	⭐️️⭐️️️️	⭐️️⭐️️⭐️️⭐️️⭐️️	视频换衣模型的参数量和计算的FLOPs都高于图像换衣模型，这导致视频换衣的训练和推理的成本更高。
成熟度	⭐️️⭐️️⭐	⭐️️⭐️️	图像换衣因为起步早、难度成本较低，相较于视频换衣技术成熟度更高一些，不过视频换衣也达到了业务可用水平

图像换衣和视频换衣的价值对比

根据我们之前的研究，我们假设视频虚拟试穿的任务从技术的层面可以分解为两个关键方面。

我们关注的是单帧结果的真实性和自然性，同时还要确保服装与人物形象的一致性。这意味着我们需要在每一帧中精确地呈现出人物的皮肤颜色、纹理和形状，以及服装的颜色、纹理和款式，使其看起来就像真实的人物在试穿一样。
我们还关注人的动作和服装在整个视频中的连贯性。这意味着我们需要在视频中平滑地过渡不同帧之间的动作，并确保服装的颜色和款式与前一帧保持一致。

针对这两个方面，我们提出了一个流畅换衣视频生成方案，实现了高清、高帧率、连贯、一致性的换衣视频。

服饰	图像换衣	视频换衣

直观对比图像和视频换衣效果

我们依托视频换衣生成方案，针对不同业务场景进行了一系列的建设工作，打造出了三种类型的产品级能力。具体内容呈现在如下表所示当中。

产品级能力	应用场景
营销视频自动投放	面向平台，自动圈选缺乏营销视频的品类，并生成相应的含有卖点信息的营销视频以供投放
模特试穿素材生成	面向商家，帮助商家便捷的产出高质量试穿视频，丰富其店铺营销素材
买家试穿效果生成	面向买家，帮助买家直观的看到自己心仪的服饰上身后的效果

产品级能力和应用场景对应关系

算法能力建设

早期的方案对视频换衣技术的可行性进行了验证。在早期的方案中，成功地初步实现了将一件衣服移植到视频中的模特身上这一功能，并且很好地保留了服饰的款式、纹理等重要特性。然而，早期方案存在一些局限性，导致其无法达到业务可用的水准。具体来说，有以下几个方面的问题：其一，训练数据集的规模较小，这使得模型的泛化能力相对较弱。其二，由于受到基础模型能力的限制，无法生成非常精细的视频细节。其三，受限于传统的 2D VAE 和双 UNet 结构，模型无法有效地使用高清且长时序的训练数据。其四，受限于重建损失，很多服饰的 logo 细节无法得到准确还原。以上这些局限性使得视频换衣的产出结果常常出现模糊、畸形、伪影、logo 损失等问题。针对上述这些问题，我们对视频换衣的整体框架进行了系统性的升级，具体涵盖以下几个方面：

持续迭代DiT方案的人物垂领图生视频（img2video）基础模型，作为视频换衣模型的预训练，提升模型对服饰电商领域的泛化性，DiT 结构在参数量和数据集的规模扩展方面更加容易。
运用 3D vae，对视频的空间时序进行压缩处理，这显著地提升了输入数据的分辨率以及帧率。
建立了高质量视频级换衣数据收集链路，持续扩增优质、多样的视频换衣数据。以及精心设计的视频换衣模型训练以及推理方案。

产品能力建设

▐ 模版库建设

为了提升用户与换衣产品的交互门槛，我们建设了一个具备高质量且多样化的模版库以及一个能够做到精确匹配商品与模版的机制。使得用户得以在仅仅输入一个服饰图或者商品ID的前提下，就能一键生成完整的试穿视频。

真实风格模版生成

首先，我们精心收集了一批授权的服饰类营销视频，并且安排专业人员进行了细致的人工标注。在众多视频中，挑选出一批适用于淘宝服饰展示的原始视频。接着，运用视频级重绘（video2video）方法，以标注的授权视频为蓝本，模仿其风格成功生成一段全新的视频，极大地丰富了平台自有版权的模版视频的数量和多样性。

（左）参考视频（中）生成模版（右）生成模版换衣

基于真实风格模版所生成的完整换衣视频内容具体如下。这个视频是依据输入的商品，成功匹配到了多个真实风格的模版片段。随后，通过一系列自动化的后期处理步骤，包括智能剪辑、讲解文案生成、智能配乐以及语音生成技术（TTS）等，最终为 C 端用户完整地展示了一个有关“风衣”类服饰的营销广告视频。

（左）原始视频片段手工拼接，（右）基于真实风格模版所生成的完整换衣视频

模版与服饰匹配能力

考虑到服饰的调性和算法生成的局限性，在自动化生产基于视频换衣的营销视频时，将服饰和模版做随机匹配是不合常理的，例如无衣兜服饰配插兜动作，男性模版配吊带女装等。

（左）插兜动作输入视频。（右）换上无衣兜服饰后效果

（左）男性视频模版。（右）换上女装后的效果

为了系统性解决服饰与候选模版不搭调的问题，我们提出了一个对输入服饰和候选模版进行精确匹配的方法，首先我们对服饰和视频模版定义了最多30种标签，我们通过大规模图文模型对模版库离线提取出相应标签，对于每一个输入的服饰，我们通过图文大模型判断其合法性，并实时提取出对应的标签，最终通过一套匹配规则将两者关联起来。

模版和服饰的打标与匹配

▐ 产品形态建设

为了帮助商品更好的被展示，我们设计了一套成品模特试穿视频生成链路。这套链路可以仅仅根据输入的服饰itemid或者商品图，自动生成符合商品特性的、时长约1分钟的多分镜、多姿态模特换衣视频。这意味着用户可以轻松地通过我们的平台，选择他们想要展示的服饰，并生成一系列精美的试穿视频。除了生成视频之外，我们的系统还串联了配乐、tts、文案生成等功能，可以进一步提升视频的展示效果。通过这些能力，1）平台可以批量产出帮助商家成交导流的视频内容；2）商家可以制作出更加吸引人的服饰展示广告视频，吸引更多的潜在客户。3）买家可以上传自己视频，来身临其境的感受心仪服饰的上身效果。

通过我们的产品，用户可以轻松地制作出高质量的服饰展示广告视频，并展示商品卖点和特性。我们的目标是通过展示服饰在人体上的逼真效果，来促成交易，提升销售额。

For平台-批量化营销视频生成

产品介绍

此产品支持根据圈选的一系列服饰商品的ID，自动化的选择商品展示图并匹配合适的视频模版。对于常见的男女老少的初夏秋冬季服饰都能支持。目前该能力已经落地。

批量化营销视频生成链路

效果展示

其中，我们的营销视频自动投放能力，目前已经应用在一些场景。以下为该算法的实际输出效果。

输入服饰图和对应商品ID

生成视频

输入服饰图和对应商品ID

生成视频

服饰搭配生成的营销视频效果

For商家-模特试穿素材生成

产品介绍

除了能够依据自动圈选的商品池来自动生成完整的营销视频之外，我们同时也是面向商家端的创意工具。我们拥有帮助商家利用商品图制作出模特试穿短片以及混剪视频的能力。详细而言，在商家端，当商家上传一张服饰图，或者是一组服饰图的组合品时，系统会为商家自动推荐适宜的换衣模版。商家既可以在候选模版集中进行挑选，也可以自行上传多个换衣模版。最终，我们将会产出与之对应的视频换衣结果。目前该产品在推进落地中。

面向商家的模特试穿素材生成产品示意图

商家与系统的一轮交互流程

效果展示

服饰	模版	生成结果

模特试穿展示

For买家-个性化试穿效果生成

产品介绍

我们的产品能力上还设计了支持C端买家的功能，根据用户选择的服饰和用户自己的视频生成对应的服饰换衣视频。帮助买家身临其境的感受试穿后的形象。目前该产品还在设计筹备中。

真实买家视频

由于视频换衣对输入视频形式要求较高，我们设计了基于模版-服饰匹配系统的匹配度评价方法，对用户上传视频提取模版标签（参见【模版与服饰匹配能力】章节），同时提取输入服饰的标签，并计算出视频与服饰之间的匹配度，对低分模版返回模版改进建议，如上半身模版不适合换下装、性别不符、背景季节不合适、场景人物过多等。