视频级虚拟试衣技术在淘宝的产品化实践

ops/2025/2/28 20:16:06/

图片

作为一种新的商品表现形态,内容几乎存在于手淘用户动线全流程,例如信息流种草内容、搜索消费决策内容、详情页种草内容等。通过低成本、高时效的AIGC内容生成能力,能够从供给端缓解内容生产成本高的问题,通过源源不断的低成本供给倒推消费生态的建立。过去一年,我们通过在视频生成、图文联合生成、个性化文案、人设Agent等核心技术上的持续攻关,AIGC内容生成在手淘多个场景取得了规模化落地价值。本专题《淘宝的AIGC内容生成技术总结》是我们摸索出的一部分实践经验,我们将开启一段时间的内容AI专题连载,欢迎大家一起交流进步。

第一篇《淘宝内容AI团队2024年8篇论文总结》

第二篇《内容AI: 目标驱动的图像生成》

第三篇《OpenAI o1模型的前世今生》

第四篇《多模态人物视频驱动技术回顾与业务应用》

图片

背景介绍

视频虚拟试穿任务定义为将指定服饰穿着到视频中的人物身上,以实现视频级别的服饰上身展示效果。在此之前,大多数的方法主要聚焦在基于图像的虚拟试穿领域。然而,仅仅依靠静态图像进行虚拟试穿存在一定的局限性,静态试衣图不够生动活泼,并且也无法充分展现服饰所具有的更多物理特性。当直接把基于图像的试穿方法逐帧应用到视频级别的输入时,所生成的换衣视频常常会因为帧与帧之间的不一致性,从而导致时间上出现不连续的情况。从更细节的维度来看,我们对图像换衣和视频换衣的价值进行了系统性的对比,具体内容可参见下方表格。


图像换衣

视频换衣

评价

动态展示

视频虚拟换衣可以展示服装在不同角度和动作下的效果,更加立体和真实。

物理特性

视频虚拟换衣可以在动态展示中,让用户对衣物的质感、剪裁和摆动等物理特性有更全面的了解。

吸引力

视频能够吸引用户的眼球,增强用户参与感和体验感,提高他们对产品的兴趣。

信息价值

⭐️️⭐️️️️

⭐️️⭐️️⭐️️⭐️️⭐️️

在视频中,服装的移动、光影变化等细节都更容易展示,让用户对服装材质和款式有更详细的认识。

商业价值

⭐️️⭐️️️️

⭐️️⭐️️⭐️️⭐️️⭐️️

视频可以更好展示商品特性,吸引用户注意力,提升点击率促进成交;视频更容易融入丰富的营销内容,比如广告、动态展示等。

难度

⭐️️⭐️️⭐️️

⭐️️⭐️️⭐️️⭐️️⭐️️

不论是数据收集还是建模训练,视频虚拟试衣模型研发难度要远高于图像换衣。

成本

⭐️️⭐️️️️

⭐️️⭐️️⭐️️⭐️️⭐️️

视频换衣模型的参数量和计算的FLOPs都高于图像换衣模型,这导致视频换衣的训练和推理的成本更高。

成熟度

⭐️️⭐️️⭐

⭐️️⭐️️

图像换衣因为起步早、难度成本较低,相较于视频换衣技术成熟度更高一些,不过视频换衣也达到了业务可用水平

图像换衣和视频换衣的价值对比

根据我们之前的研究,我们假设视频虚拟试穿的任务从技术的层面可以分解为两个关键方面。

  1. 我们关注的是单帧结果的真实性和自然性,同时还要确保服装与人物形象的一致性。这意味着我们需要在每一帧中精确地呈现出人物的皮肤颜色、纹理和形状,以及服装的颜色、纹理和款式,使其看起来就像真实的人物在试穿一样。

  2. 我们还关注人的动作和服装在整个视频中的连贯性。这意味着我们需要在视频中平滑地过渡不同帧之间的动作,并确保服装的颜色和款式与前一帧保持一致。

针对这两个方面,我们提出了一个流畅换衣视频生成方案,实现了高清、高帧率、连贯、一致性的换衣视频。

服饰

图像换衣

视频换衣

2e67d10d6b7a4605cb5544b0a6786ae7.png

94060100463bb2a2492ca724245ede70.png

直观对比图像和视频换衣效果

我们依托视频换衣生成方案,针对不同业务场景进行了一系列的建设工作,打造出了三种类型的产品级能力。具体内容呈现在如下表所示当中。

产品级能力

应用场景

营销视频自动投放

面向平台,自动圈选缺乏营销视频的品类,并生成相应的含有卖点信息的营销视频以供投放

模特试穿素材生成

面向商家,帮助商家便捷的产出高质量试穿视频,丰富其店铺营销素材

买家试穿效果生成

面向买家,帮助买家直观的看到自己心仪的服饰上身后的效果

产品级能力和应用场景对应关系

图片

算法能力建设

早期的方案对视频换衣技术的可行性进行了验证。在早期的方案中,成功地初步实现了将一件衣服移植到视频中的模特身上这一功能,并且很好地保留了服饰的款式、纹理等重要特性。然而,早期方案存在一些局限性,导致其无法达到业务可用的水准。具体来说,有以下几个方面的问题:其一,训练数据集的规模较小,这使得模型的泛化能力相对较弱。其二,由于受到基础模型能力的限制,无法生成非常精细的视频细节。其三,受限于传统的 2D VAE 和双 UNet 结构,模型无法有效地使用高清且长时序的训练数据。其四,受限于重建损失,很多服饰的 logo 细节无法得到准确还原。以上这些局限性使得视频换衣的产出结果常常出现模糊、畸形、伪影、logo 损失等问题。针对上述这些问题,我们对视频换衣的整体框架进行了系统性的升级,具体涵盖以下几个方面:

  1. 持续迭代DiT方案的人物垂领图生视频(img2video)基础模型,作为视频换衣模型的预训练,提升模型对服饰电商领域的泛化性,DiT 结构在参数量和数据集的规模扩展方面更加容易。

  2. 运用 3D vae,对视频的空间时序进行压缩处理,这显著地提升了输入数据的分辨率以及帧率。

  3. 建立了高质量视频级换衣数据收集链路,持续扩增优质、多样的视频换衣数据。以及精心设计的视频换衣模型训练以及推理方案。

图片

产品能力建设

▐  模版库建设

为了提升用户与换衣产品的交互门槛,我们建设了一个具备高质量且多样化的模版库以及一个能够做到精确匹配商品与模版的机制。使得用户得以在仅仅输入一个服饰图或者商品ID的前提下,就能一键生成完整的试穿视频。


  • 真实风格模版生成

首先,我们精心收集了一批授权的服饰类营销视频,并且安排专业人员进行了细致的人工标注。在众多视频中,挑选出一批适用于淘宝服饰展示的原始视频。接着,运用视频级重绘(video2video)方法,以标注的授权视频为蓝本,模仿其风格成功生成一段全新的视频,极大地丰富了平台自有版权的模版视频的数量和多样性。

(左)参考视频(中)生成模版(右)生成模版换衣

基于真实风格模版所生成的完整换衣视频内容具体如下。这个视频是依据输入的商品,成功匹配到了多个真实风格的模版片段。随后,通过一系列自动化的后期处理步骤,包括智能剪辑、讲解文案生成、智能配乐以及语音生成技术(TTS)等,最终为 C 端用户完整地展示了一个有关“风衣”类服饰的营销广告视频。

(左)原始视频片段手工拼接,(右)基于真实风格模版所生成的完整换衣视频

  • 模版与服饰匹配能力

考虑到服饰的调性和算法生成的局限性,在自动化生产基于视频换衣的营销视频时,将服饰和模版做随机匹配是不合常理的,例如无衣兜服饰配插兜动作,男性模版配吊带女装等。

(左)插兜动作输入视频。(右)换上无衣兜服饰后效果

(左)男性视频模版。(右)换上女装后的效果

为了系统性解决服饰与候选模版不搭调的问题,我们提出了一个对输入服饰和候选模版进行精确匹配的方法,首先我们对服饰和视频模版定义了最多30种标签,我们通过大规模图文模型对模版库离线提取出相应标签,对于每一个输入的服饰,我们通过图文大模型判断其合法性,并实时提取出对应的标签,最终通过一套匹配规则将两者关联起来。

24dd40f029b0458f82fca50b81cfe896.png模版和服饰的打标与匹配

▐  产品形态建设

为了帮助商品更好的被展示,我们设计了一套成品模特试穿视频生成链路。这套链路可以仅仅根据输入的服饰itemid或者商品图,自动生成符合商品特性的、时长约1分钟的多分镜、多姿态模特换衣视频。这意味着用户可以轻松地通过我们的平台,选择他们想要展示的服饰,并生成一系列精美的试穿视频。除了生成视频之外,我们的系统还串联了配乐、tts、文案生成等功能,可以进一步提升视频的展示效果。通过这些能力,1)平台可以批量产出帮助商家成交导流的视频内容;2)商家可以制作出更加吸引人的服饰展示广告视频,吸引更多的潜在客户。3)买家可以上传自己视频,来身临其境的感受心仪服饰的上身效果。

通过我们的产品,用户可以轻松地制作出高质量的服饰展示广告视频,并展示商品卖点和特性。我们的目标是通过展示服饰在人体上的逼真效果,来促成交易,提升销售额。


  • For平台-批量化营销视频生成


产品介绍

此产品支持根据圈选的一系列服饰商品的ID,自动化的选择商品展示图并匹配合适的视频模版。对于常见的男女老少的初夏秋冬季服饰都能支持。目前该能力已经落地。

f23925896f593dc7b53797e2b4ca3df2.png批量化营销视频生成链路

效果展示

其中,我们的营销视频自动投放能力,目前已经应用在一些场景。以下为该算法的实际输出效果。

输入服饰图和对应商品ID

生成视频

输入服饰图和对应商品ID

生成视频

21ad2e9f2ae28b2577a792a219fc0bbe.png

414c5747b3df9dd57c39f988c042081c.png

1c17d3c6ee45a04d038306ddb923e88d.png

5f72ef7eee87be19da721c24571bcf88.png

服饰搭配生成的营销视频效果

  • For商家-模特试穿素材生成


产品介绍

除了能够依据自动圈选的商品池来自动生成完整的营销视频之外,我们同时也是面向商家端的创意工具。我们拥有帮助商家利用商品图制作出模特试穿短片以及混剪视频的能力。详细而言,在商家端,当商家上传一张服饰图,或者是一组服饰图的组合品时,系统会为商家自动推荐适宜的换衣模版。商家既可以在候选模版集中进行挑选,也可以自行上传多个换衣模版。最终,我们将会产出与之对应的视频换衣结果。目前该产品在推进落地中。

d3c90e999cd4c824d997625f76f9290e.jpeg面向商家的模特试穿素材生成产品示意图

84a81b18209aa0402f3ba46267e54d6e.png商家与系统的一轮交互流程

效果展示

服饰

模版

生成结果

9545533d072eb6b2208938cd23169cde.png
a1e74fbaeb413677840d5c58f3a49d4c.png

模特试穿展示

  • For买家-个性化试穿效果生成


产品介绍

我们的产品能力上还设计了支持C端买家的功能,根据用户选择的服饰和用户自己的视频生成对应的服饰换衣视频。帮助买家身临其境的感受试穿后的形象。目前该产品还在设计筹备中。


真实买家视频

由于视频换衣对输入视频形式要求较高,我们设计了基于模版-服饰匹配系统的匹配度评价方法,对用户上传视频提取模版标签(参见【模版与服饰匹配能力】章节),同时提取输入服饰的标签,并计算出视频与服饰之间的匹配度,对低分模版返回模版改进建议,如上半身模版不适合换下装、性别不符、背景季节不合适、场景人物过多等。


虚拟买家视频

为了降低用户与系统交互成本,我们还建设了根据用户人脸形象生成合适模版,具体来说,首先根据用户人脸以及用户提供的外形信息(如身高、体重、年龄等)生成一个全身形象,再通过pose driven的Image-to-Video模型生成一个符合标准的模版视频。


效果展示

服饰

用户视频

生成视频

0192e36f9add0f9022d8cda9bfae7ebf.jpeg

买家试穿展示

图片

总结

我们在过去一段时间对视频级虚拟换衣的基础模型和产品能力建设做了一系列的迭代更新,在部分业务场景上已经初步取得了一定的正向效果,未来我们还为继续提升基础模型能力,继续完善产品化能力,帮助平台、商家、买家更好的服务。

图片

团队介绍

我们是淘宝业务技术内容AI团队-视频生成组,专注于服饰时尚领域,持续迭代服饰上身视频生成基础模型和下游服饰应用模型效果,并持续完善 FashionVideoGen 服饰视频产品化解决方案,面向商家和内容场域,做更灵活可控和多样化的视频生成产品化能力,让AIGC技术充分发挥业务价值。欢迎关注。

¤ 拓展阅读 ¤

3DXR技术 | 终端技术 | 音视频技术

服务端技术 | 技术质量 | 数据算法


http://www.ppmy.cn/ops/162052.html

相关文章

游戏引擎学习第124天

仓库:https://gitee.com/mrxiao_com/2d_game_3 回顾/复习 今天是继续完善和调试多线程的任务队列。之前的几天,我们已经介绍了多线程的一些基础知识,包括如何创建工作队列以及如何在线程中处理任务。今天,重点是解决那些我们之前没有注意到…

Document对象

DOM4j中,获得Document对象的方式有三种: 1.读取XML文件,获得document对象 SAXReader reader new SAXReader(); Document document reader.read(new File("input.xml")); 2.解析XML形式的文本,得到document对象…

泛微e-office index.php sql注入漏洞复现(CNVD-2022-2)(附脚本)

免责申明: 本文所描述的漏洞及其复现步骤仅供网络安全研究与教育目的使用。任何人不得将本文提供的信息用于非法目的或未经授权的系统测试。作者不对任何由于使用本文信息而导致的直接或间接损害承担责任。如涉及侵权,请及时与我们联系,我们将尽快处理并删除相关内容。 0x0…

Vue 项目中配置代理的必要性与实现指南

Vue 项目中配置代理的必要性与实现指南 在 Vue 前端项目的开发过程中,前端与后端地址通常不同,可能引发跨域问题。为了在开发环境下顺畅地请求后端接口,常常会通过配置**代理(proxy)**来解决问题。这篇文章将详细解析…

Gin从入门到精通 (七)文件上传和下载

文件上传和下载 1.文件上传 1.1单文件上传 在 Gin 中处理单文件上传,可以使用 c.FormFile 方法获取上传的文件,然后使用 c.SaveUploadedFile 方法保存文件。 package mainimport ("github.com/gin-gonic/gin""log" )func main()…

SEO炼金术(4)| Next.js SEO 全攻略

在上一篇文章 SEO炼金术(3)| 深入解析 SEO 关键要素 中,我们深入解析了 SEO 关键要素,包括 meta 标签、robots.txt、canonical、sitemap.xml 和 hreflang,并探讨了它们在搜索引擎优化(SEO)中的作…

为AI聊天工具添加一个知识系统 之125 详细设计之66 智能语义网络

本文要点 要点 需要了解 ”智能“的不同意义。语义学有三:形式语义学、词典语义学和认知语义学。下面给出本项目的设计对“智能”的所有三种语义学 划分。 1、形式语义学(认识对象执行操作系统化,形式化目的-形成数据(形成式智…

C++程序员内功修炼——Linux C/C++编程技术汇总

在软件开发的宏大版图中,C 语言宛如一座巍峨的高山,吸引着无数开发者攀登探索。而 Linux 操作系统,以其开源、稳定、高效的特性,成为了众多开发者钟爱的开发平台。将 C 与 Linux 相结合,就如同为开发者配备了一把无坚不…