阿里通义最新黑科技!“通义舞王”:让静态照片翩翩起舞,探索艺术与科技的无限可能

news/2024/11/22 15:21:40/

引子:穿越二维与三维的艺术边界

在科技日新月异的时代,艺术创作的疆界正以前所未有的速度拓展,,从AI作曲和音乐生成技术带来的跨风格音乐作品,到基于人工智能的诗歌与文学创作,艺术不再仅仅是人类个体情感与才华的体现,而成为人机交互、数据智能与创新思维相互融合的新领域。

近日,阿里云再次引领创新潮流,推出一款令人叹为观止的AI黑科技——“通义舞王”。

image.png

该功能内置于通义千问APP中,它突破了平面与立体、静止与动态之间的壁垒,能够将一张普通的照片在短时间内转化为一段神形兼备的舞蹈视频,让每一位用户都能感受到科技进步带来的魔法般的艺术体验。接下来,就带领各位一起切身体验一下吧!

从照片到舞者:体验一键唤醒沉睡的灵魂

目前,该功能只适用于手机APP端,web端暂时不支持哈。

image.png

所以请先在手机下载通义APP,下载完成后在输入框输入“通义舞王”,然后就会跳转进舞王界面了,具体操作如下:

640.gif

点击立即体验热舞,我们可以看到很多模板,这些模板包含了当前比较热门的“科目三” “DJ慢摇”等视频:

image.png

我们选到最热门的科目三栏目下面,此时会有几个已有人物模板,但是做为一个真正的ikun,我的梦想一直是希望能看到我家鸽鸽跳这支舞,所以我毫不犹豫的上传了他的照片。

对于上传的照片,其实也是有要求的,最好是一张清晰的正面单人照片,尽量避免有遮挡物或背景干扰

5791c45818c07b7e01673a5999d8c47.jpg

对于用户自己上传的照片,将其视频化需要一定的时间,根据笔者的体验平均需要10分钟15分钟之间,所以只需要耐心等待即可~此时可以保留后台去刷刷别的视频,当制作完成后会有相应提示的。

经过十几分钟的等待,鸽鸽跳舞的视频就生成好了,还能很好地保留原照片的面部表情、身材比例、服装以及背景等特征。

dba06a353b5fe29ba6b3f8bee34ed2ed.gif

“通义舞王”以其深度学习和计算机视觉的核心技术,赋予静态人物照片全新的生命力。只需上传一张照片,无论拍摄对象是谁,无论何种姿势,“通义舞王”都能够通过高精度的人脸识别及人体姿态分析算法,捕捉并模拟人物的关键动作点,进而将其与丰富多样的舞蹈模板无缝对接,生成逼真且富有表现力的舞蹈视频。

千变万化的舞蹈宇宙背后究竟是什么?

通义千问之所以能够实现生成流畅且高质量的舞蹈视频,依靠的是近期阿里巴巴XR实验室研发团队公布的一项名为“Animate Anyone”的创新算法,其核心能力是利用扩散模型从静态人物图像出发,自动生成流畅且连贯的角色动画视频。

image.png

Animate Anyone 可以将任意角色的照片转化为一系列按照所需姿势排列的动态视频内容,这一突破不仅显著提升了图像到视频合成的质量,特别是在角色动画的自然度和稳定性上,而且简化了传统动画制作流程,降低了创作门槛。

image.png

Animate Anyone使用扩散模型生成视频,同时引入了ReferenceNet来保持细节特征的一致性,Pose Guider来控制角色的动作,以及Temporal-Attention来保证视频帧之间的平滑过渡。它可以将静态的角色图像(包括真人、动漫/卡通角色等)转化为动画视频,同时保留角色的细节特征(如面部表情、服装细节等)。

  • ReferenceNet:负责编码参考图像角色的外观特征;

  • Pose Guider(姿态引导器):负责编码动作控制信号以实现可控角色运动;

  • Temporal layer(时间层):负责编码时间关系,以确保角色动作的连续性。

一些历史的姿态驱动视频生成方案,在生成的视频上容易出现视频一致性(准确度)减弱的问题。另一个核心的问题在于,之前的一些驱动方案在以人作为主题的视频生成,无法同时保证泛化性和一致性的能力。

而在该方法中,通过上述三个模块,能够将角色图片转化为受期望姿态序列控制的动画视频,同时确保外观一致性和时间稳定性。

image.png

在上面这张架构图中,我们也可以清晰的看到这三个模块之间的关系。

**ReferenceNet**

简单来说,构建了一个“完整Unet版”的Controlnet。设计了一个与去噪UNet结构相同的ReferenceNet。在每个UNet块的对应层,我们用空间注意力替换了自我注意力层,将ReferenceNet的特征与去噪UNet的特征相结合。

image.png

同时文章给出了和原生ControlNet的的取舍的原因:为什么不使用ControlNet 一般Unet+零卷积的实现方案,整体的原因是输入的控制信息,例如作为深度和边缘的canny特征控制,适合输入图像一致对齐的。但是落到现在的具体任务中,参考图像和目标图像在空间上相关但不一致(所以只能做controlNet reference-only相似生成)。因此,ControlNet不是适合直接应用。

**Pose Guider**

同样不同于COntrolNet的设计方式,为了不增加控制网络模型的复杂性,没有引入额外的插件来实现该功能。引入了一个轻量级的Pose Guider,它使用四个卷积层将姿态图像与噪声表达,将处理后的图像添加到噪声中,作为去噪UNet的输入。

image.png

时序Attention层:

受到AnimateDiff的启发。为了确保帧间的平滑过渡,在Res-Trans块中加入了时间时序Attention模块,通过时序Attention模块,来进行时空一致性的控制。时序Attention层位于Res-Trans块内,对特征图进行时间注意力操作,从而捕获帧间的相关性。时间层的输出与原始特征图通过残差连接相结合,以保留空间信息。这种设计可以实现让模型能够生成具有平滑帧间过渡的动画视频。

image.png

除此之外,该方法还采用了一种分阶段的训练策略,分为两个阶段进行训练,以实现高质量的角色动画。

第一阶段:

在第一阶段,使用单帧图像作为输入进行训练,暂时不使用时间层。这个阶段的主要目标是学习参考图像中的细节特征,并实现有效的运动控制。在这个阶段,仅训练ReferenceNet和Pose Guider。通过在单个图像上进行训练,模型能够专注于学习与参考图像相关联的细节特征,同时实现对角色运动的控制。这为后续阶段的训练奠定了基础。

第2阶段:

在第二阶段,引入时间层,并使用24帧视频序列进行训练。这个阶段的主要目标是实现帧间的平滑过渡,从而使生成的视频具有更好的时间连续性。通过在视频序列上进行训练,模型能够学习到帧间的相关性,并调整其生成过程以实现更自然的动画效果。

训练过程分为两个阶段有助于在不同阶段关注不同的目标,从而实现高质量的角色动画。在第一阶段,模型学习保留细节特征并实现运动控制;在第二阶段,模型进一步优化帧间过渡,使生成的视频更加流畅和自然。通过这种分阶段训练策略,能够在角色动画任务上取得优越的性能。

上述内容也是来自于论文中的,这里也给出相关链接,有兴趣的朋友可以直接看看。

anyone项目地址:https://humanaigc.github.io/animate-anyone/

论文地址:https://arxiv.org/pdf/2311.17117.pdf

仓库地址(目前尚未开源):https://github.com/HumanAIGC/AnimateAnyone

深度解读:科技如何重塑艺术表达?

“通义舞王”的诞生不仅刷新了我们对数字艺术的认知,也提出了关于未来艺术创作的新课题。当科技的力量逐渐渗透至传统艺术领域,会否催生出一种全新的艺术形式?人工智能能否成为艺术家们的创意伙伴,共同编织出超越现实的梦幻之舞?而作为普通用户,我们又该如何把握这种新工具,去创造属于自己的艺术故事,并在全球数字化的大背景下,分享个人独特的文化与情感表达?

对此,笔者看法如下:

首先,毫无疑问,科技能够为艺术创作注入了无限可能,极大地拓宽了艺术表现手法和媒介的范围。就以AI绘画为例,它通过深度学习技术模拟人类艺术家的创作风格与技法,能够在短时间内生成大量风格各异的艺术作品,无论是古典主义、抽象派还是超现实主义,都能被算法捕捉并重新演绎。这种新型的艺术生产方式不仅突破了物理空间和时间的限制,也使得艺术创作的门槛降低,让更多的创作者得以尝试艺术表达,从而推动艺术生态更加多元化,对于普通用户而言确实是一件大好事。

除此之外,科技确实也会催生出全新的艺术体验模式,比如今年云栖大会就有一个VR的李白展让我印象十分深刻,观众能够通过沉浸式VR/AR眼镜跨越时空面对面和李白交流,从被动接受者转变为主动参与者。这种参与性艺术实践模糊了创作者与观赏者的界限,使艺术作品的生命力得到了前所未有的延伸和深化。

然而,在科技带来的积极影响之外,我们也应审慎思考其潜在的负面问题。一方面,AI艺术创作可能会引发原创性和真实性的争议,因为机器虽能模仿各种艺术风格,但缺乏真正的人类情感内核和创意灵感,这可能导致艺术界对于“何为真正的艺术”这一基本命题产生混淆。另一方面,过度依赖科技可能会导致艺术创作陷入机械化、同质化的陷阱。若艺术仅是算法模型的结果而丧失了个体的创造力和独立思考,则艺术作品的多样性和复杂性将受到影响,甚至有可能阻碍艺术发展的内在动力。

此外,科技带来的便利性也可能改变艺术市场的格局,如版权归属问题肖像权问题、艺术品真实性判定等问题也随之浮现,这些都需要在法律制度和伦理规范层面进行深入探讨和完善。

共赴未来的艺术之旅

面对“通义舞王”所带来的颠覆性变革,我们不禁对未来充满了期待。这不仅仅是一个AI跳舞视频生成工具,更是连接现实与虚拟、个人与集体、传统与现代的一座桥梁。让我们携手踏上这段由科技驱动的艺术探索之旅,在“通义舞王”的助力下,一起见证并参与这场席卷全球的艺术革命!


http://www.ppmy.cn/news/1295285.html

相关文章

【软件测试】概述

《软件缺陷》 定义 (从产品内部看)软件产品开发或维护过程中存在的错误、毛病等各种问题(从产品外部看)系统所需要实现的某种功能的失效或违背 表现形式(1) 软件没有实现产品规格说明所要求的功能模块(2) 软件中出现了产品规格说…

R语言【base】——tempfile():返回一个字符串向量,这些字符串可以用作临时文件的名称

Package base version 4.2.0 Parameters tempfile(pattern "file", tmpdir tempdir(), fileext "") tempdir(check FALSE) 参数【pattern】:一个非空字符向量,给出名称的初始部分。 参数【tmpdir】:提供目录名称的…

[通俗易懂]c语言中指针变量和数值之间的关系

一、指针变量的定义 在C语言中,指针变量是一种特殊类型的变量,它存储的是另一个变量的内存地址。指针变量可以用来间接访问和操作内存中的其他变量。指针变量的定义如下: 数据类型 *指针变量名;其中,数据类型可以是任…

YOLOv8模型yaml结构图理解(逐层分析)

前言 YOLO-V8(官网地址):https://github.com/ultralytics/ultralytics 一、yolov8配置yaml文件 YOLOv8的配置文件定义了模型的关键参数和结构,包括类别数、模型尺寸、骨架(backbone)和头部(hea…

鸿蒙OS:不止手机,是物联网应用开发

鸿蒙开发是华为自主研发的面向全场景的分布式操作系统,旨在将生活场景中各类终端进行整合,实现不同终端设备间的快速连接、资源共享、匹配合适设备、提供流畅的全场景体验。 鸿蒙开发具有以下特点: 面向全场景:鸿蒙系统能够覆盖…

How can I be sure that I am pulling a trusted image from docker?

1、Error response from daemon: manifest for jenkins:latest not found: manifest unknown: manifest unknown 2、Error response from daemon: pull access denied for nacos, repository does not exist or may require ‘docker login’: denied: requested access to th…

循环平稳信号分析方法在旋转机械设备状态监测和故障诊断中的应用

旋转机械设备是现代社会中不可或缺的重要组成部分,广泛应用于航空航天、汽车制造、电力系统等领域。然而,由于旋转机械设备的复杂性和工作环境的恶劣性,其运行过程中可能出现各种故障,导致设备性能下降甚至发生事故。因此&#xf…

Linux 编译安装 Nginx

目录 一、前言二、四种安装方式介绍三、本文安装方式:源码安装3.1、安装依赖库3.2、开始安装 Nginx3.3、Nginx 相关操作3.4、把 Nginx 注册成系统服务 四、结尾 一、前言 Nginx 是一款轻量级的 Web 服务器、[反向代理]服务器,由于它的内存占用少&#xf…