阿里万相,正式开源

news/2025/3/6 18:33:43/

大家好,我是小悟。

阿里万相正式开源啦。这就像是AI界突然开启了一扇通往宝藏的大门,而且还是免费向所有人敞开的那种。

你想想看,在这个科技飞速发展的时代,AI就像是拥有神奇魔法的魔法师,不断地给我们带来各种意想不到的惊喜。而阿里万相,就是这个魔法师团队里的新星。

2 月 25 日晚间,阿里云旗下的视觉生成基座模型万相2.1(Wan)正式开源啦。这消息一出来,就像是在平静的湖面上投下了一颗重磅炸弹,瞬间在科技界引起了轩然大波。

图片

阿里万相这次开源,可是诚意满满。它采用了最宽松的Apache2.0协议,14B和1.3B两个参数规格的全部推理代码和权重全部开源。

这就好比是一个慷慨的美食家,把自己精心准备的美味佳肴毫无保留地端了出来,大家可以尽情品尝。

它还支持文生视频和图生视频任务哦。你没听错,只要你有想法,无论是写一段生动的文字描述,还是上传一张创意满满的图片,万相都能像变魔术一样,为你生成炫酷的视频。

说到这,你可能会问,这个万相到底有多厉害呢?那可真是不容小觑。14B万相模型在指令遵循、复杂运动生成、物理建模、文字视频生成等方面那表现,简直可以用“惊艳”来形容。

图片

在权威评测集VBench中,万相2.1以总分86.22%的成绩大幅超越Sora、Luma、Pika等国内外模型,稳居榜首位置。这就好比是在一场激烈的赛跑比赛中,它像一阵风一样,把其他选手远远地甩在了后面。

而1.3B版本也毫不逊色,它的测试结果不仅超过了更大尺寸的开源模型,甚至还接近部分闭源模型。这就好比是一个小个子选手,凭借着自己的实力,和那些身材高大的选手一较高下,还取得了不俗的成绩。

更让人惊喜的是,这个1.3B版本能在消费级显卡运行,仅需8.2GB显存就可以生成高质量视频。这对于很多人来说,简直是一个福音。

以后,无论你是专业的AI开发者,还是业余的编程爱好者,甚至是只是对视频生成好奇的小伙伴,都可以用自己电脑里的显卡,体验一下万相的神奇魔力。

图片

阿里万相之所以这么厉害,是因为它的团队在算法设计上可是下了大功夫的。它基于主流DiT架构和线性噪声轨迹Flow Matching范式,研发了高效的因果3D VAE、可扩展的预训练策略等一系列黑科技。

就拿3D VAE来说吧,为了实现高效支持任意长度视频的编码和解码,万相在3D VAE的因果卷积模块中实现了特征缓存机制。

这就好比是在一条繁忙的公路上,增加了一个高效的调度中心,让车辆的通行变得更加顺畅,从而代替了直接对长视频端到端的编解码过程,实现了无限长1080P视频的高效编解码。

而且通过将空间降采样压缩提前,在不损失性能的情况下进一步减少了29%的推理时内存占用。这就像是一个精明的管家,把资源管理得井井有条,让一切都有条不紊地运行。

万相团队的实验结果也充分证明了它的实力。在运动质量、视觉质量、风格和多目标等14个主要维度和26个子维度测试中,万相均达到了业界领先表现,并且斩获5项第一。

图片

这就好比是在一场选美比赛中,它凭借自己的才华和魅力,赢得了评委们的一致认可。特别是在复杂运动和物理规律遵循上的表现上大幅提升。

它能稳定展现各种复杂的人物肢体运动,像旋转、跳跃、转身、翻滚等动作,都能做得栩栩如生。还能精准还原碰撞、反弹、切割等复杂真实物理场景,仿佛给虚拟世界装上了真实的物理引擎。

阿里从2023年开始,就坚定地走上了大模型开源路线。就像是一个有远见的探险家,发现了一条充满希望的道路,然后毫不犹豫地带着大家一起前行。

自2023年8月起,阿里云相继开源了Qwen、Qwen1.5、Qwen2、Qwen2.5等4代模型,囊括了0.5B、1.5B、3B、7B、14B、32B、72B、110B等全尺寸,大语言、多模态、数学和代码等全模态,多次登上国内外权威榜单,已成为全球开源社区最重要的模型系列。

图片

阿里云千问(Qwen)衍生模型数量已超过10万个,是全球最大的AI模型家族。这一次万相的正式开源,无疑是给这个庞大的AI模型家族注入了新的活力。

从应用角度看,万相模型可以说是“百变精灵”。它可生成影视级高清视频,能应用于影视创作、动画设计、广告设计等领域。

想象一下,你的创意和万相的强大功能相结合,说不定能创造出令人惊叹的作品。就像电影导演们有了一个神奇的助手,能够更加轻松地实现他们的奇思妙想。动画设计师们也能借助万相的力量,让他们的角色和场景更加生动逼真。

随着万相的开源,阿里云也实现了全模态、全尺寸大模型的开源。这就好比是一个商业帝国已经建立了一个全方位的武器库,里面各种强大的武器应有尽有,等待着大家去发掘和利用。

全球的开发者们都可以在Github、HuggingFace和魔搭社区下载体验这个强大的工具,发挥自己的创造力。

对于广大开发者来说,阿里万相正式开源是一个绝佳的机会。你可以参与到这个充满创新和挑战的领域中来,用自己的智慧和代码,探索AI的无限可能。

图片

您的一键三连,是我更新的最大动力,谢谢

山水有相逢,来日皆可期,谢谢阅读,我们再会

我手中的金箍棒,上能通天,下能探海


http://www.ppmy.cn/news/1577138.html

相关文章

【问题解决】Jenkins使用File的exists()方法判断文件存在,一直提示不存在的问题

小剧场 最近为了给项目组提供一个能给Java程序替换前端、后端的增量的流水线,继续写上了声明式流水线。 替换增量是根据JSON配置文件去增量目录里去取再替换到对应位置的,替换前需要判断增量文件是否存在。 判断文件是否存在?作为一个老Ja…

nlp第十节——LLM相关

一、模型蒸馏技术 本质上是从一个大模型蒸馏出小模型,从小模型训练出来的概率分布(如自回归模型预测下一个字的概率分布)分别与大模型预测的概率分布和ground label求loss。与大模型预测的概率分布用KL散度求loss,与ground label用…

蓝桥杯算法——铠甲合体

问题描述 暗影大帝又开始搞事情了!这次他派出了 MM 个战斗力爆表的暗影护法,准备一举摧毁 ERP 研究院!MM 个暗影护法的战斗力可分别用 B1,⋯,BMB1​,⋯,BM​ 表示。 ERP 研究院紧急召唤了 NN 位铠甲勇士前来迎战!每位铠甲勇士都…

如何在React中正确处理异步操作?

文章目录 1. 引言2. 异步操作的典型场景与潜在问题2.1 典型场景2.2 常见问题 3. 基本原则与最佳实践3.1 封装异步逻辑3.2 使用React Hooks管理副作用3.3 管理加载、错误与数据状态3.4 防止内存泄漏3.5 避免竞态条件 4. 在React中处理异步操作的方法4.1 使用 useEffect 处理异步…

Webpack分包与合包深度解析

Webpack分包与合包深度解析 引言:现代前端工程的模块化困境 在单页面应用(SPA)复杂度日益增长的今天,一个未经优化的Webpack构建产物可能面临: 首屏加载缓慢(超过3秒白屏)公共模块重复打包&am…

JAVA毕设项目-基于SSM框架的百色学院创新实践学分认定系统源码+设计文档

文末获取源码数据库文档 感兴趣的可以先收藏,有毕设问题,项目以及论文撰写等问题都可以和博主沟通,尽最大努力帮助更多的人! 百色学院创新实践学分认定系统设计与实现 摘 要 本百色学院创新实践学分认定系统是针对目前实践学分认定…

利用golang embed特性嵌入前端资源问题解决

embed嵌入前端资源,配置前端路由的代码如下 func StartHttpService(port string, assetsFs embed.FS) error {//r : gin.Default()gin.SetMode(gin.ReleaseMode)r : gin.New()r.Use(CORSMiddleware())// 静态文件服务dist, err : fs.Sub(assetsFs, "assets/di…

【数据结构】什么是栈||栈的经典应用||分治递归||斐波那契问题和归并算法||递归实现||顺序栈和链栈的区分

文章目录 🥧栈的初步理解:🥧易错:如何判断栈满🥧栈满理解🥧栈的基本运算📚栈操作的伪代码逻辑(顺序和链栈)📕顺序栈运算实现:顺序栈的表示&#x…