【通义万相】蓝耘智算 | 开源视频生成新纪元：通义万相2.1模型部署与测评

在这里插入图片描述

【作者主页】Francek Chen
【专栏介绍】 $⌈$ 人工智能与大模型应用 $⌋$ 人工智能（AI）通过算法模拟人类智能，利用机器学习、深度学习等技术驱动医疗、金融等领域的智能化。大模型是千亿参数的深度神经网络（如ChatGPT），经海量数据训练后能完成文本生成、图像创作等复杂任务，显著提升效率，但面临算力消耗、数据偏见等挑战。当前正加速与教育、科研融合，未来需平衡技术创新与伦理风险，推动可持续发展。

文章目录

- 前言
- 一、通义万相概述
- 二、通义万相功能介绍
- - （一）静态图像生成
  - （二）动态视频创作
- 三、基于蓝耘智算部署通义万相2.1
- - （一）注册蓝耘智算平台账号
  - （二）部署通义万相2.1
  - （三）测试文生视频
- 四、未来发展
- 五、影响意义
- 小结

前言

2025年，当通义万相2.1以开源视频生成模型的姿态横空出世时，整个AIGC领域为之震动。通义万相2.1模型推出新特征，包括复杂人物运动的稳定展现、现实物理规律的逼真还原及中英文视频特效的绚丽呈现。通过自研的高效VAE和DiT架构，增强时空上下文建模能力，支持无限长1080P视频的高效编解码，并首次实现中文文字视频生成功能。升级后的通义万相荣登VBench榜单第一，提供电影级分镜效果、四格漫画故事速览及情侣头像创意定制等多种玩法，满足多样化的视觉创作需求。

作为一名AIGC领域的爱好者，我第一时间通过蓝耘智算GPU平台完成了部署测试，而它的能力之强、应用门槛之低，生成视频的质量较高。

一、通义万相概述

通义万相是阿里云通义系列AI绘画创作大模型，由阿里巴巴研发，该模型可辅助人类进行图片、视频创作，于2023年7月7日正式上线。

阿里云通义万相是基于组合式生成模型Composer研发的多模态大模型，其发展历程体现了技术的快速迭代与应用拓展。2023年，阿里在ICML顶会发布Composer模型，同年7月推出通义万相1.0版本，支持文字生成图像。2024年9月，团队发布全新视频生成模型，并于2025年1月升级至万相2.1版本，显著提升视频与图像生成质量。2025年2月，阿里巴巴宣布全面开源万相2.1模型，随后浙文互联将其接入AIGC内容生产平台“好奇飞梭”，荣耀智能体也同步接入该技术，用户可通过终端体验AI功能。

该模型核心技术在于对图像设计元素（配色、布局、风格）的解构与重组，提供高可控性和自由度的生成效果，支持文字作画、AI生视频等功能。其能力覆盖文本、图像、视频、音频的全模态理解与生成，可辅助影视创作、动画设计、广告艺术等领域的内容生产。尤其在电商、游戏、文创等场景中，通义万相能高效生成符合商业需求的视觉素材，实现从创意到成品的全流程智能化支持。开源策略的推行进一步加速了技术生态建设，推动AIGC在产业端的规模化应用。

通义万相的问世意味着阿里云在大模型领域已经具备处理或生成文本、语音和图片等模态的能力。通义万相视频生成大模型集成了多项创新技术，有效解决画面表现力和大幅度运动等视频生成技术难题。

通义万相官网链接：https://tongyi.aliyun.com/wanxiang/

在这里插入图片描述

图1 通义万相官网

2025年2月25日，阿里巴巴宣布全面开源通义万相2.1视频生成模型，基于Apache2.0协议开放14B和1.3B参数版本的推理代码及权重，支持文生视频、图生视频功能。其中14B模型擅长指令理解与复杂运动生成，1.3B版本仅需8.2GB显存即可在消费级显卡运行，大幅降低开发门槛。开源后仅6天，该模型便登顶Hugging Face热榜及模型空间榜，总下载量突破百万次，Github获星超6k，反超同期热门模型DeepSeek-R1。

2月28日，浙文互联将万相2.1接入AIGC生产平台“好奇飞梭”，同日荣耀YOYO智能体整合该模型，用户可通过Magic7系列手机等终端体验AI视频生成功能。开源生态建设推动应用场景快速落地，覆盖二次开发、学术研究及商业级内容生产需求。技术亮点包括多模态任务支持、全开源架构及低硬件适配性，为影视、广告、游戏等领域提供高效创作工具，标志着AIGC技术向普惠化、工业化应用迈进。

二、通义万相功能介绍

通义万相作为阿里云推出的智能创作平台，其核心功能体系由静态图像生成与动态视频创作两大模块构成，通过创新的组合式生成技术实现多维度艺术表达。

（一）静态图像生成

在图文创作领域，系统基于Composer组合式生成模型构建了智能化工作流。该模型通过解构图像设计要素（包含风格、构图、材质等8大维度），赋予用户自由重组设计元素的能力。文字作画功能支持中英文混合输入，提供结构化提示词模板与智能扩写辅助，可一键生成水彩、中国画、3D卡通等七种主流艺术风格的图像。平台突破性地搭载双引擎系统：相似图生成引擎能基于用户上传图像进行风格延展创作，而风格迁移引擎则开创性地实现内容图与风格图的跨媒介转化，如将实拍照片转化为梵高油画风格。六种专业画幅比例配置（16:9至9:16）适配移动端、PC端及专业影像设备的多场景需求。

（二）动态视频创作

视频生成系统通过三大技术创新构建动态创作生态。文生视频模块采用"主体-场景-风格"三元控制框架，结合智能分镜扩写功能，可将简单文字描述转化为包含运镜轨迹的专业级视频脚本。该模块作为业内首个支持中英双语特效同步生成的商用系统，已应用于广告设计等垂直领域。

图生视频功能开创混合创作模式，用户上传首帧图像后，通过"主体-场景-运动"三维描述体系构建动态画面，自适应裁剪系统支持任意比例调整与专业画幅预设，配合物理仿真引擎确保运动轨迹的真实性。系统特别强化了长视频处理能力，采用分块编解码技术突破传统时长限制，可流畅生成无限时长的1080P高清视频。

平台通过元素解耦重组架构与时空建模技术，实现了从静态图像到动态影像的全链路创作支持。在专业测试中，系统生成的体育类视频肢体协调度达到92%的拟真水平，艺术风格转化准确率超过行业基准38%，为数字内容产业提供了兼具创作自由度与出品稳定性的智能解决方案。

三、基于蓝耘智算部署通义万相2.1

（一）注册蓝耘智算平台账号

点击注册链接：https://cloud.lanyun.net//#/registerPage?promoterCode=0131

输入手机号获取验证码，输入邮箱（这里邮箱会收到信息，要激活邮箱），设置密码，点击注册。

在这里插入图片描述

图2 注册蓝耘智算平台账号

新用户福利：注册后可领取免费试用时长（20元代金券，可直接当余额来使用）。

（二）部署通义万相2.1

登录后进入“应用市场”。这里我们就会看到许多AI大模型，包括DeepseekR1，阿里万相2.1和GPT等等。选择部署阿里万相2.1文生视频。

在这里插入图片描述

图3 蓝耘智算平台应用市场

推荐选择：计费方式：按量计费；GPU型号：(RTX 3090/RTX 4090) 显存24GB；GPU卡数：1。最后点击“立即购买”。（新用户送20元代金券，可直接当余额来使用)

在这里插入图片描述

图4 阿里万相2.1文生视频部署配置

点击“快速启动应用”。

在这里插入图片描述

图5 快速启动应用

（三）测试文生视频

在页面左侧输入关键词。可以在下面切换中英文（CH/EN）。也可以点击关键词下面的“Prompt Enhance”按钮，几分钟后生成更加丰富的提示词。在页面左下方点击“Generate Video”按钮，几分钟后在页面右侧生成视频。

提示词如下：

视频以低角度仰拍开始，展现一名身穿银白色太空服的宇航员在月球表面行走的壮丽景象，四周是荒凉但神秘的月球地形，布满坑洞与崎岖不平的地貌。随着镜头缓慢推进，可以看到宇航员的手轻轻触摸到一颗悬浮在空中的星星，背景中，深邃的宇宙星河缓缓流转，星星闪烁，构成一幅令人惊叹的星际画卷。整个视频通过慢镜头和精心设计的镜头运动，营造出一种梦幻般的科幻氛围，引领观众一同踏上这场月球探索之旅。

在这里插入图片描述

图6 测试文生视频

以下是图片中四个关键参数的含义解释：

Diffusion steps（扩散步数）：控制生成过程中的去噪迭代次数（示例值：50）。步数越多，细节越精细，但计算时间增加；步数过少可能导致结果粗糙。
Guide scale（引导强度）：调节生成内容与提示词（Prompt）的贴合程度（示例值：6）。数值越高，结果越严格遵循提示，但可能降低多样性；过低则内容可能偏离描述。
Shift scale（偏移尺度）：控制生成过程中的动态变化幅度（示例值：8）。常用于视频生成，决定帧间变化强度，值越高动态效果越明显，但可能影响连贯性。
Seed（随机种子）：决定生成结果的随机性（示例值：-1）。固定种子（如数值）可复现相同结果；-1通常表示随机生成，每次结果不同。

这些参数共同影响生成内容的细节质量、提示贴合度、动态效果及可复现性。

这样，视频就生成好了，我们可以点击“下载”图标，将视频另存到本地。

在这里插入图片描述

图7 文生视频结果

最后，然我们欣赏一下通义万相2.1生成视频的画面。

通义万相2.1文生视频：宇航员漫步月球

四、未来发展

随着通义万相2.1模型在开源生态与跨界合作中的全面突破，其技术能力的迭代升级正推动视频生成技术从实验室的“炫技工具”向产业级生产力工具转型。凭借对复杂物理规律的精准建模、多模态交互能力的深度优化，以及无限长1080P视频生成的技术突破，这款模型正在重构影视、电商、艺术创作等领域的生产流程，为行业带来肉眼可见的降本增效价值。

在影视工业化领域，通义万相的视频生成能力将彻底改变传统特效制作模式。导演团队可通过输入分镜脚本，快速生成包含光影效果、运镜轨迹的预演视频，实现创意可视化迭代——过去需要数周完成的特效预演，如今仅需输入一段自然语言描述即可生成多个风格化方案。对于中小成本剧组，模型支持直接输出太空漫步、灾难场景等高风险镜头的数字替身素材，结合后期精修可将特效制作成本降低70%。更值得关注的是其“动态分镜库”功能，制片方可基于历史镜头数据训练专属模型，生成符合特定美学风格的场景提案，显著提升创作效率。

电商领域则迎来“零成本数字孪生”的新可能。通过融合3D建模技术与视频生成能力，商家只需上传商品基础信息，即可批量生成360°展示视频、场景化使用演示，甚至自动适配节日营销主题的动态广告。以服装行业为例，通义万相的“AI虚拟试衣间”功能可基于用户身材数据生成动态试穿视频，结合物理引擎模拟面料垂坠感与动态褶皱，使线上购物转化率提升40%以上。而在直播电商场景中，主播可通过实时输入商品关键词，让AI同步生成背景特效与产品特写镜头，打造更具沉浸感的“虚实融合”购物体验。

艺术创作维度上，通义万相正在重新定义人机协作的边界。其突破性的“风格解耦-重组”架构，允许艺术家将梵高笔触、浮世绘构图等艺术元素拆解为可编程参数，通过自然语言指令实现跨时空的风格融合实验。例如，用户输入“敦煌壁画色彩+赛博朋克机械结构+水墨晕染效果”，模型即可生成兼具传统美学与未来感的动态艺术作品。更革命性的是“创意链”功能——艺术家创作的二维插画可被自动转化为三维动态雕塑，或延展成包含叙事线索的短片，让单一作品衍生出跨媒介的多元表达。

在这里插入图片描述

图8 通义万相模型升级

尤为关键的是，通义万相通过“零代码交互界面”实现了技术普惠。其创新设计的Prompt智能联想系统，能根据用户输入的碎片化描述自动补全专业级镜头语言，例如输入“海边日落”，界面会推荐“低角度逆光拍摄”“延时摄影云层流动”等影视级参数方案。配合手势绘制与语音交互功能，即便是缺乏专业训练的用户，也能通过勾勒分镜草稿、口述创意方向，快速生成具备电影质感的短视频内容。这种“技术隐形化”的设计理念，正在将视频创作从专业工作室带入寻常百姓家——旅游博主可以实时生成景点历史复原动画，教育从业者能一键制作科普微课，甚至老年用户也能轻松创作家庭影集动态相册。

当这些场景通过开源生态形成技术共振，通义万相展现的不仅是AI生成技术的飞跃，更预示着一个“全民视觉创作时代”的来临。从好莱坞片场到淘宝直播间，从艺术院校工作室到短视频创作者的书桌，视频生成技术正在突破行业壁垒，成为驱动数字内容产业升级的新引擎。而通义万相通过降低技术门槛与使用成本，让创意不再受限于资源与技能，真正释放每个普通人的视觉表达潜能——这或许才是AI视频生成技术最具颠覆性的价值所在。

五、影响意义

通义万相视频生成大模型的问世，标志着阿里云在多模态大模型领域实现了从文本、语音到视觉内容的跨维度突破。该模型通过整合跨模态对齐、运动轨迹预测等核心技术集群，成功攻克了高动态画面保真度与复杂运动连贯性两大视频生成技术瓶颈，为行业树立了新的技术标杆。

在关键技术突破层面，其创新主要体现在三大维度：

运动控制与物理仿真系统
通过创新设计的时空联合建模算法与物理引擎融合架构，不仅实现了人物、物体的高速运动轨迹精确控制，还支持推拉摇移等专业级镜头语言生成。特别在布料飘动、流体交互等物理仿真任务中，模型对现实世界动力学特性的还原度达到92%的行业新高。
高效视频编解码架构
研发的高效分层式VAE编解码框架，在保持4K级视觉保真度的同时，将视频数据压缩率提升至传统方法的3倍。该架构采用时空分离的特征提取策略，有效解决视频冗余信息问题，其重构PSNR值较主流方案提升4.2dB。
文化适配训练体系
通过自研的渐进式微调策略与多粒度数据筛选机制，模型在中式美学表达维度实现跨越式进化。在国风水墨、传统服饰纹样等生成任务中，风格还原准确率较前代模型提升58%，特别对敦煌飞天动态衣纹、青花瓷釉色渐变等复杂文化元素的生成误差控制在3px以内。

这套技术体系的构建，使得通义万相不仅能满足商业级视频生产需求，更在文化遗产数字化、影视工业化等领域展现出独特价值，推动AIGC技术从实验室创新向产业实用化迈进关键一步。

小结

通义万相2.1的开源标志着AIGC技术迈入普惠化与工业化并行的新阶段。作为全球首个支持中英文特效同步生成的开源视频模型，其通过自研的VAE与DiT架构，在无限长1080P视频生成、物理规律仿真、多模态交互等维度实现技术跃迁，不仅登顶VBench榜单，更以低显存需求和高适配性打破专业创作壁垒。从影视特效的降本增效到电商动态广告的精准生成，从艺术创作的跨风格融合到零门槛的全民创作生态，通义万相2.1以开源之力重构了数字内容生产范式。阿里云通过产学研深度协同，不仅推动AIGC技术从“实验室炫技”转向“产业级工具”，更以文化适配训练体系激活传统美学在数字时代的生命力。当技术突破与开源生态形成共振，通义万相2.1正成为驱动视觉生产力变革的核心引擎，为“想象力即生产力”的泛创作时代写下生动注脚。