文生视频开源产品的一些调研(一)

embedded/2024/10/18 10:14:56/

笔者尝试AI视频生成的几个特点:

  • 玄学prompt,每个视频的prompt可能也需要微调很多次,需要找到使用模型的最佳prompt词组合,不恰当的比喻,骑自行车,座位高度等都是人与车彼此熟悉
  • 玄学生成,因为需要连贯,你可能需要生成无数个视频,99%可能都是一坨屎,各种垮脸的关键帧,需要失败很多次,才有那么个能看的,所以按照这个原理,买在线平台比较不划算,因为每次生成都是计费的

如果要生成比较合理的长视频:

  • 合理的拆解分镜
  • 每个分镜要有适配模型的prompt,包括背景描述
  • 玄学生成视频,力大出奇迹

这里笔者有点推荐使用【星火绘镜】来试着打造分镜,首图也可以保存,
后面生成视频的功能就别用了,瘆人。

几个可以同时支持图+文共同输入的模型:

  • 即梦
  • lumalabs.AI
  • Runway Gen-3 Alpha

1 产品调研

AIGC产品列表可见:[AI视频生成]

1.1 快手:可灵

https://kling.kuaishou.com/

没有申请到测试账户,生成短视频一般5s左右,示例视频的动作还蛮丰富

在这里插入图片描述
号称可以支持长视频:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

1.2 lumalabs.AI

https://lumalabs.ai/dream-machine/creations

120 秒生成 120 帧,视频模型 Dream Machine

在这里插入图片描述

Dream Machine 可在 120 秒生成 120 帧,目前单个视频最长为 5 秒;生成的视频具有逼真的流畅运动、电影摄影和戏剧效果;还可以匹配摄像机运动,创造出“惊艳”的画面。
Luma AI 也提到了目前模型存在的问题,比如切换视角时汽车会变形,狗的运动没有用到爪子,显示文字会有问题(将 Luma 显示成 Lumma),北极熊在转身时出现了两个头(Janus 是罗马人的门神,具有前后两个面孔),官方表示他们仍将继续优化模型。

1.3 即梦 - 剪映旗下

https://jimeng.jianying.com/ai-tool/home
在这里插入图片描述

有一些比较视觉的功能,比如运镜控制,还有首帧,尾帧的图片的上传可以固定首尾情况
但是整体5S中,可以连贯的剧情可能比较简单,
笔者体验下来可能仅仅实现的是图像动起来

生成的内容也会有变形,所以需要生成很多次才可以。

在这里插入图片描述

1.4 科大讯飞-星火绘镜

https://typemovie.art/#/dashboard
在这里插入图片描述

笔者猜测底层可能是【Stable Video Diffusion】,使用的某个Lora都是高清现代人物,比较亮眼的长视频的分镜处理
第一步:给入主题大纲生成分幕剧情
在这里插入图片描述
在这里插入图片描述

第二步:根据每一个分镜描述,生成分镜首图,然后后续会根据这些首页图再次生成
咋说呢,首图看着确实很亮眼,但是后续生成的视频,简直不能看,胆小慎入…
反正不能人样…
在这里插入图片描述

1.5 魔搭MotionAgent

https://modelscope.cn/studios/iic/MotionAgent/summary

MotionAgent是一个能将用户创造的剧本生成视频的深度学习模型工具。用户通过我们提供的工具组合,进行剧本创作、剧照生成、图片/视频生成、背景音乐谱写等工作。

是一个比较完整的项目了,包括剧本,音乐生成,就是缺了一个分镜就更好了
比较适合自己搭服务器玩

在这里插入图片描述

1.6 CogVideo

https://segmentfault.com/a/1190000044809082
https://models.aminer.cn/cogvideo/
只有4s,可以免费试用的相对固定

在这里插入图片描述

1.7 runwayml

https://runwayml.com/?ref=magicspace.agency

在这里插入图片描述

1.8 Stable Video

Stable Video是由著名的Stability AI推出的在线AI视频生成工具,目前拥有最强大的AI绘画模型之一,Stable Diffusion。它提供文本生成视频和图像生成视频两种模式,每天还可获得积分,免费生成多达十几个视频。
网址 https://www.stablevideo.com/

测试下来,本质就是让图动起来,差了点意思,剧情感不强

在这里插入图片描述

1.9 Lumen5

Lumen5能够将长篇文章、博客等文本内容转化为视频,并提供丰富的视频模板供选择。用户可以对制作过程进行微调,添加素材等,享有高度自由度。
网址https://lumen5.com/

在这里插入图片描述

1.10 腾讯智影 - 数字人创作

腾讯智影是一款集成了AI数字人物、AI文字转语音(TTS)、文章转视频等功能的智能创作工具。用户可以选择多种AI数字人物,并进行细节控制,如动作、服装等。
网址 https://zenvideo.qq.com/

1.11 即创 - 电商商品生成

即创是字节跳动专为抖音生态而推出的AI创作平台,能够通过AI快速生成文案、带货视频、直播以及商品宣传图等内容。同时也提供AI数字人功能。
用户可以通过抖音精选联盟的商品ID,在即创中一键生成爆款内容,非常适合从事抖音带货的用户。
官网 https://aic.oceanengine.com

1.12 一帧秒创

https://aigc.yizhentv.com/product/aiVideo

拆分剧本,但是视频都是哪个影视剧的小片段裁剪的,不是合成的

在这里插入图片描述

1.13 domoAI - 视频转动漫

官方 Discord 链接: https://discord.gg/domoai

DomoAI 的服务目前托管 Discord 上的,可以将真人视频转化为动漫、3D、像素、彩色插画、中国水墨画等多种风格。下面是官方展示的真人视频转动漫视频的效果,非常稳定丝滑。
在这里插入图片描述

1.14 Runway Gen-3 Alpha

2024/6/18更新
https://app.runwayml.com/video-tools/

整体有120s的免费时间
每次一般生成4s一段的视频

关联报道:Runway发布Gen-3 Alpha:用100万美元拍500部电影的时代来了!|甲子光年

Gen-3 Alpha的五大功能特色
每一个功能都能让你的创意想法变为现实,发现Gen-3 Alpha能提供的优越体验。

  • 文本到视频:将文本描述转换为视频。
  • 图像到视频:将静态图像转换为动态视频。
  • 文本到图像:将文本描述转换为静态图像。
  • 高级相机控制:精细控制视频拍摄角度和运动。
  • 导演模式:对视频的叙事和场景进行详细指导。

本次发布的Gen-3 Alpha模型使用视频和图像联合训练,其特色包括:

  • 90秒内快速生成10秒视频
  • 并行生成多个视频
  • 模型驱动新的文本到视频(T2V)、图像到视频(I2V)和文本到图像(T2I)
  • 动作笔刷、高级摄像机控制、导演模式
  • 即将推出用于精细控制结构、风格、动作的工具

在这里插入图片描述
在这里插入图片描述
整个制作页面也蛮好:
在这里插入图片描述
当然笔者在测试的时候,一直想让人物有一个躺下的动作:

Jane sat on the bed, swiping her phone, then lay back on the bed, holding the phone as she lay down, keeping her eyes on the screen without shifting

但是一直“躺不下”,可能这个动作时间不够。。
在这里插入图片描述
不过runway是可以直接使用extend功能,
当然,延长4s,依旧不能躺下。。


http://www.ppmy.cn/embedded/52588.html

相关文章

GPT 大模型应用开发概览

随着大模型的风靡,越来越多的企业希望使用大模型来提高自己的服务能力,即在自己的软件中集成大模型的能力,希望让大模型解决一些特定的问题。 大模型的应用开发,其本质上是提示词工程,如何组好提示词,直接…

C++堆栈的区别?两者大小有限制吗?【面试】

C堆栈的区别: 内存分配方式: 堆:由程序员手动分配和释放,如果程序员不释放,程序结束时可能由操作系统(OS)回收。堆的分配方式类似于链表。栈:由编译器自动分配和释放,主要存放函数的参数值和局部…

word常用的通配符大全

常用的Word通配符: 通配符描述示例?匹配任意单个字符c?t 匹配 “cat”、“cut” 等*匹配零个或多个字符colr* 匹配 “color”、“colour” 等[ ]匹配方括号内任意一个字符[aeiou] 匹配任意一个元音字母[!x-x]排除指定范围内的任意单个字符[!a-c] 匹配不包含a、b、…

某大型建设集团有限公司信息化技术方案(250页WORD)

方案介绍:本信息化技术方案旨在构建一个集成度高、功能全面、操作简便的信息化系统,涵盖公司管理、业务运营、项目监控、数据分析等多个方面。通过引入云计算、大数据、物联网、人工智能等先进技术,实现资源的优化配置、流程的高效协同和数据…

【AI大模型】ChatTTS——颠覆传统,赋能未来的文本到语音技术

文章目录 一、项目介绍二、代码解释三、从技术角度进行分析四、技术细节与实现五、优缺点分析六、应用场景分析七、未来展望八、结论 一、项目介绍 随着人工智能技术的不断进步,语音合成(TTS)技术得到了飞速发展。ChatTTS项目作为一个开源的…

澳汰尔(Altair)3D 打印部件设计仿真——打造高效的增材制造设计

借助 Inspire Print3D,可加速创新、结构高效的 3D 打印部件的创建、优化和研究,提供快速准确的工具集,可用于实现选择性激光熔融 (SLM) 部件的设计和过程仿真。 工程师可以快速了解影响可制造性的工艺或设计变更,然后将部件和支撑…

如何用GO语言实现冒泡排序算法?

本章教程,介绍一下如何用GO语言实现基础排序算法中的冒泡排序。 一、程序代码 package mainimport ("fmt""math/rand""time" )// bubbleSort 函数实现冒泡排序算法 func bubbleSort(arr []int) {n

热门开源项目

当谈到热门的开源项目时,选择总是取决于你的兴趣和技术栈。以下是一些广受欢迎和活跃的开源项目,涵盖了不同的领域和技术: React: GitHub 地址: GitHub - facebook/react: The library for web and native user interfaces.描述: 由 Facebook…