LLM实现视频切片合成 前沿知识调研

devtools/2025/1/19 0:05:43/

1.相关产品

产品链接
腾讯智影https://zenvideo.qq.com/
可灵https://klingai.kuaishou.com/
即梦https://jimeng.jianying.com/ai-tool/home/
Runwayhttps://aitools.dedao.cn/ai/runwayml-com/
Descripthttps://www.descript.com/?utm_source=ai-bot.cn/
Opus Cliphttps://www.opus.pro/not-available?utm_source=ai-bot.cn/
Wondershare Filmorahttps://www.wondershare.com
AI Podcast Clipshttps://app.simplified.com/social-media
Vadoo AIhttps://ai.vadoo.tv/
WUI.AIhttps://www.wui.ai/zh-CN/clip-settings
FunCliphttps://github.com/modelscope/FunClip
AutoCuthttps://github.com/mli/autocut

2. 功能

产品功能
腾讯智影支持在线剪辑、素材库比较多、文生视频、视频解说、数字人播报
可灵文本生成视频、图片生成视频、文字生成图片
即梦文本生成视频、图片生成视频、文字生成图片
Runway图片生成视频、文本生成视频、文本转语音(提供大量音色)、文本生成图片
Descript基于文本剪辑视频
Opus Clip视频切片:自动从长视频中提取精彩片段,生成短视频。AI分析:使用人工智能技术分析视频内容,识别亮点和重要时刻。一键生成短视频:提供快速生成短视频的选项,简化编辑流程。片段选择:允许用户手动选择或调整Al挑选的片段,以确保最多视频符合预期。视频编辑:提供基本的视频编辑功能,如裁剪、排序和调整片段。
Wondershare FilmoraAI助手剪辑:使用个人AI助理编辑视频(分段,有点短),改善编辑流程。AI文字型编辑:将视频转换成文字,并使用基于文字的AI编辑,像编辑文件一样方便。AI缩略图制作:使用有效的缩略图吸引观众目光。AI音乐生成器:立即创作各种风格、情感和节奏的音乐。10,000+高质视频模板:告别枯燥的编辑工作,提升影片品质。创意资源拓展:超过1,500万个文字、音频、转场、特效和贴纸等资源。跨平台支持:在电脑、iPad和手机上编辑、存储和分享内容。
AI Podcast Clips自动分析视频:识别关键时刻和说话人变化。长视频变短视频(精华):自动生成带有字幕的短视频剪辑。 提供视频编辑器以调整视频比例和分辨率预测视频剪辑在社交媒体上的潜在表现(分数)。支持最大500MB的视频文件。
Vadoo AI长视频变短视频
WUI.AI长切短、总结、拆分章节、增加字幕
FunClip阿里开源的基于LLM的智能剪辑
AutoCut基于Markdown的可视化剪辑

3. 使用体验

目前国内大多数聚焦于大模型实现文生图文生视频很少有基于LLM实现智能剪辑的应用。国外关于LLM实现智能剪辑的产品较多,如WUI.AIOpus Clip(国内不能访问),智能剪辑体验起来比较丝滑,但存在剪辑视频断头断尾技术不开源的问题。国内阿里开源的FunClip提供了智能视频剪辑的解决方案,但同样存在剪辑视频断头断尾文字和时间戳不在同一轨道的情况。

4. FunClip底层技术

阿里开源的Funclip技术如下:
1)将视频转化为音频(ffmpeg);
2)使用ASR模型完成音频的转录;
3)基于转录的字幕使用LLM完成精华的提取;
4)根据LLM提取的内容,使用movie完成基于时间戳实现视频的剪辑。
在这里插入图片描述

5. Autocut底层技术

AutoCut 对你的视频自动生成字幕。然后你选择需要保留的句子,AutoCut 将对你视频中对应的片段裁切并保存。你无需使用视频编辑软件,只需要编辑文本文件即可完成剪切。采用的ASR模型是Open AI开源的whisper模型。
在这里插入图片描述
在使用AutoCut的时候,剪辑需要基于Markdown进行点击(费时费眼),且需要自己对视频理解的十分透彻。为此我们可以基于LLM完成精彩片段的提炼,然后编写正则表达式对Markdown内容进行自动点击。

6.未完待续

1)使用OCR实现ASR识别字幕的不准确性。

参考内容 https://zhuanlan.zhihu.com/p/10856868833

2)编写长变短、按照主题提取的Prompt模版。
参考
在这里插入图片描述


http://www.ppmy.cn/devtools/151700.html

相关文章

VSCode 的部署

一、VSCode部署 (1)、简介 vsCode 全称 Visual Studio Code,是微软出的一款轻量级代码编辑器,免费、开源而且功能强大。它支持几乎所有主流的程序语言的语法高亮、智能代码补全、自定义热键、括号匹配、代码片段、代码对比Diff、版本管理GIT等特性&…

C# 声明废弃特性

C# 声明废弃 使用特性[Obsolete] 可以在类,或者方法上方使用 类 如果调用该类,将显示 方法 基本用法 如果使用,将显示 高级用法 public ObsoleteAttribute(string message, bool error); //string message 提示可以拿什么来替换该语句 …

C#Halcon视觉流程框架个人封装流程心得

一,实现效果 1,初始界面 2,加载流程 3,点击流程列表“加载2D图像" 4,设置图像预处理参数与画线找线 5,执行流程 6,折叠工具箱 7,折叠操作区域 二,实现流程 1&…

【17】Word:林楚楠-供应链❗

目录 题目 NO1.2 NO3 NO4 NO5 NO6 NO7 NO89 题目 NO1.2 另存为:文件→另存为→文档→文件名/考生文件夹F12/FnF12→文件名/考生文件夹 插入→分节符→文本框→输入文件→排版_居中对齐→间距/回车去掉文本框的边框→选中文本框→格式:形状轮廓…

北京市房屋建筑物轮廓shp数据arcgis高度字段内容下载分析

标题中的“北京市房屋建筑物轮廓shp数据arcgis高度字段”涉及到的是地理信息系统(GIS)中的数据格式和属性字段。在GIS领域,SHP(Shapefile)是一种常见的矢量数据格式,用于存储地理空间特征,如点、…

docker与部署微服务实战

2013年发布至今, Docker 一直广受瞩目,被认为可能会改变软件行业。 但是,许多人并不清楚 Docker 到底是什么,要解决什么问题,好处又在哪里?今天就来详细解释,帮助大家理解它,还带有…

慧集通(DataLinkX)iPaaS集成平台-业务建模之域

通过左侧导航菜单〖业务建模〗→〖域〗,进入该界面;在该界面可以查看到系统中已存在的域列表。 新建域 在慧集通平台中进入【业务建模】的【域】页面,点击【新建】按钮进入新建页面;输入编码,名称、模块以及对应数据类…

【Azure Redis 缓存】Azure Cache for Redis 是否记录具体读/写(Get/Set)或删除(Del)了哪些key呢?

问题描述 在Azure Redis的门户活动日志中,可以查看到的是对于Redis资源本身的操作。但是对于客户端连接到Redis服务后,对服务所做出的读写,或删除操作,是否有日志可以查看到呢? No alt text provided for this image 问…