浅谈人工智能之基于容器云进行文生视频大模型搭建
引言
随着深度学习技术的不断发展,文生视频(Text-to-video)大模型成为了计算机视觉和自然语言处理领域的一个研究热点。文生视频模型可以根据输入的文本描述生成高质量的视频,广泛应用于艺术创作、广告设计、虚拟现实等领域。本文将介绍如何搭建一个基于iiic/text-to-video-synthesis的文生视频大模型。
模型效果展示
我们首先看一下我们对搭建好的模型的效果进行展示,我们的提示词如下“
A pretty girl eating noodels on a rock.
我们得到的视频如下结果如下:
环境搭建
基于上一篇文生图的模型搭建,我们进行文生视频的搭建。
第一步:依赖安装
pip install accelerate
pip install einops
第二步:模型下载调用
from modelscope.pipelines import pipeline
from modelscope.outputs import OutputKeysp = pipeline('text-to-video-synthesis', 'damo/text-to-video-synthesis')test_text = {'text': 'A pretty girl eating noodels on a rock.',}
output_video_path = p(test_text, output_video='./output.mp4')[OutputKeys.OUTPUT_VIDEO]
print('output_video_path:', output_video_path)
第三步:执行上述py文件
python video.py
第四步:如果在跑py的期间提示安装依赖包,则根据提示的信息对依赖包进行安装。
至此我们就简单的一个文生视频环境搭建完成。