如何在算家云搭建OpenSora 1.2(文本生成视频)

一. OpenSora 1.2简介

1. 技术特点

高清视频生成 :

  • OpenSora 1.2 在 720p 高清文生视频质量和生成时长上取得了突破性进展,支持无缝产出任意风格的高质量短片。
  • 通过引入视频压缩网络(VAE)和更优的扩散模型算法,显著提升了视频生成的质量和效率。

视频压缩网络 :

  • OpenSora 团队提出了一个创新的视频压缩网络,该网络在空间和时间两个维度上分别进行压缩。首先在空间维度上进行 8x8 倍的压缩,接着在时间维度上进一步压缩了 4 倍。这种压缩策略既避免了因抽帧而牺牲视频流畅度的弊端,又大幅降低了训练成本。

更优的扩散模型算法 :

  • 基于 Stable Diffusion 3 的研究成果,OpenSora 团队提供了一套完整的训练解决方案,包括简单易用的整流(rectified flow)训练、用于训练加速的 Logit-norm 时间步长采样、基于分辨率和视频长度的时间步长采样等。这些技术的整合不仅加快了模型的训练速度,还显著减少了推理阶段的等待时间。

模型评估体系 :

  • OpenSora 团队构建了更完善的模型评估体系,保障模型的稳健性和泛化能力。他们跟踪了 100 张图像和 1k 个视频的校正流评估损失,并使用 VBench 进行自动视频评估,以监控训练过程和评估模型性能。

2. 应用场景

游戏开发 :

  • 游戏开发者可以使用 OpenSora 生成游戏场景、人物动画等,提升游戏画面表现力。

影视制作 :

  • 电影、电视剧等影视作品的制作人员可以使用 OpenSora 生成各种场景、特效等,为影视作品增添视觉效果。

广告制作 :

  • 广告制作人员可以使用 OpenSora 生成各种场景和动画,提升广告创意和视觉效果。

教育和培训 :

  • OpenSora 可以用于制作教学视频、演示视频等,为用户提供更直观的学习体验。

个人创作 :

  • 个人用户可以使用 OpenSora 制作各种短视频,满足个人创作需求。

3. 其他特性

多语言能力 :

  • OpenSora 1.2 通过用 mT5 替换了 T5,增强了多语言能力,使得模型能够更好地处理不同语言的文本输入。

生成可控性 :

  • 提供了更多的可控性选项,使用户能够根据需要调整生成的视频内容和风格。

支持任意长度和分辨率 :

  • 采用了 bucket 策略,从而支持生成任意长度和分辨率的视频。

4. 模型下载与资源

  • 模型下载 :OpenSora 1.2 的模型可以在 Hugging Face 等平台上免费下载和使用,具体链接如:Huggingface 模型下载。
  • 代码资源 :相关的代码和文档可以在 GitHub 等开源平台上找到,便于开发者进行二次开发和研究。

二、模型搭建流程

下面将以 open sora1.2 项目进行部署,由于模型较大,建议使用 RTX3090 及以上显卡 。

1. 选择主机和镜像

(1)在“租用实例”页面,点击进入应用社区,选择相应的模型

image.png

image.png

(2)点击“选择”后会自动匹配模型,选择 3090 卡,点击“立即创建”即可创建实例

image.png

2. 进入创建的实例

在“项目实例”页面点击对应实例的“Web SSH”操作

image.png

image.png

以下命令均在该页面进行

(1)打开文档

cd Open-Sora

(2)激活虚拟环境 opensora

conda activate opensora

(3)运行 py 文件

export HF_ENDPOINT=https://hf-mirror.com
python scripts/inference.py configs/opensora-v1-2/inference/sample.py \--num-frames 4s --resolution 144p \--layernorm-kernel False --flash-attn False \--prompt "a beautiful room"

出现以下界面即为运行成功,红框内为保存视频的地址,返回项目实例的文件管理中找到该视频即可播放。

image.png

如果想要在网页查看视频,可以通过 python http 服务进行显示,以下示例为监听 8080 端口,继续进行下述操作步骤

cd samples/samples
python -m http.server 8080

3.开启外部访问获取访问链接

返回“项目实例”列表,选择并点击对应实例“开放端口”操作。

可选择”对外开放端口“,实名认证后即可使用。

也可选择”本地私密访问“进行下载解压 ssh 工具,打开得到对应界面,选择对应的项目以及实例开放端口即可。

点击开放端口在浏览器输入 127.0.0.1:8080 即可访问。

image.png

image.png

打开浏览器输入 127.0.0.1:8080 即可显示运行的视频。

以上就是在算家云搭建OpenSora 1.2的流程,具体使用方式可进入算家云应用社区查看该模型的使用说明。

复制下方网址,进入算家云,选择模型,一键开启 AI 之旅!

算家云应用社区 www.suanjiayun.com/container/#/mirror

首页.png


http://www.ppmy.cn/news/1522264.html

相关文章

数据传输安全——混合加解密

使用Hutool实现AES与RSA混合加密解密——构建安全的数据传输通道 在当今数字化社会中,信息安全已经成为企业和个人不可忽视的重要议题。加密技术作为保障数据安全的重要手段,其作用愈发突出。本文将深入探讨如何利用Hutool库实现AES与RSA混合加密解密方…

跨平台RTSP播放器之VLC Media Player还是SmartPlayer?

好多开发者纠结,RTSP流播放,到底是用开源的VLC Media Player还是大牛直播SDK的SmartPlayer?针对此,本文做个简单的技术探讨,方便开发者根据实际需要,做适合自己场景的选择: VLC Media Player …

2024高教杯数学建模A题思路

问题1:舞龙队沿螺距为55 cm 的等距螺线顺时针盘入 分析: 龙头速度:龙头前把手的行进速度始终保持1 m/s。螺线参数:螺距为55 cm,即0.55 m。初始条件:龙头位于螺线第16圈A点处。思路: 确定螺线方程:根据螺线的性质,建立极坐标方程,表示螺线各点的位置。计算时间步长:…

PSINS工具箱函数介绍——pvtplot

关于工具箱 pvtplot是绘图函数,用于绘制位置、速度、时间信息 本文所述的代码需要基于PSINS工具箱,工具箱的讲解: PSINS初学指导:https://blog.csdn.net/callmeup/article/details/137087932 使用方法 使用例程: …

无人机之报警器的作用

一、紧急救援与辅助搜救 紧急救援:在事故或紧急情况下,无人机报警器可以迅速发出警报,指引救援人员前往事故地点,提高救援效率。 辅助搜救:无人机搭载报警器可以辅助寻找失踪人员或其他需要搜救的场景,通…

云计算之云原生(上)

目录 一、消息队列RocketMQ 1.1 功能介绍 1.1.1 业务消息首选:消息队列 RocketMQ 1.1.2 【收发流量隔离约束】读写分离控制提高集群稳定性 1.1.3 【Dashboard 仪表盘】实时观测实例状态 1.1.4 【消息轨迹追踪】消息生命周期状态一目了然 1.1.5 【实时扩缩容】…

9月7日微语报,星期六,农历八月初五

9月7日微语报,星期六,农历八月初五,周末愉快! 一份微语报,众览天下事! 1、21个部门:符合条件的流动儿童家庭或可配公租房。 2、多所高校2025年招生简章显示&#xff0…

2024第三届大学生算法大赛 真题训练一 解题报告 | 珂学家

前言 题解 这是第三届大学生算法大赛(第二届为清华社杯)的赛前练习赛一. 这是上界比赛的体验报告: 2023第二届“清华社杯”大学生算法大赛 解题报告(流水账版) | 珂学家,个人还是非常推荐这个比赛。 难度分布:4 easy/4 mid-hard/2 hard 赛前练习赛一…

java实现,PDF转换为TIF

目录 ■JDK版本 ■java代码・实现效果 ■POM引用 ■之前TIF相关的问题(两张TIF合并) ■对于成果物TIF,需要考虑的点 ■问题 ■问题1:无法生成TIF,已解决 ■问题2:生成的TIF过大,已解决 …

Android 系统源码项目加载预编好的so库

Android 系统源码项目加载预编好的so库 文章目录 Android 系统源码项目加载预编好的so库一、前言二、源码中加载so1、Android.mk加载so加载so的主要相关代码: 2、Android.bp加载so(1)Android.mk使用源码命令编译成Android.bp(2&am…

SpringBoot教程(十五) | SpringBoot集成RabbitMq(死信队列、延迟队列)

SpringBoot教程(十五) | SpringBoot集成RabbitMq(死信队列、延迟队列) (一)死信队列使用场景具体用法前提示例: (二)延迟队列使用场景方法一:通过死亡队列实现方法二&…

【Oracle点滴积累】解决IMP-00017、ORA-20005、ORA-06512错误的方法

广告位招租! 知识无价,人有情,无偿分享知识,希望本条信息对你有用! 今天和大家分享 IMP-00017: folloging statement failed with ORACLE error 20005 ORA-20005: object statistics are locked (stattype ALL) 错…

WordPress上可以内容替换的插件

插件下载地址:WordPress内容替换插件 – 果果开发 类型 替换的类型:文章、自定义文章类型、分类、标签、媒体库、页面、评论、数据库表,不同的类型可以替换不同的字段。 替换字段 替换的字段,哪些字段内容需要替换。除了数据库…

Q215 数组中第K大的元素

思路 可以用排序,但是不用全有序 还有个要求是O(n) 快排改版 快排只排需要的部分 public int findKthLargest(int[] nums, int k) {return quickSort(nums, 0, nums.length-1, nums.length-k);}public static int quickSort(int[] nums, …

JVM3-双亲委派机制

目录 概述 作用 如何指定加载类的类加载器? 面试题 打破双亲委派机制 自定义类加载器 线程上下文类加载器 Osgi框架的类加载器 概述 由于Java虚拟机中有多个类加载器,双亲委派机制的核心是解决一个类到底由谁加载的问题 双亲委派机制&#xff…

2409wtl,切换视图

原文 介绍 我从一个基于SDI(单文档接口)WTL向导的应用开始,添加了一些从控件继承的窗口和一些对话框窗口(表单视图),然后才发现我必须,使SDI框架动态加载和卸载子窗口. 本文演示了两个可用来完成的技术:在SDI应用中的视图间动态切换.这是我使用的两个. 技术 1技术:第一个方…

指针作为函数参数详解

一级指针传参 形参指针的指向没有被改变 void test(int* p1) {*p1 8; }int main() {int a 5;int* p &a;test(p);printf("%d\n", a); }输出 8总结: 由代码和上图可知,实参p是个指针,其值为变量a的地址,将其传参给形参p1&…

webpack+lite-server 构建项目示例

首先安装以下库 npm install --save-dev webpack webpack-cli lite-server npm install --save-dev babel-loader babel/core babel/preset-env项目结构 webpack.config.js 配置 const path require("path");module.exports {entry: "./src/index.js",…

5G前传-介绍

1. 引用 知识分享系列一:5G基础知识-CSDN博客 5G前传的最新进展-CSDN博客 灰光和彩光_通信行业5G招标系列点评之二:一文读懂5G前传-光纤、灰光、彩光、CWDM、LWDM、MWDM...-CSDN博客 术语: 英文缩写描述‌BBU:Building Baseba…

华为云征文|Flexus云服务X实例安装ODBC驱动,在ODBC中建立MySQL数据库连接,通过QT连接云数据库

引出 4核12G-100G-3M规格的Flexus X实例使用测评第2弹:Flexus云服务X实例安装ODBC驱动,在ODBC中建立MySQL数据库连接,通过QT连接云数据库 什么是Flexus云服务器X实例 官方解释: Flexus云服务器X实例是新一代面向中小企业和开发…