多模太大模型清单收集

news/2024/10/19 4:21:35/
  1. AI大一统:阿里达摩院发布多任务、多模态统一模型OFA

功能:包括3类跨模态、单模态和zero-shot。具有文本到图像生成、图像描述生成(标题生成)、视觉问答、图像查找、图像分类等

源码地址:https://github.com/OFA-Sys/OFA

论文地址:https://arxiv.org/pdf/2202.03052.pdf

开源时间:22.03

阿里大模型网址:https://modelscope.cn/home

文本到图片生成演示:https://decoder.modelscope.cn/pcIndex

  1. dall-e2 文本到图片生成

说明:商品化

厂家: OpenAI

  1. 谷歌的 Imagen 和 Midjourney产品

说明:商品化,使用的diffuser 模型

  1. Stable diffusion 模型:Hugging Face发布diffuser模型AI绘画库

功能:文本生成图像

开源地址:

Hugging Face 网址:https://huggingface.co/yulet1de/stablediffusion2

开源时间:22.08

说明:上面是普通的模型,里面还有很多其他类型 diffusion 模型

5.oneflow 中文版和中英文版“太乙Stable diffusion” 模型

功能:文本生成图像

开源地址:https://github.com/Oneflow-Inc/diffusers/wiki/How-to-Run-OneFlow-Stable-Diffusion#without-docker

Hugging Face 网址-纯中文:https://huggingface.co/IDEA-CCNL/Taiyi-Stable-Diffusion-1B-Chinese-v0.1

Hugging Face 网址-中英文:https://huggingface.co/IDEA-CCNL/Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1

开源时间:22.11

说明:上面是普通的模型,里面还有很多其他类型 diffusion 模型

5.英伟达Magic3d

功能:文本生成3d

是否开源:未发布代码

开源地址:

论文地址:https://arxiv.org/pdf/2211.10440.pdf

资料网址:https://deepimagination.cc/Magic3D/

开源时间:

发布时间:22.11

说明:3d 模型生成3d一般需要时间较长,资源较多

6.谷歌文本提示生成3D模型的DreamFusion

功能:文本生成3d

是否开源:

开源地址:

论文地址:

模型资料网址:https://dreamfusion3d.github.io/

开源时间:

发布时间:22.11

说明:声称不需要 3D 训练数据,也不需要修改图像扩散模型,证明了预训练图像扩散模型作为先验模型的有效性。

7.文本提示生成图片 disco-diffusion *****

功能:文本提示生成图

是否开源:是

开源地址:https://github.com/alembics/disco-diffusion

论文地址:

模型资料网址:https://dreamfusion3d.github.io/

开源时间:21.10

发布时间:21.10

说明:在github 找到的disco-diffusion,网上说google 要翻墙的免费的文本生成模型,这个不清楚是与google 的disco-diffusion 有没有关系,更新也比较快。

7.百度文本提示生成图片 文心一格 ERNIE-ViLG 2.0 模型 *****

功能:文本提示生成图

是否开源:是

开源地址:https://github.com/PaddlePaddle/PaddleHub/tree/develop/modules/image/text_to_image/ernie_vilg

模型参数量:120亿

Hugging Face 网址: https://huggingface.co/spaces/PaddlePaddle/ERNIE-ViLG

模型参数说明:https://www.datalearner.com/ai-resources/pretrained-models/ernie-vilg2

论文地址:https://arxiv.org/abs/2210.15257

开源时间:22.10

发布时间:22.10

说明:具有文本生成图像和图像生成文本两种功能。效果远超 OpenAI 发布的 DALL-E 等模型。它是百度的方式,不是github 方式上面有模型的地址,目前不大明白???,使用需要请前往 文心旸谷社区 申请使用本模型所需的 API key 和 Secret Key,网址https://wenxin.baidu.com/user/key 这里申请


http://www.ppmy.cn/news/18501.html

相关文章

吴恩达机器学习课程笔记:正规方程法

1.吴恩达机器学习课程笔记:正规方程法 笔记来源: 1.吴恩达机器学习课程笔记:正规方程法 2.神经网络 - 多元线性回归 - 正规方程法 仅作为个人学习笔记,若各位大佬发现错误请指正 正规方程法区别于梯度下降法的迭代求解&#xff0…

2023年中职网络安全技能竞赛网页渗透(审计版)

三、竞赛任务书内容 (一)拓扑图 网页渗透测试 任务环境说明: 服务器场景:Server2127服务器场景操作系统:未知(封闭靶机)用户名:未知 密码:未知访问服务器网站目录1,根据页面信息完成条件,将获取到的flag提交;访问服务器网站目录2,根据页面信息完成条件,将获取到…

前后端数据通信

语言选择 后端选择go,数据库postgresql前端选择angular 前后端通信 前端angular获取请求 目前主要说的是http请求;在请求服务器通信时 需要在头设置token,给服务器认证get请求获取数据,需要把当前页page, 每页的显示多少条记录limit发给服…

【运筹优化】凸多面体重叠判断算法:GJK 算法详解 C++代码实现二维情形的凸多边形重叠判断

文章目录一、GJK 算法简介二、前置知识2.1 二维向量的点乘和叉乘2.2 三维向量叉乘2.3 凸多边形2.4 闵可夫斯基差2.5 单纯形2.6 Support 函数三、GJK 算法讲解3.1 熟悉 GJK 算法流程3.1.1 多边形重叠的情形3.1.2 多边形不重叠的情形3.2 总结 GJK 算法步骤3.3 讲解 GJK 算法细节3…

python字符串str.format()方法详解

一、str.format()方法详解 1.定义和用法 format() 方法格式化指定的值,并将其插入字符串的占位符内。占位符使用大括号 {} 定义,可以使用命名索引 {price}、编号索引{0}、甚至空的占位符 {} 来标识占位符,也可以说是通过 {} 和 : 来代替以前…

架构整洁之道-核心笔记

高层架构&底层设计细节 架构”这个词往往使用于“高层级”的讨论中。这类讨论一般都把“底层”的实现细节排除在外。而“设计”一词,往往用来指代具体的系统代码组织结构和实现细节。但是,从一个真正的系统架构师的日常工作来看,这样的区分是根本不成立的。 底层设计细…

层叠 1. 比较内容层级重要性的三个方法 2. 通过选择器来比较层级(重要) 通过比较特殊性 应用场景: 3. 比较源次序 重置css样式的导入

目录层叠1. 比较内容层级重要性的三个方法2. 通过选择器来比较层级(重要)通过比较特殊性应用场景:3. 比较源次序重置css样式的导入常见的重置样式表:normalize.css、reset.css、meyer.css层叠 声明冲突:同一个样式&am…

GDB调试指南

GDB调试指南操作使用使用场景操作使用 进入gdb调试 gdb ./helloworld后台进入gdb调试:sudo gdb attach PID r/run 开始/重新开始执行应用程序,应用程序重头开始,直到遇到断点 list列出源码,持续键入回车,代码向后展开…