MiniGPT-4开源了:看图聊天、教学、创作、搭网站

news/2024/11/24 6:42:49/

深度学习系列文章


文章目录

  • 深度学习系列文章
  • 前言
  • MiniGPT4
  • 效果展示


前言

一个月前,OpenAI 总裁 Greg Brockman 向世人展示了 GPT-4 令人惊讶的多模态能力,如从手写文本直接生成网站和识别图像中的幽默元素等。

尽管目前 OpenAI 暂未对 GPT-4 用户开放这一能力,但具有多模态能力的视觉语言模型令人充满了想象力。

近日,来自阿卜杜拉国王科技大学的研究团队,便提出了一个具有类似 GPT-4 图像理解与对话能力的 AI 大模型——MiniGPT-4,并将其开源。

据介绍,MiniGPT-4 具有出色的多模态能力,如从手写草稿创建网站、生成详细的图像描述、根据图像创作故事和诗歌、为图像中描述的问题提供解决方案,以及根据食物照片教对话对象如何烹饪一道美味的菜品等。

MiniGPT4

MiniGPT4 是来自阿布杜拉国王科技大学的几位博士做的,它能够提供类似于GPT4的图像理解,以及对话的能力,抢先一步感受图像对话的强大之处。那我们先来看一下它的演示视频,这个项目有几个特点:

第一就是多模态 也就是能够读懂图片 在这个示例中呢 它可以回答图片是关于什么内容的 有多少种颜色甚至能够说明这个图片是属于什么风格的。GPT-4 先进的多模态生成能力的主要原因在于使用了更先进的大型语言模型 (LLM)。MiniGPT-4,它仅使用一个投影层将冻结的视觉编码器与冻结的 LLM Vicuna 对齐。我们的研究结果表明,MiniGPT-4 拥有许多类似于 GPT-4 所展示的功能,例如详细的图像描述生成和从手写草稿创建网站。此外,我们还观察到 MiniGPT-4 中的其他新兴功能,包括根据给定的图像写故事和诗歌,为图像中显示的问题提供解决方案,教用户如何根据食物照片做饭等。

第二点 高级大型语言模型,增强视觉语言理解。

第三点 低成本,仅仅用了4块的A100GPU, 训练了仅仅10个小时,绝对称得上是迷你。

第四点就是整个项目是开源的。
在这里插入图片描述
它使用了更先进的大模型语言,也就是说未来在图像声音视频等等领域呢,基于这些大模型所制造出来的应用 ,实际的效果呢应该都不会太差。 这个项目也证实了 ,大语言模型在图像领域的可行性。 接下来呢相信应该会有不少的开发者跑步入场 ,将GPT4的能力进一步的往音频视频等等领域延伸, 让我们可以看到更多有趣令人惊艳的AI应用程序。

试用地址:https://3228d8146e5c39b4be.gradio.live/

效果展示

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在技术层面上,MiniGPT-4 由一个带有预训练的 ViT 和 Q-Former 的视觉编码器、一个单一的线性投影层和一个 Vicuna 大语言模型组成。而且,MiniGPT-4 只需要训练线性层,使视觉特征与 Vicuna 保持一致。

有 Y Combinator 用户这样评价 MiniGPT-4,“在技术层面上,他们正在做一些非常简单的事情…但结果非常惊人。最重要的是,它在 OpenAI 的 GPT-4 图像模态之前出现。(这是)开源 AI 的真正胜利。”

也有用户表示,“我认为他们为一个不相关的项目使用 GPT-4 名称是一种糟糕的形式。毕竟,底层的 Vicuna 只是一个微调的 LLaMA。另外,他们使用了较小的 13B 版本。然而,结果看起来很有趣。”

项目地址:
https://minigpt-4.github.io/

GitHub地址:
https://github.com/Vision-CAIR/MiniGPT-4


http://www.ppmy.cn/news/53741.html

相关文章

实景区剧本杀系统开发

实景区剧本杀系统开发需要考虑以下几个方面: 场地选取:选择合适的场地,足够容纳游戏人数和游戏内容,同时需要考虑安全性和便利性。 剧情设定:根据场地和游戏类型设计剧情,包括人物角色、任务目标、…

C. Trailing Loves (or L‘oeufs?)(求某个质因子在n的阶乘中的个数 + 思维)

Problem - C - Codeforces Aki喜欢数字,尤其是那些带有尾随零的数字。例如,数字9200有两个尾随零。Aki认为数字拥有的尾随零越多,它就越漂亮。 然而,Aki认为,一个数字拥有的尾随零的数量并不是固定的,而是…

【网络安全】CVE 漏洞分析以及复现

漏洞详情 Shiro 在路径控制的时候,未能对传入的 url 编码进行 decode 解码,导致攻击者可以绕过过滤器,访问被过滤的路径。 漏洞影响版本 Shiro 1.0.0-incubating 对应 Maven Repo 里面也有 环境搭建 这个比 Shiro550、Shiro721 要增加一些…

解决在vue中使用elementUI自定义校验及点击提交不生效问题

前言: 本章讲述的主要是对身份证号码的校验 及 为何校验了但提交不生效问题。 拓展小知识: 🍀 1、身份证号码(二代18位身份证)的含义: 1️⃣ 1-2位:代表所属省级政府的代码; 2️⃣ 3…

移动端click事件300ms延迟

文章目录 移动端click事件300ms延迟问题原因解决将click事件放在touchstart或touchend中处理禁止双击缩放 移动端click事件300ms延迟 问题 在移动端中&#xff0c;点击屏幕的按钮会产生200~300ms的延迟响应&#xff0c;会导致用户认为页面卡顿问题。 如下&#xff1a; <…

【处理网络难题,还得靠这份网工经验合集】

网络维护&#xff0c;是很多初阶网工必须要做的工作。但说起来容易&#xff0c;做起来难&#xff0c;想要做好这个工作&#xff0c;需要的不仅仅是技术的加持&#xff0c;更多的是经验的积累。 今天&#xff0c;和你分享一份关于一些网络维护过程中一些典型、经典问题的解决方…

搭建微型服务器(node express框架)

目录 一&#xff1a;打包&#xff08;npm run build&#xff09; 二&#xff1a;变成合法的包&#xff08;新建server文件夹&#xff09; 三&#xff1a;一路回车 四&#xff1a;新建服务器主文件 五&#xff1a;编辑server.js 六&#xff1a;node server启动服务器 七&a…

【电商必学】 WhatsApp 全新攻略:什么是交互式消息模板

网购与WhatsApp等社交通讯平台有着密不可分的关系&#xff0c;为什么这么说呢&#xff1f;因为基本上所有的网购的平台都会提供查询、下单方式给客户&#xff0c;而WhatsApp是全世界使用率最高的通讯平台&#xff0c;所以大部分电子商户都会选择WhatsApp Business与电子商务连接…