深度学习系列文章
文章目录
- 深度学习系列文章
- 前言
- MiniGPT4
- 效果展示
前言
一个月前,OpenAI 总裁 Greg Brockman 向世人展示了 GPT-4 令人惊讶的多模态能力,如从手写文本直接生成网站和识别图像中的幽默元素等。
尽管目前 OpenAI 暂未对 GPT-4 用户开放这一能力,但具有多模态能力的视觉语言模型令人充满了想象力。
近日,来自阿卜杜拉国王科技大学的研究团队,便提出了一个具有类似 GPT-4 图像理解与对话能力的 AI 大模型——MiniGPT-4,并将其开源。
据介绍,MiniGPT-4 具有出色的多模态能力,如从手写草稿创建网站、生成详细的图像描述、根据图像创作故事和诗歌、为图像中描述的问题提供解决方案,以及根据食物照片教对话对象如何烹饪一道美味的菜品等。
MiniGPT4
MiniGPT4 是来自阿布杜拉国王科技大学的几位博士做的,它能够提供类似于GPT4的图像理解,以及对话的能力,抢先一步感受图像对话的强大之处。那我们先来看一下它的演示视频,这个项目有几个特点:
第一就是多模态 也就是能够读懂图片 在这个示例中呢 它可以回答图片是关于什么内容的 有多少种颜色甚至能够说明这个图片是属于什么风格的。GPT-4 先进的多模态生成能力的主要原因在于使用了更先进的大型语言模型 (LLM)。MiniGPT-4,它仅使用一个投影层将冻结的视觉编码器与冻结的 LLM Vicuna 对齐。我们的研究结果表明,MiniGPT-4 拥有许多类似于 GPT-4 所展示的功能,例如详细的图像描述生成和从手写草稿创建网站。此外,我们还观察到 MiniGPT-4 中的其他新兴功能,包括根据给定的图像写故事和诗歌,为图像中显示的问题提供解决方案,教用户如何根据食物照片做饭等。
第二点 高级大型语言模型,增强视觉语言理解。
第三点 低成本,仅仅用了4块的A100GPU, 训练了仅仅10个小时,绝对称得上是迷你。
第四点就是整个项目是开源的。
它使用了更先进的大模型语言,也就是说未来在图像声音视频等等领域呢,基于这些大模型所制造出来的应用 ,实际的效果呢应该都不会太差。 这个项目也证实了 ,大语言模型在图像领域的可行性。 接下来呢相信应该会有不少的开发者跑步入场 ,将GPT4的能力进一步的往音频视频等等领域延伸, 让我们可以看到更多有趣令人惊艳的AI应用程序。
试用地址:https://3228d8146e5c39b4be.gradio.live/
效果展示
在技术层面上,MiniGPT-4 由一个带有预训练的 ViT 和 Q-Former 的视觉编码器、一个单一的线性投影层和一个 Vicuna 大语言模型组成。而且,MiniGPT-4 只需要训练线性层,使视觉特征与 Vicuna 保持一致。
有 Y Combinator 用户这样评价 MiniGPT-4,“在技术层面上,他们正在做一些非常简单的事情…但结果非常惊人。最重要的是,它在 OpenAI 的 GPT-4 图像模态之前出现。(这是)开源 AI 的真正胜利。”
也有用户表示,“我认为他们为一个不相关的项目使用 GPT-4 名称是一种糟糕的形式。毕竟,底层的 Vicuna 只是一个微调的 LLaMA。另外,他们使用了较小的 13B 版本。然而,结果看起来很有趣。”
项目地址:
https://minigpt-4.github.io/
GitHub地址:
https://github.com/Vision-CAIR/MiniGPT-4