深度学习系列文章

文章目录

深度学习系列文章
前言
MiniGPT4
效果展示

前言

一个月前，OpenAI 总裁 Greg Brockman 向世人展示了 GPT-4 令人惊讶的多模态能力，如从手写文本直接生成网站和识别图像中的幽默元素等。

尽管目前 OpenAI 暂未对 GPT-4 用户开放这一能力，但具有多模态能力的视觉语言模型令人充满了想象力。

近日，来自阿卜杜拉国王科技大学的研究团队，便提出了一个具有类似 GPT-4 图像理解与对话能力的 AI 大模型——MiniGPT-4，并将其开源。

据介绍，MiniGPT-4 具有出色的多模态能力，如从手写草稿创建网站、生成详细的图像描述、根据图像创作故事和诗歌、为图像中描述的问题提供解决方案，以及根据食物照片教对话对象如何烹饪一道美味的菜品等。

MiniGPT4

MiniGPT4 是来自阿布杜拉国王科技大学的几位博士做的，它能够提供类似于GPT4的图像理解，以及对话的能力，抢先一步感受图像对话的强大之处。那我们先来看一下它的演示视频，这个项目有几个特点：

第一就是多模态也就是能够读懂图片在这个示例中呢它可以回答图片是关于什么内容的有多少种颜色甚至能够说明这个图片是属于什么风格的。GPT-4 先进的多模态生成能力的主要原因在于使用了更先进的大型语言模型 (LLM)。MiniGPT-4，它仅使用一个投影层将冻结的视觉编码器与冻结的 LLM Vicuna 对齐。我们的研究结果表明，MiniGPT-4 拥有许多类似于 GPT-4 所展示的功能，例如详细的图像描述生成和从手写草稿创建网站。此外，我们还观察到 MiniGPT-4 中的其他新兴功能，包括根据给定的图像写故事和诗歌，为图像中显示的问题提供解决方案，教用户如何根据食物照片做饭等。

第二点高级大型语言模型，增强视觉语言理解。

第三点低成本，仅仅用了4块的A100GPU，训练了仅仅10个小时，绝对称得上是迷你。

第四点就是整个项目是开源的。
在这里插入图片描述
它使用了更先进的大模型语言，也就是说未来在图像声音视频等等领域呢，基于这些大模型所制造出来的应用，实际的效果呢应该都不会太差。这个项目也证实了，大语言模型在图像领域的可行性。接下来呢相信应该会有不少的开发者跑步入场，将GPT4的能力进一步的往音频视频等等领域延伸，让我们可以看到更多有趣令人惊艳的AI应用程序。