AI看图说话,MiniGPT-4已经开源

news/2024/11/21 1:27:33/

MiniGPT-4 是一个人工智能工具,​最大的飞跃是增加了识图能力,​并且回答准确性也得到显著提高。​它可以识别图片并回答关于图片的问题,​例如图片内容、​颜色等等。

​此外,​它还可以进行图像对话,​即通过图片和文本进行对话。

​MiniGPT-4 在多个专业和学术基准测试中展现出令人印象深刻的表现,​有时甚至达到了人类水平。​MiniGPT-4 是开源且免费的,​支持中文。

​它可以根据给定的图像创作故事和诗歌,​提供解决图像中显示的问题的解决方案,​根据食品照片教用户如何烹饪等。

​它是一个华人团队开发的模型,​可以使用高级大型语言模型增强视觉语言理解。​MiniGPT-4 的训练过程包括两个阶段,​第一个阶段使用大约5百万对齐的图像文本对进行传统的预训练,​第二个阶段使用高级大型语言模型进行微调。​

MiniGPT-4是一个高效的视觉-语言模型,​由视觉编码器、​单个线性投影层和先进的Vicuna大型语言模型组成。​该模型仅需要训练线性层以将视觉特征与Vicuna对齐,​使用约500万对图像和文本进行训练。​MiniGPT-4的架构基于预训练的ViTQ-Former,​可提高视觉-语言理解的整体可用性。

开源地址在github上。

更多的工具,可以参考 AiBard123

MiniGPT-4 上的例子有很多,比如这个是根据图片生成诗歌。
在这里插入图片描述
真的看上去挺美的。

MiniGPT-4 还能在线免费体验,地址在https://c9cd51f7cae3c9fec1.gradio.live/,或者在github的官网上点demo进去。

在这里插入图片描述
给了一张千与千寻的宣传图片,我们问MiniGPT-4 这是哪部电影,MiniGPT-4 答得非常的完美。

说吧说吧!最新的大模型语言GPT4是不是很🔥?未来只要应用基于这些大模型,图像、声音、视频等领域的效果应该都不会太差!别说我没告诉你,这个项目还证明了大语言模型在图像领域很✅!下一步嘛,有很多想搭顺风车的开发者都拔腿疯狂加入大模型阵营,把GPT4的能力扩展至音频、视频等领域,让我们再看到更多有趣、🤯的AI应用程序吧!


http://www.ppmy.cn/news/54042.html

相关文章

【mysql】事务的四大特性

目录 一、四大特性(ACID)1.1 原子性1.2 一致性1.3 隔离性1.4 持久性 一、四大特性(ACID) 1.原子性 2.一致性 3.隔离性 4.持久性 1.1 原子性 1.英文:Atomicity [ˌtəˈmɪsəti] 2.事务是不可分割的最小操作单元&…

【老王读SpringMVC-3】根据 url 是如何找到 controller method 的?

前面分析了 request 与 handler method 映射关系的注册,现在再来分析一下 SpringMVC 是如何根据 request 来获取对应的 handler method 的? 可能有人会说,既然已经将 request 与 handler method 映射关系注册保存在了 AbstractHandlerMethodMapping.Ma…

Html5版贪吃蛇游戏制作(经典玩法)

回味经典小游戏,用Html5做了个贪吃蛇的小游戏,完成了核心经典玩法的功能。 游戏可以通过电脑的键盘“方向键”控制,也可以点击屏幕中的按钮进行控制。(支持移动端哈) 点击这里试玩 蛇的移动是在18 x 18的格子中进行移…

mybatisplus封装方法

分页 public AjaxResult getBlindBoxInfo(RequestParam(name“pageNo”, defaultValue“1”) Integer pageNo, RequestParam(name“pageSize”, defaultValue“10”) Integer pageSize) { String userId AuthUtil.getAppUserId(); if(StringUtils.isEmpty(userId)){ return A…

基于springboot和ajax的简单项目 013 ztree插件使用,这是关于修改和新增的

先写写的是menu_list.html文件上的内容。 01.在自动加载函数上写点击事件 $(".input-group-btn").on("click",".btn-delete",doDeleteObject).on("click",".btn-add,.btn-update",doLoadEditUI);02.登录函数: …

大模型竞逐,再造AI新格局

作者 | 辰纹 来源 | 洞见新研社 “面对AI时代,所有产品都值得用大模型重做一次。” 这是阿里巴巴集团董事会主席兼CEO、阿里云智能集团CEO张勇在2023阿里云峰会上对AIGC(生成式AI)进化的判断,在这背后则是由ChatGPT为起始点&…

现场工程师救火-UEFI(BIOS)节能设置导致金牌服务器只跑出龟速

近期协助出现场,解决了一个非常典型的UEFI 启动参数配置不当导致的服务器降效案例。错误的节能参数配置,导致价值几十万的服务器变成龟速服务器,并造成严重的生产事故。 1. 现象 朋友公司近期准备升级2010年就部署的服务器组,新…

【C语言】实战练习

目录 1.计算体积&#xff1a; 2、根据父母身高计算孩子的理论身高&#xff1a; 3、三十六计的几计&#xff1a; 4、文本输出&#xff1a; 5、粮仓计数&#xff1a;​编辑 6、auto 7、static: 8、模拟用户注册系统&#xff1a; 1.计算体积&#xff1a; #include <std…