CogVLM/CogAgent环境搭建推理测试

devtools/2024/9/23 10:23:03/
aidu_pl">

引子

对于多模态大语言模型,一直没有怎么接触。刚巧一朋友有问到这方面的问题,也就顺手调研下。智谱AI的东西一直以来,还是很不错的。ChatGLM的忠实fans,看到白嫖网站github上有他们开源的多模态CogVLM/CogAgent,那就顺手看看了。OK,让我们开始吧。

一、模型介绍

CogVLM 是一个强大的开源视觉语言模型(VLM)。CogVLM-17B拥有100亿的视觉参数和70亿的语言参数,支持490*490分辨率的图像理解和多轮对话。CogVLM-17B 17B在10个经典的跨模态基准测试中取得了最先进的性能包括NoCaps, Flicker30k captioning, RefCOCO, RefCOCO+, RefCOCOg, Visual7W, GQA, ScienceQA, VizWiz VQA 和 TDIUC 基准测试。

CogAgent 是一个基于CogVLM改进的开源视觉语言模型。CogAgent-18B拥有110亿的视觉参数和70亿的语言参数, 支持1120*1120分辨率的图像理解。在CogVLM的能力之上,它进一步拥有了GUI图像Agent的能力。CogAgent-18B 在9个经典的跨模态基准测试中实现了最先进的通用性能,包括 VQAv2, OK-VQ, TextVQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet, 和 POPE 测试基准。它在包括AITW和Mind2Web在内的GUI操作数据集上显著超越了现有的模型。

嗯哼,这么官方的语句,显然是我抄的。言而总之,总而言之,就是这个Cog确实很厉害的样子,各种数据集上的翘楚。

二、安装环境

docker run -it --rm --gpus=all -v /datas/work/zzq:/workspace pytorch/pytorch:2.2.2-cuda12.1-cudnn8-devel bash

cd /workspace

git clone GitHub - THUDM/CogVLM: a state-of-the-art-level open visual language model | 多模态预训练模型

cd CogVLM

pip install -r requirements.txt -i Simple Index

三、推理测试

1、模型下载

git clone https://code.openxlab.org.cn/THUDM/cogagent-chat-hf.git

git clone https://code.openxlab.org.cn/THUDM/cogvlm-chat-hf.git

https://huggingface.co/lmsys/vicuna-7b-v1.5/tree/main

vicuna-7b模型放在basic_demo目录下

2、cogagent测试

cd basic_demo

(1)vlm测试

python cli_demo_hf.py --from_pretrained /workspace/CogVLM/CogVLM/cogvlm-chat-hf --fp16

显存不够,报错

python cli_demo_hf.py --from_pretrained /workspace/CogVLM/CogVLM/cogvlm-chat-hf --quant 4

显存占用

输入图片

测试结果

(2)agent测试

python cli_demo_hf.py --from_pretrained /workspace/CogVLM/CogVLM/cogagent-chat-hf --quant 4


http://www.ppmy.cn/devtools/27547.html

相关文章

【排序算法】第二章:选择排序----普通选择排序与堆排序的详解和对比

🫡和我一起感受 两种排序算法的魅力吧! 前言:本文可能稍微涉及到一点其他排序算法,若想要了解可以看看:第一章:插入排序 【下面用到的:随机数生成测试排序性能器的代码】 一、普通选择排序 注…

前端项目学习记录3:mock接口

1.下载mock接口 pnpm i vite-plugin-mock 2.配置vite.config.ts import { defineConfig } from vite import vue from vitejs/plugin-vue import path from "path"; //引入svg需要用到的插件 import { createSvgIconsPlugin } from vite-plugin-svg-icons //mock插…

5G前传光纤传输的25G光模块晶振SG2016CAN

一款适用于5G前传光纤传输网络中的25G光模块的5G晶振SG2016CAN。随着5G时代的到来,5G晶振的重要性也不言而喻,小体积宽温晶振SG2016CAN可以用于5G前传的25G光模块,具有高稳定性、小体积、宽温等优势。在5G前传光纤传输网络中,25G光…

Python 与 TensorFlow2 生成式 AI(一)

原文:zh.annas-archive.org/md5/d06d282ea0d9c23c57f0ce31225acf76 译者:飞龙 协议:CC BY-NC-SA 4.0 序言 “想象力比知识更重要。” – 阿尔伯特爱因斯坦,《爱因斯坦关于宇宙宗教和其他见解与格言》(2009)…

Apollo 编译时报错 ERROR: Config value ‘gpu‘ is not defined in any .rc file

用Apollo的某个版本的源码,执行 bash docker/scripts/dev_start.sh bash docker/scripts/dev_into.sh 创建容器并进入容器后执行 bash apollo.sh build_gpu 编译报错: WARNING: The following rc files are no longer being read, please transfer their conten…

【笔试题汇总】华为春招笔试题解 2024-4-17

这里是paoxiaomo,一个现役ACMer,之后将会持续更新算法笔记系列以及笔试题题解系列 本文章面向想打ICPC/蓝桥杯/天梯赛等程序设计竞赛,以及各个大厂笔试的选手 感谢大家的订阅➕ 和 喜欢💗 有什么想看的算法专题可以私信博主 &…

【python】swjtu西南交大互联网搜索引擎 项目一 报告:搜索引擎文本预处理

项目要求: 通过下载引擎(Web Crawler/Spider)自动下载至少500个英文文档/网页,以及500个中文文档/网页,越多越好,并保留原始的文档/网页备份(如:News_1_Org.txt) 编程对所下载文档进行自动预处理: 将各个单词进行字…

24.什么是跨域?解决方案有哪些?

为什么会出现跨域问题 存在浏览器同源策略,所以才会有跨域问题。那么浏览器是出于何种原因会有跨域的限制呢。其实不难想到,跨域限制主要的目的就是为了用户的上网安全。 同源策略导致的跨域是浏览器单方面拒绝响应数据,服务器端是处理完毕…