MiniCPM 多模态VLM图像视频理解代码案例

ops/2024/9/18 12:47:27/ 标签: 音视频, 图像理解, 视频理解, vlm, llm, 大模型

参考:
https://huggingface.co/openbmb/MiniCPM-V-2_6
https://github.com/OpenBMB/MiniCPM-V

效果很好,20g现场可以运行:
在这里插入图片描述

在这里插入图片描述

下载模型

export HF_ENDPOINT=https://hf-mirror.comhuggingface-cli download --resume-download --local-dir-use-symlinks False openbmb/MiniCPM-V-2_6 --local-dir minicpmv

代码

1)单图

import torch
from PIL import Image
from transformers import A

http://www.ppmy.cn/ops/91847.html

相关文章

原地算法求两数之和

给定一个自增序列数组,总数组中找出两个元素等于目标值,并输出元素的下标。这个题右很多解法,通过hash可以将时间复杂度降到O(n),但是需要额外开辟空间,那么原地算法非常适合解决此题,及保障时间复杂度&…

Unity面试知识点整理(持续更新中)

文章目录 🧡 Unity知识面试篇基础流程1.3d内容生产和编辑流程2. Unity工作流程3.unity生命周期 物理系统1.CharacterController 与 Rigidbody 的区别2.射线检测碰撞物的原理3.链条关节 (Hinge Joint) 的概念和用途4.物体发生碰撞的必要条件5.碰撞过程的不同阶段及其…

OpenAI API推出结构化输出功能

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…

Spring Boot实战:拦截器

一.拦截器快速入门 1.1了解拦截器 什么是拦截器: 概念 :拦截器是Spring框架提供的核⼼功能之⼀, 主要⽤来拦截⽤⼾的请求, 在指定⽅法前后, 根据业务需要执⾏预先设定的代码。 也就是说, 允许开发⼈员提前预定义⼀些逻辑, 在⽤⼾的请求响应前后执⾏. 也…

MySQL中的日志

错误日志 错误日志是MySQL中最重要的日志之一默认是开启的,它记录了MySQL启动和停止时,以及入伍再运行过程中发发生任何严重错误时的相关信息,当数据库出现任何故障无法正常运行时可以查看此日志。 二进制日志 二进制日志记录了所有的DDL语…

Golang实战:利用Atomic和轮询机制实现任务排队和并发流量控制

在一次开发大模型应用的工程化过程中,我们碰到一个问题,开源的模型核心代码是用Python写的,有自己的一套并发管理和排队机制,而模型一次只能处理一个生成任务,生成的时间也很长,在A10上,需要几秒…

【实现100个unity特效之12】Unity中的冲击波 ——如何使用ShaderGraph制作一个冲击波着色器

最终效果 文章目录 最终效果新增LitShaderGraph圆环扭曲效果优化冲击波效果屏幕全屏冲击波圆形冲击波最终连线图代码控制补充源码完结 新增LitShaderGraph 圆环扭曲效果 让我们从一个UV节点开始 创建一个Vector2变量RingSpawnPosition表示冲击波生成位置,在X和Y上将其默认值…

Web安全学习

1 计算机网络与协议 1.1 网络基础 1.1.1 计算机通信网的组成 计算机网络由通信子网和资源子网组成。 通信子网:负责数据的无差错和有序传递,其处理功能包括差错控制、流量控制、路由选择、网络互连等。 资源子网:是计算机通信的本地系统环境…

怎么查询大数据信用评分?

相信在了解大数据信用评分的时候,不少人都因为大数据信用评分在申贷的时候遭受到过挫折,因为大数据信用已经被很多银行和金融机构作为风险控制的重要依据使用,其中的大数据信用评分,能直观的感知到用户的信用情况。那如何查询大数…

基于C11的简单log,支持C++的‘<<’风格和C的‘可变参数’风格

基于C11的简单log&#xff0c;支持C的‘<<’风格和C的‘可变参数’风格 日志仅由richlog.h单个文件实现功能&#xff0c;软件集成简单。 支持C的std::cout的<<风格的日志打印&#xff0c;也支持C的printf风格的日志打印 日志多线程安全&#xff0c;采用C11 mute…

【Rust光年纪】简化文件操作流程:深度剖析多款文件系统操作库

文件系统操作利器&#xff1a;介绍常用的文件操作库 前言 在现代软件开发中&#xff0c;文件系统操作是一个十分常见的需求。为了更加高效地进行文件系统操作&#xff0c;开发人员经常会使用各种文件系统操作库来简化开发流程、提高代码可维护性。本文将介绍几个常用的文件系…

[Kimi 笔记]“面向搜索引擎”

"面向搜索引擎"&#xff08;Search Engine-Oriented&#xff0c;SEO-Oriented 或 SEO-Friendly&#xff09;通常指的是在设计和开发网站时&#xff0c;采取一系列措施来优化网站内容和结构&#xff0c;以便提高网站在搜索引擎结果页面&#xff08;SERP&#xff09;中…

【探讨】3D遮挡模型引导的光场图像深度获取

摘 要 :目的 光场相机可以通过单次曝光同时从多个视角采样单个场景&#xff0c;在深度估计领域具有独特优势。消除遮挡的影响是光场深度估计的难点之一。现有方法基于2D场景模型检测各视角遮挡状态&#xff0c;但是遮挡取决于所采样场景的3D立体模型&#xff0c;仅利用2D模型无…

在图片URL后面添加一个参数以清理缓存

在图片URL后面添加一个参数&#xff08;如a1&#xff09;以清理缓存的原理: HTTP缓存 HTTP缓存是一种优化技术&#xff0c;用于减少重复的网络请求和降低服务器的负载。当浏览器请求一个资源&#xff08;如图片&#xff09;时&#xff0c;它会首先检查本地缓存中是否已经有这个…

命令行中运行python_Cpython与Ipython

python的交互式命令有两种。一种是CPython&#xff0c;一种是ipython CPython特点&#xff1a; 基本的交互式命令行界面。没有增强的调试、自动补全和其他高级功能 适用场景为适用于编写和运行 Python 脚本和程序。 Ipython 提供更多高级功能&#xff0c;可以作为Jupyter Note…

C# 判断电脑是否联网

项目中连接webAPI需要判断是否联网&#xff0c;故找到这个方法&#xff0c;不需要引用任何dll&#xff0c;代码复制一下&#xff0c;直接使用。wininet.dll是系统自带的 public void Initial(){try{ if (IsNetworkConnected){SvMaster.Log.WriteInfo("网络…

ios 5.5寸、ipad13英寸如何截屏

ios上架的时候&#xff0c;你可能会发现&#xff0c;上架需要ios 5.5寸&#xff0c;ipad需要13英寸的屏幕截屏。 但是尴尬了&#xff0c;我们手头上的手机&#xff0c;可能是最新的iphone 15&#xff0c;并没有远古时代iphone 8 plus的5.5寸&#xff0c;那么我们该如何截屏呢&…

探索PyCharm的C/C++支持:一站式配置指南

探索PyCharm的C/C支持&#xff1a;一站式配置指南 引言 PyCharm&#xff0c;作为JetBrains家族中的一个强大IDE&#xff0c;以其对Python的卓越支持而闻名。然而&#xff0c;PyCharm的多语言支持同样不容小觑。本文将带领你了解如何在PyCharm中配置C/C环境&#xff0c;让你在…

k8s创建secret并在container中获取secret

k8s创建secret并在container中获取secret 本文使用的deployment和service与我的上一篇文章一样。link也放在下面了&#xff0c;如果不懂什么事deployment和service&#xff0c;可以先看我的上一篇文章。 k8s使用kustomize来部署应用 下面我们将通过创建secret开始。secret是我…

第128天:内网安全-横向移动IPCATSC 命令Impacket 套件CS 插件全自动

环境部署 案例一&#xff1a; 域横向移动-IPC-命令版-at&schtasks 首先是通过外网web访问到win2008&#xff0c;获得了win2008的权限&#xff0c;这一步不做演示 因为里面的主机都不出网&#xff0c;所以只能利用win2008进行正向或者反向连接 信息收集 域内用户信息&…