Clip 模型实现文搜图

embedded/2024/10/22 0:19:48/

Clip 模型是一种多模态,Clip 中包含了图片和文字的信息,通过 TextEncoder 和 ImageEncoder 将结果进行相似度匹配,这个很像 RAG 系统中 Embedding。通过 ClipModel 可是实现文找图的功能。
在这里插入图片描述

代码实现

代码来自官方示例,https://modelscope.cn/models/iic/multi-modal_clip-vit-large-patch14_336_zh

# require modelscope>=0.3.7,目前默认已经超过,您检查一下即可
# 按照更新镜像的方法处理或者下面的方法
# pip install --upgrade modelscope -f https://modelscope.oss-cn-beijing.aliyuncs.com/releases/repo.html
# 需要单独安装decord,安装方法:pip install decord
import torch
from modelscope.utils.constant import Tasks
from modelscope.pipelines import pipeline
from modelscope.preprocessors.image import load_imagepipeline = pipeline(task=Tasks.multi_modal_embedding,model='damo/multi-modal_clip-vit-large-patch14_336_zh', model_revision='v1.0.1')
input_img = load_image('https://clip-cn-beijing.oss-cn-beijing.aliyuncs.com/pokemon.jpeg') # 支持皮卡丘示例图片路径/本地图片 返回PIL.Image
input_texts = ["杰尼龟", "妙蛙种子", "小火龙", "皮卡丘"]# 支持一张图片(PIL.Image)或多张图片(List[PIL.Image])输入,输出归一化特征向量
img_embedding = pipeline.forward({'img': input_img})['img_embedding'] # 2D Tensor, [图片数, 特征维度]# 支持一条文本(str)或多条文本(List[str])输入,输出归一化特征向量
text_embedding = pipeline.forward({'text': input_texts})['text_embedding'] # 2D Tensor, [文本数, 特征维度]# 计算图文相似度
with torch.no_grad():# 计算内积得到logit,考虑模型temperaturelogits_per_image = (img_embedding / pipeline.model.temperature) @ text_embedding.t()# 根据logit计算概率分布probs = logits_per_image.softmax(dim=-1).cpu().numpy()print("图文匹配概率:", probs)

在这里插入图片描述
在这里插入图片描述

例子比较简单,如果想做一个文字搜图的功能,需要将图片的 Embedding 保存下来,搜索将文字转为向量并同数据库中的向量进行比对。上面的例子中,有两行代码比较重要,文字转向量和图片转向量。

# 支持一张图片(PIL.Image)或多张图片(List[PIL.Image])输入,输出归一化特征向量
img_embedding = pipeline.forward({'img': input_img})['img_embedding'] # 2D Tensor, [图片数, 特征维度]# 支持一条文本(str)或多条文本(List[str])输入,输出归一化特征向量
text_embedding = pipeline.forward({'text': input_texts})['text_embedding'] # 2D Tensor, [文本数, 特征维度]

总结

图向量最好保存在向量数据库中,搜索时借助向量数据库的能力进行快速匹配查找。使用 LlamaIndex 或者 Langchain 进行集成,可以方便的集成多种向量数据库。


http://www.ppmy.cn/embedded/129409.html

相关文章

【计算机网络 - 基础问题】每日 3 题(四十九)

✍个人博客:https://blog.csdn.net/Newin2020?typeblog 📣专栏地址:http://t.csdnimg.cn/fYaBd 📚专栏简介:在这个专栏中,我将会分享 C 面试中常见的面试题给大家~ ❤️如果有收获的话,欢迎点赞…

Redis Geo 数据类型解析:基于 ZSET 的高效地理位置管理0708

根据官网介绍: Bitmaps are not an actual data type, but a set of bit-oriented operations defined on the String type which is treated like a bit vector. Since strings are binary safe blobs and their maximum length is 512 MB, they are suitable to s…

SAP_MM模块-设置业务合作伙伴类型字段必输(多种方案)

一、业务背景 公司需要把供应商增加一个细分的维度,并且要求该字段设置为必输,防止用户新增供应商时忘记维护。这里给用户找了一个分类的字段:业务合作伙伴类型,本文主要讲解如何设置该字段设置为必填; 注意&#xff…

JavaScript中 固定 this指向 (call、apply、bind 函数)

前置知识 this 关键字js原型及原型链 背景 由于对象的属性可以赋给另一个对象,所以属性所在的当前对象是可变的,即this的指向是可变的。 this的动态切换,固然为 JavaScript 创造了巨大的灵活性,但也使得编程变得困难和模糊。 有…

新书速览|Android智能座舱开发:从源码到实践

《Android智能座舱开发:从源码到实践》 本书内容 《Android智能座舱开发:从源码到实践》是一本专注于Android智能座舱系统开发与优化的实战指南。《Android智能座舱开发:从源码到实践》共9章,第1章从搭建源码编译环境开始,详细指导读者如何下载和编译An…

归一化——5种方法详细分类说明

归一化(Normalization)是一种数据预处理技术,旨在将不同量纲、不同取值范围的数据转换到相同的尺度上,以便进行更加公平、有效的比较或分析。 通过归一化,数据被调整到一定的标准范围内,常见的范围有 [0, …

Java爬虫API:获取商品详情数据的利器

为什么选择Java爬虫API 强大的库支持:Java拥有丰富的网络编程库,如Apache HttpClient、OkHttp等,这些库提供了强大的HTTP请求功能,使得发送请求和处理响应变得简单。高效的数据处理:Java的数据处理能力,结…

比亚迪车机安装第三方应用教程

比亚迪车机安装第三方应用教程 比亚迪车机U盘安装APP, 无论是dlink3.0还是4.0都是安卓系统,因此理论上安卓应用是都可以安装的,主要就是横屏和竖屏的区别。在比亚迪上安装软件我主要推荐两种方法。 第一种,直接从电脑端下载安装布…