集7大模态(视频、图片、音频、文本、深度图、热力图、惯性)的IMAGEBIND

news/2024/11/20 11:29:22/

论文:IMAGEBIND: One Embedding Space To Bind Them All

GitHub:https://github.com/facebookresearch/ImageBind

Meta AI 提出了 ImageBind,它通过利用多种类型的图像配对数据来学习单个共享表示空间。该研究不需要所有模态相互同时出现的数据集,相反利用到了图像的绑定属性,只要将每个模态的嵌入与图像嵌入对齐,就会实现所有模态的迅速对齐。

论文以视觉语言模型clip作为基础,以图片/视频为核心中点,将其他domain的embedding都和图片/视频的embedding对齐。最终得到一个集7大模态(视频、图片、音频、文本、深度图、热力图、惯性)的深度学习模型IMAGEBIND

有别于先前的模型,本文的IMAGEBIND模型也可以zero-shot迁移到多个其他domain。

在训练上,IMAGEBIND不需要严格一一配对的7个domain的数据,只需要将其他domain的数据都向image/video对齐就可以。通过这样的训练方式,即使没有进行过(声音,文本)的专门训练,也可以取得SOAT的(声音,文本)分类能力。

理想情况下,一个有着不同种类数据的联合嵌入空间能让模型在学习视觉特征的同时学习其他的模态。此前,往往需要收集所有可能的配对数据组合,才能让所有模态学习联合嵌入空间。

ImageBind 规避了这个难题,它利用最近的大型视觉语言模型它将最近的大规模视觉语言模型的零样本能力扩展到新的模态,它们与图像的自然配对,如视频 - 音频和图像 - 深度数据,来学习一个联合嵌入空间。针对其他四种模式(音频、深度、热成像和 IMU 读数),研究者使用自然配对的自监督数据。


I表示图片,M表示其他domain的文件,f,g两个函数都表示将原始数据编码为统一的embedding。

 

损失函数为InfoNCE loss

T为temperature,用于控制交叉熵的平滑程度。

左后算loss的时候和clip一样,也是对称的交叉熵。

 

 

 


http://www.ppmy.cn/news/63444.html

相关文章

Maven依赖原则及如何解决Maven依赖冲突

前言 在大数据应用中,现在发现依赖关系非常复杂,在上线之前很长测试,前一段时间在部署udf 出现了导致生产Hiveserver2 宕机问题,出现严重事故。现在就咨询研究一下。Maven虽然已经诞生多年,但仍然是当前最流行的Java系…

路由递归配置

路由递归原理 路由必须有直连的下一跳才能够指导转发,但是路由生成时下一跳可能不是直连的,因此需要计算出一个直连的下一跳和对应的出接口,这个过程就叫做路由递归 。 路由递归也被称为路由 迭代。 实验配置 路由器R1配置 interface GigabitEthernet0/0/0ip address 192.…

Java基础(36)Map集合详解

Map 是一种键-值对(key-value)集合,Map 集合中的每一个元素都包含一个键(key)对象和一个值(value)对象。用于保存具有映射关系的数据。 Map 集合里保存着两组值,一组值用于保存 Map …

4月跳槽进字节跳动了,面试真简单...

前言: 最近金三银四跳槽季,相信很多小伙伴都在面试找工作, 怎样才能拿到大厂的offer,没有掌握绝对的技术,那么就要不断的学习,没有绝对的天才,只有持续不断的付出。对于我们每一个平凡人来说,…

论文ai生成-一键生成论文的软件

ChatGPT自动写论文 ChatGPT可以使用生成的文本来帮助撰写学术论文,其中包括文章的大纲、段落和句子。但是,它并不会像一个完全替代人的写作工具一样让你“自动”写作。 虽然ChatGPT可以生成相当准确的语言,但它并不完美,它并不能…

被嫌弃可视化太丑?这种可视化大屏搭建方法,分分钟让老板满意

在数据可视化中,使用频率最高的展览方式一定是地图可视化。基本上现有的大屏都是以地图作为主视图来呈现的,没有一幅地图放到大屏中央,已经不好意思给同行说明自己企业数据分析有多牛了。在地图可视化中,最炫酷的一定是3D可视化大…

KPI考核管理:有效提升企业绩效指标

KPI考核管理是企业中常用的绩效管理方法之一,这种方式涉及到目标设定、绩效评估和奖惩措施等方面。在本文中,我们将探讨KPI考核管理的重要性、KPI管理方法以及如何应对。 一、KPI考核管理的重要性 KPI考核管理是企业实现战略目标的重要手段之一&#x…

[pgrx开发postgresql数据库扩展]7.返回序列的函数编写(2)表序列

前文再续,书接上一回。 上一节我们简单说了利用SetOfIterator返回一个srf(Set Returning Functions),但是很多情况下,一个单值序列并不能很好的满足我们的需求,所以今天我们来说另外一个作用更广泛的srf&a…