【自监督Re-ID】ICCV_2023_Oral | ISR论文阅读

news/2024/12/29 12:48:36/

Codeicon-default.png?t=N7T8https://github.com/dcp15/ISR_%20ICCV2023_Oral

面向泛化行人再识别的身份导向自监督表征学习,清华大学

目录

导读

摘要

相关工作

DG ReID

用于ReID的合成数据

无监督表征学习

Identity-Seeking Representation Learning

结果

消融实验


 

导读

  • 新角度:提出了从大规模无标注互联网行人视频中学习领域泛化的行人表征。

  • 新方法:设计了新颖的自监督的学习框架以及可靠性引导的对比损失函数,有效学习到identity discrimination。所提方法具有出色的数据可扩展性。

  • 高性能:所学表征展现出很强的域泛化能力和域迁移能力,具有很大的实际应用价值和潜力。

摘要

本文旨在从大规模视频中学习一种无需任何注释的域泛化(DG)行人再识别(ReID)表示。由于标注成本高,先前的DG ReID方法使用有限的标注数据进行训练,这限制了进一步发展。为了克服数据和注释的障碍,我们建议使用大规模的无监督数据进行训练。关键问题在于如何挖掘身份信息。为此,我们提出了一种ISR(Identity-seeking Self-supervised Representation learning)方法。ISR将实例关系建模当做最大权重二分匹配问题,从帧间图像构建正样本对。进一步提出了一种可靠性引导的对比损失,以抑制噪声正样本对的不利影响,确保可靠的正样本对主导学习过程。ISR的训练成本与数据大小近似呈线性关系,因此可以利用大规模数据进行训练。所学习的表示表现出很强的泛化能力。在没有人为注释和微调的情况下,ISR在Market-1501上获得了87.0%的Rank-1,在MSMT17上获得了56.4%的Rank-1,分别比最佳有监督域泛化方法高出5.0%和19.5%。

相关工作

DG ReID

领域通用的人物识别(Domain Generalizable ReID)旨在在源领域上学习一个强大的模型,并直接在未见过的目标领域上进行测试,而无需进行微调处理。因其在实际应用中的巨大潜力而受到广泛关注。DIMN设计了一个域不变映射网络来学习元学习管道下的域不变表示。MetaBIN和SNR研究了归一化层或模块,以提高模型的泛化能力。RaMoE利用目标域和多个源域之间的相关性来提高模型的泛化能力。MDA将源和目标特征分布与先前的分布对齐。这些方法是用小规模领域匮乏的标记数据进行训练的。与他们不同的是,我们的目标是从大规模领域多样的未标记数据中学习DG ReID模型。

用于ReID的合成数据

ReID模型的性能受到从真实世界收集标注数据的高昂成本的限制。为了应对这一挑战,一些方法已经转向使用合成数据(synthetic data)。值得注意的是,PersonX包含1266个ID,其中273456张图像是从各个角度拍摄的,能够探索视角对ReID系统的影响。RandPerson提供了8000个身份,其中有来自19台摄像机的228655张图像,而UnrealPerson提供了3000个身份,包括来自34台摄像机的120000张图像;ClonedPerse包括来自24台摄像机的5621个身份和887766张图像。这些合成数据集已被证明对监督学习有价值,因为它们增强了ReID模型的泛化能力。DomainMix [1] 进一步证实,在训练期间将标记的合成数据与未标记的真实世界数据相结合是DG ReID的一个有前途的方向。然而,合成数据和真实世界的数据之间仍然存在巨大的领域差距,阻碍了在合成数据上训练的模型无缝应用于真实的现实世界场景。为了弥补这种差异,我们建议使用大量未标记的真实世界数据进行训练。

[1] Wenhao Wang, Shengcai Liao, Fang Zhao, Kangkang Cui, and Ling Shao. Domainmix: Learning generalizable person re-identification without human annotations. In BMVC, 2021. 3

无监督表征学习

一些主流的无监督表征学习方法(MoCo, SimCLR, BYOL),如果被直接应用于ReID,则只能学习预训练模型,这在直接测试时显示出极低的准确性。核心原因是,它们将一张图像的两个不同视图视为正样本对,或者对图像中的掩码像素进行重建,从而实现了实例区分(instance discrimination)。这与身份区分(identity discrimination)的ReID目标所矛盾。与它们不同,我们将同一ID的帧间图像视为正样本对,来达到身份区分的目标。一项密切相关的工作是CycAs(同团队的工作)及其改进版本。大概意思是作者针对CycAs方法的弱点提出了一种新方法,通过挖掘正样本对和抑制噪声来提供更鲁棒和通用的人物再识别表示学习的解决方案。

可视化证明:ISR对identity-discrimination的有效性

Identity-Seeking Representation Learning

身份导向的自监督表征学习

The overview of ISR.
The overview of ISR.

(1)构建正样本对

        基于最大权二分图匹配,在邻近帧中构建跨帧正样本对。

(2)抑制噪声正样本对

        计算每个正样本对的可靠性,利用可靠性来引导学习对比损失,进而抑制噪声正样本对的影响。

可靠性计算:p(x_{i})=\frac{\sum_{j}\pi ^*exp(x_i\cdot y_j/\tau )}{\sum_{j}exp(x_i\cdot y_j/\tau )},对比损失:L_{RC}(x_i)=-p^\gamma _{\nleftarrow}(x_i)log(p(x_i))

结果

域泛化设置下与SOTA方法的比较
在合成数据集的比较

消融实验

CP:跨帧正样本对;L_{RC}:可靠性导向的对比损失;L_Q:基于记忆的对比损失。
性能与数据规模

更多细节在论文


http://www.ppmy.cn/news/1130518.html

相关文章

Python大数据之Python进阶(四)进程的注意点

文章目录 进程的注意点1. 进程的注意点介绍2. 进程之间不共享全局变量3. 进程之间不共享全局变量的小结4. 主进程会等待所有的子进程执行结束再结束5. 主进程会等待所有的子进程执行结束再结束的小结 进程的注意点 学习目标 能够说出进程的注意点 1. 进程的注意点介绍 进程之…

KongA 任意用户登录漏洞分析

KongA 简介 KongA 介绍 KongA 是 Kong 的一个 GUI 工具。GitHub 地址是 https://github.com/pantsel/konga 。 KongA 概述 KongA 带来的一个最大的便利就是可以很好地通过UI观察到现在 Kong 的所有的配置,并且可以对于管理 Kong 节点 漏洞成因 未设置TOKEN_SECRE…

Elasticsearch 集群时的内部结构是怎样的?

Apache Lucene : Flush, Commit Elasticsearch 是一个基于 Apache Lucene 构建的搜索引擎。 它利用 Lucene 的倒排索引、查询处理和返回搜索结果等功能来执行搜索。 它还扩展了 Lucene 的功能,添加分布式处理功能以支持大型数据集的搜索。 让我们看一下 Apache Luc…

计算机图像处理:椒盐噪声和高斯噪声

图像滤波 图像滤波,即在尽量保留图像细节特征的条件下对目标图像的噪声进行抑制,同时会造成图像一定程度上的模糊,这也叫做平滑或者低通滤波。无论是均衡化直方图和图像滤波,都一定程度上降低了图像阈值分割的难度,直…

基于R的linkET包qcorrplot可视化Mantel test相关性网络热图分析correlation heatmap

写在前面 需求是对瘤胃宏基因组结果鉴定到的差异菌株与表观指标、瘤胃代谢组、血清代谢组、牛奶代谢组中有差异的部分进行关联分析,效果图如下: 数据准备 逗号分隔的csv格式文件,两个表格,一个是每个样本对应的表观指标数据&…

Java 18的未来:新特性和编程实践

文章目录 引言新特性预览1. 基于值的类的进一步改进2. 模式匹配的增强3. 新的垃圾回收器4. 扩展的模块系统5. 更强大的异步编程 编程实践示例1:基于值的类示例2:模式匹配的增强示例3:新的垃圾回收器 结论 🎉欢迎来到Java学习路线专…

【C++11】多线程

多线程创建线程thread提供的成员函数获取线程id的方式线程函数参数的问题线程join场景和detach 互斥量库(mutex)mutexrecursive_mutexlock_guard 和 unique_lock 原子性操作库(atomic)条件变量库(condition_varuable&a…

NOSQL Redis十大数据类型

String 字符串 string 是redis最基本的类型,而是使用最多的数据类型, 一个 key 对应一个 value string 类型是 二进制安全的,意思reidis 的string 可以包含任何数据(任何数据都可以转换binary的),比如jpg图…