车辆重识别(利用扩散模型合成有效数据进行行人再识别预训练)论文阅读2024/9/27

news/2024/12/22 9:33:04/

[1]Synthesizing Efficient Data with Diffusion Models for Person Re-Identification Pre-Training
作者:Ke Niu1, Haiyang Yu1, Xuelin Qian2, Teng Fu1, Bin Li1, Xiangyang Xue1*单位:1复旦大学, 2西北工业大学

摘要:
现有的行人重识别( Re-ID )方法主要使用ImageNet - 1K数据集进行模型初始化,由于存在较大的领域鸿沟,难免会出现次优的情况。其中一个关键的挑战是构建大规模的行人Re - ID数据集非常耗时。之前的一些工作通过从互联网(例如, LUPerson)中收集人物图像来解决这个问题,但它难以从未标记的、不可控的和有噪声的数据中学习。在本文中,我们提出了一种新的范式Diffusion - ReID,在不需要任何数据收集和标注成本的情况下,基于已知的身份来有效地增强和生成多样化的图像。在技术上,该范式分生成和过滤两个阶段展开。在生成阶段,我们提出了语言提示增强( Language Prompts Enhancement,LPE )来保证输入图像序列和生成图像之间的ID一致性。在扩散过程中,我们提出了多样性注入( DI )模块来增加属性多样性。为了使生成的数据具有更高的质量,我们应用了一个Re - ID置信度阈值滤波器来进一步去除低质量图像。得益于我们提出的方法,我们首先创建了一个新的大规模行人重识别数据集Diff - Person,该数据集由来自5,183个身份的超过777K张图片组成。接下来,我们在Diff - Person上预训练构建一个更强的行人重识别骨干。在6个广泛使用的设置中,对4个人Re - ID基准进行了广泛的实验。与其他预训练和自监督的竞争者相比,我们的方法表现出了显著的优越性。

主要贡献:
基于扩散模型,我们开发了一个行人数据生成和过滤范式Diffusion - ReID,该范式可以有效地扩展现有的具有ID一致性和属性多样性的标注数据集。我们建立了一个由5,183个身份的超过777K张图片组成的带标注的行人Re - ID预训练数据集Diff - Person。该数据集是对现有数据集进行扩展,解决行人重识别中数据缺失和数据不平衡问题的重要一步。 我们基于Diff - Person预训练了一个行人重识别骨架,相比目前广泛使用的ImageNet - 1K预训练骨架,在6个广泛使用的场景下取得了提升。

创新点:
与现有的扩散模型不同,我们额外引入了语言提示增强( Language Prompts Enhancement,LPE )模块和多样性注入( Diversity Injection,DI )模块,分别用于保证ID一致性和属性多样性。具体来说,LPE模块将特定的ID图像序列和类别级别的提示P作为输入,通过预训练的图像描述模型生成具有细粒度局部细节和全局上下文信息的增强提示PE。在PE中,我们加入了一个身份信息形象代言人,用于在特征层面上映射文本嵌入和图像嵌入之间的ID信息。在扩散过程中,我们提出了多样性注入( DI )模块来提高属性多样性。具体来说,我们使用预训练的扩散模型生成一个属性参考集,并使用生成的图像计算特定细粒度的先验保留损失来微调扩散模型。在滤波阶段,采用Re - ID置信度阈值滤波器去除低质量图像。

简介:
Rand Person [ 8 ]开发了一种生成具有各种衣服、种族和属性的3D字符的方法,然后使用Unity3D模拟虚拟环境。PersonX [ 9 ]使用了一个开源的合成数据引擎PersonX来合成手工制作的3D人物模型。然而,这些方法存在一些缺陷:1 )它们与真实世界的数据之间存在明显的差异;2 )存储、共享和传输大量的虚拟环境和手工制作的三维人体模型成本很高;3 )特定的数据源限制了数据的数量和多样性。

框图:

在这里插入图片描述
在这里插入图片描述
[1] Niu, K., Yu, H., Qian, X., Fu, T., Li, B., & Xue, X. (2024). Synthesizing Efficient Data with Diffusion Models for Person Re-Identification Pre-Training. arXiv preprint arXiv:2406.06045.


http://www.ppmy.cn/news/1534358.html

相关文章

如何在ChatGPT的帮助下,使用“逻辑回归”技巧完成论文写作?

学境思源,一键生成论文初稿: AcademicIdeas - 学境思源AI论文写作 逻辑回归作为一种统计分析工具广泛应用,以解决研究中的分类问题。其主要作用在于探讨和量化自变量对因变量的影响,从而揭示潜在的因果关系。 在论文写作中&…

【py】python实现矩阵的加、减、点乘、乘法

好的,我将使用Python语言来解决这个问题。我们将使用NumPy库来创建数组和进行矩阵运算。 以下是完整的代码: import numpy as np # (1) 创建一个3x4的二维数组test1, 数据值要求从0~1之间 test1 np.random.rand(3, 4) # (2) 创建12个服从均匀分布的随…

微信小程序 蓝牙通讯

客户的需求如下:通过微信小程序控制蓝牙ble设备(电子面膜),通过不同指令控制面膜的亮度和时间。 01.首先看下客户的ble设备服务文档:(本部分需要有点蓝牙基础,在调试过程中可以用安卓软件nRF Connect软件来执行测试命令) 0xFFF1灯控命令 命…

Text-to-SQL方法研究

有关Text-to-SQL实现细节,可以查阅我的另一篇文章text-to-sql将自然语言转换为数据库查询语句 1、面临的挑战 自然语言问题往往包含复杂的语言结构,如嵌套语句、倒装句和省略等,很难准确映射到SQL查询上。此外,自然语言本身就存在歧义,一个问题可能有多种解读。消除…

Windows环境下使用Docker配置MySQL数据库

用Docker配置数据库,无论是做开发,还是做生产部署,都非常的方便 它不需要单独安装数据库,也不用担心出现各种环境的配置问题。 本文将分享用Docker配置数据库的步骤,这里用MySQL举例。 其他的数据库如MSSQL&#xf…

深入探索 PyTorch 在机器学习中的应用

目录 PyTorch 概述安装 PyTorchPyTorch 的基本概念 张量自动微分 深度学习模型的构建 定义模型损失函数与优化器 训练模型在机器学习中的应用 图像分类自然语言处理强化学习 迁移学习PyTorch 的优势与局限性实际应用案例总结与展望 1. PyTorch 概述 PyTorch 是一个开源的深度…

有些硬盘录像机接入视频汇聚平台EasyCVR后通道不显示/显示不全,该如何处理?

EasyCVR视频监控汇聚管理平台是一款针对大中型项目设计的跨区域网络化视频监控集中管理平台。该平台不仅具备视频资源管理、设备管理、用户管理、运维管理和安全管理等功能,还支持多种主流标准协议,如GB28181、RTSP/Onvif、RTMP、部标JT808、GA/T 1400协…

城市空间设计对居民生活质量的影响:构建宜居城市的蓝图

在快节奏的现代生活中,城市不仅是经济活动的中心,更是人们生活、工作、休闲的综合载体。本文旨在深入探讨城市空间设计如何通过科学规划、人性化考量以及生态融合,为居民打造更加宜居、和谐的生活环境。 1. 促进社区互动与归属感 城市空间设…