无监督域适应、人体解析、视频异常检测和水果成熟度分类,推荐本周那些有意思的​CV综述...

news/2024/11/29 14:55:31/

关注公众号,发现CV技术之美

今天向大家推荐四篇近期发布的文献综述,包含无监督域适应、人体解析、视频异常检测和水果成熟度分类。

▌Source-Free Unsupervised Domain Adaptation: A Survey

523eb6b3aa8822d11b4fda7eceaa152a.png

  • 作者单位:北卡罗来纳大学教堂山分校

  • 论文链接:https://arxiv.org/abs/2301.00265

通过深度学习的无监督域适应(UDA)来解决由不同域的分布差异引起的域迁移问题。现有的 UDA 方法高度依赖于源域数据的可及性,由于隐私保护、数据存储和传输成本以及计算负担等原因,在实际应用场景中通常是有限的。

为了解决这个问题,业界近期提出了许多无源无监督域适应(SFUDA)的方法,这些方法在源数据不可访问的情况下,将知识从预先训练的源模型迁移到无标签的目标域。

该综述从技术角度对现有的 SFUDA 方法进行了及时和系统的文献回顾。具体来说,作者将目前的 SFUDA 研究分为两类,即白盒 SFUDA 和黑盒 SFUDA,如图1所示。 并根据它们使用的不同学习策略进一步划分为更细的子类别。还研究了每个子类别中的方法所面临的挑战,以及白盒和黑盒 SFUDA 方法的优势/劣势,总结了常用的基准数据集,并总结了在不使用源数据的情况下提高模型泛化能力的流行技术。最后讨论了该领域几个有前途的未来方向。

d432bb9a3ecd1c0979a747a412307f3e.png

图1 (a)传统的无监督领域适应(UDA),(b)白盒无源UDA(SFUDA),和(c)黑盒SFUDA,

根据对源模型进行微调的不同策略,将现有的研究分为以下五个子类别:

20a2199b8986d7e4181e8064bc853a18.png

图2 现有的无源无监督领域适应(SFUDA)方法的分类,以及未来展望

根据不同的图像生成策略,可以分为以下三个子类别:

b52aa18e154a58010221a60e150bfe24.png

图3 batch normalization statistics transfer

d114a8463b334a3a77fbbd3c5e4643a5.png

图4 surrogate source data construction

23fd67c8804d73348ec57bff813f2687.png

图5 GAN-based Image Generation

用于评估无源无监督域适应(SFUDA)方法性能的常用数据集一览:

e949940fd467e8e731fa5763b406c4f8.png

▌Deep Learning Technique for Human Parsing: A Survey and Outlook

e1147a4ead67565cf216d75884b0adbe.png

  • 作者单位:北京邮电大学

  • 论文链接:https://arxiv.org/abs/2301.00394

  • 代码链接:https://github.com/soeaver/awesome-human-parsing

人体解析的目的是将图像或视频中的人分割成多个像素级的语义部分。在过去的十年中,它在计算机视觉领域吸引了大量学者的研究兴趣,并在广泛的实际应用中得到了利用,如安全监控、社交媒体、视觉特效等等。尽管基于深度学习的人体解析解决方案已经取得了令人瞩目的成就,但许多重要的概念、现有的挑战和潜在的研究方向仍然是混乱的。

本篇综述通过介绍各自的任务设置、背景概念、相关问题和应用、代表性文献和数据集,全面回顾了三个核心子任务:Single human parsing (SHP)、Multiple human parsing (MHP) 和 Video human parsing (VHP),如图1所示。还介绍了这些方法在基准数据集上的定量性能比较。

此外,为了促进研究社区的可持续发展,作者还提出一个基于 transformer 的人体解析框架,如图6所示,通过通用的、简洁的和可扩展的解决方案为后续研究提供了一个高性能的基线。最后,指出了该领域中一系列未被充分研究的开放性问题,并提出了未来研究的新方向。

cad09b3b1a1782764ec25dc8739f5fdd.png

图1

e0ac0171a3ec37190800579e44f2ad47.png

图2 综述概览

表一 2012年至2022年具有代表性的人体解析工作时间轴。上半部分代表人体解析的数据集,下半部分代表人体解析的模型

2481674c4ac03fb69838c7b21b73583f.png

表7 现有人体解析数据集的统计数据

2135e8c29de926efffa57d40a1cb417d.png

表8 ATR 测试的SHP定量结果,包括像素精度(pixAcc)、前景像素精度(FGAcc)和F-1得分(F-1)。其中三个最好的分数分别用红色、蓝色和绿色标记。

a15229463de1caa646a9d22b182e990f.png

表9 LIP值的定量SHP结果,包括像素精度(pixAcc)、平均像素精度(meanAcc)和平均IoU(mIoU)。三个最好的分数分别用红色、蓝色和绿色标记。

b20ff8f418d139ba8d276ce904d2744f.png

更多结果展示:

d66e192488ca4f027a9bd74130917e88.png

0473a39644483a488283be315290d0dc.png

aaa00d304082a288be459b89930eb964.png

d0715e72284dea41f81ff0a5530d4152.png

图6 M2FP架构

60b12dfaea644712a52ef2fdcdaec28e.png

图7 M2FP与先前人体解析的最先进模型比较。M2FP在所有人类解析子任务上都取得了最先进的(PPP,CIHP和MHP-v2)或相当的性能(LIP)。

表14 M2FP在各种人体解析基准上的结果概述。标有下划线的表示以前的最先进结果;黑体字结果表示M2FP达到了新的最先进水平。

9ee0f80e3cb4fba94ca2a4aa8d06c613.png

▌Skeletal Video Anomaly Detection using Deep Learning: Survey, Challenges and Future Directions

b7a650848f1491dec5e227a7b29e00ba.png

  • 作者单位:多伦多大学&加拿大多伦多大学的教学医院、UHN

  • 论文链接:https://arxiv.org/abs/2301.00114

现有的视频异常检测方法大多利用含有可识别的人脸和外观特征的视频。其中使用含有可识别人脸的视频会引起隐私问题,特别是在医院或社区环境中使用时。而基于外观的特征也可能对基于像素的噪声很敏感,使异常检测方法对背景的变化进行建模,并使其难以关注前景中人类的行动。目前,以骨架形式描述视频中人类运动的结构信息的方法是保护隐私的,可以克服基于外观的特征所带来的一些问题。

本篇综述就对使用从视频中提取的骨架的隐私保护型深度学习异常检测方法进行了调研。并根据各种学习方法提出一个新的算法分类法。得到的结论是,基于骨架的异常检测方法可以成为视频异常检测中一个可信的保护隐私的选择。最后,确定了主要的开放式研究问题,并提供了解决这些问题的指南。

相关综述概览:

802c4dccd2e64ffcb8a3ccd72368d8e7.png

4d07fc0c5ede255ca9bf165ce40c8d59.png

▌Fruit Ripeness Classification: a Survey

f1afebd35250005e957e4f22c6e59ca3.png

  • 作者单位:Ca’ Foscari University (意大利)

  • 论文链接:https://arxiv.org/abs/2212.14441

本篇综述对水果成熟度分类任务提供了一个广泛的全景图。更具体地说,文中提供了这一问题的正式定义和一个涉及水果成熟的生物过程的总结。然后,讨论了可用于表示水果属性的不同类型的描述符:color, light spectrum, fluorescence,  spectral imaging。因此,被描述的属性可以由统计学、机器学习或深度学习模型来处理。此外,深度学习可以对原始数据进行操作,从而使用户不必计算特定水果的复杂的工程特征。本篇综述回顾了文献中提出的进行水果成熟度分类的最新的自动化方法,强调了它们所操作的最常见的特征描述符。

香蕉成熟度的示例阶段:

3bb2aca7a525d29f9b424864fca30901.png

枣子成熟度的示例阶段:

c480e7c7f37abd7c6d05a6e1c57ae5a5.png

公开数据集:

74ec36a1571862696568f1fe737edd8c.png

查看更多最新CV类综述论文,推荐关注CV君一直在维护的这个项目:

https://github.com/52CV/CV-Surveys

一键下载这些打包好的综述论文,请在我爱计算机视觉公众号后台输入关键字“CV综述”。

023cd753a3f745d6ae71fee07cdbd6e5.jpeg

END

欢迎加入「计算机视觉交流群👇备注:CV

49bbbb2ba8e050e1d43eb6e4e0272429.png


http://www.ppmy.cn/news/368657.html

相关文章

制糖行业脱色的工艺原理

制糖技术已有千年的历史,从我国西周开始就有糖的制作方法。随之岁月的变迁,人们对糖的需求度越来越大,糖的应用也更广泛,制糖的技术也逐渐成熟。而制糖脱色是糖业必不可少的流程和工艺,是企业长期应用的技术&#xff0…

kubernetes-1.16.4安装(包括Dashboard界面)

安装环境 操作系统:CentOS-7.6 内核版本:3.xxx Docker版本:18.09.9 Kubernetes版本:1.16.4 服务架构 master(hostname): ip:47.21.122.31 核心数:2 core 内存&#xff1a…

Linux下yum安装MySQL yum安装MySQL指定版本

yum 安装MySQL 1. 检查安装情况 查看有没有安装过: yum list installed MySQL* (有存在要卸载yum remove MySQL*) rpm -qa | grep mysql* 查看有没有安装包: yum list mysql* 2. 安装 MySQL 安装 MySQL 客户端: yum -y…

运放稳定性连载14:RO何时转变为ZO?(3)

我们现在知道了重负载和空载时的ZO意味着什么。我们关心的另一个关键曲线是RO变成最大值时的轻负载。我们并不十分清楚该工作点的位置,原因是我们不能看到OPA348 A-B类偏置级的内部,但在计算AC传输曲线之前,我们需要知道该点的位置。使用图7.…

制糖脱色的方法

精制糖的市场趋势 随着国内人民生活水平日益提高,用糖客户和消费者对食糖的品种,质量会产生有新的要求,近年来,糖产品种类更加丰富,包装规格与形式更加多样化,同时,消费人群更加注重饮食健康&am…

十大精密电阻排行榜

作者:lymex,排版:晓宇 微信公众号:芯片之家(ID:chiphome-dy) 一个好的精密电阻,必须具备老化小、温飘小、偏差小的特点,同时最好具备可靠性高、功率余量大温升小、噪音低…

ITK——1. 初步认识和配置编译

文章目录 1. itk基本信息2. 配置和编译itk2.0 基本介绍2.1 下载ITK2.2 使用cmake来配置编译ITK2.2.1 准备CMake2.2.2 配置ITK2.2.3 高级模块配置2.2.4 静态库和共享库2.2.5 编译ITK2.2.6 在系统上安装ITK2.3 交叉编译ITK2.4 开始使用ITK2.5 将ITK作为外部库使用✅ 2.5.1 HelloW…

CSDN专家教程 | Kubernetes(Runtime Docker)高可用集群二进制部署实战:Docker运行时环境详解 ,助您轻松掌握K8s集群部署技巧,提升开发、测试、运维效率

Kubernetes高可用集群二进制部署(Runtime Docker) Kubernetes(简称K8s)是一个开源的容器编排平台,用于自动化部署、扩展和管理容器化应用程序。它起源于Google的内部项目Borg,于2014年开源并于2015年交由C…