【论文速看】DL最新进展20240924-增量语义分割、多任务分割检测、遥感目标检测

embedded/2024/9/24 22:21:15/

目录

    • 【增量语义分割】
    • 【多任务】
    • 【人脸防伪】
    • 【遥感目标检测

【增量语义分割】

AWF: Adaptive Weight Fusion for Enhanced Class Incremental Semantic Segmentation

论文链接:https://arxiv.org/pdf/2409.08516

代码链接:[无,但文中说会发布]

类别增量语义分割(CISS)旨在通过保持先前学到的知识和引入的新知识之间的平衡来减轻灾难性遗忘。现有方法主要基于正则化技术,如知识蒸馏,有助于保留旧知识,但在有效整合新知识方面常常面临挑战,导致整体改进有限。端点权重融合(EWF)方法虽然简单,但通过动态融合先前步骤和当前步骤的模型权重,使用由已知类别数量和引入的新类别数量决定的融合参数alpha,有效地解决了一些限制。然而,alpha计算的简单性可能会限制其充分捕捉不同任务场景复杂性的能力,可能导致次优的融合结果。文中提出了一种增强的方法,称为自适应权重融合(AWF),它引入了一种交替训练策略用于融合参数,允许更灵活和自适应的权重整合。AWF通过更好地平衡旧知识的保留和新类别的学习,取得了卓越的性能,与原始EWF相比,显著提高了在基准CISS任务上的结果。

在这里插入图片描述


【多任务】

【TPAMI2024】Frequency-aware Feature Fusion for Dense Image Prediction

论文链接:https://arxiv.org/pdf/2408.12879

代码链接:https://github.com/Linwei-Chen/FreqFusion

目标检测、语义分割、实例分割和全景分割任务

密集图像预测任务需要具有强类别信息和高分辨率精确空间边界细节的特征。为此,现代分层模型通常利用特征融合,直接将来自深层的上采样粗特征与来自较低层次的高分辨率特征相加。作者观察到对象内融合特征值的快速变化,导致由于高频特征受到干扰而产生类别内不一致性。此外,融合特征中的模糊边界缺乏准确的高频信息,导致边界位移。基于这些观察,提出了频率感知特征融合(FreqFusion),结合了一个自适应低通滤波器(ALPF)生成器、一个偏移生成器和一个自适应高通滤波器(AHPF)生成器。ALPF生成器预测空间变化的低通滤波器以减弱对象内的高频成分,减少上采样过程中的类内不一致性。偏移生成器通过重新采样更一致的特征替换不一致的特征,细化大的不一致特征和薄边界,同时AHPF生成器增强在降采样过程中丢失的高频详细边界信息。全面的可视化和定量分析表明,FreqFusion有效地提高了特征一致性并使对象边界更加清晰。在各种密集预测任务上的广泛实验证实了其有效性。

在这里插入图片描述


【人脸防伪】

[2024] Deepfake Generation and Detection: A Benchmark and Survey

论文链接:https://arxiv.org/pdf/2403.17881

代码链接:https://github.com/flyingby/Awesome-Deepfake-Generation-and-Detection

深度伪造是一项致力于在特定条件下创建高度逼真的人脸图像和视频的技术,在娱乐、电影制作和数字人类创造等领域具有重要的应用潜力。随着深度学习的发展,以变分自编码器和生成对抗网络为代表的技术取得了令人印象深刻的生成效果。最近,扩散模型凭借其强大的生成能力引发了新一轮的研究热潮。除了深度伪造生成,相应的检测技术也在不断发展,以规范深度伪造的潜在滥用,如隐私侵犯和网络钓鱼攻击。本综述全面回顾了深度伪造生成和检测的最新进展,总结并分析了这一快速发展领域的当前最新研究。首先,作者统一了任务定义,全面介绍了数据集和评估指标,并讨论了发展中的技术。然后,我们讨论了几个相关子领域的发展,并重点研究了四个代表性的深度伪造领域:换脸、面部重演、会话面部生成和面部属性编辑,以及伪造检测。随后,在每个领域的流行数据集上全面基准测试了代表性方法,充分评估了最新和最具影响力的已发表作品。最后,分析了所讨论领域面临的挑战和未来研究方向。

在这里插入图片描述


【遥感目标检测

[2024] Poly Kernel Inception Network for Remote Sensing Detection

论文链接:https://arxiv.org/pdf/2403.06258

代码链接:https://github.com/NUST-Machine-Intelligence-Laboratory/PKINet

遥感图像(RSIs)中的目标检测通常面临多个日益增加的挑战,包括目标尺度的巨大变化和多样化的背景。先前的方法尝试通过扩大骨干网络的空间感受野来解决这些挑战,无论是通过大核卷积还是膨胀卷积。然而,前者通常会引入大量的背景噪声,而后者则可能生成过于稀疏的特征表示。本文引入了多核感知网络(PKINet)来应对上述挑战。PKINet使用无膨胀的多尺度卷积核提取不同尺度的目标特征并捕捉局部背景。此外,并行引入了上下文锚点注意力(CAA)模块以捕捉长距离的上下文信息。这两个组件共同作用,提升了PKINet在四个具有挑战性的遥感检测基准上的性能,即DOTA-v1.0、DOTA-v1.5、HRSC2016和DIOR-R。

在这里插入图片描述



http://www.ppmy.cn/embedded/116294.html

相关文章

MYSQL基础篇

文章目录 一、函数二、约束三、多表查询四、事务总结 一、函数 substring索引值从1开始 datadiff是前一个日期减去后面一个日期 二、约束 check()括号里填条件 default后面加默认值eg:‘1’ 三、多表查询 给表起别名就不能直接通过表面来限定…

JVM 类加载机制

什么是类加载? 在JVA虚拟机实现规范中,通过ClassLoader类加载器把*.class字节码文件(文件流)加载到内存,并对字节码文件内容进行验证、准备、解析和初始化,最终形成可以被虚拟机直接使用的java.lang.Class对…

ER论文阅读-Incomplete Multimodality-Diffused Emotion Recognition

基本介绍:NeurIPS, 2024, CCF-A 原文链接:https://proceedings.neurips.cc/paper_files/paper/2023/file/372cb7805eaccb2b7eed641271a30eec-Paper-Conference.pdf Abstract 人类多模态情感识别(MER)旨在通过多种异质模态&#x…

【工具类】——图片缩放

在java中对于图片的处理一般都是使用Graphics2D类来实现。 Graphics2D 是 Java 2D API 的核心类,用于在 Java 平台上渲染二维形状、文本和图像。它是 Graphics 类的扩展,提供了更复杂的图形操作功能,包括几何变换、颜色管理、文本布局等。 用…

DAY20信息打点-红蓝队自动化项目资产侦察武器库部署企查产权网络空间

2.自动化-网络空间-AsamF 1.去GitHub上下载项目之后使用CMD打开 2.输入命令AsamF_windows_amd64.exe -v生成配置文件 3.AsamF会在~/.config/asamf/目录下生成config.json文件 C:\Users\Acer\.config\asamf 5.根据文档输入命令去查询所需信息(已经没有用了&#x…

【LLM学习之路】9月23日24日 第十、十一天 Attention代码解读

【LLM学习之路】9月23日24日 第十、十一天 Attention代码解读 Transformer模型大致分为三类 纯 Encoder 模型(例如 BERT),又称自编码 (auto-encoding) Transformer 模型;纯 Decoder 模型(例如 GPT)&#…

免费与付费代理IP工具的优缺点分析

面对市场上众多的代理IP工具,选择合适的工具成为一项挑战。本文将深入分析免费与付费代理IP工具的优缺点,协助您做出明智的选择。 一、免费代理IP工具的优缺点 优点: 零成本:最大的优点在于无需任何费用。对于预算有限的用户&a…

SpringBoot 入门实践

Spring Boot 入门教程:从零开始构建你的第一个应用 Spring Boot 是基于 Spring 框架的开发框架,它旨在简化 Spring 应用的开发流程。通过 Spring Boot,你可以迅速构建基于 Spring 的独立应用,无需进行复杂的 XML 配置。本文将带你…