【论文速看】DL最新进展20240924-增量语义分割、多任务分割检测、遥感目标检测

【增量语义分割】

AWF: Adaptive Weight Fusion for Enhanced Class Incremental Semantic Segmentation

论文链接：https://arxiv.org/pdf/2409.08516

代码链接：[无，但文中说会发布]

类别增量语义分割（CISS）旨在通过保持先前学到的知识和引入的新知识之间的平衡来减轻灾难性遗忘。现有方法主要基于正则化技术，如知识蒸馏，有助于保留旧知识，但在有效整合新知识方面常常面临挑战，导致整体改进有限。端点权重融合（EWF）方法虽然简单，但通过动态融合先前步骤和当前步骤的模型权重，使用由已知类别数量和引入的新类别数量决定的融合参数alpha，有效地解决了一些限制。然而，alpha计算的简单性可能会限制其充分捕捉不同任务场景复杂性的能力，可能导致次优的融合结果。文中提出了一种增强的方法，称为自适应权重融合（AWF），它引入了一种交替训练策略用于融合参数，允许更灵活和自适应的权重整合。AWF通过更好地平衡旧知识的保留和新类别的学习，取得了卓越的性能，与原始EWF相比，显著提高了在基准CISS任务上的结果。

在这里插入图片描述

【多任务】

【TPAMI2024】Frequency-aware Feature Fusion for Dense Image Prediction

论文链接：https://arxiv.org/pdf/2408.12879

代码链接：https://github.com/Linwei-Chen/FreqFusion

目标检测、语义分割、实例分割和全景分割任务。

密集图像预测任务需要具有强类别信息和高分辨率精确空间边界细节的特征。为此，现代分层模型通常利用特征融合，直接将来自深层的上采样粗特征与来自较低层次的高分辨率特征相加。作者观察到对象内融合特征值的快速变化，导致由于高频特征受到干扰而产生类别内不一致性。此外，融合特征中的模糊边界缺乏准确的高频信息，导致边界位移。基于这些观察，提出了频率感知特征融合（FreqFusion），结合了一个自适应低通滤波器（ALPF）生成器、一个偏移生成器和一个自适应高通滤波器（AHPF）生成器。ALPF生成器预测空间变化的低通滤波器以减弱对象内的高频成分，减少上采样过程中的类内不一致性。偏移生成器通过重新采样更一致的特征替换不一致的特征，细化大的不一致特征和薄边界，同时AHPF生成器增强在降采样过程中丢失的高频详细边界信息。全面的可视化和定量分析表明，FreqFusion有效地提高了特征一致性并使对象边界更加清晰。在各种密集预测任务上的广泛实验证实了其有效性。

在这里插入图片描述

【人脸防伪】

[2024] Deepfake Generation and Detection: A Benchmark and Survey

论文链接：https://arxiv.org/pdf/2403.17881

代码链接：https://github.com/flyingby/Awesome-Deepfake-Generation-and-Detection

深度伪造是一项致力于在特定条件下创建高度逼真的人脸图像和视频的技术，在娱乐、电影制作和数字人类创造等领域具有重要的应用潜力。随着深度学习的发展，以变分自编码器和生成对抗网络为代表的技术取得了令人印象深刻的生成效果。最近，扩散模型凭借其强大的生成能力引发了新一轮的研究热潮。除了深度伪造生成，相应的检测技术也在不断发展，以规范深度伪造的潜在滥用，如隐私侵犯和网络钓鱼攻击。本综述全面回顾了深度伪造生成和检测的最新进展，总结并分析了这一快速发展领域的当前最新研究。首先，作者统一了任务定义，全面介绍了数据集和评估指标，并讨论了发展中的技术。然后，我们讨论了几个相关子领域的发展，并重点研究了四个代表性的深度伪造领域：换脸、面部重演、会话面部生成和面部属性编辑，以及伪造检测。随后，在每个领域的流行数据集上全面基准测试了代表性方法，充分评估了最新和最具影响力的已发表作品。最后，分析了所讨论领域面临的挑战和未来研究方向。

在这里插入图片描述

【遥感目标检测】

[2024] Poly Kernel Inception Network for Remote Sensing Detection

论文链接：https://arxiv.org/pdf/2403.06258

代码链接：https://github.com/NUST-Machine-Intelligence-Laboratory/PKINet

遥感图像（RSIs）中的目标检测通常面临多个日益增加的挑战，包括目标尺度的巨大变化和多样化的背景。先前的方法尝试通过扩大骨干网络的空间感受野来解决这些挑战，无论是通过大核卷积还是膨胀卷积。然而，前者通常会引入大量的背景噪声，而后者则可能生成过于稀疏的特征表示。本文引入了多核感知网络（PKINet）来应对上述挑战。PKINet使用无膨胀的多尺度卷积核提取不同尺度的目标特征并捕捉局部背景。此外，并行引入了上下文锚点注意力（CAA）模块以捕捉长距离的上下文信息。这两个组件共同作用，提升了PKINet在四个具有挑战性的遥感检测基准上的性能，即DOTA-v1.0、DOTA-v1.5、HRSC2016和DIOR-R。

在这里插入图片描述