YOLOv8改进 | 特征融合篇，YOLOv8添加iAFF（多尺度通道注意力模块），并与C2f结构融合，提升小目标检测能力

devtools/2025/4/2 12:05:55/

在这里插入图片描述

摘要

特征融合，即来自不同层或分支的特征的组合，是现代网络架构中无处不在的一部分。虽然它通常通过简单的操作（如求和或拼接）来实现，但这种方式可能并不是最佳选择。在这项工作中，提出了一种统一且通用的方案，即注意力特征融合（Attentional Feature Fusion），适用于大多数常见场景，包括短跳跃连接和长跳跃连接引起的特征融合以及 Inception 层内的特征融合。传统注意力机制往往忽略了不同尺度的特征问题，尤其是当融合特征来自不同尺度的层时。为了更好地融合语义和尺度不一致的特征，提出了一个多尺度通道注意力模块（Multi-Scale Channel Attention Module），通过对通道的多尺度上下文信息进行聚合，能够同时强调全局分布较大的对象以及局部分布较小的对象。通过这种方式，网络能够更好地识别和检测尺度变化较大的对象。总而言之，该模块解决了在不同尺度上给出的特征融合时出现的问题，特征图的初始整合可能成为瓶颈，并且通过增加另一个层次的注意力（称之为迭代注意力特征融合）可以缓解这一问题。iAFF在特征融合方面具有很大的潜力，可以持续产生更好的结果。

iAFF介绍

AFF和iAFF的示意图如下：

在这里插入图片描述

AFF模块：通过关注通道的不同尺度（即多尺度通道注意力），解决不同层次特征融合的语义和尺度不一致问题。图（a）中两个输入特征图（X 和 Y）的信息，经过多尺度通道注意力模块（MS-CAM）后，输出特征图Z。具体流程如下：

输入特征 X 和 Y：分别表示不同层或不同尺度的特征图。它们的尺寸都是 C×H×W （C 是通道数，H 和 W 是特征图的高度和宽度）。
加权乘法：首先对 X 和 Y
进行通道上的加权操作，用不同的权重去强调某些通道的信息。通过加权乘法后，两个特征会分别与权重矩阵进行逐通道的乘法操作。
MS-CAM：经过通道加权后的 X 和 Y
被送入多尺度通道注意力模块（MS-CAM）。这个模块负责捕捉不同尺度的全局和局部信息，确保不同分辨率下的特征都能得到充分的融合。
加法操作：最后，将来自 X 和 Y 的特征经过加权求和后得到输出特征 Z。

iAFF模块：在AFF模块基础上进一步引入另一层注意力，改善特征融合质量。这些模块通过更有效的特征融合方式提升了网络整体性能。流程：