摘要
基于Transformer的方法在低层视觉任务中表现出色,例如图像超分辨率。然而,作者通过归因分析发现,这些网络只能利用有限的空间范围的输入信息。这意味着现有网络尚未充分发挥Transformer的潜力。为了激活更多的输入像素以获得更好的重建效果,作者提出了一种新型的混合注意力(HAT)。将 HAttention 机制融入 YOLOv11 主要为了提升图像清晰度的效果,提高目标检测效果。
理论介绍
HAttention 注意力机制结合了传统的空间注意力和通道注意力,同时引入了一种混合策略来灵活调整两者的权重,旨在更精确地捕捉图像中的重要信息,模型能够在不同层次、不同领域的特征中找到有意义的上下文关联,从而提升图像修复和超分辨率重建的效果。HAttention 将注意力机制主要部分如下:
- 空间注意力主要关注图像中的位置关系。通过计算图像中的每个像素点对目标任务的重要性来调整特征图的空间分布。空间注意力能够帮助模型聚焦于图像中重要的区域,忽略不相关的背景。
- 通道注意力则关注特征图中不同通道的相对重要性。每个通道通常表示某种特定的特征类型(如边缘、纹理、颜色等)。通道注意力机制能够通过调整通道的权重来增强模型对某些重要特征的关注。
- HAttention 将空间和通道注意力机制结合起来,综合考虑了图像的空间结构和特征的语义层次。这种混合策略可以更细粒度地优化模型,尤其在图像修复任务中,能够更准确地恢复丢失的细节。
下图摘自论文
理论详解可以参考链接:论文地址
代码可在这个链接找到:代码地址
下文都是手把手教程,跟着操作即可添加成功