YOLOv11改进,YOLOv11添加GnConv递归门控卷积,二次创新C3k2结构

news/2024/11/16 7:00:14/

在这里插入图片描述


摘要

视觉 Transformer 在多种任务中取得了显著的成功,这得益于基于点积自注意力的新空间建模机制。视觉 Transformer 中的关键因素——即输入自适应、长距离和高阶空间交互——也可以通过卷积框架高效实现。作者提出了递归门控卷积(Recursive Gated Convolution,简称 gnConv),通过门控卷积和递归设计执行高阶空间交互。该新操作具有高度的灵活性和可定制性,兼容各种卷积变体,并将自注意力中的二阶交互扩展到任意阶数,而不会引入显著的额外计算。gnConv 可以作为一个即插即用的模块,用于提升各种视觉 Transformer 和基于卷积的模型。


# 理论介绍

gnConv 是一种高效的空间交互操作,通过递归门控卷积实现长距离和高阶的空间交互。其核心思想是通过使用标准卷积、线性投影和逐元素乘法,模拟自注意力中的输入自适应空间混合,但具有更低的计算复杂度。关键步骤如下:

  • 输入自适应的空间交互
    在传统的卷积神经网络中,卷积操作是通过固定的卷积核对邻域进行加权求和,从而聚合邻域特征。这种方法的缺点是,卷积核是固定的,不具备自适应的能力。与此不同,gnConv 引入了自适应的空间交互,类似于 Transformer 中的自注意力机制。
    • 在自注意力机制中,通过多头自注意力(MHSA) 来生成不同位置之间的权重,以捕捉长距离的依赖关系。
    • gnConv 的设计目标是通过卷积和全连接层来实现空间交互,避免自注意力的高计算成本。其关键是通过门控卷积(gConv)来捕捉局部空间信息,并且在此基础上引入了递归设计以进行高阶空间交互。
  • 门控卷积(gConv)操作
    gnConv 结合了线性投影和深度卷积来生成输入特征的空间混合,过程如下:
    • 输入层:包括图片的高度和宽度以及通道数
    • 投影层:通过线性投影层对输入特征进行通道混合。
    • 深度卷积:对投影后的特征进行深度卷积。
    • 逐元素乘法:将投影后的特征和卷积后的特征进行逐元素乘法,得到最后的输出。
<

http://www.ppmy.cn/news/1547382.html

相关文章

大模型研究报告 | 2024年中国金融大模型产业发展洞察报告|附34页PDF文件下载

随着生成算法、预训练模型、多模态数据分析等AI技术的聚集融合&#xff0c;AIGC技术的实践效用迎来了行业级大爆发。通用大模型技术的成熟推动了新一轮行业生产力变革&#xff0c;在投入提升与政策扶植的双重作用下&#xff0c;以大模型技术为底座、结合专业化金融能力的金融大…

GaussDB全密态数据库等值查询

全密态数据库等值查询 可获得性 本特性自V500R001C20版本开始引入。 特性简介 密态数据库意在解决数据全生命周期的隐私保护问题&#xff0c;使得系统无论在何种业务场景和环境下&#xff0c;数据在传输、运算以及存储的各个环节始终都处于密文状态。当数据拥有者在客户端完成…

LeetCode - #134 加油站

文章目录 前言1. 描述2. 示例3. 答案关于我们前言 我们社区陆续会将顾毅(Netflix 增长黑客,《iOS 面试之道》作者,ACE 职业健身教练。)的 Swift 算法题题解整理为文字版以方便大家学习与阅读。 LeetCode 算法到目前我们已经更新到 131 期,我们会保持更新时间和进度(周一…

开发中SQL积累

1.SQL中判断varchar类型是否为空&#xff1f; 检查 NULL 值&#xff1a; WHERE column_name IS NULL 检查空字符串&#xff1a; WHERE column_name 结合 NULL 和空字符串的检查&#xff1a; WHERE column_name IS NULL OR column_name 2.TRIM函数 作用&#xff1a;…

如何用Java爬虫“偷窥”淘宝商品类目API的返回值

在这个数据为王的时代&#xff0c;获取信息就像是在玩一场大型的寻宝游戏。而淘宝&#xff0c;作为电商界的巨人&#xff0c;其商品类目API就像是藏宝图上的秘密标记。今天&#xff0c;我们就来聊聊如何用Java爬虫技术&#xff0c;悄悄地“偷窥”这些宝藏。 准备工作&#xff1…

【大数据学习 | flume】flume之常见的source组件

1. exec source Exec Source&#xff1a;监听一个指定的命令&#xff0c;获取一条命令的结果作为它的数据源 ; 常用的是tail -F file指令监控一个文件&#xff0c;即只要应用程序向日志(文件)里面写数据&#xff0c;source组件就可以获取到日志(文件)中最新的内容 。 可用此方…

WEB攻防-通用漏洞SQL注入sqlmapOracleMongodbDB2等

SQL注入课程体系&#xff1a; 1、数据库注入-access mysql mssql oracle mongodb postgresql 2、数据类型注入-数字型 字符型 搜索型 加密型&#xff08;base64 json等&#xff09; 3、提交方式注入-get post cookie http头等 4、查询方式注入-查询 增加 删除 更新 堆叠等 …

如何监控Kafka消费者的性能指标?

要监控 Kafka 消费者性能指标&#xff0c;可以遵循以下最佳实践和策略&#xff1a; 关键性能指标监控&#xff1a; 消息吞吐量&#xff1a;监控消费者和生产者的吞吐量&#xff0c;以评估数据处理和消费的效率。延迟&#xff1a;监控端到端的延迟&#xff0c;例如通过比较消息产…