探索和构建 LLaMA 3 架构:深入探讨组件、编码和推理技术(六)SwiGLU 激活函数

embedded/2025/2/21 20:06:45/

探索和构建 LLaMA 3 架构:深入探讨组件、编码和推理技术(六)SwiGLU 激活函数

SwiGLU 激活函数

SwiGLU 是深度神经网络中使用的激活函数,是 GLU(门控线性单元)的变体。它用于通过获取输入的加权和并对其应用非线性函数来计算神经网络中神经元的输出。 SwiGLU 使用涉及 Swish 函数和张量乘法的数学表达式来定义。 SwiGLU 是 GLU 的变体,这意味着它基于与 GLU 相同的数学概念。然而,SwiGLU 具有与 GLU 不同的非线性函数。具体来说,SwiGLU 使用 Swish 函数,这是最近提出的激活函数,已被证明在某些应用中优于其他激活函数。

SwiGLU 具有多项优点,使其成为神经网络中有用的激活函数。首先,它基于 GLU 概念,该概念已被证明在许多应用中表现良好。其次,它使用 Swish 函数,该函数已被证明在某些情况下优于其他激活函数,特别是与残差连接结合使用时。第三,由于使用了逐元素乘法,它可以实现高效的计算。

在这里插入图片描述

作者通过在 Transformer 架构的 Feed-Forward 层中使用不同的激活函数来比较 Transformer 模型的性能

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

def forward(self, x: torch.Tensor):swish = F.silu(self.w1(x))  # Apply first transformationx_V = self.w3(x) x = swish * x_V        # Apply contraction to original dimensionx = self.w2(x)  # Apply optional additional transformationreturn x

系列博客

探索和构建 LLaMA 3 架构:深入探讨组件、编码和推理技术(一)Llama3 模型 架构
https://duanzhihua.blog.csdn.net/article/details/138208650
探索和构建 LLaMA 3 架构:深入探讨组件、编码和推理技术(二)RoPE位置编码
https://duanzhihua.blog.csdn.net/article/details/138212328

探索和构建 LLaMA 3 架构:深入探讨组件、编码和推理技术(三)KV缓存
https://duanzhihua.blog.csdn.net/article/details/138213306

探索和构建 LLaMA 3 架构:深入探讨组件、编码和推理技术(四)分组多查询注意力
https://duanzhihua.blog.csdn.net/article/details/138216050
探索和构建 LLaMA 3 架构:深入探讨组件、编码和推理技术(五)RMS 均方根归一化
https://duanzhihua.blog.csdn.net/article/details/138216630
在这里插入图片描述
在这里插入图片描述


http://www.ppmy.cn/embedded/19436.html

相关文章

Ansible工具的初步使用

目录 概述实践ansible的命令行使用ansible-playbook官方文档 概述 Ansible工具的初步使用 实践 ansible的命令行使用 # 模块 shell(执行shell命令)、copy、systemd # ansible [pattern] -i hosts # pattern:匹配执行的ansible节点、组名、主机名、all、多个组或主机用逗号合并…

14.MMD导入Blender及贴图步骤

MMD导出.abc文件 在MMD十周年桥版本导入一个人物模型,这里导入仆人 注意MMD的路径不能有中文 点击上面的MMDBridge 设定 第一个选择blender by 第二个选择实行 这里是选择帧数范围和帧率 帧率一定要是30,不然后面可能会出问题 点击文件导出视频…

【Java Spring MVC项目异常解决】HTTP 404

报404错误多数情况下是因为路径问题,特别是在基于MVC框架的Web应用中。HTTP 404错误是客户端错误响应代码,表明服务器无法找到客户端请求的资源(例如,Web页面、图片、文件)。在Spring MVC项目中,404错误常见…

Vue 组件分类、局部注册和全局注册

文章目录 背景知识组件分类安装 vue-cli示例设置组件局部注册设置组件全局注册 背景知识 开发 Vue 的两种方式: 核心包传统开发模式:基于 html / css / js 文件,直接引入核心包,开发 Vue。工程化开发模式:基于构建工…

海外http代理中的有效连通率是什么意思?

随着互联网的发展,许多人需要使用代理服务器来访问海外网站或绕过地理限制,在选择一个可靠的海外HTTP代理时,了解其有效连通率是至关重要的。 本文将解释有效连通率的含义,并提供详细的测试步骤,帮助您评估一家IP代理…

芯科科技大大简化面向无电池物联网的能量采集产品的开发

芯科科技推出其迄今最高能量效率且支持能量采集功能的无线SoC 中国,北京 – 2024年4月22日 – 致力于以安全、智能无线连接技术,建立更互联世界的全球领导厂商Silicon Labs(亦称“芯科科技”,NASDAQ:SLAB)…

香港BTC、ETH现货ETF同时通过,对行业意义几何?

香港比美国更快一步通过以太坊现货 ETF。 2024 年 4 月 15 日,香港嘉实国际资产管理有限公司(Harvest Global Investments)今天宣布,得到香港证监会的原则上批准,将推出两大数字资产(比特币及以太坊&#…

Java设计模式_适配器模式

基础 适配器模式(Adapter Pattern)是一种结构型设计模式,它允许接口不兼容的类能够一起工作。适配器模式通过创建一个包装类来实现这种兼容性,这个包装类包含了需要的目标接口,并持有一个适配者对象,以便进…