SwiGLU激活函数

news/2024/10/18 23:25:16/

SwiGLU激活函数已经成为LLM的标配了。它是GLU的变体,公式如下:
SwiGLU ⁡ ( x , W , V , b , c , β ) = Swish ⁡ β ( x W + b ) ⊗ ( x V + c ) \operatorname{SwiGLU}(x, W, V, b, c, \beta)=\operatorname{Swish}_\beta(x W+b) \otimes(x V+c) SwiGLU(x,W,V,b,c,β)=Swishβ(xW+b)(xV+c)

Swish

S w i s h β ⁡ ( x ) = x ⊗ σ ( β x ) \operatorname{Swish_\beta}(x)=x \otimes \sigma(\beta x) Swishβ(x)=xσ(βx)
在nlp和cv任务上,Swish性能都和GELU接近,稍微略高点。但Swish公式更简洁优雅。

GELU早期被BERT、RoBERTa、ALBERT采用。

GLU

GLU ⁡ ( x , W , V , b , c ) = σ ( x W + b ) ⊗ ( x V + c ) \operatorname{GLU}(x, W, V, b, c)=\sigma(x W+b) \otimes(x V+c) GLU(x,W,V,b,c)=σ(xW+b)(xV+c)
单纯从公式看,GLU是一个神经网络层。左右两个线性变换层,左边再接一个门控机制来控制信息流通多少。

SwiGLU

将Swish作为左侧激活函数就得到了SwiGLU。代码如下:

F.silu(self.w1(x)) * self.w2(x)

在 GLU Variants Improve Transformer 论文中,作者比较了各种GLU变体的激活函数,SwiGLU在各项任务上表现出众。但作者并未给出解释原因,只能说后验是这样,那就选它呗,所以成了LLM的标配。

激活函数示意图

act


参考

  • GLU Variants Improve Transformer
  • SWISH: A SELF-GATED ACTIVATION FUNCTION
  • 超越ReLU却鲜为人知,3年后被挖掘:BERT、GPT-2等都在用的激活函数
  • 大模型基础|激活函数|从ReLU 到SwiGLU

http://www.ppmy.cn/news/1459078.html

相关文章

Flutter笔记:Widgets Easier组件库(13)- 使用底部弹窗

Flutter笔记 Widgets Easier组件库(13)使用底部弹窗 - 文章信息 - Author: 李俊才 (jcLee95) Visit me at CSDN: https://jclee95.blog.csdn.netMy WebSite:http://thispage.tech/Email: 291148484163.com. Shenzhen ChinaAddress of this …

yum下载安装包

一、背景 对于连接网络的centos系统,可以直接通过yum install安装应用。 对于不能连接外部网络的centos系统,显然yum无法使用,需要将安装包拷贝到机器上安装,但去哪里去寻找和下载安装包呢。 二、yum downloads yum工具贴心的…

Google Pixel7 Pro手机登录账号无法触发密码自动填充确认对话框

如果在应用中已正确设置了输入框属性:android:autofillhints和importantAutofill属性,但始终无法在Goole手机中弹出存储账户密码提示框,那么就需要检查是否开启了自动填充功能,那么需要按如下步骤进行检查 第一步:登录google账号&…

web前端学习笔记9

9. HTML5新增元素及属性 9.1 HTML5新增结构元素 HTML5引入了几个新的结构元素,极大地改善了网页的组织和结构方式。以下是HTML5中的一些关键新结构元素: 标签说明<header>页面或页面中某一个区块的页眉,通常是一些引导和导航信息<nav>可以作为页面导航的链接组&…

超标量处理器设计:重排序缓存(ROB)

★超标量处理器的很多地方用到了重排序缓存&#xff0c;但是我对它不是很了解&#xff0c;所以我整理一下重排序缓存的知识点。 重排序缓存(ROB)在确保乱序执行的指令能够正确地完成和提交(Commit)&#xff0c;也可以用来寄存器重命名。 ROB是一个先进先出的表&#xff0c;每个…

Leetcode-316-去除重复字母

题目说明 给你一个字符串 s &#xff0c;请你去除字符串中重复的字母&#xff0c;使得每个字母只出现一次。需保证 返回结果的字典序最小&#xff08;要求不能打乱其他字符的相对位置&#xff09;。 示例 1&#xff1a; 输入&#xff1a;s "bcabc" 输出&#xff1…

线下线上陪玩APP小程序H5搭建设计-源码交付,支持二开!

一、电竞陪玩系统APP的概念 电竞陪玩系统APP是一种专门为电子竞技玩家提供服务的平台。通过这个平台&#xff0c;玩家可以找到专业的电竞陪玩者&#xff0c;他们可以帮助玩家提升游戏技能&#xff0c;提供游戏策略建议&#xff0c;甚至陪伴玩家一起进行游戏。这种服务不仅可以提…

Mujoco210 和 Mujoco-py 在 Ubuntu22.04 下的安装

mujoco和mujoco-py的关系:mujoco是一个物理引擎,主要应用于强化学习和最优化控制领域。mujoco-py是mujoco编程的 Python 接口,由OpenAI Gym开发,可以使用mujoco_py方便地调用mujoco的API。 mujoco官网: https://mujoco.org/ 1.安装 Mujoco210 1. 从 Github下载 Mujoco …