【nlp】2.8 注意力机制拓展

news/2025/3/12 12:20:36/

注意力机制拓展

  • 1 注意力机制原理
    • 1.1 注意力机制示意图
    • 1.2 Attention计算过程
    • 1.3 Attention计算逻辑
    • 1.4 有无attention模型对比
      • 1.4.1 无attention机制的模型
      • 1.4.2 有attention机制的模型

1 注意力机制原理

1.1 注意力机制示意图

Attention机制的工作原理并不复杂,我们可以用下面这张图做一个总结

在这里插入图片描述

1.2 Attention计算过程

  • 阶段一: query 和 key 进行相似度计算,得到一个query 和 key 相关性的分值
  • 阶段二: 将这个分值进行归一化(softmax),得到一个注意力的分布
  • 阶段三: 使用注意力分布和 value 进行计算,得到一个融合注意力的更好的 value 值

为了更好的说明上面的情况, 我们通过注意力来做一个机器


http://www.ppmy.cn/news/1235346.html

相关文章

2023上海小学生古诗文大会复赛(复选)在线模拟题库更新到503题

为了帮助参加2023年上海小学生古诗文大会复选(复赛)的孩子们更好地练习和备考,我这几天制作了一个在线练习的模拟题库。 这个在线模拟题对标市级比赛的形式和样式,具有以下特点和功能: 1、可以通过手机、电脑、平板&a…

解决mv3版本浏览器插件,不能注入js脚本问题

文章目录 背景引入ifream解决ifream和父页面完全跨域问题参考链接 背景 浏览器插件升级mv3版本后,不能再使用content_script内容脚本向原浏览器(top)注入script标签达到注入脚本的目的。浏览器认为插入未经审核的脚本是不安全的行为。 引入…

计网(复习自用)

计算机网络 1.概述 1.1概念 含义 计算机网络:是一个将分散的。具有独立功能的计算机系统,通过通信设备和线路连接起来,由功能完善的软件实现资源共享和信息传递的系统。 简单点说,计算机网络是互联的,自治的计算机集…

OpenGL 绘制点与三角形(Qt)

文章目录 一、简介二、实现代码三、实现效果一、简介 这里对OpenGL中点与三角形相关绘制操作进行封装,方便后续点云数据与模型数据的渲染。 二、实现代码 这里我们先创建一个基类Drawable,后续的点、线、面等,均会继承该类: Drawable.h #ifndef DRAWABLE_H #define DRAWABL…

查看sql语句执行计划并重建索引

晚上cpu报警显示当前cpu使用率达到90%以上,不到10%的空闲 先查询当前sql: #(ORACLE) SQL > set line 200 pages 1000 col event for a30 col program for a30 col username for a12 col sql_id for a15 col INST_ID for 9999 …

websocket与node.js实现

什么是 websocket? websoket 是一种网络通信协议,基于 tcp 连接的全双工通信协议(客户端和服务器可以同时收发信息),值得注意的是他不基于 http 协议,websocket 只有在建立连接的时候使用到 http 协议进行…

三十分钟学会Shell(上)

Shell ​ Shell 本身并不是内核的一部分,它只是站在内核的基础上编写的一个应用程序,是用户和Linux文件系统之间的桥梁。Shell 有自己的特殊性,就是开机立马启动,并呈现在用户面前;用户通过 Shell 来使用 Linux&#x…

【Leetcode合集】2342. 数位和相等数对的最大和

文章目录 2342. 数位和相等数对的最大和方案1方案2方案3方案4 2342. 数位和相等数对的最大和 2342. 数位和相等数对的最大和 代码仓库地址: https://github.com/slience-me/Leetcode 个人博客 :https://slienceme.xyz 给你一个下标从 0 开始的数组 nu…