Attention-自注意机制

news/2024/11/25 18:21:46/

Attention-自注意机制

Attention 可以大幅提升seq2seq的遗忘问题。有了Attention,Seq2Seq 模型不会忘记源输入,且decoder解码器就知道该把注意力集中在哪里。
缺点: 计算量大得多
在这里插入图片描述
Original paper:
• Bahdanau,Cho,& Bengio. Neural machine translation by jointly learning to align and translate. In ICLR, 2015.
Attention会记录第i个状态hi和当前状态s0的相关性 align,记为权重ai, 所有的a加起来等于1.
在这里插入图片描述
计算ai有很多方法。
第一种方法:(V T 矩阵 都是训练的参数)
在这里插入图片描述
第二种方法:
在这里插入图片描述
Context vector: C0 = a1h1 + …+ amhm.
C0知道输入x1-xm的完整信息,解决遗忘问题
在这里插入图片描述a每次要更新!
在这里插入图片描述
为了计算一个向量Cj,我们计算权重: a1 …am
解码器到状态t时,我们一共计算了mt个权重。

在这里插入图片描述
所以attention解决了遗忘问题,提高了准确率,但是代价就是计算量的提高。


http://www.ppmy.cn/news/22769.html

相关文章

React中的jsx语法转换后生成虚拟DOM,再挂载到真实的DOM中的全过程讲解

前言 react中的jsx语法很多伙伴都会使用, 但是你知道它的本质是什么吗?运行中它会做如何的转换呢?jsx内部又是怎么生成了虚拟DOM?虚拟DOM又是如何挂载到真实DOM上去的呢? 带着这些问题,我们做个讲解把&…

python图形化开发教程

简介学习此教程必须先学习python入门教程( Python入门教程_恰到好处a的博客-CSDN博客)PySimpleGUI这个模块需要安装,在cmd输入pip install PySimpleGUI,在python中验证安装:输入import PySimpleGUI,看一看是否正常引入…

Android boot.img dtb.img 编译过程

最近做RK3588案子,修改dts后,导致boot.img过大,编译出错,整体分析下boot.img过大的原因是因为在打包boot.img过程中,dbt.img过大导致,所以整体分析下boot.img编译过程,尤其是dbt.img的生成过程.boot.img生成过程在Andorid跟目录下执行, source build/envsetup.sh 然后lunch xx(…

科技云报道:上云尚未成功,“下云潮”已悄然来临?

科技云报道原创。 云计算一直被视为是企业数字化转型的底座,很多企业都在通过加速数字化转型应对市场环境的动荡变化,一手抓降本增效,另一手也还在继续谋求突破式创新。 然而,经历这两年的疫情,活下去成为每一个企业的…

GBDT+LR算法解析及Python实现

1. GBDT LR 是什么 本质上GBDTLR是一种具有stacking思想的二分类器模型,所以可以用来解决二分类问题。 。 2. GBDT LR 用在哪 GBDTLR 使用最广泛的场景是CTR点击率预估,即预测当给用户推送的广告会不会被用户点击。 点击率预估模型涉及的训练样本一…

Python迭代器及其用法

从字面来理解,迭代器指的就是支持迭代的容器,更确切的说,是支持迭代的容器类对象,这里的容器可以是列表、元组等这些 Python 提供的基础容器,也可以是自定义的容器类对象,只要该容器支持迭代即可。如果要自…

【算法基础】归并排序解析

作者:柒号华仔 个人主页:欢迎访问我的主页 个人信条:星光不问赶路人,岁月不负有心人。 个人方向:专注于5G领域,同时兼顾其他网络协议,编解码协议,C/C,linux等,感兴趣的小…

【黑马SpringCloud(5)】es基础语法

Elasticsearch初识elasticsearchelasticsearch和lucene正向/倒排索引正向和倒排elasticsearch的一些概念分词器索引库操作文档操作查询文档查询所有全文检索精确查询range查询地理查询复合查询算分函数查询布尔查询搜索结果处理排序分页分页问题高亮总结初识elasticsearch ela…