机器学习和深度学习 -- 李宏毅（笔记与个人理解）Day 23

机器学习和深度学习 -- 李宏毅（笔记与个人理解）Day 23

server/2024/10/19 7:33:22/

Day 23 Self - Atention 变形

关于很多个former 的故事

痛点：

在于做出注意力矩阵之后的运算惊人

由于self - attention 一般都是在big model 的一部分，所以，一般不会对模型造成决定性的影响，只有当model 的输入较长的时候，例如图中：图片处理： 256 * 256 的输入，self-attention 就会得到一个 256 * 256 的平方的矩阵；导致运算量巨大

methods ：使用人类的先验知识

Local Attention / Truncated Attention

有的时候我们只需要知道左右另据；仅仅知道很小的范围；

感觉和双向RNN 差不多啊……好像还不一样，因为RNN 还是比较有时间序列的

老师说这里和CNN比较像，可并行

Stride Attention

Global Attentiion

tushi 的是第一种的 attention matrix；通过special 间接的传递信息

做多头

//todo 这里忘记了什么是多头的概念了，多头自注意力是怎么做的来着？

Can we only focus on Critical Parts ?

有没有办法估计一下较小的值，直接抹零？

how we do that ?

Clustering

提问：

为什么是计算相似的而不是计算不同的以保持模型的多样性，久像 pca 那样
自注意力机制算的是不是相似程度的矩阵？
如果是的话，这样做为什么就能得到sequence 的全局信息了？
这里我突然蒙圈了，这里wei’啥是 4* N * N * 4呢？而不是反过来，换句话说，这个矩阵的大小为啥是序列的长度，而不是向量的维度

// todo 这是因为自注意力机制的目的是计算序列中每个元素对于序列中每个其他元素的注意力得分，所以我们需要一个 N×N 的矩阵来表示这些得分。每个元素都有一个对应于其他所有元素的得分，包括自己。

md 明白了，还是需要有一个人来给自己点拨点拨呀

特色就是新弄了一个network ；没讲的是如何从右边到左边binary 的 map

台大学生提问：这里真的有加速吗？其实我也满想问的，奈何时间不允许啊！！！

NN 里面只会产生一个10*10 的解析度较低的matrix

这里的value 表示什么意思？是不是输入？

//todo

注意这里为什么不也用有代表性的 query ？

会改变我的output ，导致不能使得squence的每一个part 都有一个lable 被分出，例如词性标注

提问：为什么是 QKV ？而不是KQV？

好啦这个问题其实有点蠢了，当你KQV 的时候，你的K 就变成了 Q ；Q 就变成了K ；和你做函数的代换法的时候用 u 代表变量 x 的行为没什么两样啦

Reduce numbers of Key

做不同方式的线性组合，其实我的想法那么也很简单，用pca 做一下，说不定也可以，反正就是减少运算量嘛~

为啥这里的v 可以和其他的维度不同？

emmm 比较简单了

1N * N * 3 = 1 3
b = $\Sigma$ a‘ * V

可以看到 V 只需要×一个数字，当然就不需要一样啦

好吧 V K ^T Q 其实差不多就是输出了（如果我们忽略掉， KQ 之后的softmax ，md 我也忘了这里的作用了）

将原始计算分值整理成所有元素权重之和为1的概率分布；另一方面也可以通过softmax的内在机制更加突出重要元素的权重;

自注意力机制是注意力机制的变体，其减少了对外部信息的依赖，更擅长捕捉数据或特征的内部相关性。自注意力机制的关键点在于，Q、K、V是同一个东西，或者三者来源于同一个X，三者同源。通过X找到X里面的关键点，从而更关注X的关键信息，忽略X的不重要信息。

Change the orders --Linear Transformer

这里先假设没有softMax 的情况哈

md 推荐线性代数 – 李宏毅了要开始；

ps 好像赚钱买mac 啊 ……

交换后：

好家伙改了一下乘法的次数变了这么多；

but……

while when how we add the softMax

Lets put soft Max back ……

template == pattern

how to

Synthesizer

重新思考 attention weight 的价值到底是怎么样的

Attention -Free?

http://www.ppmy.cn/server/21055.html

相关文章

故障诊断 | 基于GASF-CNN的状态识别研究

故障诊断 | 基于GASF-CNN的状态识别研究

概述抗蛇行减振器作为高速动车组二系悬挂系统的关键零部件，对改善车辆运动稳定性、提高车辆系统的临界速度具有重要意义。抗蛇行减振器在高级修时需全部进行拆解维修或报废处理，若在高级修中的三、四级修时其性能尚能够满足实际使用要求，将其过早地拆解检修或者报废换新无…

阅读更多...

TechTool Pro for mac中文激活版：硬件监测和系统维护工具

TechTool Pro for mac中文激活版：硬件监测和系统维护工具

TechTool Pro mac帮助用户实现系统硬件监测（CPU、内存、硬盘、网络、USB等）、内存测试、S.M.A.R.T检测、磁盘宗卷扫描、宗卷重建和优化、数据恢复和粉碎等等，定期使用，可以确保您的Mac保持优化和无故障。 TechTool Pro for mac v1…

阅读更多...

日本岛津电子天平UW UX 系列series 精密电子天平Shimadzu使用说明

日本岛津电子天平UW UX 系列series 精密电子天平Shimadzu使用说明

日本岛津电子天平UW UX 系列series 精密电子天平Shimadzu使用说明

阅读更多...

实现ALV页眉页脚

实现ALV页眉页脚

1、文档介绍在ALV中，可以通过增加页眉和页脚，丰富ALV的展示。除了基本的页眉和页脚，还可以通过插入HTML代码的方式展示更加丰富的页眉和页脚，本篇文章将介绍ALV和OOALV中页眉页脚的使用。 2、ALV页眉页脚效果如下 2.1、显示内…

阅读更多...

利用ENVI SPEAR工具和WV-2卫星影像数据量测水深

利用ENVI SPEAR工具和WV-2卫星影像数据量测水深

ENVI的SPEAR工具集（(Spectral Processing Exploitation and Analysis Resource)）是将很多的遥感图像处理过程集成为流程化的操作方式，使得遥感图像处理知识相对薄弱的非专业人员也能利用流程化的工具进行图像处理，图像处理速度也有…

阅读更多...

【漏洞复现】Gradio file SSRF漏洞(CVE-2024-1183)

【漏洞复现】Gradio file SSRF漏洞(CVE-2024-1183)

0x01 产品简介 Gradio是一个用于创建机器学习模型交互式界面的Python库。它可以帮助用户快速地为模型构建一个可视化的、易于使用的Web界面，无需编写任何Web前端代码。通过Gradio，用户可以定义输入组件和输出组件，以接收用户输入和展示模型的预测结果。此外，Gradio支持多种…

阅读更多...

使用Selenium爬取目标网站被识别的解决之法

使用Selenium爬取目标网站被识别的解决之法

在进行网络数据抓取和爬取时，Selenium是一个常用的工具，它可以模拟人类用户的行为，自动化地操作浏览器进行页面的访问和数据的提取。然而，随着网站对爬虫的检测能力不断提升，很多爬虫程序在运行过程中经常会遭遇被目标…

阅读更多...

为什么MySQL使用B+树而不是跳表

为什么MySQL使用B+树而不是跳表

1. 磁盘IO效率问题 MySQL是基于磁盘存储系统，而B树的设计就很符合磁盘存储系统，它可以最大化地减少磁盘IO操作。而磁盘IO的读写速度远小于内存的读写速度，所以减少磁盘IO操作对于MySQL性能的提升至关重要，与之相对，Re…

阅读更多...

最新文章