机器学习和深度学习-- 李宏毅(笔记于个人理解)Day 21

server/2024/12/22 9:31:28/

Day 21 Self- Attention

选修部分

image-20240417184829593 image-20240417190658276 image-20240417190749226

学完自适应 再回来看看

image-20240417194732455

Sequence Labling

image-20240419164301252

假如我们现在有一个需要读完全部句子才能解的问题, 那么red window 就需要变得是最大的(最长的句子);

其实这里大家有没有想过,这个玩意儿就是个卷积网络CNN,所谓的window 就是卷积核

image-20240419164705272

what is self Attention?

image-20240419165946852

image-20240419180752296

how self-attention work

image-20240419180922799

image-20240419181037670

image-20240419181213748

主要考虑 Dot -product

image-20240419181410909

image-20240419181437037实际操作自己也要做关联计算qk

image-20240419181707806

如果b1 和 v2 比较接近的话,那么我们就说这a1 和a2 比较像

image-20240419181955949

b1 --b4 是同时产生的

image-20240419182801592矩阵运算的角度
image-20240419182940352

image-20240419183015516

你也可以不做softmax(Relu 也行)

image-20240419183214224

(小bug是 a_head 换成 ')

image-20240419183312687

image-20240419183338095

Multi-head -self-attention

image-20240419183549015

image-20240419183609932

image-20240419183623280

Positional Encoding

image-20240419183803012

image-20240419183904640

hand - crafted (s to s 的规则使得不会超过位置信息)

can learned from data

image-20240419184036200

这里感觉不到数学的巧妙,只是感到了工程的流水线的简洁和高效

Applicantions

image-20240419184218973

image-20240419184405845

image-20240419184459715image-20240419184506080

Self -attention vs CNN

image-20240419184707039image-20240419184718389

弹性较大,数据较小的时候容易过拟合

提问:

  1. 我们知道 fc 和cnn差不多(无非是fc更宽一些,如果你把cnn当初fc做的话有可能丢失位置信息,或可能需要postion encode),那么问你为什么不把windows变得很大去卷积呢?
  2. 如果说像老师说的
  3. 无法得知最长的sequerence
  4. 参数量大(这里不太明白参数量大在什么地方)

Self-Attention vs RNN

image-20240419185221168

image-20240419185314799

image-20240419190227419

  1. 这里和我理解的差不多,就是特征彼此离得太远有点记不住了
  2. RNN 无法进行并行计算

image-20240419190258144

Self - Attention for Graph

image-20240419190414972

image-20240419190452180可以做智能知识图谱哎,相关性度量;this is one type of Graph Neural Network(GNN)


http://www.ppmy.cn/server/10287.html

相关文章

CODEFORCES --- 490A. Team Olympiad

490A. Team Olympiad 贝兰德首府的 0 号学校有 n 名学生。这所学校的所有孩子都很有天赋:有的擅长编程,有的擅长数学,还有的擅长体育。因此,我们知道每个孩子的数值为 ti : ti  1 ,如果第 i 个孩子擅长…

使用 Monaco Editor 开发 SQL 编辑器

安装 安装依赖,这里请注意版本 yarn add monaco-editor0.29.1 yarn add monaco-editor-webpack-plugin5.0.0配置 webpack 插件 // vue.config.js ... const MonacoWebpackPlugin require(monaco-editor-webpack-plugin)module.export {...configureWebpack: {name: name,r…

云服务器要选择带宽适合以及公网ip

在选择云服务器时,带宽的选择是一个重要考虑因素。它决定了云服务器在上传和下载数据时的速度。鉴于不同的服务器用途、预期流量和预算决定应该选择带宽。 1. 服务器用途:不同的服务器用途需要不同的带宽。例如,仅作为开发测试环境的服务器可…

数据分析(2)

数据分析(2) 本文介绍pandas的另一种数据类型DataFrame,中文叫数据框 DataFrame 定义: DataFrame是一个二维的矩阵数据表,通过行和列,可以定位一个值。 在某种程度上,可以认为DataFrame是“具有相同ind…

多线程基础

一锁两并三程 锁 synchronized 并发和并行 并发(concurrent):在一台处理器上“同时”处理多个任务,即有多个任务在单个cpu上交替进行,但其实在同一时刻,只有一个任务在执行。 并行(paralle…

单机三pxc节点集群,+docker-haproxy2.0负载均衡实现

一.下载 https://www.haproxy.org/download/2.0/src/haproxy-2.0.5.tar.gz 或者在这里下载(下面需要的各个配置文件都有): https://download.csdn.net/download/cyw8998/89170129 二.编写文件,制作docker镜像 1.Dockerfile&a…

word 第十四课

管理工作表数据 数据排序:Excel可以对整个数据表或选中的单元格区域中的数据按文本、数字或日期和时间等进行升序或降序排列。数据筛选:使用筛选可使数据表中仅显示满足条件的行,不符合条件的行将被隐藏。Excel提供了两种数据筛选方式&#…

单链表的查询

单链表的查询操作是指通过给定的值或位置,找到链表中对应的节点。 首先,要实现单链表的查询操作,需要定义一个链表节点的数据结构,包含一个值域和一个指向下一个节点的指针。 假设链表的节点定义如下: class ListNo…