李宏毅2022《机器学习/深度学习》——学习笔记(5)

news/2024/11/28 23:42:51/

文章目录

  • 优化方法
  • CNN
    • CNN和全连接神经网络的区别
    • 感受野
    • 共享参数
    • CNN和全连接神经网络的总结
    • Pooling
    • CNN流程
  • 自注意力机制
    • 自注意力机制解决的问题
    • 输入是一组向量的例子
    • 输入是一组向量时输出的可能
    • 自注意力机制核心思想
    • 自注意力机制具体细节
    • Self-attention和CNN的关系
  • 参考资料

优化方法

常用的优化方法
在这里插入图片描述

CNN

CNN和全连接神经网络的区别

全连接神经网络的每个神经元和每一个输入都有连接,这样会使训练参数数目很大。
在这里插入图片描述
考虑到图片分类的特性,实际上每一个神经网络只需要和部分输入连接就行。

由于人在识别图片中某个物体其实只是看图片中某些特征,比如看一只鸟,当看到了鸟喙、鸟的眼睛和鸟爪,就能判断这张图片代表的是一只鸟。因此一个神经元只看输入的某一块区域,当发现一些特征时,就可以判断这个物体的类别了。所以不需要每个神经元都去看一张完整的图片。
在这里插入图片描述

感受野

下面就可以做简化
在这里插入图片描述

本来一个神经元会看整个图片,也就是和3宽的输入相连,现在设置一个感受野,让神经元只和这一个感受野中的输入相连。具体来说,如上图所示,把这个感受野中的数据拉直,也就是333个输入,让它们和神经元相连,这样就有27个权重,再加上bias,计算结果送给下一个神经元。

在这里插入图片描述
感受野的设计完全由自己决定,不过要和实际情况和对问题的理解结合。

一种经典的设计方式
在这里插入图片描述

共享参数

同样的pattern可能出现在图片的不同区域
在这里插入图片描述
这些侦测鸟嘴的神经元所做的事情是一样的,只是它们守备的范围不同,那就没有必要每个侦测鸟嘴的地方都放一个神经元,这样可以减少参数。

这样就可以共享参数
在这里插入图片描述
这两个神经元的权重完全是一样的

在这里插入图片描述
一个典型的设计
每个神经元都只有一组参数

在这里插入图片描述

CNN和全连接神经网络的总结

全连接神经网络加上稀疏连接和权值共享就变成了CNN
在这里插入图片描述
在这里插入图片描述

Pooling

在这里插入图片描述

在这里插入图片描述

CNN流程

在这里插入图片描述

自注意力机制

自注意力机制解决的问题

目前我们遇到的问题,输入都是一个向量,输出是一个数值或类别。
但是可能遇到另一种问题,输入是一组长度不确定的向量,这种情况如何处理?
自注意力机制(Slef-attention)就是要解决这个问题。
在这里插入图片描述

输入是一组向量的例子

假如输入是一个句子,每个单词是一个向量,由于句子的长度不固定,所以这组向量的长度也不确定。
在这里插入图片描述

输入是一组向量时输出的可能

输入是一组N个向量时输出的可能有三种

  1. 输出是N个label
  2. 输出是一个label
  3. 输出是N‘个向量
    在这里插入图片描述

自注意力机制核心思想

Self-attention的输入是所有输入向量,输出相同数量的向量,每个向量都考虑了所有输入向量。再经过全连接网络输出。
这样每个全连接网络就不是只考虑一个小的范围,而是考虑了整个句子的信息。
在这里插入图片描述
Self-attention不是只能用一次,而是可以叠加。

在这里插入图片描述

自注意力机制具体细节

b1b^1b1是考虑了a1,a2,a3,a4a^1,a^2,a^3,a^4a1,a2,a3,a4产生的,同理b2,b3,b4b^2, b^3, b^4b2,b3,b4也是。
在这里插入图片描述

b1b^1b1为例,讨论b1b^1b1向量是如何产生的。
在这里插入图片描述
第一步,计算a1a^1a1与其他输入向量的相关性在这里插入图片描述
计算两个向量相关性的具体方式如下
在这里插入图片描述
计算a1a^1a1与其他向量的相关性后,再过一个Soft-max,输出就得到另一排向量。
在这里插入图片描述
a1a^1a1乘上WvW^vWv得到新的向量v1v^1v1,再根据公式
b1=∑ia1,i′vib^1=\sum_ia^{'}_{1,i}v^i b1=ia1,ivi
计算得到b1b^1b1
在这里插入图片描述

Self-attention和CNN的关系

CNN可以看成是简化版的Self-attention
Self-attention是一个复杂化的CNN
Self-attention中CNN的感受野是自己学出来的
在这里插入图片描述

CNN是Self-attention的特例
在这里插入图片描述

参考资料

(强推)李宏毅2021/2022春机器学习课程
p26-p39


http://www.ppmy.cn/news/1982.html

相关文章

java面向对象 继承 多态

目录 继承性(inheritance) 为什么要有继承? 作用: 继承举例 方法的重写 重写举例 四种访问权限修饰符 关键字—super 关键字super举例 调用父类的构造器 调用父类构造器举例 子类对象的实例化过程 多态性 概念 使用 多态性应用举例 虚…

浅谈架构.补缺.V2

源于错题 01 端口服务 20 文件传输协议(数据) 21 文件传输协议(控制)//安全 23 Telnet终端仿真协议 //moba处理 67 DHCP(服务端) 25 SMTP简单邮件发送协议 53 域名服务器(DNS) 80…

【《On Java 8》学习之路——封装】知识点整理分享

文章目录封装package访问权限修饰符接口和实现类访问权限封装总结本文是对《On Java 8》即《Java编程思想》第五版的知识点汇总整理,仅供学习分享。 封装 类库开发者必须同意在修改类库中的一个类时,不会移除已有的方法,因为那样将会破坏客户…

Java常问面试题概要答案

文章目录1.JDK、JRE、JVM的区别2.hashcode()与equals()之间的关系3.String、StringBuffer、StringBuilder的区别4.Java泛型5.ArrayList和LinkedList区别6.ConcurrentHashMap7. B树和B树8.负载均衡常见策略1.JDK、JRE、JVM的区别 JDK:java标准开发包,包含…

Java项目:SSM企业OA管理系统

作者主页:源码空间站2022 简介:Java领域优质创作者、Java项目、学习资料、技术互助 文末获取源码 项目介绍 本项目包含管理员与普通员工两种角色, 管理员角色包含以下功能: 岗位管理,部门管理,工龄奖金管理,员工管理,考勤管理,…

电池供电遥测终端RTU 遥测终端机 低功耗遥测采集终端 智能远传 防水IP68

平升电子电池供电遥测终端RTU/遥测终端机/低功耗遥测采集终端是基于4G、5G、NB-IoT网络实现数据采集、远程传输、分析计算、越限报警的智能设备,具有功耗低、IP68防水等特点。特别适合用在无供电条件、防水防尘要求高的监测现场。 随着通信网络更迭、产品持续改进&…

Flink系列之Flink中RestartStrategy重启策略和FailoverStrategy故障转移策略

title: Flink系列 八、Flink RestartStrategy 重启策略 和 FailoverStrategy 故障转移策略 官网链接: 重启策略链接: https://nightlies.apache.org/flink/flink-docs-release-1.14/docs/ops/state/task_failure_recovery/#restart-strategies 故障转…

Cisco ASA应用——NAT的类型

作者简介:一名在校云计算网络运维学生、每天分享网络运维的学习经验、和学习笔记。 座右铭:低头赶路,敬事如仪 个人主页:网络豆的主页​​​​​​ 目录 前言 一.NAT的类型 1.动态NAT 2.静态NAT 3.静态PAT 4.动态PAT 前言…