大模型基础之神经网络

news/2024/11/9 3:23:10/

【神经网络的构成】

神经元 激活函数 层

feedforward computation前向计算:从输入开始依次计算每一层的结果。

隐层:在输入之上添加的多层通常被称为隐层。

激活函数:非线性的激活函数,拟合非线性关系,进行非线性变换。

叠加若干隐层,提升网络的表达能力。

输出层:来得到结果。线性输出层,用来解决回归问题。sigmoid输出层,将结果压到0-1之内,用来解决二分类问题。softmax输出层,用来解决多分类问题。

【如何训练】

目标:均方差越小,模型越好。Mean Squared Error。每个预测值和真实值差的平方和再求平均。将均方差定义为损失函数,也就是所谓的loss。训练的目标就是去减小这个损失函数的值。

如果是分类任务呢,目标就是最小化交叉熵Cross-entropy.

如何使损失函数最小化,采用梯度下降法,把整个优化过程拆分成一个个步骤,每一步,缩小损失函数一点点。如何调整参数,才能使损失函数逐步变小呢。这需要去求损失函数对于模型参数的梯度,梯度代表了对这个参数进行单位大小的改动,然后损失函数它变化最快的方向。我们就顺着这个方向去对模型参数做一个小的改动,就可以降低一点点损失函数。因为我们目标是使损失函数最小,所以我们要做沿着梯度的反方向去改动/走一小步。

改动/步幅的大小取决于“学习率”。

反向传播:把上游神经元层的梯度,传递到下游神经元层的梯度,从上游到下游逐层计算每层参数要进行的小变动。

随机梯度下降:以上计算梯度下降时用的是全部样本,也就是批量梯度下降法(full batch一个批次中使用全部样本),计算量大。随机梯度下降法,在使用下降法更新参数时每次只根据随机抽取一个样本进行计算,batch size=1,计算加速。mini-batch梯度下降:batch size大于1小于全部样本数,mini-batch是批量梯度下降法和随机梯度下降法的折中。

在深度学习中,用的比较多的是mini-batch梯度下降。

以下是特色神经网络介绍

【Word2Vec】词的低维度表示

有两种机制生成词的分布表示:CBOW和skip-gram

CBOW使用上下文的词同时去预测当前的词,skip-gram是用当前的词依次去预测上下文出现的词。

如果要计算所有的词,势必计算量巨大。所以,有以下提升计算效率的办法:

负采样、分层softmax、去高频词、滑动窗口有小到大(距离近的上下文影响更大)。

【RNNs】循环神经网络

顺序记忆,一个使大脑更容易识别序列模式的机制。

RNNs利用这个机制来递归地更新序列记忆,从而对序列数据进行一个很好的建模。

RNNs每个单元在计算当前隐藏层状态时,都会引用上一个时间片段/序列中上一个词的隐藏层状态。

应用:序列标注/词性标注、序列预测(例如温度曲线预测)、图片描述、文本分类(情感分析)

优势:可处理边长数据、模型大小和输入长度无关、每一步的计算会用到前面的信息。

劣势:每一步依赖前一步计算,计算变慢;后面单元,很难用到很早之前的信息,梯度消失或膨胀。

为了解决劣势,引入如下RNN变体。

【GRU】门控控制单元

重置门+更新门+新的激活函数

【LSTM】长短时记忆网络

遗忘门+输入门+输出门

【双向RNN】

一个词的预测/识别也会涉及后面的词的影响

以上循环神经网络擅长处理序列问题

【CNNs】卷积神经网络

最初用于计算机视觉领域,也可以用于NLP领域。

cnn善于提取局部和位置不变的模式,视觉领域:颜色、边角、纹理,NLP领域:短语和一些局部语法结构。

一般通过提取句子里的N元组(相邻的几个词组成的短语)来获取局部模式。

卷积层:通过滑动的卷积核从输入层提取局部特征表示。

池化层:通过对局部特征求最大/平均来获取整体特征。

【深度学习流水线】

准备数据-构建模型和训练目标-训练模型-验证模型-测试模型


http://www.ppmy.cn/news/523267.html

相关文章

windows7+GT740M+cafe 深度学习框架搭建

深度学习框架搭建了一个星期,一直在成功的边缘徘徊,电脑重装了三次,哎.......心痛 win7安装cuda,程序安装失败,在网上查了很多都没有可以参考的资料,抱着试试的态度,在没有卸载cuda的前提下&am…

[mov,mp4,m4a,3gp,3g2,mj2 @ 0000025ce897db40] moov atom not found

问题描述:就是跑yolov7bytetrack的代码,当我读取的视频是1080p以上的(或者不是这个原因),导致报了这个错,然后最坑的是报错之后视频文件也给损坏了,几百兆的视频变成几k,然后也上网找…

在ClearCase创建View时出现740错误时的解决办法

使用update view时报错:exec of clearviewupdate failed with error 740 解决方法:禁用UAC。 禁用的步骤: 操作步骤: 1、首先按下键盘“Win R”打“运行”窗口,然后输入“regedit”并点击确定打开注册表&#…

爱普生Epson PX-M740F 一体机驱动

爱普生Epson PX-M740F 一体机驱动是官方提供的一款一体机驱动,本站收集提供高速下载,用于解决一体机与电脑连接不了,无法正常使用的问题,本动适用于:Windows XP / Windows 7 / Windows 8 / Windows 10 32/64位操作系统…

hybrid7 宝马active_宝马ActiveHybrid 7与740Li

相同排量却带来不一样的驾驶体验 2013款740Li xDrive车型除了新增了xDrive四驱系统之外,还换装了一款代号为“N55”的3.0T发动机,与老款740Li车型曾搭载的N54发动机相比,发动机由原来的双涡轮增压变成现在的单涡轮双涡管增压,同时…

Linux安装nvidia官方闭源驱动

下载 选择跟自己电脑显卡相同的即可。 以我自己的1050ti为例,搜索后点击下载 安装 切换到完全多用户模式init3用户名密码登录进入下载目录 cd 下载更改权限 chmod x NVIDIA-Linux-x86_64-435.21.run安装 sudo ./NVIDIA-Linux-x86_64-435.21.run之后选择ok&#xff0…

ubuntu安装显卡驱动的三种方法

一是:系统设置->软件更新->附加驱动->选择nvidia最新驱动(361)->应用更改 简单但是不提倡 二是:先官网下载好对应驱动编译 Nvidia中文官网是 http://www.nvidia.cn/page/home.html 1)打开终端,先删除旧的驱动&#…

ThinkPadE431开启独立显卡功能

原创作品,出自 “深蓝的blog” 博客,欢迎转载,转载时请务必注明以下出处,否则追究版权法律责任。 深蓝的blog:http://blog.csdn.net/huangyanlong/article/details/40457267 电脑型号:Think pad E431 查…