深度学习 | 表示学习 | 卷积神经网络 | Batch Normalization 在 CNN 中的示例 | 20

server/2025/2/7 2:38:03/

如是我闻: 让我们来用一个具体的例子说明 Batch Normalization 在 CNN 里的计算过程,特别是如何对每个通道(channel)进行归一化

在这里插入图片描述


1. 假设我们有一个 CNN 层的输出

假设某个 CNN 层的输出是一个 4D 张量,形状为:
X = ( m , C , H , W ) X = (m, C, H, W) X=(m,C,H,W)
其中:

  • m = 2 m = 2 m=2(batch 大小 = 2,即有 2 张图片)
  • C = 3 C = 3 C=3(通道数 = 3,比如 RGB 三个通道)
  • H = 2 , W = 2 H = 2, W = 2 H=2,W=2(特征图大小是 2 × 2 2 \times 2 2×2

现在,我们假设输入数据如下(仅展示一个通道的数据):

X = [ 样本 1: [ [ 1 , 2 ] [ 3 , 4 ] [ 5 , 6 ] [ 7 , 8 ] ] 样本 2: [ [ 2 , 3 ] [ 4 , 5 ] [ 6 , 7 ] [ 8 , 9 ] ] ] X = \begin{bmatrix} \text{样本 1:} & \begin{bmatrix} [1, 2] & [3, 4] \\ [5, 6] & [7, 8] \end{bmatrix} \\ \text{样本 2:} & \begin{bmatrix} [2, 3] & [4, 5] \\ [6, 7] & [8, 9] \end{bmatrix} \end{bmatrix} X= 样本 1:样本 2:[[1,2][5,6][3,4][7,8]][[2,3][6,7][4,5][8,9]]

这个数据表示的是 一个 batch(2 张图片),每张图片有一个 2 × 2 2 \times 2 2×2 特征图


2. 计算均值和方差

(1) 计算均值

我们需要对所有样本的这个通道进行归一化,所以我们计算该通道在所有样本上的均值:

μ B = 1 m × H × W ∑ i = 1 m ∑ j = 1 H ∑ k = 1 W x i , j , k \mu_B = \frac{1}{m \times H \times W} \sum_{i=1}^{m} \sum_{j=1}^{H} \sum_{k=1}^{W} x_{i, j, k} μB=m×H×W1i=1mj=1Hk=1Wxi,j,k

代入数据:
μ B = 1 2 × 2 × 2 ( 1 + 2 + 3 + 4 + 5 + 6 + 7 + 8 + 2 + 3 + 4 + 5 + 6 + 7 + 8 + 9 ) \mu_B = \frac{1}{2 \times 2 \times 2} (1+2+3+4+5+6+7+8 + 2+3+4+5+6+7+8+9) μB=2×2×21(1+2+3+4+5+6+7+8+2+3+4+5+6+7+8+9)
= 76 8 = 9.5 = \frac{76}{8} = 9.5 =876=9.5

(2) 计算方差

方差的计算公式:
σ B 2 = 1 m × H × W ∑ i = 1 m ∑ j = 1 H ∑ k = 1 W ( x i , j , k − μ B ) 2 \sigma_B^2 = \frac{1}{m \times H \times W} \sum_{i=1}^{m} \sum_{j=1}^{H} \sum_{k=1}^{W} (x_{i, j, k} - \mu_B)^2 σB2=m×H×W1i=1mj=1Hk=1W(xi,j,kμB)2

代入计算:
σ B 2 = 1 8 ( ( 1 − 4.75 ) 2 + ( 2 − 4.75 ) 2 + ( 3 − 4.75 ) 2 + ( 4 − 4.75 ) 2 + ⋯ + ( 9 − 4.75 ) 2 ) \sigma_B^2 = \frac{1}{8} \left( (1-4.75)^2 + (2-4.75)^2 + (3-4.75)^2 + (4-4.75)^2 + \dots + (9-4.75)^2 \right) σB2=81((14.75)2+(24.75)2+(34.75)2+(44.75)2++(94.75)2)

= 1 8 ( 14.06 + 7.56 + 3.06 + 0.56 + 0.56 + 3.06 + 7.56 + 14.06 ) = \frac{1}{8} \left( 14.06 + 7.56 + 3.06 + 0.56 + 0.56 + 3.06 + 7.56 + 14.06 \right) =81(14.06+7.56+3.06+0.56+0.56+3.06+7.56+14.06)

= 50.44 8 = 6.305 = \frac{50.44}{8} = 6.305 =850.44=6.305


3. 归一化数据

标准化公式:
x ^ i , j , k = x i , j , k − μ B σ B 2 + ϵ \hat{x}_{i,j,k} = \frac{x_{i,j,k} - \mu_B}{\sqrt{\sigma_B^2 + \epsilon}} x^i,j,k=σB2+ϵ xi,j,kμB

假设 ϵ = 1 0 − 5 \epsilon = 10^{-5} ϵ=105很小,可以忽略不计,那么:
x ^ i , j , k = x i , j , k − 4.75 6.305 \hat{x}_{i,j,k} = \frac{x_{i,j,k} - 4.75}{\sqrt{6.305}} x^i,j,k=6.305 xi,j,k4.75

计算部分归一化的值(只展示部分):
x ^ 1 , 1 , 1 = 1 − 4.75 6.305 ≈ − 3.75 2.51 ≈ − 1.49 \hat{x}_{1,1,1} = \frac{1 - 4.75}{\sqrt{6.305}} \approx \frac{-3.75}{2.51} \approx -1.49 x^1,1,1=6.305 14.752.513.751.49
x ^ 1 , 1 , 2 = 2 − 4.75 2.51 ≈ − 1.10 \hat{x}_{1,1,2} = \frac{2 - 4.75}{2.51} \approx -1.10 x^1,1,2=2.5124.751.10
x ^ 2 , 2 , 2 = 9 − 4.75 2.51 ≈ 1.70 \hat{x}_{2,2,2} = \frac{9 - 4.75}{2.51} \approx 1.70 x^2,2,2=2.5194.751.70

经过这个过程,所有特征都会变成均值 0,方差 1


4. 通过可学习参数进行缩放和平移

为了让网络有更强的表达能力,BN 引入了两个可学习参数:
y i , j , k = γ x ^ i , j , k + β y_{i,j,k} = \gamma \hat{x}_{i,j,k} + \beta yi,j,k=γx^i,j,k+β

  • γ \gamma γ 控制缩放(scale)。
  • β \beta β 控制偏移(shift)。

如果 γ = 2 , β = 0.5 \gamma = 2, \beta = 0.5 γ=2,β=0.5,那么:
y 1 , 1 , 1 = 2 × ( − 1.49 ) + 0.5 = − 2.48 y_{1,1,1} = 2 \times (-1.49) + 0.5 = -2.48 y1,1,1=2×(1.49)+0.5=2.48
y 1 , 1 , 2 = 2 × ( − 1.10 ) + 0.5 = − 1.70 y_{1,1,2} = 2 \times (-1.10) + 0.5 = -1.70 y1,1,2=2×(1.10)+0.5=1.70
y 2 , 2 , 2 = 2 × ( 1.70 ) + 0.5 = 3.90 y_{2,2,2} = 2 \times (1.70) + 0.5 = 3.90 y2,2,2=2×(1.70)+0.5=3.90


5. 结果解释

(1) 归一化后,所有数据均值接近 0,方差接近 1

  • 这样可以稳定训练过程,防止梯度消失或梯度爆炸。

(2) 通过 γ \gamma γ β \beta β 让网络恢复部分信息

  • 这样可以确保 BN 不会限制网络的表达能力,同时还能优化训练。

6. 总的来说

  1. Batch Normalization 在 CNN 里是对每个通道单独归一化,而不是整个输入张量归一化
  2. 计算过程
    • 计算当前 batch 每个通道的均值和方差
    • 对该通道的所有数据进行归一化,使其均值为 0,方差为 1
    • 通过可学习参数 γ \gamma γ β \beta β 进行缩放和平移,使得网络仍然能够学习适应的特征分布。
  3. 最终作用
    • 减少 Internal Covariate Shift(内部协变量偏移)
    • 加速收敛,提高稳定性
    • 降低对超参数(如学习率、初始化)的依赖

以上


http://www.ppmy.cn/server/165567.html

相关文章

Spring Boot统一异常拦截实践指南

Spring Boot统一异常拦截实践指南 一、为什么需要统一异常处理 在Web应用开发中,异常处理是保证系统健壮性和用户体验的重要环节。传统开发模式中常见的痛点包括: 异常处理逻辑分散在各个Controller中错误响应格式不统一敏感异常信息直接暴露给客户端…

Selenium 浏览器操作与使用技巧——详细解析(Java版)

目录 一、浏览器及窗口操作 二、键盘与鼠标操作 三、勾选复选框 四、多层框架/窗口定位 五、操作下拉框 六、上传文件操作 七、处理弹窗与 alert 八、处理动态元素 九、使用 Selenium 进行网站监控 前言 Selenium 是一款非常强大的 Web 自动化测试工具,能够…

SpringBoot使用 easy-captcha 实现验证码登录功能

文章目录 一、 环境准备1. 解决思路2. 接口文档3. redis下载 二、后端实现1. 引入依赖2. 添加配置3. 后端代码实现4. 前端代码实现 在前后端分离的项目中,登录功能是必不可少的。为了提高安全性,通常会加入验证码验证。 easy-captcha 是一个简单易用的验…

Java小白入门教程:LinkedList

目录 一、定义 二、作用 1、存储数据 2、动态扩容 3、提供方便的操作方法 三、使用场景 1.当你需要频繁地在列表的开头或结尾添加或删除元素时。 2.当你不需要按索引快速访问元素时,因为LinkedList访问元素需要从头开始遍历 3.当你不需要线程安全的数据结构…

Flink2支持提交StreamGraph到Flink集群

最近研究Flink源码的时候,发现Flink已经支持提交StreamGraph到集群了,替换掉了原来的提交JobGraph。 新增ExecutionPlan接口,将JobGraph和StreamGraph作为实现。 Flink集群Dispatcher也进行了修改,从JobGraph改成了接口Executio…

arm 下 多线程访问同一变量 ,使用原子操作 性能差问题

arm下原子操作性能差的原因 Linux Kernel(armv8-aarch64) 的原子操作的底层实现 - 极术社区 - 连接开发者与智能计算生态 arm 下如何解决 ARMs LSE (for atomics) and MySQL – MySQL On ARM – All you need to know about MySQL (and its variants) on ARM. arm 下lse 和…

导入了fastjson2的依赖,但却无法使用相关API的解决方案

今天遇到了一个特别奇怪的问题&#xff0c;跟着视频敲代码&#xff0c;视频中用到了一个将JSON字符串转为对象的 API&#xff0c;需要引入alibaba的fastjson2相关依赖&#xff0c;我引入的依赖跟视频一样。 <!--视频中给的相关依赖 --> <dependency><groupId&g…

(一)DeepSeek大模型安装部署-Ollama安装

大模型deepseek安装部署 (一)、安装ollama curl -fsSL https://ollama.com/install.sh | sh sudo systemctl start ollama sudo systemctl enable ollama sudo systemctl status ollama(二)、安装ollama遇到网络问题&#xff0c;请手动下载 ollama-linux-amd64.tgz curl -L …