基于“蘑菇书”的强化学习知识点(五):条件期望

news/2025/2/5 21:44:17/

条件期望

    • 摘要
    • 一、条件期望的定义
    • 二、条件期望的关键性质
    • 三、条件期望的直观理解
    • 四、条件期望的应用场景
    • 五、简单例子
      • 离散情况
      • 连续情况

摘要

本系列知识点讲解基于蘑菇书EasyRL中的内容进行详细的疑难点分析!具体内容请阅读蘑菇书EasyRL!


对应蘑菇书EasyRL——2.2.2 贝尔曼方程


条件期望 是概率论中的一个核心概念,表示在给定某个条件的情况下,随机变量的期望值。条件期望不仅是一个数值,还可能是另一个随机变量。下面是条件期望的定义和具体解释。


一、条件期望的定义

对于两个随机变量 X X X Y Y Y

  1. 离散情况:
    如果 X X X Y Y Y 是离散随机变量,则 X X X 在给定 Y = y Y=y Y=y 的条件下的条件期望定义为:
    E [ X ∣ Y = y ] = ∑ x x ⋅ P ( X = x ∣ Y = y ) . \mathbb{E}[X \mid Y=y] = \sum_x x \cdot P(X=x \mid Y=y). E[XY=y]=xxP(X=xY=y).

    • P ( X = x ∣ Y = y ) P(X=x \mid Y=y) P(X=xY=y) 是条件概率,表示在 Y = y Y=y Y=y 的情况下, X = x X=x X=x 的概率。
    • E [ X ∣ Y = y ] \mathbb{E}[X \mid Y=y] E[XY=y] 是一个数,表示在 Y = y Y=y Y=y 时,随机变量 X X X 的期望值。
  2. 连续情况:
    如果 X X X Y Y Y 是连续随机变量,则 X X X 在给定 Y = y Y=y Y=y 的条件下的条件期望定义为:
    E [ X ∣ Y = y ] = ∫ − ∞ + ∞ x ⋅ f X ∣ Y ( x ∣ y ) d x , \mathbb{E}[X \mid Y=y] = \int_{-\infty}^{+\infty} x \cdot f_{X \mid Y}(x \mid y) \, dx, E[XY=y]=+xfXY(xy)dx,

    • f X ∣ Y ( x ∣ y ) f_{X \mid Y}(x \mid y) fXY(xy) 是条件概率密度函数。
    • 该积分表示在 Y = y Y=y Y=y 的条件下,随机变量 X X X 的加权平均值。
  3. 随机变量形式:
    Y Y Y 不是固定值,而是一个随机变量时,条件期望 E [ X ∣ Y ] \mathbb{E}[X \mid Y] E[XY] 被看作是一个关于 Y Y Y 的新随机变量,其值依赖于 Y Y Y

    直观来说, E [ X ∣ Y ] \mathbb{E}[X \mid Y] E[XY] 表示在已知 Y Y Y 的情况下, X X X 的期望值。它是一个函数:
    E [ X ∣ Y ] = g ( Y ) , \mathbb{E}[X \mid Y] = g(Y), E[XY]=g(Y),
    其中 (g(Y)) 是某个由 (Y) 确定的函数。


二、条件期望的关键性质

  1. 期望的分解(全期望公式):
    E [ X ] = E [ E [ X ∣ Y ] ] . \mathbb{E}[X] = \mathbb{E}[\mathbb{E}[X \mid Y]]. E[X]=E[E[XY]].
    这是条件期望最重要的性质,表明我们可以通过先计算条件期望,再对条件变量 Y Y Y 求期望,得到整体期望。

  2. 线性性:
    条件期望是线性的:
    E [ a X + b Y ∣ Z ] = a E [ X ∣ Z ] + b E [ Y ∣ Z ] , \mathbb{E}[aX + bY \mid Z] = a \mathbb{E}[X \mid Z] + b \mathbb{E}[Y \mid Z], E[aX+bYZ]=aE[XZ]+bE[YZ],
    其中 a a a b b b 是常数。

  3. 塔式性质(Law of Iterated Expectations):
    如果 X X X Y Y Y Z Z Z 是随机变量,且 Z Z Z 包含的条件比 Y Y Y 多,那么:
    E [ E [ X ∣ Y ] ∣ Z ] = E [ X ∣ Z ] . \mathbb{E}[\mathbb{E}[X \mid Y] \mid Z] = \mathbb{E}[X \mid Z]. E[E[XY]Z]=E[XZ].

  4. 条件期望约简:
    如果 X X X Y Y Y 条件独立于 Z Z Z,则:
    E [ X ∣ Y , Z ] = E [ X ∣ Y ] . \mathbb{E}[X \mid Y, Z] = \mathbb{E}[X \mid Y]. E[XY,Z]=E[XY].


三、条件期望的直观理解

条件期望可以理解为在给定条件(如随机变量 Y = y Y=y Y=y)下,随机变量 X X X 的“平均值”。

  • 假设你有一个测量身高 X X X 和年龄 Y Y Y 的数据集。你想知道“给定某个年龄 Y = y Y=y Y=y,对应的平均身高是多少”。这个问题的答案就是条件期望 E [ X ∣ Y = y ] \mathbb{E}[X \mid Y=y] E[XY=y]

  • 如果 Y Y Y 是随机变量而不是固定值,比如不同年龄的分布未知,那么条件期望 E [ X ∣ Y ] \mathbb{E}[X \mid Y] E[XY] 是一个关于 Y Y Y 的函数,用于描述不同年龄对应的平均身高。


四、条件期望的应用场景

  1. 强化学习
    强化学习中,条件期望用于计算值函数(Value Function)和 Q 函数。例如,状态值函数 V ( s ) V(s) V(s) 是一个条件期望:
    V ( s ) = E [ R t + γ V ( S t + 1 ) ∣ S t = s ] . V(s) = \mathbb{E}[R_t + \gamma V(S_{t+1}) \mid S_t=s]. V(s)=E[Rt+γV(St+1)St=s].

  2. 保险精算:
    条件期望被用于计算在给定信息下的风险和保费。例如,给定过去的索赔记录,计算未来可能的平均赔偿额。

  3. 金融:
    在期权定价和投资组合分析中,条件期望用于分析在给定市场条件下资产的期望收益。


五、简单例子

离散情况

假设 X X X 表示某人某天吃的苹果数, Y Y Y 表示当天的天气。我们有以下概率分布:

  • P ( Y = 晴天 ) = 0.6 P(Y=\text{晴天}) = 0.6 P(Y=晴天)=0.6 P ( Y = 雨天 ) = 0.4 P(Y=\text{雨天}) = 0.4 P(Y=雨天)=0.4
  • 如果是晴天, P ( X = 1 ∣ Y = 晴天 ) = 0.3 P(X=1 \mid Y=\text{晴天}) = 0.3 P(X=1Y=晴天)=0.3 P ( X = 2 ∣ Y = 晴天 ) = 0.7 P(X=2 \mid Y=\text{晴天}) = 0.7 P(X=2Y=晴天)=0.7
  • 如果是雨天, P ( X = 1 ∣ Y = 雨天 ) = 0.8 P(X=1 \mid Y=\text{雨天}) = 0.8 P(X=1Y=雨天)=0.8 P ( X = 2 ∣ Y = 雨天 ) = 0.2 P(X=2 \mid Y=\text{雨天}) = 0.2 P(X=2Y=雨天)=0.2

求条件期望 E [ X ∣ Y = 晴天 ] \mathbb{E}[X \mid Y=\text{晴天}] E[XY=晴天] E [ X ∣ Y = 雨天 ] \mathbb{E}[X \mid Y=\text{雨天}] E[XY=雨天]

解:
E [ X ∣ Y = 晴天 ] = 1 ⋅ 0.3 + 2 ⋅ 0.7 = 0.3 + 1.4 = 1.7. \mathbb{E}[X \mid Y=\text{晴天}] = 1 \cdot 0.3 + 2 \cdot 0.7 = 0.3 + 1.4 = 1.7. E[XY=晴天]=10.3+20.7=0.3+1.4=1.7.
E [ X ∣ Y = 雨天 ] = 1 ⋅ 0.8 + 2 ⋅ 0.2 = 0.8 + 0.4 = 1.2. \mathbb{E}[X \mid Y=\text{雨天}] = 1 \cdot 0.8 + 2 \cdot 0.2 = 0.8 + 0.4 = 1.2. E[XY=雨天]=10.8+20.2=0.8+0.4=1.2.

连续情况

假设 X X X 表示一个股票的价格变化, Y Y Y 表示市场波动程度。已知:

  • f X ∣ Y ( x ∣ y ) = y ⋅ e − y x f_{X \mid Y}(x \mid y) = y \cdot e^{-yx} fXY(xy)=yeyx(指数分布, x ≥ 0 x \geq 0 x0)。
  • 给定 Y = y Y=y Y=y,随机变量 X X X 的条件期望为:
    E [ X ∣ Y = y ] = ∫ 0 ∞ x ⋅ y ⋅ e − y x d x . \mathbb{E}[X \mid Y=y] = \int_0^\infty x \cdot y \cdot e^{-yx} \, dx. E[XY=y]=0xyeyxdx.

计算:
使用分部积分:
E [ X ∣ Y = y ] = 1 y . \mathbb{E}[X \mid Y=y] = \frac{1}{y}. E[XY=y]=y1.

这表明 X X X 的条件期望依赖于市场波动 Y Y Y 的大小。


http://www.ppmy.cn/news/1569613.html

相关文章

Linux_线程同步生产者消费者模型

同步的相关概念 同步:在保证数据安全的前提下,让线程能够按照某种特定的顺序访问临界资源,从而有效避免饥饿问题,叫做同步竞态条件:因为时序问题,而导致程序异常,我们称之为竞态条件。 同步的…

CentOs9新手教程

CentOS 9是基于RHEL的CentOS Stream版本,主要用于开发和测试环境,不适合作为生产环境的稳定系统。它提供了最新的软件和功能,但可能存在不稳定性和兼容性问题。如果你需要一个稳定的生产环境,建议使用CentOS Linux版本。 安装环境…

4 前端前置技术(中):node.js环境

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言 前言

使用PaddlePaddle实现逻辑回归:从训练到模型保存与加载

1. 引入必要的库 首先,需要引入必要的库。PaddlePaddle用于构建和训练模型,pandas和numpy用于数据处理,matplotlib用于结果的可视化。 import paddle import pandas as pd import numpy as np import matplotlib.pyplot as plt 2. 加载自定…

C语言内存之旅:从静态到动态的跨越

大家好,这里是小编的博客频道 小编的博客:就爱学编程 很高兴在CSDN这个大家庭与大家相识,希望能在这里与大家共同进步,共同收获更好的自己!!! 本文目录 引言正文一 动态内存管理的必要性二 动态…

《手札·开源篇》从开源到商业化:中小企业的低成本数字化转型路径 ——SKF轴承贸易商的十年信息化演进启示

一、战略驱动的数字化演进逻辑 在轴承行业利润持续走低的背景下,我们选择了一条"开源筑基-场景突破-数据驱动"的演进路径。从2013年金蝶EAS的基础供应链管理,到2023年实现车间设备全要素数字化,系统建设始终遵循"业务场景驱动…

ASP.NET Core Filter

目录 什么是Filter? Exception Filter 实现 注意 ActionFilter 注意 案例:自动启用事务的筛选器 事务的使用 TransactionScopeFilter的使用 什么是Filter? 切面编程机制,在ASP.NET Core特定的位置执行我们自定义的代码。…

pytorch基于 Transformer 预训练模型的方法实现词嵌入(tiansz/bert-base-chinese)

以下是一个完整的词嵌入(Word Embedding)示例代码,使用 modelscope 下载 tiansz/bert-base-chinese 模型,并通过 transformers 加载模型,获取中文句子的词嵌入。 from modelscope.hub.snapshot_download import snaps…