瓦瑟斯坦距离、收缩映射和现代RL理论

news/2025/2/14 5:36:05/

Wasserstein Distance, Contraction Mapping, and Modern RL Theory | by Kowshik chilamkurthy | Medium

一、说明

        数学家们在考虑一些应用的情况下探索的概念和关系 - 几十年后成为他们最初从未想象过的问题的意想不到的解决方案。 黎曼的几何学只是出于纯粹的原因才被发现的——完全没有应用,后来被爱因斯坦用来解释时空结构和广义相对论。

二、RL强化学习概念

        强化学习(RL)中,智能体为顺序决策问题寻求最佳策略。 强化学习的常用方法,它模拟了对这种回报或价值的期望。 但是,在        “分布RL”旗帜下的RL的最新进展侧重于代理收到的随机返回R的分布。 状态操作值可以显式视为随机变量 Z,其期望值为 Q

方程1:普通贝尔曼操作员B

普通贝尔曼算子 (Eq-1) 通过迭代最小化 Q 和 BQ 之间的 L 平方距离(TD 学习),在近似 Q 值方面起着至关重要的作用。

方程2:分布贝尔曼算子ⲧπ

类似地,分布贝尔曼算子 ⲧπ 通过迭代最小化 Z 和 ⲧπ Z 之间的距离来近似 Z 值

Z 和 ⲦπZ 不是向量,而是分布,如何计算 2 个不同概率分布之间的距离? 答案可能很多(KL,DL指标等),但我们对Wasserstein距离特别感兴趣。

三、什么是瓦瑟斯坦距离

        俄罗斯数学家列昂尼德·瓦塞尔施泰恩(Leonid Vaseršteĭn)于1969年提出了这一概念。 瓦瑟斯坦距离是两个概率分布之间距离的度量。 它也被称为推土机距离,EM距离的缩写,因为非正式地,它可以被解释为移动和转换一堆泥土的最小能量成本,以一种概率分布的形状转变为另一种分布的形状。

推土机的距离,图片来源:作者

累积分布函数 F、G 之间的瓦瑟斯坦度量 (dp) 定义为:

方程3:瓦瑟斯坦度量

其中下确界取用所有随机变量对(U,V),具有各自的累积分布F和G.dp(F,G)也写为:

方程4:瓦瑟斯坦度量

让我们先看一个简单的情况:假设我们有两个离散分布 f(x) 和 g(x),定义如下:

f(1) = .1, f(2) = .2, f(3) = .4, f(4) = .3 g(1) = .2, g(2) = .1, g(3) = .2,g
(4) = .5

让我们计算方程 3:δ0 = 0.1–0.2 = -0.1 δ1= 0.2–0.1 = 0.1–2.0 = 4.0 δ2= 0.2–3.0 = 3.0



δ5= 0.2–<>.<> = -<>.<> 中定义的 Wasserstein 度量 (dp

因此 Wasserstein metric (dp =∑|δi|=0.6

四、为什么选择瓦瑟斯坦距离

        与Kullback-Leibler散度不同,Wasserstein度量是一个真实的概率度量,考虑了各种结果事件的概率和距离。与KL-散度等其他距离指标不同,Wasserstein 距离提供了分布之间距离的有意义且平滑的表示。
        这些属性使 Wasserstein 非常适合结果的潜在相似性比完全匹配可能性更重要的域。

Python 生成的示例,图片来源:作者

右图:对于KL散度,红色和蓝色分布之间的测量值相同,而Wasserstein距离测量将概率质量从红色状态传输到蓝色状态所需的功。

左图:瓦瑟斯坦距离确实有问题。只要转移,距离就保持不变,无论转移发生什么方向,概率质量都保持不变。因此,我们没有办法对距离进行推理。

五、ɣ-收缩

        收缩映射在强化学习的经典分析中起着关键的数学作用。让我们首先定义收缩

5.1 收缩映射

        在度量空间的元素上定义的函数(或运算符或映射)是收缩,如果存在一些常量 ɣ,使得对于度量空间 X₁ 和 X₂ 的任何两个元素,以下条件成立:(X, d)

        公式5:收缩映射

        这意味着在元素 X₁ 和 X₂ 上应用映射 f(.) 后,它们彼此之间的距离至少增加了一个因子 ɣ 

5.2 RL 收缩

        证明收缩非常重要,因为它证明了距离度量本身的使用是合理的。分布运算符 ⲧπ 用于估计 Z(x,a),证明 ⲧπ 是 dp 的收缩意味着所有矩也以指数方式快速收敛。

        方程6:ɣ收缩

        收缩表明,将运算符 Ⲧ 应用于 2 个不同的分布会缩短它们之间的距离,因此距离度量的选择非常重要。现在让我们尝试证明“分布算子 ⲧπ” 是 Wasserstein 距离 (dp) 的收缩。

5.3 证明

        Wasserstein度量的3个重要性质有助于我们证明收缩。

六、结论

        在这篇博客中,我们定义了瓦瑟斯坦距离,讨论了它的优缺点。 我们通过证明它的收缩来证明它在分布贝尔曼算子中作为距离度量的使用是合理的。 但这只是开始的结束,Wasserstein距离在计算随机梯度时提出了挑战,这使得它在使用函数近似时无效。 在我的下一篇博客中,我将讨论如何使用分位数回归来近似 Wasserstein 度量。

七、引用

  1. distributions - What is the advantages of Wasserstein metric compared to Kullback-Leibler divergence? - Cross Validated
  2. https://runzhe-yang.science/2017-10-04-contraction/#contraction-property

3. 强化学习的分布视角


http://www.ppmy.cn/news/991943.html

相关文章

Qt6 Qt Quick UI原型学习QML第七篇

文章目录 效果演示QML语法 ClickableImageV2.qmlQML语法 EasingCurves.qml时钟小球滚动QML 源码## 时钟小球滚动QML解释 语法解释参考动画片动画元素应用动画可点击图像V2上升的物体第一个对象第二个对象第三个对象缓和曲线分组动画并行动画连续动画嵌套动画 效果演示 QML语法 …

Unity Addressable

Unity重要目录 工程中的几个重要目录 Assets存放资源、代码、配置Library大部分的资源导入到Assets目录之后&#xff0c;会转化成Unity认可的文件&#xff0c;转化后的文件会存储在这个目录Logs日志文件Packages第三方插件ProjectSettings存放各种项目设定UserSettings用户偏好…

【案例】--GPT衍生应用案例

目录 一、前言二、GPT实现智能问答架构2.1、基本的GPT实现智能问答架构2.2、可应用的GPT实现智能问答架构1、语义转换2、相似度关键字矩阵3、ES中搜索相似度关键字矩阵三、后续一、前言 GPT,全称Generative Pre-trained Transformer ,中文名可译作生成式预训练Transformer。…

71. ElasticSearch 5.0.0 安装部署常见错误或问题

文章目录 ElasticSearch 5.0.0 安装部署常见错误或问题问题一&#xff1a;UnsupportedOperationException问题二&#xff1a;ERROR: bootstrap checks failed问题三&#xff1a;max number of threads [1024] for user [es] likely too low, increase to at least [2048]问题四…

【HarmonyOS】API6使用storage实现轻量级数据存储

写在前面 本篇内容基于API6 JS语言进行开发&#xff0c;通过结合轻量级数据存储开发指导的文档&#xff0c;帮助大家完成一个实际的代码案例&#xff0c;通过这个小案例&#xff0c;可以实现简单数据的存储。 参考文档&#xff1a;文档中心 1、页面布局 首先我们编写一个简单…

(202307)wonderful-sql:复杂一点的查询(task3)

教程链接&#xff1a;Datawhale - 一个热爱学习的社区 知识学习 1 视图 视图是一张虚拟的表。《sql基础教程第2版》用一句话非常凝练的概括了视图与表的区别---“是否保存了实际的数据”。 通过定义视图可以将频繁使用的SELECT语句保存以提高效率。通过定义视图可以使用户看…

基于形态学的方法来实现指纹细节的快速细化算法:Python实现及优化策略

尊敬的读者们,大家好,我在这篇文章中将会和大家分享我所探索的一种用于确定指纹细节的快速细化算法。我相信这将对有相同需求的人带来一些启示,同时,我也希望听取大家对我的方法的反馈和建议,帮助我持续改进和优化这个算法。 一、背景与动机 在数字图像处理领域,特别是…

《MySQL 实战 45 讲》课程学习笔记(二)

日志系统&#xff1a;一条 SQL 更新语句是如何执行的&#xff1f; 与查询流程不一样的是&#xff0c;更新流程还涉及两个重要的日志模块&#xff1a;redo log&#xff08;重做日志&#xff09;和 binlog&#xff08;归档日志&#xff09;。 重要的日志模块&#xff1a;redo l…