RL - 强化学习 上置信界算法 (UCB) 和 汤普森采样算法 (TS)

news/2025/3/19 20:53:17/

欢迎关注我的CSDN:https://spike.blog.csdn.net/
本文地址:https://blog.csdn.net/caroline_wendy/article/details/130983835

TS

上置信界算法和汤普森采样算法是两种解决多臂老虎机问题的经典方法。多臂老虎机问题是一种探索与利用的平衡问题,即在有限的尝试次数内,如何选择最优的动作(拉动哪根拉杆)来最大化累积奖励。上置信界算法是一种基于置信区间的方法,根据每个动作的期望奖励和不确定性来计算一个上界,然后选择上界最大的动作。汤普森采样算法是一种基于贝叶斯推断的方法,根据每个动作的先验分布和观测数据来更新后验分布,然后,从后验分布中采样一个参数,再根据该参数选择最优的动作。这两种方法都能有效地平衡探索与利用,从而达到较低的累积懊悔。

1. 上置信界算法 (Upper Confidence Bound)

在强化学习的任务重,一个行动的不确定性越大,就越具有探索的价值,探索之后,可能发现的期望奖励很大。上置信界(UCB,Upper Confidence Bound)算法是基于不确定性的策略算法,使用 霍夫丁不等式(Hoeffding’s inequality)。核心思想就是,在已有的期望中,加入不确定性度量 U ^ ( a t ) \hat{U}(a_{t}) U^(at) ,根据霍夫丁不等式(Hoeffding’s inequality),设置较小概率p,用于超过期望的上界,一般p是随着时间逐渐减少的,可以设置为 p = 1 t p=\frac{1}{t} p=t1,因此:

p = e − 2 N ( a t ) U ^ ( a t ) 2 U ^ ( a t ) = − log ⁡ p 2 ( N ( a t ) ) p = e^{-2N(a_{t})\hat{U}(a_{t})^{2}} \\ \hat{U}(a_{t})=\sqrt{\frac{-\log{p}}{2(N(a_{t}))}} p=e2N(at)U^(at)2U^(at)=2(N(at))logp

p p p 是最贱减少的概率, N ( a t ) N(a_{t}) N(at) 是选择的次数, U ( a t ) U(a_{t}) U(at) 是不确定性度量。起始选择次数是0,避免除数为0,额外加1,同时代入 p = 1 t p=\frac{1}{t} p=t1

U ^ ( a t ) = log ⁡ t 2 ( N ( a t ) ) + 1 \\ \hat{U}(a_{t})=\sqrt{\frac{\log{t}}{2(N(a_{t}))+1}} U^(at)=2(N(at))+1logt

则最终的选择策略,由基于期望 Q ^ ( a ) \hat{Q}(a) Q^(a),转换为基于UCB, c c c 是系数,用于控制不确定性度量的占比,可以设置为1,即:

a t = arg ⁡ m a x a ∈ A [ Q ^ ( a ) ] a t = arg ⁡ m a x a ∈ A [ Q ^ ( a ) + c ⋅ U ^ ( a t ) ] a_{t} = \arg{max}_{a\in{A}}[\hat{Q}(a)] \\ a_{t} = \arg{max}_{a\in{A}}[\hat{Q}(a) + c·\hat{U}(a_{t})] at=argmaxaA[Q^(a)]at=argmaxaA[Q^(a)+cU^(at)]

源码如下:

class UCB(Solver):"""UCB 算法,继承 Solver 类"""def __init__(self, bandit, coef, init_prob=1.0):super(UCB, self).__init__(bandit)self.total_count = 0self.estimates = np.array([init_prob] * self.bandit.K)self.coef = coefdef run_one_step(self):self.total_count += 1ucb = self.estimates + self.coef * np.sqrt(np.log(self.total_count) / (2 * (self.counts + 1)))k = np.argmax(ucb)r = self.bandit.step(k)self.estimates[k] += 1. / (self.counts[k] + 1) * (r - self.estimates[k])return k

2. 汤普森采样算法 (Thompson Sampling)

汤普森采样是计算所有拉杆的最高奖励概率的蒙特卡洛采样方法,主要基于Beta分布,不同的期望值,有着不同的采样概率,通过不断修正期望范围,随机采样概率。

源码如下:

class ThompsonSampling(Solver):def __init__(self, bandit):super(ThompsonSampling, self).__init__(bandit)self._a = np.ones(self.bandit.K)self._b = np.ones(self.bandit.K)def run_one_step(self):samples = np.random.beta(self._a, self._b)k = np.argmax(samples)r = self.bandit.step(k)self._a[k] += rself._b[k] += 1 - rreturn k

Beta 分布:

Beta 分布是一种定义在 (0,1) 区间的连续概率分布,有两个形状参数 α 和 β,可以用来描述伯努利试验的成功概率的不确定性。Beta分布的概率密度函数为:
f ( x ; α , β ) = 1 B ( α , β ) x α − 1 ( 1 − x ) β − 1 f(x;α,β) = \frac{1}{B(α,β)}x^{α-1}(1-x)^{β-1} f(x;α,β)=B(α,β)1xα1(1x)β1 其中,B(α,β)是Beta函数。与Gamma函数有如下关系: B ( α , β ) = Γ ( α ) Γ ( β ) Γ ( α + β ) B(α,β) = \frac{\Gamma(α)\Gamma(β)}{\Gamma(α+β)} B(α,β)=Γ(α+β)Γ(α)Γ(β) Beta分布的期望和方差分别为:
E ( X ) = α α + β V a r ( X ) = α β ( α + β ) 2 ( α + β + 1 ) E(X) = \frac{α}{α+β} \\ Var(X) = \frac{αβ}{(α+β)^2(α+β+1)} E(X)=α+βαVar(X)=(α+β)2(α+β+1)αβ Beta分布可以看作是一个概率的概率密度分布,用来建模二项分布和均匀分布之间的关系。


http://www.ppmy.cn/news/139723.html

相关文章

解决sshfs挂载报错

使用ssh命令和sshfs命令报错 read: Connection reset by peer rootjiangcheng01:~/common/remote# sshfs -o allow_other htrdxxx.xxx.xxx.xxx:/home/htrd /root/common/remote/dev01 read: Connection reset by peer 报错问题排查,追加命令 -o debug -o sshf s_d…

特斯拉是什么原因导致的数据泄露被罚247亿元

近日据德国《商报》报道,特斯拉未能充分保护客户、员工和业务合作伙伴的数据而造成泄露。特斯拉可能面临被处以高达其年销售额4%的罚款,即32.6亿欧元(约合人民币247亿元)。 有特斯拉内部人士表示,泄露的数据包含超过1…

python项目之猜数字游戏

猜数字游戏 祝大家儿童节快乐! 今天完成一个简单的猜数字游戏 规则部分: 1、利用0~9之间的数字考虑一个4位数字。同一数字可以多次使用。 2、孩子猜想出一个4位数字告诉家长。 3、家长根据孩子给出的数字计算出Hit分数和Blow分数,并计算结…

Linux教程——Linux和UNIX的关系及区别(详解版)

UNIX 与 Linux 之间的关系是一个很有意思的话题。在目前主流的服务器端操作系统中,UNIX 诞生于 20 世纪 60 年代末,Windows 诞生于 20 世纪 80 年代中期,Linux 诞生于 20 世纪 90 年代初,可以说 UNIX 是操作系统中的"老大哥&…

ipad做扩展屏方法

配置: win10系统电脑联想yoga AMD款(注意注意注意!!!!) 问题描述: 一开始是使用XDisplay去进行扩展,奈何不是闪退就是只能复制主屏幕,不能扩展&#xff01…

i5 13600kf配什么主板 显卡

i5-13600KF采用10工艺 14 核 20 线程,睿频 5.1GHz,三级缓存 24.00 MB基础功耗 125W,最大睿频功耗 181W i5 13600KF组装电脑怎么搭配更合适这些点很重要 http://www.adiannao.cn/du i5-13600KF支持目前支持Z690、Z790系列主板,本…

达人评测 iPad mini6怎么样 mini6参数配置

iPad mini 6依然是非全面屏,但会在外形尺寸不变的情况下,提高屏幕显示面积 。 iPad mini新品活动 888红包等你抢 机会不容错过http://iPad.adiannao.cn/7 这意味着mini6的屏幕边框相较之前缩窄,而屏幕分辨率可能是目前iPad 8或者Air 3所采用的…

ipad air 5参数配置

外观方面,iPad Air 5的外观会继续传承上一代4的设计,变化不会太大,直角边框和窄边框屏幕会保留。但并没有配备之前传闻的Face ID面部识别,依旧会采用电源键集合Touch ID的设计。 ipad air 5更多使用感受和评价:http://…