强化学习入门--基本概念

ops/2025/1/22 9:15:35/

强化学习基本概念

grid-world example

这个指的是一个小机器人（agent）在一个网格区域（存在边界），网格中存在需要躲避的格子和目标格子，我们的目的就是找到到达目标格子的最短路径

state

表示智能体相对于环境的状态，在上面的例子中，state就代表位置

state space 如果把所有的状态放在一起，就构成了状态空间

action

在每一个状态可以采取的行动

action space 所有动作放在一起，构成动作空间

state transition

当采取一个action的时候，agent 从一个state到达另一个state

在状态转换时，通常会出现各种特殊情况，导致我们进行一个动作时，状态转换的结果并不唯一，我们引入条件概率的概念，使用条件概率去描述state transition

forbidden area

需要躲避的区域，包含两种情况

可以进入，但进入该区域会被惩罚
不可以进入

policy（策略）

作用是告诉agent在该state下应该做什么动作

策略使用Π表示，在某一状态下执行某一动作表示为Π(a|s)，使用条件概率的形式

reward（回报）

是一个数，一个标量

如果是一个正数，那么代表我们希望这个行为发生

如果是一个负数，那么代表我们不希望这个行为发生

但是我们可以自定义这件事情，如果将正数定义为惩罚，那么agent就希望得到更多的负数

其作为我们与机器交互的一种手段存在

我们通过设计reward来实现我们的目标

比如对于上面的grid-world example，我们可以设计出边界惩罚为-1，到达forbidden area惩罚为-1，到达target area奖励为1，其余动作为0

这种可以代表确定的reword，对于很多行为，其reward是不确定的，还是和之前一样，使用条件概率。

我们的reward并不是根据结果给出，而是根据当前状态和要采取的动作给出

Trajectory and return

trajectory代表着一系列的状态-动作-回报（可以称其为轨迹），那么一个轨迹的return就是这一系列动作得到的回报加和，不同策略得到的轨迹是不同的，通过比较不同策略的得到轨迹的return，从而判断策略的好坏

discounted return

到达target后，实际上还在不停的运行，比如上面的例子，就会在target保持不动，一直加1

为了解决其不收敛的问题，引入discounted return，在每项前加上折扣

γ是一个(0，1)之间的数

可以看到如果γ趋近于0，那么结果更依赖于开始得到的return，使实验更加的近视

episode

这个其实描述的就是不持续的任务，但是不持续的任务和coutinue task之间可以进行转化

比如上述例子，我们可以将在target状态下的动作的结果都为原地不动，那么就会由原来的episode变为coutinue task

或者将最终的状态视为一个一般的状态，如果策略好的话，它就停在哪里不动，如果策略不好的话，他就会有可能跳出来

使用策略二会使其更具一般化