强化学习入门--基本概念

ops/2025/1/22 9:15:35/

强化学习基本概念

grid-world example

这个指的是一个小机器人(agent)在一个网格区域(存在边界),网格中存在需要躲避的格子和目标格子,我们的目的就是找到到达目标格子的最短路径

state

表示智能体相对于环境的状态,在上面的例子中,state就代表位置

state space 如果把所有的状态放在一起,就构成了状态空间

action

在每一个状态可以采取的行动

action space 所有动作放在一起,构成动作空间

state transition

当采取一个action的时候,agent 从一个state到达另一个state

在状态转换时,通常会出现各种特殊情况,导致我们进行一个动作时,状态转换的结果并不唯一,我们引入条件概率的概念,使用条件概率去描述state transition

forbidden area

需要躲避的区域,包含两种情况

  • 可以进入,但进入该区域会被惩罚
  • 不可以进入
policy(策略)

作用是告诉agent在该state下应该做什么动作

策略使用Π表示,在某一状态下执行某一动作表示为Π(a|s),使用条件概率的形式

reward(回报)

是一个数,一个标量

如果是一个正数,那么代表我们希望这个行为发生

如果是一个负数,那么代表我们不希望这个行为发生

但是我们可以自定义这件事情,如果将正数定义为惩罚,那么agent就希望得到更多的负数

其作为我们与机器交互的一种手段存在

我们通过设计reward来实现我们的目标

比如对于上面的grid-world example,我们可以设计出边界惩罚为-1,到达forbidden area惩罚为-1,到达target area奖励为1,其余动作为0

这种可以代表确定的reword,对于很多行为,其reward是不确定的,还是和之前一样,使用条件概率。

我们的reward并不是根据结果给出,而是根据当前状态和要采取的动作给出

Trajectory and return

trajectory代表着一系列的状态-动作-回报(可以称其为轨迹),那么一个轨迹的return就是这一系列动作得到的回报加和,不同策略得到的轨迹是不同的,通过比较不同策略的得到轨迹的return,从而判断策略的好坏

discounted return

到达target后,实际上还在不停的运行,比如上面的例子,就会在target保持不动,一直加1

为了解决其不收敛的问题,引入discounted return,在每项前加上折扣

γ是一个(0,1)之间的数

可以看到如果γ趋近于0,那么结果更依赖于开始得到的return,使实验更加的近视

episode

这个其实描述的就是不持续的任务,但是不持续的任务和coutinue task之间可以进行转化

比如上述例子,我们可以将在target状态下的动作的结果都为原地不动,那么就会由原来的episode变为coutinue task

或者将最终的状态视为一个一般的状态,如果策略好的话,它就停在哪里不动,如果策略不好的话,他就会有可能跳出来

使用策略二会使其更具一般化


http://www.ppmy.cn/ops/152161.html

相关文章

Golang的图形编程应用案例分析与技术深入

Golang的图形编程应用案例分析与技术深入 一、Golang在图形编程中的应用介绍 作为一种高效、简洁的编程语言,近年来在图形编程领域也逐渐展露头角。其并发性能优势和丰富的标准库使得它成为了一个越来越受欢迎的选择。 与传统的图形编程语言相比,Golang具…

网络编程-UDP套接字

文章目录 UDP/TCP协议简介两种协议的联系与区别Socket是什么 UDP的SocketAPIDatagramSocketDatagramPacket 使用UDP模拟通信服务器端客户端测试 完整测试代码 UDP/TCP协议简介 两种协议的联系与区别 TCP和UDP其实是传输层的两个协议的内容, 差别非常大, 对于我们的Java来说, …

MDX语言的语法糖

MDX语言的语法糖及其应用分析 引言 在当今数据驱动的时代,大数据分析和数据可视化已成为企业决策中不可或缺的一部分。MDX(Multidimensional Expressions,多维表达式)作为一门专为分析多维数据而设计的查询语言,广泛…

MySQL下载安装配置(超级超级入门级)

一、下载MySQL MySQL是一个关系型数据库管理系统,由瑞典 MySQL AB 公司开发,属于 Oracle 旗下产品。 MySQL官网下载地址:https://dev.mysql.com/downloads/mysql/ 打开官网,现在最新是9.0版本,我们这里选择8.03版本…

图论的起点——七桥问题

普瑞格尔河从古堡哥尼斯堡市中心流过,河中有小岛两座,筑有7座古桥,哥尼斯堡人杰地灵,市民普遍爱好数学。1736年,该市一名市民向大数学家Euler提出如下的所谓“七桥问题”: 从家里出发,7座桥每桥…

人工智能之深度学习_[3] -PyTorch自动微分模块和构建线性回归模型

文章目录 自动微分模块9.1 梯度基本计算9.2 梯度下降法求最优解9.3 梯度计算注意点9.4 自动微分模块应用 10 PyTorch构建线性回归模型 自动微分模块 自动微分就是自动计算梯度值,也就是计算导数。 什么是梯度 对函数求导的值就是梯度 什么是梯度下降法 是一种求最优梯度值的方法…

HTB:Remote[WriteUP]

目录 连接至HTB服务器并启动靶机 信息收集 使用rustscan对靶机TCP端口进行开放扫描 将靶机TCP开放端口号提取并保存 使用nmap对靶机TCP开放端口进行脚本、服务扫描 使用nmap对靶机TCP开放端口进行漏洞、系统扫描 使用nmap对靶机常用UDP端口进行开放扫描 使用ftp尝试匿名…

自动化01

测试用例的万能公式:功能测试界面测试性能测试易用性测试安全性测试兼容性测试 自动化的主要目的就是用来进行回归测试 新产品--第一个版本 (具备丰富的功能),将产品的整体进行测试,人工创造一个自动化测试用例,在n个版本的时候…