强化学习开篇-那些问123

news/2024/10/31 3:22:48/

1、强化学习的基本结构是什么?

      智能体和环境。智能体基于当前状态,采取动作,环境给出反馈也就是奖励,再去更新当前的状态。

2、强化学习相对于监督学习为什么训练过程会更加困难?

  • 监督学习的样本一般是相互独立的,而强化学习的样本是时序相关的。
  • 监督学习是有标签的可以学习的,而强化学习并没有标签,只有环境给的奖励,并且奖励并不是实时的。

3、强化学习的基本特征有哪些?

  • 智能体探索环境,获得延迟的奖励
  • 强化学习的数据是时间关联的数据,智能体动作会影响接下来的状态

4、近几年强化学习发展迅速的原因?

  • 不需要有监督式的样本
  • 强化学习的智能体是可能实现真正意义上的超越人类的智能

5、状态和观测有什么关系?

  • 状态包括观测。

6、一个强化学习智能体由什么组成?

  • 策略
  • 价值函数
  • 模型

7、根据强化学习智能体的不同,我们可以将它分为哪几类?

  • 基于价值的智能体和基于策略的智能体
  • 有模型强化学习智能体和免模型强化智能体

8、基于策略和基于价值的强化学习方法有什么区别?

  • 基于策略的强化学习,是指智能体根据策略做出动作,代表梯度下降,试用大规模环境,连续空间
  • 基于价值的强化学习,是指智能体根据价值函数做出动作,代表Q-learning,试用小规模环境,离散空间

9、有模型强化学习和免模型强化学习有什么区别?

  • 有模型强化学习,需要对真实环境建模一个虚拟环境,同时与两个环境交互学习。
  • 免模型强化学习直接与真实环境进行学习。

10、如何通俗理解强化学习?

  • 基于现有状态,结合历史经验,进行利用和探索的权衡

http://www.ppmy.cn/news/271488.html

相关文章

接口测试框架实战 | 通用 API 封装实战

接口测试仅仅掌握 Requests 或者其他一些功能强大的库的用法,是远远不够的,还需要具备能根据公司的业务流程以及需求去定制化一个接口自动化测试框架的能力。所以,接下来,我们主要介绍下接口测试用例分析以及通用的流程封装是如何…

中国传统色的雅称——你可知?

梅染、荼白、落栗、薄柿、酡颜、踯躅、曙色、缁色、鸦青、胭脂、若草、缟、缃色、竹青、苏芳、缥色、天水碧、月白、远山如黛、青梅煮酒、桥下春波。 这些颜色的名字,是不是看着美极了。 中国传统颜色的雅称,你都知道吗? 梅染 梅染顾名思义&a…

分享一组超喜欢的粉色樱花高清壁纸~

向往漫天的樱花?想要一款治愈系的桌面大图?推荐粉色樱花高清壁纸给大家使用,壁纸粉色设计,温婉柔和超治愈,为您带来好心情

多套头像/壁纸/背景图资源微信小程序源码 粉色UI 带流量主

云开发版粉色UI微信小程序源码,背景图、头像、壁纸小程序源码,带流量主功能。 云开发小程序源码无需服务器和域名即可搭建小程序另外还带有流量主功能噢!微信平台注册小程序就可以了。 这套粉色UI非常的好看,里面保护有背景图、…

粉色的牡丹花Mac动态壁纸

丹花有着花中之王的美名,其雍容华贵的外形十分让人喜爱。 粉色的牡丹花动态壁纸

6k高清Mac粉色动态壁纸

5k高清粉色动态壁纸分享,壁纸非常的精致唯美,有可爱的花朵,希望你们会喜欢! 6k高清粉色动态壁纸

Python进阶-----面对对象5.0(面对对象三大特征之--多态)

目录 前言: 多态 习题 前言: 上一期讲了Python面对对象中的继承,而今天讲的是多态,其实多态跟继承是紧密相关的,换句话说多态是继承的一种表现形式,下面就一起来看看吧!(上一期链…

cdialog 多次更换背景图_INS少女心背景图来袭:山外青山楼外楼,我的少年百分九!...

壁纸 大师级公众号 每天更新壁纸头像背景图 关注 温馨提示:新朋友阅读本文前,请您先点击上面的蓝色字体“剧透剧”,再点关 注这样您就可以继续免费收到微丧背景图文章了,每天都有分享,完全是“免费订阅”,请…