张伟楠动手学强化学习笔记|第一讲(上)
人工智能的两种任务类型
- 预测型任务
- 有监督学习
- 无监督学习
- 决策型任务
- 强化学习
- 强化学习
序贯决策(Sequential Decision Making)
智能体序贯地做出一个个决策,并接续看到新的观测,知道最终任务结束
max π E π , E n v [ ∑ t = 0 T γ t r ( s t , a t ) ] \max_{\pi} \mathbb{E}_{\pi,Env}[\sum_{t=0}^{T}\gamma^{t}r(s_t,a_t)] πmaxEπ,Env[t=0∑Tγtr(st,at)]
强化学习的定义
通过交互学习来实现目标的计算方法
三个方面
- 感知:可以某种程度上感知环境的状态
- 动作:可以采取动作来影响状态或者达到目标
- 目标:随着时间推移最大化累计奖励
交互过程