张伟楠动手学强化学习笔记|第一讲(上)

news/2024/12/4 12:22:16/

张伟楠动手学强化学习笔记|第一讲(上)

在这里插入图片描述
在这里插入图片描述

人工智能的两种任务类型

  • 预测型任务
    • 有监督学习
    • 无监督学习
  • 决策型任务
    • 强化学习
      在这里插入图片描述

序贯决策(Sequential Decision Making)

智能体序贯地做出一个个决策,并接续看到新的观测,知道最终任务结束
max ⁡ π E π , E n v [ ∑ t = 0 T γ t r ( s t , a t ) ] \max_{\pi} \mathbb{E}_{\pi,Env}[\sum_{t=0}^{T}\gamma^{t}r(s_t,a_t)] πmaxEπ,Env[t=0Tγtr(st,at)]

强化学习的定义

通过交互学习来实现目标的计算方法

在这里插入图片描述

三个方面

  • 感知:可以某种程度上感知环境的状态
  • 动作:可以采取动作来影响状态或者达到目标
  • 目标:随着时间推移最大化累计奖励

交互过程

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


http://www.ppmy.cn/news/1552265.html

相关文章

游戏引擎学习第31天

仓库:https://gitee.com/mrxiao_com/2d_game 回顾 回顾了他们的游戏开发进度,并强调了编写整个游戏的价值。他们提到,这个过程的目的是让每个参与者从零开始编程一个完整的游戏,了解整个游戏的工作原理。这样做的一个关键好处是&#xff0c…

python(18) : flask_sqlalchemy 配置sqlserver数据库对象

1.安装依赖 pip3 install flask_sqlalchemy -i https://mirrors.aliyun.com/pypi/simple/ requests2.数据库配置信息(db_manager.py) import osfrom flask import Flask from flask_cors import CORS from flask_sqlalchemy import SQLAlchemydatabase testapp Flask(__nam…

51单片机从入门到精通:理论与实践指南常用资源篇(五)

坚持一下,确实还有几天就可以学完了,这段时间的努力和付出都将化为宝贵的成果。正如《人民日报》所说:“每一次努力,都是幸运的伏笔。” 不论是在学习、工作还是生活中,坚持都是通往成功的必经之路。当我们在面对困难和…

聚云科技×亚马逊云科技:打通生成式AI落地最后一公里

云计算时代,MSP(云管理服务提供商)犹如一个帮助企业上云、用云、管理云的专业管家,在云计算厂商与企业之间扮演桥梁的作用。生成式AI浪潮的到来,也为MSP带来全新的生态价值和发展空间。 作为国内领先的云管理服务提供…

Flink项目实战:实时数据流处理

Apache Flink是一款开源的分布式流处理框架,广泛应用于大规模数据处理、实时数据分析和流式计算任务。Flink提供了一个高吞吐量、低延迟的流处理引擎,适合用来处理各种流式数据,例如日志分析、实时监控、推荐系统、社交网络分析等。本篇文章将介绍如何使用Apache Flink构建一…

深入理解 ES6 Promise,开启高效异步编程之旅

1. Promise的基本介绍 在 JavaScript 中,Promise 是一种用于处理异步操作的机制,它代表一个异步操作的最终完成(或失败)及其结果值。Promise 的目标是解决传统回调函数的嵌套问题(即“回调地狱”)。 Promise 是一个对象,代表着一个异步操作的结果。Promise 有三种状态…

Github 2024-11-30 Rust开源项目日报 Top10

根据Github Trendings的统计,今日(2024-11-30统计)共有10个项目上榜。根据开发语言中项目的数量,汇总情况如下: 开发语言项目数量Rust项目10TypeScript项目1Dart项目1Go项目1Rust: 构建可靠高效软件的开源项目 创建周期:5064 天开发语言:Rust协议类型:OtherStar数量:929…

HTML5系列(8)-- 离线应用指南

前端技术探索系列:HTML5 离线应用指南 🌐 致读者:构建可靠的离线体验 👋 前端开发者们, 在现代 Web 开发中,离线应用已成为提升用户体验的重要组成部分。今天,我们将探索 HTML5 提供的离线技…