张伟楠动手学强化学习笔记|第一讲（上）

news/2024/12/4 12:22:16/

张伟楠动手学强化学习笔记|第一讲（上）

在这里插入图片描述

人工智能的两种任务类型

预测型任务
- 有监督学习
- 无监督学习
决策型任务
- 强化学习

序贯决策(Sequential Decision Making)

智能体序贯地做出一个个决策，并接续看到新的观测，知道最终任务结束
$\max_{\pi} \mathbb{E}_{\pi,Env}[\sum_{t=0}^{T}\gamma^{t}r(s_t,a_t)]$

强化学习的定义

通过交互学习来实现目标的计算方法

在这里插入图片描述

三个方面

感知：可以某种程度上感知环境的状态
动作：可以采取动作来影响状态或者达到目标
目标：随着时间推移最大化累计奖励

交互过程

在这里插入图片描述

http://www.ppmy.cn/news/1552265.html

游戏引擎学习第31天

仓库:https://gitee.com/mrxiao_com/2d_game 回顾回顾了他们的游戏开发进度，并强调了编写整个游戏的价值。他们提到，这个过程的目的是让每个参与者从零开始编程一个完整的游戏，了解整个游戏的工作原理。这样做的一个关键好处是&#xff0c…

python(18) : flask_sqlalchemy 配置sqlserver数据库对象

1.安装依赖 pip3 install flask_sqlalchemy -i https://mirrors.aliyun.com/pypi/simple/ requests2.数据库配置信息(db_manager.py) import osfrom flask import Flask from flask_cors import CORS from flask_sqlalchemy import SQLAlchemydatabase testapp Flask(__nam…

51单片机从入门到精通：理论与实践指南常用资源篇（五）

坚持一下，确实还有几天就可以学完了，这段时间的努力和付出都将化为宝贵的成果。正如《人民日报》所说：“每一次努力，都是幸运的伏笔。” 不论是在学习、工作还是生活中，坚持都是通往成功的必经之路。当我们在面对困难和…

聚云科技×亚马逊云科技：打通生成式AI落地最后一公里

云计算时代，MSP（云管理服务提供商）犹如一个帮助企业上云、用云、管理云的专业管家，在云计算厂商与企业之间扮演桥梁的作用。生成式AI浪潮的到来，也为MSP带来全新的生态价值和发展空间。作为国内领先的云管理服务提供…

Flink项目实战：实时数据流处理

Apache Flink是一款开源的分布式流处理框架，广泛应用于大规模数据处理、实时数据分析和流式计算任务。Flink提供了一个高吞吐量、低延迟的流处理引擎，适合用来处理各种流式数据，例如日志分析、实时监控、推荐系统、社交网络分析等。本篇文章将介绍如何使用Apache Flink构建一…

深入理解 ES6 Promise，开启高效异步编程之旅

1. Promise的基本介绍在 JavaScript 中，Promise 是一种用于处理异步操作的机制，它代表一个异步操作的最终完成（或失败）及其结果值。Promise 的目标是解决传统回调函数的嵌套问题（即“回调地狱”）。 Promise 是一个对象，代表着一个异步操作的结果。Promise 有三种状态…

Github 2024-11-30 Rust开源项目日报 Top10

根据Github Trendings的统计，今日(2024-11-30统计)共有10个项目上榜。根据开发语言中项目的数量，汇总情况如下：开发语言项目数量Rust项目10TypeScript项目1Dart项目1Go项目1Rust: 构建可靠高效软件的开源项目创建周期：5064 天开发语言：Rust协议类型：OtherStar数量：929…

HTML5系列（8）-- 离线应用指南

前端技术探索系列：HTML5 离线应用指南 🌐 致读者：构建可靠的离线体验 👋 前端开发者们， 在现代 Web 开发中，离线应用已成为提升用户体验的重要组成部分。今天，我们将探索 HTML5 提供的离线技…