自适应动态规划硕士博士论文学习

news/2024/12/21 20:41:04/

基于自适应动态规划的非线性系统最优控制-南邮硕毕

主要内容:

  1. 外部扰动下,基于事件触发自适应动态规划。设计触发阈值,由评价网络近似性能指标函数,两个动作网络分别逼近控制输入和外部扰动。
  2. 外部扰动和状态约束下,基于安全自适应动态规划的最优控制策略。设计障碍函数保证系统安全性和最优性,包含障碍函数CBF的性能指标函数。
  3. 分层博弈优化控制问题,两个HJB方程的耦合形式,求解两个玩家的最优控制策略,不仅系统稳定,而且构成Stackelberg均衡策略。

离散时间动态系统的集成自适应动态规划智能控制-北科大博毕

主要内容:

  1. 传统值迭代产生迭代控制策略,给出稳定性和吸引域判据;传统值迭代则迭代过程中得到可容许策略
  2. 折扣因子对迭代控制策略可容许的影响,神经网络对未知系统建模,讨论模型网络权重更新情况下参数误差和系统状态估计误差的最终一致有界稳定性。
  3. 值函数收敛问题,提出速度可调节的新型迭代ADP,引入松弛因子
  4. 对ADP的跟踪问题,提出新的收敛分析方法使得跟踪误差趋于0

在这里插入图片描述
强化学习关注随机过程中的序贯决策问题,而自适应动态规划关注动态系统的控制问题

吸引域:系统渐近稳定的区域。

Related papers
Modified λ-Policy Iteration Based Adaptive Dynamic Programming for Unknown Discrete-Time Linear Systems

解决的问题:

  1. 可容许控制策略下的迭代自适应动态规划要求更加严格,传统值函数初始化常会导致可容许控制策略是未知的,甚至无法保证有限次迭代得到可容许的控制策略。
  2. 折扣因子对最优控制策略和迭代控制策略的可容许性是未知的
  3. 对于传统迭代ADP方法,循环迭代逼近Bellman最优方程的解,加快迭代收敛速度的框架仍需要改进
  4. 基于跟踪控制问题,将原系统进行变换为增广系统,从而转化为最优调节问题。

展望:

  1. 无模型的离线和在线控制算法的稳定性,对复杂系统基于数据学习控制策略
  2. 推广到各类框架
  3. 松弛因子,加速迭代学习,以尽可能少的迭代次数得到次优值函数

[1]哈明鸣.离散时间动态系统的集成自适应动态规划智能控制[D].北京科技大学,2023.DOI:10.26945/d.cnki.gbjku.2023.000441.


http://www.ppmy.cn/news/1405580.html

相关文章

Neo4j基础知识

图数据库简介 图数据库是基于数学里图论的思想和算法而实现的高效处理复杂关系网络的新型数据库系统。它善于高效处理大量的、复杂的、互连的、多变的数据。其计算效率远远高于传统的关系型数据库。 在图形数据库当中,每个节点代表一个对象,节点之间的…

Windows下Docker安装Kafka3+集群

编写 docker-compose.yaml 主要参照:https://www.cnblogs.com/wangguishe/p/17563274.html version: "3"services:kafka1:image: bitnami/kafka:3.4.1container_name: kafka1environment:- KAFKA_HEAP_OPTS-Xmx1024m -Xms1024m- KAFKA_ENABLE_KRAFTyes- K…

MySQL的基本操作(超详细)

👨‍💻作者简介:👨🏻‍🎓告别,今天 📔高质量专栏 :☕java趣味之旅 📔(零基础)专栏:MSQL数据库 欢迎🙏点赞&…

路径优化算法 | 基于A_Star算法实现复杂地形下无人机威胁概率地图最短路径避障三维航迹规划

概述 A* (A-Star) 算法是一种广泛使用的路径搜索和图形遍历算法,用于在给定起点和终点的情况下找到最短路径。对于无人机在复杂地形下的三维航迹规划,A* 算法可以与其他技术结合,例如威胁概率地图(Threat Probability Map),以实现避障和最短路径规划。 以下是一个基于 …

AI音乐GPT时刻来临:Suno 快速入门手册!

✨✨ 欢迎大家来访Srlua的博文(づ ̄3 ̄)づ╭❤~✨✨ 🌟🌟 欢迎各位亲爱的读者,感谢你们抽出宝贵的时间来阅读我的文章。 我是Srlua小谢,在这里我会分享我的知识和经验。&am…

基于springboot实现校园周边美食探索及分享平台系统项目【项目源码+论文说明】

基于springboot实现园周边美食探索及分享平台系统演示 摘要 美食一直是与人们日常生活息息相关的产业。传统的电话订餐或者到店消费已经不能适应市场发展的需求。随着网络的迅速崛起,互联网日益成为提供信息的最佳俱渠道和逐步走向传统的流通领域,传统的…

成员变量没有多态性

若子类重写了父类方法,就意味着子类里定义的方法彻底覆盖了父类里的同名方法,系统将不可能把父类里的方法转移到子类中。 对于实例变量则不存在这样的现象,即使子类里定义了与父类完全相同的实例变量,这个实例变量依然不可能覆盖…

基于8086贪吃蛇游戏系统方恨设计

**单片机设计介绍,基于8086贪吃蛇游戏系统方恨设计 文章目录 一 概要二、功能设计三、 软件设计原理图 五、 程序六、 文章目录 一 概要 基于8086的贪吃蛇游戏系统设计是一个结合了微处理器控制、游戏逻辑以及图形显示技术的综合性项目。该系统旨在通过8086微处理器…