基于自适应动态规划的非线性系统最优控制-南邮硕毕
主要内容:
- 外部扰动下,基于事件触发自适应动态规划。设计触发阈值,由评价网络近似性能指标函数,两个动作网络分别逼近控制输入和外部扰动。
- 外部扰动和状态约束下,基于安全自适应动态规划的最优控制策略。设计障碍函数保证系统安全性和最优性,包含障碍函数CBF的性能指标函数。
- 分层博弈优化控制问题,两个HJB方程的耦合形式,求解两个玩家的最优控制策略,不仅系统稳定,而且构成Stackelberg均衡策略。
离散时间动态系统的集成自适应动态规划智能控制-北科大博毕
主要内容:
- 传统值迭代产生迭代控制策略,给出稳定性和吸引域判据;传统值迭代则迭代过程中得到可容许策略
- 折扣因子对迭代控制策略可容许的影响,神经网络对未知系统建模,讨论模型网络权重更新情况下参数误差和系统状态估计误差的最终一致有界稳定性。
- 值函数收敛问题,提出速度可调节的新型迭代ADP,引入松弛因子
- 对ADP的跟踪问题,提出新的收敛分析方法使得跟踪误差趋于0
强化学习关注随机过程中的序贯决策问题,而自适应动态规划关注动态系统的控制问题
吸引域:系统渐近稳定的区域。
Related papers
Modified λ-Policy Iteration Based Adaptive Dynamic Programming for Unknown Discrete-Time Linear Systems
解决的问题:
- 可容许控制策略下的迭代自适应动态规划要求更加严格,传统值函数初始化常会导致可容许控制策略是未知的,甚至无法保证有限次迭代得到可容许的控制策略。
- 折扣因子对最优控制策略和迭代控制策略的可容许性是未知的
- 对于传统迭代ADP方法,循环迭代逼近Bellman最优方程的解,加快迭代收敛速度的框架仍需要改进
- 基于跟踪控制问题,将原系统进行变换为增广系统,从而转化为最优调节问题。
展望:
- 无模型的离线和在线控制算法的稳定性,对复杂系统基于数据学习控制策略
- 推广到各类框架
- 松弛因子,加速迭代学习,以尽可能少的迭代次数得到次优值函数
[1]哈明鸣.离散时间动态系统的集成自适应动态规划智能控制[D].北京科技大学,2023.DOI:10.26945/d.cnki.gbjku.2023.000441.