Iterative Regularized Policy Optimization with Imperfect Demonstrations

devtools/2024/9/21 11:59:05/

ICML 2024
paper
code

Intro

利用基于次优专家数据的专家策略,通过policy constraint的形式引导智能体的在线优化,同时通过利用在线高质量数据扩展专家数据,并有监督得对专家策略进行矫正。二者交替优化实现目标策略的迭代更新

Method

在这里插入图片描述
上述定理说明两个问题:1)最优策略下的 J ( π ) J(\pi) J(π)是受限于 J ( π E ) J(\pi_E) J(πE), 2)二者的差异被policy所bound。因此提出得IRPO通过迭代更新 π E \pi_E πE以提高 J ( π E ) J(\pi_E) J(πE)以及将基于KL散度得policy constraint引入目标策略 π \pi π的在线优化.

在这里插入图片描述
在这里插入图片描述
伪代码第六、七行利用在线轨迹 τ \tau τ数据不断提升演示数据质量,进而保证专家策略的质量。同时这种demonstration boosting的形式,避免over-constraint导致策略探索不足以及primacy bias问题(过度依赖早期数据【paper】)
在这里插入图片描述
其中函数 f ( τ ) = R ( τ ) = ∑ t = 0 H − 1 r t f(\tau)=R(\tau)=\sum_{t=0}^{H-1}r_{t} f(τ)=R(τ)=t=0H1rt为累计奖励

results

在这里插入图片描述


http://www.ppmy.cn/devtools/114982.html

相关文章

【RabbitMQ 项目】项目概述

项目概述 一.角色划分二.服务器模块概述1.本地模块2.网络模块3.服务器模块 三.模块详细划分1.服务端2.客户端 一.角色划分 该项目的模型是一个跨主机的生产消费模型,有三种角色:生产者,消费者,中间人。对应就要实现三个大模块&…

PTA L1-062 幸运彩票

L1-062 幸运彩票(15分) 彩票的号码有 6 位数字,若一张彩票的前 3 位上的数之和等于后 3 位上的数之和,则称这张彩票是幸运的。本题就请你判断给定的彩票是不是幸运的。 输入格式: 输入在第一行中给出一个正整数 N&a…

HTML常见语法设计

HTML常见语法设计 1.HTML类和ID类id 2.HTML 响应式 Web 设计3.HTML5 语义元素4.HTML 字符实体5.HTML 编码(字符集) 1.HTML类和ID 类 对 HTML 进行分类(设置类),使我们能够为元素的类定义 CSS 样式。为相同的类设置相…

lnmp - 登录技术方案设计与实现

概述 登录功能是对于每个动态系统来说都是非常基础的功能,用以区别用户身份、和对应的权限和信息,设计出一套安全的登录方案尤为重要,接下来我介绍一下常见的认证机制的登录设计方案。 方案设计 HTTP 是一种无状态的协议,客户端…

OctoSQL 查询大量数据库和文件格式

OctoSQL 主要是一款 CLI 工具,可让你通过统一界面使用 SQL 查询大量数据库和文件格式,甚至在它们之间进行连接。同时,它还是一个易于扩展的完整数据流引擎,你可以用它为自己的应用程序添加 SQL 接口 OctoSQL是一款功能强大的SQL查…

Python 装饰器使用详解

文章目录 0. 引言1. 什么是装饰器?2. 装饰器的基本语法3. 装饰器的工作原理4. 常见装饰器应用场景4.1. 日志记录4.2. 权限校验4.3. 缓存 5. 多重装饰器的执行顺序6. 装饰器的高级用法6.1. 带参数的装饰器6.2. 使用 functools.wraps6.3. 类装饰器 7. 图示说明7.1. 单…

谷粒商城のElasticsearch

文章目录 前言一、前置知识1、Elasticsearch 的结构2、倒排索引 (Inverted Index)2.1、 索引阶段2.2、查询阶段 二、环境准备1、安装Es2、安装Kibana3、安装 ik 分词器 三、项目整合1、引入依赖2、整合业务2.1、创建索引、文档、构建查询语句2.2、整合业务代码 后记 前言 本篇介…

两栏布局和三栏布局的实现方法

两栏布局 右侧不设置宽&#xff0c;实现一栏自适应。 1. float margin-left 左侧设置float&#xff0c;且设置宽度&#xff0c;右侧margin-left为左侧的宽度 <head><style>.left{width: 300px;height: 500px;background-color: palegreen;float: left;}.right…