腿足机器人之十二-manipulation

embedded/2025/2/27 1:35:06/

腿足机器人之十二- manipulation

    • VLA技术简介
    • 开源的VLA

在上一章提到腿足机器人之十一- 深度强化学习,我们提到了腿足机器人的运动mobility和操作manipulation,前面的博客内容都是以mobility为主,2025年2月20日国外的 Figure公司发布了了Helix(A Vision-Language-Action Model for Generalist Humanoid Control)。

在这里插入图片描述
Figure的Helix report并没有透露过渡的技术细节,但是从上面的结构大致可以看出来在推理时的框架基本是:

# 伪代码示例:VLA动作生成流程
visual_feat = vision_encoder(rgb_image)          # 视觉特征提取
text_feat = language_model(instruction)          # 语言指令编码
fused_feat = cross_attention(visual_feat, text_feat)  # 多模态融合
action = policy_network(fused_feat, sensor_data)  # 生成关节动作
execute_action(action)

这么做的好处是增强了能力泛化,虽然helix公布时基于500小时训练数据的结构,但实际上VLA主要用于解决 复杂环境下的自主导航、任务理解与动态动作生成 的难题,其核心是通过多模态感知与推理,实现自然语言指令到物理动作的端到端映射。

VLA技术简介

传统控制方法无法直接理解人类模糊或复杂的指令(如 “去二楼查看是否有异常”),需依赖固定脚本,有了VLA,就可以通过视觉感知环境语义(如识别 “楼梯” 或 “坑洞”),结合语言指令(如 “上楼” 或 “绕过障碍”),生成适应地形的步态和路径规划。

  1. 多模态感知与对齐
  • 视觉编码器:
    使用 ViT 或 ResNet 提取环境特征(如地形高度图、障碍物位置)。
    示例:从 RGB-D 图像中分割出可通行区域与危险区域(如波士顿动力 Spot 的视觉导航模块)。
  • 语言编码器:
    基于 LLM(如 LLaMA、GPT) 解析指令语义(如 “绕过前方的箱子” → 目标点与避障逻辑)。
  • 模态对齐:
    通过 对比学习 或 跨模态注意力(如 CLIP 风格预训练),对齐视觉特征与语言指令的语义空间。
  1. 动作生成与控制
  • 强化学习(RL)策略:
    将多模态特征输入策略网络,输出关节力矩或步态参数(如 MIT Cheetah 的 RL 控制框架)。
    奖励函数设计:结合任务目标(如到达终点、开门、倒茶)与安全约束(如躯干平衡、能耗最小)。
  • 分层控制架构:
    高层规划:根据语言指令生成路径点(如 “去 A 点巡检” → 全局路径)。
    底层控制器:基于视觉感知实时调整步态(如 ANYmal 的模型预测控制)。
  1. 动态适应与鲁棒性增强
  • 世界模型(World Model):
    预测环境动态(如地面打滑概率),并提前规划安全动作(如 DeepMind 的 DreamerV3 在四足机器人中的应用)。
  • 在线学习与微调:
    在部署中持续更新模型参数,适应新场景(如 Meta 的 Adaptive Agent)。
  1. 挑战与未来方向
  • 数据效率:需大量多模态机器人数据训练,仿真与真实数据迁移是关键。
  • 安全性与可解释性:避免危险动作生成,确保决策过程透明(如可视化注意力机制)。
  • 端到端优化:联合优化视觉 - 语言对齐与动作控制,避免模块间误差累积。

开源的VLA

Helix的System2模型是7B和openVLA的模型也是7B,看起来二者是有些关联的。

这里先临时做个框架性的介绍,后面再详细看具体细节,首先Vision-Language-Action (VLA) model 其实这两年都有研究,比较有影响力的paper是OpenVLA: An Open-Source Vision-Language-Action Model,其开源的github地址。
在这里插入图片描述
该模型想解决


http://www.ppmy.cn/embedded/167414.html

相关文章

mysql之InnoDB Buffer Pool 深度解析与性能优化

文章目录 InnoDB Buffer Pool 深度解析与性能优化1. 概述:平衡磁盘与 CPU 的关键枢纽1.1. Buffer Pool 的本质与作用1.2. 多级缓存体系 2. Buffer Pool 的内部机制2.1. 页 (Page) 的概念2.2. Buffer Pool 的组成结构2.3. Buffer Pool 的工作流程 (数据页的生命周期)…

Android Java创建ViewModel新api

背景 项目使用Java,创建ViewModel发现之前旧api不管用了。不要问为什么项目还要用Java,别问。老项目不让升级。 ViewModel创建新方式 新方式是因为依赖新版本库,其实用旧版本库就回到旧方式了。 依赖: def lifecycle_version …

基于ffmpeg+openGL ES实现的视频编辑工具-添加背景音乐(十)

在视频编辑领域,背景音乐宛如灵魂,为视频注入情感与氛围,极大地提升其观赏性与感染力。本文将深入探讨如何借助 ffmpeg 和 openGL ES 技术,在视频编辑工具中实现添加背景音乐这一关键功能。 一、技术实现流程概述 在视频中添加背景音乐,首要步骤是借助 ffmpeg 从视频文件…

leetcode day22 59

59 螺旋矩阵 给你一个正整数 n ,生成一个包含 1 到 n2 所有元素,且元素按顺时针顺序螺旋排列的 n x n 正方形矩阵 matrix 。 示例 1: 输入:n 3 输出:[[1,2,3],[8,9,4],[7,6,5]]示例 2: 输入:…

VIM FZF 安裝和使用

在 Vim 中安装和使用 fzf 进行文件、函数、变量、宏定义的模糊匹配 以下是详细步骤: 1. 安装 fzf 和 fzf.vim 插件 1.1 安装 fzf 工具 fzf 是一个命令行模糊查找工具,必须先安装它。根据你的操作系统选择安装方式: macOS: brew install fz…

Java使用EasyExcel实现异步导出

以下是使用 EasyExcel 工具类实现异步导出功能的 Demo,包括用户发起导出请求后,系统先返回响应,后台读取数据并上传至 COS,最后通知用户下载的完整流程。 实现步骤 用户发起导出请求 前端调用导出接口,后端立即返回响应…

机器学习数学基础:32.斯皮尔曼等级相关

斯皮尔曼等级相关教程 一、定义与原理 斯皮尔曼等级相关系数(Spearman’s rank - correlation coefficient),常用 ρ \rho ρ表示,是一种非参数统计量,用于衡量两个变量的等级之间的关联程度。它基于变量的秩次&…

力扣-动态规划-63 不同路径Ⅱ

思路 dp数组定义:到下标为i, j 的地方共有dp[i][j]条路径递推公式:在当前节点不是障碍物时,dp[i][j] dp[i][j-1] dp[i-1][j],否则就是为0dp数组初始化:dp[0][0]初始化也需要做判断遍历顺序:自…