VLM和VLAM(VLA)相关介绍和发展历程

devtools/2024/12/30 15:53:46/

目录

    • 一、个人感想
    • 二、相关介绍
      • 2.1 视觉语言模型 (VLM) 的发展历程
      • 2.2 视觉语言动作模型 (VLA) 的发展历程
      • 2.3 一些关键的研究工作:
      • 一些架构图
    • 三、发展历程
      • 3.1 视觉语言模型 (VLM) 的发展时间线
      • 3.2 视觉语言动作模型 (VLA) 的发展时间线
    • 四、参考资料

一、个人感想

进入2024年,尤其是最近半年,在自动驾驶圈,出现了很多听上去很高大上的名词,比如视觉语言模型(VLM)、视觉语言动作模型(VLA,相对比前者可微,所以可以端到端)、世界模型等等。让我这个刚入圈子的在校硕士,不禁感叹,世界变化太快,技术迭代也很快,总感觉新的东西层出不穷,快要被世界淘汰了。但是吧,个人其实又有点好奇,为啥最近一年,端到端、VLM、VLA接连都出来,难道都是最近的成果吗?出于这样的好奇,特此搜了一下VLM和VLA,发现好像并不是那么回事,这俩技术,其实几年前就有了,只不过最近自动驾驶中L2辅助驾驶行业各种新概念都卷起来了,加上理想他们弄了个端到端+VLM双系统,使得各种看上去很新但是其实几年前就开始研究的东西被吹起来了。
关于以后的技术方向,感觉参考文章中有两句话说的比较好,如下:
sss
在这里插入图片描述

二、相关介绍

相关介绍和发展历程的内容来自于通义大模型,还是让大模型总结整理比较方便。

视觉语言模型(VLM)和视觉语言动作模型(VLA)是近年来在人工智能领域内取得显著进展的两个概念,它们的发展历程反映了多模态学习的进步,特别是在结合视觉、语言和机器人动作方面

2.1 视觉语言模型 (VLM) 的发展历程

视觉语言模型的发展可以追溯到2015年左右,当时研究人员开始探索如何将计算机视觉与自然语言处理结合起来,以实现更复杂的人机交互。一个重要的里程碑是基于图像的问答系统(Visual Question Answering, VQA)它要求模型根据给定的图片回答相关问题。这类任务需要模型理解图像内容,并将其与语言查询相结合,从而给出合理的答案。(其实这个东西就是现在2024年底很成熟的GPT大模型了,比如给他一张摄影作品,可以让他给你点评或者解释图片内容等等)

随后,随着深度学习技术的发展,特别是Transformers架构的提出,VLM得到了快速进步。例如,Google推出的PaLI(Pathways Language-Image model)是一个统一的语言图像模型,能够执行多种跨模态任务,如视觉问答、图像字幕等。PaLI-X 和 PaLM-E(Pathways Language Model Embodied)进一步增强了这些能力,通过将大规模的视觉语言预训练与机器人数据相结合,实现了从VLM到VLA的转变。如下图所示:
在这里插入图片描述

2.2 视觉语言动作模型 (VLA) 的发展历程

视觉语言动作模型的概念则更为新颖,它旨在让机器人不仅能理解和生成语言,还能根据视觉输入执行物理世界的动作。RT-2(Robotic Transformer 2)是这一领域的代表作品之一,由Google DeepMind开发,建立在RT-1的基础上。RT-2通过使用预训练的视觉语言模型作为基础,直接输出动作指令作为token序列,使得机器人可以在未见过的环境中完成复杂的操作任务。

2.3 一些关键的研究工作:

视觉语言模型(VLM):早期的VQA任务被认为是VLM的一个起点,而像ViT(Vision Transformer)、CLIP等模型则是推动了VLM发展的重要力量。
视觉语言动作模型(VLA):RT-2被广泛认为是首个成功的VLA模型,它首次明确地将视觉、语言和动作三者结合起来,用于指导机器人的实际操作。
总的来说,VLM和VLA都是AI研究中非常活跃的方向,它们的出现和发展极大地促进了具身智能的进步,即赋予机器人理解并互动于物理世界的能力。

一些架构图

端到端
在这里插入图片描述
在这里插入图片描述

三、发展历程

视觉语言模型(VLM)和视觉语言动作模型(VLA)的发展历程反映了多模态学习的进步,特别是在结合视觉、语言和机器人动作方面。

3.1 视觉语言模型 (VLM) 的发展时间线

2015-2016年:视觉问答系统(Visual Question Answering, VQA)的兴起,标志着VLM早期研究的开始。这些系统能够根据图像回答自然语言问题,首次将视觉与语言理解结合起来。
2017-2018年:研究人员开始探索更复杂的跨模态任务,如图像字幕生成(Image Captioning),进一步推动了VLM的发展。
2019年:BERT等预训练语言模型的提出为后续的多模态模型提供了强大的语言处理能力。
2020年:CLIP(Contrastive Language–Image Pre-training)由OpenAI发布,它通过对比学习框架连接了图像和文本,极大地促进了VLM的发展。
2021年:ViT(Vision Transformer)的出现,使得Transformers架构不仅限于NLP,也开始在计算机视觉中取得成功,统一了CV和NLP的架构。
2022年:Google推出了PaLI(Pathways Language-Image model),这是一个大规模的语言图像模型,能够执行多种跨模态任务。
2023年:
PaLM-E(Pathways Language Model Embodied)被推出,它结合了PaLM和ViT,为机器人技术带来了新的可能性。
RT-1(Robotic Transformer 1)发布,这是第一个尝试直接从视觉语言输入生成机器人动作的模型之一。
2024年:TinyVLA模型的提出,它提供了一种更加紧凑且高效的解决方案来实现视觉语言动作模型,减少了对大量预训练数据的需求,并提高了推理速度。

3.2 视觉语言动作模型 (VLA) 的发展时间线

2023年3月:RT-1(Robotic Transformer 1)的发布是VLA领域的关键一步,它证明了可以使用预训练的视觉语言模型来指导机器人的动作,但其应用范围相对有限。
2023年9月:RT-2(Robotic Transformer 2)面世,作为RT-1的升级版本,它展示了显著更好的泛化性能,尤其是在未见过的物体、背景和环境中。RT-2引入了“思维链”机制,增强了长期规划和低级技能的学习能力。
2024年:TinyVLA模型进一步推进了VLA的发展,通过优化模型结构和训练方法,在保持高效的同时实现了媲美甚至超越现有大型VLA模型的效果。此外,TinyVLA还解决了双臂环境下的操作难题,无需修改网络结构即可适应不同的动作维度。
综上所述,VLM 和 VLA 的发展历程体现了从单纯的理解视觉和语言信息到实际应用于物理世界操作的重大转变。随着时间推移和技术进步,这些模型变得越来越复杂、高效,并且更接近实现通用人工智能的目标

四、参考资料

2025年,自动驾驶即将开“卷”的端到端大模型 2.0 - VLA (Vision Language Action)

【具身智能】RT-2:视觉-语言-动作模型(VLA)

端到端混战,VLM还没暖热,VLA已叫阵

端到端自动驾驶大模型:视觉-语言-动作模型 VLA


http://www.ppmy.cn/devtools/146410.html

相关文章

github codespaces推送镜像时unauthorized: access token has insufficient scopes 解决方法

最近有镜像构建的需求,于是就使用了github提供的这个codespace来构建docker镜像,但是在构建后进行镜像推送时提示 unauthorized: access token has insufficient scopes ,如下图 这个一看就知道是权限问题, 这里的access token h…

PDF书籍《手写调用链监控APM系统-Java版》第2章 第一个Agent应用

本人阅读了 Skywalking 的大部分核心代码,也了解了相关的文献,对此深有感悟,特此借助巨人的思想自己手动用JAVA语言实现了一个 “调用链监控APM” 系统。本书采用边讲解实现原理边编写代码的方式,看本书时一定要跟着敲代码。 作者…

【从0带做】基于Springboot3+Vue3的场馆预约系统

大家好,我是武哥,最近给大家手撸了一个基于SpringBoot3Vue3的场馆预约系统,可用于毕业设计、课程设计、练手学习,系统全部原创,如有遇到网上抄袭站长的,欢迎联系博主~ 项目演示视频和教程视频 https://ww…

FlaskAPI-路径参数、查询参数

1 路径参数 在 Flask 中,路径传参是一种常见的传递数据的方式。通过在 URL 路径中指定参数,可以让视图函数根据不同的参数值来返回不同的内容。这种方式可以用于根据用户请求的不同资源(如用户 ID、产品编号等)来提供定制化的响应…

【SpringMVC】REST 风格

REST(Representational State Transfer,表现形式状态转换)是一种访问网络资源的格式。传统的资源描述方式通常如下: http://localhost/user/getById?id1http://localhost/user/saveUser 而 REST 风格的描述则更简洁&#xff1a…

45.在 Vue 3 中使用 OpenLayers 鼠标点击播放视频

引言 在 Web 开发中,地图可视化和互动功能是越来越重要的应用场景。OpenLayers 是一个强大的开源 JavaScript 库,用于显示和处理地图数据,支持多种地图服务和交互功能。在这个教程中,我们将介绍如何在 Vue 3 中集成 OpenLayers&a…

自动化测试- 数据驱动测试

数据驱动测试模式 基本概念 数据驱动(Data-Driven)是一种软件测试和开发方法,强调通过数据来驱动测试用例的执行和结果验证。与传统的硬编码测试用例不同,数据驱动测试允许使用外部数据源(如 CSV 文件、Excel 表格、…

4.微服务灰度发布落地实践(消息队列增强)

前言 消息队列是一种用于在应用程序的不同组件或系统之间传递消息的通信机制。它通过将消息存储在一个队列中,确保消息能够可靠地从发送方传递到接收方,即使发送方和接收方不同时在线或处理能力不同。消息队列在现代分布式系统、微服务架构以及异步处理…