VLM和VLAM（VLA）相关介绍和发展历程

- 一、个人感想
- 二、相关介绍
- - 2.1 视觉语言模型 (VLM) 的发展历程
  - 2.2 视觉语言动作模型 (VLA) 的发展历程
  - 2.3 一些关键的研究工作：
  - 一些架构图
- 三、发展历程
- - 3.1 视觉语言模型 (VLM) 的发展时间线
  - 3.2 视觉语言动作模型 (VLA) 的发展时间线
- 四、参考资料

一、个人感想

进入2024年，尤其是最近半年，在自动驾驶圈，出现了很多听上去很高大上的名词，比如视觉语言模型（VLM）、视觉语言动作模型（VLA，相对比前者可微，所以可以端到端）、世界模型等等。让我这个刚入圈子的在校硕士，不禁感叹，世界变化太快，技术迭代也很快，总感觉新的东西层出不穷，快要被世界淘汰了。但是吧，个人其实又有点好奇，为啥最近一年，端到端、VLM、VLA接连都出来，难道都是最近的成果吗？出于这样的好奇，特此搜了一下VLM和VLA，发现好像并不是那么回事，这俩技术，其实几年前就有了，只不过最近自动驾驶中L2辅助驾驶行业各种新概念都卷起来了，加上理想他们弄了个端到端+VLM双系统，使得各种看上去很新但是其实几年前就开始研究的东西被吹起来了。
关于以后的技术方向，感觉参考文章中有两句话说的比较好，如下：
sss
在这里插入图片描述

二、相关介绍

相关介绍和发展历程的内容来自于通义大模型，还是让大模型总结整理比较方便。

视觉语言模型（VLM）和视觉语言动作模型（VLA）是近年来在人工智能领域内取得显著进展的两个概念，它们的发展历程反映了多模态学习的进步，特别是在结合视觉、语言和机器人动作方面

2.1 视觉语言模型 (VLM) 的发展历程

视觉语言模型的发展可以追溯到2015年左右，当时研究人员开始探索如何将计算机视觉与自然语言处理结合起来，以实现更复杂的人机交互。一个重要的里程碑是基于图像的问答系统（Visual Question Answering, VQA），它要求模型根据给定的图片回答相关问题。这类任务需要模型理解图像内容，并将其与语言查询相结合，从而给出合理的答案。（其实这个东西就是现在2024年底很成熟的GPT大模型了，比如给他一张摄影作品，可以让他给你点评或者解释图片内容等等）

随后，随着深度学习技术的发展，特别是Transformers架构的提出，VLM得到了快速进步。例如，Google推出的PaLI（Pathways Language-Image model）是一个统一的语言图像模型，能够执行多种跨模态任务，如视觉问答、图像字幕等。PaLI-X 和 PaLM-E（Pathways Language Model Embodied）进一步增强了这些能力，通过将大规模的视觉语言预训练与机器人数据相结合，实现了从VLM到VLA的转变。如下图所示：
在这里插入图片描述

2.2 视觉语言动作模型 (VLA) 的发展历程

视觉语言动作模型的概念则更为新颖，它旨在让机器人不仅能理解和生成语言，还能根据视觉输入执行物理世界的动作。RT-2（Robotic Transformer 2）是这一领域的代表作品之一，由Google DeepMind开发，建立在RT-1的基础上。RT-2通过使用预训练的视觉语言模型作为基础，直接输出动作指令作为token序列，使得机器人可以在未见过的环境中完成复杂的操作任务。

2.3 一些关键的研究工作：

视觉语言模型（VLM）：早期的VQA任务被认为是VLM的一个起点，而像ViT（Vision Transformer）、CLIP等模型则是推动了VLM发展的重要力量。
视觉语言动作模型（VLA）：RT-2被广泛认为是首个成功的VLA模型，它首次明确地将视觉、语言和动作三者结合起来，用于指导机器人的实际操作。
总的来说，VLM和VLA都是AI研究中非常活跃的方向，它们的出现和发展极大地促进了具身智能的进步，即赋予机器人理解并互动于物理世界的能力。

一些架构图

端到端
在这里插入图片描述

三、发展历程

视觉语言模型（VLM）和视觉语言动作模型（VLA）的发展历程反映了多模态学习的进步，特别是在结合视觉、语言和机器人动作方面。

3.1 视觉语言模型 (VLM) 的发展时间线

2015-2016年：视觉问答系统（Visual Question Answering, VQA）的兴起，标志着VLM早期研究的开始。这些系统能够根据图像回答自然语言问题，首次将视觉与语言理解结合起来。
2017-2018年：研究人员开始探索更复杂的跨模态任务，如图像字幕生成（Image Captioning），进一步推动了VLM的发展。
2019年：BERT等预训练语言模型的提出为后续的多模态模型提供了强大的语言处理能力。
2020年：CLIP（Contrastive Language–Image Pre-training）由OpenAI发布，它通过对比学习框架连接了图像和文本，极大地促进了VLM的发展。
2021年：ViT（Vision Transformer）的出现，使得Transformers架构不仅限于NLP，也开始在计算机视觉中取得成功，统一了CV和NLP的架构。
2022年：Google推出了PaLI（Pathways Language-Image model），这是一个大规模的语言图像模型，能够执行多种跨模态任务。
2023年：
PaLM-E（Pathways Language Model Embodied）被推出，它结合了PaLM和ViT，为机器人技术带来了新的可能性。
RT-1（Robotic Transformer 1）发布，这是第一个尝试直接从视觉语言输入生成机器人动作的模型之一。
2024年：TinyVLA模型的提出，它提供了一种更加紧凑且高效的解决方案来实现视觉语言动作模型，减少了对大量预训练数据的需求，并提高了推理速度。

3.2 视觉语言动作模型 (VLA) 的发展时间线

2023年3月：RT-1（Robotic Transformer 1）的发布是VLA领域的关键一步，它证明了可以使用预训练的视觉语言模型来指导机器人的动作，但其应用范围相对有限。
2023年9月：RT-2（Robotic Transformer 2）面世，作为RT-1的升级版本，它展示了显著更好的泛化性能，尤其是在未见过的物体、背景和环境中。RT-2引入了“思维链”机制，增强了长期规划和低级技能的学习能力。
2024年：TinyVLA模型进一步推进了VLA的发展，通过优化模型结构和训练方法，在保持高效的同时实现了媲美甚至超越现有大型VLA模型的效果。此外，TinyVLA还解决了双臂环境下的操作难题，无需修改网络结构即可适应不同的动作维度。
综上所述，VLM 和 VLA 的发展历程体现了从单纯的理解视觉和语言信息到实际应用于物理世界操作的重大转变。随着时间推移和技术进步，这些模型变得越来越复杂、高效，并且更接近实现通用人工智能的目标