【论文笔记】Token Turing Machines

news/2024/11/8 16:27:07/

🍎个人主页:小嗷犬的个人主页
🍊个人网站:小嗷犬的技术小站
🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。


基本信息

标题: Token Turing Machines
作者: Michael S. Ryoo, Keerthana Gopalakrishnan, Kumara Kahatapitiya, Ted Xiao, Kanishka Rao, Austin Stone, Yao Lu, Julian Ibarz, Anurag Arnab
发表: CVPR 2023
arXiv: https://arxiv.org/abs/2211.09119

基本信息

摘要

我们提出了一种Token图灵机(TTM),这是一种具有记忆功能的顺序自回归Transformer模型,用于现实世界的顺序视觉理解。

我们的模型受到开创性的神经图灵机的启发,并具有一个外部记忆,由一组总结先前历史(即帧)的标记组成。

这个记忆通过在每个步骤使用Transformer作为处理单元/控制器来高效地寻址、读取和写入。

模型的记忆模块确保新的观察结果只与记忆内容(而不是整个历史)进行处理,这意味着它可以高效地处理长序列,并在每个步骤保持有限的计算成本。

我们表明,在两个现实世界的顺序视觉理解任务上,TTM优于其他替代方案,例如为长序列设计的其他Transformer模型和循环神经网络,这些任务包括从视频中在线检测时间活动以及基于视觉的机器人动作策略学习。

代码开源于:https://github.com/google-research/scenic/tree/main/scenic/projects/token_turing

方法

模型架构

模型架构

模型由存储器(Memory)、读写模块和处理单元构成。

Reader

Reader

接受Memory和Inputs输入,压缩为处理单元输入所需的大小。

Writer

Writer

接受处理单元输出、Memory和Inputs输入,压缩为Memory所需的大小。

实验

主实验

Comparison with the state-of-the-art methods on Charades temporal activity detection

TTM在Charades temporal activity detection任务上与先前SOTA方法的对比。

TTM vs. different sequence modeling methods

TTM与其他不同序列模型的对比。

消融实验

消融实验

总结

我们引入了Token图灵机用于序列决策。

Token图灵机可以看作是神经图灵机的现代化,其内存读写是通过标记摘要来设计的。

它具有现代基于Transformer模型的优点,同时得益于拥有外部内存:无论历史长度如何,计算都是恒定的。

这种能力在许多序列决策和在线推理问题中尤为重要,例如机器人动作策略学习。

我们通过具有挑战性视觉输入的真实世界任务验证了其能力:即即兴表演活动定位和基于视觉的机器人动作策略学习。


http://www.ppmy.cn/news/1545400.html

相关文章

【网络面试篇】HTTP(2)(笔记)——http、https、http1.1、http2.0

目录 一、相关面试题 1. HTTP 与 HTTPS 有哪些区别? 2. HTTPS 的工作原理?(https 是怎么建立连接的) (1)ClientHello (2)SeverHello (3)客户端回应 &a…

blender导入的图片渲染看不见,图片预览正常,但渲染不出

在使用Blender时,我们经常会遇到导入图片后在预览渲染中显示,但在实际渲染时图片消失的问题。本文将提供详细的解决方法,帮助大家解决“Blender导入的图片渲染图像不显示”的问题。 问题原因 导入的图片在Blender中只是一张图,并…

纯血鸿蒙系统 HarmonyOS NEXT自动化测试实践

1、测试框架选择 hdc:类似 android 系统的 adb 命令,提供设备信息查询,包管理,调试相关的命令ohos.UiTest:鸿蒙 sdk 的一部分,类似 android sdk 里的uiautomator,基于 Accessibility 服务&…

故事121

22年的十月份,在上海工作了三年多的我回到了老家。 前端,20年二本毕业的,当时在上海看老家的招聘信息,感觉很棒,很心动。又因为公司在大裁员,刚刚好在最后一轮裁员的时候,被裁了,拿了…

前端开发实现自定义勾选/自定义样式,可复选,可取消勾选

基于后端返回数组实现多选、复选 以下代码基于vue2&#xff0c;如果有需要React/Vue3或者其他框架代码的&#xff0c;可以通过国内直连GPT4o进行代码转换&#xff0c;转换正确率99% 前端代码如下(直接拷贝到你的vue代码即可)&#xff1a; <!-- CustomCheckboxList.vue --&g…

大语言模型(LLM)量化基础知识(一)

请大家关注我的知乎博客&#xff1a;- 派神 - - 知乎 随着大型语言模型 (LLM) 的参数数量的增长,与其支持硬件&#xff08;加速器内存&#xff09;增长速度之间的差距越来越大&#xff0c;如下图所示&#xff1a; 上图显示&#xff0c;从 2017 年到 2022 年&#xff0c;语言模…

【ShuQiHere】️使用 Tailscale 轻松构建安全、分布式网络

&#x1f310; 【ShuQiHere】️ &#x1f4dc; 目录 &#x1f50d; 什么是 Tailscale&#xff1f;&#x1f4da; 基础概念解析⚙️ Tailscale 的原理及功能&#x1f5a5;️ 配置步骤与代码示例&#x1f4a1; 最佳实践与常见问题&#x1f4c8; 应用实例&#xff1a;Tailscale …

Python Pandas中的高级数据插值方法

大家好&#xff0c;在数据分析过程中&#xff0c;缺失值是一个常见的问题&#xff0c;尤其是在处理真实世界的数据集时&#xff0c;缺失值的存在可能会对分析结果产生较大的影响。为了解决这个问题&#xff0c;Pandas库提供了多种处理缺失值的方式&#xff0c;其中插值法是一种…