关于斯坦福TTT,大家难道没啥可唠的嘛~?

ops/2024/10/18 9:26:24/

cb9517f1738241a88e7e452a6bbd9c0b.png

 

TTT与transformer也好或manba也好它们之间背后的本质思想,表面上来看是对上下文进行状态表征压缩,再细想来看,均是一种对输入自身结构的一种线性建模变换,不过三者间所采用线性建模方法和策略各有不同和优劣,而TTT在这一过程中加入了自监督梯度优化方法以保证在建模变换或者说压缩过程中具备的目标指向性,也就是论文所说的内循环,当然这种思想与模型任务目标训练学习过程中的外循环思想是等同的,当然这种内循环也可谓一种元学习~但即便是这样,本人也认为说取代或颠覆transformer也还为时过早,因为transformer结构中的这种自然的注意力机制本身或者manba中的天然rnn序列建模本身与TTT自监督建模方法对输入侧的上下文自身结构的捕获的全面性、完备性、刻画粒度等问题还需理论与实践的进一步验证。

6c565aae4c0642f2ad2ef9e3e74c3498.jpg

 

当然,TTT确实也为在对于in context leaning下的LLM更广袤应用和技术发展趋势下带来了非常有意义的一种视角和选择。而让我兴奋的是:TTT这么一闹,似乎进一步拉进或通过这种形式验证或提现了自己一年前对LLM碎片化思考回忆录系列中的某两篇有关SFT与ICL在模型训练与推理上的等效或等价性。感兴趣的大伙也可以参考我之前的那篇系列文章其中一篇子篇的笔记原文:系列② · ICL与SFT的羁绊"

这里截取部分内容:

“LLM在任务训练以及推理的模式是基于tokenize的,虽然可能两者的语义空间离散度是一样的,但对于模型的输入与输出侧的这种模式的不同,可能会衍生出ICL和SFT对于我们来讲的两种底层的数学变换模式;- 训练过程中的目标优化形式的不同,这里可能需要用一个「目标空间组合优化」这一新概念来尝试阐释。...”

“...ICL&SFT)模式的等价或等效性:

(1)数学变换上的等价→在纯数学维度上,一种是所谓的scale out,一种是scale up,一种是上下文作为变量的变换,一种是参数作为变量的变换,最终都是对数据分布的一种底层数学变换模式;

(2)不同任务类型及对应不同模型结构变换上的等价→(2)这里可能需要分别by任务和by模型结构来看,所谓两种范式的等效性来自于底层数学变换本质相同(随具象性有差异),即模型结构的数学变换本质相同...”

#人工智能 #AGI #LLM #斯坦福大学 #TTT #transformers #manba


http://www.ppmy.cn/ops/56628.html

相关文章

昇思学习打卡-12-Vision Transformer图像分类

文章目录 ViT模型学习构建模型Multi-Head AttentionTransformerEncoderpos_embeddingVit部分实现 推理结果 ViT模型学习 Vision Transformer(ViT)简介 ViT则是自然语言处理和计算机视觉两个领域的融合结晶。在不依赖卷积操作的情况下,依然可…

合合TextIn - 大模型加速器

TextIn是合合信息旗下的智能文档处理平台,在智能文字识别领域深耕17年,致力于图像处理、模式识别、神经网络、深度学习、STR、NLP、知识图谱等人工智能领域研究。凭借行业领先的技术实力,为扫描全能王、名片全能王等智能文字识别产品提供强大…

数字孪生技术在智能家居中的应用

引言 随着物联网(IoT)、人工智能(AI)和大数据技术的迅速发展,智能家居已成为现代生活的一个重要组成部分。数字孪生技术作为一种新兴技术,正在为智能家居的优化和升级提供前所未有的机会。本文将探讨数字孪…

安全防御(防火墙)

第二天: 1.恶意程序---一般会具有一下多个或则全部特点 1.非法性:你未经授权它自动运行或者自动下载的,这都属于非法的。那恶意程序一般它会具有这种特点, 2.隐蔽性:一般隐藏的会比较深,目的就是为了防止…

Java Stream API详解:高效处理集合数据的利器

引言 Java 8引入了许多新特性,其中最为显著的莫过于Lambda表达式和Stream API。Stream API提供了一种高效、简洁的方法来处理集合数据,使代码更加简洁明了,且具有较高的可读性和可维护性。本文将深入探讨Java Stream API的使用,包…

51单片机嵌入式开发:9、 STC89C52RC 操作LCD1602技巧

STC89C52RC 操作LCD1602技巧 1 代码工程2 LCD1602使用2.1 LCD1602字库2.2 巧妙使用sprintf2.3 光标显示2.4 写固定长度的字符2.5 所以引入固定长度写入方式: 3 LCD1602操作总结 1 代码工程 承接上文,在原有工程基础上,新建关于lcd1602的c和h…

STM32杂交版(HAL库、音乐盒、闹钟、点阵屏、温湿度)

一、设计描述 本设计精心构建了一个以STM32MP157A高性能单片机为核心控制单元的综合性嵌入式系统。该系统巧妙融合了蜂鸣器、数码管显示器、点阵屏、温湿度传感器、LED指示灯以及按键等多种外设模块,形成了一个功能丰富、操作便捷的杂交版智能设备。通过串口…

Android Retrofit post请求,@Body传递的参数转义问题

文章目录 问题解决原因解决方案一:自己拼接json字符串,Body使用RequestBody类型,比如解决方案二:修改Retrofit的Gson 问题 因为传递的参数字符串中有等号 ,结果传递的时候,打印出来 原始字符串&#xff…