大模型涌现判定

ops/2024/10/20 6:53:50/

什么是大模型?

大模型:是“规模足够大,训练足够充分,出现了涌现”的深度学习系统;

大模型技术的革命性:延申了人的器官的功能,带来了生产效率量级提升,展现了AGI的可行路径;

大模型的三个关键能力(涌现的行为):ICL(情景学习能力),CoT(深度推理能力),LNI(自然指令学习)

大模型智能涌现现象:

数据型规模达到一定水平时,在新任务上的性能显著提高,超出平均水平。

大模型的尺度(scaling laws):

大模型的泛化表现与学习质量、训练数据规模、参数规模呈指数率关系。

智能涌现:自然现象与多学科启示

智能涌现:由个体的相互作用(简单规则)导致非常智能(复杂而有序)的整体行为。

物理观点:对称性破缺是基础(Anderson,more is different,Science,1972):尺度是根本要素:1)划分尺度  2)出现新的因果  3)选择最强因果性——因果涌现。

数学观点:极限所展示的行为(极限是开拓认知边界的利器)

                ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        e= \sum_{n=0}^{\infty }\frac{1}{n!}=\lim_{x\rightarrow \infty }(1+\frac{1}{x})^{x}

        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        \Pi =4\sum_{n=0}^{\infty }\frac{(-1)^{n}}{2n+1}

        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        \sqrt{2} =\lim_{n\rightarrow \infty }x_{n},x_{n}=1+\frac{1}{1+x_{n}}

大模型智能涌现与尺度率:数学建模

假设\varepsilon (N,P,\partial l)是解决任务T的性态函数(如泛化性度量)大模型的智能行为能够通过性态函数反应。

        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        \varepsilon (N,P,\partial l)\rightarrow \varepsilon (\infty ,\infty ,0)(任何意义下)

由此推得

        ​​​​​​​        ​​​​​​​        \varepsilon (\infty ,\infty ,0)-\epsilon \leq inf_{N,P,\partial l} (\varepsilon (N,P,\partial l))\leq \varepsilon (\infty ,\infty ,0)+\epsilon

大模型是否存在相变?  存在性就意味着相变!

大模型能不能工作更好?  \varepsilon (\infty ,\infty ,0)度量了相变后行为!

大模型涌现的判定准则

大模型与极限架构:有限vs无限

模型架构:以“功能块+基块周期性重复”为结构的大规模深度神经网络(映射功能)

一个大模型架构由若干个功能块组成。固定一个功能块,假设该功能含k个基块,且第i个基块定义映射T_{i },则该功能可以表示为k个算子的复合,即

        ​​​​​​​        ​​​​​​​        ​​​​​​​                ​​​​​​​        ​​​​​​​f_{wp}=T_{w_{k}}\cdot T_{w_{K-1}}\cdot ...\cdot T_{w_{1}}:\chi \rightarrow y                                                

        假设宽度有限,P是K个基块的参数总规模,w_{p}= [w_{1}...w_{n}]是功能块所有参数。

而无限维系统为

        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​      f_{w}^{*}=\lim_{p\rightarrow \infty }f_{wp}

本模型极限架构的存在性等价于算子无穷乘积的收敛性。

通过引入非线性Lipschitz算子及特征数(涉及泛函分析,此处不细讲)可以用于描述大模型涌现或尺度率的判定条件。

结论:涌现存在的条件

1)通常假设1和假设3作为A的前提假设,因而上述定理说明:如果大模型的权值能最优设置,而且其基块满足LipLip(T_{i})\leq 1且满足自映射条件,或m(A_{i})\geq 0且满足极大单调性条件,则当模型规模,训练数据规模趋于无穷时,则大模型一定会出现涌现。

2) 极限架构行为即表现为涌现具体可刻画可通过选择特定的\varepsilon形式(包括线性和损失函数)

结论:模型规模尺度率

模型规模尺度率为指数律或幂率,取决于模型基块的组装方式:A.模式(残差式)要求的条件m(A)>0,一般总是弱于T模式(堆叠式)条件Lip(T)<1,但以收敛速度更慢为代价。

只剩下偏差(红线),即大模型的插值性将导致泛化性,大模型具有抗耐噪性 

一些可以进一步深化的问题?

来自徐宗本院士的分享!


http://www.ppmy.cn/ops/126910.html

相关文章

SpringCloud学习:Openfeign组件实现服务调用和负载均衡

OpenFeign&#xff1a;服务调用与负载均衡&#xff08;服务端接口&#xff09; 是什么&#xff1a;通过OpenFeign可以实现服务调用和负载均衡 OpenFeign是一个声明性web服务客户端&#xff0c; 怎么用&#xff1a;服务提供者提取公共接口用FrignClient标注&#xff0c;服务调…

同一个交换机不同vlan的设备为什么不能通信

在同一个交换机上&#xff0c;不同 VLAN 的设备不能直接通信&#xff0c;这是因为 VLAN&#xff08;虚拟局域网&#xff09;通过在数据链路层&#xff08;OSI 第2层&#xff09;对设备进行逻辑隔离&#xff0c;将不同 VLAN 的设备视为属于不同的网络。具体原因如下&#xff1a;…

Flink 窗口触发器Triggers

Triggers ❝ 定义&#xff1a;触发器决定了窗口何时被触发。在Flink中&#xff0c;窗口的触发是通过设置定时器来实现的。 作用&#xff1a;控制窗口数据的聚合时机&#xff0c;确保数据在适当的时间点被处理和输出。 Trigger关键方法 onElement: 当元素被添加到窗口时调用&a…

Oracle中解决select into值集为空的报错情况

先看为空的情况 procedure test is n number; begin select 1 into n from CUX_2_OM_RELEASE_LIMIT_V cov where cov.Customer_Idnull; end; CUX_2_OM_RELEASE_LIMIT_V中没有id是空的&#xff0c;因此返回的结果一定是空集 运行结果: 有时候我…

mybatisPlus只需要实体类

依赖包管理 <project xmlns"http://maven.apache.org/POM/4.0.0" xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation"http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"><mode…

记忆化搜索

文章目录 记忆化搜索斐波那契数不同路径最长递增子序列猜数字大小 II矩阵中的最长递增路径 记忆化搜索 斐波那契数 题目&#xff1a;斐波那契数 思路 递归 时间复杂度O(2^n) C代码 class Solution { public:int fib(int n) {if(n 0 || n 1) return n;return fib(n - 1) f…

【整合包及教程】第二代GPT-SoVITS V2:革新声音克隆技术

随着人工智能技术的飞速发展&#xff0c;语音克隆技术也在不断进化。近期推出的第二代GPT-SoVITS V2&#xff0c;以其强大的功能和易用性&#xff0c;成为该领域的一大突破。GPT-SoVITS V2不仅能够基于少量的语音样本&#xff08;例如1分钟的音频&#xff09;来克隆音色&#x…

如何快速学会盲打

今天就来给大家分享一下如何快速学会盲打 盲打的基本方法和步骤 手指放置&#xff1a;将双手放在键盘上&#xff0c;左手食指放在F键上&#xff0c;右手食指放在J键上&#xff0c;其他手指分别放在相邻的键位上。熟悉键盘布局&#xff1a;学习26个字母的位置&#xff0c;以及…