大模型涌现判定

大模型涌现判定

ops/2024/10/20 6:53:50/

什么是大模型？

大模型：是“规模足够大，训练足够充分，出现了涌现”的深度学习系统；

大模型技术的革命性：延申了人的器官的功能，带来了生产效率量级提升，展现了AGI的可行路径；

大模型的三个关键能力（涌现的行为）：ICL(情景学习能力)，CoT（深度推理能力），LNI（自然指令学习）

大模型智能涌现现象：

数据型规模达到一定水平时，在新任务上的性能显著提高，超出平均水平。

大模型的尺度（scaling laws)：

大模型的泛化表现与学习质量、训练数据规模、参数规模呈指数率关系。

智能涌现：自然现象与多学科启示

智能涌现：由个体的相互作用（简单规则）导致非常智能（复杂而有序）的整体行为。

物理观点：对称性破缺是基础（Anderson，more is different，Science，1972）：尺度是根本要素：1）划分尺度 2）出现新的因果 3）选择最强因果性——因果涌现。

数学观点：极限所展示的行为（极限是开拓认知边界的利器）

$e= \sum_{n=0}^{\infty }\frac{1}{n!}=\lim_{x\rightarrow \infty }(1+\frac{1}{x})^{x}$

$\Pi =4\sum_{n=0}^{\infty }\frac{(-1)^{n}}{2n+1}$

$\sqrt{2} =\lim_{n\rightarrow \infty }x_{n},x_{n}=1+\frac{1}{1+x_{n}}$

大模型智能涌现与尺度率：数学建模

假设 $\varepsilon (N,P,\partial l)$ 是解决任务T的性态函数（如泛化性度量）大模型的智能行为能够通过性态函数反应。

$\varepsilon (N,P,\partial l)\rightarrow \varepsilon (\infty ,\infty ,0)$ (任何意义下)

由此推得

$\varepsilon (\infty ,\infty ,0)-\epsilon \leq inf_{N,P,\partial l} (\varepsilon (N,P,\partial l))\leq \varepsilon (\infty ,\infty ,0)+\epsilon$

大模型是否存在相变？ 存在性就意味着相变！

大模型能不能工作更好？ $\varepsilon (\infty ,\infty ,0)$ 度量了相变后行为！

大模型涌现的判定准则

大模型与极限架构：有限vs无限

模型架构：以“功能块+基块周期性重复”为结构的大规模深度神经网络（映射功能）

一个大模型架构由若干个功能块组成。固定一个功能块，假设该功能含k个基块，且第i个基块定义映射 $T_{i }$ ，则该功能可以表示为k个算子的复合，即

$f_{wp}=T_{w_{k}}\cdot T_{w_{K-1}}\cdot ...\cdot T_{w_{1}}:\chi \rightarrow y$

假设宽度有限，P是K个基块的参数总规模， $w_{p}= [w_{1}...w_{n}]$ 是功能块所有参数。

而无限维系统为

$f_{w}^{*}=\lim_{p\rightarrow \infty }f_{wp}$

本模型极限架构的存在性等价于算子无穷乘积的收敛性。

通过引入非线性Lipschitz算子及特征数（涉及泛函分析，此处不细讲）可以用于描述大模型涌现或尺度率的判定条件。

结论：涌现存在的条件

1）通常假设1和假设3作为A的前提假设，因而上述定理说明：如果大模型的权值能最优设置，而且其基块满足Lip $Lip(T_{i})\leq 1$ 且满足自映射条件，或 $m(A_{i})\geq 0$ 且满足极大单调性条件，则当模型规模，训练数据规模趋于无穷时，则大模型一定会出现涌现。

2) 极限架构行为即表现为涌现具体可刻画可通过选择特定的 $\varepsilon$ 形式（包括线性和损失函数）

结论：模型规模尺度率

模型规模尺度率为指数律或幂率，取决于模型基块的组装方式：A.模式（残差式）要求的条件m（A）>0，一般总是弱于T模式（堆叠式）条件 $Lip(T)$ <1，但以收敛速度更慢为代价。

只剩下偏差（红线），即大模型的插值性将导致泛化性，大模型具有抗耐噪性

一些可以进一步深化的问题？

来自徐宗本院士的分享！

http://www.ppmy.cn/ops/126910.html

相关文章

SpringCloud学习：Openfeign组件实现服务调用和负载均衡

SpringCloud学习：Openfeign组件实现服务调用和负载均衡

OpenFeign：服务调用与负载均衡（服务端接口） 是什么：通过OpenFeign可以实现服务调用和负载均衡 OpenFeign是一个声明性web服务客户端， 怎么用：服务提供者提取公共接口用FrignClient标注，服务调…

阅读更多...

同一个交换机不同vlan的设备为什么不能通信

同一个交换机不同vlan的设备为什么不能通信

在同一个交换机上，不同 VLAN 的设备不能直接通信，这是因为 VLAN（虚拟局域网）通过在数据链路层（OSI 第2层）对设备进行逻辑隔离，将不同 VLAN 的设备视为属于不同的网络。具体原因如下：…

阅读更多...

Flink 窗口触发器Triggers

Flink 窗口触发器Triggers

Triggers ❝ 定义：触发器决定了窗口何时被触发。在Flink中，窗口的触发是通过设置定时器来实现的。作用：控制窗口数据的聚合时机，确保数据在适当的时间点被处理和输出。 Trigger关键方法 onElement: 当元素被添加到窗口时调用&a…

阅读更多...

Oracle中解决select into值集为空的报错情况

Oracle中解决select into值集为空的报错情况

先看为空的情况 procedure test is n number; begin select 1 into n from CUX_2_OM_RELEASE_LIMIT_V cov where cov.Customer_Idnull; end; CUX_2_OM_RELEASE_LIMIT_V中没有id是空的，因此返回的结果一定是空集运行结果: 有时候我…

阅读更多...

mybatisPlus只需要实体类

mybatisPlus只需要实体类

依赖包管理 <project xmlns"http://maven.apache.org/POM/4.0.0" xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation"http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"><mode…

阅读更多...

记忆化搜索

记忆化搜索

文章目录记忆化搜索斐波那契数不同路径最长递增子序列猜数字大小 II矩阵中的最长递增路径记忆化搜索斐波那契数题目：斐波那契数思路递归时间复杂度O(2^n) C代码 class Solution { public:int fib(int n) {if(n 0 || n 1) return n;return fib(n - 1) f…

阅读更多...

【整合包及教程】第二代GPT-SoVITS V2：革新声音克隆技术

【整合包及教程】第二代GPT-SoVITS V2：革新声音克隆技术

随着人工智能技术的飞速发展，语音克隆技术也在不断进化。近期推出的第二代GPT-SoVITS V2，以其强大的功能和易用性，成为该领域的一大突破。GPT-SoVITS V2不仅能够基于少量的语音样本（例如1分钟的音频）来克隆音色&#x…

阅读更多...

如何快速学会盲打

如何快速学会盲打

今天就来给大家分享一下如何快速学会盲打盲打的基本方法和步骤手指放置：将双手放在键盘上，左手食指放在F键上，右手食指放在J键上，其他手指分别放在相邻的键位上。熟悉键盘布局：学习26个字母的位置，以及…

阅读更多...

最新文章