【AI学习】LLM的发展方向

devtools/2025/2/11 6:30:26/

个人的思考,请大家批评。

这一轮AI浪潮,叙事的主要逻辑就是scaling law,模型越大,性能越好,投入越大,性能越好,回报越高,等等。当然,首先要有一个能够scaling的模型架构,Transformer是首个能够scaling的模型架构,去年的Mamba学习,了解了为什么CNN、LSTM这些架构为什么无法scaling。

在这里插入图片描述

Scaling law,以前主要集中在LLM的预训练方面。一段时间有个说法,模型的智能主要来自预训练,后面的SFT主要是提升指令跟随能力,RLHF主要是价值对齐。

Ilya在NeurIPS 2024的发言,宣布预训练即将结束,于是大家需要寻找新的scaling law方向。不同的人说法不同,大概有数据、RL、Inference-time compute(也有叫做test-time compute)等scaling方向。数据方面,不断生成高质量数据,包括合成数据,越多的高质量数据,应该可以增强模型性能。现在看起来模型的后训练,从基础模型到推理模型,通过RL也可以提升模型性能,Inference-time compute,越长的推理时间,也可以提升性能。这些方面,论述太多,不用我赘述了。

个人觉得,可能还有两个scaling方向,就是训练成本和推理成本的持续降低,或许这依赖于新的更高效——同时也能scaling的架构。就如Albert Gu所说,“目前的模型消耗的数据远远超过人类学习所需的数据量。我们早已意识到这一点,但由于规模扩展的惊人效果,我们一直在忽视这一事实。训练一个模型需要万亿级的tokens,而人类成为一个相对智能的存在所需的数据量却少得多。因此,我们的最佳模型和人类之间存在着样本效率的差异。人类的学习表明,存在某种学习算法、目标函数、架构或其组合,可以比当前的模型更高效地学习。”

推理成本的降低,可以提升推理性能。DeepSeek技术报告也指出了这一点。同样的计算成本,推理成本的降低,意味着更大的搜索空间,当然有更好的推理性能。

关于训练成本,如果能够不断降低,将会带来更多模型。前文说了,模型的智能主要来自数据集,模型是在学习数据集的数据分布。现在LLM的训练,不断增加所谓的高质量数据,降低通用数据的配比,是否会导致模型在通用性能的下降?就如不同的人,学习的内容不一样,最后的结果可能也不一样。未来,必然需要各种擅长不同领域的模型,比如管理、科学、工程、财务、艺术等等,不同的模型就需要不同的数据配比,未来对模型的种类方面的需求必然越来越多。就像人脑,不同的区域完成不同的功能。模型的训练成本降低,就可以推出系列模型,组合成一个类比整个社会系统的大模型,这是未来更大的Scaling方向吧。


http://www.ppmy.cn/devtools/157845.html

相关文章

深入 JVM 虚拟机:字符串常量池演变与 intern() 方法工作原理解析

🚀 作者主页: 有来技术 🔥 开源项目: youlai-mall ︱vue3-element-admin︱youlai-boot︱vue-uniapp-template 🌺 仓库主页: GitCode︱ Gitee ︱ Github 💖 欢迎点赞 👍 收藏 ⭐评论 📝 如有错误敬请纠正! 前言 在 Java 开发中,字符串常量池(String Constant…

web前端布局--使用element中的Container布局容器

前端页面,跟Qt中一样,都是有布局设置的。 先布局,然后再在各布局中添加显示的内容。 Element网站布局容器:https://element.eleme.cn/#/zh-CN/componet/container 1.将element相应的布局容器代码layout,粘贴到vue项…

git 分支详解

语句 1、git branch 没有接任何参数,则会输出当前项目的所有分支 2、新增分支 git branch 分支名字// 示例 git branch liu 3、更改分支名称 git branch -m 旧分支名 新分支名// 示例 git branch -m liu new_liu 4、删除分支 git branch -d 分支名//示例 git…

【MQ】Spring3 中 RabbitMQ 的使用与常见场景

一、初识 MQ 传统的单体架构,分布式架构的同步调用里,无论是方法调用,还是 OpenFeign 难免会有以下问题: 扩展性差(高耦合,需要依赖对应的服务,同样的事件,不断有新需求&#xff0…

【漫话机器学习系列】082.岭回归(或脊回归)中的α值(alpha in ridge regression)

岭回归(Ridge Regression)中的 α 值 岭回归(Ridge Regression)是一种 带有 L2​ 正则化 的线性回归方法,用于处理多重共线性(Multicollinearity)问题,提高模型的泛化能力。其中&am…

MySQL 入门大全:数据类型

🧑 博主简介:CSDN博客专家,历代文学网(PC端可以访问:https://literature.sinhy.com/#/literature?__c1000,移动端可微信小程序搜索“历代文学”)总架构师,15年工作经验,…

关于Redis的事务

认识Redis的事务 MySQL的事务拥有四个特性: 原子性:把多个操作,打包成一个整体了。张三给李四转钱,李四没收到,张三就不能扣钱。 一致性:事务执行之前和之后,数据能对得上。张三有1000&#…

MySQL与钉钉数据融合,加速企业付款退款自动化进程

在当今数字化转型的大潮中,企业对于高效、自动化业务流程的需求日益迫切。特别是在财务管理领域,付款与退款流程的自动化不仅能够显著提升工作效率,还能有效减少人为错误,增强企业的竞争力。本文将深入探讨MySQL与钉钉数据的融合&…