谷歌训了28个15亿参数模型,说明数据对大模型训练的影响

news/2024/12/1 0:47:38/

夕小瑶科技说 原创
作者 | Python

随着ChatGPT的爆火,大规模语言模型(Large Language Model,LLM)如日中天。然而,由于相关数据细节并不公开,相关研究大多都是盲人摸象式探索,缺乏系统的经验指导。

本文针对LLM的语言模型预训练步骤给出了系统的经验性探索,训练了28个1.5B规模的LLM,关注数据时间、不同的风险内容和质量过滤策略、不同的领域组合方案,对预训练来拿带来的影响。

结论表明,预训练数据与测试数据之前的时间差距会带来负面影响,且无法被后续的fine-tuning克服;模型表现与内容风险难以两全;不同来源的数据混合,如书籍与网页数据,能够带来明确的提升。

论文题目:
A Pretrainer’s Guide to Training Data: Measuring the Effects of Data Age, Domain Coverage, Quality, & Toxicity

论文链接:
https://arxiv.org/pdf/2305.13169.pdf

大模型研究测试传送门

ChatGPT能力研究传送门: hujiaoai

GPT-4能力研究传送门(遇浏览器警告点高级/继续访问即可): Hello, GPT4!

实验设置

模型选用基于T5X codebase实现的LM-XL, 一个 1.5B 规模的Decoder-only模型,通过自回归的next-token-prediction目标训练。此外,还用了一个20M参数的LM-Small模型作为小模型对比。

数据集基于C4和Pile。C4数据集是Common Crawl在2019年的快照,包含新闻、法律、维基百科和通用网络文档等多种文本类型。Pile数据集包括22个来源的800GB数据,如Common Crawl的网络爬取数据,以及更多多样化的学术、书籍、编码、医疗、法律和社交等数据源。

评价方式:

  • 领域泛化:MRQA和UnifiedQA,包含30个不同领域的问答数据集。

  • 时效性:从论文[1]中选取了5个不同领域的数据集,PubCLS, NewSum, PoliAffs, TwiERC, 和 AIC。

  • 有害信息生成:根据Perspective API和RealToxicityPrompts数据集,关注与性别、种族和宗教等相关的输出。

  • 有害信息识别:使用了来自Social Bias Frames、DynaHate和Toxigen等数据集的训练和测试集,以评估模型识别有害信息的能力。

预训练数据与测试数据的时间差

模型表现如上图所示。其中,纵轴是预训练数据的时间来源,横轴是测试数据的时间来源。按时间差进行统计后可以得到下图。从中可以看出,训练数据和测试数据时间上的差异会带来明显的表现下降。

具体看下图的统计数据,其中TD训练数据和测试数据每差一年的预期效果下降,而r是皮尔森相关系数。Fine-tuning部分是在测试前,先用和数据集相同年代的语料精调一下。可以看出,预训练数据和评估数据之间的时间不一致无法通过微调来解决,预训练数据时效性的影响对于较大的模型比较明显。

有害内容/质量过滤策略

下图可以看出,预训练数据中有害内容过滤越多,模型生成有害信息就越少,模型鉴别有害信息的能力也越弱。但低质数据过滤之后,会减少数据的多样性,从而提高有害信息鉴别的能力的同时,让模型生成更多的有害信息。

下图可以看出,在LM-XL上,低质量内容过滤可以提升大多数领域的问答任务表现,除了在书籍数据上起到了反效果。事实上,在Books, Wikipedia, 和 Web 这三个“高质量”领域中,低质量数据过滤起到的效果反而是最差的。

下图可以看出,有害信息过滤会对LM-XL解决绝大多数下游QA任务的能力起到负面影响。

预训练数据领域组合

下图可以看出,去掉预训练数据中的某一个领域,普遍会对模型在下游任务上的表现产生负面影响。领域多样性对预训练数据而言,甚至比领域相关性更重要。Common Crawl, OpenWeb, 和 Books 对下游任务表现的影响最为明显。

下图中,我们观察去掉预训练数据中的某一个领域,对有害信息生成与检测的影响。可以发现,去掉一个领域的数据,普遍会对有害信息检测产生负面影响。书籍、学术和互联网数据含有相对较多的有害信息(如个人信息等),将其去除可以让预训练模型生成较少的有害信息。

结束语

这篇文章调研了大语言模型训练数据对预训练过程的影响,为大语言模型的研究提供了有价值的经验指导,同时又让人们看到了谷歌的财大气粗。训28个1.5B的大模型不带眨眼的,而且只是为了得到些经验性的结论而非产生直接的社会经济效益。

参考资料

[1] Time waits for no one! analysis and challenges of temporal misalignment.


http://www.ppmy.cn/news/109035.html

相关文章

95后阿里P7架构师晒出工资单:狠补了这个,真香...

最近一哥们跟我聊天装逼,说他最近从阿里跳槽了,我问他跳出来拿了多少?哥们表示很得意,说跳槽到新公司一个月后发了工资,月入5万多,表示很满足!这样的高薪资着实让人羡慕,我猜这是税后…

【实用篇】SpringCloud02

文章目录 SpringCloud020.学习目标1.Nacos配置管理1.1.统一配置管理1.1.1.在nacos中添加配置文件1.1.2.从微服务拉取配置 1.2.配置热更新1.2.1.方式一1.2.2.方式二 1.3.配置共享1)添加一个环境共享配置2)在user-service中读取共享配置3)运行两…

深度学习:大模型的正则化

l1l2正则和dropout正则化[https://youzipi.blog.csdn.net/article/details/75307522] LN和BN归一化 [深度学习:批归一化Batch Normalization] 主流大模型使用的Normalization主要有三类,分别是Layer Norm,RMS Norm,以及Deep Norm。 Post-Norm和Pre-Norm 根据Normalizat…

CRC16/ModBus校验与C语言实现方法

目录 一、什么是CRC16/Modbus校验 二、CRC16/Modbus校验的计算步骤 三、CRC16/Modbus校验的C语言实现 一、什么是CRC16/Modbus校验 CRC16/Modbus校验在设备通信时可以验证数据帧的完整性,从而避免错误数据。其应用十分广泛,主要应用于Modbus通信协议等…

1088 Rational Arithmetic(53行代码+超级无敌详细注释,看了必会)

分数 20 全屏浏览题目 切换布局 作者 CHEN, Yue 单位 浙江大学 For two rational numbers, your task is to implement the basic arithmetics, that is, to calculate their sum, difference, product and quotient. Input Specification: Each input file contains on…

HTML <command> 标签

实例 标记一个按钮: <menu> <command οnclick="alert(Hello World)"> Click Me!</command> </menu>浏览器支持 IEFirefoxChromeSafariOpera没有浏览器支持 <command> 标签。 只有 Internet Explorer 9 (更早或更晚的版本都不支持…

【零基础学习C++】欢迎来到C++的世界

个人主页&#xff1a;【&#x1f60a;个人主页】 系列专栏&#xff1a;【❤️系列专栏】 文章目录 前言C(The C Programming Language/c plus plus)发展历程语言标准语言特点支持数据封装和数据隐藏支持继承和重用支持多态性 前言 C是一种计算机高级程序设计语言&#xff0c; …

SpringBoot使用-基于Idea搭建WebSocket应用

文章目录 前言搭建WebSocket应用的实操流程验证总结前言 SpringBoot是所有基于Spring开发项目的起点,使得开发者能快速搭建 Spring 项目。在Idea集成工具环境下,通过使用SpringBoot,开发人员选用合适的Maven设置,能够方便地搭建WebSocket应用。 搭建WebSocket应用的实操流…