[大语言模型-论文精读] 利用多样性进行大型语言模型预训练中重要数据的选择

devtools/2024/12/22 13:47:46/

[大语言模型-论文精读] 利用多样性进行大型语言模型预训练中重要数据的选择

论文信息:

Harnessing Diversity for Important Data Selection in Pretraining Large Language Models
Authors: Chi Zhang, Huaping Zhong, Kuan Zhang, Chengliang Chai, Rui Wang, Xinlin Zhuang, Tianyi Bai, Jiantao Qiu, Lei Cao, Ye Yuan, Guoren Wang and Conghui He
在这里插入图片描述

1. 概览

问题解决:
这篇论文解决的主要问题是在预训练大型语言模型(LLMs)时,如何从大规模可用的训练语料库中选择数据的问题。特别是在数据质量参差不齐的情况下,如何有效地选择对模型性能提升有重要影响的数据实例。

研究结果:
论文提出了一种名为Quad的新方法,该方法在考虑数据质量的同时,还考虑了数据的多样性。Quad利用数据影响(influence)来评估数据质量,并通过簇聚类和多臂赌博机(Multi-Armed Bandit, MAB)方法来确保数据多样性。实验结果表明,Quad方法在预训练阶段能够达到最先进的结果。

2. 研究背景

技术背景:
大型语言模型(LLMs)在人工智能领域取得了显著进展,它们通过扩展模型参数、非监督数据集大小和计算资源,能够成功处理广泛的下游任务。然而,预训练LLMs时计算资源有限,因此精心选择训练数据集对于产生高性能的LLMs至关重要。

发展历史:
以往的数据选择方法包括基于规则的数据过滤、查询高性能模型、使用替代模型等。这些方法虽然在某些数据集和模型上取得了成功,但它们依赖于简单的启发式规则,没有考虑所选数据对模型的影响,导致预训练结果次优。

3. 技术挑战

发展困难:

  • 计算成本高:计算所有可用数据的影响分数非常耗时,尤其是需要梯度计算的影响函数。
  • 数据多样性不足:仅选择影响分数最高的数据实例可能导致选择的数据在特征空间中分布过于集中,缺乏多样性,从而影响预训练模型对各种下游任务的泛化能力。
    在这里插入图片描述

4. 如何破局

解决方法:

  • 簇聚类:Quad首先将数据集分成多个簇,使得同一簇内的数据实例相似,不同簇之间的数据实例具有多样性。
  • 多臂赌博机方法:每个簇被视为一个赌博机的臂,通过选择臂来抽取样本并计算影响分数,从而在确保高质量数据的同时,也保证了数据的多样性。
  • 加速iHV P计算方法:为了更准确地评估单个数据点对整体模型的影响,Quad扩展了从MLP层到整个层的加速iHV P计算方法。
    在这里插入图片描述
    在这里插入图片描述

5. 技术应用

实验设置:

  • 使用预训练的嵌入模型对候选池中的数据进行k-means聚类。
  • 通过计算簇间的距离并找到相邻簇,使用多臂赌博机方法选择数据子集。
  • 在在线过程中,将数据选择问题重新定义为多臂赌博机问题,每个簇代表一个臂。

潜在应用:

  • 该方法可以应用于任何需要预训练大型语言模型的场景,特别是在数据量巨大且质量不一的情况下。
  • 可以用于提高特定领域内大型模型的性能,通过选择与该领域相关的数据进行进一步训练。

6. 小结

这篇论文通过结合数据影响和多样性,为预训练大型语言模型的数据选择提供了一种新的方法,有望提高模型在各种下游任务中的性能和泛化能力。


后记

如果您对我的博客内容感兴趣,欢迎三连击(点赞,关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型深度学习,计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术


http://www.ppmy.cn/devtools/120129.html

相关文章

docker - 迁移和备份

文章目录 1、docker commit1.1、查询 容器 docker ps1.2、docker commit zookeeper zookeeper:3.4.13 2、docker save -o2.1、宿主机 切换到 /opt 目录下2.2、将镜像保存到 宿主机/opt目录下 3、docker load -i 对某一个容器修改完毕以后,我们可以把最新的容器部署到…

网络编程套接字TCP

前集回顾 上一篇博客中我们写了一个UDP的echo server,是一个回显服务器:请求是啥,响应就是啥 一个正常的服务器,要做三个事情: 读取请求并解析根据请求,计算响应把响应写回到客户端 DatagramPacket res…

华为-IPv6与IPv4网络互通的6to4自动隧道配置实验

IPv4向IPv6的过渡不是一次性的,而是逐步地分层次地。在过渡时期,为了保证IPv4和IPv6能够共存、互通,人们发明了一些IPv4/IPv6的互通技术。 本实验以6to4技术为例,阐述如何配置IPv6过渡技术。 配置参考 R1 # sysname R1 # ipv6# interface GigabitEthernet0/0/1ip address 200…

excel 填充内容的公式

多行填充快捷方式: 使用“CtrlEnter”键,这样所有选中的空单元格前就会自动添加上相同的字符。 对于多行填充,Excel提供了几个快捷键来提高工作效率: “CtrlR”用于向右填充数据。如果你在表格的某一列输入了数据,选…

基于Springboot+微信小程序 的高校社团管理小程序(含源码+数据库+lw)

1.开发环境 开发系统:Windows10/11 架构模式:MVC/前后端分离 JDK版本: Java JDK1.8 开发工具:IDEA 数据库版本: mysql5.7或8.0 数据库可视化工具: navicat 服务器: SpringBoot自带 apache tomcat 主要技术: Java,Springboot,mybatis,mysql,vue 2.视频演示地址 3.功能 系统定…

ARM点灯---看手册

知识点: 一个程序可能会遇到内存泄漏问题,可能一次运行泄漏几M大小,执行几个小时才会泄漏到站崩溃,所以要查看是否有内存泄漏。 查看手册教程 0927-上午 视频1:25;00 硬件程序开发流程 最小系统:单片…

nginx+php+postgresql搭建漏洞靶场

经过我多番查找,最终得出一个结论,dvwa暂时不支持 postgresql 本文给大家提供一个思路,千万不要轻易模仿 更新系统包列表 首先,打开终端并更新你的系统包列表: sudo apt updatesudo apt upgrade -y安装必要的软件包 安装Nginx、PHP、PostgreSQL以及一些必要的PHP扩展:…

lstm实践

今年华为杯研究生数学建模的C题第四问用到了lstm,这里配合代码简要地讲一下。 数据类型 磁通密度是一个时序数据,包含了一个周期内的磁通密度变化,我们需要对它进行降维,但PCA是不合适的,因为PCA主要关注数据的方差&…