【大模型LLM第十一篇】微调自动化数据选择方式之MoDS

news/2024/10/18 5:43:22/

前言


来自中科院自动化所的paper

MoDS: Model-oriented Data Selection for Instruction Tuning

link:https://arxiv.org/pdf/2311.15653

github:https://github.com/CASIA-LM/MoDS

一、摘要

sft已经成为让LLM遵循用户指令的一种方式。通常,需要使用数十万个数据来微调基础LLM。最近,研究表明少量的高质量指令数据就足够。然而,如何在给定的数据中选择合适的指令数据?

为了解决这个问题,提出了一种面向模型的数据选择(MoDS)方法,该方法基于考虑三个方面的新标准来选择指令数据:质量、覆盖范围和必要性。

首先,利用质量评估模型从原始指令数据集中过滤出高质量子集,然后设计算法进一步从高质量子集中选择具有良好覆盖率的seed instruction dataset。应用seed数据集来微调基础LLM获得初始sft LLM。最后,用一个必要性评估模型来找出初始sft LLM效果较差的sft数据,将这些数据作为下一步改进LLM的必要指令。

从原始指令数据集中得到一个小的高质量、覆盖面广、必要性高的子集。实验结果表明,使用MoDS方法选择的 4,000 个指令对进行微调的模型比使用包含 214k 指令数据的完整原始数据集进行微调的模型表现更好。

二、方法

这个方法主要聚焦于三点:

  • Quality: 数据样本的质量
  • Coverage: 即多样性
  • Necessity: 对模型sft重要且唯一,主要从,大模型能很好的回答,说明模型学习好了,如果不能生成好的回答,说明LLM缺乏这个能力,则这个样本是必要的去提升模型能力。

分为三步骤

  1. Quality Evaluation
  2. Diverse Data Selection for Seed Instructions
  3. Augmented Data Selection.

2.1 Quality Evaluation

直接用一个reward model进行样本质量评分

reward model:reward-model-deberta-
v3-large-v22 (基于DeBERTa架构)

超过某个阈值的数据样本挑出来,当作 high-quality in struction dataset

2.2 Diverse Data Selection for Seed

依然采用k-center-greedy聚类来得到subset

讲解和代码:https://zhuanlan.zhihu.com/p/711917766

最终得到的样本集称为:seed instruction dataset

2.3 Augmented Data Selection

利用seed instruction dataset训练一个sft model.

用这个sft model对high-quality in struction dataset进行推理,之后用一个review model对生成的response和instruction计算一个review score,采用的模型依然是reward-model-deberta-v3-large-v22 (基于DeBERTa架构)

如果review score低于某个分数,则代表模型生成的response不是那么好,收集全部的低review score的样本,之后再用一次K-center greedy选取一个子集,作为加强数据集。

相当于做了一个high-quality in struction dataset选多样性subset,之后再通过预测不好的样本集,再补充一部分增强模型能力。

最终用这两个subset组成最终的数据集进行训练

三、实验

还做了一个 k-center和random采样的对比实验,这种实验基本上在用k-center的情况下都会对比一下:


http://www.ppmy.cn/news/1518013.html

相关文章

获取Word、PPT、Excel、PDF文件页数及加密校验

想要获取一个pdf文件的页数,有多种实现方式。可以利用pdfjs,也可以利用PDFDocument: // 方法一:利用文件的arrayBuffer let arrayBuffer await file.arrayBuffer(); const pdfDoc await PDFDocument.load(arrayBuffer, { ignor…

matlab实现模拟退火算法

模拟退火算法(Simulated Annealing, SA)是一种通用概率优化算法,用于在给定的大搜索空间内寻找问题的近似全局最优解。该算法灵感来源于物理学中固体物质的退火过程,其中温度逐渐降低,粒子逐渐趋于能量最低状态。 在M…

2.5G网络(通常指2.5G以太网,即2500BASE-X)的网络变压器在设计和应用上有几个关键方面

信号传输和接收: 2.5G网络变压器主要用于以太网设备中,用于将信号从平衡转换为非平衡,或者进行阻抗匹配,确保信号能够在传输线和接收器之间有效地传输和接收。 频率范围: 这些变压器需要支持2.5G以太网的频率范围&…

无人机喊话器详解!!!

无人机喊话器,也被称为无人机扬声器,是一种安装在无人机上,用于通过空中向地面人员传递声音的设备。 一、功能特点 远程传递声音:无人机喊话器能够在较远的距离内清晰地传递声音,有效广播范围通常可达数百米甚至更远…

fpga图像处理实战-图像浮雕

图像浮雕 图像浮雕(Embossing)是一种图像处理技术,通过模仿浮雕效果,将二维图像转换为具有三维质感的图像。浮雕效果通常会使图像看起来像是雕刻在某种材质上的图案,具有突出的边缘和阴影,增强了图像的立体感。 图像浮雕特效实现的基本原理 实现图像浮雕特效的算法很多,…

软件防查盗版

信息化发展迅速,企业日常办公越来越依赖互联网。然而终端及普通PC在访问互联网过程中,会面临各种不容忽视的风险。这些风险包括: (1)员工主动故意的数据泄漏:员工可能故意泄露敏感信息。 (2&a…

redisson watchdog 原理

目录 1、使用2、加锁解析1、getLock2、tryLock2.1、当ttl为null时为加锁成功,返回true,否则继续往下执行,判断是否超过等待时间,当前时间减去获取锁前时间就是获取锁花费时间。2.2、tryAcquire(leaseTime, unit, threadId)2.3 、renewExpirat…

【机器学习-监督学习】神经网络与多层感知机

【作者主页】Francek Chen 【专栏介绍】 ⌈ ⌈ ⌈Python机器学习 ⌋ ⌋ ⌋ 机器学习是一门人工智能的分支学科,通过算法和模型让计算机从数据中学习,进行模型训练和优化,做出预测、分类和决策支持。Python成为机器学习的首选语言,…