NLP论文速读|LOGO -- Long context aliGnment via efficient preference Optimization

news/2024/11/7 5:47:06/

论文速读|LOGO -- Long context aliGnment via efficient preference Optimization

论文信息:

图片

简介:

      这篇论文试图解决长上下文模型(Long-context Models, LCMs)在处理长输入序列时的生成性能问题。尽管LCMs在定位上下文中的token级显著信息方面表现出色,但它们在实际任务中的生成性能并不令人满意,可能会产生错位的响应,例如幻觉和不遵循指令。这些问题限制了LCMs在实际长上下文任务中的应用。随着大型语言模型(LLMs)的快速发展,处理长上下文(甚至超过100M tokens)已成为LLMs的基本能力。这不仅为LLMs解锁了新的任务和应用,例如代码分析,同时也消除了以前需要克服上下文长度限制的复杂工具链和繁琐的工作流程。然而,现有的LCMs在长上下文任务中的表现并不理想,这促使研究者寻求更有效的方法来提升这些模型的生成能力。本文介绍了一种名为LOGO(Long cOntext aliGnment via efficient preference Optimization)的训练策略,它是首个引入偏好优化以实现长上下文对齐的方法。

论文方法:

图片

      论文设计了一个训练目标,旨在引导LCMs区分偏好预测(即正确的输出)和非偏好预测(例如幻觉等错位输出)。这个目标是基于直接偏好优化(Direct Preference Optimization, DPO)和简单偏好优化(Simple Preference Optimization, SimPO)改进而来,它通过最大化偏好响应的对数似然来训练模型,同时最小化非偏好响应的对数似然。提出了一个与训练目标相匹配的数据构建流程,该流程仅涉及开源模型。为了提高训练效率并克服长序列数据引起的GPU内存限制,LOGO采用了无参考训练目标和位置索引合成方法。具体来说,LOGO通过以下步骤构建训练数据:1)将上下文分割成等长块,并使用自动评估器为每个块分配重要性得分。2)根据模型预测生成偏好和非偏好数据。3)通过为每个块分配不同的合成位置索引来模拟长序列输入,而不需要改变实际输入序列。

论文实验:

图片

      根据Table 1,本文的实验主要围绕评估LOGO训练策略在长上下文任务中的性能。实验涉及了多个不同的模型和训练方法,包括长上下文模型(LCMs)和短上下文模型(SCMs),以及它们在应用LOGO策略后的性能对比。实验使用了LongBench基准测试套件,该套件包含16个不同的数据集,涵盖6个任务类别:单文档问答(S-Doc QA)、多文档问答(M-Doc QA)、摘要(Summ)、少样本学习(Few-shot)、合成任务(Synthetic)和代码任务(Code)。由于代码测试数据主要涉及大约4000个token的上下文,而训练数据未覆盖此领域,因此实验中排除了代码类别。表中列出了不同模型在LongBench基准测试中的平均得分。例如,GPT-3.5-Turbo-16K模型在所有任务中的平均得分为42.0,而Llama-3.1-8B-Instruct-128K模型的平均得分为39.2。对于短上下文模型(SCMs),LOGO策略能够显著提升模型在长上下文任务中的表现。例如,Llama-3-8B-Instruct-8K模型在应用LOGO后,其在64K上下文长度下的性能从40.7提高到43.9。对于长上下文模型(LCMs),LOGO同样能够提升模型性能。例如,Llama-3-8B-Instruct-80K模型在应用LOGO后,其平均得分从42.3提高到47.0。

论文链接:

https://arxiv.org/abs/2410.18533

原文来自:

NLP论文速读|LOGO: 基于高效偏好优化的长上下文对齐


http://www.ppmy.cn/news/1544969.html

相关文章

Python毕业设计选题:基于大数据的旅游景区推荐系统_django

开发语言:Python框架:djangoPython版本:python3.7.7数据库:mysql 5.7数据库工具:Navicat11开发软件:PyCharm 系统展示 系统首页界面 用户注册界面 用户登录界面 景点信息界面 景点资讯界面 个人中心界面 …

TH-OCR 文字识别:开启高效数字化时代

在当今数字化飞速发展的时代,高效准确地处理文字信息变得至关重要。TH-OCR(清华文通光学字符识别系统)作为一款强大的文字识别工具,正逐渐在各个领域发挥着重要作用。 一、TH-OCR 是什么 TH-OCR 是由清华大学电子工程系智能图文信…

协议栈攻击分类(CISP-PTE笔记)

CISP-PTE笔记 协议栈攻击分类 1.协议栈自身的脆弱性 ​ 1)缺乏数据源验证机制 ​ 2)缺乏完整性验证机制 ​ 3)缺乏机密性验证机制 2.网络接口层攻击 3.网络层攻击 4.应用层攻击 网络攻击的基本模式 被动威胁(不影响通信双…

熊猫追剧 1.0.0 | 免费追剧软件,全网资源,独家蓝光。

熊猫追剧是一款免费的视频播放软件,集合了电影、电视剧、综艺、动漫、短剧等多种视频资源。软件内测期间未发现广告,提供一条独家蓝光线路,保证高质量播放体验。此外,熊猫追剧还支持投屏、下载及倍速播放等功能,极大方…

xshell连接不上linux的原因

1、首先我们确定好linux的配置,右键选择设置,将网络适配器设置成NAT模式 2、点击linux编辑,选择虚拟网络 打开以后选中自己要配置的服务 3、进入以后选中自己的服务,确保是NAT模式,然后配置好子网ip(尽量ip…

vue3中的setup到底是什么?

组合式api几乎都要写在setup里,学习vue3的第一步就是学习setup,如果开始的时候没有拿下setup,后面会越学越乱。 一.setup概述 setup是vue3中一个新的配置项,组件中所用到的数据、方法、计算属性,均配置在setup中。 …

搜索引擎之shodan(一):初始化及安装

声明:学习素材来自b站up【泷羽Sec】,侵删,若阅读过程中有相关方面的不足,还请指正,本文只做相关技术分享,切莫从事违法等相关行为,本人一律不承担一切后果 引言: 1.Shodan 是一个专门用于搜索连…

【k8s】-Pod镜像拉取失败问题

创建镜像仓库secrets kubectl -n kube-system create secret docker-registry harbor-secret \--docker-username=admin --docker-password=test \--docker-server=registry.bcbx.com下述两种方式二选一即可前置准备需要安装上述的方式进行创建镜像仓库通过kubectl进行更新 #…