【论文阅读】Reliable, Adaptable, and Attributable Language Models with Retrieval

ops/2024/10/31 10:39:01/

文章目录

  • Overview
  • Current Retrieval-Augmented LMs
    • Architecture
    • Training
  • Limitations & Future Work

Overview

在这里插入图片描述

Parametic language models的缺点:

  • 事实性错误的普遍存在
  • 验证的难度(可溯源性差)
  • 难以在有顾虑的情况下排除某些序列
  • 适应调整的计算成本高昂
  • 模型规模过大

Retrieval-augmented languague models更加Reliable, Adaptable, and Attributable

  • 大幅度减少事实性错误
    • 尤其是在long-tail知识上
  • 更好的可溯源性
  • 允许灵活的序列加入和退出(在检索的source里面增加和删除相应的sequence就可以)
  • 很容易adapt到新领域
  • 是更加参数高效的(不需要很大的参数量)

目前的Retrieval-augmented languague models面临的主要挑战

  • 现有的方法主要利用高语义相似度来检索外部信息,当知识库中没有相关信息或者不符合传统的相关性定义的时候,表现不好
    • 比如对非knowledge-intensive任务,增益就不高
  • 直接把检索到的文本拼接到输入中,导致语言模型和检索的交互不充分。这会引起:unsupported generations; susceptibility to irrelevant text; and challenges in handling information from multiple pieces of text
  • 缺乏对提升检索增强型语言模型大规模训练和推理中的效率的研究

Retrieval-augmented languague models未来的方向

  • 重新审视相关性的概念,并深入理解有效数据存储的构成,尤其是探索应从各种数据存储中检索的信息类型,以提升在更广泛任务中的表现
  • 确保这两个组件之间更深入的交互,包括架构设计、预训练和后训练的调整,而不是仅关注对现有参数化语言模型的补充增强
  • 呼吁在硬件、系统和算法领域开展更多开源的跨学科合作,来构建支持训练和推理的基础设施(e.g., scaling datastore to trillion tokens)

Current Retrieval-Augmented LMs

Architecture

在这里插入图片描述

在这里插入图片描述

现有的Retrieval-augmented LMs按照结合检索文档的方式,可以分为三类:1) input augmentation, 2) intermediate fusion, and 3) output interpolation.

  • input augmentation:

    • 利用检索文档直接增强原始输入

    • 缺点:redundancy and inefficiency-直接拼接文档会导致超出上下文长度限制,以及增加inference开销

      • FID用于缓解这个问题,但是对每个输入,相同的文档还是可能会重复编码。decoder需要解码序列长度还是会增大

        在这里插入图片描述

  • intermediate fusion(以RETRO系列为代表):

    • takes many pre-encoded text chunks independent of query x and simultaneously incorporates them in intermediate spaces.
    • 缺点:需要大量的架构改动,并对语言模型的新编码模块进行预训练
  • output interpolation(以KNN LM为代表)

    • 将LM的token分布与检索到的token分布直接结合

Training

训练整个retrieval-augmented LMs可以分为两类:independent or sequential training and joint training

  • Independent or sequential training
    • Independent (以KNN LM和最近的一些开箱即用的方法为代表):Retriever和LM是独立训练的,训练过程中没有交互。大家利用现有的训练pipeline和训练目标来分别增强检索和LM
    • Sequential:先训练retriever或者LM,再利用训练好的这部分提供的信号,来训练另一部分
      • 先训retriever:以DPR为代表
      • 利用LM的信号来训retriever:以REPLUG为代表
  • Joint training:同时训练retriever和LM,以增强二者的交互和整个端到端的pipeline
    • 一个最主要的问题就是巨大的开销:因为更新检索器之后需要对文本重新编码,而文本数量往往巨大。在每次更新完检索器都对datastore中的文档重新编码是不现实的
    • 目前主要方法有两种
      • Asynchronous updating:在retriever更新n步之后再更新文档的编码,这样在训练的时候就可以像inference时一样,利用整个语料库
      • In-batch approximation:每次都对batch内的文本进行编码,仅在这个batch上进行优化,而不适应整个语料库
        • 这个我理解就是我们训练retriever时的,in-batch negative训练方法

Limitations & Future Work

在这里插入图片描述


http://www.ppmy.cn/ops/129843.html

相关文章

java设计模式之监听者模式

有这么一个需求,客户注册的时候,产品经理要求给客户发送短信,发送优惠券,还有就是发送积分。根据xp极限编程原则,只管今天不管明天,伪代码原则上 //1,注册 register(); //2,发送优惠…

LVS Nginx HAProxy的优缺点

搭建负载均衡高可用环境相对简单,主要是要理解其中原理。此文描述了三种负载均衡器的优缺点,以便在实际的生产应用中,按需求取舍。 目前,在线上环境中应用较多的负载均衡器硬件有F5 BIG-IP,软件有LVS,Nginx及HAProxy,…

Lua 函数

Lua 函数 Lua 是一种轻量级的编程语言,广泛用于游戏开发、脚本编写和其他应用程序中。在 Lua 中,函数是一等公民,这意味着它们可以被赋值给变量,作为参数传递给其他函数,甚至可以作为其他函数的返回值。本文将详细介绍…

[瑞吉外卖]-10前后端分离

前后端分离 概念: 前后端分离开发,就是在项目开发过程中,对于前端代码的开发由专门的前端开发人员负责,后端代码则由后端开发人员负责 这样可以做到分工明确、各司其职,提高开发效率,前后端代码并行开发,…

随着飞行汽车的亮相,在环保方面有什么保护措施吗

飞行汽车具备环保潜力,采用电动或混合动力系统减少污染,并拓展应用场景。多家企业布局,沃飞长空作为国内eVTOL(电动垂直起降航空器)研发的领先企业,在环保这一点做的非常到位,AE200采用纯电动力系统,零碳排放,静默飞行…

Debian 12 安装freeswitch 1.10.12对接Volte视频通话——筑梦之路

# 安装依赖sudo apt update sudo apt install -y git build-essential autoconf automake libtool pkg-config \libjpeg-dev libsqlite3-dev libcurl4-openssl-dev libpcre3-dev libspeexdsp-dev \libspeex-dev libopus-dev libsndfile1-dev libssl-dev libedit-dev libluajit-…

Mac在Typora配置PicGo图床,以github为例

Mac配置PicGo图床 0.准备阶段:下载PicGo https://picgo.github.io/PicGo-Doc/zh/guide/ 根据这个链接选择自己的安装方式 1.PicGo已损坏,无法打开 解决方法 打开iTerm,把sudo xattr -d com.apple.quarantine 输入命令行 然后把软件拖入命令行 sudo xa…

【STM32】单片机ADC原理详解及应用编程

本篇文章主要详细讲述单片机的ADC原理和编程应用,希望我的分享对你有所帮助! 目录 一、STM32ADC概述 1、ADC(Analog-to-Digital Converter,模数转换器) 2、STM32工作原理 二、STM32ADC编程实战 (一&am…