增强语言模型导读

news/2024/10/31 5:28:47/

以ChatGPT为主的大语言模型出现已有半年时间,研究逐渐从针对模型本身的进化和功能,延展到如何更为有效地利用大模型,将它与其它工具结合,落地,以解决实际领域中的问题。

这里的增强主要指让大语言模型(LM)与外部扩展模块相结合,从而获得超越单纯的自然语言建模的能力。具体能力包含:推理、使用工具、行动。它不仅能解决更多类型的问题,在连接外部模块后,其处理自然语言处理能力也得到突破性进展。

本文介绍一篇增强语言模型综述,以及几篇最近发表的具体应用方法和框架的文章。

增强语言模型综述

英文题目: Augmented Language Models: a Survey
中文题目: 增强语言模型综述
论文地址: http://arxiv.org/abs/2302.07842
解读:https://blog.csdn.net/xieyan0811/article/details/130910473?spm=1001.2014.3001.5501
(将近5000字,太长就不贴了)

一篇综述性文章,来Meta,发布时间为2023-02-15。
文章从方法论的角论进入阐释。内容分为六部分:介绍,推理,使用工具和行动,学习方法,讨论,结论,正文22页。
对于比较关注 LM 领域的读者,这篇文章中并没有提到让人意外的特殊方法。然而,文章对现有方法进行了全面细致的整理,提供了全景视角的概览,详细引用了相关文献和软件示例。是对知识很好的概览和梳理,可作为入门读物。

Chameleon:使用大型语言模型进行即插即用的组合推理

本篇来自加州大学&微软,发布时间为2023-04-19。

英文题目: Chameleon: Plug-and-Play Compositional Reasoning with Large Language Models
中文题目: Chameleon:使用大型语言模型进行即插即用的组合推理
论文地址: http://arxiv.org/abs/2304.09842

解读:

  • 目标:使用LLM与其它工具结合,解决具体领域的问题。在不同类型的数据和各种模型工具之间建立起了桥梁,利用LLM实现了之前需要人工设计的调用顺序和方法。
  • 当前问题:自然语言大模型LLM由于其自身的限制,无法访问最新信息、无法使用外部工具,无法进行精确的数学推理。
  • 效果:结合GPT-4,在ScienceQA(86.54%)和TabMWP(98.78)任务中,得到了显著的提升。
  • 方法:
    提出chameleon(变色龙),即插即用的组合推理框架,该框架可以组合多种工具,其中可包含LLM模型、现成的视觉模型、网络搜索引擎、Python 函数和根据用户兴趣定制的基于规则的模块,并将LLM 作为自然语言规划器,将问题拆解成多种工具组合的链条(设计工作流程),然后调用工具协同解决问题,最后通过答案生成器生成回答。
    图-1展示了看图回答问题的三个示例,针对第二个问题,展示了从文本识别,信息检索,生成解决方法,最终生成答案的过程。

其中可使用的工具包含:

SuperICL:小型模型作为大型语言模型的插件

本篇来自加州大学&微软,发布时间为2023-05-15。

英文题目: Small Models are Valuable Plug-ins for Large Language Models
中文题目: 小型模型作为大型语言模型的插件
论文地址: http://arxiv.org/abs/2305.08848

解读

  • 目标:利用自然语言大模型(LLM),提升对大规模的有监督数据的预测效果。
  • 当前问题:由于上下文长度的限制,只能在对话中给LLM提供有限的上下文提示(In-Context Learning)。
  • 效果:在效果评测,稳定性,多语言和可解释性方面均表现出其优越性。
  • 方法
    文中提出了SuperICL,将LLM视为黑盒,与本地经过调优的小模型相结合,以提升有监督任务的能力。
    之前只是将有监督的示例和待预测的测试数据传递给LLM来获得答案。文中提出的方法,首先针对训练集和测试集数据训练了本地模型,预测标签和置信度。然后将这些结果和测试数据一起传递给LLM,从而使LLM不仅学习了推理结果,还学习了决策过程,从而实现了更好的推理和解释能力。

图-1(a)部分展示了ICL的工作过程(之前),它从训练集的上下文中采样,再结合测试集数据一起传给LLM,得到输出;
图-1(b)展示了SuperICL的工作过程,分为三步:

  • 通过从训练数据中随机抽样并结合本地模型的预测构建上下文,包括预测标签及其相应的置信度分数。
  • 测试输入连接在上下文之后,并附加了本地模型对测试数据的预测。
  • 语言模型生成最终预测以及解释。

PKG:参数化知识指导的增强大语言模型

本篇来自香港大学&微软,发布时间为2023-05-18。

英文题目: Augmented Large Language Models with Parametric Knowledge Guiding
中文题目: 参数化知识指导的增强大语言模型
论文地址: http://arxiv.org/abs/2305.04757
解读:

  • 目标:促进大模型LLM在领域知识密集型任务中的应用
  • 当前问题:在解决具体问题时,涉及更多领域相关的知识,最新的知识,以及私有数据。
  • 效果:提升了模型在一系列领域知识密集型任务上的性能,包括事实 (+7.9%)、表格 (+11.9%)、医学 (+3.0%) 和多模态 (+8.1%) 知识。
  • 方法:
    提出PKG(Parametric Knowledge Guiding)参数化知识引导框架,结合本地模型和LLM模型,本地模型基于开源的自然语言模型(Llama),它可以存储离线的领域知识,将领域知识转化成参数输出,作为background和问题一起传入大模型。
    文中的图-1展示了PKG的工作过程:


http://www.ppmy.cn/news/97601.html

相关文章

【FreeRTOS】——中断优先级设置中断相关寄存器临界段代码保护调度器挂起与恢复

目录 前言: 一、中断优先级设置 二、中断相关寄存器(STM32-Cortex M3) 三、临界段代码保护 四、任务调度器的挂起和恢复 总结: 前言: 博客笔记根据正点原子视频教程编辑,仅供学习交流使用&#xff0…

线程池实现

一、线程池介绍 1)应用场景 当并发数很多的时候,并且每个线程执行时间很短的任务,这样就会频繁创建线程,而这样的频繁创建和销毁线程会大大降低系统的执行效率。对于这种场景我们可以使用线程池来复用之前创建的线程&#xff0c…

C++中queue的用法(超详细,入门必看)

博主简介:Hello大家好呀,我是陈童学,一个与你一样正在慢慢前行的人。 博主主页:陈童学哦 所属专栏:CSTL 前言:Hello各位小伙伴们好!欢迎来到本专栏CSTL的学习,本专栏旨在帮助大家了解…

认识http协议---3

hi,大家好,今天为大家带来http协议的相关知识 🍇1.http状态响应码 🍇2.构造http请求 1.直接在地址栏里输入一个URL 2.html的一些特殊标签,触发get请求 3.提交form表单,可以触发get请求和post请求 4.使用ajax 🍇3.再次谈同步和异步 &#x1f3…

JavaEE Tomcat Servelet第一个helloworld程序

Tomcat & Servelet第一个程序helloworld! 文章目录 JavaEE & Tomcat & 第一个Servelet程序1. HTTP服务器 - Tomcat1.1 Tomcat的目录结构:1.2 启动Tomcat1.3 Tomcat的优点 2. Servelet框架2.1 创建Maven项目2.2 引入依赖2.3 创建目录2.4 写代…

Mac电脑读写移动硬盘软件Tuxera NTFS2023中文版

日常工作中,我们经常会使用移动硬盘拷贝文件,因为移动硬盘传输文件方便、传输速度快。但我们在mac电脑上使用移动硬盘却发现硬盘无法正常读写。本文向大家介绍mac能读写的移动硬盘有哪些以及移动硬盘怎么在mac上读写。 一、Mac能读写的移动硬盘有哪些 移…

开源情报搜集系统的核心技术

随着科技快速发展,科研方向的开源情报搜集系统的应用越来越广泛。为了满足科研工作者的需求,开发人员大力研发了许多功能强大的科研开源情报系统。这些系统不仅可以帮助科研人员更加高效地获取、管理和利用科研信息资源,还能为他们提供全方位…

有序表2:跳表

跳表是一个随机化的数据结构,可以被看做二叉树的一个变种,它在性能上和红黑树,AVL树不相上下,但是跳表的原理非常简单,目前在Redis和LeveIDB中都有用到。 它采用随机技术决定链表中哪些节点应增加向前指针以及在该节点…