每日学术速递5.28

news/2024/11/7 22:50:13/

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理  

Subjects: cs.CL

1.Improving Factuality and Reasoning in Language Models through Multiagent Debate

标题:通过多主体辩论改进语言模型中的事实性和推理 

作者:Yilun Du, Shuang Li, Antonio Torralba, Joshua B. Tenenbaum, Igor Mordatch

文章链接:https://arxiv.org/abs/2305.14325

项目代码:https://composable-models.github.io/llm_debate/

摘要:

        近年来,大型语言模型 (LLM) 在语言生成、理解和小样本学习方面展示了卓越的能力。大量的工作探索了如何通过提示工具进一步提高他们的表现,包括验证、自洽或中间暂存器。在本文中,我们提出了一种改进语言响应的补充方法,其中多个语言模型实例在多轮中提出并辩论其各自的响应和推理过程,以得出共同的最终答案。我们的研究结果表明,这种方法显着增强了许多任务的数学和战略推理。我们还证明,我们的方法提高了生成内容的事实有效性,减少了当代模型容易出现的错误答案和幻觉。我们的方法可以直接应用于现有的黑盒模型,并对我们调查的所有任务使用相同的程序和提示。总的来说,我们的研究结果表明,这种“思想社会”方法有可能显着提高 LLM 的能力,并为语言生成和理解的进一步突破铺平道路。

2."According to ..." Prompting Language Models Improves Quoting from Pre-Training Data

标题:“根据……”提示语言模型改进了预训练数据的引用

作者:Orion Weller, Marc Marone, Nathaniel Weir, Dawn Lawrie, Daniel Khashabi, Benjamin Van Durme

文章链接:https://arxiv.org/abs/2305.13252

摘要:

        尽管对事实数据进行了预训练,但大型语言模型 (LLM) 可能会产生幻觉并生成虚假信息。受“根据消息来源”这一新闻手段的启发,我们建议根据提示:指导 LLM 对先前观察到的文本做出地面反应。为了量化这种基础,我们提出了一种新颖的评估指标(QUIP-Score),用于衡量模型生成的答案在基础文本语料库中直接找到的程度。我们通过维基百科上的实验来说明,这些提示可以改善我们指标下的基础,并具有经常提高最终任务绩效的额外好处。此外,要求模型减少接地(或接地到其他语料库)的提示会减少接地,表明语言模型能够根据要求增加或减少接地世代。

3.Aligning Large Language Models through Synthetic Feedback 

标题:通过综合反馈对齐大型语言模型

作者:Sungdong Kim, Sanghwan Bae, Jamin Shin, Soyoung Kang, Donghyun Kwak, Kang Min Yoo, Minjoon Seo

文章链接:https://arxiv.org/abs/2305.13735

摘要:

        使大型语言模型 (LLM) 与人类价值观保持一致变得越来越重要,因为它可以对 LLM 进行复杂的控制,例如,使它们遵循给定的指令,同时降低它们的毒性。但是,它需要大量的人工演示和反馈。最近,开源模型试图通过从 InstructGPT 或 ChatGPT 等已经对齐的 LLM 中提取数据来复制对齐学习过程。虽然这个过程减少了人力,但构建这些数据集对教师模型有很大的依赖性。在这项工作中,我们提出了一个新的对齐学习框架,几乎不需要人工,也不依赖于预先对齐的 LLM。首先,我们通过对比来自具有各种规模和提示的原始 LLM 的响应,使用合成反馈执行奖励建模 (RM)。然后,我们使用 RM 模拟高质量演示来训练监督策略,并通过强化学习进一步优化模型。我们生成的模型,Aligned Language Model with Synthetic Training dataset (ALMoST),优于开源模型,包括 Alpaca、Dolly 和 OpenAssistant,这些模型是根据 InstructGPT 或人工注释指令的输出进行训练的。我们的 7B 尺寸模型在使用 GPT-4 作为判断的 A/B 测试中优于 12-13B 模型,平均胜率约为 75%。

更多Ai资讯:公主号AiCharm
在这里插入图片描述


http://www.ppmy.cn/news/97890.html

相关文章

调研:huggingface-diffusers

1. Diffusers能带来什么 1.1 Overview Diffusers是集成state-of-the-art预训练diffusion模型库,用于生成图像、音频甚至3D结构。 Diffusers库注重可用性而非高性能。 Diffusers主要提供三项能力: State-of-the-art diffusion pipelines,…

分治入门+例题

目录 🥇2.3.2 合并排序 🥇2.3.3 快速排序 🌼P1010 [NOIP1998 普及组] 幂次方 🌳总结 形象点,分治正如“凡治众如治寡,分数是也”,管理少数几个人,即可统领全军 本质&#xff…

分布式事务的21种武器 - 7

在分布式系统中,事务的处理分布在不同组件、服务中,因此分布式事务的ACID保障面临着一些特殊难点。本系列文章介绍了21种分布式事务设计模式,并分析其实现原理和优缺点,在面对具体分布式事务问题时,可以选择合适的模式…

【数据湖仓架构】数据湖和仓库:范式简介

是时候将数据分析迁移到云端了——您选择数据仓库还是数据湖解决方案?了解这两种方法的优缺点。 数据分析平台正在转向云环境,例如亚马逊网络服务、微软 Azure 和谷歌云。云环境提供了多种好处,例如可扩展性、可用性和可靠性。此外&#xff0…

【RTE】http 请求实现过程及其回调处理

每次发起一个请求,注册一个cb,都能有cb 被异步触发以下是实现过程:CallFetch 发起一个请求并能回调请求结果 template <typename DT, typename DP> void CallFetch(agora::agora_refptr<IDataParam> param,DataRequestType req_type,ApiType api_type,utils::w…

设计模式总结

java的设计模式大体上分为三大类&#xff1a;创建型模式&#xff08;5种&#xff09;&#xff1a;工厂方法模式&#xff0c;抽象工厂模式&#xff0c;单例模式&#xff0c;建造者模式&#xff0c;原型模式。 结构型模式&#xff08;7种&#xff09;&#xff1a;适配器模式&…

《数据库》期末考试复习手写笔记-第11章 并发控制(锁)【10分】

目录 知识点&#xff1a;封锁活锁死锁可串行化调度 考题1&#xff1a;可串行化调度 考题2&#xff1a;调度正确判断&共享锁写锁 考题3&#xff1a; 事务调度死锁 知识点&#xff1a;封锁活锁死锁可串行化调度 考题1&#xff1a;可串行化调度 考题2&#xff1a;调度正确判…

关于Netty的一些问题

1.Netty 是什么&#xff1f; Netty是 一个异步事件驱动的网络应用程序框架&#xff0c;用于快速开发可维护的高性能协议服务器和客户端。Netty是基于nio的&#xff0c;它封装了jdk的nio&#xff0c;让我们使用起来更加方法灵活。 2.Netty 的特点是什么&#xff1f; 高并发&…