计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-05

计算机前沿技术-人工智能 算法-大语言模型-最新研究进展-2024-10-04

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-04
- 目录
- 1. LLM-Augmented Symbolic Reinforcement Learning with Landmark-Based Task Decomposition
- - 摘要
  - 研究背景
  - 问题与挑战
  - 如何解决
  - 创新点
  - 算法模型
  - 实验效果
  - 推荐阅读指数
  - 推荐理由
- 2. Lost-in-Distance: Impact of Contextual Proximity on LLM Performance in Graph Tasks
- - 摘要
  - 研究背景
  - 问题与挑战
  - 如何解决
  - 创新点
  - 算法模型
  - 实验效果
  - 重要数据与结论
  - 推荐阅读指数
  - 推荐理由
- 3. Zodiac: A Cardiologist-Level LLM Framework for Multi-Agent Diagnostics
- - 摘要
  - 研究背景
  - 问题与挑战
  - 如何解决
  - 创新点
  - 算法模型
  - 实验效果
  - 重要数据与结论
  - 推荐阅读指数
  - 推荐理由
- 4. Can LLMs Reliably Simulate Human Learner Actions? A Simulation Authoring Framework for Open-Ended Learning Environments
- - 摘要
  - 研究背景
  - 问题与挑战
  - 如何解决
  - 创新点
  - 算法模型
  - 实验效果
  - 重要数据与结论
  - 推荐阅读指数
  - 推荐理由
- 5. From Pixels to Tokens: Byte-Pair Encoding on Quantized Visual Modalities
- - 摘要
  - 研究背景
  - 问题与挑战
  - 如何解决
  - 创新点
  - 算法模型
  - 实验效果
  - 重要数据与结论
  - 推荐阅读指数
  - 推荐理由
- 后记

1. LLM-Augmented Symbolic Reinforcement Learning with Landmark-Based Task Decomposition

Authors: Alireza Kheirandish, Duo Xu, Faramarz Fekri
https://arxiv.org/abs/2410.01929

增强符号强化学习与基于地标的任务分解

摘要

本文提出了一种新的方法，通过使用给定的正负轨迹来识别子任务，以解决复杂的强化学习任务。我们假设状态由一阶谓词逻辑表示，并设计了一种新算法来识别子任务。然后，我们使用大型语言模型（LLM）生成一阶逻辑规则模板，以实现每个子任务。这些规则进一步通过归纳逻辑编程（ILP）基于强化学习的代理进行微调。通过实验，我们验证了算法在检测子任务方面的准确性，并研究了语言模型产生的常识规则的质量。实验表明，我们的方法可以生成解决子任务所需的规则，从而在对环境预定义的一阶逻辑谓词的假设更少的情况下解决复杂任务。

研究背景

在强化学习（RL）中，将复杂任务分解为更简单的子任务是关键技术之一。这种方法通过将艰巨的挑战分解为更小、更易实现的目标和清晰的路径，使复杂任务更易于管理。地标是完成任务所必需访问的特定状态，它们作为关键里程碑，有助于有效的决策制定和结构化、高效的解决问题策略。

问题与挑战

在复杂环境中，直接找到目标的轨迹并不明显，或者解决复杂任务所需的策略复杂，使得直接解决方案具有挑战性。此外，在稀疏且不可解释的奖励环境中，如何有效地识别地标和子任务是一个挑战。

如何解决

作者提出了一种算法，使用对比学习来检测潜在的地标状态，然后使用图搜索算法来识别每个子任务所需的必要谓词。此外，使用大型语言模型（LLM）生成规则模板，这些模板进一步通过归纳逻辑编程（ILP）基于RL代理进行微调。

图检索算法:
在这里插入图片描述

创新点

地标识别：使用对比学习和图搜索算法来识别地标，而不是依赖于奖励中心算法。
规则模板生成：使用LLM生成规则模板，而不是依赖于人类专家生成的规则模板。
减少对预定义谓词的依赖：通过LLM引导的规则生成，减少了对环境预定义一阶逻辑谓词的假设。

算法模型

对比学习：用于检测潜在的地标状态。
图搜索算法：用于识别每个子任务所需的必要谓词。
LLM规则模板生成：使用LLM生成规则模板。
ILP-RL代理：用于微调生成的规则模板。

实验效果

实验环境：修改版的GetOut和Loot环境。
重要数据：
- 在GetOut*环境中，4个子任务的平均奖励为22.86 ± 2.46。
- 在GetOut环境中，4个子任务的平均奖励为22.84 ± 2.49。
结论：算法在检测子任务方面准确且高效，LLM引导的规则生成方法减少了对预定义逻辑谓词的依赖，提供了更灵活和可扩展的解决方案。

在这里插入图片描述

2. Lost-in-Distance: Impact of Contextual Proximity on LLM Performance in Graph Tasks

Authors: Hamed Firooz, Maziar Sanjabi, Wenlong Jiang, Xiaoling Zhai
https://arxiv.org/abs/2410.01985

在这里插入图片描述
“迷失在远距离”: 上下文邻近性对大型语言模型在图任务中性能的影响

摘要

尽管大型语言模型（LLMs）取得了显著的进步，但它们在检索和有效处理相关上下文数据方面存在盲点。我们展示了LLMs在处理复杂度超出“大海捞针”场景的图任务时，其性能受到上下文中相关信息邻近性的影响，这种现象我们称之为“迷失在远距离”。我们检验了两个基本的图任务：识别两个节点之间的共同连接和评估三个节点之间的相似性，并表明模型在这些任务中的表现在很大程度上取决于共同边的相对位置。我们评估了三个公开可用的LLMs（Llama-3-8B、Llama-3-70B和GPT-4），并使用各种图编码技术来表示LLM输入的图结构。我们提出了“迷失在远距离”现象的公式，并证明“迷失在远距离”和“迷失在中间”现象是独立发生的。结果表明，模型的准确性随着节点连接之间的距离增加而下降，下降幅度高达6倍，与图编码和模型大小无关。

研究背景

LLMs通过利用规模和基于注意力的架构，达到了前所未有的普遍性水平。这些模型在包括语言翻译、阅读理解和问答在内的多种任务中展现出卓越能力。此外，LLMs也越来越多地作为各种面向用户的机器学习和人工智能应用的基础模块，例如推荐系统、图相关任务和知识库等。

问题与挑战

尽管LLMs在许多应用中得到扩展，但它们在处理信息时存在某些盲点，显著影响其性能。尤其是这些模型如何在上下文中处理信息并检索相关数据以解决手头任务，这仍然是一个研究的活跃领域。

如何解决

文章通过实验发现，在需要跨子图信息查找的任务中，模型性能不仅因为基于绝对位置的“迷失在中间”效应而下降，而且还受到上下文中信息片段之间相对距离的影响，即“迷失在远距离”现象。

创新点

提出了“迷失在远距离”现象，区分于之前研究中提出的“迷失在中间”现象。
证明了在图任务中，模型性能不仅受信息绝对位置的影响，还受到信息之间相对距离的影响。
在不同的图编码算法和各种公开可用的LLMs上验证了这一现象，表明这是当前架构的一个普遍限制。

算法模型

文章中没有明确提出新的算法模型，而是使用了现有的三个大型语言模型：Llama-3-8B、Llama-3-70B和GPT-4，并采用了不同的图编码技术来表示图结构。

实验效果

在图任务中，模型的准确性随着节点连接之间的距离增加而显著下降。
在“共同连接”任务中，当相关信息在上下文中的距离增加时，模型性能下降。
在“相似性”任务中，需要进行多次交叉引用操作，性能下降更为明显。
实验结果表明，即使控制了相关信息的绝对位置，模型性能仍然受到“迷失在远距离”现象的影响。

重要数据与结论

在“共同连接”任务中，当两个节点的共同连接信息之间的距离增加时，模型的准确性显著下降。
在“相似性”任务中，模型需要执行两次共同连接任务和一次比较任务，性能下降更为明显。
模型准确性可能因为“迷失在远距离”现象而下降高达6倍。

3. Zodiac: A Cardiologist-Level LLM Framework for Multi-Agent Diagnostics

Authors: Yuan Zhou, Peng Zhang, Mengya Song, Alice Zheng, Yiwen Lu, Zhiheng
Liu, Yong Chen, Zhaohan Xi
https://arxiv.org/abs/2410.02026
在这里插入图片描述
ZODIAC：用于多代理诊断的心脏病专家级LLM框架

摘要

大型语言模型（LLMs）在医疗保健领域取得了显著进展，但它们在特定临床实践中的专业程度仍存在显著差距，限制了它们在现实世界诊断中的应用。在本项工作中，我们介绍了ZODIAC，这是一个具有心脏病专家级专业水平的LLM驱动框架，旨在让LLMs参与心脏诊断。ZODIAC通过从患者数据中提取临床相关特征、检测显著心律失常并生成初步报告来协助心脏病专家，这些报告随后由心脏病专家进行审查和完善。为了达到心脏病专家级的专业水平，ZODIAC建立在多代理协作框架上，能够处理患者的多种数据。每个LLM代理都使用心脏病专家判定的真实患者数据进行微调，增强了模型的专业水平。ZODIAC通过了独立心脏病专家的严格临床验证，并在八个指标上进行了评估，这些指标衡量了临床效果并解决了安全问题。结果显示，ZODIAC的表现优于行业领先的模型，包括OpenAI的GPT-4o、Meta的Llama-3.1-405B和Google的Gemini-pro，以及像Microsoft的BioGPT这样的医疗专家LLM。ZODIAC展示了专业LLM在医疗保健中的变革潜力，通过提供满足医疗实践严格要求的特定领域解决方案。值得注意的是，ZODIAC已成功集成到心电图（ECG）设备中，这代表了将LLMs嵌入到软件即医疗设备（SaMD）中的日益增长的趋势。

研究背景

随着技术不断革新医疗保健领域，人工智能（AI）已成为医疗设备中的关键组成部分，推动了临床实践中数字健康的发展。在最有前景的AI进展中，大型语言模型（LLMs）在数字健康中开辟了新的可能性。随着人类般的对话技巧和广泛的预训练知识，LLMs越来越多地被行业领导者作为临床支持工具采用，发展成为专门的临床代理。

问题与挑战

尽管取得了这些进展，将LLMs整合到现实世界的医疗保健实践中仍处于初期阶段，它们在专业性方面存在显著差距。弥合这些差距至关重要，尤其是在部署受FDA软件即医疗设备（SaMD）法规管辖的医疗保健环境中。

如何解决

本研究旨在解决将LLMs与心脏学领域的SaMD实践对齐的挑战，专注于心电图（ECGs）的临床发现和解释。我们介绍了ZODIAC，这是一个旨在实现心脏病专家级专业性的LLM驱动的多代理框架。

创新点

多代理协作框架：ZODIAC利用多个LLM代理分析多模态患者数据，包括表格格式的临床指标和图像格式的ECG追踪。
数据驱动的专业主义：ZODIAC建立在真实世界的数据之上，包括来自诊所的患者数据、心脏病专家判定的文本和临床实践指南。
技术驱动的专业主义：ZODIAC的技术设计符合心脏病专家级的诊断实践。

算法模型

ZODIAC由三个代理组成：

指标到发现代理（θM2F）：一个表格到文本的LLM，从表格指标（M）中提取关键特征，同时结合B中的患者生物统计数据生成临床发现。
追踪到发现代理（θT2F）：一个图像到文本的LLM，从ECG追踪（T）中识别关键因素，整合B中的相关信息，并产生临床发现。
发现到解释代理（θF2I）：一个基于文本的LLM，将两个代理的发现（F）综合起来，应用临床指南（G），生成解释（I）。

在这里插入图片描述

实验效果

临床验证：ZODIAC通过与独立心脏病专家的合作进行了严格的临床验证，评估了其在八个指标上的临床效果和安全性。
性能比较：ZODIAC在所有评估指标上均优于其他领先的LLMs，包括GPT-4o、Gemini-Pro、Llama-3.1-405B和BioGPT等。

重要数据与结论

ZODIAC在准确性、完整性、组织性、可理解性和简洁性等临床领域指标上均优于其他模型。
在安全性领域，ZODIAC在一致性、无幻觉和无偏见等指标上也展现出卓越的性能。

4. Can LLMs Reliably Simulate Human Learner Actions? A Simulation Authoring Framework for Open-Ended Learning Environments

Authors: Amogh Mannekote, Adam Davies, Jina Kang, Kristy Elizabeth Boyer
https://arxiv.org/abs/2410.02110
在这里插入图片描述
LLMs能否可靠地模拟人类学习者行为？开放式学习环境的仿真授权框架

摘要

模拟学习者行为有助于在部署前对开放式交互式学习环境进行压力测试，并原型化新的适应性调整。尽管最近的研究表明，使用大型语言模型（LLMs）模拟人类行为具有潜力，但此类方法由于关键限制尚未超越初步的概念验证阶段。首先，LLMs对微小的提示变化非常敏感，这让人怀疑它们在没有广泛的提示工程的情况下能否泛化到新场景。此外，表面上成功的结果往往是不可靠的，要么是因为领域专家无意中引导LLMs产生预期结果，导致自我实现的预言；要么是因为LLM在其训练数据中遇到了非常相似的场景，这意味着模型可能不是在模拟行为，而是在复述记忆内容。为了应对这些挑战，我们提出了HYP-MIX，一个仿真授权框架，允许专家通过结合关于学习者行为的可测试假设来开发和评估仿真。在物理学习环境中测试此框架时，我们发现GPT-4 Turbo即使在底层学习者模型发生变化时也能保持校准行为，为LLMs能够用于模拟开放式交互式学习环境中的真实行为提供了第一个证据，这是有用LLM行为仿真的先决条件。

研究背景

开放式交互式学习环境提供了独特的教育价值，提供了可定制和动态的空间，让学习者可以探索、实验和构建知识。然而，开发这些环境是具有挑战性的，它不仅需要创建教学内容，还需要为知识水平和心理特征各异的学习者适应学习体验的机制。

问题与挑战

开发这些环境需要一个迭代过程，在理论最佳实践与实际需求之间不断进行平衡。此外，开发仿真在冷启动阶段是具有挑战性的，因为在新环境中缺乏真实学习者数据。这种稀缺性阻止了纯粹的数据驱动方法，需要依赖于类似研究的日志数据、学习科学理论的预测、教师经验和专家直觉。

如何解决

文章提出了HYP-MIX框架，通过结合关于学习者行为的可测试假设来创建和评估仿真。该框架允许专家开发和评估仿真，同时提供了一种平衡的专家知识和自动化推理的集成。

创新点

HYP-MIX框架：提供了一个系统化的仿真授权框架，用于将专家知识整合到基于LLM的学习者行为仿真中。
边际分布假设（MDHyps）：作为仿真评估和创作的基础，提供了一个明确的、统计上关于仿真在新仿真场景中的鲁棒性和泛化能力的定义。

算法模型

HYP-MIX框架的核心是MDHyps，它关注于一个学习者特征与特定行为之间的概率分布关系。这些假设可以在多次仿真运行中通过分析结果分布进行测试。
在这里插入图片描述

实验效果

在HypoOrbits环境中，GPT-4 Turbo在底层学习者模型发生变化时仍能保持校准行为。
在18种情况下，有16种情况GPT-4 Turbo能够泛化到新的学习者模型和特征，而无需重新校准。

重要数据与结论

GPT-4 Turbo在大多数情况下能够保持对学习者行为的模拟校准，表明LLMs有潜力用于行为仿真。
该研究为使用MDHyps作为仿真创作的单位提供了基础，并为未来扩展到更复杂的环境和学习者特征奠定了基础。

5. From Pixels to Tokens: Byte-Pair Encoding on Quantized Visual Modalities

Authors: Wanpeng Zhang, Zilong Xie, Yicheng Feng, Yijiang Li, Xingrun Xing,
Sipeng Zheng, Zongqing Lu
https://arxiv.org/abs/2410.02155

在这里插入图片描述
从像素到标记：在量化视觉模态上应用字节对编码

摘要

多模态大型语言模型（MLLMs）在整合视觉和文本信息方面取得了显著进展，但它们通常难以有效地对齐这些模态。我们介绍了一种新颖的图像标记器，通过将字节对编码（BPE）原理应用于视觉数据，从而弥合了这一差距。与传统方法不同，我们的方法直接将结构先验信息纳入图像标记，这类似于文本大型语言模型中成功的标记策略。这种创新方法使Transformer模型能够更有效地跨模态学习和推理。通过理论分析和广泛的实验，我们证明了我们的BPE图像标记器显著增强了MLLMs的多模态理解能力，即使是在有限的训练数据下。我们的方法不仅提高了各种基准测试的性能，还显示出有希望的可扩展性，可能为更有效和强大的多模态基础模型铺平了道路。

研究背景

多模态大型语言模型（MLLMs）的发展取得了显著进展，但这些多模态基础模型通常分别对不同模态进行建模，并采用许多模态特定的设计，如专门的编码器和解码器。这种方法虽然允许训练数据与这些模态特定设计很好地对齐，但在实现对多模态信息的统一理解方面常常遇到困难。

问题与挑战

现有的MLLMs在处理视觉数据时，往往需要依赖于专门的解码器来解释编码器提供的嵌入，这导致LLMs需要重新学习如何解释标记嵌入，从而难以与这些模态对齐。

如何解决

文章提出了一种新的学习范式，通过使用新颖的BPE图像标记器对多模态数据的统一表示进行标记化，使Transformer模型能够更好地理解图像数据。

创新点

BPE图像标记器：首次提出显式地对多模态数据进行标记化的MLLM学习新范式。
理论分析：提供了为何这种学习范式能带来好处的理论分析，并提供了相应的实验验证。
算法设计：设计了训练BPE图像标记器的算法，并训练了带有此标记器的MLLM。

算法模型

图像表示和量化：将图像表示为一系列图像块的集合，使用向量量化（VQ）将这些图像块量化。
BPE图像标记器：将量化后的图像转换为一系列标记ID。
单字模型：定义了给定标记序列的概率。
多模态大型语言模型（MLLM）：定义了一个能够处理文本和图像数据的概率模型。

实验效果

VQAv2：视觉问题回答
MMBench：多模态理解
MME：多模态评估
POPE：对象幻觉评估
VizWiz：针对视力障碍用户的视觉问题回答

实验结果表明，BPE图像标记器显著提高了MLLMs的多模态理解能力，甚至在有限的训练数据下也实现了性能提升。

重要数据与结论

两阶段训练：先进行图像理解预训练（PT），然后进行全参数微调（SFT）。
数据扩展：通过增加训练数据量，模型性能持续提升，显示出方法的可扩展性。
词汇量影响：BPE词汇量的大小对模型性能有显著影响，适中的词汇量（如8K）最有利于学习。

后记

如果您对我的博客内容感兴趣，欢迎三连击(点赞，关注和评论)，我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型，深度学习，计算机视觉相关方向)最新学术论文及工程实践方面的内容分享，助力您更快更准更系统地了解 AI前沿技术。