计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-17

计算机前沿技术-人工智能 算法-大语言模型-最新研究进展-2024-10-17

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-17
- 目录
- 1. WILT: A Multi-Turn, Memorization-Robust Inductive Logic Benchmark for LLMs
- - - 摘要：
    - 研究背景：
    - 算法模型：
    - 核心创新点：
    - 实验效果：
    - 后续潜在研究方向：
    - 推荐阅读指数：★★★★☆
- 2. Implementing Derivations of Definite Logic Programs with Self-Attention Networks
- - - 摘要：
    - 研究背景：
    - 算法模型：
    - 核心创新点：
    - 实验效果：
    - 后续潜在研究方向：
    - 推荐阅读指数：★★★★☆
- 3. Revisiting Benchmark and Assessment: An Agent-based Exploratory Dynamic Evaluation Framework for LLMs
- - - 摘要：
    - 研究背景：
    - 算法模型：
    - 核心创新点：
    - 实验效果：
    - 后续潜在研究方向：
    - 推荐阅读指数：★★★★☆
- 4. AGENTiGraph: An Interactive Knowledge Graph Platform for LLM-based Chatbots Utilizing Private Data
- - - 摘要：
    - 研究背景：
    - 算法模型：
    - 核心创新点：
    - 实验效果：
    - 后续潜在研究方向：
    - 推荐阅读指数：★★★★☆
- 5. Y-Mol: A Multiscale Biomedical Knowledge-Guided Large Language Model for Drug Development
- - - 摘要：
    - 研究背景：
    - 算法模型：
    - 核心创新点：
    - 实验效果：
    - 后续潜在研究方向：
    - 推荐阅读指数：★★★★★
- 后记

1. WILT: A Multi-Turn, Memorization-Robust Inductive Logic Benchmark for LLMs

Authors: Eryk Banatt, Jonathan Cheng, Skanda Vaidyanath, Tiffany Hwu
https://arxiv.org/abs/2410.10998

摘要：

这篇论文介绍了Wason Inductive Logic Test (WILT)，这是一个多轮次、抗记忆的大型语言模型（LLMs）归纳逻辑测试基准。WILT旨在评估LLMs在多轮次推理任务中的表现，这些任务需要模型在多个回合中收集证据并得出逻辑结论。研究者发现，尽管LLMs在单轮次任务中表现出色，但在需要多轮次推理的场景中，它们的表现往往不尽如人意。WILT通过要求模型提出测试案例来缩小可能的假设空间，并最终推断出隐藏的函数，从而测试LLMs的多轮次推理能力。
在这里插入图片描述

研究背景：

大型语言模型（LLMs）在多个领域展现出了令人印象深刻的能力，但在需要跨多个回合收集证据并进行逻辑推理的任务上，它们仍然面临重大挑战。这些挑战对于依赖多轮次交互的LLM聊天用户界面来说是一个显著的障碍，例如服务聊天机器人需要在多个回合中收集客户信息以有效诊断和解决问题。

算法模型：

WILT测试基于Wason 2-4-6任务，要求参与者通过提出测试案例来推断涉及三个变量的基本布尔函数（例如，x < y < z）。在WILT中，每个测试都从一张白纸开始，只提供初始指令，防止模型依赖于预先学到的响应。模型必须通过多个回合与环境交互，提出测试案例，以缩小可能的假设空间，并最终基于结果推断出隐藏的函数。

核心创新点：

提出了WILT，一个多轮次推理基准，旨在抵抗记忆化，要求模型在多个回合中收集证据并进行逻辑推理。
WILT测试了LLMs的两个重要能力：(1) 是否能通过提出正确的测试案例在多个回合中有效缩小可能的解决方案空间；(2) 是否能在积累证据后推荐一个简单且有意义的问题解决方案。
通过实验发现，即使是表现最好的模型在WILT任务上也只达到了28%的准确率，这突显了LLMs在复杂多轮次推理任务上的性能差距。

实验效果：

实验结果显示，即使是最先进的LLMs在WILT任务上也表现不佳，最佳模型的准确率仅为28%。这表明，尽管在单轮次任务中表现强劲，但这并不总是能转化为多轮次设置中的性能。
在这里插入图片描述

后续潜在研究方向：

未来的工作可能会探索如何改进LLMs在多轮次推理任务中的表现，包括如何更好地结合不同模型的优势，以及如何设计能够更有效地探索和利用多轮次交互的数据集。

推荐阅读指数：★★★★☆

2. Implementing Derivations of Definite Logic Programs with Self-Attention Networks

Authors: Phan Thi Thanh Thuy, Akihiro Yamamoto
https://arxiv.org/abs/2410.11396

摘要：

这篇论文提出了一个限制版本的逻辑推理可以通过自注意力网络实现。研究者们展示了基于变换器网络构建的大型语言模型（LLMs）能够进行逻辑推理。他们通过分析自注意力网络——变换器网络的主要成分——来揭示LLMs的潜力。这种方法不基于自然语言的语义，而是基于逻辑推理的操作。研究者们展示了自注意力网络与前馈网络（FFNs）的层次结构可以实现一类逻辑公式的自顶向下推导，并且自底向上推导也可以实现。

研究背景：

大型语言模型（LLMs）对我们的生活产生了深远的影响。许多人开始以各种方式使用它们，并期望赋予它们更多的能力。逻辑推理就是这样一种能力。一些研究者声称LLMs可以进行逻辑推理，并讨论了LLMs输出的语义正确性，其中语义是自然语言句子的含义。从数学逻辑理论来看，逻辑推理的正确性不仅应该从语义上支持，还应该从操作上支持。逻辑推理操作是从假设中推导出结论并基于它们展示句子的真实性的方法。

算法模型：

研究者们分析了变换器网络，特别是自注意力网络，这些是变换器的主要组成部分。作为逻辑推理机制，他们采用了自顶向下推导来处理逻辑程序和查询。他们展示了自注意力网络的一种类型可以实现自顶向下推导，并且之前研究中处理的自底向上推导也可以通过另一种类型的自注意力网络实现。

核心创新点：

提出了自注意力网络可以实现逻辑推理的限制版本。
展示了自注意力网络与前馈网络（FFNs）的层次结构可以实现逻辑公式的自顶向下推导。
展示了自底向上推导也可以通过自注意力网络实现。

实验效果：

论文中没有提供具体的实验数据，但提出了一种新的视角，即LLMs隐含地具有逻辑推理的能力。

后续潜在研究方向：

未来的工作可能包括将这种讨论扩展到概率命题逻辑，以便展示LLMs在实际应用中的更多潜力。

推荐阅读指数：★★★★☆

3. Revisiting Benchmark and Assessment: An Agent-based Exploratory Dynamic Evaluation Framework for LLMs

Authors: Wanying Wang, Zeyu Ma, Pengfei Liu, Mingang Chen
https://arxiv.org/abs/2410.11507

摘要：

尽管已经开发了各种垂直领域的大型语言模型（LLMs），但自动评估它们在不同领域的性能仍然是一个挑战。当前基于基准的评估方法表现出僵化、无目的的交互，并且依赖于预先收集的静态数据集，这些数据集构建成本高，跨领域不灵活，并且与实际用户需求不一致。为了解决这个问题，研究者们重新审视了评估组件，并引入了两个概念：Benchmark+，它将传统的问答基准扩展为更灵活的“策略-标准”格式；以及Assessment+，它增强了交互过程，支持更深入的探索，并支持定量和定性的洞察。这些概念通过更丰富的多轮次交互捕捉LLMs的细微行为。研究者们提出了一个基于代理的评估框架TESTAGENT，它通过检索增强生成和强化学习来实现这些概念。实验表明，TESTAGENT在各种场景中的有效性，包括构建垂直领域评估和激活现有基准。

研究背景：

大型语言模型（LLMs）已经在广泛的任务中展示了卓越的能力，重塑了各个行业，并导致了众多领域特定的LLMs和应用的发展。然而，由于自回归生成方式，LLMs的输出表现出高度的变异性。有效的评估可以更好地理解它们的能力和局限性。
在这里插入图片描述

算法模型：

TESTAGENT框架通过检索增强生成（RAG）和强化学习（RL）来实现Benchmark+和Assessment+的概念。它能够自动构建“策略-标准”对，形成扩展的基准，并自主执行探索性交互和评估。
在这里插入图片描述

核心创新点：

引入了Benchmark+和Assessment+的概念，通过更丰富的多轮次交互捕捉LLMs的细微行为。
提出了基于代理的评估框架TESTAGENT，它能够自动构建“策略-标准”对，并自主执行探索性交互和评估。

实验效果：

实验结果表明，TESTAGENT在各种场景中的有效性，包括构建垂直领域评估和激活现有基准。

后续潜在研究方向：

未来的工作可能包括探索更多的交互形式，以及深入和全面地评估模型性能。

推荐阅读指数：★★★★☆

4. AGENTiGraph: An Interactive Knowledge Graph Platform for LLM-based Chatbots Utilizing Private Data

Authors: Xinjie Zhao, Moritz Blum, Rui Yang, Boming Yang, Luis M’arquez
Carpintero, M’onica Pina-Navarro, Tony Wang, Xin Li, Huitao Li, Yanran Fu,
Rongrong Wang, Juntao Zhang, and Irene Li
https://arxiv.org/abs/2410.11531

摘要：

这篇文章介绍了AGENTiGraph，这是一个交互式知识图谱平台，用于基于LLM的聊天机器人，利用私有数据。AGENTiGraph通过自然语言交互进行知识管理。它集成了知识提取、整合和实时可视化。AGENTiGraph采用多代理架构，动态解释用户意图，管理任务，并整合新知识，确保适应不断演变的用户需求和数据上下文。该方法在知识图谱交互方面表现出色，特别是在复杂的领域特定任务中。实验结果表明，AGENTiGraph在任务分类上的准确率达到95.12%，在任务执行上的成功率达到90.45%，显著优于最先进的零样本基线。用户研究证实了其在现实世界场景中的有效性。为了展示多功能性，研究者们将AGENTiGraph扩展到立法和医疗领域，构建了能够回答法律和医疗背景下复杂查询的专业KG。

研究背景：

大型语言模型（LLMs）在各种应用中展示了能力，但在处理复杂、特定领域的任务（如问答）时面临挑战，例如幻觉、有限的推理能力和事实不一致性。虽然知识图谱（KGs）已被证明可以帮助缓解这些问题，但关于LLMs与背景KGs集成的研究仍然有限。特别是，用户的可访问性和底层KG的灵活性尚未得到充分探索。

算法模型：

AGENTiGraph平台通过自然语言界面实现与知识图谱的无缝、智能交互。关键特点包括语义解析、自适应多代理系统、动态知识整合等。
在这里插入图片描述

核心创新点：

引入了AGENTiGraph，一个交互式知识图
谱平台，用于基于LLM的聊天机器人，利用私有数据。
集成了知识提取、整合和实时可视化。
采用多代理架构，动态解释用户意图，管理任务，并整合新知识。

实验效果：

实验结果表明，AGENTiGraph在任务分类上的准确率达到95.12%，在任务执行上的成功率达到90.45%，显著优于最先进的零样本基线。

后续潜在研究方向：

未来的工作可能包括增强多跳推理、优化响应简洁性和完整性，并从用户交互中进行持续学习。

推荐阅读指数：★★★★☆

5. Y-Mol: A Multiscale Biomedical Knowledge-Guided Large Language Model for Drug Development

Authors: Tengfei Ma, Xuan Lin, Tianle Li, Chaoyi Li, Long Chen, Peng Zhou,
Xibao Cai, Xinyu Yang, Daojian Zeng, Dongsheng Cao, Xiangxiang Zeng
https://arxiv.org/abs/2410.11550

摘要：

这篇文章介绍了Y-Mol，这是一个多尺度生物医学知识引导的大型语言模型，用于药物开发。Y-Mol旨在完成从先导化合物发现、临床前到临床预测等跨领域的任务。通过整合数百万的多尺度生物医学知识和使用LLaMA2作为基础LLM，Y-Mol通过从出版物语料库、知识图谱和专家设计的合成数据中学习，增强了生物医学领域的推理能力。此外，Y-Mol提供了一组LLM范式，可以自动执行整个药物开发过程中的下游任务，包括虚拟筛选、药物设计、药理学属性预测和药物相关相互作用预测。广泛的评估表明，Y-Mol在发现先导化合物、预测分子属性和识别药物相互作用事件方面显著优于通用LLM。

研究背景：

大型语言模型（LLMs）在各个领域展示了卓越的性能，但在特定领域如药物开发中的有效性仍然是一个挑战。为了解决这些挑战，研究者们引入了Y-Mol，形成了一个成熟的LLM范式，用于药物开发的流程。
在这里插入图片描述

算法模型：

Y-Mol基于LLaMA2实现，通过不同的文本语料库和从各种生物医学知识中派生的指令进行微调。具体来说，研究者们构建了一个大规模的生物医学文本语料库，涵盖了与药物开发相关的多个领域。他们还构建了基于大规模知识图谱的生物医学交互指令，并从小型模型中提取专家知识，以统一不同药物开发应用中的表示。
在这里插入图片描述