论文浅尝 | GenTKG:结合大语言模型的时间知识图谱生成式预测(NAACL2024)

server/2024/12/22 20:10:58/

48f858b5f4c2ab99e0ba78b182476dec.png

笔记整理:喻靖,浙江大学硕士,研究方向为大语言模型

论文链接:https://arxiv.org/pdf/2310.07793

发表会议:NAACL2024

摘要

随着大语言模型(LLMs)的迅速发展,人们对时间知识图谱(tKG)领域的兴趣日益增长。传统上,tKG领域的预测任务主要由基于嵌入和基于规则的方法主导。然而,这些方法在处理复杂的时间关系数据时存在显著局限性,特别是在应对数据规模、复杂的图结构,以及模型在不同数据集和时间切分下的适应性时。为了探索大语言模型在处理时间关系数据方面的潜力,本文提出了一种新的生成式预测框架GenTKG,该框架结合了基于检索的增强生成策略和少样本参数高效调优方法,以解决上述挑战。

1. 背景

时间知识图谱(tKG)是一个包含多重关系的有向图,节点间的边带有时间戳,表示随时间变化的世界知识。tKG任务的主要目标是在给定过去历史事件的基础上预测未来的事件。例如,在预测给定时间点的某个实体关系时,传统方法通常通过嵌入模型将时间四元组嵌入到隐空间中,或者通过挖掘图结构中的时间逻辑规则来进行预测。然而,这些方法在面对数据集的微小修改、时间分割的变化时表现出不足。此外,它们往往忽略了tKG中事件的语义信息,只注重隐式的结构性表示,缺乏跨领域和跨时间的泛化能力。

在将大语言模型应用于tKG的生成式预测任务时,存在两个主要挑战:

(1)模态差异:tKG的数据结构复杂,包含大量的时间四元组,这些数据难以适应大语言模型能够处理的序列化自然语言表达。

(2)计算成本:LLMs在处理如此大规模的时间知识图谱数据时,微调所需的计算成本极高,尤其是在需要几个月时间的大规模训练任务中。

2. 贡献

(1)开创了时间知识图谱生成式预测的新领域:GenTKG首次将指令调优的生成式大语言模型引入到时间知识图谱领域,并提出了一种新的检索增强生成框架,展示了LLMs在时间关系预测任务中的巨大潜力。

(2)低计算成本下的超越性能:通过极少样本的参数高效指令调优,GenTKG在计算资源极为有限的情况下实现了对传统方法的超越性能,展示了其在有限数据和计算资源下的优异表现。

(3)从数据学习到任务对齐的转变:GenTKG创新性地将传统的基于数据的学习转变为基于任务的对齐,通过指令调优,使大语言模型与时间知识图谱预测任务对齐,实现了更高效的任务执行。

(4)卓越的泛化能力:GenTKG展示了强大的跨数据集泛化能力和域内泛化能力,能够在不同数据集和时间切分下保持一致的高性能。

3. 方法

为了解决上述挑战,本文提出了一种新的检索增强生成框架GenTKG。该框架结合了基于时间逻辑规则的检索策略(Temporal Logical Rule-based Retrieval, TLR)和少样本参数高效指令调优策略(Few-shot Parameter-Efficient Instruction Tuning, FIT),能够在计算资源有限的情况下,以极少的训练数据实现对tKG的生成式预测。

51f1d1338f643a8d89b5741298000110.png

基于时间逻辑规则的检索策略(TLR):TLR策略通过挖掘tKG中的时间逻辑规则,构建了一个规则库。利用这些规则,可以检索出与给定查询在时间和逻辑上最相关的历史事实,并将这些历史事实按照时间顺序转换为自然语言,填充到为LLMs设计的特定提示模板中。尽管这些提示是以自然语言的形式出现,但它们隐含了tKG的结构信息,使得LLMs能够理解时间关系数据。

时间随机游走的过渡分布公式:为了检索与给定查询相关的历史事件,GenTKG使用了时间随机游走的概念,该过渡分布公式如下:

29344184b7ae37a110c019fcb85c96bb.png

该公式确保检索出的历史事实在时间上更接近于当前查询,使得生成式预测更符合时间逻辑。

时间逻辑规则的定义:时间逻辑规则用于捕捉tKG中的时间模式,规则定义如下:

7621785cdb4e04abbf7614abb007428a.png

则的含义是,如果规则主体在时间 T1T_1T1 成立,那么在未来时间 T2T_2T2,规则头部也可能成立。

规则置信度的计算:规则置信度衡量时间逻辑规则的可靠性,其计算公式为:

7edb88a198ce7a691cbf29cbc17348fc.png

置信度越高,表示规则在历史数据中成立的频率越高,因此被认为是更可靠的规则。

少样本参数高效指令调优策略(FIT):FIT策略通过指令调优,将LLMs与时间关系预测任务对齐,并将其重新定义为自回归生成任务。为了降低计算成本,本文采用了一种参数高效的微调方法(Low-Rank Adaptation, LoRA),仅需要极少的训练数据(少至16个样本)即可实现对tKG的高效调优。此外,FIT策略通过对任务指令、检索的历史事实输入以及生成的预测结果的精心设计,使LLMs能够在tKG任务上表现出色。

0b552d3cce0448cde5973c3aa4a98209.png

该图展示了用于微调语言模型的指令提示设计。提示分为三部分:任务指令(解释任务的定义),任务输入(包括检索到的历史事实),以及任务输出(预测的未来事件)。

4. 实验结果

通过在多个tKG基准数据集上的广泛实验,GenTKG展示了其在计算资源有限的情况下,利用极少量的训练数据(如1024个样本)的超越性能。与传统方法相比,GenTKG在准确性上显著优于嵌入方法、基于规则的方法以及近期提出的基于上下文学习(ICL)的方法。此外,GenTKG还表现出了卓越的跨领域泛化能力,无需重新训练便能在多个未见过的数据集上取得优异的表现。

ab5ca313c36961b94577709f04d3ae3e.png

be71eaa90f6bc7f9ade6fc12edac2e1c.png

该图展示了GenTKG框架在跨领域泛化中的表现。在(a)小图中,GenTKG在ICEWS14数据集上训练,在GDELT数据集上评估,表现与在相同数据集上训练和评估的情况相当。(b)小图通过交叉检查不同训练和评估数据集,突出了GenTKG在不同领域中维持性能的能力。

8872a37abc5af482ed12b45f0ce4ffc0.png

该图分析了GenTKG在同一数据集内使用不同训练数据分区时的泛化能力。即使在使用有限的训练数据(如原始数据的5%)的情况下,GenTKG依然优于传统方法,展示了其强大的性能和稳定性。

2069b0057a8dce47cf65f7947b43e0be.png

在(a)小图中可以看到,TLR和FIT阶段都显著提升了GenTKG的性能,结合使用这两个阶段能够获得最佳结果。(b)小图显示了增加少样本训练样本数量可以提高性能,强调了该框架在有限数据学习中的效率。

5. 总结

GenTKG通过结合时间逻辑规则的检索策略和少样本的参数高效指令调优,为大语言模型在时间知识图谱生成式预测中的应用开辟了新的前沿。该框架不仅在预测准确性和计算效率上表现出色,还展示了卓越的泛化能力,表明大语言模型在tKG领域中的巨大潜力和应用前景。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

554eacd5be73271019ed67baac63a16c.png

点击阅读原文,进入 OpenKG 网站。


http://www.ppmy.cn/server/129200.html

相关文章

[C++ 核心编程]笔记 1 内存分区模型

内存分区模型 C程序在执行时,将内存大方向划分为4个区域: 代码区: 存放函数体的二进制代码,由操作系统进行管理的。 全局区: 存放全局变量和静态变量以及常量。 栈区: 由编译器自动分配释放,存放函数的参数值、局部变量等。 堆…

贪心算法c++

贪心算法C概述 一、贪心算法的基本概念 贪心算法(Greedy Algorithm),又名贪婪法,是一种解决优化问题的常用算法。其基本思想是在问题的每个决策阶段,都选择当前看起来最优的选择,即贪心地做出局部最优的决…

【中间件】fastDFS的相关知识

一、分布式文件系统 1.1 传统的文件系统 我们在Linux中学习的文件系统就是传统的文件系统: 传统的文件系统格式: ntfs/fat32/ext3/ext4 可以被挂载和卸载,就是一般一个盘可以分成多个盘,每一盘都可以挂载到不同的目录路径中。…

数据分析 | 热度编码和标签编码

热度编码(One-Hot Encoding)和标签编码(Label Encoding)是两种常用的将分类变量转换为数值型变量的方法。下面是对这两种编码 方式的详细解释及Python代码示例。 1. 热度编码(One-Hot Encoding) 定义&…

【Redis入门到精通九】Redis中的主从复制

目录 主从复制 1.配置主从复制 2.主从复制中的拓扑结构 3.主从复制原理 4.主从复制总结 主从复制 在分布式系统中为了解决单点问题,通常会把数据复制多个副本部署到其他服务器,满⾜故障恢复和负载均衡等需求。Redis 也是如此,它为我们提…

【AIGC】ChatGPT提示词Prompt高效编写模式:结构化Prompt、提示词生成器与单样本/少样本提示

💯前言 在如今AI技术迅猛发展的背景下,尽管像ChatGPT这样的大型语言模型具备强大的生成能力,但它们的输出质量有时仍难以完全满足我们的预期。为了让ChatGPT生成更加准确、可靠的内容,掌握高效的Prompt编写技巧变得尤为重要。本文…

Win10 安装 Redis 数据库

一、Redis 数据库介绍 Redis 是一个开源的高性能键值对(key-value)的非关系型数据库。它通常用作数据结构服务器,支持多种类型的数据结构,如字符串(strings)、哈希(hashes)、列表&a…