Multi-Scale Heterogeneous Text-Attributed Graph Datasets From Diverse Domains
WWW25
推荐指数:#paper/⭐⭐⭐#
代码地址:https://github.com/Cloudy1225/HTAG
作者主页:Yunhui Liu's Homepage
一句话总结:提出了涵盖多个领域的异构图文本属性图
动机:
异构文本属性图在现实世界发挥着重要的作用。但是,已有的数据集大多是同构文本属性图。为此,我们引入了异构文本属性图。此外我们给出了现有常见方法的benchmark结果。
现有异构图数据集缺乏文本等信息:
优势
- 规模跨度大。节点从24K节点到5.6M nodes节点
- 领域跨度大。包含电影合作、社区问答、学术、书籍出版和专利申请等领域
- 真实且可重复的评估。作者为HTAG 提供了一个自动化评估pipeline,可简化数据处理、加载和模型评估。此外,作者对每个数据集采用基于时间的数据split,与传统的随机split相比,这提供了更真实、更有意义的评估方案。
- 提供用于数据集构建的开源代码。其他人可以使用相同的代码工具来构建自己领域的数据集
数据集详情:
未来研究展望
- 众所周知LLM在文本领域有着很大的优势。因此,将LLM用于该数据集,是一个可探索的方向
- 除了节点分类之外,未来的研究还可以通过探索其他任务来扩展工作,例如在提出数据集上进行节点聚类、链接预测和自我监督学习。
- 该数据集包含时间信息,可以用于时序图的研究。
- 该文章提供了数据集构造的开源工具,可以用该开源工具构造更多的数据集