KDD 2024论文分享┆用于序列推荐的数据集再生

论文简介

本推文介绍了2024 KDD的最佳学生论文《Dataset Regeneration for Sequential Recommendation》。该论文提出了一种基于数据中心化范式的新框架，称为DR4SR，该框架通过模型无关的数据再生机制，能够生成具有出色跨架构泛化能力的理想训练数据集。此外，论文还引入了DR4SR+框架，增加了模型感知的数据个性化器，能够根据特定目标模型定制再生的数据集。为了验证这一数据中心化范式的有效性，论文将该框架与多种模型中心化方法结合，并在四个广泛使用的数据集上观察到显著的性能提升。推文作者为黄星宇，审校为许东舟和邱雪。

论文链接：https://dl.acm.org/doi/pdf/10.1145/3637528.3671841

一、会议介绍

第 30 届国际知识发现与数据挖掘大会（KDD 2024）于2024年8月25日至29日在西班牙巴塞罗那隆重举行。KDD 起始于1989年，由ACM的数据挖掘及知识发现专委会（ACM SIGKDD）组织，是数据挖掘领域的旗舰学术会议。大会涵盖了数据挖掘、知识发现、数据科学、预测分析等多个技术领域。KDD在中国计算机学会（CCF）的推荐中被列为A类顶尖学术会议。

二、研究背景

序列推荐（Sequential Recommendation）研究的是人工智能预训练的下一个标记预测（next-token prediction）问题。现有的序列推荐方法常关注于设计复杂的模型结构或训练策略，属于以模型为中心的范式，该范式往往忽略了数据中潜在的质量问题和缺陷。

论文首次从以数据为中心的视角出发，关注如何获得信息丰富且泛化性强的训练数据集，以提升训练数据质量最终提升模型性能。论文提出了数据集重生成框架，通过多样化重生成器的预训练及生成式推理，将原始的序列数据集转化为更易于训练的数据集，使不同的基础预测架构模型在其上训练都可以得到更好的推荐效果，引领了序列推荐以数据中心的新范式。

三、方法

图1以模型为中心的范式 vs以数据为中心的范式

图1展示了模型中心化范式和数据中心化范式的对比。在模型中心化范式中，所有模型（如RNN、Attention、Graph模型）使用相同的数据集进行训练，不区分数据的特性。而在数据中心化范式中，数据再生后，生成了适配不同模型的个性化数据集（如DataRNN、DataAttn、DataGraph），并分别用于RNN、Attention、Graph模型的训练。数据中心化范式通过为每个模型量身定制数据集，从而优化每个模型的表现。

图2以数据为中心的范式框架

(A)预训练阶段：

在预训练阶段，输入的原始序列（例如1-2-3-4-5）首先通过编码器被转化为多个潜在的高维表示m′1, m′2, …, m′K。这些表示捕捉了原始序列中的特征信息，并通过多样性促进器进行处理，生成具有多样性的潜在模式。为了确保数据再生的多样性，每个潜在表示会被赋予一个不同的权重π1, π2,…, πK, 从而生成不同的子模式。最后，经过加权的潜在表示输入解码器，生成新序列的子模式。这些生成的序列为接下来的推理和个性化阶段提供了基础数据。

(B)推理阶段：

在推理阶段，模型通过之前生成的潜在表示再生出新的序列模式。解码器通过两种模式生成数据：限制性模式和生成性模式。在限制性模式中，解码器仅生成已经在原始序列中出现过的子模式，而生成性模式则允许生成新的、未在原始序列中出现过的模式。通过概率γ，模型在两种模式之间进行平衡，既保留了序列的原始信息，又具有一定的探索性。推理阶段最终生成多个不同的序列，为后续的个性化阶段提供更多多样化的数据样本。

(C)个性化阶段：

在个性化阶段，生成的序列数据被输入到数据个性化器中，个性化器根据不同的目标模型（如RNN、Attention、Graph等）对这些序列进行评分。每个序列根据与目标模型的契合度被赋予不同的分数，确保模型使用最适合其结构的数据集进行训练。个性化器通过隐式梯度反馈机制进一步优化这些数据，使其更加符合目标模型的需求。最后，经过个性化处理后的数据集被分别输入到各个目标模型中，帮助它们提升在特定任务上的表现。

四、实验及结果

1．数据集

为了验证所提出方法的有效性，论文在四个常用的公开数据集（Beauty, Sports, Toys和Yelp）上进行实验。

表1数据集的统计

表2 再生数据集的统计

表1和表2分别展示了原始数据集和再生数据集的详细统计信息对比。在表1中，原始数据集包括四个广泛使用的数据集：Beauty、Sports、Toys和Yelp。统计信息包括用户数量（#users）、物品数量（#items）、用户与物品之间的交互次数（#interactions）、每个用户的平均交互长度（#Avg. length）以及数据的稀疏度（Sparsity）。例如，Beauty数据集包含22,363个用户、12,101个物品，总共约有20万次交互，平均每个用户与8.9个物品发生过交互，数据稀疏度高达99.95%。

表2展示了再生数据集的相同统计信息，再生数据集通过生成更多的用户-物品交互，显著增加了交互数量。例如，Beauty 数据集的交互次数从0.2m增加到0.32m，Sports数据集的交互次数从0.3m增加到0.45m。同时，每个用户的平均交互长度有所下降，表明再生数据集增加了更多不同的用户-物品交互组合，而不仅仅是扩大已有的交互关系。此外，再生数据集的稀疏度也略有降低，尽管依然保持在99.87%以上，说明数据仍然非常稀疏，但再生过程增加了数据的丰富性和多样性。这一变化为模型提供了更丰富的训练样本，有助于提高模型的性能和泛化能力。

2．实验结果

表3 整体性能。针对目标模型，最优结果用加粗表示，次优结果用下划线表示。上标*表示增加值是在p<0.05时的统计显著性水平，**表示增加值是在p<0.01时的统计显著性水平

表3展示了不同推荐模型（如GRU4Rec、SASRec、FMLP等）在四个数据集（Beauty、Sports、Toys、Yelp）上的性能表现，使用了多种评价指标进行评估，包括R@10、R@20（Recall@10、Recall@20）和 N@10、N@20（NDCG@10、NDCG@20）。此外，表中还对比了 DR4SR 和 DR4SR+ 两个框架的改进效果，以及基于原始模型在不同数据集上的性能提升。

主要发现：

1. 基线模型：如∞-AE和MELT在各数据集上的表现为基准，后续方法均与其进行对比。

2. GRU4Rec、SASRec、FMLP、GNN、CL4SRec等模型：这些模型在原始数据集上的性能展示在表格中，DR4SR和DR4SR+方法都显著提升了模型的表现，特别是在Toys和Yelp 数据集上，提升效果尤为明显。

3. DR4SR和DR4SR+的对比：DR4SR+相较于DR4SR提供了进一步的性能提升，特别是在NDCG（N@10、N@20）指标上，如在Beauty和Yelp数据集上，DR4SR+的提升最为明显。

4. 改进百分比：表格中的“Improv”列展示了DR4SR和DR4SR+相较于原始模型的改进百分比，表明数据再生机制在提升推荐质量上起到了显著作用，尤其是在Toys数据集上，各个模型的性能提升都超过了10%。

表4 DR4SR在NDCG@20上的消融实验

表4展示了DR4SR+的消融实验结果，比较了不同模块对模型在四个数据集上NDCG@20 指标的影响。结果显示，DR4SR+在所有数据集上均优于SASRec，特别是在Toys数据集上的提升最为显著。当去除多样性促进器（-diversity）、模式生成器（pattern）和端到端优化（end-to-end）时，模型性能有所下降，尤其是移除模式生成器和端到端优化后，性能大幅下降，表明这些模块对模型表现起着关键作用。

图3 在不同数据集上图结构和数据增强的NDCG@20相对提升

图3展示了在不同数据集（Beauty、Sport、Toys、Yelp）上，原始数据集（Original）和再生数据集（Regenerated）在NDCG@20指标上的相对改进。图(a)比较了不同图结构下的表现，图(b)则比较了不同数据增强方法下的表现。结果表明，在Beauty和Yelp数据集上，再生数据集在这两种实验设置中都显著提升了NDCG@20，而在Sport和Toys数据集上，原始数据集在某些情况下表现更好，但再生数据集仍然在某些实验中显示出优势。

五、总结和展望

该论文提出了一个名为DR4SR的数据再生框架，展示了其在序列推荐中的应用效果，并通过DR4SR+实现了个性化数据生成。未来的工作中，计划提出一个更全面的框架，以再生各种形式的数据，如序列、图和增强数据。同时，还将探索将大型语言模型（LLMs）整合到数据集再生过程中，以生成既保持协同信息又具有语义信息的数据。