【AI论文】迈向大型语言模型（LLM）训练开放数据集的最佳实践

摘要：许多人工智能公司未经版权所有者许可，就在其数据上训练大型语言模型（LLM）。这一行为的合法性因司法管辖区而异：在欧盟和日本等国家，这种行为在特定限制下是被允许的，而在美国，法律环境则更为模糊。无论法律地位如何，创意制作者的担忧已经引发了几起备受瞩目的版权诉讼，而诉讼威胁也常被企业和公共利益相关方作为最近减少分享训练数据集信息的趋势的一个原因。这种限制数据信息的趋势通过阻碍透明度、问责制和更广泛生态系统中的创新，造成了损害，因为它剥夺了研究人员、审计人员和受影响个体获取理解人工智能模型所需信息的权利。虽然通过使用开放获取和公有领域的数据来训练语言模型可以缓解这一问题，但在撰写本文时，由于组装必要语料库面临的技术和社会学挑战重大，还没有此类在有意义规模上训练出来的模型。这些挑战包括元数据不完整且不可靠、物理记录数字化的成本和复杂性，以及在快速变化的环境中确保相关性和责任所需的多样法律和技术技能。要构建一个未来，让人工智能系统能够在负责任地管理和治理的开放许可数据上进行训练，就需要法律、技术和政策领域的合作，以及对元数据标准、数字化和开放文化的培养进行投资。Huggingface链接：Paper page 论文链接：2501.08365

一、引言与背景

随着人工智能技术的飞速发展，大型语言模型（LLM）已成为自然语言处理领域的核心组件。然而，LLM的训练数据问题日益凸显，尤其是数据版权和透明度问题。许多AI公司在训练LLM时，未经版权所有者许可就使用数据，这在不同司法管辖区引发了不同的法律反应。在欧盟和日本等国家，这种行为在特定限制下是被允许的，而在美国，法律环境则更为复杂和模糊。这种不确定性不仅导致了一系列高调的版权诉讼，还促使企业和公共利益相关方减少分享训练数据集的信息，从而阻碍了透明度、问责制和创新。

在此背景下，开放数据集的提出成为了一种潜在的解决方案。开放数据集不仅能够促进数据共享和透明度，还能增强AI系统的可解释性和责任性。然而，构建和维护开放数据集面临着诸多挑战，包括技术、法律和社会学方面的难题。因此，探索最佳实践对于推动LLM训练开放数据集的发展至关重要。

二、挑战与原则

1. 挑战

构建和发布开放访问数据集是一个复杂的技术和法律问题，需要跨领域的合作和专业知识。具体而言，开放数据集面临以下挑战：

法律差异：不同司法管辖区的版权法律存在显著差异，这使得全球范围内的数据版权问题变得尤为复杂。
元数据不完整：现有数据集的元数据往往不完整或不可靠，这使得确定数据的版权状态变得困难。
物理记录数字化：将物理记录（如书籍、文件等）数字化需要高昂的成本和复杂的技术，且数字化后的数据质量参差不齐。
法律和技术技能：在快速变化的环境中，确保数据集的相关性和责任性需要多样化的法律和技术技能。
志愿者驱动的组织风险：许多开放数据集项目依赖于志愿者的贡献，这增加了法律风险和项目管理难度。
数据封闭性：即使数据处于公有领域，也可能由于各种原因（如数据持有者的限制）而无法公开访问和使用。

2. 原则

为了应对上述挑战，文献提出了以下指导原则，以帮助数据集构建者创建开放数据集：

促进竞争性LLM生态系统：通过提供透明的开放数据集，促进LLM研究和开发的竞争性，避免少数技术公司垄断市场。
通过可重复性实现问责制和透明度：确保数据集的生产流程透明，并提供工具和源代码以供他人复制，从而增强模型开发的问责制和可审计性。
最小化伤害并启用偏好信号：在整个数据生产过程中建立标准，使数据主体和权利持有人在模型训练前声明其偏好，并在之后报告问题。
支持并改善多样性：确保训练数据在不同语言和文化中的代表性和质量，以支持全球范围内的LLM应用。
追求互惠性：确保数据收集对数据主体、贡献者、组织和权利持有者都有益，避免数据剥削。
与其他志同道合者合作：利用Wikipedia、Creative Commons等组织的相关专业知识，共同解决LLM训练数据集的问题。
长期保存数据：确保训练数据集的互操作性和长期可访问性。

三、最佳实践

1. 编码偏好于元数据

识别并保存相关元数据：包括内容的URL和许可证等，建议使用现有的工具（如SPDX许可证标识符）以实现未来兼容性。
开发和采用机器可读的标准：用于内容标识和偏好信号，这对于构建数据治理和同意基础设施至关重要。

2. 数据源

优先考虑社区资源：依赖社区驱动的工具和资源来识别和收集数据，并公开可用的（自定义）工具。
提供有用的文档：详细描述数据源的选择、数据获取方法和使用的工具源代码，以促进数据集的复制和审计。
记录和跟随偏好信号：对于每个数据点，记录相关的权限和确定这些权限所需的元数据（如URL、抓取日期、HTTP头信息和HTML元数据）。
增加多样性和涉及当地社区：确保数据源的多样性和质量，特别是针对非英语内容。
谨慎使用合成数据：合成数据并非万能，应谨慎使用，并确保其准确性和代表性。

3. 数据处理

明确数据过滤或标注的价值观：根据数据集的具体应用和用户基础，定义“高质量数据”的概念。
追求可重复性：提供数据过滤过程的文档，并分享使用的工具和代码。
尝试识别与声明价值观不符的内容：包括有害内容和可能导致下游应用有害结果的内容。
考虑过滤方法的潜在非预期后果：过滤方法可能引入偏见，需谨慎使用。

4. 数据治理/发布

定制数据治理机制：根据数据主体和使用案例定制数据治理机制，并非所有数据集都需要开放访问。
与受影响社区合作：将受AI数据集开发影响的社区和组织作为利益相关者进行有意义地参与。
发布后移除：提供从数据集中移除内容的机制，并鼓励下游用户仅使用更新后的版本。
追求可访问的透明度：使非技术背景的人员也能轻松检查其数据是否在数据集中。

5. 使用条款

标准化和模块化：开发可识别且易于适应的模块化使用条款系统。
可访问性：设计以用户需求和理解为中心的使用条款，使其对非法律专业人员来说易于理解和遵守。
不对公有领域数据施加限制性条款：确保公有领域数据能够被最大限度地利用。

四、案例研究

1. EleutherAI的Common Pile

EleutherAI致力于通过创建标准化的“默认”数据集来提高LLM的透明度和可解释性。Common Pile是一个由多个子集组成的大型数据集，主要包括代码、公有领域书籍、学术论文和政府文本等内容。为了构建Common Pile，EleutherAI面临了诸如确定书籍版权状态、提取PDF中的文本等挑战。通过采用现有的库和方法论，EleutherAI确保了数据集的一致性和标准性。

2. Pleias的Common Corpus和YouTube-Commons

Pleias希望通过发布Common Corpus和YouTube-Commons来展示存在大量可用于LLM训练的开放许可内容。与EleutherAI不同，Pleias采用“频繁发布、早期发布”的心态，旨在促进一个不断改进和扩展数据集的社区。Common Corpus主要包括公共领域的旧文本内容，而YouTube-Commons则通过转录YouTube上的CC-BY许可视频来补充Common Corpus中的对话数据。

五、推荐与建议

1. 开放数据可用性

政策干预：简化国际范围内公有领域数据的识别流程，鼓励机构和企业以开放许可形式发布数据。
技术投资：投资于从PDF等困难格式中提取开放许可内容的工具，并提供这些工具作为开源软件。

2. 数据法律状态的清晰度

政策干预：制定跨司法管辖区的“安全港”条款，允许组织在纠正许可错误时不受即时法律后果的威胁。
技术投资：开发跨Web的机器可读元数据标准，以澄清许可和同意。

3. 负责任的AI治理

技术和社区投资：鼓励更多构建者联系当地社区以收集高质量的非英语数据，并简化使用条款以促进其遵守和执行。

4. 可持续资金

政策干预：将开放LLM数据集和模型视为公共产品，并至少部分资助以确保长期可持续性。
开放问题：探索除了公共资助之外的可行收入模型，如Wikimedia Enterprise或Spawning的Source.Plus，以确保数据集的长期可持续性。

六、结论

生产和维护LLM训练开放数据集是一个复杂且不断演变的挑战，需要来自不同利益相关者的积极参与。通过创建共同工件、最佳实践和标准，实施深思熟虑的政策，投资于有针对性的技术，并探索可持续的资金模式，我们可以促进一个高质量开放数据支持创新同时保持Web开放性的生态系统。这一目标的实现将需要协作努力和对公共利益的承诺，但它是确保下一代AI透明、可访问并对所有人有益的关键追求。