（论文）检测部分欺骗音频的初步调查

Paper–An Initial Investigation for Detecting Partially Spoofed Audio

摘要

所有现有的欺骗性语音数据库都包含整个欺骗性的攻击数据。

在实践中，使用仅部分欺骗的话语来装载成功的攻击是完全合理的。根据定义，部分欺骗的话语包含欺骗和真实段的混合，这可能会降低使用完全欺骗的话语训练的对策的性能。这个假设提出了一个明显的问题：“我们能检测到部分欺骗的音频吗？

本文介绍了一个名为 PartialSpoof 的部分欺骗数据的新数据库，以帮助解决这个问题。这个新数据库使我们能够调查和比较对策在话语和分段级别标签上的表现。使用话语级别标签的实验结果表明，在使用部分欺骗数据进行测试时，发现训练用于检测完全欺骗数据的对策的可靠性会大大降低，而在完全和部分欺骗的话语的情况下，对部分欺骗数据的训练则执行可靠。

使用片段级标签的其他实验表明，即使使用最新的对策模型，发现话语中包含的注入的欺骗片段也是一项更具挑战性的任务

结论

为了回答最初的问题：“我们能检测到部分欺骗的音频吗？”，我们构建了一个新的 PartialSpoof 数据库，该数据库由基于 ASVspoof 2019 的真实和部分欺骗的话语组成。

由于 PartialSpoof 音频由真实和欺骗的片段组成，因此可以在话语和片段级别的标签上对其进行训练和评估。对于话语级别检测，对部分和完全欺骗数据进行了跨数据库分析，以研究数据不匹配如何影响 CM 性能。

我们还执行了一项更具挑战性的分段检测任务，以查看 CM 是否可以识别话语中包含的短欺骗片段。通常，对 PartialSpoof 进行话语级别和分段级别检测比对完全欺骗的数据库更具挑战性。

当使用部分欺骗数据进行测试时，还发现训练用于检测完全欺骗数据的对策的可靠性大大降低，而在部分欺骗数据上训练导致在评估完全和部分欺骗的话语时性能稳定。

需要进一步的研究来深入了解数据错配问题。此外，使用互相关的随机段选择和串联可能不是构建部分欺骗数据库的最佳方法。

在此过程中，语言信息、上下文信息和节奏可能会丢失。需要进一步探索更合适的数据库和更可靠、精度更高的 CM。

背景

自动说话人验证（ASV）系统面临的挑战

语音伪造攻击的多样性：
- 语音合成攻击：攻击者使用语音合成技术生成目标说话人的语音。
- 语音转换攻击：攻击者使用语音转换技术将其他人的语音转换为目标说话人的语音。
- 重放攻击：攻击者通过播放预先录制的目标说话人的语音来欺骗系统。
- 这些攻击方法随着深度学习技术的发展而变得更加复杂和难以检测。
现有数据库的局限性：
- 完全伪造的语音数据：现有的伪造语音数据库（如ASVspoof 2019）主要包含完全伪造的语音数据。
- 部分伪造的语音数据缺失：在实际攻击中，攻击者可能只部分伪造语音，这种部分伪造的语音（部分伪造语音）包含真实和伪造的段落，这会显著降低现有反制措施（CMs）的性能。

部分伪造语音的检测需求

部分伪造语音的定义：
- 部分伪造语音包含真实和伪造的段落，这种混合性质使得检测更加困难。
- 例如，攻击者可能使用语音合成技术替换特定的短语，以达到欺骗的目的。
现有CMs的局限性：
- 现有的CMs主要针对完全伪造的语音，对部分伪造语音的检测性能显著下降。
- 这种性能下降的原因是部分伪造语音中的真实段落可能会干扰CMs的判断。

PartialSpoof数据库的构建

构建动机：
- 为了研究部分伪造语音的检测问题，需要一个新的数据库来提供部分伪造的语音数据。
- 这个数据库可以帮助研究人员评估和比较不同CMs在部分伪造语音检测任务中的性能。
构建方法：
- 基于ASVspoof 2019 LA数据库：PartialSpoof数据库基于ASVspoof 2019 LA数据库构建，该数据库包含17种不同类型的伪造数据。
- 部分伪造语音的生成：
  1. 语音活动检测（VAD）：使用三种不同的VAD算法（基于能量的VAD、LSTM-based VAD）来确定语音段的边界。
  2. 段落替换：随机选择一个真实语音段落并用伪造段落替换，反之亦然。确保插入的段落不会重复出现，并且持续时间接近。
  3. 融合技术：使用时间域互相关计算最佳融合点，通过波形重叠相加进行融合，避免引入伪影。
  4. 标签分配：每个段落根据其来源标记为真实或伪造，整个语音段落的标签为伪造。

研究目标

评估现有CMs的性能：
- 通过在PartialSpoof数据库上评估现有CMs，了解它们在部分伪造语音检测任务中的性能。
- 特别关注CMs在句段级和段落级检测中的表现。
开发新的CMs：
- 探索新的CMs，以提高部分伪造语音的检测性能。
- 通过实验，验证这些新CMs在不同场景下的有效性和鲁棒性。

内容成果

1. 构建PartialSpoof数据库

成果：
- 创建了新的部分伪造音频数据库：作者构建了一个名为PartialSpoof的新数据库，该数据库包含真实和部分伪造的音频数据。这个数据库基于ASVspoof 2019 LA数据库，通过随机替换真实音频中的段落来生成部分伪造音频。
- 提供了句段级和段落级标签：PartialSpoof数据库不仅提供了句段级标签，还提供了段落级标签，这使得研究人员可以更细致地评估和比较不同反制措施（CMs）的性能。
意义：
- 填补了研究空白：这是第一个专门针对部分伪造音频的数据库，为研究部分伪造音频检测提供了新的资源。
- 促进了更精细的检测研究：通过提供段落级标签，PartialSpoof数据库使得研究人员可以更深入地研究如何检测音频中的伪造段落。

2. 评估现有CMs的性能

成果：
- 句段级检测性能：
  - 消融研究：作者对基于LCNN的CMs进行了消融研究，发现使用平均池化（AP）和双向LSTM（Bi-LSTM）的组合在部分伪造音频检测中表现最佳。
  - 跨数据库实验：作者发现，使用ASVspoof 2019数据库训练的CMs在PartialSpoof数据库上的性能显著下降，而使用PartialSpoof数据库训练的CMs在ASVspoof 2019数据库上的性能相对稳定。
- 段落级检测性能：
  - 段落级标签训练：使用段落级标签训练的CMs在段落级检测中表现优于使用句段级标签训练的CMs。
  - 性能对比：段落级检测任务比句段级检测任务更具挑战性，CMs在段落级检测中的性能有明显的提升空间。
意义：
- 揭示了现有CMs的局限性：现有CMs在处理部分伪造音频时性能显著下降，这表明需要开发新的CMs来应对部分伪造音频检测的挑战。
- 提供了性能基准：通过在PartialSpoof数据库上评估现有CMs，作者为未来的研究提供了性能基准，有助于评估新CMs的有效性。

3. 基于伪造段落比例的分析

成果：
- 伪造段落比例的影响：作者发现，伪造段落比例对CM性能有显著影响。使用完全伪造音频训练的CMs在伪造段落比例较低时性能下降，而使用部分伪造音频训练的CMs在不同伪造段落比例下性能稳定。
- 性能曲线：作者通过绘制不同伪造段落比例下的性能曲线，进一步验证了上述发现。
意义：
- 提供了更细致的性能分析：通过分析伪造段落比例对性能的影响，作者提供了更细致的性能分析，有助于理解CMs在不同场景下的表现。
- 指导了CMs的开发：这些发现为开发更鲁棒的CMs提供了指导，特别是在处理不同伪造段落比例的音频时。

4. 段落级检测的挑战和潜力

成果：
- 段落级检测性能：使用段落级标签训练的CMs在段落级检测中表现优于使用句段级标签训练的CMs，但段落级检测任务仍然具有挑战性。
- 性能提升空间：作者指出，段落级检测任务比句段级检测任务更具挑战性，CMs在段落级检测中的性能有明显的提升空间。
意义：
- 揭示了段落级检测的潜力：尽管段落级检测任务更具挑战性，但使用段落级标签训练的CMs在段落级检测中表现优于使用句段级标签训练的CMs，这表明段落级检测具有潜力。
- 指出了未来研究方向：作者指出，未来的研究需要进一步探索如何提高段落级检测的性能，以应对部分伪造音频检测的挑战。

在这里插入图片描述

贡献点

主要成果：
- 构建了PartialSpoof数据库：提供了真实和部分伪造音频数据，以及句段级和段落级标签。
- 评估了现有CMs的性能：揭示了现有CMs在处理部分伪造音频时的局限性，并提供了性能基准。
- 基于伪造段落比例的分析：提供了更细致的性能分析，指导了CMs的开发。
- 段落级检测的挑战和潜力：揭示了段落级检测的潜力，指出了未来研究方向。
未来工作：
- 开发更鲁棒的CMs：需要进一步研究如何开发更鲁棒的CMs，以提高部分伪造音频的检测性能。
- 探索更合适的数据库构建方法：需要进一步探索更合适的部分伪造音频数据库构建方法，以提供更丰富的研究资源。