SVDD(Singing Voice Deepfake Detection,歌声深度伪造检测)挑战2024

devtools/2024/9/21 16:54:35/

      随着AI生成的歌声快速进步,现在能够逼真地模仿自然人类的歌声并与乐谱无缝对接,这引起了艺术家和音乐产业的高度关注。歌声与说话声不同,由于其音乐性质和强烈的背景音乐存在,检测伪造的歌声成为了一个特殊的领域。

     SVDD挑战是首个专注于检测实验室控制和野外真实与伪造歌声录音的研究挑战。该挑战将在2024年IEEE口语语言技术研讨会(SLT 2024)上举行。

     挑战目标:SVDD挑战旨在汇集学术界和工业界的资源,开发出创新和有效的技术来检测伪造的歌声。

     挑战分为两个不同的轨道:控制环境(CtrSVDD)和野外环境(WildSVDD)。CtrSVDD使用无伴奏的歌声,而WildSVDD则包含背景音乐。CtrSVDD数据集在Zenodo上发布,WildSVDD数据集同样在Zenodo上发布,提供了训练和测试分区。

1、控制环境(CtrSVDD)

使用现有的14种歌声合成(SVS)和歌声转换(SVC)系统从真实的声乐剪辑生成深度伪造的歌声。这些系统包括ESPnet-Muskits、NNSVS、DiffSinger、ACESinger等。

测试集:SVDD Challenge 2024: A Singing Voice Deepfake Detection Challenge (CtrSVDD Track, Test Set)

训练及开发集:SVDD Challenge 2024: A Singing Voice Deepfake Detection Challenge (CtrSVDD Track, Training/Development Set)

  1. 2、野外环境(WildSVDD)

WildSVDD数据集通过从社交媒体平台收集数据来构建,类似于SingFake项目。数据集已经扩展到原始SingFake的大约两倍大小,包含了更多的歌手和歌曲。

CtrSVDD数据集SVDD Challenge 2024: A Singing Voice Deepfake Detection Challenge (WildSVDD Track)

  1. 3、基线系统架构图

挑战有两个基线系统:一个使用原始波形,另一个使用线性频率倒谱系数(LFCCs)作为前端特征。基线系统的架构如图所示

4、关键日期

2024年5月7日,CodaBench研究结果提交开放(根据请求访问)

2024年6月8日,SVDD挑战注册截止日期

2024年6月8日,SVDD挑战额外训练数据集许可请求截止日期

2024年6月8日,组织者发布所有可用的训练数据集

2024年6月15日,结果提交截止日期(结果&系统描述),CodaBench挑战提交关闭。结果将在CodaBench上公开,并电子邮件给参与者以官方确认。

5、歌声合成(SVS)和歌声转换(SVC)知名工具和模型

5.1 ESPnet-Muskits

ESPnet 是一个开源的音乐处理工具包,目前主要关注端到端歌声合成,Muskits 是 ESPnet 中用于歌声合成的一个扩展工具集。Muskits 采用pytorch作为深度学习引擎,遵循ESPnet和Kaldi风格的数据处理方式,以及配方来提供各种音乐的完整设置用于歌声的合成,包括声码器、声学模型和文本前端。它支持多种语言,并能够生成自然听起来的歌声。

5.2 NNSVS (Neural Network-based Singing Voice Synthesis)

NNSVS 是由日本名古屋大学提出的一个基于神经网络的歌声合成系统最新版本是nnsvs-world v4。它利用深度学习技术来模拟人类歌手的声音,并生成与音乐伴奏同步的歌声。NNSVS 通常包括音符特征提取、声码器和声音建模等组件。

5.3 DiffSinger

DiffSinger 是一个基于扩散机制的歌声合成模型,由中国科学院声学研究所提出。它通过模拟声音的物理生成过程来生成歌声,能够生成具有不同歌手特征的歌声。DiffSinger 的一个特点是它使用了一种浅层扩散机制,这使得它在生成歌声时能够保持较高的音质。在中文歌唱数据集上其技术性能和音乐表现力均优于现有声学模型

5.4 ACESinger

ACESinger 是由清华大学提出的一个歌声合成系统,它能够生成与音乐伴奏同步的歌声。ACESinger 采用了先进的深度学习技术,包括变分自编码器(VAE)和生成对抗网络(GAN),来生成自然且富有表现力的歌声。

6、数据共享工具相关资源

Zenodo是一个多学科研究产品储存库,支持各种内容,包括刊物、演示文稿、论文集、项目、图像、软件(包括与GitHub的集成)以及所有语言的数据,由欧洲核子研究组织 (European Organization for Nuclear Research, CERN) 维护。它对数据格式没有任何限制,最多可以存储50GB的数据。此储存库中数据可终身保存,可以采用封闭(只要未授权都无法访问)、开放或禁止(禁止期内无法访问)状态储存。

DataCite:DataCite成立于2009年,最初是一个国际合作组织,目的是为研究数据提供稳定的在线识别信息。DataCite的服务目的还包括为科学数据创建元数据(metadata)集,为用户分配DOI、增强数据搜索能力、与会员共同建立共享数据库和高效引用机制。它收集每个有DOI的元数据,结合成大型索引研究数据,这些数据可直接查询,让人查找数据和其他研究物件,正确引用数据,获取统计数据并探索连接。所有元数据都可自由访问和查看。DataCite 提供了一个集成的搜索界面,可以从数百万条记录中搜索、筛选和提取所有细节。该软件可用于跟踪与基金相关的数据,这点很重要,因为资助机构要求数据共享。此外,跟踪经费数据可以让资助机构更好地了解他们的资金所产生的影响。

Dryad:一个科学和医学论文数据储存库,让科研论文的数据可被发现,可自由重复使用和可引用。Dryad 可存储表格、电子表格、文本、视频、照片、软件代码和其他无储存库可保存的发表数据。Dryad 支持许多期刊的整合提交功能,因此当作者将数据与其发表的文章一起提交给 Dryad时,数据的链接也会包含在发表的文章中。Dyrad的目标用户是研究人员、期刊、科研协会、出版商、研究单位、图书馆和资助机构,因此具有广泛的知名度,并且数据库资源丰富。

Figshare:一个基于云计算网络的在线数字资源库,科研人员可以保存和分享他们的研究成果,包括数据、数据集、图像、视频、海报和代码,从而使得他们的研究,甚至包括初步研究,曝光并获得认可。由于Fighare遵循开放数据原则,用户可以自由访问数据和上传内容。因此,科研人员可以通过Fighare公开他们的数据,Fighare上的所有条目都有DOI,方便引用。Fighare还跟踪托管材料的下载统计,做为altmetrics的来源。


http://www.ppmy.cn/devtools/42148.html

相关文章

【Python】语句与众所周知【自我维护版】

各位大佬好 ,这里是阿川的博客 , 祝您变得更强 个人主页:在线OJ的阿川 大佬的支持和鼓励,将是我成长路上最大的动力 阿川水平有限,如有错误,欢迎大佬指正 本篇博客是在之前的基础上进行的维护 目录 条…

2024kali linux上安装java8

1 kali下载Java 8安装包 访问Oracle官网或其他可信的Java下载站点,如华为云的开源镜像站(例如:https://repo.huaweicloud.com/java/jdk/8u202-b08/jdk-8u202-linux-x64.tar.gz)。 确保下载的是与你的Kali Linux系统架构&#xf…

docker无法映射/挂载根目录

docker无法映射(挂载)根目录下的文件夹只能映射家目录 最近想要使用nas-tools做做刮削,电影存在一个机械磁盘里,机械磁盘被挂载到/data1下,发现一个很奇怪的问题,docker只能挂载成功home目录下的文件夹&am…

集成了Gemini的Android Studio,如虎添翼

今天将Android Studio升级到最新版(Jellyfish)。发现在new features中有一条: Code suggestions with Gemini in Android Studio 打开路径为: View > Tool Windows > Gemini 支持多国语言,英文、中文都能正确理解…

高效协同,智慧绘制:革新型流程图工具全解析

流程图,作为一种直观展示工作过程和系统运作的工具,在现代办公和项目管理中发挥着不可或缺的作用。 其优势在于能够清晰、直观地呈现复杂的过程和关系,帮助人们快速理解并掌握关键信息。同时,流程图也广泛应用于各种场景&#xf…

使用可接受gitlab参数的插件配置webhook

jenkins配置 安装Generic Webhook Trigger 配置远程触发令牌 勾选Print post content和Print contributed variables用于打印值 配置gitlab 选择新增webhook 配置webhook http://JENKINS_URL/generic-webhook-trigger/invoke,将JENKINS_URL修改成自己的jenkins地址 先保存…

Qt信号和槽

信号和槽 什么是信号和槽 connect(发送对象,信号,接收对象,槽函数),其中发送信号和槽函数需要用 SIGNAL() 和 SLOT() 来进行声明。 本质是什么 发送对象 就是发送信号的对象,比如按钮。 信号 就是特定的对象发送…

初识sql注入--手工注入

目录 可能使用的sql函数 入侵网站方式 1、文件上传漏洞 2、rce 3、sql注入 SQL注入 什么是sql注入 进行SQL注入 实验环境 开始实验(使用information_shema数据库) 1、进入靶场 2、报列数 下面来解释一下为什么要照上面SQL语句写 url编码 单…