音源分离|MUSIC SOURCE SEPARATION BASED ON A LIGHTWEIGHT DEEP LEARNING FRAMEWORK

embedded/2024/10/18 14:21:58/

一、文章摘要

        音源分离(Music source separation ,MSS)旨在从一段混合音乐中提取“人声”,“鼓”,“贝斯”和“其他”音轨。虽然深度学习方法已经显示出令人印象深刻的结果,且有一个趋势是使用更大的模型去实现音源分离。但在本文中,介绍了一种新的轻量级架构DTTNet,它基于双路径模块和时频卷积时间分布全连接UNet(TFC-TDF UNet)。与Bandsplit RNN(BSRNN)相比,DTTNet在“人声”上实现了10.12 dB的cSDR,而BSRNN为10.01 dB,但参数数量减少了86.7%。我们还评估了特定模式的性能和模型对复杂音频模式的泛化能力。

二、本文方法

2.1 背景

        目前用于分离MSS问题中“人声”音轨的最先进模型是Band-split Recurrent Neural Network (BSRNN)[12]和Time-Frequency ConvolutionsTime-Distributed Fully-connected UNet (TFC-TDF UNet)v3[13]。

        BSRNN在谱图上预测一个复值的掩模,并使用全连接层(FC)和多层感知器(MLP)对特征进行编码和解码。编码后的特征通过12个双路径rnn进一步处理,以捕获子带间和子带内的依赖关系。然而,FC层和MLP层引入了大量冗余参数,并且12层双路径rnn需要增加训练时间

        FC-TDF UNet v3使用残差卷积块。此外,TFC-TDF UNet v3没有引入显式时间建模,因此当模型参数急剧增加时,性能增益不太突出。

        本工作的贡献如下:1。如图1所示,通过集成和优化来自TFC-TDF UNet v3的编码器和解码器以及来自BSRNN的潜在双路径模块,我们减少了冗余参数

        2. 如图2(b)所示,我们在改进的双径模块内划分通道C,从而减少了推理时间

        3. 我们优化了DTTNet内部的超参数,提高了与BSRNN[12]和TFC-TDF UNet v3[13]相当的信失真比(SDR),如表3所示。

        4. 我们使用复杂的音频模式对DTTNet进行测试,这些模式通常被许多在MUSDB18-HQ数据集上训练的模型错误分类。

2.2 本文方法

        本文框架由三部分组成:编码器、解码器和潜在部分。

2.2.1 Encoder

        在编码器中使用TFC-TDF v3模块。

2.2.2 Improved Dual-Path Module

        在潜在部分使用改进的双路径模块。改进双路径模块(Improved Dual-Path Module, IDPM)的结构与BSRNN中的Band and Sequence Module相似[12]。为了在保持高输入维数C的同时减少推理时间,我们首先将输入通道C分成H个头。然后,首先沿着第一个RNN块中的时间轴处理H头,然后沿着第二个RNN块中的频率轴处理H头。在IDPM结束时,应用相反的过程将H头合并到C通道中。

2.2.3 Decoder

        解码器中同样使用TFC-TDF v3模块。

三、实验结果

3.1 数据集

        MUSDB18-HQ。

3.2 实验设置

       学习率为2 × 10−4,AdamW optimizer,L1损失函数,Batch_Size=8,模型训练300个epoch,STFT窗口大小为6144,hop length为1024。

3.3 推理结果

        

【文章链接】:https://arxiv.org/pdf/2309.08684v2.pdf

【源码链接】:https://github.com/junyuchen-cjy/dttnet-pytorch

【参考文献】:

[12] Yi Luo and Jianwei Yu, “Music source separation with band-split rnn,” IEEE/ACM Transactions on Audio,Speech, and Language Processing, vol. 31, pp. 1893–1901, 2023.
[13] Minseok Kim, Jun Hyung Lee, and Soonyoung Jung,“Sound Demixing Challenge 2023 Music Demixing TrackTechnical Report: TFC-TDF-UNet v3,” arXiv preprint:arXiv:2306.09382, 2023.


http://www.ppmy.cn/embedded/20835.html

相关文章

面试经典150题——罗马数字转整数

面试经典150题 day17 题目来源我的题解方法一 哈希表方法二 优化版本 题目来源 力扣每日一题;题序:13 我的题解 方法一 哈希表 存储单独的存在的可能字符串 时间复杂度:O(n) 空间复杂度:O©。C表示单独存在的可能字符串数量…

Leetcode 17. 电话号码的字母组合

给定一个仅包含数字 2-9 的字符串,返回所有它能表示的字母组合。答案可以按 任意顺序 返回。 给出数字到字母的映射如下(与电话按键相同)。注意 1 不对应任何字母。 示例 1: 输入:digits “23” 输出:[“a…

28.Gateway-网关过滤器

GatewayFilter是网关中提供的一种过滤器,可以多进入网关的请求和微服务返回的响应做处理。 GatewayFilter(当前路由过滤器,DefaultFilter) spring中提供了31种不同的路由过滤器工厂。 filters针对部分路由的过滤器。 default-filters针对所有路由的默认…

C#多线程之(Thread)详解与示例

文章目录 一、线程的基本概念二、C#中创建和启动线程的方法三、线程的生命周期四、线程的状态转换五、线程之间的通信机制六、线程安全的编程实践使用 ConcurrentBag 进行线程安全的数据收集 总结 本文将深入探讨C#多线程编程的核心概念,包括线程的基本概念、创建和…

探索HSE化工安全系统在化工生产中的作用

在现代工业化生产中,化工企业扮演着至关重要的角色,但与此同时,化工安全问题也备受关注。为了保障生产环境的安全,HSE化工安全系统应运而生。本文将详细介绍HSE化工安全系统的功能和优势,让您深入了解其在工业生产中的…

故障诊断 | 基于GASF-CNN的状态识别研究

概述 抗蛇行减振器作为高速动车组二系悬挂系统的关键零部件,对改善车辆运动稳定性、提高车辆系统的临界速度具有重要意义。抗蛇行减振器在高级修时需全部进行拆解维修或报废处理,若在高级修中的三、四级修时其性能尚能够满足实际使用要求,将其过早地拆解检修或者报废换新无…

短信视频提取批量工具,免COOKIE,博主视频下载抓取,爬虫

痛点:关于看了好多市面的软件,必须要先登录自己的Dy号才能 然后找到自己的COOKIE 放入软件才可以继续搜索,并且无法避免长时间使用 会导致无法正常显示页面的问题。 有没有一种方法 直接可以使用软件,不用设置的COOKIE的方法呢 …

Gradio 最快创建Web 界面部署到服务器并演示机器学习模型,本文提供教学案例以及部署方法,避免使用繁琐的django

最近学习hugging face里面的物体检测模型,发现一个方便快捷的工具! Gradio 是通过友好的 Web 界面演示机器学习模型的最快方式,以便任何人都可以在任何地方使用它! 一、核心优势: 使用这个开发这种演示机器学习模型的…