DDSP-SVC-3.0完全指南:一步步教你用AI声音开启音乐之旅

news/2024/10/21 19:32:24/

本教程教你怎么使用工具训练数据集推理出你想要转换的声音音频,并且教你处理剪辑伴奏和训练后的音频合并一起,快来试试看把!

1.使用的工具

要想训练ai声音,首先需要有各种工具,还需要我们提供你需要训练的声音,当然声音需要没有噪音存干声,如果要是歌曲就需要分离歌曲的背景和声音,然后将音频文件切分,切分的目的是为了保证训练不卡,否则音频文件太大,所以你知道我们需要什么工具了把!以下揭晓

Adobe Audition :我主要用这个提取mp4的音频文件,后期可以用这个剪辑将伴奏和音频合起来

UVR5:这个是专门背景与人生分离的软件,一键安装就可以

Audio Slicer(音频切分):这个可以不用专门下软件自己操作了,大神在webui里集成了,按一下自动切分。

DDSP-SVC-3.0:最重要的工具,启动后是个webui界面,然后呢我们需要在里边训练自己的声音,转换声音等操作。

2.素材准备

2.1 AU提取音频

将mp4提取音频文件,用AU操作,操作如下:

我是要把我在bilibili录制的视频下载下来的,需要借助bilibili的一些工具才能下载下来视频,我用的是这个在线解析bilibili视频的还是蛮方便的,链接在这里。

哔哩哔哩(bilibili)视频解析下载 - 保存B站视频到手机、电脑

然后得到的视频可以拖到如下的位置,

然后点击这个文件右键将音频提取到文件,然后点击新出的音频文件再点击最上面的菜单文件保存或另存为然后就得到音频文件了。

2.2 UVR5提取干声

下面提取说明按需去取。

音频如果比较纯的声音无噪音则直接可以切分音频了,如果不纯的化可以处理下,打开url5,

这个是处理伴奏和人声分离的。

伴奏人声分离以后可以去听听纯声,发现其实会有一些和声和混响的,我们要去去掉这个和声混响,根据下面操作。

如果不是唱歌而是干声去噪也可以使用如下这种方式处理看看效果,我是纯的背景有点噪音,然后用了去和声混响处理的,也是有点效果的。

3.启动DDSP-SVC

声音部分都处理完了,就可以启动webui了,进入DDSP-SVC-3.0目录,双击启动启动WebUI,然后弹出来一个cmd弹框,

复制这个路径打开webui 

webui的界面是这样的

3.1 音频切分

这时就可以音频切分了,按照下面的说明去处理。

切分后的文件。 

找到切分后的输出目录然后全部将块音频全部复制到此目录下:DDSP-SVC-3.0\data\train\audio

然后就需要到webui界面下,这时需将DDSP-SVC-3.0\data\train里的音频以100:1的比例放入到此目录下:DDSP-SVC-3.0\data\val\audio,100:1就是100个文件里取一个这样的比例,也可以不用你自己挑,程序帮你挑完自己放入对应的校验集里也就是val目录下,程序操作如下:

3.2 数据预处理 

数据预处理,这里也很快,按下面的说明进行填写,填写哪些都有注释,点击数据预处理就可以了。

3,3 训练前的参数设置

设置要训练的参数,其实都默认就行,但是配置低的要进行相应的更改,否则训练过程中会失败。然后点击写入配置文件就可以了,此时输出信息说写入配置完成就OK了。

 

3.4 开始训练

3.4.1 DDSP模型训练

然后就开始训练了, 一般是先训DDSP这个是比较重要的,第一次训练的化需要选择从头开始训练,如果训练过程中取消了,那么想要继续训练就选择继续上一次的训练进度,然后取消模型训练时一定要按照这个倍数取消“每隔多少步(steps)验证并保存一次模型(2000步)”,否则可能没保存上,

然后弹出cmd,一直在迭代步数中,代表训练中

 观察loss值,无明显趋势觉得不需要训练就可以按取消了,ctrl+c就会取消训练

训练完了就可以训练扩散模型了,报如下错需要修改fp16需要改成fp32了。

 

 可以看训练趋势图,启动Tensorboard,按下面这个操作就可以了,倒时会告诉你地址。

就会出现这样的界面

3.4.2 扩展模型训练

DDSP训练完毕,我们开始训练扩散模型。如下方式这样就可以了,cmd和上面的ddsp是一样的,感觉差不多了就取消训练。都训练完毕了就到推理环节了。

训练好的模型在这里会出现,此目录:DDSP-SVC-3.0\exp

DDSP的在这个目录下,可以看到模型训练的步数

 扩散训练的在这个地方

4.模型推理 

兄弟们最后一步了,坚持住啊!

推理就选择我们自己训练的模型,选择音频,按下面的图片的步骤走,按顺序来就行。

 4.1 音频转换

重点来了,开始声音替换 ,我第一次处理时间巨长,也看不到日志后来关掉重启,重试关掉重启几次,突然出现了日志,以及处理过程,然后很快就推理完成了,听了下,效果还行,我的数据集还行,40分钟差不多,训练步数7500步也不多,然后我的声音全部是说话,没有唱歌声音,最后出现的这个效果还行,有一点点感觉到ai的感觉,不知道是不是这个哥以及歌手唱腔的原因。

推理过程。

 5.让AI唱歌

我的音频是《慢慢喜欢你》这首歌的干声,然后把我的声音替换上去,转换了以后《慢慢喜欢你》就是我的声音了,接下来就需要把伴奏和我处理后的声音合在一起,打开AU这个软件就可以了

选择多轨道

然后将伴奏文件和处理好的音频拖入进来,干声放入第一轨道,伴奏放入第二轨道,对齐就好

 然后点击文件导出-多轨混音-整个会话就可以了。记得自己指定输出目录哦!


http://www.ppmy.cn/news/1259796.html

相关文章

前端知识笔记(十九)———px,em,rem,vw,vh之间的区别

一,px(像素):像素是屏幕上显示的最小单位,它是固定的,不随页面缩放而改变大小。在响应式设计中,使用像素单位可能会导致布局在不同屏幕尺寸上显示不一致。例如:现在在你电脑上一个字…

智加科技获全国首张重卡无人驾驶开放道路测试牌照

2023年12月1日,智加科技获得苏州市智能网联汽车无人化测试牌照。该牌照也是江苏省及国内首张无人重卡开放高速公路全路段全场景全息路网(S17苏台高速)道路测试牌照。 该重卡无人驾驶开放道路测试牌照,经由苏州市智能网联汽车联席小…

回归预测 | MATLAB实现基于LightGBM算法的数据回归预测(多指标,多图)

回归预测 | MATLAB实现基于LightGBM算法的数据回归预测(多指标,多图) 目录 回归预测 | MATLAB实现基于LightGBM算法的数据回归预测(多指标,多图)效果一览基本介绍程序设计参考资料 效果一览 基本介绍 MATLA…

Spring MVC学习随笔-控制器(Controller)开发详解:控制器跳转与作用域(二)视图模板、静态资源访问

学习视频:孙哥说SpringMVC:结合Thymeleaf,重塑你的MVC世界!|前所未有的Web开发探索之旅 衔接上文Spring MVC学习随笔-控制器(Controller)开发详解:控制器跳转与作用域(一) SpingMVC中…

【Docker】从零开始:13.Docker安装tomcat

Docker】从零开始:13.Docker安装Tomcat 下载Tomcat镜像启动Tomcat镜像新版本Tomcat修改访问Tomact首页 下载Tomcat镜像 [rootdocker ~]# docker pull tomcat Using default tag: latest latest: Pulling from library/tomcat 0e29546d541c: Pull complete 9b829c7…

封装请求头内容格式

// 请求头-内容类型 export const ContentType { JSON: application/json;charsetUTF-8, FORM: application/x-www-form-urlencoded;charsetUTF-8, UPLOAD: multipart/form-data, STREAM: application/octet-stream;charsetUTF-8 } /** * description: 文件上传 * param {*}…

web:[SUCTF 2019]CheckIn(一句话木马,.user.ini)

题目 页面显示 上传文件&#xff0c;随便上传一个文件试试 上传了一个文本&#xff0c;显示失败&#xff0c;不是图片 那就换图片马上传试试 不能包含<?,换一种写法&#xff0c;需要加上GIF89a&#xff0c;进行exif_imagetype绕过 上传成功 这里用.user.ini或者用post传参…

什么是神经网络的超参数

1 引言 超参数在神经网络的设计和训练中起着至关重要的作用。它们是在开始训练之前设置的参数&#xff0c;与网络的结构、训练过程和优化算法有关。正确的超参数选择对于达到最优模型性能至关重要。 2 神经网络结构的超参数 层数&#xff08;Layers&#xff09;&#xff1a; 决…