wenet-基于预训练模型进行增量训练

news/2024/11/24 9:15:40/
1867-154075-0014

重中之重

run.sh脚本分析

wenet aishell脚本解析_weixin_43870390的博客-CSDN博客

一、准备工作

第一步:准备训练数据,拷贝到远程服务器

将准备好的数据文件0529_0531_dataset,上传到恒源云上的/hy-tmp/wenet/examples/aishell/s0下

0529_0531_merge_label .txt标签文件的内容中,每行为音频ID 空格 音频标签,无表头

本地文件:

 

 

远程文件:

第二步,准备多个text和wav.scp文件,拷贝到远程服务器

1.远程上手动创建几个文件

cd /hy-tmp/wenet/examples/aishell/s0
mkdir -p data/train
mkdir -p data/test
mkdir -p data/dev

2.拷贝text、wav.scp文件到远程服务器

将本地准备好的F:/wenet数据集/0529_0531_merge/chuli下的train、dev、test中的text、wav.scp两个文件分别拷贝到远程/hy-tmp/wenet/examples/aishell/s0/data下对应的train、dev、test文件夹下

 text的内容如下:

音频ID 空格 音频标签

1867-154075-0014 你好请问有什么需要帮助的吗
1970-26100-0022 家里停电了

wav.scp的内容如下:

音频ID 空格 音频路径

1867-154075-0014  /hy-tmp/XXX/XXX.wav
1970-26100-0022 /hy-tmp/XXX/XXX.wav

二、修改run.sh脚本和yaml参数

先下载预训练模型

打开Pretrained Models in WeNet — wenet documentation

点击红框中的模型,先填表格,就可以下载

 cd /hy-tmp/wenet/examples/aishell/s0

mkdir pretrained_model

cd pretrained_model

wget https://wenet-1256283475.cos.ap-shanghai.myqcloud.com/models/wenetspeech/wenetspeech_u2pp_conformer_exp.tar.gz

tar -xzf wenetspeech_u2pp_conformer_exp.tar.gz

解压后模型文件中包含四个文件:final.pt,train.yaml,units.txt,global_cmvn

然后开展以下步骤,修改/hy-tmp/wenet/examples/aishell/s0下的run.sh文件中的参数:

(1)根据GPU数量,修改序号

export CUDA_VISIBLE_DEVICES="0"

(2)修改结束步骤(可选,如果不一步一步敲命令,想直接执行多步必须改)

stop_stage=4

(3)修改训练数据的路径

data=/hy-tmp/wenet/examples/aishell/s0/0529_0531_dataset

其中0529_0531_dataset是前面上传的训练数据文件夹

(4)修改词典路径,为预训练模型的词典

虽然执行stage2会根据训练数据生成词典(几千个而已),但是要改成预训练模型的词典路径,因为预训练模型的语料比较大,生成的词典自然比较大(几万个)

dict=pretrained_model/20220506_u2pp_conformer_exp/units.txt

(5)修改模型配置(用预训练模型的yaml)

先改成预训练模型的yaml文件路径
train_config=pretrained_model/20220506_u2pp_conformer_exp/train.yaml

再打开预训练模型的train.yaml,修改里面的cmvn_file参数为(这边用绝对路径靠谱些,因为没有跟run.sh同级目录

先用预训练模型的cmvn

cmvn_file: /hy-tmp/wenet/examples/aishell/s0/pretrained_model/20220506_u2pp_conformer_exp/global_cmvn

疑问:CMVN是对特征进行倒谱均值归一化,不是应该基于新的训练数据集计算得到的吗?理论上不应该用预训练数据的,都试试吧,看实验效果(测试不用预训练模型的还是报短音频帧数过滤方面的错误)

同时修改train.yaml中的其他参数

#改成16,防止显存不够

batch_size: 16

min_length: 30  # 1帧=10ms,过来掉少于0.3秒的

token_max_length: 200 #最大文字长度

max_epoch: 100 # 先训练100次试试

(6)修改成有计算cmvn

cmvn=true

修改修改$cmvn && cp data/${train_set}/global_cmvn $dir 为

$cmvn && cp /hy-tmp/wenet/examples/aishell/s0/pretrained_model/20220506_u2pp_conformer_exp/global_cmvn $dir

(7) 修改模型生成后的存放地址(每次新训练一个模型前,切记修改)

dir=model_0529_0531/conformer

(8)指定预训练模型,进行增量训练

 checkpoint= pretrained_model/20220506_u2pp_conformer_exp/final.pt

即checkpoint=pretrained_model/20220506_u2pp_conformer_exp

9)修改为多模型平均计算

average_checkpoint=true

(10)同时修改如下:

local/aishell_data_prep.sh ${data}/wav \
    ${data}/transcript

三、修改 s0/local/aishell_data_prep.sh的参数

根据实际情况修改文件名

aishell_text=$2/0529_0531_merge_label .txt

六、执行stage1

./run.sh --stage 1 --stop-stage 1

  • 把transcript取掉空格,重新生成text,原来的变成text.org
  • 使用wav.scp计算cmvn,存放到train目录下面

七、不执行stage 2(这步是生成词典,但是我们用的是预训练模型的词典,所以不用生成)

八、执行stage3

./run.sh --stage 3 --stop-stage 3

data/train  data/test  data/dev都生成了data.list 

把wav.scp 和 text准备成data.list

九、开始训练

./run.sh --stage 4 --stop-stage 4


http://www.ppmy.cn/news/159036.html

相关文章

客户拿来一个耳机,说头梁 断了,问能不能修

客户拿来一个耳机,说头梁 断了,问能不能修。没拆开的时候由于不知道内部什么情况,不敢报价。拆开以后脑袋都大了,十几根线需要拆下来,然后更换架以后再装回去,脑瓜直接就嗡嗡的。 给客户报价可以修费用要15…

千元以内有哪些好用的蓝牙耳机?四款高性价比无线耳机推荐

千元以内有哪些好用的蓝牙耳机?四款高性价比无线耳机推荐 在选择蓝牙耳机时,音质是关键,那么舒适度和续航时间等也很重要。不懂如何挑选的小伙伴可以参考一下数码大神们心目中的好耳机有哪些?为大家带来年度四款千元高性价比无线…

闲言碎语呗

前言 记录一些一闪而逝的灵光还有就是想要吐槽的日常! 一、入坑CS 1、 略略略,没有第一 2、飞天小牛肉某篇文章忘了 对于互联网这个行业来说,学历真的真的真的真的真的不是那么重要,很多岗位本科学历就已经够了。 学历高 ≠ 进大厂&…

写在给自己入个耳机之前

此贴用于记录一些耳机方面的评测精品,说是精品,主要是个人觉得写的很客观,很易懂,不是那种空洞的文章,而且主要用于低端的平常用户,咱都是无米之人,自娱自乐之用,但是其中关于耳朵的…

宝石项链居然还是个耳机?女朋友戴上就不想取下来丨钛空情人节

关注“潜在价值”,最好的技术商业媒体,了解那些智慧商业 本文由潜在价值旗下 创意产品推荐平台“钛空舱”推出 钛空(ID:TiKong-life) 一个关注于科技与创意生活的选品、荐品平台 新奇、实用、品质保证 一切关于未来生活…

从解码线到游戏蓝牙耳机,几种常见C口音频解决方案对比体验

这篇小文章是针对没有3.5mm耳机孔的C口手机关于音频附加解决方案的一个探讨。主要针对音乐用户和游戏用户。 首先说,不管在何种情况下,我个人都不会使用扬声器来听音乐和打游戏。DXOMark有个所谓的音频排行榜,如果相对蓝牙耳机和DAC线转接的高品质耳机,这个基本可以叫做勉强…

真无线蓝牙耳机哪款适合新手?数码发烧友最全盘点,高实用性蓝牙耳机

跑步时听音乐,想必是很多朋友经常做的事情。不论是使用手机还是智能手表,蓝牙耳机相对来说是最适合的输出工具。它们采用无线连接形式、没有束缚,一些款式还具备运动监测功能。下面,来看看小编给大家推荐的6款最适合跑步佩戴的蓝牙…

从OPPO TWS耳机看OPPO声学的体面回归

今年所有的牌子都在发TWS耳机,除了华为,OPPO算是品类很多的一个了。最近几个月跑了两个省的下沉市场,Enco系列卖的非常好。云南曲靖一个小门店一个月就能卖出去30多个W31和Enco Free。看到这个状况,我就想起我自己和OPPO影音产品的…