阿里达摩院:FunASR语音识别

github：
https://github.com/modelscope/FunASR/

1 clone 代码到本地，切换到 FunASR/

git clone https://github.com/alibaba/FunASR.git && cd FunASR

2 虚拟环境

conda create -p ./venv python=3.12
conda activate ./venv

1 安装依赖

pip install torch
pip install torchaudio

2 安装 funasr

pip install -U funasr

或者

pip install -e ./

3 安装其它模块

pip install -U modelscope huggingface_hub

测试

1 下载模型

modelscope download --model iic/SenseVoiceSmall  --local_dir ./SenseVoiceSmall
modelscope download --model iic/speech_fsmn_vad_zh-cn-16k-common-pytorch  --local_dir ./speech_fsmn_vad_zh-cn-16k-common-pytorch

2 代码测试

在 FunASR/ 目录下创建 wmx_test 文件夹
FunASR/wmx_test/test.py :

from funasr import AutoModel
from funasr.utils.postprocess_utils import rich_transcription_postprocess# model_dir = "iic/SenseVoiceSmall"
model_dir = "./SenseVoiceSmall"
vad_model_dir = "./speech_fsmn_vad_zh-cn-16k-common-pytorch"# input_path="/media/wmx/soft1/AI-model/FunASR/asr_example_en.wav"
input_path="/media/wmx/soft1/AI-model/FunASR/vad_example.wav"model = AutoModel(model=model_dir,# vad_model="fsmn-vad",vad_model=vad_model_dir,vad_kwargs={"max_single_segment_time": 30000},# device="cuda:0",device="cpu",disable_update=True
)# en
res = model.generate(input=input_path,cache={},language="auto",  # "zn", "en", "yue", "ja", "ko", "nospeech"use_itn=True,batch_size_s=60,merge_vad=True,  #merge_length_s=15,
)
text = rich_transcription_postprocess(res[0]["text"])
print(text)

识别输出：

试错的过程很简单而，且特别是今天报名仓雪卡的同学，你们可以。听到后面的有专门的活动课，他会大大降低你的试绸成本。其实你也可以过来听课，为什么你自己写嘛？我先今天写5个点，我就试试试验一下，反正这5个点不行，我再写5个点，这试再不行，那再写5个点嘛。你总会所谓的活动搭神和所谓的高手，都是只有一个把所有的错，所有的坑全部趟一遍，留下正确的你就是所谓的搭神。明白吗？所以说关于活动通过这块，我只送给你们四个字啊，换位思考。如果说你要想降低你的试错成本，今天来这里你们就是对的。因为有畅畅血卡这个机会，所以说关于活动过于不过这个问题，或者活动很难通过这个话题呃，如果真的要坐下来聊的话，要聊一天。但是我觉得我刚才说的四个字足够。好，谢谢。好，非常感谢那个三茂老师的回答啊。三茂老师说，我们在整个店铺的这个活动当中，我们要学会换位思考。其实