首页
编程日记
消息队列
ansible
gpu
电脑做vlog软件
ASR
2024/9/24 9:19:34
对接阿里asr和Azure asr
1:对接阿里asr 1.1:pom <dependency><groupId>com.alibaba.nls</groupId><artifactId>nls-sdk-recognizer</artifactId><version>2.2.1</version> </dependency>1.2:生成token package c…
阅读更多...
基于Paraformer的alpha-token强制对齐
1. 基本原理 CIF 作为Parafoemr的核心模块,用于预测字数和生成声学向量,从而实现了单轮非自回归解码。其中字数的预测主要通过encoder输出系数alpha的累计得分,满足通关阈值β1.0即可产生一个token,其中alpha曲线在一定程度上呈现…
阅读更多...
给本地设备搭建一个云端语音助手
概述 本语音助手实现了从关键词唤醒 (KWS) 到语音识别 (ASR) 再到自然语言理解 (NLU) 的完整流程。该系统可以通过监听用户的音频输入,检测指定的关键词,并将用户的语音转换为文本,最后与预设的命令进行匹配,执行相应的操作(具体实现请参考main.py),为你的设备配置远程…
阅读更多...
python实现ASR能力实践
背景 本文介绍了一个python实现ASR(语音识别)能力的基础实现,供有需要的人参考。 方案内容 导出语音 使用python的三方库,将视频中的语音导出为 mp3格式。 安装依赖: pip install moviepy代码如下: …
阅读更多...
ESP32利用大模型做聊天机器人
ESP32功能十分强大,不仅有强大的数据处理能力,还支持海量的传感器,还自带蓝牙和wifi。 利用手边有的esp32,复刻了别人的项目,还没来得及二次开发,感觉做作者还是很用心的,功能nice,…
阅读更多...