ASR

对接阿里asr和Azure asr

1：对接阿里asr 1.1：pom <dependency><groupId>com.alibaba.nls</groupId><artifactId>nls-sdk-recognizer</artifactId><version>2.2.1</version> </dependency>1.2：生成token package c…

基于Paraformer的alpha-token强制对齐

1. 基本原理 CIF 作为Parafoemr的核心模块，用于预测字数和生成声学向量，从而实现了单轮非自回归解码。其中字数的预测主要通过encoder输出系数alpha的累计得分，满足通关阈值β1.0即可产生一个token，其中alpha曲线在一定程度上呈现…

给本地设备搭建一个云端语音助手

概述本语音助手实现了从关键词唤醒 (KWS) 到语音识别 (ASR) 再到自然语言理解 (NLU) 的完整流程。该系统可以通过监听用户的音频输入，检测指定的关键词，并将用户的语音转换为文本，最后与预设的命令进行匹配，执行相应的操作（具体实现请参考main.py），为你的设备配置远程…

python实现ASR能力实践

背景本文介绍了一个python实现ASR（语音识别）能力的基础实现，供有需要的人参考。方案内容导出语音使用python的三方库，将视频中的语音导出为 mp3格式。安装依赖： pip install moviepy代码如下： …

ESP32利用大模型做聊天机器人

ESP32功能十分强大，不仅有强大的数据处理能力，还支持海量的传感器，还自带蓝牙和wifi。利用手边有的esp32，复刻了别人的项目，还没来得及二次开发，感觉做作者还是很用心的，功能nice，…