语言识别模型whisper学习笔记

devtools/2025/3/15 14:26:23/

whisper_0">语言识别模型whisper学习笔记

Whisper 是由 OpenAI 于 2022年9月 推出的开源自动语音识别(ASR)系统,旨在实现高精度、多语言的语音转文本及翻译任务。其核心目标是解决传统语音识别模型在噪声环境、口音多样性及多语言场景下的局限性。

一、开源代码库下载

代码库链接:https://github.com/openai/whisper
注:需要科学网络
在这里插入图片描述
依次点击进行下载。

下载好将文件夹拖进pycharm打开项目,如下。

在这里插入图片描述
但是由于没有项目所需要的环境,需要给根据报错依次安装环境,如上图缺少torch,则打开终端使用conda或者pip进行下载安装。
下载指令可以上pytorch官网查询:https://pytorch.org/get-started/locally/
在这里插入图片描述
终端运行以上复制的代码,安装确实的gpu版本pytorch。

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126

在这里插入图片描述

发现提示numpy版本不兼容,强制重新安装兼容版本。()

在这里插入图片描述

pip install numpy==1.26.4

在这里插入图片描述

再次运行,发现缺少tqdm
在这里插入图片描述
安装tqdm

pip install tqdm

在这里插入图片描述
再次运行,发现缺少tiktoken
在这里插入图片描述

安装tiktoken

pip install tiktoken

在这里插入图片描述

再次运行,发现缺少numba

在这里插入图片描述

安装numba

pip install numba

在这里插入图片描述

whisper_65">二、调用whisper实现语音识别

2.1 python调用

import whispermodel = whisper.load_model("turbo")
result = model.transcribe("zyj.mp3")    # 只需要将此路径更换为你所需要识别的语音文件即可。
print(result["text"])

2.2 命令行调用

whisper zyj.mp3 --language Japanese --model turbo

2.3 结果展示

在这里插入图片描述

测试mp3文件,为我录制的一段语音,说的就是“你好你好你好恭喜发财”,成功将语音识别转录成中文。


http://www.ppmy.cn/devtools/167304.html

相关文章

32单片机——BEEP

蜂鸣器是一种一体化结构的电子讯响器,采用直流电压供电,广泛应用于计算机、打印机、 复印机、报警器、电子玩具、汽车电子设备、电话机、定时器等电子产品中作发声器件 蜂鸣器主要分为压电式蜂鸣器和电磁式蜂鸣器两种类型,STM32F103智能火龙S…

vue/react前端项目打包的时候加上时间,防止后端扯皮

在前端项目&#xff08;Vue/React&#xff09;打包时&#xff0c;将打包时间注入到项目中&#xff0c;可以有效防止前后端扯皮&#xff0c;尤其是在部署和调试时能够明确知道当前运行的代码版本和打包时间。以下是实现方案 在index.html中加入时间模板&#xff1a; <div s…

CentOS7离线部署安装Dify

离线部署安装Dify 在安装 Dify 之前&#xff0c;请确保您的机器满足以下最低系统要求&#xff1a; CPU > 2 核 内存 > 4 GiB 1.安装docker和docker compose 启动 Dify 服务器最简单的方式是通过docker compose。因此现在服务器上安装好docker和docker compose&#xf…

【深度学习|目标检测】YOLO系列anchor-based原理详解

YOLO之anchor-based 一、关于anchors的设置二、网络如何利用anchor来训练关于register_buffer训练阶段的anchor使用推理阶段的anchor使用 三、训练时的正负样本匹配anchor匹配grid匹配 总结起来其实就是&#xff1a;基于anchor-based的yolo就是基于三个检测头的分支上的grids和…

OpenCV实现图像分割与无缝合并

一、图像分割核心方法 1、阈值分割 #include <opencv2/opencv.hpp> using namespace cv; int main() {Mat img imread("input.jpg", IMREAD_GRAYSCALE);Mat binary;threshold(img, binary, 127, 255, THRESH_BINARY); // 固定阈值分割imwrite("binary.…

MySQL基本查询

目录 表的增删查改 增(create) 单行数据&#xff0c;全列插入 ​编辑 多行数据&#xff0c;指定列插入 查(retrieve) 全列查询 指定列查询 表达式字段查询 给字段起别名 查询结果去重 where条件 比较运算符 逻辑运算符 查询示例 查询结果排序 筛选分页结…

复试难度,西电卓越工程师学院(杭研院)考研录取情况

01、卓越工程师学院各个方向 02、24卓越工程师学院&#xff08;杭研院&#xff09;近三年复试分数线对比 PS&#xff1a;卓越工程师学院分为广研院、杭研院 分别有新一代电子信息技术、通信工程、集成电路工程、计算机技术、光学信息工程、网络信息安全、机械&#xff0c;这些…

SAP BC 记一次 DBCO 链接ORACLE DBCC 连接测试突然失败的问题

ldd ldd /usr/sap/QAS/D00/exe/dboraslib.so 发现 libnsl.so.1 > not found 这个文件找不到 解决方案 把 libnsl.so.1 加回去 但是Suse 安装的时候安装失败&#xff0c; 然后我去 /usr/lib64 里面找 libnsl.so.文件 发现是第二个版本 创建软链接 root账户 ln -s /usr…