选择使用whisper.cpp进行语音转文字

news/2024/11/26 7:18:20/

需要将一些wav格式的语音文件转成文字(ASRSTT),接到这个任务后,首先上网搜索有没有现成免费的工具或服务可以使用。常用的关键字如“语音转文字 免费 在线”。

搜到的很多野鸡网站,都可以免注册免费提供短时间(一两分钟或几兆)的文件转文字功能,但时间太短无法满足要求。如果在这些网站注册付费使用,不仅花钱,还可能泄露隐私。

正规网站当然也不少,如讯飞、IBM、腾讯等等。但也都不行或者不够。

比如讯飞,个人感觉有欺诈嫌疑:www.iflyrec.com/html/addMachineOrder.html

看它左上角的网页title,是不是【在线】【免费】几个字很吸引你?

还有更具迷惑性的。

当你添加本地文件后,不管文件多大,数量有几个,它会马上启动文件上传,让你误以为它能够无限制的免费帮你进行转换,最差情况,估计也就是让你这种白嫖党多等一会儿。既然免费,也没啥好抱怨的,等就等吧。

不过实际情况是,当所有这些文件上传完成,点击提交后,它就告诉你需要收费啦。当然也不能说它没提醒你,网页右侧的【资费】图标其实早就说明了一切。

它的机翻价格是19.8元/小时,而且还没有免费体验时长。几十个小时就得花个几百块钱,性价比太低了,再见。

但已经上传的文件最后讯飞如何处理,是不是拿去喂给AI训练呢?不得而知。

如果是的话,就是你想白嫖它,而反而被它白嫖了。。。

IBM的服务不错,www.ibm.com/products/speech-to-text

它明确告诉你,每个月有500分钟的免费额度。不过即使是free,也要求你输入信用卡号。

但是本人没有信用卡,也只能byebye了。

然后是腾讯云,语音文件每月有10小时的免费额度。

console.cloud.tencent.com/asr/demonstrate

试用了一下,还可以。另外还有SDK和API两种方式来访问它的服务,也可以选择本地文件或网络文件(又诱导人买你的云存储服务吧?),但这得学它们API文档来写代码,不方便。

目前看来腾讯最靠谱,但根本问题是免费额度太少不够用。

如果另外把百度、阿里等大厂的白嫖资源都用上,一个月也许加起来会有二三十个小时。但这样太麻烦,而且时间限制如悬在头上的利剑,让人不安心。

所以还是放弃buy(白嫖)这条路,改为build。

Github上语音转文字主题下,star最多的是 whisper.cpp。github.com/topics/speech-to-text

它是openAI的whisper开源项目的cpp实现,按照其主页说明,在win10下的WSL Ubuntu ,只要几个步骤就能跑起来,也不要求有gpu。

  1. 1、确保已安装c++编译
  2. 2、下载/克隆 whisper.cpp源码
  3. 3、下载模型,tiny和base识别不太行,至少要small。电脑不太差的都选medium或large吧。

 huggingface.co/ggerganov/whisper.cpp/tree/main 如果不能访问,可以去镜像网站hf-mirror.com/ggerganov/whisper.cpp/tree/main。

4、编译,以small为例,make -j small

5、得到可执行程序main,然后就可以进行转换了。例如 ./main -m models/ggml-small.bin -l zh -f  ../sound/test.wav。

还有很多参数可用,例如输出到各种格式的文件。如果要转换的语音文件多,自己写个脚本批处理即可。

转换后的结果还是需要人工纠错,而且有时会有些稀奇古怪的内容,比如

【请不吝点赞 订阅 转发 打赏支持明镜与点点栏目】【转发 打赏支持明镜与点点栏目】等等

估计是ai的幻觉。


http://www.ppmy.cn/news/1550006.html

相关文章

代码随想录算法训练营第五十七天|Day57 图论

prim算法精讲 https://www.programmercarl.com/kamacoder/0053.%E5%AF%BB%E5%AE%9D-prim.html prim算法核心就是三步,熟悉这三步,代码相对会好些很多: 第一步,选距离生成树最近节点第二步,最近节点加入生成树第三步&a…

【AI技术赋能有限元分析应用实践】pycharm终端与界面设置导入Abaqus2024自带python开发环境

目录 一、具体说明1. **如何在 Windows 环境中执行 Abaqus Python 脚本**2. **如何在 PyCharm 中配置并激活 Abaqus Python 环境**3. **创建 Windows 批处理脚本自动执行 Abaqus Python 脚本**总结二、方法1:通过下面输出获取安装路径导入pycharm方法2:终端脚本执行批处理脚本…

LeetCode Hot100 - 矩阵篇

前言 刷力扣hot100,记录一下每题的思路~ 这次是矩阵相关的题目 (1)73. 矩阵置零 ①两个boolean数组记录要置零的行列号,遍历数组置零对应的行列 class Solution {public void setZeroes(int[][] matrix) {int mmatrix.length, …

《地质学报》

《地质学报》是中国地质学会主办的地质科学学术刊物。《地质学报》反映地质科学各分支学科及边缘学科中最新、最高水平的基础理论研究和基本地质问题研究成果。《地质学报》登载论文范围主要包括:古生物与地层、构造地质、地球物理、矿物、岩石、地球化学、矿床、石…

文件上传代码分析

目录 不同类型的语言脚本语⾔/解释型语⾔⼀次编译到处运⾏编译型语⾔ 不同语⾔的webshell上传差异脚本语⾔/解释型语⾔⼀次编译到处运⾏编译型语⾔ ⽂件上传到webshell任意⽂件上传js检测解析规则MIME⽂件头后缀检测失效 NTFS Tricks 不同类型的语言 脚本语⾔/解释型语⾔ 代表…

通信原理实验:HDB3编译码(256KHz归零码实验)

目录 一、实验目的 二、实验器材 三、实验原理 HDB3 编译码实验原理框图:​编辑 实验框图说明: 编码规则: 四、实验步骤 五、实验记录与处理 六、实验结果及分析 一、实验目的 了解几种常用的数字基带信号的特征和作用。掌握 HDB3 码的编译规则。了解滤波法位同步在…

20241121 android中树结构列表(使用recyclerView实现)

1、adapter-item的布局 <?xml version"1.0" encoding"utf-8"?> <LinearLayout xmlns:android"http://schemas.android.com/apk/res/android"android:layout_width"match_parent"android:layout_height"wrap_content&…

跨平台应用开发框架(1)----Qt(组件篇)

目录 1.Qt 1.Qt 的主要特点 2.Qt的使用场景 3.Qt的版本 2.QtSDK 1.Qt SDK 的组成部分 2.安装 Qt SDK 3.Qt SDK 的优势 3.Qt初识 1.快速上手 widget.cpp mian.cpp widget.h Helloworld.pro 2.对象树 3.坐标系 4.信号和槽 1. 信号和槽的基本概念 2. 信号和槽的…