选择使用whisper.cpp进行语音转文字

embedded/2024/11/29 2:53:04/

需要将一些wav格式的语音文件转成文字(ASRSTT),接到这个任务后,首先上网搜索有没有现成免费的工具或服务可以使用。常用的关键字如“语音转文字 免费 在线”。

搜到的很多野鸡网站,都可以免注册免费提供短时间(一两分钟或几兆)的文件转文字功能,但时间太短无法满足要求。如果在这些网站注册付费使用,不仅花钱,还可能泄露隐私。

正规网站当然也不少,如讯飞、IBM、腾讯等等。但也都不行或者不够。

比如讯飞,个人感觉有欺诈嫌疑:www.iflyrec.com/html/addMachineOrder.html

看它左上角的网页title,是不是【在线】【免费】几个字很吸引你?

还有更具迷惑性的。

当你添加本地文件后,不管文件多大,数量有几个,它会马上启动文件上传,让你误以为它能够无限制的免费帮你进行转换,最差情况,估计也就是让你这种白嫖党多等一会儿。既然免费,也没啥好抱怨的,等就等吧。

不过实际情况是,当所有这些文件上传完成,点击提交后,它就告诉你需要收费啦。当然也不能说它没提醒你,网页右侧的【资费】图标其实早就说明了一切。

它的机翻价格是19.8元/小时,而且还没有免费体验时长。几十个小时就得花个几百块钱,性价比太低了,再见。

但已经上传的文件最后讯飞如何处理,是不是拿去喂给AI训练呢?不得而知。

如果是的话,就是你想白嫖它,而反而被它白嫖了。。。

IBM的服务不错,www.ibm.com/products/speech-to-text

它明确告诉你,每个月有500分钟的免费额度。不过即使是free,也要求你输入信用卡号。

但是本人没有信用卡,也只能byebye了。

然后是腾讯云,语音文件每月有10小时的免费额度。

console.cloud.tencent.com/asr/demonstrate

试用了一下,还可以。另外还有SDK和API两种方式来访问它的服务,也可以选择本地文件或网络文件(又诱导人买你的云存储服务吧?),但这得学它们API文档来写代码,不方便。

目前看来腾讯最靠谱,但根本问题是免费额度太少不够用。

如果另外把百度、阿里等大厂的白嫖资源都用上,一个月也许加起来会有二三十个小时。但这样太麻烦,而且时间限制如悬在头上的利剑,让人不安心。

所以还是放弃buy(白嫖)这条路,改为build。

Github上语音转文字主题下,star最多的是 whisper.cpp。github.com/topics/speech-to-text

它是openAI的whisper开源项目的cpp实现,按照其主页说明,在win10下的WSL Ubuntu ,只要几个步骤就能跑起来,也不要求有gpu。

  1. 1、确保已安装c++编译
  2. 2、下载/克隆 whisper.cpp源码
  3. 3、下载模型,tiny和base识别不太行,至少要small。电脑不太差的都选medium或large吧。

 huggingface.co/ggerganov/whisper.cpp/tree/main 如果不能访问,可以去镜像网站hf-mirror.com/ggerganov/whisper.cpp/tree/main。

4、编译,以small为例,make -j small

5、得到可执行程序main,然后就可以进行转换了。例如 ./main -m models/ggml-small.bin -l zh -f  ../sound/test.wav。

还有很多参数可用,例如输出到各种格式的文件。如果要转换的语音文件多,自己写个脚本批处理即可。

转换后的结果还是需要人工纠错,而且有时会有些稀奇古怪的内容,比如

【请不吝点赞 订阅 转发 打赏支持明镜与点点栏目】【转发 打赏支持明镜与点点栏目】等等

估计是ai的幻觉。


http://www.ppmy.cn/embedded/141329.html

相关文章

OSPF协议详解

路由:指导数据转发的路径 路由是双向的 1.路由递归:将不知道的丢给下一跳 2.等价路由:去往某个目的网段/主机有多条相同开销、协议优先级一致,但下一跳不同路径 3.浮动路由:去往某个目的网段/主机有多条路径&#…

flink中barrier不对齐的原因和影响

Barrier 不对齐(Barrier Misalignment)可能导致一些性能和一致性相关的问题,但 Flink 提供了机制来确保即使在不对齐的情况下,也可以保证数据的一致性。 1. 什么是 Barrier 不对齐? Barrier 不对齐是指在分布式数据流…

金融科技白皮书:2022-2023年度回顾与前瞻

在金融科技领域,2022至2023年见证了一系列创新技术的应用和发展。本白皮书将回顾过去一年的主要成就,并展望未来一年的发展趋势。 2022年亮点回顾 **低代码平台:**低代码平台通过高度抽象化和自动化的可视化过程,简化了应用程序开…

【动态规划入门】【1.2打家劫舍问题】【从记忆化搜索到递推】【灵神题单】【刷题笔记】

LeetCode 198. 打家劫舍 一、题目详情 题目难度:中等 题目描述:你是一个专业的小偷,计划偷窃沿街的房屋。每间房内都藏有一定的现金,影响你偷窃的唯一制约因素就是相邻的房屋装有相互连通的防盗系统,如果两间相邻的…

PICO VR串流调试Unity程序

在平时写Unity的VR程序的时候,需要调试自己写的代码,但是有的时候会发现场景过于复杂,不是HMD一体机能运行的,或者为了能够更方便的调试,不需要每次都将程序部署到眼睛里,这样非常浪费时间,对于…

区块链学习笔记(1)--区块、链和共识 区块链技术入门

常见的hash算法: 文件防篡改:MD5比特币挖矿:SHA256证明数据片段:Merkle root文本去重:SimHash 区块 区块(block)由区块头(block header)和交易列表(transac…

Redis1——基本命令及原理

文章目录 Redis1——基本命令及原理1. Redis原理1.1 特点1.2 数据类型及其存储方式1.2.1 **string** 字符串1.2.2 **list** 列表1.2.3 **hash** 哈希表1.2.4 **set** 集合1.2.5 **zset** 有序集合 2. 基本命令及应用场景:2.1 Redis应用场景2.2 string——sds动态字符…

Fink的安装与入门

finl是做流式计算的大数据工具 官网:Apache Flink Documentation | Apache Flink Flink官方提供了Java、Scala、Python语言接口用以开发Flink应用程序 Fink的应用场景: Standalone集群模式安装部署 Flink支持多种安装模式。 local(本地&am…