一键视频转文字/音频转文字,浏览器右键提取B站视频文案,不限时长免费无限次可用

news/2025/1/24 16:06:10/

上篇文章阿虚分享了自己的「短视频」笔记方案

短视频文件小,易存储,所以阿虚建议是直接将原视频插入到笔记当中

而长视频文件大,很难像短视频一样操作。阿虚之前的建议是提取重要部分视频转长截图,或者视频转GIF

但上述方案仔细思考,其实只适用于精记录


▲泛阅读

阿虚后来在实践中,发现我更多时候是需要泛记录——即我经常会去B站、抖音、小红书等找视频评测,我主要需要的是「结论」和具体「推荐某产品的原因」

由于每次研究可能都会查看、下载大量评测视频,这就导致精记录的方案不太实用了,太费时间!🤨

于是阿虚对于需要泛记录的视频,采取的主要方案是——视频转文字,记录全文

1 CapsWriter Offline

当然,视频转文字在现在并不是什么稀奇事,阿虚之前就已经分享过很多免费工具了

也包括基于 OpenAI 训练出来的 Whisper 语音识别模型而开发的 WhisperDesktop、Buzz 这类桌面客户端💻

但使用客户端免不了多次鼠标点击,再加上此前推荐的 WhisperDesktop、Buzz 效率并不是很高,说白了就是整个转换流程挺费时间的

而阿里开源语音识别工具 FunASR 的出现,让整个中文语音识别革命性的进化了 ❗ ❗ ❗

不仅识别准确,最关键是识别速度极快,应该是目前中文语音识别领域速度最快!30 分钟的视频转为文字大概只需要 15 秒!

而让 FunASR 更简单易用,又得多谢 HaujetZhao 大佬开发的 CapsWriter Offline 项目:https://github.com/HaujetZhao/CapsWriter-Offline

这个项目原本是作者开发的一个 PC 端离线语音输入工具,帮大家解决了语音识别模型+标点符号添加模型调用的问题,即也算是有了可视化的软件界面

但就算这样,这个软件的使用也略显麻烦、费时:

  1. 需要先运行 start_server.exe 加载服务端(其会载入语音识别和添加标点模型,共占用约 2GB 内存),视个人电脑情况,一般加载需要20多秒
  2. 然后需要运行 start_client.exe 客户端才能看到下图软件界面,然后拖入音频、视频才能实现快速转文字(服务端只需启动一次,后续不必再等待20多秒)

但这个项目好就好在,软件的实际使用中,客户端不是必要的,启动服务端之后我们可以直接通过命令行来调用软件——这也是阿虚能借机发挥的原因😏

阿虚在原有软件的基础上:略微修改了原项目代码,另外用 AHK 写了一个辅助小程序,然后再写了一个增删右键菜单的小脚本

⚠️⚠️⚠️⚠️⚠️⚠️⚠️⚠️⚠️⚠️⚠️⚠️⚠️⚠️⚠️

软件下载地址,微信内打开文章见置顶留言:一键视频转文字!本地、在线视频均支持,离线模型免费无限可用

⚠️⚠️⚠️⚠️⚠️⚠️⚠️⚠️⚠️⚠️⚠️⚠️⚠️⚠️⚠️

在阿虚改善之后, CapsWriter Offline 便可能算的上当今最简单易用的 Windows 语音识别工具了!

在阿虚改善之后, CapsWriter Offline 便可能算的上当今最简单易用的 Windows 语音识别工具了!💪

  1. WIN10以上电脑可用,软件无需安装,解压即用
  2. 解压出来,双击运行 .bat 文件即可添加/删除右键菜单
  3. 随后就能如下图这样,在常见音频、视频文件上,直接右键使用了

不过这里需要特别说明一下:

  • 右键执行后,软件全程会静默执行,即前台不会有任何界面弹窗!耐心等待 20 多秒加载模型文件,再耐心等待10多20秒(视处理视频时长),就能完成文件处理,在源视频同目录下生成转换好的 txt 文本文件
  • 同时在每次使用过程中,只有处理的第一个视频需要等待 20 多秒加载模型,后续则均是直接开始处理视频文件
  • 另外由于软件服务端在后台会占用约 2GB 系统内存,如果后续不需要继续处理视频,可以通过右键系统托盘图标来退出后台服务端
  • CapsWriter 基于 FunASR 模型,所以只支持处理中、英两种语言!

实际使用效果就如下图,全程除了略需等待(转换多个视频也就第一个需要多等待20多秒),整个转换操作几乎无感

拿到视频的 txt 文字稿之后,再贴上视频链接,辅以重点视频片段截图,于是乎就能像阿虚下图这样,很快速的完成一篇涵盖多个视频内容的评测视频调研笔记了~🧐

2 ContextSearch

本地视频语音识别转文字问题基本已完美解决

但阿虚后续实际做视频笔记时候发现:我还是得先用 IDM 或者专用下载器,将视频下载到本地之后,多次点击找到视频所在文件夹,再右键进行转换——就还是有挺多步骤、不够优雅


▲还不够优雅~

还有没有办法省下多次键盘鼠标操作,一键完成在线视频转文字呢?

这里终于又可以搬出阿虚之前就大力推荐过的浏览器扩展了——ContextSearch

ContextSearch 是一款能实现在网页上一键调用命令行工具的扩展

考虑到文章篇幅,ContextSearch 的前期安装与配置这里就略过,请各位去复习上述文章👆

光有 ContextSearch 还不够,我们还得辅以开源下载神器 yt-dlp:https://github.com/yt-dlp/yt-dlp

yt-dlp 是一个功能丰富的命令行音频/视频下载器,支持数千个网站解析下载,B站、小红书、微博、知乎等常见视频平台都支持一键下载(注:目前不支持抖音)

2.1 使用效果

有了 ContextSearch+yt-dlp 的体验如何呢?

如下图,仅需在想要转文字的视频上右键,短一点的视频,10多秒即可完成视频转文字,并将结果复制到剪贴~

至此,对于 B站等网站的在线视频一键转文字体验可谓完美~

2.2 配置方法

那想要实现上图效果如何配置呢?

也不算复杂,首先我们打开 yt-dlp 项目官网,下载最新的 yt-dlp.exe 文件:https://github.com/yt-dlp/yt-dlp/releases

如果你访问Github困难,建议了解《Github加速访问教程》

然后,如果你之前学习过阿虚的任意WIN+R 使用教程(👈点击即可查看),配置过快速启动文件夹到系统环境,那就只需要把下载到的 yt-dlp.exe 扔进你的快速启动文件夹即可

不过,就算你目前完全不懂 WIN+R,也只需按下述操作即可轻松用上今天分享的工具

首先是按下键盘上的 WIN+R 键打开运行窗口

然后在英文输入法状态下输入一个 .(或者%USERPROFiiE%),然后回车,进入你的电脑用户目录

将上面获取的 yt-dlp.exe 文件放到打开的文件夹里面,也是可以的

然后我们打开 ContextSearch 的扩展选项,新建一个应用启动器,按下图进行配置即可(ContextSearch 配置教程点击这里查看)

特别注意,荧光黄处需要自行替换为你 CapsWriter 文件所在路径**(注:这部分代码借用了隔壁@奔跑中的奶酪)**:

tasklist /FI "IMAGENAME eq start_server.exe" 2>NUL | find /I /N "start_server.exe" >NUL || explorer "C:\Portable\CapsWriter\start_server.exe" & start "" cmd /c yt-dlp --output "../../../Downloads/Video/%(title)s.%(ext)s" --merge-output-format mp4 --no-mtime --exec "C:\Portable\CapsWriter\start_client.exe" "{searchTerms}"

最后再说明一下,通过上述代码实际执行的操作是:

  1. 先调用 yt-dlp 解析下载视频到系统 Downloads 文件夹中的 Video 文件夹
  2. 然后再调用 CapsWriter 语音识别下载好的视频文件,转为文字,内容存储在 txt 文件中

所以,如果你后续不需要这些下载好的视频、处理好的文本文件,需自行打开文件夹删除!

如果大家对阿虚的笔记方案感兴趣,相关文章我已经都整理到储物间(axutongxue.ysepan.com)8-2栏了,大家可以自行学习

当然,我只能给大家分享工具,提升效率

最关键的,还是要自己动手记录!

视频收藏了,不等于看过了

只有自己整理,记录了,它才真正属于你

希望大家保持记录,永远在学习的路上!


http://www.ppmy.cn/news/1565818.html

相关文章

PHP异步非阻塞MySQL客户端连接池

文章精选推荐 1 JetBrains Ai assistant 编程工具让你的工作效率翻倍 2 Extra Icons:JetBrains IDE的图标增强神器 3 IDEA插件推荐-SequenceDiagram,自动生成时序图 4 BashSupport Pro 这个ides插件主要是用来干嘛的 ? 5 IDEA必装的插件&…

【Unity3D】Unity混淆工具Obfuscator使用

目录 一、导入工具 二、各种混淆形式介绍 2.1 程序集混淆 2.2 命名空间混淆 2.3 类混淆 2.4 函数混淆 2.5 参数混淆 2.6 字段混淆 2.7 属性混淆 2.8 事件混淆 三、安全混淆 四、兼容性处理 4.1 动画方法兼容 4.2 GUI方法兼容 4.3 协程方法兼容 五、选项 5.1 调…

Linux终端之旅: 权限管理三剑客与特殊权限

Linux 权限的概念 Linux 下有两种用户:超级用户( root )、普通用户。 超级用户:可以在linux下做任何事,不受-rwx权限的影响 普通用户:linux使用者,受权限的影响 超级用户的命令提示符是“#”&…

DAY10,数据类型

题目 请写出以下几个数据的类型 整数 a int a的地址 int* 存放a的数组b int [?] ?由数组b大小决定 存放a的地址的数组c …

计算机毕业设计Python+卷积神经网络租房推荐系统 租房大屏可视化 租房爬虫 hadoop spark 58同城租房爬虫 房源推荐系统

温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 作者简介:Java领…

C++ ——— 模拟实现 vector 类

目录 vector 类的框架 无参数的构造函数 析构函数 获取有效数据个数 获取容量 重载 [] 运算符 可读可写版本 只可读版本 扩容 尾插 实现迭代器 可读可写版本 只可读版本 自定义设置size长度和内容 在任意位置插入 删除任意位置的数据 赋值重载 vector 类的框…

[Spring] Nacos详解

🌸个人主页:https://blog.csdn.net/2301_80050796?spm1000.2115.3001.5343 🏵️热门专栏: 🧊 Java基本语法(97平均质量分)https://blog.csdn.net/2301_80050796/category_12615970.html?spm1001.2014.3001.5482 🍕 Collection与…

ORB-SLAM2源码学习:Initializer.cc⑧: Initializer::CheckRT检验三角化结果

前言 ORB-SLAM2源码学习:Initializer.cc⑦: Initializer::Triangulate特征点对的三角化_cv::svd::compute-CSDN博客 经过上面的三角化我们成功得到了三维点,但是经过三角化成功的三维点并不一定是有效的,需要筛选才能作为初始化地图点。 …