【工具】音视频翻译工具基于Whisper+ChatGPT

devtools/2024/10/18 21:24:28/

OpenAI推出的开源语音识别工具Whisper,以其卓越的语音识别能力,在音频和视频文件处理领域大放异彩。与此同时,ChatGPT也在翻译领域崭露头角,其强大的翻译能力备受赞誉。因此,一些字幕制作团队敏锐地捕捉到了这两者的结合潜力,开始尝试将它们应用于影视字幕的翻译工作中。

在这个创新的翻译流程中,Whisper扮演着至关重要的角色。它能够将音频或视频文件中的语音内容精准地转录成字幕文本,为后续的翻译工作奠定了坚实的基础。而一旦字幕文本生成完毕,字幕组便会调用ChatGPT、Google Translate等翻译软件,将字幕文本翻译成观众所需的语言。

这种结合Whisper与ChatGPT的翻译方式,不仅提高了字幕翻译的准确性,还极大地提升了工作效率。它让字幕制作团队能够更加轻松、高效地完成影视字幕的翻译工作,为观众带来更加优质的观影体验。

目录

实现流程

SubtitleEdit Online​​​​​​​

Buzz

N46Whisper

Subs AI

PyAutoSRT

caption2text


实现流程

  1. 调用Whsiper转录音频/视频文件,得到带时间轴的文本字幕 。
  2. 人工校对审核相应的文本字幕
  3. 使用ChatGPT、Google Translate、DeepL等将文本字幕翻译为指定语言

SubtitleEdit Online​​​​​​​

Nikse.dkicon-default.png?t=O83Ahttps://www.nikse.dk/subtitleedit/onlineSubtitleEdit Online是一个功能全面的在线字幕编辑工具,专为视频制作者、翻译者和字幕爱好者设计。SubtitleEdit Online支持包括SubRip (SRT)、MicroDVD、Advanced Sub Station Alpha (ASS)、Sub Station Alpha (SSA)、D-Cinema等在内的多种字幕格式,几乎涵盖了市面上所有常见的字幕格式。用户可以轻松创建新的字幕行,并对现有字幕行的内容和时间进行调整,以满足不同的字幕编辑需求。

SubtitleEdit Online集成了DirectShow、VLC媒体播放器或MPlayer,方便用户在编辑字幕时预览视频,实现字幕与视频的完美匹配。通过提供波形和/或频谱图显示,用户可以更准确地同步字幕与音频内容,确保字幕的准确性和流畅性。编辑完成后,用户可以将字幕导出为所需的格式,以便在其他平台或设备上使用。

 

Buzz

https://github.com/chidiwilliams/buzzicon-default.png?t=O83Ahttps://github.com/chidiwilliams/buzz

  • ​​​​​​​导入音频和视频文件并将转录文本导出为 TXT、SRT 和 VTT
  • 从计算机的麦克风转录和翻译为文本(资源密集型,可能不是实时的,演示)
  • 支持 Whisper、Whisper.cpp、Faster Whisper、Whisper 兼容的 Hugging Face 模型和 OpenAI Whisper API
  • 命令行界面
  • 适用于 Mac、Windows 和 Linux

Buzz 在 App Store 上表现更好。获取 Mac 原生版本的 Buzz,具有更简洁的外观、音频播放、拖放导入、转录文本编辑、搜索等功能。

​​​​​​​

N46Whisper

https://github.com/Ayanaminn/N46Whispericon-default.png?t=O83Ahttps://github.com/Ayanaminn/N46Whisper

N46Whisper 是基于 Google Colab 的应用。开发初衷旨在提高乃木坂46字幕组的工作效率,适于许多日语视频的字幕制作。此应用基于AI语音识别模型 Whisper的优化部署 faster-whisper.

在输出方面,N46Whisper生成的字幕文件采用了ass格式,并内置了特定字幕组的字幕格式规范,用户只需将生成的字幕文件直接导入Aegisub软件,即可轻松进行后续的翻译及时间轴校正工作,极大地简化了字幕制作的流程。

应用现在可以使用AI翻译工具对转录的文本进行逐行翻译。用户也可以单独上传srt或ass文件来使用翻译模块。目前支持chatGPT 的翻译。

翻译后的文本将于原文合并在一行,以 /N分割,生成双语对照字幕。

例如:

QQ截图20230312155700

双语字幕效果为:

QQ截图20230312160015​​​​​​​

Subs AI

​​​​​​​https://github.com/abdeladim-s/subsaiicon-default.png?t=O83Ahttps://github.com/abdeladim-s/subsai

Subs AI是一个强大的开源工具,它结合了OpenAI的Whisper模型及其变体,提供了网页界面(Web-UI)、命令行接口(CLI)以及Python包,致力于自动化字幕生成。Subs AI由abdeladim-s发起和维护,是一个基于GitHub的开源项目。

​​​​​​​Subs AI集成了whisper.cpp和faster-whisper等高效率的推理引擎,实现了更快更节省资源的模型运行。除了基础的字幕生成外,Subs AI还具备字幕修改、翻译、同步调整等多种辅助功能,一站式解决字幕处理问题。

PyAutoSRT

GitHub - botbahlul/PyAutoSRT: PySimpleGUI based DESKTOP APP to AUTO GENERATE SUBTITLE FILE (using free Google Speech Recognition API) and TRANSLATED SUBTITLE FILE (using unofficial online Google Translate API) for any video or audio filePySimpleGUI based DESKTOP APP to AUTO GENERATE SUBTITLE FILE (using free Google Speech Recognition API) and TRANSLATED SUBTITLE FILE (using unofficial online Google Translate API) for any video or audio file - botbahlul/PyAutoSRTicon-default.png?t=O83Ahttps://github.com/botbahlul/PyAutoSRT

PyAutoSRT是一个基于PySimpleGUI的桌面应用程序,它利用免费的Google Speech Recognition API自动生成字幕文件,并可使用非官方的在线Google Translate API将字幕文件翻译成其他语言。

​​​​​​​

caption2text

https://github.com/F-loat/caption2texticon-default.png?t=O83Ahttps://github.com/F-loat/caption2text​​​​​​​PWA 版字幕转换为文本工具,支持 ass 及 srt 格式,可批量导出为 word 及 text 文件​​​​​​​

 


http://www.ppmy.cn/devtools/125137.html

相关文章

JavaWeb(实训七)第十章--JDBC

实现JDBC程序 1. 搭建数据库环境 在MySQL 中创建一个名称为jdbc的数据库,然后在该数据库中创建一个users表。创建jdbc数据库和 users 表的 SQL 语句如下: CREATE DATABASE jdbc; USE jdbc; CREATE TABLE users( -> id INT PRIMARY KEY AUTO_INCR…

[YM]模板-归并排序

概念: 归并排序,其实是一种分治和递归算法 将大问题转化为一个个小问题处理,最终整合成一个大问题 模板: const int N 2e5 5; int a[N],b[N],n;void mergeSort(int l, int r){if(l>r) return;int mid(lr)>>1; merge…

JAVA基础

1.数据类型 变量就是申请内存来存储值。也就是说,当创建变量的时候,需要在内存中申请空间。 内存管理系统根据变量的类型为变量分配存储空间,分配的空间只能用来储存该类型数据。 1.1 基本数据类型 Java语言提供了八种基本类型。六种数字类型…

Centos基线自动化检查脚本

此脚本是一个用于检查Linux系统安全配置的Bash脚本。它通过多项安全标准对系统进行评估,主要检查以下内容: IP地址获取:脚本首先获取主机的IP地址,确保其以10.115开头。 密码策略检查: 检查最小密码长度(P…

理解Web3的互操作性:不同区块链的连接

随着Web3的迅速发展,互操作性成为区块链技术中的一个核心概念。互操作性指的是不同区块链之间能够无缝地交流和共享数据,从而实现更加高效和灵活的生态系统。本文将探讨Web3中互操作性的意义、面临的挑战以及未来的发展趋势。 1. 互操作性的意义 在Web…

2025 - 中医学基础 - 考研 - 职称

2025 - 中医学基础 - 考研 - 职称 第1章 中医学导论 1.中医学的指导思想是()( ) [单选] A.阴阳学说 B.五行学说 C.精气学说 D.整体观念 E.辨证论治 正确答案: D 2.中医学的理论核心是&…

常用STL容器(c++)

目录 一、vector容器---动态数组 1.为什么要引进动态数组? 2.引用库 3.构造一个动态数组 4.一些增删查改动态数组的方法 5.使用基础的vector 6.构造函数 7.二维动态数组 二、set()容器---集合 1.构造一个集合 2.方法 2.1插入元素 2.2判断元素是否存在 …

【最新华为OD机试E卷-支持在线评测】跳房子I(100分)多语言题解-(Python/C/JavaScript/Java/Cpp)

🍭 大家好这里是春秋招笔试突围 ,一枚热爱算法的程序员 💻 ACM金牌🏅️团队 | 大厂实习经历 | 多年算法竞赛经历 ✨ 本系列打算持续跟新华为OD-E/D卷的多语言AC题解 🧩 大部分包含 Python / C / Javascript / Java / Cpp 多语言代码 👏 感谢大家的订阅➕ 和 喜欢�…