有点恐怖,这个工具能让你在 20 秒内,克隆你的声音,并转成英语!

news/2024/11/30 20:29:37/

公众号关注 “GitHubDaily”

设为 “星标”,每天带你逛 GitHub!

fc7d1b599a1227e7b5e11e42435b82ea.jpeg

在上学那会,我便一直有个想法,要是能有一个英汉自动翻译机,能把我说的话,直接翻译成英语就好了。这样,我就不需要在凌晨早起背单词语法,在操场上训练口语。

当我在「流浪地球」电影中,看到刘培强用汉语与其它国家宇航员进行跨国界无缝交流时,我觉得,这才是未来该有的样子。

所有人只需要掌握一种语言,便可通过 AI 智能转译功能,快速成为任一国家的 Native Speaker。

前阵子 ChatGPT 横空出世,开始尝试通过理解人类语言以及情感,对语言进行翻译。

这在语言翻译领域,无疑是一次大胆的尝试。

也就是说,现在的 AI,不仅能翻译语言,还能根据你所需要表达的情感对语言进行润色。

现在,就差一个声音克隆以及语言表达工具了。

此前在 GitHub 上有人开源过一款语音克隆工具:Real Time Voice Cloning,它能在 5 秒内完成你的声音克隆,并让 AI 基于文本生成语音。

38926591d14f51519126fa66e8b0cb15.png

🔗 https://github.com/CorentinJ/Real-Time-Voice-Cloning

这个项目已经推出便受到了不少开发者的关注,克隆出来的声音相似度非常高。

唯一美中不足的,就是 AI 克隆出来的声音,说话依旧是冷冰冰的,没有情感。因此,即便声音听起来很像原声,但还是有股浓浓的机械感。

直到今早起床时,我偶然在 Hacker News 看到了一个让我眼前一亮的项目:play.ht

它可以从 20 秒的音频中快速生成克隆语音,并自动转换为英语。

89fd0ab02d9878783c99da363f06535a.png

也就是说,即便你不会说英语,也可以通过语音克隆的方式,立刻说出一口流利的英语。

在使用的过程中,我试了下自己的声音,确实有点震撼。

🔗 playground.play.ht

这里的技术采用了一个名为 Parrot 的模型,它能从几秒的音频克隆出声音,并基于文本,重新生成一段富有情感的语音。

目前该模型只支持英语,不过技术团队已经在开始尝试支持更多语言。

克隆声音的数据样本主要分两种:高保真(20 分钟)和零样本(20 秒),给的音频样本时间越长,其精度就更佳。

下面提供的两段音频示例,是我基于雷总某个采访的声音样本进行克隆的。

这里用的是一段比较粗糙的文本,大概 40 秒左右,就已经能拥有这样的效果:

如果你感兴趣的话,也可以用自己的声音试下。

看着自己的声音被一步步转化成英语,那种感觉,你只有真正体验过,才能知道有多震撼。

未来,该工具将被应用到各类数字内容创作(如游戏、媒体、在线教育)等平台。

你可以想象,未来的 3A 游戏大作,不再需要人工来配台词,而是通过采集声优的各种情绪配音,自动生成所有国家和地区的语言,甚至是方言。

电台主持人、歌手,以及那些可标准化输出声音的职业,都有可能被这个工具取代。

随着 AI 的进步与发展,学习英语的投入产出比正在逐渐降低。

在将来的某一天,或许我们只需要佩戴个入耳式耳机,便能与其他语种的人无缝交流。

一键部署 ChatGPT 网页应用

前两天有好几个朋友都说想自己搭建个 ChatGPT 机器人玩一玩。

这里推荐一个我今天在 GitHub 上看到的开源项目:ChatGPT Next Web,可一键免费部署你的私人 ChatGPT 网页应用。

UI 做的还蛮好看的:

6e53db81b282978d8e036d4b8b713f77.png

🔗 https://github.com/Yidadaa/ChatGPT-Next-Web

主要功能如下:

  • 在 1 分钟内使用 Vercel 免费一键部署;

  • 精心设计的 UI,响应式设计,支持深色模式;

  • 极快的首屏加载速度(~85kb);

  • 自动压缩上下文聊天记录,在节省 Token 的同时支持超长对话;

  • 一键导出聊天记录,完整的 Markdown 支持;

  • 可绑定自己的域名。

感兴趣的同学可以试下。

最后再插个题外话,近期有不少同学反映说收不到公众号文章的推送,有时要等好几天才能刷到。

这个是因为公众号现在改版了,打乱了推文信息流。如果你不对公众号加星标的话,确实没办法第一时间接收到推送。

为了能够第一时间接收到文章推送,建议大家到 GitHubDaily 公众号主页加个星标。

edd0728c12bb6ff51e078c5bef36528d.png

文中所提到的所有开源项目与工具,已收录至 GitHubDaily 的开源项目列表中。

该列表包含了 GitHub 上诸多高质量、有趣实用的开源技术教程、开发者工具、编程网站等内容。

从 2015 年至今,累积分享 3500+ 个开源项目,Star 增长 21000+,有需要的,可访问下方 GitHub 地址或点击文末「阅读原文」自取:

GitHub:https://github.com/GitHubDaily/GitHubDaily

a4454e49eea3e763fb0d556d0aaca485.png


http://www.ppmy.cn/news/773933.html

相关文章

关于计算机游戏的英语读法,电脑游戏,computer game,音标,读音,翻译,英文例句,英语词典...

雕刻加工是饱含着人类高智能和高技能的工匠型劳动,当代雕刻制造技术正经历着从手工雕刻向CNC雕刻的变革。本文较为详尽地讲述了CNC电脑雕刻机和数控铣、加工中心的机器结构、控制系统、应用软件等方面的关系,并介绍了运用MasterCAM等软件进行CAM编程&…

如何利用手机进行英语学习?

手机的作用在现在已经不仅仅是打电话这么简单了.尤其是现在的智能手机,如果说他是掌上电脑已经不为过了. 手机的一大特点是非常的便利,并且可以随时的带在身上.如何在手机的身上进行发掘的话,你将会发现一部智能手机将会成为你的学习利器. 英语的重要性已经不需要在强调了.如何…

计算机常用软件英文读音,常用软件,software,音标,读音,翻译,英文例句,英语词典...

【摘 要】本文探讨了Pro/ENGINEER与MasterCAM、AutoCAD、UG之间图样相互转换的途径,阐述了图样转换的可行性和实现过程。 【关键词】 Pro/ENGINEER CAD/CAM软件 图样相互转换 1 引言 Pro/ENGINEER、 AutoCAD、MasterCAM、Unigraphics(简称UG)是目前国内外机械…

团队的英文翻译缩写_魔兽世界各种英文/拼音/缩写的翻译/解释

大灾变缩写为CTM 团队副本名称缩写: VOA(国服简称为宝库,拼音缩写为BK....):Vault of Archavon 八十年代团队副本阿尔卡冯的宝库,台服译作亞夏梵穹殿。位于冬拥湖(台服译作冬握湖)。分10人和25人难度。没有困难模式。 NAXX: Naxxramas 六十年代及八十年代团队副本纳克萨马斯…

魔兽世界中的英文简写

AC:防御等级(决定受物理攻击时伤害减免值,比例见战士新手帖) ADD:有新的怪物进入团队。 AOE:效果区域(AOE魔法就是说范围魔法) AGI:敏捷(属性)…

魔兽中的dx写屏(原版为英文)

原文地址: http://www.rohitab.com/discuss/topic/34411-run-time-directx-hooking-using-code-injection-and-vtable/ 相关资料: http://bbs.pediy.com/showthread.php?t85368&highlighthook%E6%B8%B8%E6%88%8F%E6%88%8F 工程代码: htt…

魔兽世界里英文简称

Add - (英)一只额外的怪物加入到现有的战斗中。 ADM - (拼)奥达曼(副本)。 AFK - (英)Away from Keyboard,离开键盘(暂离)。这意味着玩家离开了他…

看图听读拼单词游戏

1,视觉:沉浸式单词应用场景图; 2,例句:有针对性的场景图单词例句; 3,发音:标准英语发音跟读; 4,拼写游戏:游戏是孩子的天性,在游戏中记…