一夜之间,区块链、元宇宙、Web3、VR等风口似乎都消散了,似乎只有 AI 才是C位。声网 RTC + 云市场各类插件 + AIGC,会迸发出什么样的火花呢?
最近,声网内部组织了一次黑客松,经过激烈的角逐,我们团队荣获冠军。接下来,我们来介绍下我们的项目:Infinite Lego(无限乐高)和我们如何实现的。废话不多说,先看下我们的宣传片 Trailer:点击查看视频
设计构思
近期,随着 ChatGPT 和 AIGC 的爆火,我们非常想探索下,声网 RTE API + 声网云市场各类型插件 + AIGC 一起能实现什么有趣的场景。
在从前车马慢的时候,传统的互动方式是书信,受制于地理和时间的因素,非常不方便。在过去 100 多年中,随着电话、邮件、手机、短信、VoIP、微信等社交网络的发明,人类的互动已经接近实时。但是依然受制于文化差异、语种、专业、语境的差别,让人们在理解彼此上依然有困难。我们坚信,有了AIGC,从此,实时互动进入了智能实时互动的时代,可以克服文化、语种、专业、语境等限制。
AIGC 引发的交互革新
这是我们整个项目实现的不同场景:
AIGC 的引入使云市场插件的交互方式发生了革新。通过 AIGC 技术,声网云市场插件可以实现更加智能化的交互,例如,在和 AIGC 交互时通过转写类插件进行语音识别和自然语言处理,使得用户可以通过语音直接与应用进行交互。这种新的交互方式大大提升了用户的使用体验,从而在众多应用中脱颖而出。
除此之外,还可以在语音输出的时候选择方言,配合提示词使用,创造出各式各样的应用场景。
我们是怎么实现的?
声网云市场的各类型插件给我们构建这样的方案提供了极大便利,我们想到了 RTC + 实时转写 + ChatGPT + 文字转语音 + 文字驱动虚拟人 + 实时变声的功能组合,于是从构思到设计、从开发到调试用了 2 天就保质保量地完成了整个项目。
为什么会这么快?
在传统的集成 RTC 业务的时候,我们需要确保链路如下:
如果需要接入一些其他厂家提供的特效处理,需要在前处理和后处理用裸数据接入,费时费力。
而云市场插件可以作为一个不错的解决方案,来实现在实时的音频和视频通信的基础上添加许多新功能,满足了各种业务需求。开发者可以轻松地将诸如视频特效、音频特效等功能集成到他们的应用中,为用户带来更丰富的交互体验。
欢迎尝试我们的项目(目前只支持安卓端):
蒲公英链接: https://www.pgyer.com/rZPz