多模态技术的协同表现:从文本生成、语音合成到口型同步综合测评

news/2024/10/22 10:32:58/

本文是针对多模态对话系统核心技术栈的使用效果和网络测评整理。

测评内容基于用户体验,侧重于从使用者角度出发,讨论实际操作中的体验感受,如技术的易用性、输出效果如文本的连贯性、语音的自然度、口型同步的准确性等。不涉及具体算法架构的分析,仅供参考。


文本GPT千帆Claude
TTSElevenlabs讯飞GCP(Google cloud Platform) (convai内置)
lipsyncMetahumanSDKConvAI自研Audio to face

对比分析

文本

GPT

  • GPT全面能力比千帆更强 文字处理这块差不多
  • GPT的知识库比较大 并且敏感词限制很少/千帆的文心有敏感词设置,发布大模型经过备案审核

千帆

  • 最大的差异就是价格,千帆便宜
  • 文言文 中国文化等本土内容,千帆更头部

Claude (Claude与GPT分析对比,图源网络)

TTS

(仅中文语音分析)

Elevenlabs:有优质的台湾语调语音库,内陆语音库也还行。

讯飞:不支持convAI第三方集成,需要企业对接。本身有明显的“的地得”不分得问题。

GCP(Google cloud Platform):难听(指中文)。(metahuman内置的voice ID,google和Azure,whatever,也很难听)气口不对,声调错误(阴平阳平上声去声不分),甚至会读错字

Lipsync

Metahuman SDK:动画总体有非常多的bug:升级了pricing plan仍然有和免费试用版一样的五秒时间限制/ 会在嘴张着的情况停止讲话/  身首分离的问题可以解决但麻烦

convai自研有audio2face runtime 百分之七八十的效果,完全免费。

Audio2Face流式:(可以集成在ConvAI中)但企业版年费偏高昂

综合流程:

文本GPT千帆Claude
TTSElevenlabs讯飞GCP(Google cloud Platform) (convai内置)
lipsyncMetahumanSDKConvAI自研Audio to face

个人用户可以使用“GPT-Elevenlabs-ConvAI”的技术栈组合。均有免费额度。

企业用户要求最佳效果的技术栈组合可以参考“GPT-Elevenlabs-ConvAI-Audio to face runtime lipsync”

Reallusion建议:

切换音色:convai的协同表现非常好,但第三方API集成只支持Elevenlabs,需要使用付费套餐,但价格偏低廉。

Monthly interaction of different pricing plans​​​​​

You can use Elevenlabs voices in Convai. There are 2 ways to access Elevenlabs voices. First, your Convai plan must be a Gamer plan or higher. However, each plan has a separate ElevenLabs Interaction quota. ElevenLabs Quota is as in the screenshot I shared below. In this way, you can access ElevenLabs voices in the Character Voices section in Convai. Another method is to connect your ElevenLabs account. However, your Elevenlabs account must have a Pro plan or higher. This way you can also add custom ElevenLabs voices, and your ElevenLabs quota is the same as the quota on your account. Documentation: https://docs.convai.com/api-docs/plugins-and-integrations/elevenlabs-api-integration A small note, this way you can't use Convai's Elevenlabs voices, you need to upgrade your Convai plan. So when you connect the Elevenlabs API, everything related to Elevenlabs is connected to your Elevenlabs account.

convai不支持屏蔽关键词,需要去人设设置里告诉它不说某些词语,但不是强制屏蔽。

https://zh.wikipedia.org/wiki/%E6%AD%A7%E8%A7%86%E8%AF%AD

可以设置口癖如“这样子哦”“有啦”“真的假的?”“不好意思”“对啊/对啦”“没关系”“还好啦”“吼”“咩”。最好需要在人设里给详细解释:

“这样子哦”

这是一种表示理解或回应对方说话的口头禅,常常用在对话中表达对信息的接收或共鸣感。

“有啦”

台湾人常用“有啦”来强调某件事的存在或发生,例如:“我有做啦!”表示自己确实做了某事。

“真的假的?”

表示惊讶、怀疑或不确定的回应,类似于大陆的“真的吗?”。

“不好意思”

这在台湾不仅用于道歉,常常也用作礼貌的开场白或表示客气。例如,在请求帮助或打扰别人时,台湾人会说“不好意思”来显得更礼貌。

“对啊/对啦”

用于表示同意或附和,尤其是在对方表达观点时,台湾人会用“对啊”或“对啦”来表示赞同。

“没关系”

表示不介意、不在意,类似于“没事”、“无所谓”。这句话在台湾人的日常对话中非常常见,用来缓解尴尬或表示宽容。

“还好啦”

表示某件事情还算过得去、没有太大问题,常用来回应别人对自己状态或事情的询问。

“吼”

语气助词,用来加重语气或表达抱怨。例如:“你怎么这样吼?”有时带有一点撒娇或不满的意思。

“咩”

也是语气助词,常出现在句尾,用来表达无奈或调皮的感觉,例如:“我也不知道咩。”

其他建议:

动态字数:在人设里一般问答的长度设置的更精简,随着问题的难度而动态放宽字数限制。(否则每个回答都回答一长段 / 困难的问题很快回答 / 简单的问题过于啰嗦的回答 都会更不像真人)

眼球动画:make the AI not always look at player

细微动作:change NPC animation while listening player talking/ thinking about anwser。

Action:将走/跑/摊手等动作blend使用。

语音情绪转换:convai集成流程支持初始情绪设定(如图),对话过程中声音情绪转变暂不支持


http://www.ppmy.cn/news/1541039.html

相关文章

[C#][winform]基于yolov5的驾驶员抽烟打电话安全带检测系统C#源码+onnx模型+评估指标曲线+精美GUI界面

【重要说明】 该系统以opencvsharp作图像处理,onnxruntime做推理引擎,使用CPU进行推理,适合有显卡或者没有显卡windows x64系统均可,不支持macOS和Linux系统,不支持x86的windows操作系统。由于采用CPU推理,要比GPU慢。…

【ubuntu18.04】ubuntu18.04安装vmware-tools之后立即适应窗口为灰色,窗口不会自适应

问题描述 ubuntu18.04安装vmware-tools 点击查看,看到立即适应窗口为灰色 解决方案 关闭虚拟机 编辑此虚拟机 设置 注意 取消勾选拉伸模式 查看可以看到所有选项可选择 注意: 不要全屏的时候查看,全屏看到的立即适应窗口就会显示…

Android15使用Winscope

使用 Winscope 跟踪窗口转换 | Android Open Source Project (google.cn) Winscope 是一款 Web 工具,可以让用户在动画和转换期间和之后记录、重放和分析多个系统服务的状态。Winscope 将所有相关的系统服务状态记录在一个跟踪文件中。使用带有跟踪文件的 Winscope…

数据分析-31-时间序列分析的卡尔曼滤波器平滑方法

1 卡尔曼滤波器估计系统状态 Kalman Filter(卡尔曼滤波器)算法是一种线性最小方差估计器,用于在存在噪声的情况下对随机过程或系统进行估计。它的基本思想是通过一系列的迭代步骤,不断优化对系统状态的估计。算法主要包含两个步骤:预测和更新。 1.1 卡尔曼滤波器的原理 …

Makefile:1954: recipe for target ‘Modules/_ssl.o‘ failed请安装ssl后,重新安装或编译Python

碰到这个问题,请重新安装openssl,并编译安装Python源码。 安装openssl sudo apt-get update sudo apt-get install -y make build-essential libssl-dev zlib1g-dev libbz2-dev libreadline-dev libsqlite3-dev wget curl llvm libncurses5-dev libn…

IoT工业网关的功能与特点有哪些?IoT工业网关在现代工业生产中的应用

随着物联网(IoT)技术的飞速发展,IoT工业网关作为连接物理世界与数字世界的桥梁,正在工业领域发挥着越来越重要的作用。 一、IoT工业网关的基本功能与特点 1、数据聚合与预处理 IoT工业网关的首要功能之一是数据聚合。在复杂的工…

101 - Lecture 11

课程概述 • 汇编语言中的输出(Output in inline assembly) • 汇编语言中的输入(Input in inline assembly) • printf 函数的更多细节 • scanf 函数的更多细节 • 程序流程控制(Controlling program flow&#xff…

数据库作业2

作业: 建立数据库: 建表: 插入数据: 查询: (1): (2): (3): (4): &#xf…