OpenAI深夜震撼发布最新模型GPT-4o,送上最快速便捷教程

devtools/2024/10/19 6:24:57/

北京时间5月14日凌晨,有人说OpenAI一夜改变了历史。

在我们的深夜、太平洋时间的上午 10 点,OpenAI 召开春季发布会,公布了最新的GPT-4o模型,o代表Omnimodel(全能模型)。20多分钟的演示直播,展示了远超当前所有语音助手的AI交互体验,与外媒此前透露的消息基本重合。

GPT-4o 不仅在文本处理方面表现出色,还在图像和音频处理能力上实现了显著增强,标志着人机交互进入了一个更为自然和便捷的新时代。

实时语音功能

本次展示聚焦于 ChatGPT 应用的实时对话语音功能,通过现场演示,展示了用户与 AI 之间流畅无阻的交互体验。

通过手机上的应用程序,激活了 GPT-4o 的音频功能,与 AI 进行了实时对话,并体验了其即时响应与情绪感知能力。

它的表现仿佛一个人正坐在旁边,和人类的对话节奏自然、融洽,完全听不出是个AI。

其实多模态语音功能,OpenAI在之前已经可以实现,具体形式如下:

1. 语音识别:音频转文本,通过调用Whisper模型;

2. 模型处理得到回复:通过调用文本模型;

3. 语音合成:文本转音频,调用tts模型。

但这个过程会存在延迟导致无法“沉浸式”体验与AI的对话。

而GPT-4o在响应速度方面,完美解决了延迟问题。GPT-4o的响应音频速度几乎与人类相似。没有使用GPT-4o的ChatGPT语音对话功能平均延迟为2.8秒 (GPT-3.5) 和5.4秒(GPT-4)。

另外,新语音功能的主要区别还包括:用户现在可以直接打断模型,无需等待模型完成发言即可插话,大大提高了对话的自然流畅度。

此外,新模型消除了延迟现象,反应迅速,不再有尴尬的等待时间。更重要的是,它能够感知用户的情绪状态,根据用户的语气和节奏调整交流方式,展现出更人性化的交互体验。

除了以上升级外,GPT-4o还在GPT-4的基础上做了很多升级包括:

  • 极佳的多模态交互能力,包括语音、视频,以及屏幕共享。

  • 可以实时识别和理解人类的表情,文字,以及数学公式。

  • 交互语音感情丰富,可以变换语音语调、风格,还可以模仿,甚至“即兴”唱歌。

  • 超低延时,且可以在对话中实时打断AI,增加信息或开启新话题。

  • 所有ChatGPT用户均可免费使用(有使用上限)。

  • 速度是GPT-4 Turbo的2倍,API成本低50%,速率限制高5倍。

视频互动解方程

另一个环节中,OpenAI另一位研发负责人手写了一个方程,并打开摄像头拍给ChatGPT,让它扮演「在线导师」的角色帮助自己解题,而且只能给提示,不能直接说答案。

接到任务的ChatGPT,甚至开心大叫:「Oops,我好兴奋啊!」

负责人在纸上写下这样一个方程:3x+1=4。然后问ChatGPT自己写的是什么方程,ChatGPT语调自然地回答出来了。

随后,在负责人的要求下,它按步骤一步一步说出了解题步骤。

最让人震惊的是,随着负责人在摄像头中解题,ChatGPT实时地就给出了鼓励和引导。

而且可怕的是,时间上没有丝毫延迟,这边负责人还在计算,ChatGPT就实时给出了评价和反馈。

整个过程完全和真人交流无异!

这个发布会还有很多很精彩的交流过程,在这里就不再详述,有兴趣的伙伴可以自己去观看了解~

总的来说,新发布的GPT-4o不仅提供与GPT-4同等程度的模型能力,推理速度更快,还提供同时理解文本、图像、音频等内容的多模态能力。

可以说GPT-4o,最大特色是它可以将文本、音频、图像任何组合作为多模态输入和输出,并且更快更智能!

沃卡AI已及时更新支持最新的GPT-4o模型,体验方法如下:

方式一:

打开网页www.woka.chat,选择模型“gpt-4o-2024-05-13”即可;

方式二:

通过api调用形式体验,打开https://4.0.wokaai.com,注册生成令牌(key)调用即可!

沃卡API特点:

● 透明:纯官方计价,支持查询用量明细,余额实时掌握。

● 稳定:庞大账号池作为支撑并定期优化扩容;一个key即可稳定快速调用所有模型!

● 方便:所有用到 OpenAI API 的地方都可以无缝替代;

● 快速:持续优化中转服务的线路速度,保证使用体验;不需像调用官方一样特地申请多个账号扩充限制!

● 省心:没有包月,没有会员,没有限时,用多少买多少,永不过期。


http://www.ppmy.cn/devtools/41170.html

相关文章

Kasawaki川崎机器人故障维修

在当今的自动化工业领域,川崎工业机器人以其卓越的性能和可靠的工作效率赢得了广泛的赞誉。作为机器人的核心组成部分,伺服电机的作用至关重要。然而,就像所有机械设备一样,也可能会遭遇电机磨损或故障,需要适时的川崎…

什么是SOL链跟单机器人与阻击机器人?

SOL链作为一个快速增长的区块链生态系统,为各种应用程序提供了丰富的发展机会。在SOL链上,智能合约的应用已经开始蓬勃发展,其中包括了许多与加密货币交易相关的应用。在本文中,我们将介绍在SOL链上开发的阻击机器人(S…

Cocos creator实现《战机长空》关卡本地存储功能

Cocos creator实现《战机长空》关卡本地存储功能 Cocos creator在开放小游戏过程中,经常会出现设置关卡,这里记录一下关卡数据本地存储功能。 一、关卡设置数据 假如我们有关卡数据如下, let settings [ { level: 1, // 第1关 score: 0,…

Meta最新研究: Flash Attention 为何是系统性能瓶颈?

I. 引言 随着机器学习趋向于更大和更复杂的模型,模型训练过程变得越来越计算和资源密集。生成式AI的出现进一步推动了模型开发的边界,大型语言模型(LLMs)通常在数百或数千个GPU上训练数月。以LLaMA2的70-B参数模型为例,需要1,720,320 GPU小时来训练。对于如此长的训练作业,训练…

[3D基础]Delaunay与Triangulate构网

Delaunay三角剖分(Delaunay Triangulation)和Triangulate构网是两种常用于生成三角网格的方法,它们都有其独特的特点和应用场景。 Delaunay三角剖分: Delaunay三角剖分是一种经典的三角剖分方法,其特点是任意三角形的外…

【Element-UI快速入门】

文章目录 **Element-UI快速入门****一、Element-UI简介****二、安装Element-UI****三、引入Element-UI****四、使用Element-UI组件****五、自定义Element-UI组件样式****六、Element-UI布局组件****七、Element-UI表单组件****八、插槽(Slots)和主题定制…

最长回文子串 Java实现和原理

最长回文子串问题概述 最长回文子串问题是一个经典的字符串处理问题,它的目标是找到一个字符串中最长的回文子串。回文是指一个正读和反读都一样的字符串,如 “aba” 或 “level”。这个问题在计算机科学中具有重要的应用价值,如生物信息学中…

数据仓库之Hive

官方文档 简介 Apache Hive 是一个开源的数据仓库基础架构,用于在大规模数据集上进行数据汇总、查询和分析。它提供了一个类似于 SQL 的查询语言(HiveQL),使用户能够通过类似于传统数据库的查询方式来处理大规模的结构化和半结构…