OpenAI GPT-4o震撼登场:实时响应、全能交互的AI新体验、再登新峰!

news/2024/9/23 10:00:29/

OpenAI 刚刚发布了 GPT-4O.html" title=GPT-4o>GPT-4o,这是一种新的人工智能模式,集合了文本、图片、视频、语音的全能模型。 能实时响应用户的需求,并通过语音来实时回答你,你可以随时打断它。 还具有视觉能力,能识别物体并根据视觉做出快速的响应和回答,具有非常强的逻辑推理能力。 它的速度比 GPT4-turbo 快 2 倍,价格便宜 50%!

更详细的功能介绍和展示:https://openai.com/index/hello-gpt-4o/

AIGC专区:
https://heehel.com/category/aigc

更多消息:
https://heehel.com/category/ai-news

GPT-4O.html" title=GPT-4o>GPT-4o(“o”代表“o​​mni”即是“全能”)是迈向更自然的人机交互的一步——它接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出。它可以在短至 232 毫秒的时间内响应音频输入,平均为 320 毫秒,这与人类在对话中的响应时间相似。它在英语文本和代码上的性能与 GPT-4 Turbo 的性能相匹配,在非英语文本上的性能显着提高,同时 API 的速度也更快,成本降低了 50%。与现有模型相比,GPT-4O.html" title=GPT-4o>GPT-4o 在视觉和音频理解方面尤其出色。

GPT-4O.html" title=GPT-4o>GPT-4o 之前,您可以使用语音模式与 ChatGPT 对话,平均延迟为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)。为了实现这一目标,语音模式是由三个独立模型组成的管道:一个简单模型将音频转录为文本,GPT-3.5 或 GPT-4 接收文本并输出文本,第三个简单模型将该文本转换回音频。这个过程意味着主要智能来源GPT-4丢失了大量信息——它无法直接观察音调、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感。

GPT-4O.html" title=GPT-4o>GPT-4o 通过过滤训练数据和通过训练后细化模型行为等技术,在跨模式设计中内置了安全性。我们还创建了新的安全系统,为语音输出提供防护。

准备框架并符合我们的自愿承诺。我们对网络安全、CBRN、说服力和模型自主性的评估表明,GPT-4O.html" title=GPT-4o>GPT-4o 在这些类别中的任何类别中的得分都不高于中等风险。该评估涉及在整个模型训练过程中运行一套自动化和人工评估。我们使用自定义微调和提示测试了模型的安全缓解前和安全缓解后版本,以更好地激发模型功能。

社会心理学、偏见和公平以及错误信息等领域的外部专家,以确定新增加的模式引入或放大的风险。我们利用这些经验来制定安全干预措施,以提高与 GPT-4O.html" title=GPT-4o>GPT-4o 交互的安全性。我们将继续降低发现的新风险。

我们认识到 GPT-4O.html" title=GPT-4o>GPT-4o 的音频模式带来了各种新的风险。今天,我们公开发布文本和图像输入以及文本输出。在接下来的几周和几个月里,我们将致力于技术基础设施、培训后的可用性以及发布其他模式所需的安全性。例如,在发布时,音频输出将仅限于选择预设的声音,并将遵守我们现有的安全政策。我们将在即将发布的系统卡中分享有关 GPT-4O.html" title=GPT-4o>GPT-4o 全部模式的更多详细信息。

借助 GPT-4O.html" title=GPT-4o>GPT-4o,我们跨文本、视觉和音频端到端地训练了一个新模型,这意味着所有输入和输出都由同一神经网络处理。由于 GPT-4O.html" title=GPT-4o>GPT-4o 是我们第一个结合所有这些模式的模型,因此我们仍然只是浅尝辄止地探索该模型的功能及其局限性。

根据最新的基准测试结果,GPT-4O.html" title=GPT-4o>GPT-4o在文本、推理和编码智能方面达到了GPT-4 Turbo的性能水平,同时在多语言、音频和视觉功能方面取得了显著突破。

(图为GPT-4O.html" title=GPT-4o>GPT-4o手写体转录电子版)

GPT-4O.html" title=GPT-4o>GPT-4o作为一款全新的AI模型,为用户带来了诸多新功能:

用户体验全面升级:用户能够体验到GPT-4级别的智能,通过模型和网页获取即时响应,分析数据并创建图表,甚至讨论拍摄的照片。用户还能上传文件以获取摘要、写作或分析帮助,更便捷地利用GPTGPT商店的功能。GPT-4O.html" title=GPT-4o>GPT-4o的“记忆”功能也为用户构建了更为有帮助的交互体验。

强大的模型优势:GPT-4O.html" title=GPT-4o>GPT-4o作为最新的旗舰模型,不仅保持了GPT-4的智能水平,还在速度上有所提升,同时在文本、语音和视觉方面的能力得到了显著增强。

图像理解与讨论:GPT-4O.html" title=GPT-4o>GPT-4o在理解和讨论用户分享的图像方面表现卓越。用户可以通过拍摄不同语言的菜单与GPT-4O.html" title=GPT-4o>GPT-4o对话,以翻译、了解食物的历史和重要性,并获得推荐。

即将推出的语音模式:GPT-4O.html" title=GPT-4o>GPT-4o的未来改进将支持更自然的实时语音对话和通过实时视频与ChatGPT对话的能力。这一功能将在未来几周内以alpha版本推出,并首先向Plus用户提供早期访问。

详细功能演示请前往:OpenAI GPT-4O.html" title=GPT-4o>GPT-4o震撼登场:实时响应、全能交互的AI新体验、再登新峰!-喜好儿网 OpenAI 刚刚发布了 GPT-4O.html" title=GPT-4o>GPT-4o,这是一种新的人工智能模式,集合了文本、图片、视频、语音的全能模型。 能实时响应用户的需求,并通过语音来实时回答你,你可以随时打断它。 还具有视觉能力,能识别物体并根据视觉做出快速的响应和回答,具有非常强的逻辑推理能力。 它的速度比 GPT4-turbo 快 2 倍,价格便icon-default.png?t=N7T8https://heehel.com/aigc/openai-gpt-4o.html

在可用性和用户访问方面,GPT-4O.html" title=GPT-4o>GPT-4o展现了以下特点:

多语言支持:GPT-4O.html" title=GPT-4o>GPT-4o的语言能力在质量和速度上均有所改进,现在ChatGPT支持超过50种语言的注册、登录、用户设置等。

用户层次:GPT-4O.html" title=GPT-4o>GPT-4o目前正逐步向ChatGPT Plus和团队用户推出,企业用户也即将能够使用。同时,ChatGPT Free用户也将逐步获得GPT-4O.html" title=GPT-4o>GPT-4o的功能,但会有一定的使用限制。Plus用户的消息限制是Free用户的5倍,团队和企业用户则有更高的限制。

在增强智能与高级工具的普及方面,OpenAI致力于使先进的AI工具为尽可能多的人提供服务。GPT-4O.html" title=GPT-4o>GPT-4o的推出是实现这一目标的重要步骤之一。

在编码和数据分析能力方面,GPT-4O.html" title=GPT-4o>GPT-4o展现了强大的综合交互能力。它支持多模态输入与输出,可以整合文本、音频和图像输入,并生成相应的输出。这种设计显著提高了与计算机的自然交互能力。

在性能提升与成本效率方面,GPT-4O.html" title=GPT-4o>GPT-4o的音频输入响应时间极快,最低可达232毫秒,平均为320毫秒,与人类在对话中的响应时间相似。在API中,GPT-4O.html" title=GPT-4o>GPT-4o的速度是GPT-4 Turbo的两倍,成本降低了50%,且处理速率限制提高了5倍。

在语音模式的进步方面,GPT-4O.html" title=GPT-4o>GPT-4o通过单一模型端到端训练,处理所有输入和输出。这避免了信息丢失,使模型能直接处理语调、多个说话者或背景噪音等,并能输出笑声、唱歌或表达情感。

为了确保GPT-4O.html" title=GPT-4o>GPT-4o的安全性和可靠性,OpenAI进行了广泛的红队测试,与70多位外部专家合作,涵盖了社会心理学、偏见与公正、误信息等领域。OpenAI将继续发现并缓解新风险,以确保GPT-4O.html" title=GPT-4o>GPT-4o的稳定运行。

GPT-4O.html" title=GPT-4o>GPT-4o的部署和可用性计划是逐步推出的。目前,GPT-4O.html" title=GPT-4o>GPT-4o的文本和图像功能已在ChatGPT中推出。开发者现在也可以通过API访问作为文本和视觉模型的GPT-4O.html" title=GPT-4o>GPT-4o。新的音频和视频能力将在未来几周内向一小部分受信任的合作伙伴推出。

此外,OpenAI还为macOS推出了新的ChatGPT桌面应用程序,旨在无缝集成到用户的电脑操作中。用户可以通过简单的键盘快捷键(Option + Space)立即向ChatGPT提问,并在应用程序中直接进行截图、讨论以及语音和视频对话。

ChatGPT的用户界面也进行了改版,使其更加友好和会话化。用户将看到全新的主屏幕、消息布局等改进。

值得一提的是,GPT-4O.html" title=GPT-4o>GPT-4o之前曾在LMSys竞技场上进行了测试,其中一个版本被称为“im-also-a-good-gpt2-chatbot”。

Sam Altman在博客文章“GPT-4O.html" title=GPT-4o>GPT-4o”中强调了OpenAI的使命,即向用户提供强大而高效的AI工具,并且这些工具基本上是免费提供的,如ChatGPT,没有任何广告干扰。他提到,OpenAI最初的设想是创造AI,并利用它为世界带来种种益处。现在的情况更多的是,OpenAI创造AI后,其他人将使用这些AI创造出让所有人受益的惊人成果。尽管OpenAI是一家商业机构,但其在推动AI技术的普及和应用方面发挥了积极作用。


http://www.ppmy.cn/news/1461902.html

相关文章

使用html和css实现个人简历表单的制作

根据下列要求,做出下图所示的个人简历(表单) 表单要求 Ⅰ、表格整体的边框为1像素,单元格间距为0,表格中前六列列宽均为100像素,第七列 为200像素,表格整体在页面上居中显示; Ⅱ、前…

IP代理中的SOCKS5代理是什么?安全吗?

在互联网世界中,网络安全和个人隐私保护变得日益重要。SOCKS5代理作为一种安全高效的网络工具,不仅可以保护个人隐私安全,还可以提供更稳定、更快度的网络连接。本文将带大家深入了解SOCKS5代理在网络安全领域中的应用。 什么是SOCKS5代理 …

设计模式——备忘录模式(Memento)

备忘录模式(Memento Pattern),也称为快照模式或Token模式,是GoF(Gang of Four,四位设计模式专家)提出的23种设计模式之一,属于行为模式。该模式的主要目的是在不破坏封装性的前提下&…

react-native 渲染引擎经历了什么

React Native 的渲染引擎经历了多个迭代,不断优化和改进。以下是一些较为显著的迭代: 原生组件封装:最初的 React Native 版本是通过 JavaScript 渲染 UI,并通过桥接层将 UI 转化为原生组件。随着发展,React Native 开…

【C语言】5.C语言函数(1)

文章目录 1.函数的概念2.库函数2.1 标准库和头文件2.2 库函数的使⽤⽅法2.2.1 学习和使用2.2.2 头⽂件包含2.2.3库函数文档的一般格式 3.⾃定义函数3.1 函数的语法形式 4.形参和实参4.1 实参4.2 形参4.3 实参和形参的关系 5.return 语句6.数组做函数参数 1.函数的概念 函数也称…

git cherry-pick命令使用

git cherry-pick 是一个非常实用的Git命令,它允许你将一个或多个提交从一个分支复制并应用到另一个分支上,而不需要进行整个分支的合并。这对于只想将某些特定更改而非整个分支历史引入当前工作的情况非常有用。以下是使用 git cherry-pick 的基本步骤和…

Gini Impurity(基尼不纯度)

基尼不纯度:衡量集合的无序程度; 基尼不纯度 基尼不纯度:将来自集合的某种结果随机应用于某一数据项的预期误差率。 1、显然基尼不纯度越小,纯度越高,集合的有序程度越高,分类的效果越好; 2、…

线性回归学习笔记

学习了王天一博士的机器学习40讲,做个小总结: 1、机器学习中,回归问题隐含了输入变量和输出变量均可连续取值的前提。 2、单变量线性回归,所有样本到直线的欧氏距离之和最小,即均方误差最小化。 3、最小二乘法的几何意…