解码 OpenAI 的 o1 系列大型语言模型

ops/2024/9/22 17:28:27/

OpenAI 表示,其 Strawberry 项目已升级为新的大型语言模型 (LLM) 系列,公司将其命名为 OpenAI o1。

该公司表示,新系列模型还包括一个 o1-mini 版本,以提高成本效益,可根据其推理能力与最新的GPT-4o 模型进行区分。

该公司在一篇博客文章中写道:

我们开发了一系列新的人工智能模型,旨在花更多时间思考后再做出反应。它们可以推理复杂的任务,解决比以前的科学、编码和数学模型更难的问题。这些模型目前处于预览阶段。

OpenAI 表示,下一次模型更新在物理、化学和生物学领域具有挑战性的基准任务上的表现与博士生相似,甚至在数学和编码方面表现出色。

在国际数学奥林匹克 (IMO) 资格考试中,GPT-4o 仅正确解决了 13% 的问题,而推理模型得分为 83%。他们的编码能力在比赛中得到了评估,并在 Codeforces 比赛中达到了第 89 个百分位。

OpenAI 表示,OpenAI o1 模型中的推理能力有望帮助解决科学、编码和数学等领域的复杂问题。

例如,医疗研究人员可以使用 o1 来注释细胞测序数据,物理学家可以使用 o1 来生成量子光学所需的复杂数学公式,各个领域的开发人员可以使用 o1 来构建和执行多步骤工作流程。

模型如何获得推理能力

新的 o1 模型系列的推理能力源自该公司的大规模强化学习算法,该算法教会模型如何在“高度数据高效的训练过程”中使用其“思路链”机制进行有效思考。

该公司在另一篇博客文章中表示:

我们发现,随着强化学习(训练时间计算)的增加和思考时间的增加(测试时间计算),o1 的性能会持续提高。与 LLM 预训练相比,这种方法具有很大不同的约束。

人工智能和生成式人工智能领域,专家表示,任何模型在训练期间都会尝试根据输入的训练数据重新排列或修改其参数,以减少错误,从而提高准确性。

相反,在测试期间,开发人员和研究人员将模型暴露于新数据,以衡量其性能以及它如何适应新的数据实例。

因此,对于新模型来说,它花在分析和解决问题上的时间越多,它学到的东西就越多,从而提高了其推理能力

这种学习是由模型的思路链算法激活的,其工作原理类似于人类在回答一个难题之前长时间思考的方式,通常将问题分解成更小的部分。

世界终于看到了推理时间扩展范式在生产中的普及和部署。

你不需要一个庞大的模型来进行推理。许多参数专门用于记忆事实,以便在琐事问答等基准测试中表现良好。可以从知识中分离出推理,即一个知道如何调用浏览器和代码验证器等工具的小型“推理核心。预训练计算可能会减少。

此外,OpenAI 肯定早就搞清楚了推理扩展定律,而学术界最近才发现这一点。不过,生产 o1 比确定学术基准要困难得多。

对于自然推理问题,模型如何决定何时停止搜索?奖励函数是什么?成功标准是什么?何时在循环中调用代码解释器之类的工具?如何将这些 CPU 进程的计算成本考虑在内?

OpenAI 也在一篇博客文章中表示,新模型仍处于开发的早期阶段,预计将进行重大迭代,目前还不具备ChatGPT的许多实用功能,例如浏览网页获取信息以及上传文件和图像。

对于许多常见情况,GPT-4o 将在短期内发挥更强大的作用。

OpenAI 隐藏了推理令牌

尽管新模型系列具有更好的推理能力,但 OpenAI 隐藏了模型的推理标记或思路链算法。

尽管该公司承认,公开思路链算法可以让企业了解模型的运作方式,以及是否有操纵用户的迹象,但它认为,直接向用户公开模型不一致的思路链或推理标记是没有帮助的。

干扰任何不一致的思路或推理标记都会对模型的运行产生违反直觉的影响,要准确理解模型的推理方式,它必须能够自由地以不变的形式表达其思想。

这就是为什么 OpenAI 无法将任何策略合规性或用户偏好训练到思想链上。

我们承认这个决定有缺点。我们努力通过教导模型在答案中重现思维链中的任何有用想法来部分弥补它。

英国程序员西蒙·威尔逊 (Simon Wilson) 对 OpenAI 的政策决定并不满意。他写道:“我可以运行一个复杂的提示,但隐藏了有关如何评估该提示的关键细节,这种想法感觉像是倒退了一大步。”

o1 模型的其他限制

Wilson 指出的有关推理令牌的另一个问题是,尽管推理令牌在 API 响应中不可见,但它们仍被计费并算作输出令牌。

技术角度来看,这意味着企业将不得不因为推理令牌而增加其提示预算。

由于推理令牌的重要性 - OpenAI 建议为受益于新模型的提示分配约 25,000 个令牌的预算 - 输出令牌限额已大幅增加 - o1-preview 为 32,768 个,而据称较小的 o1-mini 为 65,536 个。

这些输出令牌限额比 GPT-4O 和 GPT-4O-mini 模型有所增加,这两款模型目前都有 16,384 个输出令牌限制。

OpenAI 还建议企业对新模型以不同的方式使用检索增强生成 (RAG)。

与 RAG 目前的用法不同,RAG 的建议是尽可能多地塞入相关文档,而 OpenAI 建议,在新的模型中,用户应该只包含最相关的信息,以防止模型的响应过于复杂。

如何获得全新o1系列模型? 

从周四开始,ChatGPT Plus 和 Team 用户将能够访问 ChatGPT 中的 o1 模型。

该公司表示,o1-preview 和 o1-mini 都可以在模型选择器中手动选择,在发布时,o1-preview 的每周速率限制为 30 条消息,o1-mini 的每周速率限制为 50 条消息;正在努力提高这些速率并使 ChatGPT 能够根据给定的提示自动选择正确的模型。

另外,ChatGPT Enterprise 和 Edu 用户将从下周开始使用这两种模型。

Open AI 表示,符合 API 使用等级 5的开发人员可以从周四开始在 API 中使用这两种模型进行原型设计,速率限制为 20。

该公司表示:我们正在努力在进行额外测试后提高这些限制。这些模型的 API 目前不包括函数调用、流媒体、对系统消息的支持和其他功能,计划向所有 ChatGPT Free 用户提供 o1-mini 访问权限。


http://www.ppmy.cn/ops/111914.html

相关文章

裸金属服务器与云服务器的区别有哪些?

随着云计算服务的快速发展,云服务器与裸金属服务器则称为各大企业基础设施的两大核心选择,会运用在不同的场景当中,本文就来介绍一下裸金属服务器与云服务器的区别都有哪些吧! 裸金属服务器相对于云服务器来说有着卓越的性能&…

回溯-重新安排行程

1.排序 Collections.sort(list,(o1, o2)-> o1.get(0).compareTo(o2.get(0))); 2.返回值 3.往集合添加元素 Arrays.asList(元素) List<List<String>> list new ArrayList<>();List<String> path new ArrayList<>();// 将[["JFK"…

编译 Android 11源码

参考小米6 lineageos官方编译文档&#xff1a;https://wiki.lineageos.org/devices/sagit/build 单独编译 framework 以LineageOS18.1&#xff08;Android 11&#xff09;为例&#xff1a; 1、在源码根目录执行&#xff1a; make framework-minus-apex 2、用生成的framewo…

第L6周:机器学习-随机森林(RF)

&#x1f368; 本文为&#x1f517;365天深度学习训练营 中的学习记录博客&#x1f356; 原作者&#xff1a;K同学啊 目标&#xff1a; 1.什么是随机森林&#xff08;RF&#xff09; 随机森林&#xff08;Random Forest, RF&#xff09;是一种由 决策树 构成的 集成算法 &#…

Git+Jenkins 实战(一)(Practical Use of Git+Jenkins Part 1)

&#x1f49d;&#x1f49d;&#x1f49d;欢迎来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐:Linux运维老纪的首页…

web开发 之 HTML、CSS、JavaScript、以及JavaScript的高级框架Vue(学习版2)

一、前言 接下来就是来解决这些问题 二、 Ajax 1.ajax javscript是网页三剑客之一&#xff0c;空用来控制网页的行为的 xml是一种标记语言&#xff0c;是用来存储数据的 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-…

UVA-225 黄金图形 题解答案代码 算法竞赛入门经典第二版

GitHub - jzplp/aoapc-UVA-Answer: 算法竞赛入门经典 例题和习题答案 刘汝佳 第二版 一道不难的题目&#xff0c;即使不用什么剪枝方法&#xff0c;也不会超时&#xff0c;可以AC的。 但是题目有一些隐含条件&#xff08;或者说是我英语差一些&#xff0c;这道题的有些要求和题…

k8s环境搭建

创建一个新的model虚拟机&#xff0c;处理器为2&#xff0c;硬盘为40G 使用model主机克隆三台新的主机&#xff0c;名称分别为k8s_master&#xff0c;k8s_node01&#xff0c;k8s_node02&#xff0c;运行环境脚本&#xff0c;设置ip地址和名称&#xff0c;IP地址分别为66、77、…