突发！OpenAI发布最强模型o1：博士物理92.8分，IOI金牌水平

管理员 9 月 15, 2024 341 0

OpenAI推出o1系列新模型，引发关注

来了来了！刚刚，OpenAI新模型无预警发布：

**o1系列**，一种可以进行通用复杂推理的新模型，每次回答花费更长时间思考。

在解决博士水平的物理问题时，GPT-4o的成绩为“不及格”的59.5分，而o1的表现一跃达到“优秀档”的92.8分。

没错，传说中的“草莓”终于与大家见面了！

OpenAI的CEO奥特曼表示，这是一种新范式的开始：能够进行通用复杂推理的人工智能。

具体而言，o1系列是OpenAI首个经过强化学习训练的模型，输出回答之前会生成一个较长的思维链，以增强模型的推理能力。

换句话说，内部思维链越长，o1花费的思考时间越久，对推理任务的表现就越佳。

那么，o1到底有多强呢？CEO奥特曼给出了答案：

在刚刚结束的2024 IOI信息学奥赛中，o1的微调版本在每题尝试50次的情况下取得了213分，位列人类选手的前49%。如果允许它每道题尝试10000次，分数将达到362.14分，超过金牌选手门槛，可以获得金牌。

此外，它在竞争性编程问题（Codeforces）中排名前89%，在美国数学奥林匹克（AIME）预选赛中也跻身美国前500名学生之列。

与GPT-4o相比，o1在数理化、生物、英语、法律和经济等多个学科均有显著成绩提升。

根据官方发布的信息，这次突然上线的o1系列分为三个型号：

1. **o1**：新的大模型天花板，因其强大而暂时不对外公开。
2. **o1-preview**：o1的早期版本，将优先提供给ChatGPT Plus付费用户和API用户。
3. **o1-mini**：速度更快、性价比更高，适合需要推理但不需广泛世界知识的任务。

不少OpenAI员工将o1系列与之前的模型对比，使用“系统1”和“系统2”的思维模式来做科普，甚至长期休假的总裁Brockman也“诈尸”回归。

思维链提示方法的原作者Jason Wei表示，这一次不是单纯依赖提示来完成思维链，而是运用强化学习训练模型，以优化其链式思考能力。

在深度学习的历史上，人们一直在努力扩展训练阶段的计算，而思维链则是自适应计算的一种形式，现在也能在推理时实现扩展。

新模型的表现更像人类，能将复杂的步骤分解为简单的步骤，识别和纠正错误，并尝试不同的方法。

### o1：AI能力的新高峰

通过训练，o1模型不仅学会完善自己的思维过程，还会尝试不同的策略，识别自身的错误。

不过，作为早期模型，它尚不具备ChatGPT的许多有用功能，例如联网搜索以及上传文件和图像。然而，对于复杂的推理任务而言，这是一个重大的进步，OpenAI称其代表了人工智能的最高水平。

基于此决策，OpenAI将计数器重置，并将这一系列模型命名为OpenAI o1。随着强化学习和思考时间的增加，o1的性能将不断提升，从而产生新的Scaling Law。

值得注意的是，这种方法的Scaling受到的限制与普通预训练有着明显不同，OpenAI仍在持续研究这一领域。

o1的思考过程是怎样的？我们可以从官网示例中的Bash脚本编写任务中找到答案。

首先，作为对比，GPT-4o会直接开始编写代码，通常会导致错误的结果。而o1-preview则会首先理解问题，并复述一遍要求，随后拆解问题，明确最终目标。

接下来，它会给自己定义任务，分析限制条件，列出所需方法，并将任务进一步细分为明确的小步骤。最终，它才会动手编写代码，确保一次性得到正确的结果。

OpenAI表示，o1系列可以帮助医疗研究人员注释细胞测序数据，帮助物理学家生成量子光学所需的复杂数学公式，各个领域的开发者都能利用o1构建并执行多步骤的工作流程。而这一切并非空口无凭，OpenAI已邀请相关领域的人类专家体验一波。

例如，马克思普朗克研究所的量子物理学者Mario Krenn展示了GPT-4o无法解决但o1-preview正确完成的复杂量子物理问题。

除了考试和学术基准外，团队还评估了人们对o1-preview与GPT-4o在开放性问题上的偏好。在数据分析、编码和数学等推理密集类任务中，o1-preview显著优于GPT-4o。然而，在某些自然语言任务上，o1-preview并不是最佳选择，这表明其用途并不适合所有场景。

OpenAI科学家Noam Brown分享了其个人测试的更详细结果。在上个月的ACL会议上，有一个当时所有大模型都无法解决的逻辑难题，而o1-preview能够答对，o1的完全版几乎每次尝试都能做对。

目前，o1在思考上花费的时间从几秒到十几秒不等，但OpenAI的未来改进方向并不是缩短这一时间，而是争取让未来的版本能够思考几个小时、几天甚至几周。推理成本将更高，但你愿意为一种新的抗癌药物支付多少钱？为了电池的突破、黎曼猜想的证明，又愿意付出多少？

人工智能不仅仅是聊天机器人。

### 谁能够体验o1？

根据OpenAI的官方说法，ChatGPT Plus和Team用户将最早在几个小时内体验到o1系列模型。在发布时，o1-preview限制为每周30条消息，o1-mini每周50条消息。API访问权限将首先提供给Tier 5级用户，也就是在OpenAI API上花费超过1000美元的人。

OpenAI正在努力提高这些访问速率，并计划让ChatGPT能够根据给定的提示自动选择合适的模型。

快打开ChatGPT，看看你是否是第一批尝鲜的人吧！

突发！OpenAI发布最强模型o1：博士物理92.8分，IOI金牌水平

标签

近期文章

友情链接

归档

分类

热门标签

标签

相关推荐

近期文章

友情链接

归档

分类

热门标签