突发!OpenAI发布最强模型o1:博士物理92.8分,IOI金牌水平
OpenAI推出o1系列新模型,引发关注
来了来了!刚刚,OpenAI新模型无预警发布:
**o1系列**,一种可以进行通用复杂推理的新模型,每次回答花费更长时间思考。
在解决博士水平的物理问题时,GPT-4o的成绩为“不及格”的59.5分,而o1的表现一跃达到“优秀档”的92.8分。
没错,传说中的“草莓”终于与大家见面了!
OpenAI的CEO奥特曼表示,这是一种新范式的开始:能够进行通用复杂推理的人工智能。
具体而言,o1系列是OpenAI首个经过强化学习训练的模型,输出回答之前会生成一个较长的思维链,以增强模型的推理能力。
换句话说,内部思维链越长,o1花费的思考时间越久,对推理任务的表现就越佳。
那么,o1到底有多强呢?CEO奥特曼给出了答案:
在刚刚结束的2024 IOI信息学奥赛中,o1的微调版本在每题尝试50次的情况下取得了213分,位列人类选手的前49%。如果允许它每道题尝试10000次,分数将达到362.14分,超过金牌选手门槛,可以获得金牌。
此外,它在竞争性编程问题(Codeforces)中排名前89%,在美国数学奥林匹克(AIME)预选赛中也跻身美国前500名学生之列。
与GPT-4o相比,o1在数理化、生物、英语、法律和经济等多个学科均有显著成绩提升。
根据官方发布的信息,这次突然上线的o1系列分为三个型号:
1. **o1**:新的大模型天花板,因其强大而暂时不对外公开。
2. **o1-preview**:o1的早期版本,将优先提供给ChatGPT Plus付费用户和API用户。
3. **o1-mini**:速度更快、性价比更高,适合需要推理但不需广泛世界知识的任务。
不少OpenAI员工将o1系列与之前的模型对比,使用“系统1”和“系统2”的思维模式来做科普,甚至长期休假的总裁Brockman也“诈尸”回归。
思维链提示方法的原作者Jason Wei表示,这一次不是单纯依赖提示来完成思维链,而是运用强化学习训练模型,以优化其链式思考能力。
在深度学习的历史上,人们一直在努力扩展训练阶段的计算,而思维链则是自适应计算的一种形式,现在也能在推理时实现扩展。
新模型的表现更像人类,能将复杂的步骤分解为简单的步骤,识别和纠正错误,并尝试不同的方法。
### o1:AI能力的新高峰
通过训练,o1模型不仅学会完善自己的思维过程,还会尝试不同的策略,识别自身的错误。
不过,作为早期模型,它尚不具备ChatGPT的许多有用功能,例如联网搜索以及上传文件和图像。然而,对于复杂的推理任务而言,这是一个重大的进步,OpenAI称其代表了人工智能的最高水平。
基于此决策,OpenAI将计数器重置,并将这一系列模型命名为OpenAI o1。随着强化学习和思考时间的增加,o1的性能将不断提升,从而产生新的Scaling Law。
值得注意的是,这种方法的Scaling受到的限制与普通预训练有着明显不同,OpenAI仍在持续研究这一领域。
o1的思考过程是怎样的?我们可以从官网示例中的Bash脚本编写任务中找到答案。
首先,作为对比,GPT-4o会直接开始编写代码,通常会导致错误的结果。而o1-preview则会首先理解问题,并复述一遍要求,随后拆解问题,明确最终目标。
接下来,它会给自己定义任务,分析限制条件,列出所需方法,并将任务进一步细分为明确的小步骤。最终,它才会动手编写代码,确保一次性得到正确的结果。
OpenAI表示,o1系列可以帮助医疗研究人员注释细胞测序数据,帮助物理学家生成量子光学所需的复杂数学公式,各个领域的开发者都能利用o1构建并执行多步骤的工作流程。而这一切并非空口无凭,OpenAI已邀请相关领域的人类专家体验一波。
例如,马克思普朗克研究所的量子物理学者Mario Krenn展示了GPT-4o无法解决但o1-preview正确完成的复杂量子物理问题。
除了考试和学术基准外,团队还评估了人们对o1-preview与GPT-4o在开放性问题上的偏好。在数据分析、编码和数学等推理密集类任务中,o1-preview显著优于GPT-4o。然而,在某些自然语言任务上,o1-preview并不是最佳选择,这表明其用途并不适合所有场景。
OpenAI科学家Noam Brown分享了其个人测试的更详细结果。在上个月的ACL会议上,有一个当时所有大模型都无法解决的逻辑难题,而o1-preview能够答对,o1的完全版几乎每次尝试都能做对。
目前,o1在思考上花费的时间从几秒到十几秒不等,但OpenAI的未来改进方向并不是缩短这一时间,而是争取让未来的版本能够思考几个小时、几天甚至几周。推理成本将更高,但你愿意为一种新的抗癌药物支付多少钱?为了电池的突破、黎曼猜想的证明,又愿意付出多少?
人工智能不仅仅是聊天机器人。
### 谁能够体验o1?
根据OpenAI的官方说法,ChatGPT Plus和Team用户将最早在几个小时内体验到o1系列模型。在发布时,o1-preview限制为每周30条消息,o1-mini每周50条消息。API访问权限将首先提供给Tier 5级用户,也就是在OpenAI API上花费超过1000美元的人。
OpenAI正在努力提高这些访问速率,并计划让ChatGPT能够根据给定的提示自动选择合适的模型。
快打开ChatGPT,看看你是否是第一批尝鲜的人吧!