刚刚,OpenAI震撼发布o1大模型!强化学习突破LLM推理极限

### 大模型领域技术再突破,OpenAI推出全新o1系列

从今天起,大模型领域的技术发展再次“从1开始”。大语言模型有望继续向上突破,OpenAI再次证明了自身的实力。

北京时间9月13日午夜,OpenAI正式公布一系列全新AI大模型,专门用于解决复杂难题。这一重大突破使得新模型具备了复杂推理能力,能够解决比之前的科学、代码和数学模型更具挑战性的问题。

OpenAI表示,今天推出的o1-preview是这一系列中的第一款模型,此外,OpenAI还展示了正在开发中的下次更新。

#### o1模型的强大表现

o1模型创造了多个历史记录。首先,o1是OpenAI一直在“高调宣传”的草莓大模型,具备真正的通用推理能力。在一系列高难度基准测试中,o1展现出了超强实力,较GPT-4o有了显著提升,让大模型的能力从“难以期待”提升至优秀水平,甚至在没有专门训练的情况下就能在数学奥赛中获得金牌,超越博士级别的科学问答。

奥特曼表示,尽管o1的表现仍有不足,但用户在首次使用时会感到震撼。

有趣的是,o1模仿了AlphaGo的成功案例,证明了在大模型领域中,随着算力的增强,输出的智能亦随之提升,直到超越人类水平。这种方法首次有效地将强化学习引入语言模型。

开发出首个AI软件工程师Devin的Cognition AI表示,过去几周与OpenAI密切合作,使用Devin评估o1的推理能力,发现o1系列在处理代码方面是一次重大的进步。

#### o1的实际应用

上线后,o1使得ChatGPT在回答问题之前可以深入思考,而非即刻作答。这一变化类似于人类大脑的系统1(快速、自动、直观)与系统2(缓慢、深思熟虑)。这一进化使得ChatGPT能够解决之前无法处理的问题。

从今天ChatGPT的用户体验来看,这是一次小步前进。在简单的提示下,用户可能不会注意到太大的差异;但面对棘手的数学或代码问题时,二者之间的区别将变得明显。更为重要的是,未来发展的道路已经开启。

总之,今晚OpenAI发布的这一重磅消息震撼了整个AI社区,专家们纷纷表示“太厉害了”,“夜不能寐”,急忙开始学习。接下来,让我们深入了解OpenAI o1大模型的技术细节。

### OpenAI o1的工作原理

在技术博客《Learning to Reason with LLMs》中,OpenAI对o1系列语言模型进行了详细介绍。o1是经过强化学习训练的全新语言模型,旨在执行复杂推理任务。其特点在于,o1在回答之前需要进行深入思考——它会在响应用户之前生成一条长长的内部思维链。

这一过程类似于人类思考,o1模型需要花费更多时间思考问题,并在训练中完善自己的思维过程,尝试不同的策略,识别并纠正错误。

在OpenAI的测试中,此系列后续更新的模型在物理、化学和生物学等具有挑战性的任务上的表现与博士生相似,尤其在数学和编码领域表现出色。

例如,在国际数学奥林匹克(IMO)资格考试中,GPT-4o仅正确解答了13%的问题,而o1模型的正确率达到了83%。在编码能力方面,该模型在Codeforces比赛中排名89%。

不过,作为早期模型,o1仍不具备ChatGPT的许多实用功能,例如浏览网页内容以及上传文件和图片。但在复杂推理任务上,o1的表现已经代表了人工智能能力的新水平,因此OpenAI将这一系列模型重启命名为OpenAI o1。

重点在于,OpenAI的大规模强化学习算法教会了模型如何利用其思维链进行高效的思考,类似于强化学习的Scaling Law。OpenAI发现,随着更多强化学习和思考时间的增加,o1的性能持续提升。这种扩展方法的限制与普通的模型预训练有很大不同,OpenAI还在继续研究中。

### 评估结果

为了突显o1相对于GPT-4o在推理性能上的提升,OpenAI在一系列人类考试和机器学习基准测试中评估了o1模型。实验结果显示,在绝大多数推理任务中,o1的表现明显优于GPT-4o。

o1在具有挑战性的推理基准上表现出色,其成绩在54/57的MMLU子类别中均有提升,并在许多推理密集型测试中表现可与人类专家相媲美。OpenAI还在AIME数学考试中对o1进行了评估,o1模型在每个问题的一次样本中平均正确率达到了74%,而在64个样本的一致性表现上则达到了83%。

在2024年AIME考试中,GPT-4o只解决了12%(1.8/15)的问题,而o1在每个问题中仅有一个样本的情况下,平均解决率为74%(11.1/15),在利用学习的评分函数对1000个样本进行重新排序时,得分达到93%(13.9/15),可跻身全美前500名,并高于美国数学奥林匹克的分数线。

除此之外,在GPQA Diamond基准上,o1也超越了人类专家的表现,成为第一个在该基准测试中做到这一点的模型。

### 思维链(CoT)与编程能力

与人类在回答难题之前会长时间思考类似,o1在尝试解决问题时会使用思维链。通过强化学习,o1学会磨练思维链并改进策略,能够识别和纠正错误,将棘手的步骤分解为更简单的步骤,并在当前方法无效时尝试不同的解法。这一过程极大地提升了模型的推理能力。

在编程能力方面,经过专门训练的o1-model在2024年国际信息学奥林匹克竞赛中获得了213分,达到了前49%的水平,并且这些竞赛的条件与2024 IOI的人类参赛者一致——在10个小时内解答6个高难度问题,每个问题最多只能提交50次。

通过大规模的智能选择策略对多个候选答案进行采样,o1模型的策略比单纯随机提交答案显著有效。如果对每个问题允许提交10000次,即使不使用智能选择策略,模型得分也可达到362.14分,具备金牌的水平。

OpenAI还模拟了Codeforces的编程竞赛,评估模型的编码技能。o1的Elo评分达到了1807,超越了93%的竞争者。

### 人类偏好评估与安全问题

除了考试和学术基准外,OpenAI还在多个领域的开放问题上评估了人类对o1-preview与GPT-4o的偏好。在数据分析、编程和数学等推理能力较强的领域,人们更青睐o1-preview。然而在某些自然语言任务中,o1-preview并未展现出明显的优势,显示出其并不适合所有场景。

思维链推理则为安全和对齐提供了新的思路。OpenAI发现,把模型行为策略整合到思维链中,可以有效地向模型传授人类价值观和原则,增强模型的稳健性。

OpenAI在部署前进行了多项安全测试与红队评估,结果显示思维链推理有助于提升整个评估过程中的能力,尤其在处理安全规则时尤其显著。

### OpenAI o1-mini

OpenAI此次还推出了o1-mini,旨在为开发者提供一种更高效的解决方案。o1-mini适合编程任务,速度更快且成本更低,相比o1-preview价格降低80%。

o1-mini是一个小型模型,在预训练期间针对STEM推理进行了优化,在成本效率方面有显著提升。虽然在某些非STEM事实知识的任务上表现不佳,但它在需要智能和推理的基准测试中与o1-preview和o1的表现相当。

### 如何使用OpenAI o1?

ChatGPT Plus和Team用户将很快能够在ChatGPT中使用o1模型,用户可以手动选择使用o1-preview或o1-mini。每位用户每周对o1-preview的消息发送次数限制为30条,对o1-mini则为50条。

即便如此,OpenAI正在努力提升这些使用限制。目前,企业版和教育版用户要到下周才能使用这两个模型,而API用户在消费超过1000美元及付费超过一个月后方可开始使用。

OpenAI还表示,未来将增加网络浏览、文件上传等功能,进一步提升这些模型的实用性,并希望继续开发并发布GPT系列模型。

### 参考资料
– [OpenAI官网 – o1模型介绍](https://openai.com/index/introducing-openai-o1-preview/)
– [OpenAI官网 – o1-mini介绍](https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/)
– [OpenAI官网 – 学习推理与LLMs](https://openai.com/index/learning-to-reason-with-llms/)
– [推特](https://x.com/sama/status/1834283100639297910)

—— 完——

标签



热门标签