ChatGPT 即将在数学方面取得更大进步

OpenAI 的研究人员发表了一篇论文,证明过程监督(对推理的每个步骤提供反馈)比结果监督(仅对最终结果提供反馈)可以产生更可靠的 AI 模型。该研究专注于数学推理,模型对具有挑战性的MATH 数据集中的问题解决方案进行排名。

OpenAI 的语言模型经常受到批评,并因其糟糕的数学能力而成为笑柄。虽然 GPT-3.5 和 GPT-4 在语言理解方面表现出了显著的进步,但它们的数学技能仍然有很多不足之处。要构建真正的智能系统,数学推理至关重要,而数学推理的缺陷会损害其他领域的可信度。然而,该公司最新的研究探索了过程监督在数学推理中的应用,这将解决这个问题,而且影响的远不止是模型的数学技能。

他们的方法是使用单个固定模型(生成器)为每个问题生成大量潜在解决方案,然后评估每个奖励模型执行最佳 N 搜索的能力。有趣的结果是,不仅过程监督的奖励模型始终优于结果监督的同类模型,而且随着对每个问题评估更多解决方案,这种性能差距也会扩大。这清楚地强调了过程监督模型在这个数学试验场中的卓越可靠性。

结果监督仅提供最终答案是对是错的反馈。因此,模型可能会产生不可靠的推理,而这种推理恰好会得出正确的结果。过程监督通过对每个步骤提供精确的反馈来解决这个问题,直接训练模型遵循人类认可的逻辑推理。这有助于确保模型不会产生不良行为,即使它们取得了良好的结果。

除了性能提升之外,过程监督对 AI 对齐还有关键好处。它通过鼓励逐步推理来产生更多可解释的解决方案。它还避免奖励使用错误逻辑但猜出正确答案的模型。研究人员认为,过程监督可以减轻模型中的幻觉和逻辑错误。

通过让模型专注于人们可以遵循和信任的逻辑推理步骤,过程监督可能会产生具有基本合理判断能力的人工智能——这种判断可以巩固人类思维并允许开放式学习。这种技术有助于确保模型从一开始就发展推理能力和公平判断,而不是事后批评或希望得到“正确”的结果。

OpenAI 还发布了包含 80 万个步骤级标签的完整数据集,以鼓励进一步研究流程监督和可靠的推理模型。迄今为止,他们的研究结果令人鼓舞,表明流程监督可以催生出既能力强大又与人类推理一致的 AI 系统。如果这些发现能够推广到数学问题之外,那么流程监督可能是开发复杂、多步骤领域可信 AI 的关键。


好啦,今天就到这里,如果你也想在体验ChatGPT4.0

具有GPT4对话、DALL·E3绘画、GPT4V看图助手。

可以点击下方红色链接进行使用。

https://chatgp4.com

标签



热门标签