OpenAI 的思考 ChatGPT 的思考
OpenAI最新推出的模型o1宣称具备“推理”乃至“思考”的能力,然而这一说法并未获得广泛认可,其中包括著名怀疑论者Gary Marcus以及Hugging Face的CEO Clem Delangue。
德兰格在谈及OpenAI如何利用其最新模型所实现的目标来营造虚假印象时强调:“人工智能系统并非在‘思考’,而是在‘处理’、‘运行预测’,这与谷歌或计算机的工作方式无异。将技术系统伪装成人类,不过是种廉价的骗术和营销手段,让人误以为它比实际更智能。”
对此,菲利普·罗兹提出反驳:“其实,人类的大脑也并非在‘思考’,而是在大规模地执行一系列复杂的生物化学及生物电计算操作。”
那么,o1究竟是如何“思考”的呢?
OpenAI首席执行官Sam Altman将此发布视为“新范式的开端:能够执行通用复杂推理的人工智能”。与早期OpenAI模型在用户给出提示后立即生成文本不同,新模型在回应前需要一段时间来“思考”。而此次发布的亮点,除了编码和数学能力外,更在于其推理能力。奥特曼一直将“推理”和“思考”能力作为演讲中的重点,而现在,它似乎终于找到了正确的方向。
据“通过法学硕士学习推理”博客报道,OpenAI开发的强化学习算法通过数据高效的训练方法优化了模型的思维过程,从而提升了其思考效率。
随着时间推移,“o1”的性能会随着训练时间和思考时间的增加而提升。这与传统的LLM(大型语言模型)预训练有所不同,后者更注重模型规模的扩大,而非专注于通过小型模型来增强推理能力。
通过强化学习,o1能够分解复杂问题、纠正错误并在必要时尝试新方法,从而增强了其推理能力。这极大地提升了其处理复杂提示的能力,这些提示不仅需要预测下一个单词,还能回溯并“思考”整个任务。
然而,一个关键的挑战在于,尽管用户需要为此付费(这些费用被称为“推理令牌”),但模型的推理过程对用户而言仍然是隐藏的。OpenAI解释称,隐藏推理步骤主要出于两个原因:一是出于安全和政策合规的考虑,因为模型需要自由处理,而不会暴露敏感的中间步骤;二是为了通过阻止其他模型使用其推理工作来保持竞争优势。这一隐藏过程允许OpenAI监控模型的思维模式,而不会干扰其内部推理。
并非适用于所有人,重点在于推理。正如Jim Fan所解释的那样,这种“Strawberry”或o1模型标志着生产中推理时间扩展的重大转变,这一概念侧重于通过搜索而不仅仅是学习来提高推理能力。
推理并不依赖于大型模型。当前模型中的许多参数都用于记忆琐碎基准测试的事实。相反,推理可以由较小的“推理核心”来处理,该核心与浏览器或代码验证器等外部工具进行交互。
这种方法减少了对大量预训练计算的需求。现在,很大一部分计算资源被专门用于推理,而非预训练或后训练。LLM模拟各种策略,类似于AlphaGo使用蒙特卡洛树搜索(MCTS)的方式。随着时间的推移,随着模型收敛到最佳策略,这将带来更好的解决方案。
Subbarao Kambhampati也在其帖子中对此进行了解释。OpenAI可能很早就发现了推理扩展的好处,而学术研究直到最近才赶上。
虽然在基准测试中表现出色,但将o1部署到现实世界的推理任务中仍存在挑战。确定何时停止搜索、定义奖励函数以及管理代码解释等过程的计算成本都是需要解决的复杂问题,才能实现更广泛的部署。
o1可以充当数据飞轮,正确答案会生成训练数据,并附带正负奖励。这个过程会随着时间的推移改进推理核心,类似于AlphaGo的价值网络通过MCTS生成的数据进行自我完善。这最终将创造出更有价值的数据。
因此,我们可以说,ChatGPT现在正在“思考”。这也是为什么当你花更多时间与它交互时,它会表现得更好。而OpenAI似乎并不太关心速度问题。