200美元的ChatGPT Pro正式上线,新模型草莓要来了
深夜10点,《The Information》发布了一则消息,透露OpenAI即将推出的新模型——“草莓”(Strawberry)。
两个小时后,我的好朋友@solitude,作为一个常年掌握一手资讯的人,告诉我ChatGPT Pro会员已经上线,售价为每月200美元,他已经第一时间付费订阅了。
我查看了一下自己的账户,果然什么都没有。
所以,就在他刚付完款,还没开始使用的时候,我就去获得了这份尊贵的Pro会员资格。
现在,ChatGPT的会员分为三个档次:Plus、Team和Pro。
这种分法让我觉得OpenAI似乎在模仿库克,会不会后面还会推出ChatGPT Pro Max呢……
但目前有点遗憾的是,Pro会员并没有新功能,也没有新模型,唯一的区别是,GPT-4o的使用次数几乎是无限的。经过短时间的测试,我已经进行了几百次请求,依然畅通无阻。
相比之下,对于ChatGPT Plus会员,GPT-4o的使用限制则是80条/3小时。
一个无限制的会员,自然无法与这个贵10倍的价格相匹配。OpenAI如果真这么做,那简直就像是奥特曼被马斯克夺舍了。
结合《The Information》的消息,我们可以基本确认,ChatGPT Pro会员是为即将推出的新模型“草莓”准备的。
想要使用草莓的人,应先开通200美元的Pro会员。
草莓究竟是什么,目前没有明确的答案,但根据我掌握的信息,草莓可能是基于新范式的自我对弈强化学习(Self-play RL)所构建的,具有强大的数学和代码能力,并能够自主为用户执行浏览器或系统操作。
草莓将更智能、更慢、更贵。
我尽量用最简单的语言向大家解释一下这个新的草莓到底是什么,以及凭什么售价200美元每月。
首先,需提到GPT-5的训练遇到了一些问题。
据我所知,GPT-5的训练过程并不顺利。
以数据规模和模型规模为美的“大力出奇迹”方法,边际收益开始递减,已不再是百试百灵的模式。
大语言模型的Scaling Law描述了模型性能L、模型参数量N、训练数据量D以及计算量C之间的关系。通常,随着计算量、模型参数和数据量的增加,模型性能会显著提升,从而在语言理解和生成等任务上表现更佳。
然而,现在计算量、参数规模和数据量都遭遇瓶颈,尤其是闭源模型的进步速度与过去相比明显放缓,开源模型与闭源模型之间的能力差异也逐渐减小。
这意味着单靠“大力出奇迹”已无法提升模型能力。
因为本质上,所有的大模型训练都是对人类已有知识的极致利用。我们给出数据以及人类反馈或标注数据等,模型并不是通过自我探索去“发现”语言规律,而是直接从我们提供的信息中提取有用的内容。
这就像一个学生,一开始通过不断背书提高成绩,但到了一定程度后,已有的书籍数量已不够,成绩也达到了上限,再怎么死记硬背也难以取得更大的进步。这就是现今所面临的困境。
首先,现有知识的量级已不够。
其次,所有知识都是直接背诵的,而不是自己从零开始探索的。因此,大模型所学的仅仅是相关性,而非因果性。
相关性与因果性这两个词的解释非常简单。
相关性:如果你发现每次带伞时天都会下雨,那就是相关性。伞和下雨看似有关系,但实际上带伞并不会导致下雨。
因果性:下雨才导致你带伞,这就是因果性,因为下雨导致你带伞。
这就是为什么当你让模型作复杂推理时,要求它写出推理过程,它往往逻辑混乱,错误频出,正是这个原因。
模型就像是一个了解很多事实的学霸,但可能并不真正理解这些事实背后的原理和因果关系。
例如,如果你问一个只会死记硬背的学生:“为什么苹果会落到地上?”他可能立即回答:“因为有重力。”
但如果你继续追问:“那重力是什么?为什么会有重力?”他可能就无法给出深入的解释。
现在的大模型与此无异。它们可以告诉你地球是圆的,但可能无法真正解释为什么地球是圆的,或其形状对我们的生活有什么影响。
它们学到的只是“地球”和“圆”这两个词经常一起出现,具有强相关性,而不是理解地球为什么会是圆的这种因果关系。
相关性告诉你两件事总是发生在一起,而因果性则告诉你为什么它们会一起发生。
因此,我们需要新的方法和新范式来突破这一局限。
而这一解决方案,目前我观察到OpenAI、Google、Anthropic、Ilya等人的共识是:
自我对弈强化学习(Self-play RL)。
虽然这个概念听起来复杂,但其实可以用一个简单的比喻来理解:一个孩子学习下围棋。
现在大模型的学习方式是什么?它们通过棋谱学习,记住开局和固定战术。它们看到了大量数据,知道许多可能的解法,但并不真正理解为什么要这样下棋。
而自我对弈强化学习则是让孩子不断与自己对弈。刚开始效果可能不理想,但通过不断尝试和观察每一步棋的结果,逐渐会发现有效的策略,并明白哪些走法会导致失败。
这个过程中,孩子不仅仅是在记单词,而是在真正理解棋局的变化,理解为什么每一步棋要这样走。
这就是从相关性学习到因果性学习的飞跃。
这是否听起来熟悉?
这就是2017年轰动一时的AlphaGo Zero。
那时,AlphaGo在乌镇以3:0击败柯洁,轰动全球。
而AlphaGo Zero是AlphaGo的进阶版本。
官方是这样形容AlphaGo Zero的:
“刚开始时,AlphaGo Zero技术水平较低,甚至会出现自杀性的错误。
3小时后,AlphaGo Zero成功掌握围棋的基本规则。
36小时后,AlphaGo Zero已经掌握了所有基本且重要的围棋知识,以100:0的战绩,击败了曾击败李世乭的AlphaGo v18版本。
21天后,AlphaGo Zero达到了Master级别,也就是年初在网络上取得60连胜的版本,Master最终击败了柯洁。
40天后,AlphaGo Zero对阵Master的胜率达到90%,也就是说,AlphaGo Zero成为无人可敌的最强围棋AI。”
这就是自我对弈强化学习的强大威力。
自我对弈强化学习让AI不断自我对弈,可能是下棋,也可能是解决数学问题,甚至进行对话。
在此过程中,AI不仅是在重复已知的内容,而是在主动探索、尝试和学习。
与大模型的学习方式形成鲜明对比:大模型是将“死记硬背”发挥到极致,而自我对弈强化学习则是将“自我成长”发挥到极限。
数据依然如故,只不过一个是人给的,一个是自己造出来的。
通过人给的内容进行死记硬背,你永远无法成为超越人类的超级AI,但如果是自主学习,那将有巨大的可能。
围棋和Dota2两个领域,已经证明了这一点。
而大模型与自我对弈强化学习的结合,代表了大模型不断与自己对弈,获得反馈后优化模型权重,然后再继续对弈。
得益于大模型的自身能力,在自我对弈的过程中,反馈不仅仅是最终结果。这种奖励反馈,在提升AI推理能力上有很大局限。
因为不同于围棋和Dota2这类特定任务,大模型的能力实在过于泛化。我们需要更多的因果关系,而不仅仅是结果。
对于大模型来说,可以使用“思维链”,让AI记录推理过程中每一步的思考过程。然后对每一步进行评分,让AI意识到每个推理步骤的优劣。这种方式让AI不仅学会如何给出正确答案,还能改进整个推理过程,从而理解真正的因果关系。
甚至,在大模型的能力之下,还可以进行语言评价。这就像你做作业时,老师不仅给你评分,还会写下评论,告诉你哪些地方做得好,哪些地方需要改进。显然,这比单纯知道一个分数要有价值得多。
每一次学习都是从推理过程中获得宝贵反馈。
当模型回答一个复杂问题时,它就进行了一种类似自我对弈的过程。模型会生成多个可能的思路,然后评估这些思路的质量,选择最佳方案。
在国外的独角兽公司文章中,曾有过一个计算,若一个百亿参数的大模型使用自我对弈的方式生成思路,每次生成32个思路,每个思路含5个步骤,整个任务消耗接近100K token,约合6美元。
又贵又慢,但确实聪明。
最佳数据会被保存,并在特定周期内对模型进行迭代,以实现持续进化。
因此,在草莓的曝光中提到:
“草莓与其他模型的最大不同在于它可以在响应之前进行‘思考’,而不是立即回答查询,这个思考阶段通常持续10到20秒。”
而我们在文章一开始就看到,ChatGPT Pro会员的价格为200美元每月。
推理成本,确实很高。
这正是典型的在“大力出奇迹”方式边际效应递减情况下,采用推理成本来换取训练成本,继续对模型进行迭代。
这也是为什么OpenAI一直在说,草莓是为下一代大模型合成数据所准备的,因为它正是自我对弈强化学习的载体。
所以回过头来看,草莓可能是什么?
是基于新范式自我对弈强化学习构建的,具备极强数学和代码能力,并能够自主为用户执行浏览器或系统操作的新模型。
更智能、更慢、更贵。
最后,为什么草莓在数学和代码能力上表现得如此强大?
这个答案很简单。
因为数学和代码的结果易于验证,能够明确给出结果。数学不必多说,至于代码,能否运行便是验证的标准。
因此,这两个领域必定是最先取得飞跃的。
Claude 3.5的强大代码能力就是得益于自我对弈强化学习的实现。
几天前与一位从事AI的朋友交流时,他表示:
“我们通往AGI的道路上,已经没有任何阻碍。”
在沉寂近一年后,我们可能即将迎来一个全新的大模型技术爆发周期。
真的。
我,拭目以待。