200美元的ChatGPT Pro正式上线，新模型草莓要来了

管理员 9 月 12, 2024 582 0

深夜10点，《The Information》发布了一则消息，透露OpenAI即将推出的新模型——“草莓”（Strawberry）。

两个小时后，我的好朋友@solitude，作为一个常年掌握一手资讯的人，告诉我ChatGPT Pro会员已经上线，售价为每月200美元，他已经第一时间付费订阅了。

我查看了一下自己的账户，果然什么都没有。

所以，就在他刚付完款，还没开始使用的时候，我就去获得了这份尊贵的Pro会员资格。

现在，ChatGPT的会员分为三个档次：Plus、Team和Pro。

这种分法让我觉得OpenAI似乎在模仿库克，会不会后面还会推出ChatGPT Pro Max呢……

但目前有点遗憾的是，Pro会员并没有新功能，也没有新模型，唯一的区别是，GPT-4o的使用次数几乎是无限的。经过短时间的测试，我已经进行了几百次请求，依然畅通无阻。

相比之下，对于ChatGPT Plus会员，GPT-4o的使用限制则是80条/3小时。

一个无限制的会员，自然无法与这个贵10倍的价格相匹配。OpenAI如果真这么做，那简直就像是奥特曼被马斯克夺舍了。

结合《The Information》的消息，我们可以基本确认，ChatGPT Pro会员是为即将推出的新模型“草莓”准备的。

想要使用草莓的人，应先开通200美元的Pro会员。

草莓究竟是什么，目前没有明确的答案，但根据我掌握的信息，草莓可能是基于新范式的自我对弈强化学习（Self-play RL）所构建的，具有强大的数学和代码能力，并能够自主为用户执行浏览器或系统操作。

草莓将更智能、更慢、更贵。

我尽量用最简单的语言向大家解释一下这个新的草莓到底是什么，以及凭什么售价200美元每月。

首先，需提到GPT-5的训练遇到了一些问题。

据我所知，GPT-5的训练过程并不顺利。

以数据规模和模型规模为美的“大力出奇迹”方法，边际收益开始递减，已不再是百试百灵的模式。

大语言模型的Scaling Law描述了模型性能L、模型参数量N、训练数据量D以及计算量C之间的关系。通常，随着计算量、模型参数和数据量的增加，模型性能会显著提升，从而在语言理解和生成等任务上表现更佳。

然而，现在计算量、参数规模和数据量都遭遇瓶颈，尤其是闭源模型的进步速度与过去相比明显放缓，开源模型与闭源模型之间的能力差异也逐渐减小。

这意味着单靠“大力出奇迹”已无法提升模型能力。

因为本质上，所有的大模型训练都是对人类已有知识的极致利用。我们给出数据以及人类反馈或标注数据等，模型并不是通过自我探索去“发现”语言规律，而是直接从我们提供的信息中提取有用的内容。

这就像一个学生，一开始通过不断背书提高成绩，但到了一定程度后，已有的书籍数量已不够，成绩也达到了上限，再怎么死记硬背也难以取得更大的进步。这就是现今所面临的困境。

首先，现有知识的量级已不够。

其次，所有知识都是直接背诵的，而不是自己从零开始探索的。因此，大模型所学的仅仅是相关性，而非因果性。

相关性与因果性这两个词的解释非常简单。

相关性：如果你发现每次带伞时天都会下雨，那就是相关性。伞和下雨看似有关系，但实际上带伞并不会导致下雨。

因果性：下雨才导致你带伞，这就是因果性，因为下雨导致你带伞。

这就是为什么当你让模型作复杂推理时，要求它写出推理过程，它往往逻辑混乱，错误频出，正是这个原因。

模型就像是一个了解很多事实的学霸，但可能并不真正理解这些事实背后的原理和因果关系。

例如，如果你问一个只会死记硬背的学生：“为什么苹果会落到地上？”他可能立即回答：“因为有重力。”

但如果你继续追问：“那重力是什么？为什么会有重力？”他可能就无法给出深入的解释。

现在的大模型与此无异。它们可以告诉你地球是圆的，但可能无法真正解释为什么地球是圆的，或其形状对我们的生活有什么影响。

它们学到的只是“地球”和“圆”这两个词经常一起出现，具有强相关性，而不是理解地球为什么会是圆的这种因果关系。

相关性告诉你两件事总是发生在一起，而因果性则告诉你为什么它们会一起发生。

因此，我们需要新的方法和新范式来突破这一局限。

而这一解决方案，目前我观察到OpenAI、Google、Anthropic、Ilya等人的共识是：

自我对弈强化学习（Self-play RL）。

虽然这个概念听起来复杂，但其实可以用一个简单的比喻来理解：一个孩子学习下围棋。

现在大模型的学习方式是什么？它们通过棋谱学习，记住开局和固定战术。它们看到了大量数据，知道许多可能的解法，但并不真正理解为什么要这样下棋。

而自我对弈强化学习则是让孩子不断与自己对弈。刚开始效果可能不理想，但通过不断尝试和观察每一步棋的结果，逐渐会发现有效的策略，并明白哪些走法会导致失败。

这个过程中，孩子不仅仅是在记单词，而是在真正理解棋局的变化，理解为什么每一步棋要这样走。

这就是从相关性学习到因果性学习的飞跃。

这是否听起来熟悉？

这就是2017年轰动一时的AlphaGo Zero。

那时，AlphaGo在乌镇以3:0击败柯洁，轰动全球。

而AlphaGo Zero是AlphaGo的进阶版本。

官方是这样形容AlphaGo Zero的：

“刚开始时，AlphaGo Zero技术水平较低，甚至会出现自杀性的错误。

3小时后，AlphaGo Zero成功掌握围棋的基本规则。

36小时后，AlphaGo Zero已经掌握了所有基本且重要的围棋知识，以100:0的战绩，击败了曾击败李世乭的AlphaGo v18版本。

21天后，AlphaGo Zero达到了Master级别，也就是年初在网络上取得60连胜的版本，Master最终击败了柯洁。

40天后，AlphaGo Zero对阵Master的胜率达到90%，也就是说，AlphaGo Zero成为无人可敌的最强围棋AI。”

这就是自我对弈强化学习的强大威力。

自我对弈强化学习让AI不断自我对弈，可能是下棋，也可能是解决数学问题，甚至进行对话。

在此过程中，AI不仅是在重复已知的内容，而是在主动探索、尝试和学习。

与大模型的学习方式形成鲜明对比：大模型是将“死记硬背”发挥到极致，而自我对弈强化学习则是将“自我成长”发挥到极限。

数据依然如故，只不过一个是人给的，一个是自己造出来的。

通过人给的内容进行死记硬背，你永远无法成为超越人类的超级AI，但如果是自主学习，那将有巨大的可能。

围棋和Dota2两个领域，已经证明了这一点。

而大模型与自我对弈强化学习的结合，代表了大模型不断与自己对弈，获得反馈后优化模型权重，然后再继续对弈。

得益于大模型的自身能力，在自我对弈的过程中，反馈不仅仅是最终结果。这种奖励反馈，在提升AI推理能力上有很大局限。

因为不同于围棋和Dota2这类特定任务，大模型的能力实在过于泛化。我们需要更多的因果关系，而不仅仅是结果。

对于大模型来说，可以使用“思维链”，让AI记录推理过程中每一步的思考过程。然后对每一步进行评分，让AI意识到每个推理步骤的优劣。这种方式让AI不仅学会如何给出正确答案，还能改进整个推理过程，从而理解真正的因果关系。

甚至，在大模型的能力之下，还可以进行语言评价。这就像你做作业时，老师不仅给你评分，还会写下评论，告诉你哪些地方做得好，哪些地方需要改进。显然，这比单纯知道一个分数要有价值得多。

每一次学习都是从推理过程中获得宝贵反馈。

当模型回答一个复杂问题时，它就进行了一种类似自我对弈的过程。模型会生成多个可能的思路，然后评估这些思路的质量，选择最佳方案。

在国外的独角兽公司文章中，曾有过一个计算，若一个百亿参数的大模型使用自我对弈的方式生成思路，每次生成32个思路，每个思路含5个步骤，整个任务消耗接近100K token，约合6美元。

又贵又慢，但确实聪明。

最佳数据会被保存，并在特定周期内对模型进行迭代，以实现持续进化。

因此，在草莓的曝光中提到：

“草莓与其他模型的最大不同在于它可以在响应之前进行‘思考’，而不是立即回答查询，这个思考阶段通常持续10到20秒。”

而我们在文章一开始就看到，ChatGPT Pro会员的价格为200美元每月。

推理成本，确实很高。

这正是典型的在“大力出奇迹”方式边际效应递减情况下，采用推理成本来换取训练成本，继续对模型进行迭代。

这也是为什么OpenAI一直在说，草莓是为下一代大模型合成数据所准备的，因为它正是自我对弈强化学习的载体。

所以回过头来看，草莓可能是什么？

是基于新范式自我对弈强化学习构建的，具备极强数学和代码能力，并能够自主为用户执行浏览器或系统操作的新模型。

更智能、更慢、更贵。

最后，为什么草莓在数学和代码能力上表现得如此强大？

这个答案很简单。

因为数学和代码的结果易于验证，能够明确给出结果。数学不必多说，至于代码，能否运行便是验证的标准。

因此，这两个领域必定是最先取得飞跃的。

Claude 3.5的强大代码能力就是得益于自我对弈强化学习的实现。

几天前与一位从事AI的朋友交流时，他表示：

“我们通往AGI的道路上，已经没有任何阻碍。”

在沉寂近一年后，我们可能即将迎来一个全新的大模型技术爆发周期。

真的。

我，拭目以待。

200美元的ChatGPT Pro正式上线，新模型草莓要来了

标签

近期文章

友情链接

归档

分类

热门标签

标签

相关推荐

近期文章

友情链接

归档

分类

热门标签