万万没想到,ChatGPT参数只有200亿?
这合理吗?
谁也没有预料到,ChatGPT 的核心秘密竟然通过微软的方式被透露出来。
昨天晚上,许多讨论人工智能的微信群被一篇 EMNLP 论文及其截图炸醒。微软的论文《CodeFusion: A Pre-trained Diffusion Model for Code Generation》揭示了重要信息:ChatGPT 仅是一个拥有 20B(200 亿)参数的模型,这一消息引发了广泛关注。
距 ChatGPT 发布已接近一年,但 OpenAI 一直未揭示其技术细节。由于模型表现强大,公众对其参数量、训练数据等信息充满了疑问和猜测。
作为行业中的标杆,ChatGPT 的强大性能能解决诸多问题,而其前身 GPT-3 的参数量则高达 1750 亿,然而经过实用化处理后,ChatGPT 的规模却被 OpenAI 大幅缩减至约 20B,这究竟合不合理呢?
关于“如何看待这篇论文”的话题立刻冲上了知乎热榜。
论文链接:[EMNLP 2023 论文](https://arxiv.org/abs/2310.17680)
具体而言,微软的这篇论文提出了一种名为 CodeFusion 的预训练代码生成扩散模型,其参数量为 75M。在实验比较部分,论文表 1 明确指出 ChatGPT 的参数量为 20B。
微软和 OpenAI 的合作已经持续多年,而这篇论文发表在 EMNLP 2023,因此大家推测这一数据很可能是真实的。然而,对于 ChatGPT 参数量的猜测,公众普遍认为应该是一个庞大的数字,毕竟 GPT-3 的参数量已达到 175B(1750 亿),难道开创大型语言模型(LLM)浪潮的 ChatGPT 只有 20B 的参数?
此消息在知乎和 Twitter 引发了广泛讨论。毕竟,能够以 200 亿参数实现如此表现实属惊人,特别是在国内竞争对手都有数百亿、上千亿的参数规模下。
此数据的真实性如何?大家又有什么看法呢?
知名 NLP 博主、新浪微博新技术研发负责人张俊林对此进行了“盲猜”分析,并获得了广泛认同:
他提出两种可能性:
**可能性一**:OpenAI 已经看到 Chinchilla 的论文,并依据其所述原则设计模型。假设 ChatGPT 的训练数据量在 2.5T tokens 以上,根据龙猫法则,训练数据量除以 20 应为最优参数量,推算出 ChatGPT 的模型大小约在 120B 左右。
**可能性二**:在设计 ChatGPT 时,OpenAI 还未接收到 Chinchilla 的信息,因此仍依照自己的 Scaling Law 进行模型和数据设计。如果训练数据量仍为 2.5T,依照他们的方法推算,模型大小应在 190 到 200B 左右。
大概率情况下,ChatGPT 推出时模型大小在 200B 左右,因而初始表现较慢且费用高昂。OpenAI 此后进行了升级,价格降低至原价的十分之一。如果仅依靠参数量化,是不太可能如此大幅度压缩的。
目前的结论是,大模型采用量化压缩到 4 到 6 bit 是合理的,这样效果可保持在一定水平。因此,OpenAI 可能通过升级将模型从原有大小压缩至约 120B,接近一半,并可能引入 4bit 量化,大幅提高推理速度。
基于这种设想,ChatGPT 的训练数据量可能不低于 2.5T,而许多新模型正在追求通过增加数据量来提升表现,这与大多数技术趋势一致。
然而,如果确认 20B 的参数量属实,这是否会意味着未来的大型语言模型改进不再单纯依靠增加参数量呢?
不久后,将迎来 OpenAI 的开发者大会,我们期待能够获取更多有价值的信息。