GPT-4o mini一手测评：懂得不多，但答得极快

管理员 11 月 10, 2024 412 0

GPT-4o mini 的核心特色在于一个字——「快」。

昨晚，OpenAI 突然推出了新模型 GPT-4o mini，声称要全面取代 GPT-3.5 Turbo。

在性能方面，GPT-4o mini 在 MMLU 基准测试中的得分为 82%，而在 LMSYS 排行榜的聊天方面，其得分优于 GPT-4。

在价格方面，GPT-4o mini 的商用定价仅为每百万输入 token 15 美分，每百万输出 token 60 美分，比之前的最先进模型便宜了一个数量级，省下了超过 60% 的费用。

OpenAI 表示，从周四开始，ChatGPT 的免费版、Plus 版和 Team 用户将能够访问 GPT-4o mini（其知识截至 2023 年 10 月），以取代 GPT-3.5 Turbo，企业用户将在下周开始使用。

目前，GPT-4o mini 在 WildBench 测试中排名第九，表现优于谷歌的 Gemini-flash 和 Anthropic 的 Claude 3 Haiku。

在今天凌晨发布的文章中，我们已经介绍了一些关于 GPT-4o mini 的基本信息（参见《GPT-4o Mini 深夜突发：即刻免费上线，API 降价 60%》）。在这篇文章中，我们将进一步补充模型的实际使用体验以及参与研究的团队。

**GPT-4o mini 一手评测**

在 GPT-4o mini 开放测试初期，我们向其提出了一个近期热门话题，询问“9.11和9.9哪个更大”，遗憾的是，GPT-4o mini 依然无法准确回答，反而一本正经地表示 0.11 > 0.9。

接下来，我们在 Poe（Quora 开发的应用程序，已集成 GPT-4o mini）中输入了有关人物传记电影《Eno》的设计封面，让两个模型进行解读，结果 GPT-4o mini 直接表示“自己认不出照片上的人”。

相比之下，GPT-4o 的回答则较为准确：“这张图片看起来像是一幅拼贴画，由多张照片的碎片组合而成，其中包含一位留着白胡子、身穿亮粉色衬衫的老人。照片由同一张图的不同部分创造性地排列，呈现出马赛克或拼图般的效果。图片中的男子表情若有所思，手抚摸着脸颊。”

随后，我们又测试了另一个问题：在客厅的桌子上放着一个杯子，杯子里有一个戒指。这个杯子被移到了书房的桌子上， затем又移到了卧室的床上。在卧室，杯子被翻倒一次后又恢复了原样，最后杯子被放回了客厅的桌子上。那么，现在戒指在哪里呢？单独询问时，两者的答案不同，而GPT-4o似乎表现得更聪明。

然而，当我们将问题一起提问时，它们的答案又变得相似。

在数学问题的回答上，机器之心用丘成桐少年班2024年的选拔试题测试了 GPT-4o mini 的解题能力。

虽然 GPT-4o mini 对问题的理解较为清晰，但在分析过程中出现了一些逻辑错误，像是课堂上听不懂依然强行作答的学生一样。

不过不必过于担心，因为GPT-4o的回答有时更不理想，甚至未能理解数字代表正方形的一条边。

在文字总结能力方面，GPT-4o mini 与 GPT-4o 的表现相当。两者都能够提取关键信息，但 GPT-4o 的结构更为清晰。

不过，作为一款主打“日常任务更快速”的 GPT-4o mini，其响应速度确实称得上“快”。与其对话几乎无需等候，输出速度也极快。

日本网友使用 GPT-4o mini 搭建了一款 AI 聊天机器人，响应速度依然让人惊讶。

还有网友将 GPT-4o 和 GPT-4o mini 的输出速度进行对比，显然后者更为迅速。

综合来看，GPT-4o mini 确实主打“快”这个字，但其实际使用体验仍有待提升。

**作者介绍**

随着 GPT-4o mini 的发布，很多人感到OpenAI再一次带来了惊喜。实际上，背后是一群年轻的学者，其中不乏华人的身影。

GPT-4o mini 项目的负责人是 Mianna Chen。她于去年12月加入OpenAI，此前在谷歌DeepMind担任产品主管。Mianna在普林斯顿大学获得学士学位，2020年获得宾夕法尼亚大学沃顿商学院的MBA学位。

该项目的其他领导者包括 Jacob Menick、Kevin Lu、Shengjia Zhao、Eric Wallace、Hongyu Ren、Haitang Hu、Nick Stathas 和 Felipe Petroski Such。

Kevin Lu 是 OpenAI 的一名研究员，于2021年毕业于加州大学伯克利分校。他曾与强化学习专家 Pieter Abbeel 等人研究强化学习和序列建模。

Shengjia Zhao 于2022年6月加入，是 OpenAI 的一名研究科学家，负责 ChatGPT 的相关研究。他的主要方向是大语言模型的训练与校准。此前，他于清华大学完成本科教育，随后在斯坦福大学获得博士学位。

Hongyu Ren 在去年7月加入OpenAI，现为研究科学家，并在GPT-4o项目中发挥了核心作用，致力于GPT-Next的研究。Hongyu 本科毕业于北京大学，博士毕业于斯坦福大学，曾在苹果、谷歌、英伟达和微软等公司工作。

Haitang Hu 于去年9月加入OpenAI，曾在谷歌任职。他本科毕业于同济大学，并在霍普金斯大学获得硕士学位。

**Karpathy：模型变小是自然趋势**

此次OpenAI推出的是GPT-4的衍生模型，因此很多人会问：GPT-5何时会来？

目前尚无官方消息来解答这个问题。不过，OpenAI及其他AI巨头纷纷推出小模型的趋势显而易见，小模型正变成新的竞争焦点。

OpenAI创始成员Karpathy对此表示：“LLM模型大小竞争正在加剧，但趋势是向相反方向发展。我敢打赌，我们将会看到相当小的模型，它们思考得非常好，而且非常可靠。甚至GPT-2的参数设置，很可能会让大多数人觉得GPT-2非常智能。”

Karpathy指出，当前模型之所以如此庞大，是因为训练过程存在一定的浪费——我们要求LLM记住互联网上的所有内容，令人惊讶的是，它们确实能做到，例如背诵常用数字的SHA哈希值或回忆一些冷门的事实。实际上，LLM在记忆方面远胜于人类，有时只需一次更新便能长时间记住许多细节。

然而，想象一下，如果你要参加闭卷考试，试卷要求你根据前述几句话背诵互联网上的任意一段。这样的要求正是当前模型的（预）训练目标。想要更好地完成这个任务，面临的挑战在于训练数据中思考方式与知识的交织。

因此，模型需要先变大，才能再变小，因为我们需要它们（自动化）的帮助，重构和生成理想的训练数据格式。这是一个改进的过程——一个模型辅助生成下一个模型的训练数据，直到形成“完美的训练集”。可以想象，当用GPT-2进行训练时，按照今天的标准，它会成为一个相当强大、智能的模型。虽然在MMLU（大规模多任务语言理解）中的得分可能略低，因为它未必能完美记住全部细节，但在准确性方面也许偶尔需要查找确保信息的正确性。

Karpathy表示，未来的小模型将越来越多、越来越好用。我们期待这个领域竞争的激烈程度。

GPT-4o mini一手测评：懂得不多，但答得极快

标签

近期文章

友情链接

归档

分类

热门标签

标签

相关推荐

近期文章

友情链接

归档

分类

热门标签