GPT-4o mini一手测评:懂得不多,但答得极快

 

GPT-4o mini 的核心特色在于一个字——「快」。

昨晚,OpenAI 突然推出了新模型 GPT-4o mini,声称要全面取代 GPT-3.5 Turbo。

在性能方面,GPT-4o mini 在 MMLU 基准测试中的得分为 82%,而在 LMSYS 排行榜的聊天方面,其得分优于 GPT-4。

在价格方面,GPT-4o mini 的商用定价仅为每百万输入 token 15 美分,每百万输出 token 60 美分,比之前的最先进模型便宜了一个数量级,省下了超过 60% 的费用。

OpenAI 表示,从周四开始,ChatGPT 的免费版、Plus 版和 Team 用户将能够访问 GPT-4o mini(其知识截至 2023 年 10 月),以取代 GPT-3.5 Turbo,企业用户将在下周开始使用。

目前,GPT-4o mini 在 WildBench 测试中排名第九,表现优于谷歌的 Gemini-flash 和 Anthropic 的 Claude 3 Haiku。

在今天凌晨发布的文章中,我们已经介绍了一些关于 GPT-4o mini 的基本信息(参见《GPT-4o Mini 深夜突发:即刻免费上线,API 降价 60%》)。在这篇文章中,我们将进一步补充模型的实际使用体验以及参与研究的团队。

**GPT-4o mini 一手评测**

在 GPT-4o mini 开放测试初期,我们向其提出了一个近期热门话题,询问“9.11和9.9哪个更大”,遗憾的是,GPT-4o mini 依然无法准确回答,反而一本正经地表示 0.11 > 0.9。

接下来,我们在 Poe(Quora 开发的应用程序,已集成 GPT-4o mini)中输入了有关人物传记电影《Eno》的设计封面,让两个模型进行解读,结果 GPT-4o mini 直接表示“自己认不出照片上的人”。

相比之下,GPT-4o 的回答则较为准确:“这张图片看起来像是一幅拼贴画,由多张照片的碎片组合而成,其中包含一位留着白胡子、身穿亮粉色衬衫的老人。照片由同一张图的不同部分创造性地排列,呈现出马赛克或拼图般的效果。图片中的男子表情若有所思,手抚摸着脸颊。”

随后,我们又测试了另一个问题:在客厅的桌子上放着一个杯子,杯子里有一个戒指。这个杯子被移到了书房的桌子上, затем又移到了卧室的床上。在卧室,杯子被翻倒一次后又恢复了原样,最后杯子被放回了客厅的桌子上。那么,现在戒指在哪里呢?单独询问时,两者的答案不同,而GPT-4o似乎表现得更聪明。

然而,当我们将问题一起提问时,它们的答案又变得相似。

在数学问题的回答上,机器之心用丘成桐少年班2024年的选拔试题测试了 GPT-4o mini 的解题能力。

虽然 GPT-4o mini 对问题的理解较为清晰,但在分析过程中出现了一些逻辑错误,像是课堂上听不懂依然强行作答的学生一样。

不过不必过于担心,因为GPT-4o的回答有时更不理想,甚至未能理解数字代表正方形的一条边。

在文字总结能力方面,GPT-4o mini 与 GPT-4o 的表现相当。两者都能够提取关键信息,但 GPT-4o 的结构更为清晰。

不过,作为一款主打“日常任务更快速”的 GPT-4o mini,其响应速度确实称得上“快”。与其对话几乎无需等候,输出速度也极快。

日本网友使用 GPT-4o mini 搭建了一款 AI 聊天机器人,响应速度依然让人惊讶。

还有网友将 GPT-4o 和 GPT-4o mini 的输出速度进行对比,显然后者更为迅速。

综合来看,GPT-4o mini 确实主打“快”这个字,但其实际使用体验仍有待提升。

**作者介绍**

随着 GPT-4o mini 的发布,很多人感到OpenAI再一次带来了惊喜。实际上,背后是一群年轻的学者,其中不乏华人的身影。

GPT-4o mini 项目的负责人是 Mianna Chen。她于去年12月加入OpenAI,此前在谷歌DeepMind担任产品主管。Mianna在普林斯顿大学获得学士学位,2020年获得宾夕法尼亚大学沃顿商学院的MBA学位。

该项目的其他领导者包括 Jacob Menick、Kevin Lu、Shengjia Zhao、Eric Wallace、Hongyu Ren、Haitang Hu、Nick Stathas 和 Felipe Petroski Such。

Kevin Lu 是 OpenAI 的一名研究员,于2021年毕业于加州大学伯克利分校。他曾与强化学习专家 Pieter Abbeel 等人研究强化学习和序列建模。

Shengjia Zhao 于2022年6月加入,是 OpenAI 的一名研究科学家,负责 ChatGPT 的相关研究。他的主要方向是大语言模型的训练与校准。此前,他于清华大学完成本科教育,随后在斯坦福大学获得博士学位。

Hongyu Ren 在去年7月加入OpenAI,现为研究科学家,并在GPT-4o项目中发挥了核心作用,致力于GPT-Next的研究。Hongyu 本科毕业于北京大学,博士毕业于斯坦福大学,曾在苹果、谷歌、英伟达和微软等公司工作。

Haitang Hu 于去年9月加入OpenAI,曾在谷歌任职。他本科毕业于同济大学,并在霍普金斯大学获得硕士学位。

**Karpathy:模型变小是自然趋势**

此次OpenAI推出的是GPT-4的衍生模型,因此很多人会问:GPT-5何时会来?

目前尚无官方消息来解答这个问题。不过,OpenAI及其他AI巨头纷纷推出小模型的趋势显而易见,小模型正变成新的竞争焦点。

OpenAI创始成员Karpathy对此表示:“LLM模型大小竞争正在加剧,但趋势是向相反方向发展。我敢打赌,我们将会看到相当小的模型,它们思考得非常好,而且非常可靠。甚至GPT-2的参数设置,很可能会让大多数人觉得GPT-2非常智能。”

Karpathy指出,当前模型之所以如此庞大,是因为训练过程存在一定的浪费——我们要求LLM记住互联网上的所有内容,令人惊讶的是,它们确实能做到,例如背诵常用数字的SHA哈希值或回忆一些冷门的事实。实际上,LLM在记忆方面远胜于人类,有时只需一次更新便能长时间记住许多细节。

然而,想象一下,如果你要参加闭卷考试,试卷要求你根据前述几句话背诵互联网上的任意一段。这样的要求正是当前模型的(预)训练目标。想要更好地完成这个任务,面临的挑战在于训练数据中思考方式与知识的交织。

因此,模型需要先变大,才能再变小,因为我们需要它们(自动化)的帮助,重构和生成理想的训练数据格式。这是一个改进的过程——一个模型辅助生成下一个模型的训练数据,直到形成“完美的训练集”。可以想象,当用GPT-2进行训练时,按照今天的标准,它会成为一个相当强大、智能的模型。虽然在MMLU(大规模多任务语言理解)中的得分可能略低,因为它未必能完美记住全部细节,但在准确性方面也许偶尔需要查找确保信息的正确性。

Karpathy表示,未来的小模型将越来越多、越来越好用。我们期待这个领域竞争的激烈程度。

 

标签



热门标签