OpenAI 的函数调用和 GPT 的未来
OpenAI 首席执行官 Sam Altman 曾多次表示,该公司目前没有开发 GPT-5。虽然这让很多人感到意外,但一旦你从当前的 AI 炒作周期中抽身出来,就会开始明白其中道理。与许多竞争对手不同,OpenAI 已经知道如何训练在自然语言方面表现出色的最先进模型。这也让他们敏锐地意识到大型语言模型 (LLM) 的诸多当前局限性,并非常熟悉支配它们的缩放定律。
一般来说,LLM 可以用 4 个参数来表征:模型的大小、训练数据集的大小、训练成本、训练后的性能。这四个变量中的每一个都可以精确地定义为实数,并且根据经验发现它们通过简单的统计定律相关联,称为“缩放定律”。(来源:维基百科)
他们并没有急于发布 GPT-5,而是专注于学习如何从这些模型中获取最大收益,并填补需要克服的空白,以更接近通用人工智能 (AGI)。为了理解他们为什么会采取这种方法,让我先介绍一些背景。
根据开发过程中使用的技术,我们可以将人工智能模型分为两类:神经/联结人工智能(擅长模式识别等任务)和符号人工智能(擅长计算等任务)。
神经/联结主义 AI:这种 AI 方法基于人工神经网络,其灵感来自大脑的结构和功能。神经 AI 通过调整网络中的权重和偏差来从数据中学习,以减少预测中的错误。它们特别擅长涉及模式识别的任务,例如图像或语音识别、自然语言处理以及许多其他可以在大量数据中找到复杂模式的任务。它们不遵循明确的规则,而是以一种隐式的方式从示例中学习。像 GPT 这样的法学硕士就属于这一类。
符号 AI:这是 AI 的经典方法,可以追溯到 20 世纪中叶。符号 AI 基于对符号的操纵——用于表示现实世界各个方面的抽象实体。它包括将规则应用于知识库以推断新信息的专家系统,并且它通常用于涉及明确推理的任务,例如解决数学方程式或下棋。符号 AI 系统遵循程序员定义的明确规则和决策树,非常适合逻辑清晰、范围明确的任务。例如,Google 的知识图谱就使用了符号 AI。
两种技术都有各自的优点和缺点。最有可能的是,创建 AGI 的道路将涉及多种技术的结合,包括符号 AI 和 LLM 等新方法。
那么 OpenAI 正在研究什么呢?
他们广受欢迎的 GPT-3.5 Turbo 和 GPT-4 模型的最新更新的头条新闻是一项新的函数调用功能,这可能预示着我们与他们的 LLM 交互方式的重大变化。
重要的是,要将这一发展视为当前 AI 领域必要范式转变的一部分。这一转变涉及将 LLM 不仅视为独立的工具,还视为:
- 更大系统内的智能组件可以精确、高效地完成复杂任务。
- 作为可以管理、协调和与其他工具交互以完成复杂任务的协调器。
通过将 GPT 用作大型系统的一部分或作为管理其他工具的协调器,我们可以弥补其固有的局限性,同时最大限度地发挥其优势。是的,GPT 模型在理解和生成类似人类的文本方面表现出色,支持从起草电子邮件到创建书面内容、回答查询甚至编程协助等各种应用。然而,它们在以下方面存在困难:
- 显式推理和计算:GPT 没有内置计算引擎,缺乏显式计算能力。它无法像计算器或人类那样理解数学运算。当它似乎在执行计算时,这只是因为它在训练数据中看到了类似的模式并学会了复制它们。
- 没有错误纠正机制:GPT 没有纠正错误或根据事实来源验证其结果的机制。如果在计算中犯了错误,它无法识别或纠正。
- 对世界的理解:GPT 没有一致或连贯的世界模型。它根据训练数据中看到的模式生成输出,而不是基于对世界运作方式的理解。
- 解释和可解释性:GPT 的工作原理可能相当不透明——通常很难理解它为什么会做出特定的预测。
- 一致性:由于 GPT 根据其训练数据中的模式生成输出,因此它可能对类似的问题,甚至是在不同时间提出的同一问题产生不一致的答案。
但是,如果我们可以通过提供 GPT 工具来添加这些功能,或者通过将其集成到具有专用计算引擎的更大的系统中,情况会怎样?
毕竟,人类智慧的天才之处不在于我们知道一切,而在于我们能够利用工具(例如写作、计算机和语言本身)扩展我们的认知。
事实上,这种在未来人工智能系统中使用 LLM 的思维方式反映了人类自然的运作方式。
正如人类擅长抽象思维、直觉和语言任务一样,法学硕士在人工智能领域的类似任务上也表现出色。然而,当涉及到复杂的计算或逻辑推理任务时,我们经常依赖外部工具——计算器用于复杂的数学运算,计算机用于数据分析,甚至纸笔用于解决逻辑问题。
同样,虽然 LLM 可以处理涉及语言和模式识别的任务,但它们可能会从将涉及明确推理或复杂计算的任务“外包”给更适合这些任务的其他系统中受益。这种方法与我们人类倾向于使用最佳工具来完成手头的任务的倾向相似,从而导致系统能够更有效、更高效地处理各种任务。
这似乎是 OpenAI 希望通过 GPT 的新函数调用功能实现的愿景。
借助此次更新,该公司的最新模型现在可以解释用户定义的函数并随后生成 JSON 对象。该 JSON 对象由用户的输入塑造而成,充当函数的“行动号召”,从而实现与外部工具和 API 的顺畅有效集成。GPT 现在可以选择调用特定 API 来收集数据、与数据库交互以检索信息或与其他数字工具交互以执行各种任务。
这种新方法最令人兴奋的潜在应用之一是将 GPT 与符号 AI 系统或Wolfram Engine等强大的计算工具相结合。
首先,想象一个用户向 GPT-4 询问一个复杂的数学问题,而 GPT 的能力天生就有限。借助新的函数调用能力,GPT-4 可以通过其 API 将数学问题传递给 Wolfram Engine,接收计算出的答案,并以人性化的语言将其返回给用户。用户不需要知道如何编写 Wolfram 语言,甚至不需要知道 Wolfram 参与了这个过程。GPT-4 充当智能的对话界面,隐藏了与其他系统和 API 交互的复杂性。
这只是一个例子。原则上,函数调用功能可用于将 GPT-4 与任何 API 集成,使其能够与数据库、其他 AI 模型、Web 服务等进行交互。此功能极大地扩展了 GPT-4 的功能,将其从独立的 AI 模型转变为能够协调其他工具执行复杂任务的多功能工具。
除了开辟新的应用前景之外,函数调用功能还可能有助于解决围绕人工智能伦理、安全和协调的关键问题。例如,GPT 可以与旨在确保内容符合道德准则的外部系统进行交互,从而帮助消除偏见。或者,在提供可能敏感的答案之前,GPT 可以根据受信任的外部数据库(例如用于健康相关查询的医疗数据库)验证其响应。
这种方法可能对人工智能的未来产生深远影响。它提出了一种人工智能开发模型,即我们不是试图构建一个可以做所有事情的单一整体人工智能,而是创建一个由专门的工具和人工智能组成的网络,每个工具和人工智能都针对特定任务进行了优化。在这个模型中,像 GPT-4 这样的 LLM 充当了将这些工具结合在一起的粘合剂,将它们变成一个有凝聚力的整体,其价值大于各部分的总和。
我们可以将其视为 AI 开发的“生态系统”方法。就像在自然生态系统中一样,每个生物都扮演着特定的角色,系统的整体健康取决于这些角色之间的平衡和相互作用。同样,在 AI 生态系统中,每个工具或模型都会执行最适合的任务,而 LLM 将充当这些工具之间的接口,使它们能够无缝协作。
AGI 通常被设想为一个可以执行人类可以执行的任何智力任务的单一 AI 系统。但另一种看待它的方式是将其视为一个可以利用各种工具和资源来完成各种任务的系统。从这个角度来看,如果你是 OpenAI,你会不会专注于构建你的生态系统,而不是冲刺 GPT-5 的发布?
好啦,今天就到这里,如果你也想在体验ChatGPT4.0
具有GPT4对话、DALL·E3绘画、GPT4V看图助手。
可以点击下方红色链接进行使用。