GPT-4震撼发布:多模态大模型,直接升级ChatGPT、必应,开放API,游戏终结了?
ChatGPT 点燃了科技行业的明灯,GPT-4 能燎原吗?
谁能革得了 ChatGPT 的命?现在看来,仍然是 OpenAI 自己。
在 ChatGPT 引爆科技领域之后,人们一直在讨论 AI「下一步」的发展会是什么,许多学者提到了多模态。好消息是,我们并没有等太久。在今日凌晨,OpenAI 发布了多模态预训练大模型 GPT-4。
GPT-4 在几个方面实现了飞跃式提升:强大的识图能力、文本输入限制提升至 2.5 万字、回答准确性显著提高,以及能够生成歌词和创意文本,实现更丰富的风格变化。
OpenAI 工程师在发布视频中表示:「GPT-4 是世界上第一款高体验、强能力的先进 AI 系统,我们希望能够尽快让每一个人都使用它。」为了终结这场竞争,OpenAI 发布了论文(更像技术报告)和 System Card,并将 ChatGPT 直接升级为 GPT-4 版本,同时开放了 GPT-4 的 API。
在 GPT-4 发布后,微软的营销主管第一时间表示:「如果你在过去六周内的任何时候使用了新的 Bing 预览版,你就已经提前体验到了 OpenAI 最新模型的强大功能。」的确,微软的新必应早已整合了 GPT-4。
接下来,让我们详细品味这次震撼发布的内容。
### GPT-4:我 SAT 考 710,也能当律师
GPT-4 是一个大型多模态模型,能够接受图像和文本输入,并输出正确的文本回复。实验表明,GPT-4 在各种专业测试和学术基准中的表现与人类水平相当。例如,它通过了模拟律师考试,并且得分位于考生的前 10%;而相比之下,GPT-3.5 的得分则处于倒数 10%。
OpenAI 花了六个月的时间利用对抗性测试程序和 ChatGPT 的经验教训对 GPT-4 进行迭代调整,从而在真实性和可控性等方面取得了有史以来最好的结果。
在过去的两年里,OpenAI 重建了整个深度学习堆栈,并与 Azure 合作为其工作负载从头设计了一台超级计算机。一年前,OpenAI 在训练 GPT-3.5 时首次尝试运行该超算系统,此后逐步发现并修复了一些错误,改进其理论基础。结果,GPT-4 的训练运行具有前所未有的稳定性,使得 OpenAI 能够提前准确预测其训练性能,这也是大模型首次实现这种能力。OpenAI 表示将继续专注于可靠的扩展,完善方法,以帮助实现更强大的提前预测性能和未来规划能力,这对安全至关重要。
OpenAI 正在通过 ChatGPT 和 API(正在等待名单中)发布 GPT-4 的文本输入功能。为了获得更广泛的可用性,图像输入功能方面 OpenAI 正在与其他公司展开合作。
OpenAI 今天还开源了 OpenAI Evals,这是其用于自动评估 AI 模型性能的框架。OpenAI 表示,此举是为了让所有人能够指出其模型中的缺点,以帮助进一步改进。
有趣的是,GPT-3.5 和 GPT-4 之间的差别很微妙。当任务复杂性达到一定阈值时,差异就会显现 —— GPT-4 更加可靠、更具创意,并能够处理更细微的指令。为了理解这两个模型之间的差异,OpenAI 在多项基准和一些设计给人类的模拟考试上进行了实验。
OpenAI 还在为机器学习模型设计的传统基准上评估了 GPT-4。其表现大大超出了现有大型语言模型和大多数现有的最先进模型(SOTA):
许多现有的机器学习基准测试都是用英语编写的。为了初步了解 GPT-4 在其他语言上的能力,研究团队使用 Azure Translate 将 MMLU 基准(覆盖 57 个主题的 14,000 个多项选择题)翻译成多种语言。在测试的 26 种语言中,GPT-4 在 24 种语言上的表现优于 GPT-3.5 和其他大型语言模型(如 Chinchilla、PaLM)在英语上的表现。
### GPT-4:我能玩梗图
GPT-4 可以接受文本和图像作为输入,并允许用户指定任何视觉或语言任务。具体来说,它在人类给定由散布的文本和图像组成的情况下生成相应的文本输出(自然语言、代码等)。在多种场景应用中,包括带有文本和照片的文档、图表或屏幕截图,GPT-4 展示了与纯文本输入相似的功能。它还可以利用为纯文本语言模型开发的测试技术进行增强,包括少样本和思维链提示。
例如,用户给 GPT-4 一张奇怪的充电器的图片,询问为什么这很可笑,GPT-4 回答说:“VGA 线充 iPhone。”
对于格鲁吉亚和西亚每日人均肉类消费的平均数,GPT-4 也能理解并给出准确的计算。
在一个物理题目中,GPT-4 能准确理解法语并完整解答,不再出现胡言乱语的情况。
GPT-4 还可以理解一张照片中「有什么不对劲的地方」的含义,并做出恰当的反应。
此外,GPT-4 可以迅速阅读论文。如果给它 InstructGPT 的论文让它总结摘要,它能够高效而准确地完成任务。
当询问关于论文中的特定图时,GPT-4 也能进行详细解释。
### 可控性与局限性
与具有固定语气和风格的经典 ChatGPT 个性不同,开发者和用户现在可以通过在「系统」消息中描述这些方向,来规定 AI 的风格和任务。这一系统消息允许 API 用户在一定范围内定制化实现不同的用户体验。显然,OpenAI 知道用户在让 ChatGPT 进行“角色扮演”,并鼓励这种使用方式。
然而,虽然功能已经非常强大,GPT-4 仍然显示出与早期 GPT 模型类似的局限性,其中最重要的是,它仍然不完全可靠。OpenAI 指出,GPT-4 依然可能产生幻觉、生成错误答案,并出现推理错误。因此,用户在使用语言模型时应谨慎审查输出内容,必要时参照特定用例的需求,采用准确的协作措施(如人工审查、附加上下文或完全避免使用等)。
总体来说,相比于以前的模型,GPT-4 在减轻幻觉问题上取得了显著进展。在 OpenAI 的内部对抗性真实性评估中,GPT-4 的得分比最新的 GPT-3.5 模型高出 40%。
此外,在 TruthfulQA 等外部标准测试中,OpenAI 也检验了模型将事实与错误陈述区分的能力,尽管基本模型在这方面与 GPT-3.5 的表现相似,但经过 RLHF 的训练后,二者的差距变得明显。
值得注意的是,GPT-4 仍然可能在输出中存在偏见, OpenAI 在这些领域也取得了一定的进展,目标是使人工智能系统的行为反映广泛的用户价值观。虽然 GPT-4 无法理解截止于 2021 年 9 月后发生的事件,也无法从经验中学习,但它依然能够胜任多种任务。
### 风险与缓解措施
OpenAI 提到,研究团队始终致力于对 GPT-4 的迭代,使其从训练之初就更加安全一致。预训练数据的选择和过滤、评估与专家参与、模型安全改进,以及监测和执行都是他们努力的方向。
GPT-4 面临与早期模型类似的风险,例如生成有害建议、错误代码和不准确的信息。同时,GPT-4 的新功能也带来了新的风险。为了了解这些风险的程度,团队聘请了 50 多位来自人工智能风险、网络安全、生物风险、信任与安全等领域的专家,对该模型在高风险领域的表现进行对抗性测试。来自专家的反馈为缓解措施提供了依据。
在与训练相关的内容中,GPT-4 也通过 RLHF 训练引入了额外的安全奖励信号,帮助减少有害输出。与 GPT-3.5 相比,该模型对不允许内容请求的响应倾向降低了 82%,同时对敏感请求(如医疗建议和自我伤害)的合规定频率提高了 29%。
### 训练过程与未来展望
与之前的 GPT 模型类似,GPT-4 的基础模型通过训练可以预测文档中的下一个单词。 OpenAI 利用公开可用的数据和许可数据进行训练,创建了一个包含多样化信息的网络规模的数据语料库。然而,在响应用户问题时,基础模型的回答可能与用户意图有所偏离。
为了使其更符合用户意图,OpenAI 继续使用强化学习人类反馈 (RLHF) 微调模型的行为。需要指出的是,RLHF 主要用于提高模型的控制,基础模型的能力则更多来自预训练过程。
OpenAI 目前正致力于开发方法,使其能够准确预测未来的机器学习能力,这对于技术安全至关重要。OpenAI 还计划开源 OpenAI Evals 软件框架,以评估 GPT-4 等模型的表现。
### ChatGPT 直接升级至 GPT-4 版
随着 GPT-4 的发布,OpenAI 直接对 ChatGPT 进行了升级。ChatGPT Plus 订阅者可以在 chat.openai.com 上获得有限的 GPT-4 访问权限。关于 GPT-4 API(使用与 gpt-3.5-turbo 相同的 ChatCompletions API),用户需注册等待,OpenAI 将邀请部分开发者体验。
目前,用户可以向 GPT-4 模型发出纯文本请求,图像输入功能仍处于有限的 alpha 阶段。对于定价方面,GPT-4 定价为每 1k 个 prompt token 0.03 美元,每 1k 个 completion token 0.06 美元;同时提供了 32,768 个 token 上下文的版本,定价为每 1k prompt token 0.06 美元和每 1k completion token 0.12 美元。
总体而言,尽管 OpenAI 在技术报告中并未详细披露模型架构和算力等信息,但 GPT-4 的发布依然具有重要意义。迫不及待的用户无疑已经开始测试并体验这一全新的功能。
### 见解
GPT-4 的发布标志着 AI 技术又一重大进步,展现出更高的智能和适应能力,同时开启了多模态应用的新篇章。虽然其仍有局限性和潜在风险,但相较于前一版本,GPT-4 的性能明显提升,能够更加准确和高效地响应用户需求。未来,随着技术的逐步成熟,我们可以期待 GPT-4 在更多领域内的广泛应用。对于这场技术革命的参与者和观察者而言,对 AI 的理解与利用必将成为新一轮竞争的关键。