ChatGPT的前世今生:OpenAI的技术「执拗」与「豪赌」

 

本文全方位介绍了 ChatGPT 的能力特征、发展历程以及 OpenAI 在这一过程中坚守的技术路线,还展望了 ChatGPT 的出现如何改变了 NLP 领域的范式,标志着「文本生成 + 指令」的新模式的开启。

### 1. ChatGPT:智慧的人工智能

ChatGPT 的相关讨论,自 AlphaGo 以来成为最引人注目的人工智能话题之一。简单来说,ChatGPT 是一款可以使用自然语言对话的机器人,用户可以就任何问题与其交流(虽然它有时可能会答错,但你可以引导并纠正它),它会以流畅、标准的自然语言作出回应。不仅如此,它还能够解答代码问题、数学问题等,与你畅谈各种话题。

以经典的鸡兔同笼问题为例,我们可以直观地认识 ChatGPT 的能力。在处理这个问题时,首先注意到 ChatGPT 能够理解自然语言,并将其转换为数学问题;其次,它通过将复杂的推理问题逐步拆解,从而获得最终答案。这种能力被业内称为「思维链」(Chain of Thought)。通过换一种方式提问,我们可以观察到 ChatGPT 对其所说内容的感知能力,并能够给出相应的原因。

从图中可见,虽然 ChatGPT 在首次计算步骤上出现了错误(首次计算耳朵数量时的错误),但通过引导,它可以给出正确答案,并解释了自己的错误原因。

如果不提前告知,这是一个人工智能模型,ChatGPT 的表现确实让人感觉它具备逻辑思维和语言交流的能力。它的出现第一次让人感受到,人工智能似乎能够与人类进行有效的沟通,尽管偶尔出错,但至少在交流过程中,它没有语言和逻辑上的障碍,能够「理解」你所说的话,并按照人类的思维模式和语言规范给予反馈。正是这种智能体验感,使得 ChatGPT 从业界小圈子走向了大众,给人们带来了深刻的影响。

这种体验感的问题不容忽视。过去,因技术限制,业界往往为了完成特定任务而忽略了用户的感受。而 ChatGPT 的出现则标志着人工智能不再是过去那种「有用但显得愚蠢」的形态。

为了更好地理解 ChatGPT 所带来的智能体验,必须从过去那种「愚蠢」的人工智能探讨。虽然 ChatGPT 背后依然使用自然语言处理(NLP)技术,但它打破了以往的范式。

在当前的主流做法中,人类交流依赖语言,而语言的复杂性使得计算机理解自然语言成为一大挑战。通常情况下,技术人员将理解与运用语言的过程拆分为许多细分的任务(如情感分析、句法分析、实体识别等),如下所示:

– **情感分析**:理解语言所表达的情感倾向。
– **句法分析**:分析文本的语言结构。
– **实体识别**:定位文本中的特殊实体(如地址、名字等)。
– **实体连接**:提取文本中实体之间的关系。

虽然这种拆分方案有助于从不同的维度考察 NLP 系统的能力,但在 ChatGPT 出现后,我们或许可以反思:这种拆分在让计算机理解自然语言的道路上并不一定是最有效的。

在单一任务上的优秀表现在某种程度上掩盖了总体能力。使用自然语言的能力是人们感知人工智能「智能感」的基础,而 ChatGPT 的表现确实彰显了这一点。虽然 OpenAI 没有开放 ChatGPT 的 API 服务以评估其在细分 NLP 任务上的具体效果,但通过对其前身模型(如 GPT-3、InstructGPT)的测试结果,我们可以发现,通过专门的数据微调的小模型在特定任务上确实能取得更佳效果。然而,这些在单个任务上表现突出的模型并未带来广泛的关注,根本原因在于它们缺乏整体的语言理解与应用能力,这也导致它们在真实应用场景中无法发挥作用。

从人类理解和使用自然语言的角度来看,这一现象并不令人意外。人类在理解自然语言时不会将其拆分为多个单独的任务逐一分析并总结,而是在一体化的过程中进行理解和交流。因此,ChatGPT 及其系列模型所实现的直接接收自然语言并反馈自然语言的能力,更加贴近人类的交互方式,这也正是它给人们带来智能感的关键所在。

### 2. OpenAI 的「赌局」

#### GPT初代:一切的起点

早在2018年,OpenAI 发布了初代 GPT 模型。根据公开文献,其采用了 12 层 Transformer 解码器结构,使用大约 5GB 的无监督文本数据进行语言模型任务的训练。虽然初代 GPT 模型已经引入生成式预训练技术,但它仍遵循无监督预训练 + 下游任务微调的范式。这一方法并非新发明,而是 CV 领域早已应用的技术,因 ELMo 模型的成功被引入 NLP 领域。

初代 GPT 的发布引起了业内关注,但并不是当年的焦点,因为 Google 的 BERT 模型以其卓越表现吸引了全部目光。BERT 模型同样使用 Transformer 结构,但专门为「无监督预训练 + 下游任务微调」而设计,双向编码能力使其在文本编码上表现优异,从而显著提升了下游任务的效果。

从当时的角度来看,BERT 的表现无疑更为优越。虽然 BERT 和 GPT 均采用相似的预训练方法,但 BERT 更注重特征的编码质量,使用合适的损失函数进行微调,显然比 GPT 的生成策略更直接。

#### GPT-2:希望的曙光

值得注意的是,OpenAI 并未放弃生成式预训练路线。2019年,OpenAI 发布了具有 48 层 Transformer 结构的 GPT-2。其论文展示了无监督数据与生成式训练结合后,GPT 展现了零样本(zero-shot)的多任务能力。这一能力并非人工注入,而是模型自发获得。例如,GPT-2 能够进行翻译,而无需标注的翻译数据,这一发现具有颠覆性。

虽然 GPT-2 的能力在当时看似初步,但 OpenAI 对其潜在能力的期待始终不减。他们在论文中指出,这一发现为未来的语言处理系统建设指明了方向。可见,生成式预训练为 NLP 领域提供了 BERT 模型无法替代的潜在优势。

当然,当时生成式技术路径依然面临挑战,GPT-2 在实际应用中表现仍不及经过微调的模型。因此,若想要实用的翻译模型,合适的选择依然是通过标注数据训练专用模型。

#### GPT-3:数据飞轮的启示

随着 GPT-2 的成功,OpenAI 加大了研发投入,2020年发布了 1750 亿参数的 GPT-3。在随后的研究中,GPT-3 展现出了独特的小样本学习能力:通过给出少量例子,它便能「举一反三」地完成任务,而不需要额外训练。

GPT-3 强大的性能让其一举成为关注焦点。开放服务后,用户体验和反馈给 OpenAI 带来了更好的迭代数据,推动了用户数据的积累和模型的优化。

与 ChatGPT 不同,GPT-3 的模式是文本续写,无法实现多轮对话能力。尽管它能够进行故事编写和邮件自动补全,但它也暴露出一些问题,比如偶尔输出不实或有害言论。

#### CodeX:代码生成的可能性

在对 GPT-3 的研究中,OpenAI 发现其能够根据注释生成代码。2021年,OpenAI 发布了 CodeX 模型,在代码生成方面取得了显著贡献。CodeX 在大规模代码数据上训练,使其具备了解和生成代码的能力。

通过对代码数据的挖掘,OpenAI 不仅拓展了模型的应用,还为后续 GPT 模型在自然语言处理上的复杂推理和思维链的能力打下了基础。

#### InstructGPT:让 GPT 说得更好

尽管 GPT-3 已具备强大能力,但用户在使用过程中发现其偶尔输出无实依据或有争议内容。为此,OpenAI 发表了 InstructGPT 论文,提出通过人类反馈来改善模型的回答方式。

InstructGPT 的核心在于让模型通过人类写的优秀回答进行学习。这一过程分为监督学习与强化学习两个阶段,旨在训练模型如何更好地回答问题,减少不准确和有害内容的出现。

以具体方法为例,标注人员为不同的提示(Prompt)撰写真实且无害的回答,从而建立出评价模型的标准。此后,通过强化学习,使得模型能够自动对比和改进其回答品质。经过这样的训练后,模型的输出表现明显优于未经过此班训练的版本。

在 InstructGPT 的训练过程中,使用来自真实用户的提示与审查进一步优化了模型的表现,使其对新问题具备更强的泛化能力。此外,训练数据虽然相对较少,但模型的能力在无监督阅读的过程中早已被塑造。

### 3. 走近再看 ChatGPT

在上文中分析了 ChatGPT 出圈的原因,主要是因为其用流畅、符合逻辑的自然语言回应人类输入。在此基础上,我们将进一步探讨 ChatGPT 背后的核心技术,尤其是为何当前许多大型文本生成模型未能达到相同的效果。

虽然 ChatGPT 的优秀表现源自众多 NLP 任务的结合,但在技术分析时,对其能力进行细分会更加清晰。总体而言,ChatGPT 可划分为以下几个能力维度:

– **文本生成能力**:作为一款自回归语言模型,ChatGPT 的输出依赖对已有文本的预测,此过程基于大量文本数据的训练,使模型能够生成逻辑性与连贯性兼具的回答。

– **丰富的知识储备**:ChatGPT 能够正确回答历史、文学、数学、编程等领域的问题。这些知识来源于大规模的训练数据,尽管官方并未公布具体数据详情,但其内容可大致分为三个范畴:网页内容、书籍内容及百科内容。

– **逻辑推理与思维链能力**:ChatGPT 具备将复杂内容拆解为多个步骤的能力,从而获得最终答案。这种能力与模型体量及其接受的代码数据训练直接相关。

– **命令响应能力**:ChatGPT 能够根据用户的指令进行输出,如撰写邮件、完成指定文本等。这种能力体现了模型的自然语言处理特性,使得用户可以用更直观的方式与其交互。

– **客观、公正的能力**:ChatGPT 在回答存在争议的问题时表现得小心翼翼,这是 OpenAI 将其作为产品推向市场的核心因素之一,有助于提升其可信度。

### 4. 未来的展望

ChatGPT 自 2022 年 11 月上线以来,吸引了广泛关注,连一些与计算机无关的群体也对其产生了好奇。这一现象显示出 ChatGPT 的特殊性,标志着 NLP 领域的一次新的技术变革。

从技术角度看,ChatGPT 的出现标志着 NLP 再次进行范式转变,开启了「文本生成 + 指令」的时代。这种模式利用了训练好的文本生成模型,通过输入适当的指令解决实际场景中的问题,大大降低了 NLP 技术的应用门槛。

然而,ChatGPT 依然存在一些局限性,如缺乏准确可靠的专业知识。因此,传统的 NLP 技术并不会完全消亡,而将继续作为一种补充,以提升 ChatGPT 在某些特定任务上的表现。

在接下来的发展中,预计 NLP 技术将继续演化,融合生成式模型与传统模型的优势,为人类提供更多高效、智能的交互体验。

标签



热门标签