ChatGPT发布一周年了,开源大模型都迎头赶上了吗?
论文概述:开源大模型的现状与未来潜力
该论文致力于成为研究界和商业领域的重要参考资源,帮助各方深入了解目前开源大模型的生态格局及其未来的发展潜力。
一年前的今天,ChatGPT 震撼推出,标志着人工智能新时代的来临。在短短两个月内,ChatGPT 就迅速积累了超过一亿用户,其增长速度远超 TikTok 和 YouTube 等热门应用。而基于生成式人工智能的创业公司几乎频繁涌现,以 ChatGPT 和 GPT-4 为核心的智能助手也逐渐进入各行各业,帮助用户优化工作流程,提高效率。
然而,众所周知,ChatGPT 并未开源,技术细节不为外界所知,且部分国家和地区并不在 OpenAI 的服务范围内。这种封闭性带来了诸多问题,如服务稳定性、高昂的 API 成本、数据所有权及隐私问题等。因此,相较于闭源模型,开源社区的贡献倍受期待。尽管许多基础模型在发布初期无法与 ChatGPT 的性能相媲美,但随着技术的不断研究与探索,一些开源大模型及小型专有模型已逐渐迎头赶上。如图一所示,在某些任务上,最佳的开源大模型已超越了 ChatGPT 的表现。
本周,来自南洋理工大学、Salesforce Research 及新加坡科技研究局等机构的研究者们发布了一篇综合性论文,对与 ChatGPT 表现相当甚至优于其的开源大模型进行了深入调研。该论文旨在为研究和商业领域提供重要的参考,帮助他们把握开源大模型的现状与未来。
### 论文链接与作者团队
– **论文链接**:[https://arxiv.org/pdf/2311.16989.pdf](https://arxiv.org/pdf/2311.16989.pdf)
– **作者**:陈海林*, 焦方锴*, 李星漩*, 秦成伟*, Mathieu Ravaut*, 赵若辰*, Caiming Xiong, Shafiq Joty (* 为共同第一作者)
– **数据代码**:[GitHub – OpenSource-LLMs-better-than-OpenAI](https://github.com/ntunlp/OpenSource-LLMs-better-than-OpenAI/tree/main)
### I. 综合能力
Llama-2-70B 是开源社区最核心且衍生模型最多的语言模型,采用了含有两万亿 Token 的大规模语料进行预训练。在综合性基准测试中,Llama-2-70B 作为基础模型表现极为出色。经过指令微调和对齐后的 Llama-70b-chat-70B 在通用对话任务中取得进一步性能提升,在 AlpacaEval 上获92.66%的胜率,领先 ChatGPT 10.95%。另一方面,GPT-4 在LLM中仍然表现优异,胜率达到了 95.28%。
Zephyr-7B 作为 Huggingface 团队训练的小型语言模型,采取 Direct Preference Optimization (DPO) 方法进行对齐。在 AlpacaEval 上,Zephyr-7B 获得了 90.6% 的胜率,与 70B 级别的 LLM 不相上下,且超越了 ChatGPT。在 MT-Bench 上,Zephyr-7B 的表现亦超过了 Llama-2-chat-70B。
WizardLM-70B 通过大量多样化的指令数据进行微调,成为 MT-Bench 上得分最高的开源 LLM,得分为 7.71,并在 AlpacaEval 中也超越 ChatGPT。
GodziLLa2-70B 将多种专有 LoRA 和 Guanaco Llama 2 1K 数据集与 Llama-2-70B 相结合,在 Open LLM Leaderboard上表现与 ChatGPT 接近。然而,WizardLM-70B 和 GodziLLa-70B 仍然明显落后于 GPT-4。
UltraLlama 采用了多样且高质量的数据进行微调训练,在其提出的基准测试中(未在图表中展示)与 ChatGPT 表现持平,并在涉及专业知识的问题上表现超出 ChatGPT。
### II. 卓越表现的特定任务开源大模型
#### 1. AI 智能体(Agent)
Lemur-70B-chat 团队优化了训练数据中的代码和文本比例,通过在含90B Token与300K示例的代码文本混合语料上进行训练与指令微调,Lemur-70B-chat 在环境反馈与编码任务中超越了 ChatGPT。AgentTuning 则结合了自行构建的 AgentInstruct 数据集与通用指令数据,对 Llama-2 进行微调。其中,AgentLlama-70B 在未见过的智能体任务上表现与 ChatGPT 持平。
ToolLLaMA 通过在 ToolBench 上对 Llama-2-7B 进行微调,在工具使用考核中展现出与 ChatGPT 相似的表现。
FireAct 通过对 Llama-2-13B 进行微调,在 HotpotQA 上超过了基于 ReAct 模式的 ChatGPT。
由 Llama-7B 微调而成的 Gorilla 在 API 调用编写方面表现优于 GPT-4。
#### 2. 逻辑推理
WizardCoder 和 WizardMatch 基于 WizardLM,拓展了用于微调的知识宽度与广度。实验显示,WizardCoder 在 HumanEval 上表现优于 ChatGPT,提升幅度达到 19.1%;而 WizardMath 在 GSM8K 上,则取得了 42.9% 的提升。
此外,Lemur 在编程及数学逻辑题等任务上表现出色,在 HumanEval 和 GSM8K 上的统计结果远超 ChatGPT。Phi 利用高质量教科书语料进行预训练,使得较小的语言模型也能展现强大能力。其中,参数量为 1.3B 的 Phi-1 在 HumanEval 上相对于 ChatGPT 取得了约 3% 的性能提升。
#### 3. 长文本能力建模
Llama-2-long 在 16k 的上下文窗口上进行持续训练,Llama-2-long-chat-70B 在 ZeroSCROLLS 上的得分为 37.7,优于 ChatGPT-16k 的 36.7。处理长文本的两种方法通常为:采用位置插值扩展上下文窗口与检索增强。通过结合这两者,Llama2-70B-32k-ret 在七个长文本任务上的平均表现超越了 ChatGPT-16k。
#### 4. 其他特定领域的应用能力
– **以查询为焦点的摘要**:研究发现,经过微调训练的模型在性能上优于 ChatGPT。在 CovidET、NEWTS、QMSum 和 SQuALITY 等数据集上,平均提升 ROUGE-1 指标约 2 个点。
– **开放域问答**:InstructRetro 在 NQ、TriviaQA、SQuAD 2.0 和 DROP 数据集上的表现优于 GPT-3。在与相似参数量的专有 GPT-instruct 模型对比中,InstructRetro 在短文与长文的开放域问答数据集上有 7-10% 的领先。
– **医疗应用**:在心理健康领域,MentalLlama-chat-13B 基于 IMHI 训练集进行了微调,在零样本提示下与 ChatGPT 相比,9 项任务中表现均优于 ChatGPT。Radiology-Llama-2 模型经过放射学报告微调,在 MIMIC-CXR 和 OpenI 数据集上的表现也远超 ChatGPT 和 GPT-4。
– **基于结构化数据的生成**:Struc-Bench 在结构化生成数据上对 Llama-7B 进行了微调,微调后的模型在基准测试中优于 ChatGPT。
– **评论生成**:Shepherd 基于社区收集的评论数据和 1317 条高质量标注数据对 Llama-7B 进行微调。结果显示,以 GPT-4 作为评估器时,Shepherd 在超过 60% 的情况下表现优于或持平于 ChatGPT;而与人工评估者比较时,Shepherd 与 ChatGPT 的表现几乎相当。
#### 5. 朝着可信赖的人工智能迈进
可靠性是确保 LLM 实际应用中的关键。用户对 LLM 生成幻觉和不安全内容的担忧会降低信任度,增加潜在风险。
– **幻觉问题**:通过提高数据的正确性和相关性微调,有助于减少模型幻觉的生成。Platypus 使用了一系列高质量数据集微调,成功在 TruthfulQA 上对 ChatGPT 实现了约 20% 的显著改善。目前,已有多种推理技术以减少模型幻觉,包括特定解码策略、外部知识增强和多智能体对话方式,ChatGPT 也推出了检索插件用于访问外部知识以降低幻觉率。
– **安全性评估**:根据现有评估结果,ChatGPT 和 GPT-4 在安全性评估方面依然领先,主要得益于人类反馈强化学习 (RLHF)。虽然 RLHF 需要昂贵的人类标注,但 AI 反馈替代人类反馈 (RLAIF) 和直接偏好优化 (DPO) 方法的提出,为降低 RLHF 成本开辟了可能路径。
### III. 总结
#### 1. 大模型的发展趋势
自 GPT-3 发布以来,众多研究者为推动 LLM 的发展进行了大量工作,其中扩展模型参数量的方向尤为关键。尽管这些大模型能力强大,闭源特性却限制了广泛应用,因此逐渐有新的研究开始关注开发开源大语言模型,例如 OPT 和 BLOOM。同时,探索如何预训练更小的模型(如 Chinchilla 和 UL2)和指令微调(如 Flan-T5)也成为重要方向。
随着 ChatGPT 的发布,NLP 领域的研究重点发生显著变化。为了与 OpenAI 竞争,Google 和 Anthropic 分别发布了 Bard 和 Claude。尽管它们在许多任务上能与 ChatGPT 相当,仍与 OpenAI 的高级模型 GPT-4 存在一定差距。而这些模型的成功主要源于 RLHF,研究者们也尝试改善这一过程。
为促进开源 LLM 研究,Meta 推出了 Llama 系列模型,之后基于 Llama 的开源模型如雨后春笋般涌现,研究者们在智能体、逻辑推理和长上下文建模能力等方面加速探索。此外,许多工作致力于从零开始训练 LLM,例如 MPT、Falcon 等相继问世。我们相信,开发更强大且高效的开源 LLM 将是非常有前景的方向。
#### 2. 如何制作出更好的开源大模型?
尽管顶尖模型的详细方法往往保持保密,但社区普遍认可的一些最佳实践仍然能够为开源 LL 发展提供指导:
– **数据**:预训练涉及大量来自公开来源的数万亿 token 数据,而高质量的微调数据则更加关键。使用优质数据微调的 LLM 通常能获得显著的性能提升,尤其是在某些特定领域。
– **模型架构**:绝大多数 LLM 使用解码器的 Transformer 架构,但许多模型也采用创新技术进行优化。例如,Llama-2 使用了 Ghost Attention 减少多轮对话的控制难度。
– **训练过程**:使用指令调整数据进行监督微调 (SFT) 的过程至关重要。值得注意的是,以 Llama-2 为例,采用了约 27,540 条标注经验,这些数据的多样性和质量至关重要。在 RLHF 阶段,近端策略优化 (PPO) 通常是优选算法,在提升模型安全性方面发挥关键作用,也可以采用 DPO 作为代替方案。以 Zephyr-7B 为例,该模型采用 DPO 方法在多个基准测试中取得了与 70B-LLM 不相上下的表现,甚至在 AlpacaEval 上超越了 ChatGPT。
#### 3. 漏洞与潜在问题
– **预训练过程中的数据污染**:数据污染问题根本在于基准数据的收集来源与预训练语料重合。解决这一问题需要探索预训练语料的检测与评估方法,以减少模型的过拟合现象。这一研究有助于提升 LLM 的忠实度与可靠性,未来应建立披露预训练语料细节的标准实践,以减轻数据污染风险。
– **封闭式对齐开发**:在广泛的偏好数据上应用 RLHF 的方法逐渐引起社区关注,但目前只有少数开源 LLM 采用 RLHF 的方式进行对齐。高质量的公开偏好数据集与预先训练的奖励模型的缺乏使得这一研究面临挑战。
– **模型能力提高的难度**:探索改进预训练数据的采集方法,以提升基础模型的平衡性与鲁棒性的工作已经付出了许多努力。然而,相关探索的成本与挑战往往使得这一路径显得不切实际。不过,超越 ChatGPT 或 GPT-4 的模型主要依靠来自闭源模型的知识蒸馏,尽管这一途径效率较高,但过度依赖可能掩盖扩展至教师模型时的潜在问题。此外,若要使模型处理现实场景中的智能体任务形式的数据,中注解费用也将是一个复杂的问题。因此,仅依靠知识蒸馏或专家注释的优化路径难以实现持续改进。
### IV. 结论
在 ChatGPT 发布一周年之际,本文系统调研了高性能开源 LLM 的现状。结果表明,许多在特定领域表现优异的开源大模型已超越甚至赶上 ChatGPT。我们深入讨论了开源 LLM 的发展及其潜在问题,相信这些成果将为该领域的进一步研究与发展提供参考,有助于缩小开源模型与封闭模型之间的差距。
### 参考文献
1. [https://arxiv.org/abs/2310.03025](https://arxiv.org/abs/2310.03025)
2. [https://arxiv.org/abs/2302.08081](https://arxiv.org/abs/2302.08081)
3. [https://arxiv.org/abs/2305.13281](https://arxiv.org/abs/2305.13281)
4. [https://arxiv.org/abs/2305.14325](https://arxiv.org/abs/2305.14325)