系统Prompt长达1700个token,ChatGPT变「懒」的原因找到了?
ChatGPT:我不是不会,只是不想干活
在现阶段,ChatGPT 已成为许多人得力的助手,可以用来撰写文档、编写代码、生成图片等。然而,看似无所不能的 ChatGPT 也有其懒惰的一面。
大家是否还记得去年年底 GPT-4 开始变“懒惰”的现象?例如,当用户提出要求时,ChatGPT 的响应变得非常缓慢且敷衍,甚至会单方面中断对话;又比如,当用户要求它编写一段代码时,它常常建议用户自己去完成。
当时,OpenAI 的解释是模型行为不可预测,他们正在研究如何修复这个问题。
#### 新的解释
最近,一条来自 Dylan Patel 的推文在 X 上引起了广泛关注,他表示:“ChatGPT 系统 prompt 中包含 1700 个 token,如果你想知道为什么 ChatGPT 的性能比 6 个月前糟糕得多,那是因为这些系统 prompt。看看这些无用的内容。’变懒’确实与 prompt 有关。”
这条推文迅速在各大 AI 社区传播开来,讨论热度居高不下。
有网友评论道:“几个月前在 ChatGPT 性能下降时,我就提到过:长且写得不好的系统 prompt 更改和添加导致了大多数问题。这些 prompt 中包含了服务退化的内置指令,例如无论如何只能渲染一张图像,并且有许多模糊的指令,甚至人类也难以始终遵循,比如生成的任何内容都不应冒犯任何人。”
另一位网友也指出:“根据我的测试,系统 prompt 越长,分配给用户精确任务的资源就越少。”
不过,也有持不同观点的网友认为:“没有证据表明较长的系统 prompt 会影响输出质量,我不知道为什么每个人都认为他们比 OpenAI 更了解自己。”
#### 对于 prompt 的看法
从公开的角度来看,有些网友反对秘密注入 prompt,认为这缺乏对人类视角多样性的同理心。他们表示,这些工具太重要,不能以不透明的方式进行预设。
有网友反驳道:“如果你想访问底层模型,可以使用 OpenAI 的 API。我不明白这有什么问题。”
还有人表示:“至少 OpenAI 注入的 prompt 似乎有效,我不介意那些让输出不那么刻板的 prompt——如果它们有效的话。”他们甚至举例说明谷歌的 Bard(Gemini Pro 版本)存在类似问题。
从商用 GPT 的角度出发,有人指出:“难道这不是人工智能企业对其 GPT 进行塑造的基本方式吗?如果不给 GPT 一些恰当的指令,如何确保其负责任地运行?商业公司保密是合理的,他们对其 LLM 的调整构成了有价值的知识产权。”
最后,还有网友分享了自己的经历:“昨天我在编写 Python 代码时遇到了问题,ChatGPT 完成了 90% 的代码,然后说最后一段逻辑太复杂了,却告诉我如何去做…… 然后我开始了一个新的聊天,给了它自己写的 Python 代码,并询问代码是否完整,结果它毫无问题地添加了代码。这从某种程度上证明了 ChatGPT 的懒惰。”
看起来,ChatGPT 的懒惰问题仍需时间来解决。