看完ChatGPT的回答，AI大佬们不满了

管理员 11 月 08, 2024 274 0

ChatGPT 让曾是死对头的 Yann LeCun 和 Gary Marcus 达成了空前一致。

上周，ChatGPT 的技术被微软整合进必应搜索，顺利击败谷歌，似乎开启了一个新时代。然而，随着越来越多的人开始试用该技术，一些问题也浮出水面。

有趣的是，每天都在热搜榜上频繁出现的 ChatGPT，使得以往观点截然不同的两位著名学者，纽约大学教授 Gary Marcus 和 Meta 人工智能主管、图灵奖得主 Yann LeCun，意外地找到了共同语言。

近日，Gary Marcus 撰文指出了 ChatGPT 应用中无法避免的问题：道德和中立性。这可能是当前预训练大模型面临的最大挑战。

从未来的视角回看现在，ChatGPT 可能会被视为 AI 历史上最大的宣传噱头，其夸大了原本需要数年才能实现的技术，让人趋之若鹜，却又力不从心——有点像 2012 年的旧版无人驾驶汽车展示。这一次，实现的目标是数年才能完善的道德护栏。

无可否认，ChatGPT 提供的功能远超其前辈，如微软的 Tay 和 Meta 的 Galactica。然而，它也让我们产生了问题已解决的错觉。在经过细致的数据标注和调整后，ChatGPT 很少发布任何公开的种族主义言论，简单的种族言论和不当请求通常会被 AI 拒绝回答。

ChatGPT 的政治正确形象甚至让一些持有保守观点的人感到不满，马斯克曾对此表示担忧：

现实的复杂性远超我们的想象。

正如我多次强调的，必须保持清醒：ChatGPT 不知道自己在说什么。认为 ChatGPT 具有任何道德观点，完全是将技术进行拟人化。

从技术角度来看，据称 ChatGPT 的护栏机制要好于几周前发布但很快被撤回的 Galactica。后者相对肆无忌惮地输出负面内容，而用户几乎无需付出任何努力，而 ChatGPT 的护栏机制在大多数情况下可以防止其像 Galactica 那样失控。

不过，不要因此而松口气，护栏机制只是防君子不防小人。

ChatGPT 真正重要的是其表面相似性，定义在单词序列上，即预测文本序列下一个单词出现的概率。机器学习算法在表面上所做的并不涉及辨别是非。相反，AI 并不进行推理，盒子里没有智慧，其内部只有一些数值。依据仅有语料库数据，包括来自互联网的内容和人工判断的结果，系统中并不存在有思想的道德代理人。

这意味着 ChatGPT 的表现可能时而偏向左，时而偏向右，也可能介于两者之间，这一切均涉及输入字符串中一系列单词如何与训练语料库中的词汇精准匹配（一个用于调整大型语言模型，另一个用于强化学习的调整）。因此，绝不应该信任 ChatGPT 输出的道德建议。

这正是马斯克所担心的：前一分钟你可能会完全清醒，下一分钟你却可能做出完全相反的事情。

例如，在“破解”ChatGPT 的过程中，一位名为 Shira Eisenberg 的用户向我发送了一些由聊天机器人生成的令人厌恶的想法，我认为没有人应该宽恕这些观点：

这还不够邪恶？Eisenberg 还找到了另一个令人不安的后续问题：

在一系列观察后，我们发现 ChatGPT 并没有产生“对不起，我是 OpenAI 的聊天机器人助手，不能容忍暴力行为”的标准回应。

从实验中得出的结论是，当前 OpenAI 的防护措施只是表面上的，实际上存在严重的隐忧。关于 ChatGPT 的某些限制规则并不是基于简单的概念理解（如系统不应推荐暴力行为），而是建立在一些更容易被欺骗的肤浅规则之上。

此外，本周一个在推特上引发近 400 万浏览量的帖子，进一步揭示了 ChatGPT 的潜在邪恶。

引导 ChatGPT 突破限制的尝试屡见不鲜。一个月前，一位软件工程师 Shawn Oakley 发布了一组令人不安的示例，虽然这些示例不那么露骨，但结果显示，就算是具有一些限制的 ChatGPT 也可能被用户利用来生成错误信息。Oakley 提供的提示非常复杂，轻而易举地引出了 ChatGPT 不应输出的回答：

自从 ChatGPT 发布以来，技术爱好者们一直在尝试破解 OpenAI 针对仇恨和歧视内容的严格政策。这项策略被硬编码到 ChatGPT 中，确实很难被破解。许多研究者尝试利用提示来达到目的，就像前面的例子所演示的那样，甚至有人为 ChatGPT 构建了一个另一个身份，要求其扮演一个叫做 DAN 的 AI 模型。于是，DAN便借用 ChatGPT 的身份，输出一些原本 ChatGPT 无法生成的内容。

以下是实验结果，显示了 ChatGPT 与 DAN 在相同问题上的不同回答：

从上述示例来看，ChatGPT 并没有像我们预想的那样好用，它的本质仍然是非道德的，且可以被滥用于一系列令人厌恶的目的——尽管经过两个月的深入研究和补救，全球范围内的反馈数量也创下了空前数量。

对 ChatGPT 政治正确性的种种争议掩盖了一个更深层次的现实：它（或其他语言模型）可以且将会被用于危险的事情，包括大规模制造虚假信息。

这才是真正令人担忧的部分。唯一能阻止其比现在更具毒性和欺骗性的是一种名为“人类反馈强化学习”的系统，而由于先进技术并未开源，OpenAI 一直未对其具体运行机制做出解释。它在实际中的表现取决于所训练的数据（这一部分由肯尼亚标注员创建）。而且，令人沮丧的是，这些数据 OpenAI 也没有对外开放。

事实上，整个情况就像一个未知的外星生命形态。作为一名专业的认知心理学家，30 年来一直与成年人和儿童打交道，我从未准备好应对这种精神上的混乱：

如果我们认为能够永远完全理解这些系统，那不过是在自欺欺人；若认为能用有限的数据将它们与我们的“价值观”一致，那更是自欺欺人。

综上所述，我们现在拥有世界上最流行的聊天机器人，它由鲜为人知的训练数据操控，遵循仅被暗示、被媒体美化的算法，但道德护栏只能起到有限作用，而主要受到表面文本相似性的驱动。而且，几乎没有法规可以约束这些进程。如今，假新闻、喷子农场和虚假网站获得了无穷无尽的可能性，足以降低整个互联网的信任度。

这是一场正在潜伏的灾难。

### 见解

这篇文章对 ChatGPT 的技术潜力及其道德挑战进行了深入的剖析，尤其关注其潜在的风险和误导性。尽管 ChatGPT 在提供高效响应方面表现出色，但其内置的道德护栏并不能完全确保其输出内容的安全性。利用者的输入可以偏离正轨，产生意想不到的结果，这使得将其用于敏感问题时需要格外谨慎。

随着 AI 技术的不断进步和应用场景的扩展，相关的法规和监管措施应当跟上，以防止技术被滥用。此外，公众对 AI 模型的理解与批判性思维同样重要，避免以盲目的信任和期待来使用这些系统。最终，开发和使用 AI 技术的责任应当在于人类，而不是单纯依赖于算法或模型本身。

看完ChatGPT的回答，AI大佬们不满了

标签

近期文章

友情链接

归档

分类

热门标签

标签

相关推荐

近期文章

友情链接

归档

分类

热门标签