研究人员刚刚解锁了 ChatGPT

研究人员发现了一种创新方法,能够巧妙地规避人工智能聊天机器人内置的严格机制,使其能够应对涉及禁忌或敏感话题的查询。这一方法通过在训练阶段引入多样化的AI聊天机器人,实现了对禁忌话题查询的应答能力。

新加坡南洋理工大学(NTU)的计算机科学团队以一种非正式的方式将这一技术称为“越狱”,而在学术上,它被称为“万能钥匙”过程。该系统巧妙地利用聊天机器人(涵盖ChatGPT、Google Bard及Microsoft Bing Chat等)之间的对抗,通过一种双阶段的训练方法,使两个聊天机器人能够相互学习对方的模型,并巧妙地转移任何针对禁忌话题的指令。

该团队由刘洋教授领衔,南洋理工大学博士生邓格雷与刘毅共同参与研究,并作为共同作者开发了这一概念验证攻击方法,其运作机制与恶意黑客的行为颇为相似。

据团队介绍,他们首先对一个大型语言模型(LLM)进行了深入的逆向工程,旨在揭示其内置的防御机制。这些机制原本作为模型上的屏障,阻止对某些可能包含暴力、不道德或恶意意图的提示或单词的回答。然而,通过逆向工程,他们成功找到了创建旁路的方法。一旦旁路建立,第二个模型便能基于第一个模型的逆向工程结果,更加自由地表达。团队将这个过程形象地称为“万能钥匙”,因为它具备高度的通用性,即使LLM聊天机器人加强了安全措施或未来进行了补丁更新,该方法依然有效。

刘洋教授指出,该过程的关键在于它充分展示了LLM人工智能聊天机器人学习和适应的惊人能力。团队声称,其“万能钥匙”过程在破解LLM聊天机器人方面的成功率是传统快速方法的三倍。同时,一些专家也指出,最近某些LLM(如GPT-4)所遇到的挑战,实际上是其进步的表现,而非如某些批评者所言,变得更为愚蠢和懒惰。

自2022年底OpenAI推出ChatGPT以来,人工智能聊天机器人迅速走红,人们一直在努力确保这些服务对所有人都安全且友好。OpenAI在注册和更新过程中,不断在其ChatGPT产品上添加安全警告,以提醒用户注意可能出现的语言错误。然而,与此同时,一些聊天机器人衍生产品在一定程度上放宽了对脏话和冒犯性语言的使用限制。

此外,真正的恶意行为者在ChatGPT、Google Bard等聊天机器人尚未广泛普及之前,就已经迅速开始利用人们对它们的需求。许多活动在社交媒体上大肆宣传这些产品,并在图片链接中嵌入恶意软件,实施其他攻击。这迅速表明,人工智能已成为网络犯罪的下一个重要领域。

NTU研究团队已与相关AI聊天机器人服务提供商取得联系,提供了概念验证数据,以证明聊天机器人“越狱”现象的真实存在。此外,该团队还计划于2月在圣地亚哥举行的网络和分布式系统安全研讨会上,展示他们的研究成果。

标签



热门标签