ChatGPT作弊成风引担忧,OpenAI:正在自研审核工具

 

**「对学生有负面影响」,OpenAI 除非承受这份重担。**

随着语言生成模型的问世,学校的作业是否将变得毫无意义?最近,纽约市教育官员宣布禁止学生在公立学校使用 ChatGPT,这一决定引发了广泛的讨论。

由于语言模型能够自动生成内容,且几乎能无限制地产出作品,人们对其影响的担忧已经蔓延至 AI 学术界。全球知名的机器学习会议之一 ICML 刚刚宣布,禁止发表包含 ChatGPT 或其他类似系统生成内容的论文,以免出现“意外后果”。

针对这种情况,ChatGPT 的研发者 OpenAI 表示,正在致力于开发“缓解措施”,以帮助人们检测 AI 自动生成的文本。

OpenAI 发言人表示:“我们将 ChatGPT 视为新研究的前沿技术,期望从实际应用中汲取经验。我们认为,这是开发和部署强大且安全的 AI 系统的重要环节。我们会不断吸取反馈和经验教训。”公司呼吁在使用 AI 生成文本时保持透明,并强调使用条款要求用户在使用 API 和创意工具时,首先对其面向的受众负责。OpenAI 表达了与教育工作者合作,制定有效解决方案以帮助教师和学生的期待。

如果未来出现能够区分人类和机器生成内容的算法,学术界对生成模型的使用方式可能会随之改变。学校将能更有效地限制使用人工智能产生的论文。如果人们的思维模式发生转变,开始期望这些工具真正助力学生,则我们也許能够逐渐接受 AI 辅助学习的方式,提升工作和学习的效率。

然而,前路漫漫。尽管 AI 生成的文本在学术会议和学校对机器写作的禁止政策中看似引人注目,但与真正的人类写作相比,它们常常缺乏深刻的理解与逻辑。

当 GPT-3 或 ChatGPT 这类工具因为给出令人震惊的详细答案而让人感到惊讶时,也有冷静的专家提醒我们,模型虽然能够编码知识,但在处理事情时常常会给出荒谬的答案。波莫纳学院的经济学教授 Gary Smith 提醒我们,不要被表象所迷惑。

在一篇专栏文章中,Smith 列举了多个 GPT-3 无法有效推理和回答问题的例子:“如果你尝试使用 GPT-3,最初的反应可能是惊讶,仿佛与一个非常聪明的人进行真正的对话。然而深入探究后很快就会发现,虽然 GPT-3 能以令人信服的方式将单词串在一起,但它并不理解这些单词的含义。”

“预测 ‘down’ 这个词可能跟在 ‘fell’ 这个词后面,并不要求对这两个词的含义有任何理解。AI 通过统计方法便能得出这些词常常一起出现的结论。因此,GPT-3 容易做出完全错误却又非常断然的声明。”

OpenAI 于 2022 年 11 月发布了 ChatGPT,这一较新的模型在 GPT-3 的基础上进行了改进,但依然存在和所有现有语言模型一样的问题。

### 如何用 AI 检测 AI 生成的文字?

曾几何时,AI 生成的文字内容容易被人分辨,但自从 ChatGPT 横空出世后,这一能力逐渐降低。

在教育领域,ChatGPT 争议的焦点主要集中在作弊的可能性上。在谷歌上搜索“ChatGPT 写论文”,很容易找到许多教育工作者、记者和学生通过 ChatGPT 完成家庭作业和标准化论文测试的案例。

《华尔街日报》的专栏作家曾利用 ChatGPT 撰写了一篇能拿及格分的 AP 英语论文。《福布斯》记者也用它在20分钟内完成了两篇大学论文。亚利桑那州立大学教授 Dan Gillmor 在接受《卫报》采访时回忆,他曾给 ChatGPT 布置一道作业,发现 AI 生成的论文也能够拿到好成绩。

目前,已经有开发者制作了检测 ChatGPT 生成内容的工具——“GPTZero”。只需将内容粘贴至输入框,便可在几秒内获得分析结果,快速判别一篇文章是由 ChatGPT 生成还是人类撰写的。

网友对此还调侃道:“世界各地的学生看到后都哭了。”

该工具的开发者是普林斯顿大学的学生 Edward Tian。他利用假期的一部分时间编写了 GPTZero。

让我们看看检测过程:首先以一段来自《New Yorker》的报道为例(这段文字确定由人类写作):

接着,再看一段由 ChatGPT 生成的内容,并接受检测:

GPTZero 应用程序的原理是借助一些文本属性进行分析。首先是困惑度(perplexity),即文本对模型的随机性,或语言模型对文本的“喜好”程度;其次是突发度(burstiness),用以描述机器写作的文本在一段时间内表现出的困惑度是否均匀和恒定——而人类书写的文本往往不会如此。

“同学们,对不起!教授们,不客气!”GPTZero 对此表示。

据《卫报》报道,OpenAI 目前正在开发一项功能,用于对 ChatGPT 输出结果进行“水印”统计,以便用户能够在 AI 文本中发现隐藏模式。

在德克萨斯大学的一次演讲中,OpenAI 的客座研究员 Scott Aaronson 表示,公司正在研究一种通过“对输出进行统计水印”的方案,以打击作弊。Aaronson 透露,这项技术将通过微妙地调整 ChatGPT 输出的特定单词选择来发挥作用,虽然读者并不易察觉,但对于寻找机器生成文本迹象的人来说,这在统计上是可预测的。

“我们实际上已经有一个水印方案的工作原型。”Aaronson 补充说,“根据经验,几百个词似乎足以生成一个信号,表明这段文本确实来自 GPT。”

尽管人们存在诸多担忧,但 ChatGPT 的应用迅速扩展。在许多场景中,人们希望与更懂得简单查询的聊天机器人对话,而 ChatGPT 则能恰如其分地解决这一问题。总部位于多伦多的 Ada 已与 OpenAI 合作,将 GPT-3.5 应用在客服聊天机器人上,成功完成了 45 亿次客户服务交互。

据《信息》报道,微软也与 OpenAI 签订了独家许可协议,计划将该技术整合入 Bing 搜索引擎。

ChatGPT 正在加速模拟人类的过程,而这一场打击假冒的战役仍将持续。

### 见解

这篇文章引发了对 ChatGPT 在教育领域影响的深思,尤其是其可能导致的学术诚信问题。虽然 AI 生成的内容具有一定的便利性,但这种技术也带来了不容小觑的风险,学校和教育机构必须审慎应对。OpenAI 的努力,尤其是开发检测工具与水印技术,可以为向前迈出关键一步提供帮助,但如何在充分利用 AI 助力教育的同时,保护学术诚信,仍需更深入的讨论和探索。总的来说,在技术不断发展的时代,保持透明与伦理意识显得尤为重要。

标签



热门标签