OpenAI 推出 GPTBot,用于抓取公共网络数据进行 AI 训练

OpenAI 发布了一款名为 GPTBot 的新网络爬虫,用于从互联网上收集公开数据,用于训练 AI 模型。此次发布正值近期争议不断之际,科技公司被指控未经明确同意就抓取网站数据,以支持 GPT-4 等大型语言模型。

GPTBot 旨在更加透明,正确识别自身,以便网站管理员可以允许或禁止访问。该机器人使用用户代理令牌“GPTBot”和完整的用户代理字符串,明确表明它来自 OpenAI。

OpenAI 表示,GPTBot 只会访问不需要付费登录、不收集个人身份用户数据或包含违反政策的文本的网站。该公司声称,允许该机器人可以帮助提高 AI 系统的准确性和能力。

网站管理员可以通过将 GPTBot 的用户代理令牌添加到 robots.txt 文件中来完全阻止它。他们还可以有选择地允许访问某些目录,同时限制其他目录。OpenAI 已发布GPTBot 使用的IP 范围,以便网站可以识别其流量。

此次发布反映了 OpenAI 对近期大型语言模型(如 GPT-4)未经明确批准就使用网站数据进行训练的强烈反对。批评者认为,即使内容是公开的,它仍应要求 AI 训练选择加入协议。人们还担心,当内容输入 AI 系统时,可能会被断章取义。

GPTBot 的推出凸显了使用公开数据开发 AI 模型的灰色地带,这些模型可以从大型训练数据集中受益。它体现了随着 AI 能力的提高而出现的道德争论。展望未来,需要更清晰的隐私准则和道德框架来找到正确的平衡。


好啦,今天就到这里,如果你也想在体验ChatGPT4.0

具有GPT4对话、DALL·E3绘画、GPT4V看图助手。

可以点击下方红色链接进行使用。

https://chatgp4.com

标签



热门标签