字节自研大模型,却因用ChatGPT被封号惹争议?官方回应了
没想到,字节跳动的大模型项目以这种方式曝光。
上周末,有外媒报道称,字节跳动在使用 OpenAI 技术开发自家大语言模型时,因违反 OpenAI 的服务条款而导致账号被禁用。
据 The Verge 报道,字节跳动内部正在研发的大语言模型项目被称为“种子计划”(Project Seed)。由于训练大模型需要大量的问答知识,该项目一直在秘密采用 OpenAI 的技术来丰富其数据集。
在大模型领域,利用其他 AI 生成的内容进行训练的做法并不少见,但经常会被视为一种越界行为。在 ChatGPT 上,滥用 AI 生成的数据直接违反了 OpenAI 的服务条款,规定其模型输出不能用于“开发与我们的产品和服务竞争的人工智能模型”。
在11月14日 OpenAI 针对 ChatGPT 和 DALL·E 更新的条款中,还明确规定用户:
– 不得进行逆向工程、反编译或参与模型提取或窃取,包括模型和系统;
– 不得以自动或程序的方式提取生成内容;
– 不得将 ChatGPT 生成的内容伪装成人类创作的内容。
OpenAI 对于违规用户的处理措施是,在发出通知后终止其服务。
完整协议可以查看:[OpenAI 使用条款](https://openai.com/policies/business-terms)。
那么,字节跳动的“种子计划”具体内容是什么,以及如何被怀疑违反 OpenAI 使用条款的呢?
根据 The Verge 获得的内部文件,字节跳动在“种子计划”的早期阶段使用了 OpenAI 的技术,并在几个月前指示团队在模型开发的任何阶段停止使用 GPT 生成的文本。大约在同一时期,字节跳动发布了自有 AI 大模型——豆包(Doubao)。
相关员工清楚自己的行为,并讨论过如何通过“数据脱敏”方式规避问题。然而,他们仍然经常达到 OpenAI API 的最大访问限额。
当地时间周五,OpenAI 宣布字节跳动的账户已被暂停。
OpenAI 的发言人 Niko Felix 在给 The Verge 的一份声明中表示:“所有 API 客户都必须遵守 OpenAI 的使用条款,以确保我们的技术得到合适的使用。尽管字节跳动对我们 API 的使用量很少,但在进一步调查的同时,我们已暂停他们的账户。如果最终发现字节跳动的使用不符合政策,则将要求他们进行必要的更改或终止他们的账户。”
字节跳动的发言人 Jodi Seth 对此回应,否认公司有任何不当行为,并澄清其已有使用 GPT API 的权限。她表示:“字节跳动已获得微软授权,可以使用 GPT API。GPT 生成的数据仅用于种子计划的早期开发阶段,并已于今年年中从字节跳动的训练数据中移除。我们使用 GPT 支持非中国市场的产品和功能,而在中国市场则使用自研模型来支持豆包。”
同时,微软发言人 Frank Shaw 也发表声明称,“像 Azure OpenAI 服务这样的 AI 解决方案是我们有限访问框架的一部分,所有客户必须申请并获得微软批准方可访问。我们制定标准和提供资源,帮助客户负责任地使用这些技术,并遵守相关服务条款。我们还建立流程来检测滥用行为,并在企业违反准则时终止其访问权限。”
12月17日,字节跳动相关负责人在回应机器之心的置评请求时表示,公司在使用 OpenAI 相关服务时强调遵守其使用条款,并正在与 OpenAI 沟通以澄清外部报道可能引发的误解。
字节跳动对使用 OpenAI 服务的情况介绍如下:
1. 今年年初,技术团队开始进行大模型的初步探索时,一些工程师将 GPT 的 API 服务应用于较小模型的实验项目。这一模型仅为测试用途,没有计划上线,也从未对外使用。在4月公司引入 GPT API 调用规范检查后,这种做法已停止。
2. 早在今年4月,字节大模型团队已明确提出内部要求,不得将 GPT 模型生成的数据添加到字节大模型的训练数据集中,并培训工程师团队在使用 GPT 时遵守服务条款。
3. 9月,公司内部进行了检查,采取措施进一步确保对 GPT 的 API 调用符合规范要求,例如分批次抽样检测模型训练数据与 GPT 的相似度,避免数据标注人员私自使用 GPT。
4. 未来几天,我们将再次全面检查,以确保严格遵守相关服务的使用条款。
自 ChatGPT 发布以来,各大科技公司迅速推进与其匹敌的竞品研发,但由于面向 C 端和海外市场而面临更多技术与法规挑战,字节对大模型的宣传相对低调。今年6月,火山引擎发布了大模型平台火山方舟;8月,字节自研大模型“云雀”通过备案,开启了 AI 对话产品“豆包”的对外测试。
在技术与应用方面,今年的生成式 AI 可谓取得了飞跃性进展,但在安全和隐私保护问题上,人们仍然存在诸多顾虑。
### 参考链接
– [The Verge 报道](https://www.theverge.com/2023/12/15/24003151/bytedance-china-openai-microsoft-competitor-llm)
– [Business Insider 报道](https://www.businessinsider.com/bytedance-openai-tech-artificial-intelligence-tiktok-sam-altman-2023-12)