OpenAI 宣布建立数据合作伙伴关系，以实现 AI 训练集的多样化

管理员 6 月 30, 2024 350 0

人工智能研究实验室 OpenAI 宣布了一项雄心勃勃的新计划，名为“数据合作伙伴关系”，旨在与第三方合作构建更多样化、更全面的数据集来训练人工智能模型。

该公司在一篇博客文章中解释说，数据合作伙伴关系的目标是使创建模型能够更深入地了解所有主题、行业、文化和语言。

为了最终实现安全且对全人类有益的 AGI，我们希望 AI 模型能够深入了解所有主题、行业、文化和语言，这需要尽可能广泛的训练数据集。

OpenAI 希望通过扩展用于模型训练的数据源，使其不再局限于网上现有的数据，从而引领人工智能的未来朝着包容性的方向发展，为不同语言、不同地区和各行各业的人们提供价值。

该公司目前邀请两种方式合作：

开源档案： OpenAI 正在寻求合作伙伴，帮助构建一个公共开源数据集，任何人都可以使用它来训练 AI 模型。该公司表示，他们还将探索使用它来安全地训练其他开源模型 [他们自己]”。
私有数据集：组织还可以直接与 OpenAI 合作，将其私有数据纳入 OpenAI 专有基础模型和自定义模型的训练中，同时保留对数据隐私和访问的控制。

OpenAI 已与早期数据合作伙伴关系下的多个组织建立了合作伙伴关系，包括冰岛政府和法律非营利组织Free Law Project。这些合作提高了冰岛语模型的性能和对法律文件的理解。

该公司表示，其最先进的内部技术提供先进的光学字符识别和自动语音识别，可以促进各种数据类型和模式的数字化和结构化。

训练数据的多样性和广度对于开发功能强大且具有社会意识的 AI 系统至关重要。在狭窄数据集上训练的模型可能会无意中放大有害偏见，并且无法跨越地理和文化界限进行推广。通过将数据源扩展到现成的在线内容之外，OpenAI 旨在训练能够更好地体现更具包容性观点的模型。

如果您有兴趣探索合作伙伴关系，请填写此表格联系 OpenAI 团队。

好啦，今天就到这里，如果你也想在体验ChatGPT4.0

具有GPT4对话、DALL·E3绘画、GPT4V看图助手。

可以点击下方红色链接进行使用。

近期文章