OpenAI 不断扩展其 ChatGPT 产品,增加了AI 语音助手、文件和图像理解、高级研究功能、AI 代理等功能。然而,有一个明显的缺陷:缺少一个真正强大的图像生成器。
上周,OpenAI 推出了 4o 图像生成模型。该图像模型比 OpenAI 之前提供的 DALL-E 模型性能显著提升(尽管速度较慢)。它可以处理非常棘手的问题,例如逼真的图像,以及最令人印象深刻的精准文本。
例如,在直播演示中,OpenAI 首席执行官 Sam Altman 与研究员 Gabriel Goh 和 Prafulla Dhariwal 一起,引导 4o 从特定视角创建一张照片,并附上包含大量文字的传单。加载几秒钟后,4o 就准确把握了电影的走向,并准确地打印了所有文字。
它还拥有 OpenAI 以前的图像生成器所不具备的许多其他功能,例如图像引用,可用于渲染新版本的图像(例如动漫版本或自拍照)或作为创作全新作品的灵感。
由于该工具旨在融入创意人员的工作流程,它可以在透明背景上生成图像,使用十六进制代码中的特定颜色,或在生成过程中实现聊天机器人的高级对话功能。例如,在演示过程中,当系统提示在照片中添加“幽默”时,它添加了符合该条件的文字。
图像生成器可在 ChatGPT 中访问,因此用户可以通过多轮对话来优化图像。这使得调整图像更加容易,并允许模型利用前几代模型的上下文来创建新的图像。由于 GPT-4o 可以访问网络,因此该上下文也会被添加到图像创建过程中。
据介绍,GPT-4o 的图像生成还具有很强的指令遵循性。它可以处理 10 到 20 个不同的对象,这意味着你可以一次性提示它生成大量元素。
图像生成器的另一个新功能是,它现在可以创建更具风险的内容,而这正是埃隆·马斯克的Grok 模型所擅长的。在直播中,Altman 分享说,你将能够使用 GPT-4o 的图像生成功能在“合理范围内”创建冒犯性内容。在直播后的X 帖子中,Altman 补充道:
我们的目标是,除非你希望,否则该工具不会创建令人反感的内容,而如果用户希望它这样做,那么在合理的情况下,它确实会这样做。正如我们在模型规范中提到的,我们认为将这种知识自由和控制权交到用户手中是正确的做法,但我们会观察其进展情况,并倾听社会的声音。
宣布该模型的博客文章指出,它将屏蔽违反内容政策的请求,包括儿童性虐待内容和性爱深度伪造。另一项安全措施是限制真人参与场景时可以创建的内容,包括“针对裸露和暴力画面的特别严格的安全措施”。
用户可以访问系统卡以获取 4o 图像生成模型中的所有安全信息。
如何访问
更新后的图像生成功能现已在 ChatGPT 和 Sora 中推出。所有用户(包括免费用户)均可使用该模型。但是,如果您在免费版本中试用时感到不满意,那是因为激活 GPT-4o 的唯一方法是输入快捷方式“/create image”。如果您只是输入诸如“创建 XYZ 图像”之类的请求,它将默认使用 DALL-E 模型,这将渲染出质量明显较低的照片。
OpenAI 没有明确说明图像生成的限制,但在使用我的免费帐户创建了三张图片后,我被告知已达到当日限额。这意味着要获得更高的图像生成权限,您需要订阅。对于个人用户来说,最好的选择是 ChatGPT Plus,每位用户每月 20 美元,并附带许多其他特权,包括 OpenAI 的 Sora 视频生成器。在撰写本文时,我能够从我的 Plus 帐户访问图像生成器。企业和教育用户将很快获得访问权限,而开发人员将在未来几周内通过 API 访问。
DALL-E 首次发布时,它在其独立网站上运行;当时,它感觉就像是最棒、最新的。此后,它被转移到 ChatGPT 平台;在那里,该模型与 Midjourney、Google 和 Adobe 等竞争对手更 先进的图像生成模型 相比显得黯然失色。此次更新现在有助于公平竞争,使其能够更好地与其他模型竞争。但是,如果用户仍然希望访问 DALL-E,他们可以通过专用的 DALL-E GPT 进行访问。