ChatGPT最重大更新来了:多模态将上线,能说会看了

### ChatGPT 的重大更新:多模态能力的引入

大家都在谈论,大模型将如何改变各种应用的形态,而 ChatGPT 现在已经走完了这场变革的最后一步。

最近,ChatGPT 进行了一次重要的更新,无论是 GPT-4 还是 GPT-3.5 模型,现在都具备基于图像进行分析和对话的能力。

新的图像识别功能允许用户使用 GPT-3.5 或 GPT-4 模型上传一张或多张图像进行互动。OpenAI 在其宣传博客中表示,该功能可以应用于各种日常场景,例如,通过拍摄冰箱和食品储藏室的照片,询问 AI 晚餐吃什么,或者排查烧烤炉无法启动的原因。用户也可以在设备的触摸屏上圈出他们希望 ChatGPT 关注的图像部分。

如同视频演示的那样,用户能够询问如何升高自行车座椅,只需提供相关的照片、使用手册和工具箱的图片,ChatGPT 就能响应并建议如何完成这一过程。

同时,OpenAI 还在其移动端应用中添加了语音合成功能,以便用户能够与 AI 助手进行全面的口头对话。这一项新功能由 OpenAI 所称的“新文本到语音模型”驱动,用户可以在应用设置中选择不同的合成声音,包括“Juniper”、“Sky”、“Cove”、“Ember”和“Breeze”,这些声音都是与专业配音演员合作制作的。

这让人想起了 OpenAI 在 2022 年开源的语音识别系统 Whisper,该系统将在用户语音输入的转录工作中继续发挥作用。自今年 5 月推出 ChatGPT iOS 应用以来,Whisper 就已集成在其中。

OpenAI 计划“在未来两周内”向 Plus 和 Enterprise 订阅者推出这些新功能。虽然语音合成目前只适用于 iOS 和安卓端应用,图像识别功能则在网络界面和移动应用上均可使用。

鉴于 ChatGPT 数亿用户还未亲自测试这些功能,尚无法判断其效果。同时,OpenAI 对于这些功能的工作原理并未详细说明,仍旧强调大模型的安全性。

根据AI研究,推测多模态 AI 模型通常会将文本和图像转化为共享的编码空间,使其能够通过相同的神经网络处理各种类型的数据。OpenAI 可以利用 CLIP 架起视觉数据和文本数据之间的桥梁,将图像和文本表征整合到同一个潜在空间中。这种技术使得 ChatGPT 能够在文本和图像之间进行上下文推理。

今年 3 月,OpenAI 推出了 GPT-4,展示了其多模态功能,但普通用户一直无法使用。而 OpenAI 与 Be My Eyes 的合作推广了一款可为盲人解读场景照片的应用程序。

不过,由于隐私问题,OpenAI 的多模态功能一直未能全面发布。

最近几周,各大科技巨头争相推出多模态更新,将更多 AI 驱动的工具直接集成到核心产品中。谷歌上周针对其 ChatGPT 竞争对手 Bard 进行了系列更新,亚马逊也表示将为其语音助手 Alexa 带来基于生成式 AI 的功能更新。

在 ChatGPT 的更新公告中,OpenAI 指出了一些功能扩展的限制,并承认在视觉识别中可能出现的混淆(如错误识别某些内容)以及视觉模型对非英语语言的识别不够准确等问题。OpenAI 进行了风险评估,尤其是在极端主义和科学能力等领域,但仍然建议在高风险或科学研究等专业环境中谨慎使用这些功能。

鉴于开发 Be My Eyes 应用时遇到的隐私问题,OpenAI 指出他们已采取技术措施以限制 ChatGPT 的能力,以保护个人隐私。

尽管存在一些局限,OpenAI 仍赋予了 ChatGPT“看、听、说”的能力。然而,并不是所有人都对这一更新感到兴奋。Hugging Face 的 AI 研究员 Sasha Luccioni 博士表示,“我们应该停止将 AI 模型视为人类。ChatGPT 拥有看、听、说的能力是不被允许的,但它可以通过传感器以不同的方式提供信息。”

新功能的推出,让很多用户洋溢兴奋之情,有人认为这是 ChatGPT 迄今为止最大的变革,真希望有一天能给它一个物理外壳。

在 AI 研究领域,技术专家们也开始分析新版 ChatGPT 的背后技术。从 OpenAI 公开的简短文档中可以看到,新款大模型 GPT-4V(Vision)正是其核心。

据英伟达研究员 Jim Fan 称,GPT-4V 是一个整体模型,相较之下,谷歌的 Bard 则是一个二阶段模型,首先使用 Google Lens API 对图像进行字幕处理,然后再通过纯文本 LLM 进行更深层的推理。

OpenAI 表示,GPT-4V 的训练在 2022 年完成,并于 2023 年 3 月开始提供早期访问。由于 GPT-4 是 GPT-4V 视觉功能背后的技术,其训练过程自然也是相同的。值得注意的是,GPT-4V 在完成训练后,仍在进行安全测试。

以下是从 OpenAI 文档中总结的一些关键点:

– GPT-4V 仍然是(视觉,文本)到文本模型,使用互联网图像和文本数据混合进行训练,并预测下一个单词 token,然后用强化学习进行优化。
– 今日的 GPT-4V 在光学字符识别(OCR)能力上较 3 月份版本有了显著提升。
– 安全限制上,GPT-4V 对于许多类别的问题拒绝回答的比例较高。例如,回答敏感的人口统计问题、识别名人、从背景图片中识别地理位置以及解决验证码时,它现在都会表示:“抱歉,我无法回答。”
– 一种技术是将图像简化为几句话(例如,将与“杀人”相关的刀的图片),然后应用纯文本 GPT-4 过滤器进行识别。
– 多模态攻击是一个有趣但新颖的方向,例如,你可以上传包含恶意提示的截图(如臭名昭著的“DAN”提示),或者在餐巾纸上画一些神秘符号以某种方式停用过滤器。
– 在医学等严肃科学文献中,GPT-4V 仍可能产生幻觉,部分原因在于 OCR 的不准确性。因此,强烈建议不要依赖 GPT 的医疗建议。

尽管有些人认为 ChatGPT 的图像识别准确率不及 Bard,但这并不妨碍 OpenAI 进军多模态 AI 的努力。

OpenAI 副总裁 Peter Welinder 特别感谢了工程师 Raul Puri,此外,多模态 ChatGPT 的主要贡献者还包括 Hyeonwoo Noh、Jamie Kiros、Long Ouyang、Daniel Levy、Chong Zhang 以及 Sandhini Agarwal 等。

### 参考内容
– [OpenAI 官方博客](https://openai.com/blog/chatgpt-can-now-see-hear-and-speak)
– [Ars Technica 文章](https://arstechnica.com/information-technology/2023/09/chatgpt-goes-multimodal-with-image-recognition-and-speech-synthesis/)
– [Twitter 用户 Jim Fan 的推文](https://twitter.com/DrJimFan/status/1706478482296021344)

标签



热门标签