OpenAI颠覆世界:GPT-4o完全免费,实时语音视频交互震撼全场,直接进入科幻时代
ChatGPT 发布仅17个月,OpenAI 便推出了科幻电影中的超级 AI,并完全免费供公众使用。
这一消息实在令人震撼!
在各大科技公司忙于追赶多模态大模型的能力,把文本总结、图片处理等功能集成到手机中的同时,OpenAI 已经遥遥领先,直接发布了全新的产品,连自家 CEO 奥特曼都感叹:“就像电影中一样!”
在5月14日凌晨举行的首次“春季新品发布会”上,OpenAI 推出了新一代旗舰生成模型 GPT-4o、桌面应用程序,并展示了一系列令人惊叹的新功能。这一次,技术彻底颠覆了产品形态,OpenAI 用实际行动给全球科技公司上了一课。
这次发布会由 OpenAI 的首席技术官 Mira Murati 主持,她表示今天主要讲三件事:
1. OpenAI 将始终优先考虑免费产品,以使更多人能够使用。
2. 本次发布的桌面版程序和更新后的用户界面 (UI) 使用起来更简单自然。
3. 在 GPT-4 之后,新版本大模型 GPT-4o 的推出。GPT-4o 的特别之处在于,它以极为自然的交互方式为每个人提供 GPT-4 级别的智能,甚至包括免费用户。
此次 ChatGPT 更新后,大模型能够接收文本、音频和图像的任意组合输入,并实时生成文本、音频和图像的任意组合输出,这正是未来交互的全新方式。
最近,ChatGPT 开始无需注册即可使用,并新增了桌面程序,OpenAI 的目标是让人们随时随地无感使用,将 ChatGPT 融入用户的工作流中。这款 AI 现在成为了提升生产力的重要工具。
GPT-4o 作为未来人机交互新范式的全新大模型,具备文本、语音、图像三种模态的理解能力,反应迅速且情感丰富,十分贴合人性。
发布现场,OpenAI 的工程师使用一部 iPhone 演示了新模型的几大能力。其中,实时语音对话功能尤为突出,Mark Chen 提到:“我第一次来参加直播发布会,有点紧张。”ChatGPT 则回应:“要不你深呼吸一下。”
“好的,我深呼吸。”
随后 ChatGPT 立即反馈:“你这不行,喘得也太大了。”
如果你曾用过 Siri 这类语音助手,就能明显感受到其中的不同。首先,你可以随时打断 AI,无需等它说完再继续对话。其次,模型响应极快,反应速度甚至超越人类。第三,这个模型能够充分理解和展现人类情感。
随后的演示中,另一位工程师在纸上写下方程,而 ChatGPT 并不是直接给出答案,而是引导它逐步解析,显露出其在教育方面的巨大潜力。
当 ChatGPT 说:“每当你为数学问题烦恼时,我就在你身边。”这不禁让人感到温暖。
接著,工程师使用桌面版 ChatGPT 通过语音与它互动,询问一段代码的作用,ChatGPT 随即反应灵敏,为每个函数的功能能给予详尽解答。
得出的结果是一个温度曲线图,ChatGPT 还能够用简短的语言快速回应与该图相关的各种问题。
除此之外,OpenAI 还回应了社交媒体上网友们提出的一些即时问题,例如实时语音翻译。手机可以轻松用作翻译机,来回翻译西班牙语与英语。
有网友询问:“ChatGPT 能否识别你的表情?”看起来,GPT-4o 已经具备了实时视频理解的能力。
### 深入了解 OpenAI 发布的全能模型 GPT-4o
接下来要介绍的是 GPT-4o,”o” 代表 Omnimodel(全能模型)。
这是 OpenAI 首次在一个模型中综合所有模态,极大提高了大模型的实用性。
OpenAI 首席技术官 Mira Murati 表示,GPT-4o 提供了“GPT-4 级别”的智能,并在 GPT-4 的基础上进一步提升了文本、视觉和音频方面的能力,未来几周将逐步在公司产品中推出。
她提到:“GPT-4o 在语音、文本和视觉上的能力不断扩展,我们明白这些模型将变得越来越复杂,但希望用户的交互体验能够自然且简单,让用户专注于与 GPT 的合作,而无需关注界面。”
GPT-4o 在英语文本和代码方面的性能与 GPT-4 Turbo 相当,但在非英语文本方面却有显著提升,API 的响应速度也更快,成本降低了50%。相比于现有模型,GPT-4o 在视觉和音频理解方面尤其出色。
它的音频输入最快可以在 232 毫秒内响应,平均响应时间达到 320 毫秒,接近人类水平。在 GPT-4o 发布前体验过 ChatGPT 语音对话的用户都能感受到以往版本的平均延迟分别为 2.8 秒(GPT-3.5)和 5.4 秒(GPT-4)。
这种语音反应模式由三个独立模型组成管道:一个简单模型将音频转录为文本,GPT-3.5 或 GPT-4 接收文本并输出新文本,最后一个简单模型将该文本转回音频。但是,OpenAI 发现这种方法导致GPT-4丢失了大量信息,例如无法直接观察语调、多个说话者或背景噪音,也无法表达笑声、歌唱或情感。
而在 GPT-4o 环境下,OpenAI 采用了跨文本、视觉和音频的端到端模型训练,这意味着所有的输入与输出均由同一神经网络处理。
“从技术角度来看,OpenAI 发现了一种将音频直接映射为音频的方式,同时实现视频实时传输到变换器。这需要在 token 化和架构上进行一些新的研究,但总体上这是一个数据和系统优化的问题,”英伟达科学家 Jim Fan 这样评论道。
GPT-4o 能够在文本、音频和视频之间进行实时推理,这是迈向更自然的人机交互(甚至是人机机器交互)的重要一步。
OpenAI 总裁 Greg Brockman 也在线上互动,不仅让两个 GPT-4o 实时对话,还让它们即兴创作了一首歌曲,虽然旋律略显“感人”,但歌词则展现了房间的装饰风格和人物的穿着特点,以及一些小故事等。
此外,GPT-4o 在理解和生成图像方面的能力远超其他现有模型,以前看似不可能的任务现在变得触手可及。
例如,你可以让它帮忙将 OpenAI 的 logo 印制在杯垫上。
经过一段时间的技术研发,OpenAI 已基本解决了 ChatGPT 在生成字体方面的问题。
同时,GPT-4o 还具备从六个生成图像进行3D重建的能力。
对于一首诗,GPT-4o 可以将其排版成手写风格。
而更复杂的排版样式也能轻松应对。
与 GPT-4o 合作,用户只需输入几段文字,便可获得一组连续的漫画分镜,显示了其在设计领域的广泛应用。
### GPT-4o 的性能评估
OpenAI 技术团队在社交网络 X 上表示,曾在 LMSYS Chatbot Arena 上引发热议的神秘模型“im-also-a-good-gpt2-chatbot”其实是 GPT-4o 的一个版本。
在较为复杂的提示集中,特别是在编码方面,GPT-4o 相较于 OpenAI 之前的最佳模型的性能提升颇为显著。
具体来说,在多项基准测试中,GPT-4o 在文本、推理和编码智能方面达到了 GPT-4 Turbo 的水平,同时在多语言、音频和视觉功能上还打破了多项记录。
推理方面,GPT-4o 在 5-shot MMLU(常识问题)测试中创下了 87.2% 的新高(Llama3 400b 仍在训练中)。
在音频自动语音识别 (ASR) 表现方面,GPT-4o 在所有语言的语音识别能力都显著提升,尤其是针对资源匮乏的语言。
在语音翻译方面,GPT-4o 也达到了新的状态技术水平 (SOTA),并在 MLS 基准测试中超越了 Whisper-v3。
M3Exam 基准测试既是多语言评估标准,也是视觉评估标准,由来自不同国家/地区的标准化测试问题组成,包含图形和表格。在所有语言基准测试中,GPT-4o 的表现均超越 GPT-4。
未来,模型能力的提升将实现更自然、实时的语音对话,用户可以通过实时视频与 ChatGPT 进行互动。例如,用户可以向 ChatGPT 展示一场现场体育比赛,并要求其解释规则。
### ChatGPT 用户将免费享受更多高级功能
每周超过一亿的人使用 ChatGPT,OpenAI 表示,GPT-4o 的文本和图像功能已于今天在 ChatGPT 中向公众免费推出,同时向 Plus 用户提供高达五倍的消息上限。
现在打开 ChatGPT,你会发现 GPT-4o 已经可以使用。
在使用 GPT-4o 的过程中,ChatGPT 免费用户将可以体验以下功能:
– 访问 GPT-4 级别的智能服务;
– 从模型和网络获得回复。
此外,免费用户还可以通过以下方式获得更多服务:
– 分析数据并生成图表;
– 与拍摄的照片进行互动;
– 上传文件以实现总结、写作或分析帮助;
– 发现并使用 GPTs 以及 GPT 应用商店;
– 利用记忆功能打造更高效的体验。
不过,根据使用情况和需求,免费用户在发送 GPT-4o 消息的数量上会有一些限制。当限制达到时,ChatGPT 将自动切换到 GPT-3.5,以便用户能够继续对话。
此外,OpenAI 计划在未来几周内在 ChatGPT Plus 中推出新版本的语音模式——GPT-4o alpha,并通过 API 向部分信任的合作伙伴推出更多新音频和视频功能。
当然,通过多次的模型测试和迭代,GPT-4o 在各个模态下仍存在一些局限性。OpenAI 正在努力改进这些不足之处。
可以预见的是,GPT-4o 在音频模式的开启必会带来新的挑战。在安全性方面,GPT-4o 通过过滤训练数据和优化模型行为等技术,确保跨模态设计的安全性。OpenAI 还建立了新安全系统,为语音输出提供保护。
### 新桌面应用简化用户工作流程
针对免费和付费用户,OpenAI 还推出了适用于 macOS 的新 ChatGPT 桌面应用程序。用户只需简单的键盘快捷键(Option + Space),便可即时向 ChatGPT 提问,此外还可以直接在应用程序中截取截图进行讨论。
用户还可以通过计算机直接与 ChatGPT 进行语音对话,GPT-4o 的音频和视频功能将在未来推出,只需点击桌面应用程序右下角的耳机图标即可开始语音互动。
从今天开始,OpenAI 将向 Plus 用户推广 macOS 应用,并计划在未来几周内更广泛地推行。此外,今年晚些时候 OpenAI 也会推出 Windows 版本。
### 奥特曼的理念与未来愿景
在发布会结束后,OpenAI CEO 山姆·奥特曼发表了一篇博客文章,分享了他推动 GPT-4o 过程中的心路历程。
奥特曼提到:“首先,我们的使命之一是将强大的人工智能工具以免费(或优惠的价格)提供给公众。我非常自豪地宣布,我们在 ChatGPT 中免费提供世界上最好模型,没有广告或其他限制。”
他还表示,“起初,我们创立 OpenAI 的构想是创造能够为世界带来利益的人工智能。如今的局面变得有些不同,我们所创造的人工智能将被他人利用,与他们共同创造出惊人的成就,而我们每个人都将从中获益。”
“当然,作为企业,我们会发明许多收费的产品,以帮助我们能向数十亿用户提供免费而卓越的人工智能服务。”
奥特曼还强调,新的语音和视频模式是他体验过的最优秀计算交互界面,感觉就如同电影中的人工智能一样,他对其真实存在感到惊讶。显然,实现人类级别的响应时间与表达能力是一个巨大的飞跃。
初代 ChatGPT 暗示了语言界面的可能性,而 GPT-4o 的发布带来了本质的不同——它更快速、智能、有趣、自然,也更具帮助性。
他表示:“对我来说,与计算机的交互从未是件自然的事,但当我们添加个性化、访问个人信息、让 AI 帮助完成具体事务时,我能看到一个令人兴奋的未来,我们可以在更广泛的领域应用计算机。”
最后,他非常感谢团队为实现这一目标所付出的努力。
在上周的一次采访中,奥特曼提到,虽然全民基础收入(universal basic income)难以实现,但“全民免费计算(universal basic compute)”的愿景或将成为现实。未来,每个人都能免费获得 GPT 的计算能力,随意使用、转售或捐赠。
“这个想法是,随着 AI 逐渐发展并嵌入生活的各个方面,拥有如 GPT-7 这样的庞大语言模型的能力将比金钱更有价值,因为这样你拥有了部分生产力。”奥特曼如是说。
GPT-4o 的发布,或许是 OpenAI 努力朝这个目标迈出的重要一步。
是的,这仅仅是个开始。
值得一提的是,今天 OpenAI 博客中展示的“猜测5月13日的发布信息”的视频,几乎和谷歌将于明天的 I/O 大会的预热视频交错,毫无疑问地给谷歌带来了极大的压力。