OpenAI颠覆世界：GPT-4o完全免费，实时语音视频交互震撼全场，直接进入科幻时代

管理员 11 月 10, 2024 373 0

ChatGPT 发布仅17个月，OpenAI 便推出了科幻电影中的超级 AI，并完全免费供公众使用。

这一消息实在令人震撼！

在各大科技公司忙于追赶多模态大模型的能力，把文本总结、图片处理等功能集成到手机中的同时，OpenAI 已经遥遥领先，直接发布了全新的产品，连自家 CEO 奥特曼都感叹：“就像电影中一样！”

在5月14日凌晨举行的首次“春季新品发布会”上，OpenAI 推出了新一代旗舰生成模型 GPT-4o、桌面应用程序，并展示了一系列令人惊叹的新功能。这一次，技术彻底颠覆了产品形态，OpenAI 用实际行动给全球科技公司上了一课。

这次发布会由 OpenAI 的首席技术官 Mira Murati 主持，她表示今天主要讲三件事：

1. OpenAI 将始终优先考虑免费产品，以使更多人能够使用。
2. 本次发布的桌面版程序和更新后的用户界面 (UI) 使用起来更简单自然。
3. 在 GPT-4 之后，新版本大模型 GPT-4o 的推出。GPT-4o 的特别之处在于，它以极为自然的交互方式为每个人提供 GPT-4 级别的智能，甚至包括免费用户。

此次 ChatGPT 更新后，大模型能够接收文本、音频和图像的任意组合输入，并实时生成文本、音频和图像的任意组合输出，这正是未来交互的全新方式。

最近，ChatGPT 开始无需注册即可使用，并新增了桌面程序，OpenAI 的目标是让人们随时随地无感使用，将 ChatGPT 融入用户的工作流中。这款 AI 现在成为了提升生产力的重要工具。

GPT-4o 作为未来人机交互新范式的全新大模型，具备文本、语音、图像三种模态的理解能力，反应迅速且情感丰富，十分贴合人性。

发布现场，OpenAI 的工程师使用一部 iPhone 演示了新模型的几大能力。其中，实时语音对话功能尤为突出，Mark Chen 提到：“我第一次来参加直播发布会，有点紧张。”ChatGPT 则回应：“要不你深呼吸一下。”

“好的，我深呼吸。”

随后 ChatGPT 立即反馈：“你这不行，喘得也太大了。”

如果你曾用过 Siri 这类语音助手，就能明显感受到其中的不同。首先，你可以随时打断 AI，无需等它说完再继续对话。其次，模型响应极快，反应速度甚至超越人类。第三，这个模型能够充分理解和展现人类情感。

随后的演示中，另一位工程师在纸上写下方程，而 ChatGPT 并不是直接给出答案，而是引导它逐步解析，显露出其在教育方面的巨大潜力。

当 ChatGPT 说：“每当你为数学问题烦恼时，我就在你身边。”这不禁让人感到温暖。

接著，工程师使用桌面版 ChatGPT 通过语音与它互动，询问一段代码的作用，ChatGPT 随即反应灵敏，为每个函数的功能能给予详尽解答。

得出的结果是一个温度曲线图，ChatGPT 还能够用简短的语言快速回应与该图相关的各种问题。

除此之外，OpenAI 还回应了社交媒体上网友们提出的一些即时问题，例如实时语音翻译。手机可以轻松用作翻译机，来回翻译西班牙语与英语。

有网友询问：“ChatGPT 能否识别你的表情？”看起来，GPT-4o 已经具备了实时视频理解的能力。

### 深入了解 OpenAI 发布的全能模型 GPT-4o

接下来要介绍的是 GPT-4o，”o” 代表 Omnimodel（全能模型）。

这是 OpenAI 首次在一个模型中综合所有模态，极大提高了大模型的实用性。

OpenAI 首席技术官 Mira Murati 表示，GPT-4o 提供了“GPT-4 级别”的智能，并在 GPT-4 的基础上进一步提升了文本、视觉和音频方面的能力，未来几周将逐步在公司产品中推出。

她提到：“GPT-4o 在语音、文本和视觉上的能力不断扩展，我们明白这些模型将变得越来越复杂，但希望用户的交互体验能够自然且简单，让用户专注于与 GPT 的合作，而无需关注界面。”

GPT-4o 在英语文本和代码方面的性能与 GPT-4 Turbo 相当，但在非英语文本方面却有显著提升，API 的响应速度也更快，成本降低了50%。相比于现有模型，GPT-4o 在视觉和音频理解方面尤其出色。

它的音频输入最快可以在 232 毫秒内响应，平均响应时间达到 320 毫秒，接近人类水平。在 GPT-4o 发布前体验过 ChatGPT 语音对话的用户都能感受到以往版本的平均延迟分别为 2.8 秒（GPT-3.5）和 5.4 秒（GPT-4）。

这种语音反应模式由三个独立模型组成管道：一个简单模型将音频转录为文本，GPT-3.5 或 GPT-4 接收文本并输出新文本，最后一个简单模型将该文本转回音频。但是，OpenAI 发现这种方法导致GPT-4丢失了大量信息，例如无法直接观察语调、多个说话者或背景噪音，也无法表达笑声、歌唱或情感。

而在 GPT-4o 环境下，OpenAI 采用了跨文本、视觉和音频的端到端模型训练，这意味着所有的输入与输出均由同一神经网络处理。

“从技术角度来看，OpenAI 发现了一种将音频直接映射为音频的方式，同时实现视频实时传输到变换器。这需要在 token 化和架构上进行一些新的研究，但总体上这是一个数据和系统优化的问题，”英伟达科学家 Jim Fan 这样评论道。

GPT-4o 能够在文本、音频和视频之间进行实时推理，这是迈向更自然的人机交互（甚至是人机机器交互）的重要一步。

OpenAI 总裁 Greg Brockman 也在线上互动，不仅让两个 GPT-4o 实时对话，还让它们即兴创作了一首歌曲，虽然旋律略显“感人”，但歌词则展现了房间的装饰风格和人物的穿着特点，以及一些小故事等。

此外，GPT-4o 在理解和生成图像方面的能力远超其他现有模型，以前看似不可能的任务现在变得触手可及。

例如，你可以让它帮忙将 OpenAI 的 logo 印制在杯垫上。

经过一段时间的技术研发，OpenAI 已基本解决了 ChatGPT 在生成字体方面的问题。

同时，GPT-4o 还具备从六个生成图像进行3D重建的能力。

对于一首诗，GPT-4o 可以将其排版成手写风格。

而更复杂的排版样式也能轻松应对。

与 GPT-4o 合作，用户只需输入几段文字，便可获得一组连续的漫画分镜，显示了其在设计领域的广泛应用。

### GPT-4o 的性能评估

OpenAI 技术团队在社交网络 X 上表示，曾在 LMSYS Chatbot Arena 上引发热议的神秘模型“im-also-a-good-gpt2-chatbot”其实是 GPT-4o 的一个版本。

在较为复杂的提示集中，特别是在编码方面，GPT-4o 相较于 OpenAI 之前的最佳模型的性能提升颇为显著。

具体来说，在多项基准测试中，GPT-4o 在文本、推理和编码智能方面达到了 GPT-4 Turbo 的水平，同时在多语言、音频和视觉功能上还打破了多项记录。

推理方面，GPT-4o 在 5-shot MMLU（常识问题）测试中创下了 87.2% 的新高（Llama3 400b 仍在训练中）。

在音频自动语音识别 (ASR) 表现方面，GPT-4o 在所有语言的语音识别能力都显著提升，尤其是针对资源匮乏的语言。

在语音翻译方面，GPT-4o 也达到了新的状态技术水平 (SOTA)，并在 MLS 基准测试中超越了 Whisper-v3。

M3Exam 基准测试既是多语言评估标准，也是视觉评估标准，由来自不同国家/地区的标准化测试问题组成，包含图形和表格。在所有语言基准测试中，GPT-4o 的表现均超越 GPT-4。

未来，模型能力的提升将实现更自然、实时的语音对话，用户可以通过实时视频与 ChatGPT 进行互动。例如，用户可以向 ChatGPT 展示一场现场体育比赛，并要求其解释规则。

### ChatGPT 用户将免费享受更多高级功能

每周超过一亿的人使用 ChatGPT，OpenAI 表示，GPT-4o 的文本和图像功能已于今天在 ChatGPT 中向公众免费推出，同时向 Plus 用户提供高达五倍的消息上限。

现在打开 ChatGPT，你会发现 GPT-4o 已经可以使用。

在使用 GPT-4o 的过程中，ChatGPT 免费用户将可以体验以下功能：

– 访问 GPT-4 级别的智能服务；
– 从模型和网络获得回复。

此外，免费用户还可以通过以下方式获得更多服务：

– 分析数据并生成图表；
– 与拍摄的照片进行互动；
– 上传文件以实现总结、写作或分析帮助；
– 发现并使用 GPTs 以及 GPT 应用商店；
– 利用记忆功能打造更高效的体验。

不过，根据使用情况和需求，免费用户在发送 GPT-4o 消息的数量上会有一些限制。当限制达到时，ChatGPT 将自动切换到 GPT-3.5，以便用户能够继续对话。

此外，OpenAI 计划在未来几周内在 ChatGPT Plus 中推出新版本的语音模式——GPT-4o alpha，并通过 API 向部分信任的合作伙伴推出更多新音频和视频功能。

当然，通过多次的模型测试和迭代，GPT-4o 在各个模态下仍存在一些局限性。OpenAI 正在努力改进这些不足之处。

可以预见的是，GPT-4o 在音频模式的开启必会带来新的挑战。在安全性方面，GPT-4o 通过过滤训练数据和优化模型行为等技术，确保跨模态设计的安全性。OpenAI 还建立了新安全系统，为语音输出提供保护。

### 新桌面应用简化用户工作流程

针对免费和付费用户，OpenAI 还推出了适用于 macOS 的新 ChatGPT 桌面应用程序。用户只需简单的键盘快捷键（Option + Space），便可即时向 ChatGPT 提问，此外还可以直接在应用程序中截取截图进行讨论。

用户还可以通过计算机直接与 ChatGPT 进行语音对话，GPT-4o 的音频和视频功能将在未来推出，只需点击桌面应用程序右下角的耳机图标即可开始语音互动。

从今天开始，OpenAI 将向 Plus 用户推广 macOS 应用，并计划在未来几周内更广泛地推行。此外，今年晚些时候 OpenAI 也会推出 Windows 版本。

### 奥特曼的理念与未来愿景

在发布会结束后，OpenAI CEO 山姆·奥特曼发表了一篇博客文章，分享了他推动 GPT-4o 过程中的心路历程。

奥特曼提到：“首先，我们的使命之一是将强大的人工智能工具以免费（或优惠的价格）提供给公众。我非常自豪地宣布，我们在 ChatGPT 中免费提供世界上最好模型，没有广告或其他限制。”

他还表示，“起初，我们创立 OpenAI 的构想是创造能够为世界带来利益的人工智能。如今的局面变得有些不同，我们所创造的人工智能将被他人利用，与他们共同创造出惊人的成就，而我们每个人都将从中获益。”

“当然，作为企业，我们会发明许多收费的产品，以帮助我们能向数十亿用户提供免费而卓越的人工智能服务。”

奥特曼还强调，新的语音和视频模式是他体验过的最优秀计算交互界面，感觉就如同电影中的人工智能一样，他对其真实存在感到惊讶。显然，实现人类级别的响应时间与表达能力是一个巨大的飞跃。

初代 ChatGPT 暗示了语言界面的可能性，而 GPT-4o 的发布带来了本质的不同——它更快速、智能、有趣、自然，也更具帮助性。

他表示：“对我来说，与计算机的交互从未是件自然的事，但当我们添加个性化、访问个人信息、让 AI 帮助完成具体事务时，我能看到一个令人兴奋的未来，我们可以在更广泛的领域应用计算机。”

最后，他非常感谢团队为实现这一目标所付出的努力。

在上周的一次采访中，奥特曼提到，虽然全民基础收入（universal basic income）难以实现，但“全民免费计算（universal basic compute）”的愿景或将成为现实。未来，每个人都能免费获得 GPT 的计算能力，随意使用、转售或捐赠。

“这个想法是，随着 AI 逐渐发展并嵌入生活的各个方面，拥有如 GPT-7 这样的庞大语言模型的能力将比金钱更有价值，因为这样你拥有了部分生产力。”奥特曼如是说。

GPT-4o 的发布，或许是 OpenAI 努力朝这个目标迈出的重要一步。

是的，这仅仅是个开始。

值得一提的是，今天 OpenAI 博客中展示的“猜测5月13日的发布信息”的视频，几乎和谷歌将于明天的 I/O 大会的预热视频交错，毫无疑问地给谷歌带来了极大的压力。

OpenAI颠覆世界：GPT-4o完全免费，实时语音视频交互震撼全场，直接进入科幻时代

标签

近期文章

友情链接

归档

分类

热门标签

标签

相关推荐

近期文章

友情链接

归档

分类

热门标签