OpenAI颠覆世界：GPT-4o完全免费，实时语音视频交互震撼全场，直接进入科幻时代

管理员 11 月 10, 2024 408 0

ChatGPT 问世仅17个月，OpenAI 已推出科幻电影中的超级AI，且完全免费，人人可用！

这一消息真是令人震撼！

在各大科技公司忙于追赶多模态大模型的脚步，试图将文本总结、图片处理等功能植入手机时，OpenAI 已经遥遥领先，直接发布了全新产品，连自家 CEO 薪梅·奥特曼都不禁惊叹：“就像电影里的情节！”

在5月14日凌晨首次举行的“春季新品发布会”上，OpenAI 推出了其新一代旗舰生成模型——GPT-4o、全新桌面应用程序，并展示了一系列令人惊叹的新功能。这一技术进步彻底颠覆了产品形态，OpenAI 的表现为全球的科技公司上了一堂重要课。

发布会由 OpenAI 的首席技术官 Mira Murati 主持，她表示此次发布的重点有三：

1. OpenAI 将始终优先考虑免费服务，以便更多人能够使用这一技术。
2. 本次发布的桌面版本程序和更新后的用户界面 (UI) 更加简洁易用。
3. 在 GPT-4 撤退后，新版本大模型 GPT-4o 正式登场。GPT-4o 的独特之处在于，无论用户是否付费，都能以自然的互动方式享受到 GPT-4 级别的智能。

GPT-4o 使得大模型能够接受文本、音频与图像的任意组合作为输入，并实时产生文本、音频与图像的任意组合输出，这标志着未来交互的全新可能。

最近，ChatGPT 开始无需注册就可以访问，今天又推出了桌面程序，OpenAI 的目标是实现无缝、随时随地的使用体验，让 ChatGPT 成为用户工作流中的一部分。这款 AI 现在成为了生产力的象征。

GPT-4o 是面向未来人机交互的新一代大模型，具备文本、语音、图像三种模态的理解能力，反应迅速且充满人性化情感。

在发布会上，OpenAI 的工程师展示了新模型的几项主要能力。其中，实时语音对话功能尤为突出。Mark Chen 说：“我第一次来参加直播发布会，有点紧张。”ChatGPT则回应道：“要不你深呼吸一下。”随后，ChatGPT 继续指出：“这不行，喘得太大声了。”

与 Siri 等传统语音助手相比，这里展现了明显的不同之处。用户可以随时打断 AI，不必等到它说完。此外，模型响应迅速，反馈速度甚至快于人类，并且能够深刻理解人类情感，表露出多种情感。

接下来，展示了其视觉能力。一名工程师在纸上写下方程，ChatGPT 不是简单地给出答案，而是逐步讲解解决办法，显示出其在教学中的巨大潜力。

随后，演示了 GPT-4o 的编程能力。工程师通过桌面版 ChatGPT 使用语音询问代码功能，ChatGPT 迅速反应，详细解释代码的用途和某个函数的作用。

其输出结果可视化为一个温度曲线图，ChatGPT 不仅能快速回答与之相关的问题，还能给出准确的解答。

OpenAI 还实时回应了社交媒体上网友提出的问题，例如：新模型能否用于实时语音翻译，工程师展示了如何将手机用作翻译机，在西班牙语和英语之间即时翻译。

另外，有人询问道：“ChatGPT 能识别我的表情吗？”这表明，GPT-4o 也正朝着实时视频理解的方向发展。

### 深入了解 OpenAI 今日发布的技术创新

**全能模型 GPT-4o**

接下来引入的是 GPT-4o，其中的 “o”代表 Omnimodel（全能模型）。这一次，OpenAI 首次在一个模型中集成了所有模态，大幅提升了大模型的实用性。

OpenAI 首席技术官 Mira Murati 表示，GPT-4o 提供了“GPT-4 水平”的智能，且在文本、视觉和音频能力上进行了改进，未来几周将通过迭代逐步推出。

她表示：“GPT-4o 整合了语音、文本和视觉的优势，虽然模型复杂度提升，但我们的目标是实现更加自然和简单的交互体验，让用户全心专注于与 GPT 的协作，而非用户界面。”

GPT-4o 在英语文本和编码方面表现与 GPT-4 Turbo 相当，但在非英语文本上有显著提升，同时 API 的速度也更快，成本降低了50%。该模型在视觉和音频理解方面尤其出色，能够在极短的时间内响应音频输入。

与新模型相比，GPT-4o 以前的用户平均延迟从2.8秒（GPT-3.5）和5.4秒（GPT-4）降低至 320 毫秒，展现出惊人的实时反馈能力。GPT-4o 使用了统一的神经网络来处理所有输入和输出，大大提高了交流的效率和准确性。

### 开放性与未来的展望

OpenAI 总裁 Greg Brockman 在发布会上还展示了 GPT-4o 实时对话的能力。两个 GPT-4o 模型不仅进行了对话，还即兴创作了一首歌曲。尽管旋律略显“感人”，但歌词完整涵盖了房间装饰、人物服装等元素，显示出其创作潜能。

此外，GPT-4o 在理解和生成图像方面的能力远超现有模型，许多曾被认为是不可能的任务如今变得轻而易举。例如，它可以将 OpenAI 的 logo 打印到杯垫上。

通过新一代技术的突破，GPT-4o 还可以生成3D视觉内容，实现从多张图像进行3D重建。

在文本排版上，GPT-4o 则能将诗作排版为手写样式，甚至更复杂的设计也不在话下。

与此同时，用户只需输入简短文本，就能获得一组连续的漫画分镜，展示了其在设计领域的广泛应用。

### GPT-4o 的性能评估

OpenAI 技术团队在社交平台 X 上表示，之前备受关注的神秘模型“im-also-a-good-gpt2-chatbot”其实就是 GPT-4o 的一个版本。

在编码和其他复杂的提示设置上，GPT-4o 相比之前的最佳模型有了显著的性能提升。

在多项基准测试中，GPT-4o 在文本、推理和编码智能方面达到了 GPT-4 Turbo 的水平，并在多语言、音频和视觉功能上取得了新的突破。

OpenAI 还预测，未来模型将实现更加自然和实时的语音对话，用户甚至可以用实时视频与 ChatGPT 交流。

### ChatGPT 用户将免费享受更多高级功能

根据统计，每周有超过一亿人使用 ChatGPT。 OpenAI 表示，GPT-4o 的文本和图像功能已经开始在 ChatGPT 中向公众免费推出，Plus 用户的消息限制将更高，提供了更多的使用空间。

现在打开 ChatGPT，用户会发现 GPT-4o 已经可以使用。

在使用 GPT-4o 的过程中，ChatGPT 的免费用户能够体验到以下诸多功能，包括：

– GPT-4 级别智能的交互
– 从模型和网络获取智慧响应
– 分析数据并生成图表
– 与拍摄的照片进行互动
– 上传文件以获得总结、写作或分析帮助
– 发现与使用 GPTs 及 GPT 应用商店
– 通过记忆功能创建更有用的使用体验

当然，根据使用量和需求，免费的 GPT-4o 消息数量将受到一定限制。当用户达到限制时，ChatGPT 会自动切换到 GPT-3.5 以继续对话。

OpenAI 表示将在未来几周内在 ChatGPT Plus 中推出新版本的语音模式——GPT-4o alpha，并向部分有信任基础的合作伙伴开放更多新功能。

值得一提的是，尽管经过多次测试，GPT-4o 在各个模态上仍然存在一些局限性。OpenAI 正在努力改进这些缺陷，并希望通过跨模态设计增强安全性。

相较于传统模型，GPT-4o 在安全性方面进行了更多考虑，包括过滤训练数据和对模型行为的细致评估。OpenAI 还推出了新安全系统，以保护语音输出的安全性。

### 新桌面应用提升用户体验

为免费和付费用户，OpenAI 新推出了适用于 macOS 的 ChatGPT 桌面应用。通过简单的键盘快捷键（Option + Space），用户可以快速与 ChatGPT 进行互动，甚至可以直接截取屏幕截图进行探讨。

用户还可以通过计算机与 ChatGPT 进行语音对话，GPT-4o 的音频和视频功能在未来会进一步推出。

从今天开始，OpenAI 将向 Plus 用户推广 macOS 应用，并将在未来几周内更广泛地推出。此外，Windows 版本计划稍后发布。

### 奥特曼的理念与未来愿景

在发布结束后，OpenAI CEO 山姆·奥特曼再次发表博客文章，分享了推动 GPT-4o 实现过程中的深刻体会。

奥特曼提到：“首先，我们的使命是将强大的人工智能工具以免费或优惠的价格提供给大众。今天，我自豪地宣布，我们在 ChatGPT 中免费提供世界上最优秀的模型，没有广告或附加条件。如今的目标是创造出一个人人都有机会受益的人工智能环境。”

他还强调新语音和视频模式的突破，称其为“我使用过的最优秀的交互界面”，并表示他仍为其真实的存在感到惊讶。与传统交互方式相比，GPT-4o 显示出了更快、更有智慧且极具友好感的新特性。

最终，奥特曼指出，未来每个人都将能够免费享有 GPT 的计算能力，这一开创性想法或许将引领未来的发展方向。

随着 GPT-4o 的问世，或许正是 OpenAI 努力实践这一理念的重要一步。

### 结语

总而言之，这只是一个开始。OpenAI 在博客中提到的“猜测5月13日的发布内容”的视频，与谷歌将于明天召开的 I/O 大会的预告几乎相撞，这无疑为谷歌带来了巨大压力。

你对此有何看法？让我们共同期待未来 AI 发展带来的无限可能。

OpenAI颠覆世界：GPT-4o完全免费，实时语音视频交互震撼全场，直接进入科幻时代

标签

近期文章

友情链接

归档

分类

热门标签

标签

相关推荐

近期文章

友情链接

归档

分类

热门标签