OpenAI 推出 GPT-4o:你需要知道的一切
2024 年 5 月 22 日更新
昨晚,OpenAI 首席技术官 Mira Murati 向我们介绍了该公司的最新动态,并介绍了 GPT-4o。OpenAI 是否凭借这一举措取得了巨大成功?OpenAI 最大的两个竞争对手谷歌和 Anthropic 会遭遇惨败吗?我们根据 26 分钟的活动直播进行了深入分析,以下是我们的发现。
GPT-4o 介绍
在发表讲话近 3 分钟后,Mira 介绍了 GPT-4o,此前她表示 OpenAI 现在已经推出了 ChatGPT 的桌面版本。
GPT-4o 中的“o”代表 Omni,是 OpenAI 朝着更自然的人机交互迈出的一步。
GPT-4o 提供 GPT-4 级别的智能,但速度更快,并且在文本、视觉和音频方面的能力得到了提升。
我们正在展望人类与机器之间互动的未来,我们认为 GPT-4o 确实正在将这种范式转变为协作的未来,这种互动将变得更加自然和容易。 ”
GPT-4o – 解决延迟问题、访问 GPT 存储等……
到目前为止,大型语言模型(如 ChatGPT)结合使用了转录、智能和文本转语音功能,以提供语音模式。然而,早期模型存在延迟问题。
OpenAI 的 GPT-4o 通过跨语音、文本和视觉推理消除了这个问题。GPT-4o 用户现在可以获得与 GPT-4 用户相同级别的智能。
GPT-4o 对音频输入的响应时间最短为 232 毫秒,平均为 320 毫秒。
GPT-4o 用户还可以访问 ChatGPT 商店,其中已有超过一百万用户构建了自定义 GPT,这些 GPT 可以做所有事情,从设计专业徽标到帮助研究生撰写论文。
GPT-4o 还使用视觉,用户可以上传截图、图像和照片,并向 ChatGPT 询问特定问题。
ChatGPT-4o 现在还支持 50 种不同的语言,这意味着全球 97% 的互联网用户现在可以轻松地使用 ChatGPT。
ChatGPT 的付费用户将获得比免费用户最多 5 倍的容量限制的优势。
GPT-4o API
在公告中,Murati 表示,GPT-4o 可通过 OpenAI 的 API 进行商业使用,速度比目前最快的 ChatGPT 模型 GPT-4 Turbo 快两倍。
与 GPT-4 Turbo 相比,GPT-4o 也便宜了 50%,在 OpenAI 的定价页面上链接此处,每百万个代币仅需 5 美元,而 GPT-4 Turbo 则为每百万个代币 10 美元。
在公告中,Murati 表示,GPT-4o 可通过 OpenAI 的 API 进行商业使用,速度比目前最快的 ChatGPT 模型 GPT-4 Turbo 快两倍。
与 GPT-4 Turbo 相比,GPT-4o 也便宜了 50%,在 OpenAI 的定价页面上链接此处,每百万个代币仅需 5 美元,而 GPT-4 Turbo 则为每百万个代币 10 美元。
GPT-4o 走向多模式
GPT-4o 最酷的功能之一是它能够理解和响应实时对话语音。为了展示这些功能,Murati 邀请了 2 名 OpenAI 研究人员上台与聊天机器人进行真实的对话。
其中一位研究人员马克·陈 (Mark Chen) 表示自己很紧张,并要求 GPT-4o 帮助他冷静下来。聊天机器人对此的回应是要求马克深呼吸。马克试图通过深呼吸让聊天机器人失去平衡,但 ChatGPT-4o 告诉他,他“不是吸尘器”,让他冷静下来。
与 GPT-4 用户熟悉的“语音模式”相比,现在你可以随时打断模型并加入对话。你不必等待 AI 模型说完。
OpenAI 的研究人员为 GPT-4o 赋予了实时响应能力,这意味着你不必在对话之间经历尴尬的 2-3 秒停顿。最后,GPT-4o 能够理解人类的情绪(情感 AI),这本身就是技术上的重大飞跃。
那么人们使用 ChatGPT-4o 来做什么呢?
ChatGPT- 40 个用例
i)作为人工智能伴侣
你可以像和朋友聊天一样和 ChatGPT 聊天,它不仅能表达情感,还能理解情感。GPT-4o 可以使用手机的摄像头猜测你的位置,观察你的表情,判断你是高兴、生气还是悲伤。因此,GPT-4o 可以成为你正在寻找的那个值得信赖的朋友,你可以把它放在口袋里随身携带。
ii)高级客户服务语音支持
GPT-4o 现在可以无延迟地处理实时响应,并可以进行逼真的语音对话。这在客户服务行业非常有用,预算有限的公司可以部署由 GPT-4o 提供支持的聊天机器人,以提供卓越的客户服务。
Greg Brockman 还展示了两部由 ChatGPT-4o 驱动的手机相互交谈,可用于模拟对话以及为会议或面试做准备。
iii)作为会议记录员/会议人工智能
ChatGPT-4o 可用于主持会议,最后以语音形式总结整个会议。告别冗长的会议,会议中没有人说话/长时间的尴尬停顿。ChatGPT-4o 一旦获得屏幕和所有音频的访问权限,就可以指导对话并结束会议。
iv)GPT-4o 作为导师——重新思考教育
GPT-4o 将改变教育方式。聊天机器人可以引导学生了解复杂的主题,并以简单的方式进行解释。它可以根据学生的个性化需求进行定制,并针对各种科目进行编程。因此,所有人都可以学习。
v)通过视频与 ChatGPT 互动
现在,你可以通过视频与 ChatGPT 进行交互,Barret 在发布会上演示了这项功能,他要求 ChatGPT 帮助他解决一个线性方程。研究人员要求 ChatGPT 不要直接给出解决方案,而是一步一步地帮助他解决。
聊天机器人完整地演示了如何解决这个方程,并在解决问题的各个阶段回答了 Barret 提出的多个问题。
但这只是即将发生的事情的预告。虽然求解线性方程令人印象深刻,但与求解编码问题相比,求解线性方程只是一个简单的问题。
ChatGPT-4o 在这里同样大放异彩!!
vi)解决编码问题
Barret 拿出电脑,屏幕上显示他正在解决的一个复杂编码问题,需要帮助。他按下“Command +C”,并向 ChatGPT 发出简单的语音提示——“用一句话简要描述一下代码是怎么回事?”
GPT-4o 不仅能够描述代码,还能够解释在代码中添加或删除特定函数时会发生什么。
即使是经验丰富的程序员也需要至少几分钟才能给出这样的回答,但 GPT-4o 可以解释代码,就好像它是由聊天机器人自己编写的一样。
vii)实时语言翻译
Google Translate 现在面临着一些激烈的竞争,因为 OpenAI 团队展示了 GPT-4os 的翻译功能。Mira Murati 用意大利语与 ChatGPT 交谈,聊天机器人能够轻松地将句子从意大利语翻译成英语,反之亦然。
八)数据分析
GPT-4o 具有高级数据分析技能,能够分析 CSV 和 Excel 文件中的复杂数据并从中获取见解。使用 GPT-4o 可以识别趋势、发现异常值、进行预测建模,或者简单地浏览大型复杂数据集。
ix) 建筑游戏
编写游戏代码曾经是程序员测试技能最具挑战性的方式之一。但有了 ChatGPT-4o,似乎每个人都可以成为视频游戏程序员,只要有一台笔记本电脑、一个不错的互联网连接和一个聊天机器人。
一位名叫 Alvario Cintra 的 X 用户截取了一个简单的“Breakout”游戏的屏幕截图,并要求 ChatGPT 用 Python 对其进行编程。几秒钟内,聊天机器人就能给出完整的、有效的代码。超级马里奥,我们来了!!!
x) 帮助视障人士
ChatGPT-4o 可以分析和解释视觉数据,能够“看到”物体并提供相关见解和信息。不,这不是科幻小说。此功能本身的用例很多,最重要的是它可以帮助视障人士识别物体。GPT-4o 还可以帮助进行医学影像分析,以高精度检测 MRI、CT 扫描和 X 射线中的异常。
虽然这些用例本身就令人印象深刻,但我们才刚刚开始一场革命。随着时间的推移,我们相信科技爱好者会找到新的创新方法来使用 ChatGPT。
互联网做出了反应……
发布数小时后,网民们对 OpenAI 的新聊天机器人感到兴奋、紧张,甚至持怀疑态度,一些人将其与 Joaquin Phoenix 和 Scarlett Johannson 主演的电影《她》中的电脑进行比较。
埃隆·马斯克曾说过,GPT-4o“让他感到畏缩”,但随后,埃隆也公开批评 OpenAI(双关语)。
聊天机器人的用例有很多,从帮助残疾人交流到解决第三世界国家教师短缺的难题。
无论如何,OpenAI 将在未来几周内向免费用户提供 GPT-4o,我们只需拭目以待 OpenAI 能否赢得生成式人工智能之战!!
好啦,今天就到这里,如果你也想在体验ChatGPT4.0
具有GPT4对话、DALL·E3绘画、GPT4V看图助手。
可以点击下方红色链接进行使用。