chatgpt发布最新版本GPT-4o模型

2024 年 5 月 13 日OpenAI 正式发布了最新版本的聊天模型 GPT-4o。“o”代表“omni”,象征着我们在实现自然人机交互方面迈出了革命性的一步。GPT-4o 不仅接收文本输入,还支持音频、图像和视频的任意组合,输出形式同样可以是文本、音频或图像。

模型版本

GPT-4o(“o”代表“o​​mni”)是朝着更自然的人机交互迈出的一步——它接受文本、音频、图像和视频的任意组合作为输入,并生成文本、音频和图像的任意组合输出。它可以在最短 232 毫秒内响应音频输入,平均为 320 毫秒,这与人类的反应时间相似(在新窗口中打开)在对话中。它在英语和代码文本上的表现与 GPT-4 Turbo 相当,在非英语语言文本上的表现有显著改善,同时在 API 上也更快、更便宜 50%。与现有模型相比,GPT-4o 在视觉和音频理解方面尤其出色。

 

主要特性

全模态支持

GPT-4o 可以接受和生成多种模态的内容,包括文本、音频、图像和视频。这意味着无论你是通过语音、文本还是视觉数据与模型互动,它都能理解并作出相应的响应。

高效响应时间

在音频输入的响应时间上,GPT-4o 达到了人类对话般的响应速度,在最短 232 毫秒内即可回应,平均为 320 毫秒。这使得实时对话体验更加流畅自然。

性能提升

相比之前的模型,GPT-4o 在英文和编程语言上的表现与 GPT-4 Turbo 相当,并且在非英语语言处理上有显著提升。此外,GPT-4o 在 API 响应速度加快了 50%,更具成本效益。

视觉与音频理解的卓越表现

与现有模型相比,GPT-4o 在视觉和音频理解方面表现尤为出色。它能够更准确地捕捉和理解多种复杂的视觉和音频特征,提供更丰富的交互体验。

创新之处

在 GPT-4o 之前,语音模式基于三个独立模型的管道:将音频转录为文本、使用 GPT-3.5 或 GPT-4 处理文本并输出文本,最后再将文本转换回音频。这个过程导致了大量信息的丢失,模型无法直接理解语调、多个说话者或背景噪音,也无法输出情感丰富的音频反馈。

GPT-4o 则是我们第一个在同一神经网络中端到端训练的全模态模型,能够直接处理所有输入和输出类型。这不仅大大提升了数据处理的完整性,还增强了模型的智能化表现,使其更接近人类的认知和理解方式。

在线免费体验GPT-4o模型

标签



热门标签