OpenAI 允许开发人员构建实时语音应用程序——但需要支付高额费用
推荐使用国际直连GPT,立即访问: www.chatgp1.com
发送和接收实时音频将花费开发人员两倍于纯文本大型语言模型的费用。
OpenAI 的年度开发者日于周三在旧金山举行,发布了一系列产品和功能公告。此次活动的重头戏是该公司推出其实时应用程序编程接口 (API)。
开发人员可以使用此功能在推理操作期间发送和接收口语输入和输出,或使用生产大型语言模型 (LLM) 进行预测。希望这种类型的交互能够实现人与语言模型之间更流畅、实时的对话。
这项功能的价格也非常高。OpenAI 目前对 GPT-4o 大型语言模型(该模型是实时 API 的基础)的定价为每百万输入文本标记 2.50 美元,每百万输出文本标记 10 美元。
基于文本和音频 token,实时输入和输出成本至少是该费率的两倍,因为 GPT-4o 需要两种输入和输出。使用实时 API 时,GPT-4o 的输入和输出 token 成本分别为每百万 token 5 美元和 20 美元。
对于语音令牌,每百万个音频输入令牌的成本高达 100 美元,每百万个音频输出令牌的成本高达 200 美元。
OpenAI 指出,根据语音对话的标准统计数据,音频代币的定价“相当于每分钟音频输入约 0.06 美元,每分钟音频输出约 0.24 美元”。
OpenAI 给出了实时语音如何用于生成式 AI的例子,包括为人们提供建议的自动健康教练,以及可以与学生交谈以练习新语言的语言导师。
在开发者大会上,OpenAI 提供了一种降低开发者总成本的方法,即使用即时缓存,即在之前提交给模型的输入上重复使用令牌。这种方法将 GPT-4o 输入文本令牌的价格降低了一半。
周三还推出了 LLM“提炼”功能,它允许开发人员使用来自较大模型的数据来训练较小的模型。
开发人员使用一种称为“存储完成”的技术来捕获 OpenAI 功能更强大的语言模型(例如 GPT-4o)的输入和输出。然后,这些存储的完成将成为训练数据,以“微调”较小的模型(例如 GPT-4o mini)。
OpenAI 将蒸馏服务视为一种消除开发人员从大型模型训练小型模型所需的大量迭代工作的方法。
该公司在博客中表示: “到目前为止,提炼是一个多步骤、容易出错的过程,需要开发人员在不相连的工具之间手动协调多个操作,从生成数据集到微调模型和衡量性能改进。”
Distillation 是对 OpenAI 现有微调服务的补充,不同之处在于,你可以使用较大模型的输入输出对作为微调数据。该公司周三在微调服务中添加了图像微调。开发人员提交一组图像数据集,就像他们提交文本一样,以使现有模型(如 GPT-4o)更具体到某项任务或知识领域。
实践中的一个例子是食品配送服务 Grab 的工作。该公司使用真实的街道标志图像,让 GPT-4o 绘制公司的配送路线图。OpenAI 表示:“与基础 GPT-4o 模型相比,Grab 能够将车道计数准确率提高 20%,将限速标志定位准确率提高 13%,使他们能够更好地将地图绘制操作从以前的手动流程自动化。”
定价依据是将开发人员提交的每张图片分割成代币,然后定价为每百万输入代币 3.75 美元,每百万输出代币 15 美元,与标准微调相同。对于训练图像模型,成本为每百万代币 25 美元。